
En esta lección damos la bienvenida y la introducción al curso.
En esta lección daremos una breve introducción sobre Big Data.
En esta lección hablaremos de los principales componentes de Apache Spark y daremos una breve descripción de cada uno de ellos.
En esta lección veremos quiénes son las personas que utilizan Spark y analizaremos en qué forma lo emplean.
En esta lección hablaremos sobre qué es Colaboratory.
En esta lección aprenderemos a instalar Colab.
En esta lección interactuamos con Colab y aprenderemos algunas de sus funcionalidades y configuraciones.
En esta lección explicaremos donde encontrar el repositorio con todo el código empleado en el curso.
En esta lección aprenderemos a descargar y configurar Apache Spark en Colab.
En esta lección hablaremos sobre dos alternativas que podemos utilizar para trabajar con Spark.
En esta lección hablaremos sobre las ventajas y desventajas de trabajar con Spark en Colab.
En esta lección aprenderemos que es una sesión de Spark y como crearla en pyspark.
En esta lección aprenderemos que es un RDD y cuáles son sus características principales.
En esta lección damos solución a los ejercicios del capítulo.
En esta lección aprenderemos sobre las operaciones que podemos realizar sobre un RDD y en especial sobre las transformaciones.
En esta lección aprenderemos los diferentes tipos de transformaciones que podemos aplicar a un RDD.
En esta lección estudiaremos el funcionamiento de la transformación map.
En esta lección estudiaremos el funcionamiento de la transformación flatMap.
En esta lección estudiaremos la transformación filter.
En esta lección estudiaremos la transformación coalesce.
En esta lección estudiaremos la transformación repartition.
En esta lección estudiaremos la transformación reduceByKey.
En esta lección damos solución a los ejercicios del capítulo.
En esta lección hablaremos sobre las acciones en los RDD de Spark.
En esta lección aprenderemos sobre los tipos de acciones.
En esta lección aprenderemos a trabajar con la función reduce.
En esta lección aprenderemos a trabajar con la función count.
En esta lección aprenderemos a trabajar con la función collect.
En esta lección aprenderemos a trabajar con las funciones take, max y saveAsTextFile.
En esta lección damos solución a los ejercicios del capítulo.
En esta lección aprenderemos a manejar el almacenamiento en memoria en Spark.
En esta lección aprenderemos sobre el particionado en Spark.
En esta lección aprenderemos sobre el shuffling en Spark.
En esta lección aprenderemos a trabajar con las variables broadcast y conoceremos de las ventajas que nos ofrece.
En esta lección aprenderemos qué son los acumuladores en Spark, cómo trabajar con ellos y algunos de sus usos.
En esta lección damos solución a los ejercicios del capítulo.
En esta lección daremos una breve introducción a Spark SQL.
En esta lección aprenderemos a crear un DataFrame a partir de un RDD.
En esta lección aprenderemos a cómo crear DataFrames a partir de fuentes de datos.
En esta lección aprenderemos a crear DataFrames a partir de fuentes de datos en la práctica.
En esta lección aprenderemos a crear DataFrames a partir de fuentes de datos en la práctica.
En esta sección aprenderemos a trabajar con las columnas en Spark.
En esta lección aprenderemos a trabajar con las funciones select y selectExpr.
En esta lección aprenderemos a utilizar las funciones filter y where con las cuales podremos filtrar nuestros DataFrames.
En esta lección aprenderemos de las diferencias existentes al trabajar con las funciones distinct y dropDuplicates.
En esta lección aprenderemos a trabajar con las funciones sort y orderBy.
En esta sección aprenderemos a trabajar con las funciones withColumn y withColumnRenamed
En esta lección aprenderemos a trabajar con las funciones drop, sample y randomSplit.
En esta lección aprenderemos a manejar los datos faltantes o incorrectos en un DataFrame.
En esta lección daremos una repasada a algunas acciones comunes que podemos ejecutar sobre un DataFrame.
En esta lección estudiaremos la escritura de DataFrames con sus diferentes opciones.
En esta lección veremos como leer y escribir un DataFrame en AWS S3.
En esta lección veremos como leer y escribir un DataFrame en un Blob de Azure.
En esta lección veremos como leer y escribir un DataFrame en un bucket de Google Cloud Platform más conocido como GCP.
En esta lección estudiaremos la persistencia de DataFrames.
En esta lección damos solución a los ejercicios del capítulo.
En esta lección aprenderemos sobre las agregaciones en Spark.
En esta lección aprenderemos a trabajar con las funciones Count, countDistinct y approx_count_distinct y además conoceremos las diferencias existentes entre ellas.
En esta sección aprenderemos a trabajar con las funciones min y max.
En esta lección aprenderemos a trabajar con las funciones sum, sumDistinct y avg. Además conoceremos las diferencias existentes entre sum y sumDistinct.
En esta lección aprenderemos a realizar agregaciones luego de una agrupación.
En esta lección aprenderemos a realizar varias agregaciones por grupo luego de haber agrupado nuestros datos.
En esta lección aprenderemos a realizar agregaciones con pivote.
En esta lección daremos una introducción a los joins en Spark.
En esta lección veremos las piezas de información que componen un join y los diferentes tipos de join que podemos realizar.
En esta lección aprenderemos a trabajar con el inner join.
En esta lección aprenderemos a trabajar con el left outer join.
En esta lección aprenderemos a trabajar con el right outer join.
En esta lección aprenderemos a trabajar con el full outer join.
En esta lección aprenderemos a trabajar con left anti join.
En esta lección aprenderemos a trabajar con left semi join.
En esta lección aprenderemos a trabajar con cross join y explicaremos algunos detalles importantes sobre este tipo de join.
En esta lección aprenderemos diferentes alternativas para lidiar con las columnas duplicadas cuando trabajamos con join
En esta lección aprenderemos sobre las dos estrategias que Spark emplea para realizar los join, Shuffle Hash Join y Broadcast Hash Join.
En esta lección damos solución a los ejercicios del capítulo.
En esta lección aprenderemos a trabajar con funciones que nos permitirán manipular la fecha y la hora.
En esta lección aprenderemos a trabajar con funciones que nos permitirán transformar y manipular strings.
En esta lección aprenderemos a trabajar con colecciones en Spark. Veremos cómo manipular estructuras de datos de tipo arreglo y JSON.
En esta lección aprenderemos a trabajar con las funciones when, calece y lit. Veremos cómo podemos combinar algunas de estas funciones en dependencia del tipo de problema que estemos enfrentando.
En esta lección aprenderemos tres alternativas para crear nuestras propias funciones (UDF) las cuales podremos aplicar sobre las columnas de un DataFrame en Spark.
En esta lección aprenderemos cómo trabajar con funciones de ventana y cómo realizar agregaciones sobre las ventanas creadas con estas funciones.
En esta lección aprenderemos cómo Spark realiza la optimización de las consultas realizadas sobre los DataFrame.
En esta lección damos solución a los ejercicios del capítulo.
En esta lección veremos como podemos habilitar la interfaz web de de spark user interface (UI).
Bienvenidos al curso Big Data y Spark: ingeniería de datos con Python y pyspark.
En este curso aprenderás a trabajar con Spark a través de la librería PySpark de Python en Google Colaboratory.
Spark es esencialmente un sistema distribuido que fue diseñado para procesar un gran volumen de datos de manera eficiente y rápida. El objetivo de este curso es aprender a trabajar con las principales abstracciones de Spark, las cuales son los RDDs y los DataFrames.
El material que proponemos en el curso está pensado para todas las personas que bien deseen iniciarse en el trabajo con Spark, o que por otro lado, deseen consolidar los conocimientos que ya poseen sobre los temas que se abordarán. El curso está diseñado de una forma progresiva y gradual que le permitirá al estudiante entender y desarrollar las principales habilidades para el trabajo con RDDs y DataFrames en Spark. Además, se abordarán temas avanzados que le permitirán optimizar las aplicaciones de Spark que pueda construir en un futuro, o bien, mejorar aquellas que ya se tengan implementadas.
Empezamos el curso con una breve introducción al Big Data y a Spark. Posteriormente continuamos con una sección en donde los guiaremos para que instalen y configuren Spark en Google Colaboratory. Una vez hayan concluido esta sección, estarán en condiciones de ejecutar notebooks en Colaboratory utilizando Spark. Las siguientes secciones del curso están pensadas para entender y aplicar en la práctica las principales cuestiones sobre los RDDs y los DataFrames.
El temario procura en todo momento analizar temas específicos por cada lección, permitiéndole así al estudiante localizar rápidamente cualquier contenido de una forma rápida. La mayoría de las lecciones están conformadas por una parte teórica y otra práctica.
Mi nombre es José Miguel Moya y me desempeño actualmente como Ingeniero de Datos Senior. Como parte de mi trabajo diario utilizo Spark con Python y Scala para obtener y procesar enormes cantidades de datos.
Te invito a que veas el video de presentación del curso y las lecciones gratuitas.
Te espero en el curso, tenga usted un cordial saludo.