Teach on Udemy

Turn what you know into an opportunity and reach millions around the world.

Learn More

Your cart is empty.

Keep shopping

Big Data y Spark: ingeniería de datos con Python y pyspark

Name: Big Data y Spark: ingeniería de datos con Python y pyspark
Rating: 4.5 (1733 reviews)

Trabajo desde niveles básicos hasta avanzados con RDD y DataFrame.

Bestseller

Highest Rated

Created byJosé Miguel Moya

Last updated 3/2026

Spanish

What you'll learn

Conocer el funcionamiento y la estructura de Apache Spark
Trabajar con RDDs de Spark desde niveles básicos hasta avanzados
Trabajar con DataFrames en Spark mediante el API de SQL desde niveles básicos hasta avanzados
Optimizar sus aplicaciones de Apache Spark para el manejo de grandes volúmenes de datos a través de DataFrames

Course content

11 sections • 93 lectures • 9h 24m total length

Introducción al curso2:56
En esta lección damos la bienvenida y la introducción al curso.
Introducción al Big Data6:06
En esta lección daremos una breve introducción sobre Big Data.
Apache Spark8:35
En esta lección hablaremos de los principales componentes de Apache Spark y daremos una breve descripción de cada uno de ellos.
¿Quién usa Spark y para qué?4:27
En esta lección veremos quiénes son las personas que utilizan Spark y analizaremos en qué forma lo emplean.

¿Qué es Colaboratory?0:53
En esta lección hablaremos sobre qué es Colaboratory.
Instalando Colab2:38
En esta lección aprenderemos a instalar Colab.
Primeros pasos con Colab6:11
En esta lección interactuamos con Colab y aprenderemos algunas de sus funcionalidades y configuraciones.
Recursos del curso1:18
En esta lección explicaremos donde encontrar el repositorio con todo el código empleado en el curso.
Descargando e instalando Spark en Colab5:47
En esta lección aprenderemos a descargar y configurar Apache Spark en Colab.
¿Dónde más podemos ejecutar Spark con pyspark?5:41
En esta lección hablaremos sobre dos alternativas que podemos utilizar para trabajar con Spark.
Ventajas y desventajas de trabajar con Spark en Colab5:07
En esta lección hablaremos sobre las ventajas y desventajas de trabajar con Spark en Colab.

SparkSession4:19
En esta lección aprenderemos que es una sesión de Spark y como crearla en pyspark.
¿Qué es un RDD?1:21
En esta lección aprenderemos que es un RDD y cuáles son sus características principales.
Diferentes formas de crear un RDD en pyspark7:38
Verifica tus conocimientos
Ejercicios0:44
Resolución de los ejercicios del capítulo11:22
En esta lección damos solución a los ejercicios del capítulo.

Transformaciones en un RDD2:30
En esta lección aprenderemos sobre las operaciones que podemos realizar sobre un RDD y en especial sobre las transformaciones.
Tipos de transformaciones2:51
En esta lección aprenderemos los diferentes tipos de transformaciones que podemos aplicar a un RDD.
Función map6:14
En esta lección estudiaremos el funcionamiento de la transformación map.
Función flatMap5:32
En esta lección estudiaremos el funcionamiento de la transformación flatMap.
Función filter6:01
En esta lección estudiaremos la transformación filter.
Función coalesce3:22
En esta lección estudiaremos la transformación coalesce.
Función repartition2:40
En esta lección estudiaremos la transformación repartition.
Función reduceByKey3:13
En esta lección estudiaremos la transformación reduceByKey.
Verifica tus conocimientos
Ejercicios1:03
Resolución de los ejercicios del capítulo12:37
En esta lección damos solución a los ejercicios del capítulo.

Acciones en un RDD1:48
En esta lección hablaremos sobre las acciones en los RDD de Spark.
Tipos de acciones0:52
En esta lección aprenderemos sobre los tipos de acciones.
Función reduce3:21
En esta lección aprenderemos a trabajar con la función reduce.
Función count2:05
En esta lección aprenderemos a trabajar con la función count.
Función collect2:47
En esta lección aprenderemos a trabajar con la función collect.
Funciones take, max y saveAsTextFile5:56
En esta lección aprenderemos a trabajar con las funciones take, max y saveAsTextFile.
Verifica tus conocimientos
Ejercicios0:21
Resolución de los ejercicios del capítulo8:55
En esta lección damos solución a los ejercicios del capítulo.

Almacenamiento en caché6:15
En esta lección aprenderemos a manejar el almacenamiento en memoria en Spark.
Particionado6:52
En esta lección aprenderemos sobre el particionado en Spark.
Mezcla de datos(shuffling)2:21
En esta lección aprenderemos sobre el shuffling en Spark.
Broadcast variables7:08
En esta lección aprenderemos a trabajar con las variables broadcast y conoceremos de las ventajas que nos ofrece.
Acumuladores5:46
En esta lección aprenderemos qué son los acumuladores en Spark, cómo trabajar con ellos y algunos de sus usos.
Ejercicios0:33
Resolución de los ejercicios del capítulo10:25
En esta lección damos solución a los ejercicios del capítulo.

Introducción a Spark SQL2:06
En esta lección daremos una breve introducción a Spark SQL.
Crear un DataFrame a partir de un RDD9:23
En esta lección aprenderemos a crear un DataFrame a partir de un RDD.
Crear un DataFrame a partir de fuentes de datos2:23
En esta lección aprenderemos a cómo crear DataFrames a partir de fuentes de datos.
Crear un DataFrame a partir de fuentes de datos en la práctica (parte I)5:19
En esta lección aprenderemos a crear DataFrames a partir de fuentes de datos en la práctica.
Crear un DataFrame a partir de fuentes de datos en la práctica (parte II)6:41
En esta lección aprenderemos a crear DataFrames a partir de fuentes de datos en la práctica.
Trabajo con columnas4:44
En esta sección aprenderemos a trabajar con las columnas en Spark.
Transformaciones: funciones select y selectExpr9:02
En esta lección aprenderemos a trabajar con las funciones select y selectExpr.
Transformaciones: funciones filter y where8:23
En esta lección aprenderemos a utilizar las funciones filter y where con las cuales podremos filtrar nuestros DataFrames.
Transformaciones: funciones distinct y dropDuplicates5:31
En esta lección aprenderemos de las diferencias existentes al trabajar con las funciones distinct y dropDuplicates.
Transformaciones: funciones sort y orderBy9:17
En esta lección aprenderemos a trabajar con las funciones sort y orderBy.
Transformaciones: funciones withColumn y withColumnRenamed8:58
En esta sección aprenderemos a trabajar con las funciones withColumn y withColumnRenamed
Transformaciones: funciones drop, sample y randomSplit9:46
En esta lección aprenderemos a trabajar con las funciones drop, sample y randomSplit.
Trabajo con datos incorrectos o faltantes7:54
En esta lección aprenderemos a manejar los datos faltantes o incorrectos en un DataFrame.
Acciones sobre un DataFrame en Spark SQL5:57
En esta lección daremos una repasada a algunas acciones comunes que podemos ejecutar sobre un DataFrame.
Escritura de DataFrames10:33
En esta lección estudiaremos la escritura de DataFrames con sus diferentes opciones.
Leer y escribir un DataFrame en un bucket de AWS S315:44
En esta lección veremos como leer y escribir un DataFrame en AWS S3.
Leer y escribir un DataFrame en un Blob de Azure11:52
En esta lección veremos como leer y escribir un DataFrame en un Blob de Azure.
Leer y escribir un DataFrame en un bucket de GCP11:25
En esta lección veremos como leer y escribir un DataFrame en un bucket de Google Cloud Platform más conocido como GCP.
Persistencia de DataFrames3:37
En esta lección estudiaremos la persistencia de DataFrames.
Ejercicios0:51
Resolución de los ejercicios del capítulo14:59
En esta lección damos solución a los ejercicios del capítulo.

Agregaciones4:29
En esta lección aprenderemos sobre las agregaciones en Spark.
Funciones count, countDistinct y approx_count_distinct9:34
En esta lección aprenderemos a trabajar con las funciones Count, countDistinct y approx_count_distinct y además conoceremos las diferencias existentes entre ellas.
Funciones min y max3:32
En esta sección aprenderemos a trabajar con las funciones min y max.
Funciones sum, sumDistinct y avg4:53
En esta lección aprenderemos a trabajar con las funciones sum, sumDistinct y avg. Además conoceremos las diferencias existentes entre sum y sumDistinct.
Agregación con agrupación5:48
En esta lección aprenderemos a realizar agregaciones luego de una agrupación.
Varias agregaciones por grupo6:36
En esta lección aprenderemos a realizar varias agregaciones por grupo luego de haber agrupado nuestros datos.
Agregación con pivote7:17
En esta lección aprenderemos a realizar agregaciones con pivote.
Joins1:38
En esta lección daremos una introducción a los joins en Spark.
Expresión join y tipos de join2:05
En esta lección veremos las piezas de información que componen un join y los diferentes tipos de join que podemos realizar.
Inner Join5:36
En esta lección aprenderemos a trabajar con el inner join.
Left Outer Join2:44
En esta lección aprenderemos a trabajar con el left outer join.
Right Outer Join3:01
En esta lección aprenderemos a trabajar con el right outer join.
Full Outer Join3:16
En esta lección aprenderemos a trabajar con el full outer join.
Left Anti Join4:04
En esta lección aprenderemos a trabajar con left anti join.
Left Semi Join2:26
En esta lección aprenderemos a trabajar con left semi join.
Cross Join3:51
En esta lección aprenderemos a trabajar con cross join y explicaremos algunos detalles importantes sobre este tipo de join.
Manejo de nombres de columna duplicados9:07
En esta lección aprenderemos diferentes alternativas para lidiar con las columnas duplicadas cuando trabajamos con join
Shuffle Hash Join y Broadcast Hash Join6:17
En esta lección aprenderemos sobre las dos estrategias que Spark emplea para realizar los join, Shuffle Hash Join y Broadcast Hash Join.
Ejercicios0:39
Resolución de los ejercicios del capítulo11:04
En esta lección damos solución a los ejercicios del capítulo.

Funciones de fecha y hora14:10
En esta lección aprenderemos a trabajar con funciones que nos permitirán manipular la fecha y la hora.
Funciones para trabajo con strings13:10
En esta lección aprenderemos a trabajar con funciones que nos permitirán transformar y manipular strings.
Funciones para trabajo con colecciones14:43
En esta lección aprenderemos a trabajar con colecciones en Spark. Veremos cómo manipular estructuras de datos de tipo arreglo y JSON.
Funciones when, coalesce y lit7:47
En esta lección aprenderemos a trabajar con las funciones when, calece y lit. Veremos cómo podemos combinar algunas de estas funciones en dependencia del tipo de problema que estemos enfrentando.
Funciones definidas por el usuario UDF17:39
En esta lección aprenderemos tres alternativas para crear nuestras propias funciones (UDF) las cuales podremos aplicar sobre las columnas de un DataFrame en Spark.
Funciones de ventana15:44
En esta lección aprenderemos cómo trabajar con funciones de ventana y cómo realizar agregaciones sobre las ventanas creadas con estas funciones.
Catalyst Optimizer9:27
En esta lección aprenderemos cómo Spark realiza la optimización de las consultas realizadas sobre los DataFrame.
Ejercicios0:36
Resolución de los ejercicios del capítulo14:09
En esta lección damos solución a los ejercicios del capítulo.

Requirements

Solo es deseable conocimientos en Python. Debido a que trabajaremos con Google Colab no necesitamos de computadoras o laptops potentes ni de configuraciones complicadas para correr todos los ejemplos y resolver los ejercicios propuestos.

Description

Bienvenidos al curso Big Data y Spark: ingeniería de datos con Python y pyspark.

En este curso aprenderás a trabajar con Spark a través de la librería PySpark de Python en Google Colaboratory.

Spark es esencialmente un sistema distribuido que fue diseñado para procesar un gran volumen de datos de manera eficiente y rápida. El objetivo de este curso es aprender a trabajar con las principales abstracciones de Spark, las cuales son los RDDs y los DataFrames.

El material que proponemos en el curso está pensado para todas las personas que bien deseen iniciarse en el trabajo con Spark, o que por otro lado, deseen consolidar los conocimientos que ya poseen sobre los temas que se abordarán. El curso está diseñado de una forma progresiva y gradual que le permitirá al estudiante entender y desarrollar las principales habilidades para el trabajo con RDDs y DataFrames en Spark. Además, se abordarán temas avanzados que le permitirán optimizar las aplicaciones de Spark que pueda construir en un futuro, o bien, mejorar aquellas que ya se tengan implementadas.

Empezamos el curso con una breve introducción al Big Data y a Spark. Posteriormente continuamos con una sección en donde los guiaremos para que instalen y configuren Spark en Google Colaboratory. Una vez hayan concluido esta sección, estarán en condiciones de ejecutar notebooks en Colaboratory utilizando Spark. Las siguientes secciones del curso están pensadas para entender y aplicar en la práctica las principales cuestiones sobre los RDDs y los DataFrames.

El temario procura en todo momento analizar temas específicos por cada lección, permitiéndole así al estudiante localizar rápidamente cualquier contenido de una forma rápida. La mayoría de las lecciones están conformadas por una parte teórica y otra práctica.

Mi nombre es José Miguel Moya y me desempeño actualmente como Ingeniero de Datos Senior. Como parte de mi trabajo diario utilizo Spark con Python y Scala para obtener y procesar enormes cantidades de datos.

Te invito a que veas el video de presentación del curso y las lecciones gratuitas.

Te espero en el curso, tenga usted un cordial saludo.

Who this course is for:

Este curso va dirigido a todas aquellas personas que estén interesadas en introducirse al mundo del Big Data y al procesamiento de datos a través de Apache Spark. Es una muy buena oportunidad para aquellos que desean consolidar y ampliar sus conocimientos en el trabajo con RDDs y DataFrames en Spark debido a cómo se explican los conceptos y a las actividades prácticas presentadas.

Big Data y Spark: ingeniería de datos con Python y pyspark

What you'll learn

Explore related topics

Course content

Introducción4 lectures • 22min

Descargando e instalando Spark en Google Colaboratory7 lectures • 28min

Introducción a los RDD en Spark5 lectures • 25min

Transformaciones en un RDD10 lectures • 46min

Acciones sobre un RDD en Spark8 lectures • 26min

Aspectos avanzados sobre RDD7 lectures • 39min

Spark SQL21 lectures • 2hr 44min

Spark SQL avanzado20 lectures • 1hr 38min

Funciones en Spark SQL9 lectures • 1hr 47min

Misceláneas1 lecture • 7min

Requirements

Description

Who this course is for: