Procesando el Big Data con Apache Spark (en español)

La mejor herramienta para el procesamiento del Big Data

Created byTomás Fernández Pena

Last updated 9/2021

Spanish

What you'll learn

Los estudiantes serán capaces de desarrollar códigos en Apache Spark, usando RDDs y Dataframes. Tambiń introduciremos algunos aspectos de alto nivel, como la librería de machine learning Spark MLib, Spark streaming para el procesamiento de flujos de información y Spark GraphX para el procesamiento paralelo de grafos.

Course content

6 sections • 25 lectures • 6h 27m total length

Presentación2:05
Preparación del entorno en Microsoft Windows18:02
En este primer vídeo, veremos como instalar el software necesario para seguir el curso en un sistema con Microsoft Windows. Instalaremos el gestor de máquinas virtuales VirtualBox y la herramienta para la creación y configuración de entornos de desarrollo virtualizados.Vagrant. Con estas herramientas, descargaremos una máquina virtual que ya dispone de Apache Spark y los notebooks de Apache Zeppelin con el contenido del curso.
Preparación del entorno en GNU/Linux14:06
Veremos como instalar el software necesario para seguir el curso en un sistema con Ubuntu Linux. Instalaremos el gestor de máquinas virtuales VirtualBox y la herramienta para la creación y configuración de entornos de desarrollo virtualizados.Vagrant. Con estas herramientas, descargaremos una máquina virtual que ya dispone de Apache Spark y los notebooks de Apache Zeppelin con el contenido del curso.

Introducción a Apache Spark11:56
En esta clase haremos una introducción a Apache Spark, destacando:
Sus diferencias con el modelo MapReduce y Apache Hadoop
Sus principales ventajas
Sus componentes principales
Su modo de funcionamiento
Seguiremos trabajando sobre estos puntos a lo largo del curso.
Introducción a los RDDs15:17
En esta clase veremos como crear y visualizar la estructura de datos básica para trabajar con Apache Spark, los denominados RDDs (Resilient Distributed Datasets).
Introducción a las transformaciones y acciones13:23
En esta clase haremos una introducción a las operaciones básicas que se pueden hacer sobre los RDDs, y que son de dos tipos: transformaciones y acciones. Las transformaciones convierten un RDD en otro RDD realizando una operación sobre el primero. Las acciones, por su parte, extraen valores (simples o compuestos) a partir de un RDD.

Transformaciones sobre un RDDs simple18:16
En este vídeo vamos a ver las transformaciones que se pueden hacer sobre un RDDs simple y que afectan a cada uno de los elementos del mismo.
Transformaciones sobre dos RDDs simples5:08
En esa clase veremos un conjunto pequeño de transformaciones que utilizan dos RDDs y que hacen operaciones de tipo conjunto, como, por ejemplo, uniones, intersecciones y otras, generando un tercer RDDs con datos de los dos de partida.
Acciones de agregación sobre RDDs simples15:14
El primer tipo de acciones que vamos a comentar son las de agregación, que, como su nombre indica, agregan los elementos del RDD para obtener un valor final. Las principales acciones de este tipo son reduce, fold y aggregate.
Otras acciones sobre RDDs simples6:18
En esta clase veremos otras acciones para extraer información de RDDs simples. En concreto veremos dos tipos:
Acciones que permiten determinar el número de los elementos de un RDD (count, countApprox y countApproxDistinct).
Acciones que permiten recuperar los datos de un RDD (collect, take, takeSample, top y takeOrdered)
Programa WordCount

RDDs con pares clave-valor10:33
En esta clase introduciremos un tipo de RDD muy importante en la programación en Apache Spark, los denominados RDDs clave/valor o Pair RDDs. Veremos en este vídeo como crear este tipo de RDDs a partir de listas de tuplas o de RDDs simples.
Transformaciones sobre un RDD clave/valor10:38
En este vídeo veremos un conjunto de transformaciones que se pueden aplicar sobre un RDD de tipo clave/valor.
Transformaciones sobre dos RDDs clave/valor5:10
Completando el vídeo anterior, veremos ahora un conjunto de transformaciones que actúan sobre dos RDDs de tipo clave/valor para generar un nuevo RDD del mismo tipo.
Principales acciones sobre RDDs clave/valor2:29
Veremos ahora una serie de acciones aplicables a RDD de tipo clave/valor.
Número de citas de patentes
Número medio de reivindicaciones por país
RDDs numéricos4:58
En esta clase veremos algunos métodos de estadística descriptiva que implementa Spark para usar con RDDs numéricos.
Número de patentes por país y año

Persistencia y particionado18:46
En esta clase estudiaremos aspectos relacionados con la persistencia y el particionado de los RDDs.
Spark permite que los RDDs se almacenen en memoria y/o disco para evitar tener que recalcularlos cada vez que se necesiten: este mecanismo se denomina persistencia.
Por otro lado, Spark permite indicar el número de particiones en que queremos repartir un RDD no sólo en el momento de crearlo, sino también al realizar una transformación sobre el mismo. Adicionalmente, Spark incluye funciones que permiten el reparticionado de los RDD ya creados.
Lectura y escritura de ficheros17:08
Crear ficheros secuencia
País, año y número de citas de cada patente
Ejecución de scripts desde línea de comandos13:41
En esta clase estudiaremos en comando spark-submit, que permite lanzar trabajos Spark desde línea de comandos. Veremos diferentes parámetros que pueden ajustarse en el momento de iniciar el trabajo.
Aspectos avanzados: interfaz Web11:45
En esta clase veremos como el interfaz web nos permite acceder a información detallada sobre la ejecución de los trabajos Spark.
Otros aspectos avanzados de Apache Spark11:07
Dedicaremos esta clase a ver otros aspectos avanzados de Apache Spark, como son los acumuladores, las variables de broadcast y los métodos para trabajar a nivel de partición.
Número de patentes por año de un país

Spark SQL (I): creación de DataFrames20:00
En esta clase veremos como crear DataFrames. Los Dataframes son el tipo de datos básico de Spark SQL.
Spark SQL (II): operaciones con DataFrames15:02
En esta clase veremos un conjunto de operaciones para procesar DataFrames.
Número de citas de patentes usando DataFrames
Spark Streaming12:49
En esta clase introduciremos la tecnología Spark Streaming, para procesamiento escalabre y de alto rendimiento de flujos de datos en tiempo real.
Spark MLlib7:09
Spark MLlib es una librería de algoritmos de aprendizaje automático (machine learning) desarrollados sobre Apache Spark.
Spark GraphX10:52
En esta última clase haremos una introducción a GraphX, el módulo de Apache Spark para procesamiento de grafos.

Requirements

Se necesita conocimientos de programación Python. También ayudaría tener conocimientos básicos de Scala, pero no resulta imprescindible.

Description

A través de este curso los alumnos aprenderán a programar con Apache Spark, la solución más eficiente y popular para procesar enormes cantidades de datos en clusters de cientos de máquinas.

Spark es hasta 100 veces más rápido que Apache Hadoop si el procesamiento se hace en memoria y 10 veces más rápido si se hace en disco. Para conseguir este rendimiento, Spark incorpora un motor de ejecución avanzado basado en Grafos Dirigidos Acíclicos (DAGs) de tareas que permite el flujo de datos acíclico u la computación en memoria.

Spark es fácil de usar, y permite utilizar diferentes lenguajes de programación, en concreto Python, Scala, Java o R. Ofrece más de 80 operadores de alto nivel que facilitan la creación de programas paralelos escalables a cientos o miles de máquinas. Y es posible utilizarlo de forma interactiva mediante los interpretes de Python, Scala o R, o utilizando herramientas como Apache Zeppelin, como veremos en este curso.

Spark se puede ejecutar en un PC simple, en un cluster con Hadoop YARN o Apache Mesos, o en la nube, con soluciones como Amazon Elastic MapReduce o Microsoft HDInsight. Y puede acceder a datos almacenados el HDFS, Cassandra, HBase, Hive, Tachyon y cualquier fuente de datos accesible por Hadoop.

Empezaremos viendo los elementos básicos de la programación Spark: los RDDs o Resilient Distributed DataSets. Veremos como crearlos, transformarlos y operar con ellos para procesar nuestros archivos.Continuaremos viendo aspectos avanzados para mejorar y optimizar nuestros códigos Spark y finalizaremos adentrándonos en el conjunto de soluciones de alto nivel de Spark: Spark SQL, Spark Streaming, Spark ML para problemas de Machine Learning, y GraphX para procesamiento de grafos. Todas estas soluciones pueden combinarse en la misma aplicación para alcanzar nuestros objetivos.

Who this course is for:

Programadores que quieran utilizar la herramienta más popular en la actualidad para el procesamiento del Big Data.

Procesando el Big Data con Apache Spark (en español)

What you'll learn

Explore related topics

Course content

Presentación del curso3 lectures • 34min

Introducción a Spark y a los RDDs3 lectures • 41min

Operaciones sobre RDDs simples4 lectures • 45min

Otros tipos de RDDs5 lectures • 34min

Aspectos avanzados de Apache Spark5 lectures • 1hr 12min

Otros componentes de Apache Spark5 lectures • 1hr 6min

Requirements

Description

Who this course is for: