Udemy
    •  
    •  
    •  
    •  
    •  
    •  
    •  
    •  
Turn what you know into an opportunity and reach millions around the world.
Learn More
Your cart is empty.
Keep shopping
Procesando el Big Data con Apache Spark (en español)
Rating: 4.0 out of 5(524 ratings)
2,769 students
Last updated 9/2021
Spanish

What you'll learn

  • Los estudiantes serán capaces de desarrollar códigos en Apache Spark, usando RDDs y Dataframes. Tambiń introduciremos algunos aspectos de alto nivel, como la librería de machine learning Spark MLib, Spark streaming para el procesamiento de flujos de información y Spark GraphX para el procesamiento paralelo de grafos.

Course content

6 sections25 lectures6h 27m total length
  • Presentación2:05
  • Preparación del entorno en Microsoft Windows18:02

    En este primer vídeo, veremos como instalar el software necesario para seguir el curso en un sistema con Microsoft Windows. Instalaremos el gestor de máquinas virtuales VirtualBox y la herramienta para la creación y configuración de entornos de desarrollo virtualizados.Vagrant. Con estas herramientas, descargaremos una máquina virtual que ya dispone de Apache Spark y los notebooks de Apache Zeppelin con el contenido del curso.

  • Preparación del entorno en GNU/Linux14:06

    Veremos como instalar el software necesario para seguir el curso en un sistema con Ubuntu Linux. Instalaremos el gestor de máquinas virtuales VirtualBox y la herramienta para la  creación y configuración de entornos de desarrollo virtualizados.Vagrant. Con estas herramientas, descargaremos una máquina virtual que ya dispone de Apache Spark y los notebooks de Apache Zeppelin con el contenido del curso.

Requirements

  • Se necesita conocimientos de programación Python. También ayudaría tener conocimientos básicos de Scala, pero no resulta imprescindible.

Description

A través de este curso los alumnos aprenderán a programar con Apache Spark, la solución más eficiente y popular para procesar enormes cantidades de datos en clusters de cientos de máquinas.

Spark es hasta 100 veces más rápido que Apache Hadoop si el procesamiento se hace en memoria y 10 veces más rápido si se hace en disco. Para conseguir este rendimiento, Spark incorpora un motor de ejecución avanzado basado en Grafos Dirigidos Acíclicos (DAGs) de tareas que permite el flujo de datos acíclico u la computación en memoria.

Spark es fácil de usar, y permite  utilizar diferentes lenguajes de programación, en concreto Python, Scala, Java o R.  Ofrece más de 80 operadores de alto nivel que facilitan la creación de programas paralelos escalables a cientos o miles de máquinas. Y es posible utilizarlo de forma interactiva mediante los interpretes de Python, Scala o R, o utilizando herramientas como Apache Zeppelin, como veremos en este curso.

Spark se puede ejecutar en un PC simple, en un cluster con Hadoop YARN o Apache Mesos, o en la nube, con soluciones como Amazon Elastic MapReduce o Microsoft HDInsight. Y puede acceder a datos almacenados el HDFS, Cassandra, HBase, Hive, Tachyon y cualquier fuente de datos accesible por Hadoop.

Empezaremos viendo los elementos básicos de la programación Spark: los RDDs  o Resilient Distributed DataSets. Veremos como crearlos, transformarlos y operar con ellos para procesar nuestros archivos.Continuaremos viendo aspectos avanzados para mejorar y optimizar nuestros códigos Spark y finalizaremos adentrándonos en el conjunto de soluciones de alto nivel de Spark: Spark SQL, Spark Streaming, Spark ML para problemas de Machine Learning, y GraphX para procesamiento de grafos. Todas estas soluciones pueden combinarse en la misma aplicación para alcanzar nuestros objetivos.

Who this course is for:

  • Programadores que quieran utilizar la herramienta más popular en la actualidad para el procesamiento del Big Data.