Big Data - Processando dados com Spark Dataframe + Scala
What you'll learn
- Arquitetura geral do Apache Spark (DAG, RDD, actions e transformations, planos de execução, uso de memória, etc...)
- Introdução ao processamento de dados distribuído
- Quando utilizar Apache Spark e sua integração com outros frameworks
- Carregando dados em Spark Dataframes
- Filtrando, ordenando e agrupando dados
- Trabalhando com expressions e funções definidas pelo usuário (UDF)
- Juntando dados com JOIN
- Aplicando funções de agrupamento
- Particionamento de dados
- Introdução aos Datasets e Spark SQL
- Processando dados diretamente nos RDDs
Requirements
- Noções de SQL
- Noções de programação
- Lógica de programação
- Um computador ou uma máquina virtual com sistema operacional Ubuntu
Description
Prepare-se para aprender a usar o framework de processamento de dados distribuído mais utilizado pelos profissionais de data science, Apache Spark!
Entenda como Spark processa dados de forma distribuída, como é feito o gerenciamento de memória e tolerância à falhas. Aprenda os conceitos base sobre planos de execução lógico, físico, tasks e stages, DAG e RDDs.
Sabe aquelas consultas SQL que você costuma fazer? Neste curso você vai aprender a implementá-las no Apache Spark, usando Spark Dataframes.
Who this course is for:
- Profissionais ou estudantes que queiram aprender a consultar dados no Apache Spark usando Spark Dataframes
- Este curso NÃO é para você se você já tem experiência com Apache Spark
- O foco deste curso é ensinar a consultar dados usando Spark Dataframes. NÃO FAÇA ESTE CURSO SE VOCÊ DESEJA: 1) aprender a configurar e instalar o Spark; 2) Aprender a usar os módulos de ML, GraphX, Streaming do Spark
Instructor
Mestre em engenharia da computação e professor de cursos relacionados a data science. Nos últimos anos venho dedicando meu tempo a projetos de aprendizagem de máquina e mantenho seu site pessoal com dicas e aulas relacionadas ao tema em https://hackinganalytics(ponto)com.
Há alguns anos resolvi conhecer outros lugares, desde então já trabalhei com data science nos EUA, Irlanda e Portugal.