Apache Spark - Processando dados com Spark Dataframe + Scala
4.6 (14 ratings)
Course Ratings are calculated from individual students’ ratings and a variety of other signals, like age of rating and reliability, to ensure that they reflect course quality fairly and accurately.
74 students enrolled

Apache Spark - Processando dados com Spark Dataframe + Scala

Consulte dados usando Spark Dataframes. Entenda também, de forma intuitiva, os principais componentes do Apache Spark!
Highest Rated
4.6 (14 ratings)
Course Ratings are calculated from individual students’ ratings and a variety of other signals, like age of rating and reliability, to ensure that they reflect course quality fairly and accurately.
74 students enrolled
Created by Weslley Moura
Last updated 4/2020
Portuguese
Portuguese [Auto-generated]
Current price: $13.99 Original price: $19.99 Discount: 30% off
5 hours left at this price!
30-Day Money-Back Guarantee
This course includes
  • 4 hours on-demand video
  • 1 article
  • 1 downloadable resource
  • Full lifetime access
  • Access on mobile and TV
  • Certificate of Completion
Training 5 or more people?

Get your team access to 4,000+ top Udemy courses anytime, anywhere.

Try Udemy for Business
What you'll learn
  • Arquitetura geral do Apache Spark (DAG, RDD, actions e transformations, planos de execução, uso de memória, etc...)
  • Introdução ao processamento de dados distribuído
  • Quando utilizar Apache Spark e sua integração com outros frameworks
  • Carregando dados em Spark Dataframes
  • Filtrando, ordenando e agrupando dados
  • Trabalhando com expressions e funções definidas pelo usuário (UDF)
  • Juntando dados com JOIN
  • Aplicando funções de agrupamento
  • Particionamento de dados
  • Introdução aos Datasets e Spark SQL
  • Processando dados diretamente nos RDDs
Requirements
  • Noções de SQL
  • Noções de programação
  • Lógica de programação
  • Um computador ou uma máquina virtual com sistema operacional Ubuntu
Description

Prepare-se para aprender a usar o framework de processamento de dados distribuído mais utilizado pelos profissionais de data science, Apache Spark!

Entenda como Spark processa dados de forma distribuída, como é feito o gerenciamento de memória e tolerância à falhas. Aprenda os conceitos base sobre planos de execução lógico, físico, tasks e stages, DAG e RDDs.

Sabe aquelas consultas SQL que você costuma fazer? Neste curso você vai aprender a implementá-las no Apache Spark, usando Spark Dataframes.

Who this course is for:
  • Profissionais ou estudantes que queiram aprender a consultar dados no Apache Spark usando Spark Dataframes
  • Este curso NÃO é para você se você já tem experiência com Apache Spark
  • O foco deste curso é ensinar a consultar dados usando Spark Dataframes. NÃO FAÇA ESTE CURSO SE VOCÊ DESEJA: 1) aprender a configurar e instalar o Spark; 2) Aprender a usar os módulos de ML, GraphX, Streaming do Spark
Course content
Expand all 33 lectures 04:11:15
+ Infraestrutura do Apache Spark
13 lectures 55:17
Criando seu ambiente de DEV
10:10
Comparativo entre Spark e Hadoop
02:29
Plano de execução lógico e lineage
06:29
Plano de execução físico, tasks, stages, narrow e wide dependencies
03:12
Spark UI
09:21
Uso de memória do Spark
02:49
Tolerância à falha
01:42
Vantagem do Spark em tarefas iterativas e interativas
02:02
Cluster manager, rodando a aplicação Spark
03:14
Structure APIs e low level APIs
03:06
+ Structured APIs
14 lectures 02:38:15
Arquivos das aulas práticas
00:02
Quebrando o gelo e iniciando o Apache Spark!
08:33
Referenciando colunas de um dataframe
12:39
Filtrando, ordenando dados e aplicando funções
15:05
Trabalhando com expressions e amostragem
15:44
Tratamento de valores ausentes e replace
12:04
Dados complexos e UDF
17:36
Funções MAP e REDUCE em dataframes
13:18
Checkpoint aulas práticas
03:00
JOIN
20:29
Funções de agrupamento
18:03
Particionamento de dataframe
09:09
Datasets
08:30
Rápida introdução ao Spark SQL
04:03
+ Low Level APIs
6 lectures 37:43
Carregando dados em um RDD e removendo o cabeçalho
09:01
Transformando RDD de string em um RDD de Array de string
06:36
Exercitando comandos .map e .filter
06:41
Key value pair RDD
09:52
Operações de JOIN entre RDDs
04:04
Obrigado!
01:29