PySpark e APACHE HOP: processamento e pipelines de dados

Name: PySpark e APACHE HOP: processamento e pipelines de dados
Rating: 4.8 (11 reviews)

A uniao perfeita para tratamento e preparação de dados

Created byMSc Grimaldo Lopes | + 65.000 alunos de Oliveira

Last updated 3/2026

Portuguese

What you'll learn

O que é Hop Orchestration Platform
Entendendo sobre fluxos de trabalho e pipelines
Entendendo sobre projetos e ambientes
Instalação do APACHE HOP
Criando pipelines com arquivos texto
Realizando tratamento de dados para entendimento do processo de engenharia de dados
O que são transformações, links e ações dentro de um pipeline
Construindo um workflow, orquestrador da sequência das operações
Entendendo o HOP GUI e seus componentes
Entendendo menu barras, principal e perspectivas
Criando sua área de projetos
Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output
Entendendo o que é : View output, Preview output , Debug output
Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist
Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
Construindo Workflow com execução de pipelines
Entendo o uso de variáveis globais no APACHE HOP
Automatização de pipeline ou workflow pelo HOP-RUN
Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
Instalação de banco de dados Postgresql, usando PGAdmin
O que é PYSPARK
O que é SPARK
Instalando o SPARK em um ambiente Windows, configurando
Instalando o ANACONDA
Instalando a JDK
Entendendo o ecossistema : Apache Spark + Anaconda + JAVA
Entendendo o conceito de NÓ, CLUSTER
Conhecendo os módulos e pacotes do PYSPARK
O que é SparkContext
Entendo o que é RDD (Resilient Distributed Dataset)
Trabalhando com Spark Dataframe
Compreendendo as diferenças entre transformações e ações, operações com PYSPARK
Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take
Aprendendo o que é uma função Lambda
Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy
Monitoramento de jobs com SPARK UI
O que é SparkSession
Leitura de arquivos externos
SPARK SQL
Leitura de dados em JSON

Course content

2 sections • 45 lectures • 7h 4m total length

Entendendo o funcionamento e componentes15:02
INFORMAÇÕES IMPORTANTES - Leia antes de começar o curso0:23
Instalação do JAVA5:41
Instalação do APACHE HOP1:49
Configuração extra e iniciando APACHE HOP5:41
Criando projeto e ambiente, primeiros passos17:02
Pipeline de Tratamento: arquivo vinhos10:43
Pipeline de tratamento: filtragem e seleção de atributos - arquivos vinho7:35
Pipeline de tratamento: sort e group by atributos - arquivos vinho6:41
Pipeline de tratamento: gerando arquivo de saída totalizador - arquivos vinho6:22
Pipeline Merge dos dados: Leitura arquivos de entrada11:21
Pipeline Merge dos dados: Sort arquivos de entrada6:11
Pipeline Merge dos dados: Merge arquivos venda e cliente7:36
Pipeline Merge dos dados: Merge arquivos venda com produto e marca7:37
Pipeline Merge dos dados: geração arquivo venda final tratado5:19
Pipeline Tratamento de dados: Arquivo cliente veículos e strings diversos9:02
Pipeline Tratamento de dados: Arquivo cliente veículo e ajustes campo hora6:45
Pipeline Tratamento de dados: Arquivo cliente veículo e retirada valores nulos7:10
Pipeline Tratamento de dados: Arquivo cliente veículo e junção de atributos9:09
Pipeline Tratamento de dados: Arquivo cliente veículo e geração grupos de dados8:38
Pipeline Carga API: Leitura dados CEP e uso de REST GET7:07
Pipeline Carga API: Leitura e armazenamento arquivo JSON7:33
Pipeline Carga API: Tratamento dos dados escolha campos e gravação arquivo texto7:07
Workflow de execução: Parte0111:59
Workflow de execução: Parte0213:04
Banco de dados: Instalação do Postgresql7:11
Banco de dados: Pipeline de tratamento de dados no Postgresql12:44
HOP-RUN: Automatização de pipeline e workflow10:21
Aula Final - Entrega de atividades2:12

Introdução e entendimento PYSPARK e SPARK12:39
Baixa dos softwares: Apache SPARK, Anaconda e Java(JDK)8:25
Instalação dos softwares: Apache SPARK, Anaconda e Java(JDK)8:51
Configurando as variáveis de ambiente no Windows10:19
Executando os softwares: Apache SPARK e PYSPARK9:47
O que é SparkContext e RDD (Resilient Distributed Datasets)14:58
SCRIPT1 : Trabalhando com RDD - Parte0117:58
SCRIPT2 : Trabalhando com RDD - Text Miner - Parte0220:15
Monitorando os jobs - SPARK UI7:46
SCRIPT3 : Trabalhando com RDD - JOIN, LEFTOUTERJOIN, RIGHTOUTERJOIN - Parte0313:59
SCRIPT4 : Trabalhando com Dataframe - Parte0115:09
SCRIPT5 : Trabalhando com Dataframe - Parte0211:44
SCRIPT6 : Trabalhando com SPARK SQL13:08
SCRIPT7 : Trabalhando com arquivos JSON e SPARK SQL9:29
SCRIPT8 : Trabalhando com arquivos SPARK Streaming12:16
Aula Final - Entrega de atividade2:18
Vamos ao nosso Quiz

Requirements

Importante ter uma base sobre banco de dados, arquivos de dados
Importante que você conheça lógica de programação
Conhecimento em Python
Conhecimento básico de SQL

Description

Unimos duas das principais ferramentas de mercado para realização das tarefas de tratamento e integração de dados, estamos falando do APACHE HOP e do uso do PySpark.

Iniciaremos nosso treinamento com a incrível ferramenta de ajuste, tratamento, preparação e geração de arquivos de dados que é o APACHE HOP. Aprenderemos a manipular o dado com um produto 100% visual, onde você não precisa estar gerando código, você irá construir os famosos pipelines e workflows, tudo fácil e rápido de fazer. Teremos a construção de pipelines em cadeia, tudo muito prático e disponível. O APACHE HOP conta com + 400 plugin ou componentes para fazer praticamente tudo (preparação de base de dados, criação de novos campos, eliminação de campos, criação de campos calculados, limpeza ou higienização de bases, dentre outras atividades).

Já com o uso do PySpark, você entenderá como criar um cluster, como preparar o SPARK que é o uso de processamento distribuído para a geração de seus scripts em python, a união do SPARK com o python gerou o PySpark.

Toda a execução dos scripts são realizados dentro do Apache Spark, que distribui o processamento dentro de um ambiente de cluster que são interligados aos NÓS que realizam a execução e transformação dos dados.

Vamos trabalhar com os seguintes módulos do PySpark:

• PySpark RDD

• PySpark DataFrame and SQL

• PySpark Streaming

Então não deixe de realizar nosso treinamento e venha estudar conosco.

Who this course is for:

Estudantes e profissionais de computação, Informática, estatística, data science, analista de dados, engenheiro de dados
Pessoas interessadas em aprender os conceitos sobre ferramentas de ingestão de dados, ou que gostariam adentrar na área de engenharia de dados
Profissionais que, de alguma forma, utilizam dados no seu dia a dia
Profissionais que já trabalham com Python para aprimorar seu conhecimento em SPARK

PySpark e APACHE HOP: processamento e pipelines de dados

What you'll learn

Explore related topics

Course content

APACHE HOP - Integração e Ingestão de dados29 lectures • 3hr 55min

Pyspark - Construção de projetos de Dados no SPARK16 lectures • 3hr 9min

Requirements

Description

Who this course is for: