Udemy
    •  
    •  
    •  
    •  
    •  
    •  
    •  
    •  
Turn what you know into an opportunity and reach millions around the world.
Learn More
Your cart is empty.
Keep shopping
PySpark e APACHE HOP: processamento e pipelines de dados
Rating: 4.8 out of 5(11 ratings)
68 students

PySpark e APACHE HOP: processamento e pipelines de dados

A uniao perfeita para tratamento e preparação de dados
Last updated 3/2026
Portuguese

What you'll learn

  • O que é  Hop Orchestration Platform
  • Entendendo sobre fluxos de trabalho e pipelines
  • Entendendo sobre projetos e ambientes
  • Instalação do APACHE HOP
  • Criando pipelines com arquivos texto
  • Realizando tratamento de dados para entendimento do processo de engenharia de dados
  • O que são transformações, links e ações dentro de um pipeline
  • Construindo um workflow, orquestrador da sequência das operações
  • Entendendo o HOP GUI e seus componentes
  • Entendendo menu barras, principal e perspectivas
  • Criando sua área de projetos
  • Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output
  • Entendendo o que é : View output, Preview output , Debug output
  • Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist
  • Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
  • Construindo Workflow com execução de pipelines
  • Entendo o uso de variáveis globais no APACHE HOP
  • Automatização de pipeline ou workflow pelo HOP-RUN
  • Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
  • Instalação de banco de dados Postgresql, usando PGAdmin
  • O que é PYSPARK
  • O que é SPARK
  • Instalando o SPARK em um ambiente Windows, configurando
  • Instalando o ANACONDA
  • Instalando a JDK
  • Entendendo o ecossistema : Apache Spark + Anaconda + JAVA
  • Entendendo o conceito de NÓ, CLUSTER
  • Conhecendo os módulos e pacotes do PYSPARK
  • O que é SparkContext
  • Entendo o que é RDD (Resilient Distributed Dataset)
  • Trabalhando com Spark Dataframe
  • Compreendendo as diferenças entre transformações e ações, operações com PYSPARK
  • Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take
  • Aprendendo o que é uma função Lambda
  • Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy
  • Monitoramento de jobs com SPARK UI
  • O que é SparkSession
  • Leitura de arquivos externos
  • SPARK SQL
  • Leitura de dados em JSON

Course content

2 sections45 lectures7h 4m total length
  • Entendendo o funcionamento e componentes15:02
  • INFORMAÇÕES IMPORTANTES - Leia antes de começar o curso0:23
  • Instalação do JAVA5:41
  • Instalação do APACHE HOP1:49
  • Configuração extra e iniciando APACHE HOP5:41
  • Criando projeto e ambiente, primeiros passos17:02
  • Pipeline de Tratamento: arquivo vinhos10:43
  • Pipeline de tratamento: filtragem e seleção de atributos - arquivos vinho7:35
  • Pipeline de tratamento: sort e group by atributos - arquivos vinho6:41
  • Pipeline de tratamento: gerando arquivo de saída totalizador - arquivos vinho6:22
  • Pipeline Merge dos dados: Leitura arquivos de entrada11:21
  • Pipeline Merge dos dados: Sort arquivos de entrada6:11
  • Pipeline Merge dos dados: Merge arquivos venda e cliente7:36
  • Pipeline Merge dos dados: Merge arquivos venda com produto e marca7:37
  • Pipeline Merge dos dados: geração arquivo venda final tratado5:19
  • Pipeline Tratamento de dados: Arquivo cliente veículos e strings diversos9:02
  • Pipeline Tratamento de dados: Arquivo cliente veículo e ajustes campo hora6:45
  • Pipeline Tratamento de dados: Arquivo cliente veículo e retirada valores nulos7:10
  • Pipeline Tratamento de dados: Arquivo cliente veículo e junção de atributos9:09
  • Pipeline Tratamento de dados: Arquivo cliente veículo e geração grupos de dados8:38
  • Pipeline Carga API: Leitura dados CEP e uso de REST GET7:07
  • Pipeline Carga API: Leitura e armazenamento arquivo JSON7:33
  • Pipeline Carga API: Tratamento dos dados escolha campos e gravação arquivo texto7:07
  • Workflow de execução: Parte0111:59
  • Workflow de execução: Parte0213:04
  • Banco de dados: Instalação do Postgresql7:11
  • Banco de dados: Pipeline de tratamento de dados no Postgresql12:44
  • HOP-RUN: Automatização de pipeline e workflow10:21
  • Aula Final - Entrega de atividades2:12

Requirements

  • Importante ter uma base sobre banco de dados, arquivos de dados
  • Importante que você conheça lógica de programação
  • Conhecimento em Python
  • Conhecimento básico de SQL

Description

Unimos duas das principais ferramentas de mercado para realização das tarefas de tratamento e integração de dados, estamos falando do APACHE HOP e do uso do PySpark

Iniciaremos nosso treinamento com a incrível ferramenta de ajuste, tratamento, preparação e geração de arquivos de dados que é o APACHE HOP. Aprenderemos a manipular o dado com um produto 100% visual, onde você não precisa estar gerando código, você irá construir os famosos pipelines e workflows, tudo fácil e rápido de fazer. Teremos a construção de pipelines em cadeia, tudo muito prático e disponível. O APACHE HOP conta com + 400 plugin ou componentes para fazer praticamente tudo (preparação de base de dados, criação de novos campos, eliminação de campos, criação de campos calculados, limpeza ou higienização de bases, dentre outras atividades).

Já com o uso do PySpark, você entenderá como criar um cluster, como preparar o SPARK que é o uso de processamento distribuído para a geração de seus scripts em python, a união do SPARK com o python gerou o PySpark.

Toda a execução dos scripts são realizados dentro do Apache Spark, que distribui o processamento dentro de um ambiente de cluster que são interligados aos NÓS que realizam a execução e transformação dos dados.

Vamos trabalhar com os seguintes módulos do PySpark:

PySpark RDD

• PySpark DataFrame and SQL

• PySpark Streaming


Então não deixe de realizar nosso treinamento e venha estudar conosco.

Who this course is for:

  • Estudantes e profissionais de computação, Informática, estatística, data science, analista de dados, engenheiro de dados
  • Pessoas interessadas em aprender os conceitos sobre ferramentas de ingestão de dados, ou que gostariam adentrar na área de engenharia de dados
  • Profissionais que, de alguma forma, utilizam dados no seu dia a dia
  • Profissionais que já trabalham com Python para aprimorar seu conhecimento em SPARK