Databricks Delta Lake + APACHE HOP: Carga e Dados
What you'll learn
- Entendendo a arquitetura chamada Lakehouse sobre o Data Lake no Databricks
- Construindo Delta Lake com processamento em batch, streaming em lote
- Controle de transações sobre os dados, como um banco de dados
- Trabalhando com características ACID (Atomicidade, Consistência, Isolamento, Durabilidade) ao Delta Lake
- Entendendo versionamento dos dados, permite que os dados sejam acessados e revertam para versões anteriores de dados, controle de históricos
- Uso das fases de ingestão, refinamento e enriquecimento dos dados
- Diferenças das arquiteturas Data Lake x Delta Lake
- Aprendendo como otimização dos processos de coleta e tratamento dos dados, reduzindo o tempo de processamento e descartando o que não for útil
- Trabalhando a criação de tabelas Delta e como gerar históricos de dados
- Trabalhando com cluster, DBFS, Notebook em R, Scala, Pyhton e SQL
- Delta Time Travel como retornar versões de dados e comandos de controle
- Controle de auditoria, agindo na conformidade de dados quanto de depuração simples para entender como os dados mudaram ao longo do tempo
- Executando reversões nos dados, evitando duplicação e realizando refinamento, ajustes, atualizações e exclusões dos dados
- Executando scripts batch e streaming
- Entendo o que significa checkpoint e controle de gravações dos dados
- Trabalhando com Schema Evolution na inclusão de atributos as tabelas delta
- O que é Hop Orchestration Platform
- Entendendo sobre fluxos de trabalho e pipelines
- Entendendo sobre projetos e ambientes
- Instalação do APACHE HOP
- Criando pipelines com arquivos texto
- Realizando tratamento de dados para entendimento do processo de engenharia de dados
- O que são transformações, links e ações dentro de um pipeline
- Construindo um workflow, orquestrador da sequência das operações
- Entendendo o HOP GUI e seus componentes
- Entendendo menu barras, principal e perspectivas
- Criando sua área de projetos
- Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output
- Entendendo o que é : View output, Preview output , Debug output
- Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exis
- Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
- Construindo Workflow com execução de pipelines
- Entendo o uso de variáveis globais no APACHE HOP
- Automatização de pipeline ou workflow pelo HOP-RUN
- Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
- Instalação de banco de dados Postgresql, usando PGAdmin
- O que é Business Intelligence (BI)
- O que é Data Warehouse (DW)
- Como criar as tabelas staging, dimensão e fato
- Construção da carga dim_tempo
- Como o APACHE HOP pode se tornar um integrador de dados e construção de projetos de DW
- Entendendo o que é HOP projects
- Como funciona um pipeline e um workflow
- Interface de trabalho do APACHE HOP
- Instalação do APACHE HOP e do banco Postgres
- Entendendo sobre Modelagem Multidimensional
- Preparação de dados e construção de pipelines e workflow das cargas do DW
- O que são dimensões Slow Change Dimension 1 e 2
- Executando os pacotes via HOP RUN
- Construindo o tratamento de dados e ajustes em campos
- Identificando as informações inconsistentes e armazenando no DW para ajustes
Requirements
- É importante que você conheça um pouco de Python, R, Scala, SQL, não haverá treinamento destas linguagens neste curso
- Importante conhecer execução de scripts em Python, R, Scala, SQL
- Importante ter conhecimento sobre banco de dados, arquivos de dados
- Importante que você conheça lógica de programação
- Necessário conhecimento básico de modelagem de dados
Description
Este é um daqueles cursos que o profissional busca conhecimento sobre como construir um pipeline eficiente e performático e que resolva os problemas da sua organização, mas a pergunta principal seria, como posso manusear estas ferramentas de uma forma orquestrada, organizada que permita a construção de forma rápida e intuitiva?
Por isso, trazemos a junção do APACHE HOP e do Databricks Delta Lake, que fará com que você resolva seus problemas com dados. O que podemos garantir que aprenderá neste curso:
Na primeira parte do curso do APACHE HOP que vem completo, com atividades para tratamento e ingestão de dados para que você projete e construa um Data Warehouse, utilizando componentes 100% gráficos e de fácil manuseio, você não precisará digitar nenhum código, o APACHE HOP é low code, será possível combinar, enriquecer, limpar e de muitas outras maneiras manipular dados. A ideia é que você faça a leitura de dados, realize os ajustes e tratamentos no conteúdo (limpeza de inconsistências, criação de campos, composição de campos, dentre outros).
Na segunda parte com APACHE HOP vamos construir um Data Warehouse com uma explanação sobre o que é BI, DW, como funciona a staging área, o que são dimensões e fatos e tudo que você tem direito sobre este mundo de dados. Iremos construir um projeto do zero para informações sobre vendas, trabalhando com tabelas de departamento, produto e vendedor. Ao final iremos construir um workflow, que terá todos os pipelines de cargas juntos e como podemos executá-lo dentro da ferramenta APACHE HOP e fora dela.
Depois fecharemos com o curso mais solicitado nas organizações Databricks Delta Lake, faremos uma grande explanação sobre Databricks e suas aplicações, falaremos do que é mais importante no Delta Lake o controle de transações dos dados, onde trabalharemos com arquivos parquet, mas sendo consumidos e trabalhados com operações conhecidas em banco de dados. Databricks Delta Lake é o que de mais moderno em plataforma para cloud que utilizam o SPARK como seu motor de processamento e que permitem controlar todas as transações sobre seus dados de forma nativa.
Então venha e comece hoje mesmo!
Who this course is for:
- Estudantes e profissionais de computação, Informática, estatística, data science, analista de dados, engenheiro de dados
- Pessoas interessadas em aprender os conceitos sobre ferramentas de ingestão de dados, ou que gostariam adentrar na área de engenharia de dados
- Profissionais que, de alguma forma, utilizam dados no seu dia a dia
Instructor
Quem sou
Fui escolhido como um dos 50 profissionais mais influentes em dados no ano de 2023 pela Gama Academy, uma organização que estabelece um Rank dos profissionais com mais destaque na área de Dados/BI.
Por que estudar na área de dados comigo?
Sou profissional da área com diversos projetos desenvolvidos, tanto na área privada como na área pública, tenho um skill muito forte em atender meus alunos com alguma dúvida no máximo em 24 horas. Procuro alinhar conhecimento teórico e prático.
O que trago em meus cursos?
Acho que a área de dados é bem rica e vasta, mas ter um direcionamento do que deve ser estudado com cursos passo a passo é o que busco nas minhas aulas, fiz um mestrado na área de educação para criar aulas sob medida aos meus alunos. Estou diariamente aprimorando e trazendo novidades na área, afinal criar + de 150 cursos envolve dedicação e foco.
O que faço hoje
Sou professor das pós-graduações das universidades UNIFACS, CATÓLICA DO SALVADOR e ISL Wyden. Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC). Possui Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 20 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente sou editor do blog BI com Vatapá. Autor do Livro: BI COMO DEVE SER - professor EAD de diversos cursos de BI na Aprenda Virtual. Idealizador do BI PRO - O maior e mais completo conteúdo sobre BI da internet.