Databricks Delta Lake + NIFI: streaming e dados
What you'll learn
- Entendendo a arquitetura chamada Lakehouse sobre o Data Lake no Databricks
- Construindo Delta Lake com processamento em batch, streaming em lote
- Controle de transações sobre os dados, como um banco de dados
- Trabalhando com características ACID (Atomicidade, Consistência, Isolamento, Durabilidade) ao Delta Lake
- Entendendo versionamento dos dados, permite que os dados sejam acessados e revertam para versões anteriores de dados, controle de históricos
- Uso das fases de ingestão, refinamento e enriquecimento dos dados
- Diferenças das arquiteturas Data Lake x Delta Lake
- Aprendendo como otimização dos processos de coleta e tratamento dos dados, reduzindo o tempo de processamento e descartando o que não for útil
- Trabalhando a criação de tabelas Delta e como gerar históricos de dados
- Trabalhando com cluster, DBFS, Notebook em R, Scala, Pyhton e SQL
- Delta Time Travel como retornar versões de dados e comandos de controle
- Controle de auditoria, agindo na conformidade de dados quanto de depuração simples para entender como os dados mu
- Executando reversões nos dados, evitando duplicação e realizando refinamento, ajustes, atualizações e exclusões dos dados
- Executando scripts batch e streaming
- Entendo o que significa checkpoint e controle de gravações dos dados
- Trabalhando com Schema Evolution na inclusão de atributos as tabelas delta
- Entendo sobre Apache Nifi, uma plataforma de ingestão de dados
- Entendo sobre o gerenciamento e a automatização do fluxo de dados
- Entendendo sobre coleta de dados, transmissão de dados, armazenamento de dados
- Ecossistema NiFi: Repositórios, controle de fluxo, máquina JVM, extensões
- O que é Flow File
- O que é um Processor
- O que é um Fluxo de Dados
- O que é uma conexão
- O que é um grupo de processor
- Aprendendo sobre a barra de componentes
- Aprendendo sobre a barra de controle navegação
- Aprendendo sobre a barra de operação
- Desenvolvimento de diversos fluxos de dados
- Extensões: Putfile, Getfile, ExtractText, SplitText
- Extensões: EvaluateXpath, UpdateAttribute, GenerateFlowFile
- Extensões: RouteOnAttribute, SplitXML, LogMessage, LogAttibute
- Extensões: MergeContent, ReplaceText, CompressContent
- Uso de Input Port, Funil e Process Group
Requirements
- É importante que você conheça um pouco de Python, R, Scala, SQL, não haverá treinamento destas linguagens neste curso
- Importante conhecer execução de scripts em Python, R, Scala, SQL
- Importante ter uma base sobre banco de dados, arquivos de dados
- Importante que conheça lógica de programação
Description
Um dos treinamentos mais esperados pelos profissionais de dados, que unem duas grandes ferramentas muito utilizadas pelos engenheiros de dados e que estão em qualquer projeto que utilize principalmente streaming de dados, estamos falando do uso do Databricks Delta Lake e do APACHE NIFI.
Vamos iniciar nosso curso de forma incrível, trabalhando com que há de mais moderno no tratamento de dados na nuvem, faremos tudo isso no Databricks com o uso do Delta Lake. O Delta Lake é uma camada de armazenamento de código aberto que traz confiabilidade aos Data Lakes, fornecendo recursos semelhantes a data warehouse, em cima do Data Lake. Ele também pode lidar com dados de Batch e Streaming perfeitamente. E esses componentes e recursos podem ajudar a construir uma arquitetura otimizada e bem integrada do Lakehouse.
Depois vamos mergulhar no uso do APACHE NIFI, foi construído para automatizar o fluxo de dados entre os sistemas, As empresas têm mais de um sistema, onde alguns dos sistemas criam dados e alguns dos sistemas consomem dados, então o NIFI nasce no contexto de permitir a integração entre os softwares via fluxo de dados. Comumente aqui no nosso curso você vai ouvir falar um FlowFile representa cada objeto movendo-se através do sistema e para cada um.
Então, vamos começar nosso treinamento para aprender a trabalhar com estes dois gigantes da área de engenharia de dados?
Who this course is for:
- Estudantes e profissionais de computação, Informática, estatística, data science, analista de dados, engenheiro de dados
- Pessoas interessadas em aprender os conceitos sobre NiFi e Databricks Delta Lake, ou que gostariam adentrar na área de engenharia de dados
- Profissionais que, de alguma forma, utilizam dados no seu dia a dia
Instructor
Quem sou
Fui escolhido como um dos 50 profissionais mais influentes em dados no ano de 2023 pela Gama Academy, uma organização que estabelece um Rank dos profissionais com mais destaque na área de Dados/BI.
Por que estudar na área de dados comigo?
Sou profissional da área com diversos projetos desenvolvidos, tanto na área privada como na área pública, tenho um skill muito forte em atender meus alunos com alguma dúvida no máximo em 24 horas. Procuro alinhar conhecimento teórico e prático.
O que trago em meus cursos?
Acho que a área de dados é bem rica e vasta, mas ter um direcionamento do que deve ser estudado com cursos passo a passo é o que busco nas minhas aulas, fiz um mestrado na área de educação para criar aulas sob medida aos meus alunos. Estou diariamente aprimorando e trazendo novidades na área, afinal criar + de 150 cursos envolve dedicação e foco.
O que faço hoje
Sou professor das pós-graduações das universidades UNIFACS, CATÓLICA DO SALVADOR e ISL Wyden. Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC). Possui Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 20 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente sou editor do blog BI com Vatapá. Autor do Livro: BI COMO DEVE SER - professor EAD de diversos cursos de BI na Aprenda Virtual. Idealizador do BI PRO - O maior e mais completo conteúdo sobre BI da internet.