Udemy
    •  
    •  
    •  
    •  
    •  
    •  
    •  
    •  
Turn what you know into an opportunity and reach millions around the world.
Learn More
Your cart is empty.
Keep shopping
Databricks Delta Lake: alta qualidade sobre seus dados
Rating: 4.5 out of 5(39 ratings)
185 students

Databricks Delta Lake: alta qualidade sobre seus dados

Controle total sobre a ingestão de dados e transações, histórico e performance
Last updated 2/2026
Portuguese

What you'll learn

  • Entendendo a arquitetura chamada Lakehouse sobre o Data Lake no Databricks
  • Construindo Delta Lake com processamento em batch, streaming em lote
  • Controle de transações sobre os dados, como um banco de dados
  • Trabalhando com características ACID (Atomicidade, Consistência, Isolamento, Durabilidade) ao Delta Lake
  • Entendendo versionamento dos dados, permite que os dados sejam acessados e revertam para versões anteriores de dados, controle de históricos
  • Uso das fases de ingestão, refinamento e enriquecimento dos dados
  • Diferenças das arquiteturas Data Lake x Delta Lake
  • Aprendendo como otimização dos processos de coleta e tratamento dos dados, reduzindo o tempo de processamento e descartando o que não for útil
  • Trabalhando a criação de tabelas Delta e como gerar históricos de dados
  • Trabalhando com cluster, DBFS, Notebook em R, Scala, Pyhton e SQL
  • Delta Time Travel como retornar versões de dados e comandos de controle
  • Controle de auditoria, agindo na conformidade de dados quanto de depuração simples para entender como os dados mudaram ao longo do tempo
  • Executando reversões nos dados, evitando duplicação e realizando refinamento, ajustes, atualizações e exclusões dos dados
  • Executando scripts batch e streaming
  • Entendo o que significa checkpoint e controle de gravações dos dados
  • Trabalhando com Schema Evolution na inclusão de atributos as tabelas delta

Course content

1 section14 lectures2h 15m total length
  • Introdução a Databricks Delta Lake8:56
  • INFORMAÇÕES IMPORTANTES - Leia antes de começar o curso0:23
  • Diferenças sobre Data Lake x Delta Lake10:11
  • Start Databricks e como o ambiente funciona10:54
  • Passo a passo - Criando uma conta Databricks Community Edition - Free0:12
  • Carregamento dados compras e controle de dados10:00
  • Entendo o controle de transações - Delta_log5:27
  • Describe de versões Delta Lake e restore de versões11:00
  • Carga de dados Hotel e Otimizando as consultas no Delta Lake12:36
  • Executando o processo de Delta Time Travel16:57
  • Construção de tabelas Delta e verificando o controle de transações e constraints10:40
  • Executando Streaming script e armazenando os dados em uma tabela Delta17:39
  • Utilizando Schema Evolution em tabelas Delta17:51
  • Responda a nossa pergunta
  • Entrega de exercício - aula final2:55

Requirements

  • É importante que você conheça um pouco de Python, R, Scala, SQL, não haverá treinamento destas linguagens neste curso
  • Importante conhecer execução de scripts em Python, R, Scala, SQL

Description

Este é um dos principais treinamentos da área de engenharia de dados, que traz um conceito novo para estes profissionais que buscam mais controle, refinamento e enriquecimento de suas bases utilizando o ferramental do Databricks, estamos falando de uma das principais funcionalidades do mercado na construção de Data Lakehouse, que está revolucionado o mundo cloud, para quem deseja trabalhar com Spark e alta performance, vamos aprender a trabalhar com o Databricks Delta Lake.


O Databricks Delta Lake é um projeto de código aberto que permite construir uma arquitetura chamada Lakehouse sobre o Data Lake no Databricks. O Delta Lake fornece processamento em batch, streaming em lote, além de controle de transações sobre os dados, como um banco de dados com as seguintes características:


  • FACILIDADE: gerenciamento de dados temporais que simplifica seu pipeline de dados, facilitando a auditoria, a reversão de dados em caso de gravações ou exclusões de falhas acidentais e a reprodução de experimentos.


  • AUDITORIA: organizações que trabalham com sistemas de dados tradicionais para tecnologias de Big Data sempre tem necessidade de auditar os dados, fundamental tanto em termos de conformidade de dados quanto de depuração simples para entender como os dados mudaram ao longo do tempo, isso o Delta Lake faz de forma nativa.


  • REVERSÕES: os pipelines de dados ao serem executados, podem escrever dados não adequados (precisando de refinamento, ajustes), atualizações e exclusões, pode-se tornar muito complicado, e os engenheiros de dados normalmente têm que projetar um pipeline complexo, quando não contam com um recurso nativo do Delta Lake o Delta Time Travel.


  • REPRODUZIR EXPERIMENTOS: analistas ou cientistas de dados projetam práticas recomendadas criando várias cópias dos dados, levando a um aumento dos custos de armazenamento. Tudo isso para simular a história dos dados, no Delta Lake você utiliza qualquer versão dos dados, pois eles ficam gravados e são historizados dentro do DBFS.


O Databricks Delta Lake é o que de mais moderno em plataforma para cloud que utilizam o SPARK como seu motor de processamento e que permitem controlar todas as transações sobre seus dados de forma nativa.

Então venha e comece hoje mesmo seu treinamento!


Who this course is for:

  • Estudantes e profissionais de computação, Informática, estatística, data science, analista de dados, engenheiro de dados