
Está preparado para o futuro da Análise de Dados? Como está se preparando e qual sua dedicação para aprender novas ferramentas da tecnologia no mundo da análise de dados?
--> Totalmente Atualizado para Ambiente Free-Edition
Vou te ensinar de uma maneira fácil e didática como manipular a ferramenta Databricks. Com foco em SQL e Python, vou te ensinar as principais funções de ETL (Extração, Tratamento e Carregamento) de dados, manipulando de maneira ágil e com exemplos do dia a dia para facilitar sua rota de aprendizagem.
Já imaginou manipular dados sem instalar nada em seu computador? É isso mesmo, basta ter acesso à internet que iremos fazer tudo de maneira rápida e fácil, e o melhor: deixo todo o material disponível para download para você treinar e fazer aulas junto comigo sem perder tempo pausando aulas para criar seus scripts de programação.
O Databricks é uma das ferramentas de Big Data mais procuradas atualmente. Já imaginou no mesmo notebook poder manipular 4 linguagens de programação diferentes? Muito bom, não é? Além de ser um serviço de análise de Big Data baseado no Spark, rápido, fácil e colaborativo. O objetivo do curso é ensinar PySpark, Spark SQL em Python e a Arquitetura Databricks Lakehouse.
Deixo sempre conteúdos atualizados, módulos bônus e vamos fazer projetos com contas reais em ambientes da Cloud (nuvem).
O que você vai aprender:
Primeiras configurações, cadastros e criação de conta gratuita no Databricks
Organização de notebooks e hierarquia Catalog, Schema, Tabelas e Volumes
Manipulação de arquivos com dbutils e DataFrames
Salvando e lendo dados em diferentes formatos: CSV, JSON, Parquet e Delta
Particionamento e multiparticionamento de dados
Sistema interno de arquivos do Databricks
Tabelas do Sistema Databricks: histórico de queries, performance e custos com DBUs
Filtros avançados com Filter, Where, Like, translate, lower e trim
Manipulação de colunas: criação, colunas condicionais e schema de dados
Conversão de dados, arredondamento e renomeação de colunas
Trabalhando com datas e horas no PySpark e SQL
Tratamento de dados nulos: dropna, fillna e filtragem
Funções de agregação: contagem, média, mínimo e máximo
Delta Lake: logs, restauração de dados e otimização
Integração com GitHub: repositórios, versionamento e conexão com Databricks
Criação de conta e configuração do ambiente Microsoft Azure
Lakehouse fundamentos básicos e criação na prática
Data Lake com camadas Bronze, Prata e Ouro
Unity Catalog: volumes externos, gerenciados e External Location
Projeto prático completo de ponta a ponta: Bronze → Silver → Gold na Azure Cloud
Criação de pipelines automáticos com Databricks Jobs