Databricks e APACHE HOP: dados e seus tratamentos
What you'll learn
- Visualização para explorar resultados de consultas de diferentes perspectivas
- Construção de gráficos e Dashboards
- Unificação de dados em diversos formatos: texto, JSON, PARQUET, dentre outros
- Trabalhada por administrador da plataforma, analista de dados, cientista de dados e engenheiro de dados com diversas funcionalidades
- Aprendizado processamento distribuído em SPARK
- Entendo o que é Databricks File System (DBFS) seu sistema de arquivos
- Entendo sobre Cluster
- Aprendendo a gerenciar e criar Notebooks em R, SCALA, Python e SQL
- Executando scripts multilinguagens
- Gerenciando a ingestão de dados e análise de dados, gerando gráficos e dashboards
- Construindo na versão community
- Trabalhando com a biblioteca dbutils Python
- Integrando o Databricks ao Power BI
- O que é Hop Orchestration Platform
- Entendendo sobre fluxos de trabalho e pipelines
- Entendendo sobre projetos e ambientes
- Instalação do APACHE HOP
- Criando pipelines com arquivos texto
- Realizando tratamento de dados para entendimento do processo de engenharia de dados
- O que são transformações, links e ações dentro de um pipeline
- Construindo um workflow, orquestrador da sequência das operações
- Entendendo o HOP GUI e seus componentes
- Entendendo menu barras, principal e perspectivas
- Criando sua área de projetos
- Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output
- Entendendo o que é : View output, Preview output , Debug output
- Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist
- Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
- Construindo Workflow com execução de pipelines
- Entendo o uso de variáveis globais no APACHE HOP
- Automatização de pipeline ou workflow pelo HOP-RUN
- Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
- Instalação de banco de dados Postgresql, usando PGAdmin
Requirements
- É importante que você conheça um pouco de Python, R, Scala, SQL, não haverá treinamento destas linguagens neste curso
- Importante conhecer execução de scripts em Python, R, Scala, SQL
- Importante ter uma base sobre banco de dados, arquivos de dados
- Importante que você conheça lógica de programação
Description
Criamos um dos treinamentos mais interessante do mercado, que liga a atuação do analista de dados, engenheiro de dados e de todos os profissionais que manipulam, tratam e utilizam dados no seu dia dia em duas das principais ferramentas do mercado, conheçam o Databricks e o APACHE HOP.
Inicialmente iremos aprender como trabalhar com dados no produto Databricks, que permite que você trabalhe com conceitos dos mais utilizados no mercado: SPARK, NÓ, CLUSTER. Aqui será possível utilizar o conceito de multilinguagem dentro da construção de seus projetos de dados utilizando o conceito de notebooks. Você poderá ter em um mesmo notebook: SCALA, R, PYTHON e SQL. Entenderá o poder de trabalhar com o SPARK e suas aplicações, além de entender todo o propósito do uso do Databricks.
Em seguida você entrará no mundo do pipeline e workflow com a ferramenta APACHE HOP, de última geração, totalmente visual, você irá construir projetos que tratam e manipulam dados, é um produto que tem mais de 400 plugins ou componentes, tudo muito simples e fácil, basta arrastar o componente e realizar uma tarefa: união de dados, troca de valores, ajustes e retiradas de informações inconsistentes, gravação de dados em arquivos TXT, CSV, XLS e em banco de dados e muitas outras ações.
Então venha e aprenda a trabalhar com estas duas ferramentas incríveis que todo engenheiro de dados, analista de dados ou profissional de dados em geral está utilizando.
Entre para este clube que não para de crescer!
Who this course is for:
- Estudantes e profissionais de computação, Informática, estatística, data science, analista de dados, engenheiro de dados
- Pessoas interessadas em aprender os conceitos sobre ferramentas de ingestão de dados, ou que gostariam adentrar na área de engenharia de dados
- Profissionais que, de alguma forma, utilizam dados no seu dia a dia
Instructor
Quem sou
Fui escolhido como um dos 50 profissionais mais influentes em dados no ano de 2023 pela Gama Academy, uma organização que estabelece um Rank dos profissionais com mais destaque na área de Dados/BI.
Por que estudar na área de dados comigo?
Sou profissional da área com diversos projetos desenvolvidos, tanto na área privada como na área pública, tenho um skill muito forte em atender meus alunos com alguma dúvida no máximo em 24 horas. Procuro alinhar conhecimento teórico e prático.
O que trago em meus cursos?
Acho que a área de dados é bem rica e vasta, mas ter um direcionamento do que deve ser estudado com cursos passo a passo é o que busco nas minhas aulas, fiz um mestrado na área de educação para criar aulas sob medida aos meus alunos. Estou diariamente aprimorando e trazendo novidades na área, afinal criar + de 150 cursos envolve dedicação e foco.
O que faço hoje
Sou professor das pós-graduações das universidades UNIFACS, CATÓLICA DO SALVADOR e ISL Wyden. Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC). Possui Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 20 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente sou editor do blog BI com Vatapá. Autor do Livro: BI COMO DEVE SER - professor EAD de diversos cursos de BI na Aprenda Virtual. Idealizador do BI PRO - O maior e mais completo conteúdo sobre BI da internet.