Alteryx TRIFACTA e Apache HOP: cargas e tratamento de dados
What you'll learn
- Preparação de dados aberta que pode se conectar a diversas fontes de dados
- Integração em todas as principais plataformas de dados em nuvem
- Decida entre ETL ou ELT, ou uma combinação ideal dos dois com base no desempenho
- Suporte para todas as principais nuvens, Google, AWS, Azure e on-premise
- Interface intuitiva e simples utilização de objetos de dados
- Perfilização de dados, ajudando na identificação de outliers
- Tratamento de dados, criação de novos campos, dentre outras tarefas
- Eliminação de dados nulos, inconsistências, criação de novos campos
- Exploração e avaliação de conteúdo e de qualidade de qualquer conjunto de dados
- Engenharia de dados com low-code, visual, direto na nuvem
- Construção, implantação e automatização de pipelines de dados
- Criação de flow de dados, que permite ao analista encadear suas ações de tratamento
- Action com os dados: Columns, Rename, Sort, Calculate, Group By, Filter Rows, Replace
- Action com os dados: Split, Create formula, dentre outros
- Exportação dos resultados automatizados
- O que é Hop Orchestration Platform
- Entendendo sobre fluxos de trabalho e pipelines
- Entendendo sobre projetos e ambientes
- Instalação do APACHE HOP
- Criando pipelines com arquivos texto
- Realizando tratamento de dados para entendimento do processo de engenharia de dados
- O que são transformações, links e ações dentro de um pipeline
- Construindo um workflow, orquestrador da sequência das operações
- Entendendo o HOP GUI e seus componentes
- Entendendo menu barras, principal e perspectivas
- Criando sua área de projetos
- Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output
- Entendendo o que é : View output, Preview output , Debug output
- Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist
- Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
- Construindo Workflow com execução de pipelines
- Entendo o uso de variáveis globais no APACHE HOP
- Automatização de pipeline ou workflow pelo HOP-RUN
- Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
- Instalação de banco de dados Postgresql, usando PGAdmin
Requirements
- Importante ter conhecimento sobre banco de dados, arquivos de dados
- Importante que você conheça lógica de programação
Description
Este treinamento foi construido como um dos mais práticos e principais da área de preparação de dados. Utilizaremos duas das mais importantes ferramentas de mercado que fazem o trabalho de preparação de dados, governaça de dados e ajustes nos dados, estamos falando Alteryx TRIFACTA e do APACHE HOP.
O Alteryx TRIFACTA, é uma ferramenta 100% na nuvem, low-code, totalmente prática e com grande destaque no mercado. Ela é uma plataforma em nuvem aberta e interativa, que permite a capacitação de engenheiros de dados e analistas a interpretar, preparar e criar pipelines de dados para acelerar suas análises.
As principais características do Alteryx TRIFACTA são:
Explore e avalie o conteúdo e a qualidade de qualquer conjunto de dados.
Acelere e acompanhe transformações de dados de forma visual.
Construa, implante e automatize pipelines de dados.
Utilize os fluxos de dados para definir TODAS as suas necessidades em tratamento de dados e governança de dados
O APACHE HOP é a abreviação de Hop Orchestration Platform, é uma plataforma de orquestração de dados e engenharia de dados que visa facilitar todos os aspectos da orquestração de dados e metadados, por padrão o HOP vem com cerca de 400 plugins ou componentes.
São criados fluxos de trabalho (Workflow) e pipelines em um ambiente de desenvolvimento visual chamado Hop Gui.
Com o APACHE HOP é possível combinar, enriquecer, limpar e de muitas outras maneiras manipular dados.
A ideia é que você faça a leitura de dados, realize os ajustes e tratamentos no conteúdo (limpeza de inconsistências, criação de campos, composição de campos, dentre outros).
Para você que pretende ou trabalha com engenharia de dados é a ferramenta perfeita.
O curso cobre todo o ciclo desde o START da construção do pipeline ou workflow até a automatização deste.
Então venha para o nosso treinamento e promova a exploração sobre seus dados com alta performance.
Who this course is for:
- Profissionais de TI
- Profissionais que querem trabalham na área de Engenharia de dados, Análise de dados, Ciência de Dados, Business Intelligence
- Pessoas interessadas em aprender os conceitos sobre ferramentas de ingestão de dados, ou que gostariam adentrar na área de engenharia de dados
- Profissionais que, de alguma forma, utilizam dados no seu dia a dia
Instructor
Quem sou
Fui escolhido como um dos 50 profissionais mais influentes em dados no ano de 2023 pela Gama Academy, uma organização que estabelece um Rank dos profissionais com mais destaque na área de Dados/BI.
Por que estudar na área de dados comigo?
Sou profissional da área com diversos projetos desenvolvidos, tanto na área privada como na área pública, tenho um skill muito forte em atender meus alunos com alguma dúvida no máximo em 24 horas. Procuro alinhar conhecimento teórico e prático.
O que trago em meus cursos?
Acho que a área de dados é bem rica e vasta, mas ter um direcionamento do que deve ser estudado com cursos passo a passo é o que busco nas minhas aulas, fiz um mestrado na área de educação para criar aulas sob medida aos meus alunos. Estou diariamente aprimorando e trazendo novidades na área, afinal criar + de 150 cursos envolve dedicação e foco.
O que faço hoje
Sou professor das pós-graduações das universidades UNIFACS, CATÓLICA DO SALVADOR e ISL Wyden. Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC). Possui Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 20 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente sou editor do blog BI com Vatapá. Autor do Livro: BI COMO DEVE SER - professor EAD de diversos cursos de BI na Aprenda Virtual. Idealizador do BI PRO - O maior e mais completo conteúdo sobre BI da internet.