PENTAHO PDI e APACHE HOP: pipeline e tratamento em dados
What you'll learn
- PENTAHO PDI: O que é o Pentaho PDI
- PENTAHO PDI: Entendendo sobre fluxos de trabalho e pipelines
- PENTAHO PDI: Entendendo sobre projetos e ambientes
- PENTAHO PDI: Instalando o Pentaho PDI
- PENTAHO PDI: Criando pipelines com arquivos texto
- PENTAHO PDI: Realizando tratamento de dados para entendimento do processo de engenharia de dados
- PENTAHO PDI: O que são transformações, Jobs e ações dentro de um pipeline
- PENTAHO PDI: Construindo um workflow com Jobs, orquestrador da sequência das operações
- PENTAHO PDI: Entendendo os menus principais e o seu GUI e seus componentes
- PENTAHO PDI: Comp. pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output, Row Normaliser
- PENTAHO PDI: Entendendo como podem ser depurados os dados via output, logs
- PENTAHO PDI: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist
- PENTAHO PDI: Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
- PENTAHO PDI: Construindo Workflow com execução de pipelines
- PENTAHO PDI: Entendo o uso de variáveis globais no PENTAHO PDI
- PENTAHO PDI: Automatização de pipeline ou workflow
- PENTAHO PDI: Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
- PENTAHO PDI: Instalação de banco de dados Postgresql, uso do PGAdmin
- PENTAHO PDI: Automatização de JOBs e Transformações com o Kitchen e Pan
- PENTAHO PDI: Construção do projeto de dados a sua escolha e correção com o uso do Pentaho PDI
- APACHE HOP: O que é Hop Orchestration Platform
- APACHE HOP: Entendendo sobre fluxos de trabalho e pipelines
- APACHE HOP: Entendendo sobre projetos e ambientes
- APACHE HOP: Instalação do APACHE HOP
- APACHE HOP: Criando pipelines com arquivos texto
- APACHE HOP: Realizando tratamento de dados para entendimento do processo de engenharia de dados
- APACHE HOP: O que são transformações, links e ações dentro de um pipeline
- APACHE HOP: APACHE HOP: Construindo um workflow, orquestrador da sequência das operações
- APACHE HOP: Entendendo o HOP GUI e seus componentes
- APACHE HOP: Entendendo menu barras, principal e perspectivas
- APACHE HOP: Criando sua área de projetos
- APACHE HOP: Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output
- APACHE HOP: Entendendo o que é : View output, Preview output , Debug output
- APACHE HOP: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist
- APACHE HOP: Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
- APACHE HOP: Construindo Workflow com execução de pipelines
- APACHE HOP: Entendo o uso de variáveis globais no APACHE HOP
- APACHE HOP: Automatização de pipeline ou workflow pelo HOP-RUN
- APACHE HOP: Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
- APACHE HOP: Instalação de banco de dados Postgresql, usando PGAdmin
Requirements
- Importante ter conhecimento sobre banco de dados, arquivos de dados
- Importante que você conheça lógica de programação
Description
Chegou o momento de você estudar duas grandes ferramentas do mercado do mundo open source e que fazem diferença nas empresas. Posso afirmar que o Apache Hop e o Pentaho PDI são duas das ferramentas mais importantes que um profissional de dados deve dominar. Essas duas plataformas oferecem um conjunto completo de recursos para gerenciar, transformar e integrar dados de várias fontes, tornando-as cruciais para qualquer projeto de análise de dados.
O Apache Hop é uma ferramenta de ETL (Extração, Transformação e Carga) de código aberto, que permite criar pipelines de dados complexos e escaláveis. Com o Hop, os engenheiros de dados podem automatizar o processo de coleta de dados, limpeza, transformação e carregamento em um sistema de armazenamento de dados. O Hop suporta diversas fontes de dados, incluindo bancos de dados, arquivos de texto, planilhas e muito mais, e permite que os usuários criem fluxos de trabalho de ETL com pouca ou nenhuma codificação.
Já o Pentaho PDI é uma plataforma de integração de dados que oferece recursos de ETL, gerenciamento de metadados, geração de relatórios e análise de dados. Com o PDI, os usuários podem conectar-se a diversas fontes de dados, como bancos de dados, APIs, serviços da web e arquivos, e transformá-los em informações úteis. O PDI oferece recursos de análise de dados, como visualizações gráficas e dashboards interativos, tornando-se uma ferramenta valiosa para profissionais que precisam apresentar seus resultados de maneira clara e fácil de entender.
Ambas as ferramentas oferecem vantagens únicas para projetos de dados. Ambas as plataformas oferecem uma interface amigável e recursos de automação, permitindo que os usuários criem fluxos de trabalho complexos com facilidade.
Dominar o Apache Hop e o Pentaho PDI é essencial para a carreira de um engenheiro de dados. As habilidades em ETL e integração de dados são cada vez mais importantes para profissionais de dados em todas as áreas, desde análise de dados até inteligência artificial e aprendizado de máquina.
No geral, a capacidade de criar fluxos de trabalho de ETL eficientes e integrar dados de várias fontes é fundamental para qualquer projeto de dados bem-sucedido. Com o nosso treinamento, agora é possível dominar essas ferramentas em seu próprio ritmo, e com a ajuda minha ajuda bem de perto.
Inscreva-se agora e prepare-se para levar sua carreira em dados para o próximo nível!
Who this course is for:
- Estudantes e profissionais de computação, Informática, estatística, data science, analista de dados, engenheiro de dados
- Pessoas interessadas em aprender os conceitos sobre ferramentas de ingestão de dados, ou que gostariam adentrar na área de engenharia de dados
- Profissionais que, de alguma forma, utilizam dados no seu dia a dia
Instructor
Quem sou
Fui escolhido como um dos 50 profissionais mais influentes em dados no ano de 2023 pela Gama Academy, uma organização que estabelece um Rank dos profissionais com mais destaque na área de Dados/BI.
Por que estudar na área de dados comigo?
Sou profissional da área com diversos projetos desenvolvidos, tanto na área privada como na área pública, tenho um skill muito forte em atender meus alunos com alguma dúvida no máximo em 24 horas. Procuro alinhar conhecimento teórico e prático.
O que trago em meus cursos?
Acho que a área de dados é bem rica e vasta, mas ter um direcionamento do que deve ser estudado com cursos passo a passo é o que busco nas minhas aulas, fiz um mestrado na área de educação para criar aulas sob medida aos meus alunos. Estou diariamente aprimorando e trazendo novidades na área, afinal criar + de 150 cursos envolve dedicação e foco.
O que faço hoje
Sou professor das pós-graduações das universidades UNIFACS, CATÓLICA DO SALVADOR e ISL Wyden. Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC). Possui Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 20 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente sou editor do blog BI com Vatapá. Autor do Livro: BI COMO DEVE SER - professor EAD de diversos cursos de BI na Aprenda Virtual. Idealizador do BI PRO - O maior e mais completo conteúdo sobre BI da internet.