Pyspark e Nifi: analisando e criando projetos de dados
What you'll learn
- O que é PYSPARK
- O que é SPARK
- Instalando o SPARK em um ambiente Windows, configurando
- Instalando o ANACONDA
- Instalando a JDK
- Entendendo o ecossistema : Apache Spark + Anaconda + JAVA
- Entendendo o conceito de NÓ, CLUSTER
- Conhecendo os módulos e pacotes do PYSPARK
- O que é SparkContext
- Entendo o que é RDD (Resilient Distributed Dataset)
- Trabalhando com Spark Dataframe
- Compreendendo as diferenças entre transformações e ações, operações com PYSPARK
- Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take
- Aprendendo o que é uma função Lambda
- Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy
- Monitoramento de jobs com SPARK UI
- O que é SparkSession
- Leitura de arquivos externos
- SPARK SQL
- Leitura de dados em JSON
- Entendo sobre Apache Nifi, uma plataforma de ingestão de dados
- Entendo sobre o gerenciamento e a automatização do fluxo de dados
- Entendendo sobre coleta de dados, transmissão de dados, armazenamento de dados
- Ecossistema NiFi: Repositórios, controle de fluxo, máquina JVM, extensões
- O que é Flow File
- O que é um Processor
- O que é um Fluxo de Dados
- O que é uma conexão
- O que é um grupo de processor
- Aprendendo sobre a barra de componentes
- Aprendendo sobre a barra de controle navegação
- Aprendendo sobre a barra de operação
- Desenvolvimento de diversos fluxos de dados
- Extensões: Putfile, Getfile, ExtractText, SplitText
- Extensões: EvaluateXpath, UpdateAttribute, GenerateFlowFile
- Extensões: RouteOnAttribute, SplitXML, LogMessage, LogAttibute
- Extensões: MergeContent, ReplaceText, CompressContent
- Uso de Input Port, Funil e Process Group
Requirements
- Conhecimento em Python
- Conhecimento básico de SQL
- Importante que já tenha tido o contato com alguma linguagem de programação
- Importante que conheça lógica de programação
- Importante ter uma base sobre banco de dados, arquivos de dados
Description
Estamos diante de um dos treinamentos com mais abrangência que há no mercado, o uso de ferramentas de ingestão de dados pelo uso do NiFi e a utilização da linguagem mais utilizando pelos analistas de dados, cientistas de dados e profissionais de dados em geral que é o uso do Python dentro do SPARK.
Iniciaremos o curso aprendendo sobre o mundo SPARK e suas funcionalidades, você entenderá de uma vez por todas como funciona um cluster, um nó e todo o ecossistema de instalação, fazendo do zero para que você compreenda como funciona cada etapa do python dentro do SPARK. Utilizaremos o Anaconda para criação de nossos noteboooks e faremos passo a passo com todos os scripts disponíveis para seu download.
Já no NiFi aprenderemos como criar fluxo de dados para diversos assuntos no tratamento, cópia, geração, gravação de dados por meio do uso dos processadores em java. O NiFi é da plataforma APACHE e é amplamente utilizado em empresas que trabalham com engenharia de dados pelo mundo. Com o NiFi você terá a liberdade de criar seus fluxos de dados de forma visual, isso mesmo, tudo é feita na web, criaremos o servidor NiFi e executaremos os scripts, passo a passo.
Então venha conhecer este treinamento com duas das ferramentas mais utilizadas do mercado.
Who this course is for:
- Estudantes e profissionais de computação, Informática, estatística, data science, analista de dados, engenheiro de dados
- Profissionais que já trabalham com Python para aprimorar seu conhecimento em SPARK
- Pessoas interessadas em aprender os conceitos sobre NiFi, ou que gostariam adentrar na área de engenharia de dados
- Profissionais que, de alguma forma, utilizam dados no seu dia a dia
Instructor
Quem sou
Fui escolhido como um dos 50 profissionais mais influentes em dados no ano de 2023 pela Gama Academy, uma organização que estabelece um Rank dos profissionais com mais destaque na área de Dados/BI.
Por que estudar na área de dados comigo?
Sou profissional da área com diversos projetos desenvolvidos, tanto na área privada como na área pública, tenho um skill muito forte em atender meus alunos com alguma dúvida no máximo em 24 horas. Procuro alinhar conhecimento teórico e prático.
O que trago em meus cursos?
Acho que a área de dados é bem rica e vasta, mas ter um direcionamento do que deve ser estudado com cursos passo a passo é o que busco nas minhas aulas, fiz um mestrado na área de educação para criar aulas sob medida aos meus alunos. Estou diariamente aprimorando e trazendo novidades na área, afinal criar + de 150 cursos envolve dedicação e foco.
O que faço hoje
Sou professor das pós-graduações das universidades UNIFACS, CATÓLICA DO SALVADOR e ISL Wyden. Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC). Possui Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 20 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente sou editor do blog BI com Vatapá. Autor do Livro: BI COMO DEVE SER - professor EAD de diversos cursos de BI na Aprenda Virtual. Idealizador do BI PRO - O maior e mais completo conteúdo sobre BI da internet.