Fundamentos de Business Intelligence + Pyspark SPARK
What you'll learn
- Conceitos Básicos de Business Intelligence
- Fundamentos de Business Intelligence
- O que é um Data Warehouse
- O que é Staging Area, ETL, OLAP, Data Mart, Data Mining, Big Data
- BI (Business Intelligence) para Concursos
- Resolução de 50 questões de BI dos Principais Concursos
- Resumo BI em formato PDF com detalhes sobre todos os assuntos
- O que é Data Mining
- Definição sobre Big Data
- O que é PYSPARK
- O que é SPARK
- Instalando o SPARK em um ambiente Windows, configurando
- Instalando o ANACONDA
- Instalando a JDK
- Entendendo o ecossistema : Apache Spark + Anaconda + JAVA
- Entendendo o conceito de NÓ, CLUSTER
- Conhecendo os módulos e pacotes do PYSPARK
- O que é SparkContext
- Entendo o que é RDD (Resilient Distributed Dataset)
- Trabalhando com Spark Dataframe
- Compreendendo as diferenças entre transformações e ações, operações com PYSPARK
- Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take
- Aprendendo o que é uma função Lambda
- Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy
- Monitoramento de jobs com SPARK UI
- O que é SparkSession
- Leitura de arquivos externos
- SPARK SQL
- Leitura de dados em JSON
Requirements
- Noção Básica de Banco de Dados
- Profissionais que, de alguma forma, utilizam dados no seu dia a dia
- Conhecimento em Python
Description
Agora você estará aprendendo o que realmente interessa na área de dados com o entendimento sobre o mundo do Business Intelligence e tudo que existe sobre o assunto, alinhado a construção de projetos de dados avançados com o uso de Pyspark dentro do SPARK, implantando passo a passo a sua arquitetura.
Iniciaremos nosso treinamento com o RESUMO BI. Um Resumo Completo e Objetivo sobre os Fundamentos de Business Intelligence (BI), é assim que podemos considerar o Resumo BI - Fundamentos de Business Intelligence. Vamos te ajudar a entender os principais conceitos de Business Intelligence como O que é BI, Data Warehouse, OLTP, OLAP, Metadados, Modelagem Dimensional, Data Mining, Big Data, proporcionando a base necessária para oprofissional que quer entrar na áreade BI e ao mesmo tempo servindo de um excelente guia de referência para quem precisa de ummaterial objetivo de BI para concursos.
Depois aprenderemos de forma orquestrada, como funciona o pyspark, que é uma API Python para Apache SPARK que é denominado como o mecanismo de processamento analítico para aplicações de processamento de dados distribuídos em larga escala e aprendizado de máquina, ou seja, para grandes volumes de dados.
O uso da biblioteca Pyspark possui diversas vantagens:
• É um mecanismo de processamento distribuído, na memória, que permite o processamento de dados de forma eficiente e de características distribuída.
• Com o uso do PySpark, é possível o processamento de dados em Hadoop (HDFS), AWS S3 e outros sistemas de arquivos.
• Possui bibliotecas de aprendizado de máquina e gráficos.
• Geralmente as aplicações criadas e executadas no PySpark são 100x mais rápidas que outras em sistemas de dados conhecidos.
Então venha participar deste grupo de profissionais que utilizam estas tecnologias no seu dia a dia.
Who this course is for:
- Profissionais de TI
- Concurseiros
- Profissionais que querem iniciar na área de Business Intelligence
- Profissionais que já trabalham com Python para aprimorar seu conhecimento em SPARK
Instructors
Professor das pós-graduações das universidades CATÓLICA DO SALVADOR, UFBA, UNIRUY e ESTÁCIO FIB em disciplinas das áreas de Business Intelligence e Banco de Dados.
Especialista em Banco de Dados com Enfâse em Alta Disponibilidade pela Universidade Salvador(UNIFACS) e em Projetos de Business Intelligence desde 2007, já atuei como DBA e atualmente como Consultor Business Intelligence participo de projetos utilizando tecnologias Oracle (OWB/OBIEE), Microsoft (SSIS/SSRS), Postgres e outras. Atualmente participo de projetos envolvendo todas as etapas do processo de BI, desde levantamento de requisitos, análise de viabilidade, projeto e desenho, modelagem dimensional, construção de ETL, Cubos e relatórios OLAP, envolvendo bases heterogêneas e diversas tecnologias. Também tenho me interessado muito e participado de algumas práticas e estudos sobre BIG DATA e Aprendizagem de Maquina.
Quem sou
Fui escolhido como um dos 50 profissionais mais influentes em dados no ano de 2023 pela Gama Academy, uma organização que estabelece um Rank dos profissionais com mais destaque na área de Dados/BI.
Por que estudar na área de dados comigo?
Sou profissional da área com diversos projetos desenvolvidos, tanto na área privada como na área pública, tenho um skill muito forte em atender meus alunos com alguma dúvida no máximo em 24 horas. Procuro alinhar conhecimento teórico e prático.
O que trago em meus cursos?
Acho que a área de dados é bem rica e vasta, mas ter um direcionamento do que deve ser estudado com cursos passo a passo é o que busco nas minhas aulas, fiz um mestrado na área de educação para criar aulas sob medida aos meus alunos. Estou diariamente aprimorando e trazendo novidades na área, afinal criar + de 150 cursos envolve dedicação e foco.
O que faço hoje
Sou professor das pós-graduações das universidades UNIFACS, CATÓLICA DO SALVADOR e ISL Wyden. Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC). Possui Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 20 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente sou editor do blog BI com Vatapá. Autor do Livro: BI COMO DEVE SER - professor EAD de diversos cursos de BI na Aprenda Virtual. Idealizador do BI PRO - O maior e mais completo conteúdo sobre BI da internet.