Databricks e PySpark: analisando dados
What you'll learn
- Visualização para explorar resultados de consultas de diferentes perspectivas
- Construção de gráficos e Dashboards
- Unificação de dados em diversos formatos: texto, JSON, PARQUET, dentre outros
- Trabalhada por administrador da plataforma, analista de dados, cientista de dados e engenheiro de dados com diversas funcionalidades
- Aprendizado processamento distribuído em SPARK
- Entendo o que é Databricks File System (DBFS) seu sistema de arquivos
- Entendo sobre Cluster
- Aprendendo a gerenciar e criar Notebooks em R, SCALA, Python e SQL
- Executando scripts multilinguagens
- Gerenciando a ingestão de dados e análise de dados, gerando gráficos e dashboards
- Construindo na versão community
- Trabalhando com a biblioteca dbutils Python
- Integrando o Databricks ao Power BI
- O que é PYSPARK
- O que é SPARK
- Instalando o SPARK em um ambiente Windows, configurando
- Instalando o ANACONDA
- Instalando a JDK
- Entendendo o ecossistema : Apache Spark + Anaconda + JAVA
- Entendendo o conceito de NÓ, CLUSTER
- Conhecendo os módulos e pacotes do PYSPARK
- O que é SparkContext
- Entendo o que é RDD (Resilient Distributed Dataset)
- Trabalhando com Spark Dataframe
- Compreendendo as diferenças entre transformações e ações, operações com PYSPARK
- Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take
- Aprendendo o que é uma função Lambda
- Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy
- Monitoramento de jobs com SPARK UI
- O que é SparkSession
- Leitura de arquivos externos
- SPARK SQL
- Leitura de dados em JSON
Requirements
- É importante que você conheça um pouco de Python, R, Scala, SQL, não haverá treinamento destas linguagens neste curso
- Importante conhecer execução de scripts em Python, R, Scala, SQL
Description
Trazemos para você o que há de mais completo e atual no uso de ferramentas da área de dados nas grandes corporações pelo mundo, o uso do Databricks e do PySpark.
O Databricks é um ecossistema completo que reúne as principais linguagens da era Data Science em um mesmo notebook, isso mesmo, um dos poucos produtos que possui multilinguagem em um mesmo notebook. Você vai trabalhar com Linguagem R, Python, Scala e ainda utilizando comandos em SQL, umas das linguagens de manipulação de dados mais utilizadas no mundo. Além disso, você produzirá gráficos no ambiente do Databricks, que já vem preparado para isso, tudo junto.
Depois mergulharemos com tudo no uso do PySpark. Para quem não conhece, é o uso do PYTHON na estrutura de processamento SPARK, que vem revolucionando o mercado pela sua rapidez na execução de suas rotinas de trabalho. Com PySpark vamos aprender conceitos diferentes, trabalhar dados estruturados, semi-estruturados e não-estruturados, você terá vários scripts para executar durante o seu aprendizado.
Databricks e Pyspark são destaque na era BIg Data, pois utilizam os conceitos de processamento distribuído e podem ser acessados e utilizados na nuvem, que já é muito comum nas empresas.
Você vai contar com apostila, exercícios resolvidos e desafios para correção, não é o máximo?
Então venha e una-se ao nosso grupo.
Who this course is for:
- Estudantes e profissionais de computação, Informática, estatística, data science, analista de dados, engenheiro de dados
Instructor
Quem sou
Fui escolhido como um dos 50 profissionais mais influentes em dados no ano de 2023 pela Gama Academy, uma organização que estabelece um Rank dos profissionais com mais destaque na área de Dados/BI.
Por que estudar na área de dados comigo?
Sou profissional da área com diversos projetos desenvolvidos, tanto na área privada como na área pública, tenho um skill muito forte em atender meus alunos com alguma dúvida no máximo em 24 horas. Procuro alinhar conhecimento teórico e prático.
O que trago em meus cursos?
Acho que a área de dados é bem rica e vasta, mas ter um direcionamento do que deve ser estudado com cursos passo a passo é o que busco nas minhas aulas, fiz um mestrado na área de educação para criar aulas sob medida aos meus alunos. Estou diariamente aprimorando e trazendo novidades na área, afinal criar + de 150 cursos envolve dedicação e foco.
O que faço hoje
Sou professor das pós-graduações das universidades UNIFACS, CATÓLICA DO SALVADOR e ISL Wyden. Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC). Possui Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 20 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente sou editor do blog BI com Vatapá. Autor do Livro: BI COMO DEVE SER - professor EAD de diversos cursos de BI na Aprenda Virtual. Idealizador do BI PRO - O maior e mais completo conteúdo sobre BI da internet.