Databricks e Linguagem R - Poder da análise de dados
What you'll learn
- Visualização para explorar resultados de consultas de diferentes perspectivas
- Construção de gráficos e Dashboards
- Unificação de dados em diversos formatos: texto, JSON, PARQUET, dentre outros
- Trabalhada por administrador da plataforma, analista de dados, cientista de dados e engenheiro de dados com diversas funcionalidades
- Aprendizado processamento distribuído em SPARK
- Entendo o que é Databricks File System (DBFS) seu sistema de arquivos
- Entendo sobre Cluster
- Aprendendo a gerenciar e criar Notebooks em R, SCALA, Python e SQL
- Executando scripts multilinguagens
- Gerenciando a ingestão de dados e análise de dados, gerando gráficos e dashboards
- Construindo na versão comunnity
- Trabalhando com a biblioteca dbutils Python
- Integrando o Databricks ao Power BI
- Entendendo o R
- Instalação do R-studio e R
- Primeiros passos com o R
- Uso do help
- Objetos no R
- Características
- Tipos de objetos
- Vetores
- Matrizes
- Data frames
- Listas
- Funções
- Identificação de valores faltantes e especiais
- Workspace do r(área de trabalho)
- Salvar uma workspace
- Leitura de uma workspace
- Acesso pelo R-studio
- Pacotes do R
- Entendimento dos diferentes tipos de pacotes
- Uso dos comandos library, intall package,require
- Trabalhando com leitura de arquivos externos
- Leitura através do R-studio
- Lendo um arquivo na web
- Sumarizando dados
- Selecionando dados
- Uso dos conectores lógicos
- Gráficos (análise de dados e apresentação)
- Exportando gráficos
- Tipos de gráficos: Histogramas, Ramo e Folha, Box-plot, Gráfico de dispersão,Gráfico de barras, Setores
- Programação: Comando FOR, Criando funções pelo R-studio, Uso de Estatísticas
- Variáveis qualitativas: Nominais e Ordinais
- Variáveis quantitativas: Discretas e Continuas
- Análise univariada e bivariada
- Teste de hipóteses
- Teste de uma distribuição normal
- Teste chi-quadrado para aderência
- Comparação de duas médias
- Comparação de médias múltiplas pelo teste de Tukey
- Regressão linear simples
- Regressão linear múltipla
- Mineração de dados com o R
- Uso do Google Vis ( biblioteca gráfica do Google)
Requirements
- É importante que você conheça um pouco de Python, Scala, SQL, não haverá treinamento destas linguagens neste curso
- Importante conhecer execução de scripts em Python, Scala, SQL
- Na segunda parte do treinamento haverá aprofundamento em R
Description
Trazemos neste curso dois grandes nomes da área de dados. A plataforma Databricks, que unifica dados com o uso do Spark ( Apache Spark é o principal mecanismo de análise unificada para Big Data e aprendizado de máquina que existe no mundo, sendo utilizado pelas grandes corporações. Explorando nas suas execuções o uso de memória e outras otimizações), e a linguagem mais utilizada pelos cientistas de dados, estatísticos e profissionais de dados em geral que é a linguagem R.
Começamos o treinamento com aprofundamento no Databricks que é uma poderosa plataforma de colaboração entre os profissionais da área de dados. É um ecossistema fácil de usar para aqueles que desejam executar consultas em diversos conjuntos de dados.
Já no treinamento da linguagem R que é largamente usada entre estatísticos e analistas de dados é possível realizar diversos tratamentos matemáticos e estatísticos, como a geração de estatísticas descritivas, inferencial, teste de hipóteses, dentre muitos outros. Aqui você começará da base, desde a leitura e inserção de dados, passando por pacotes estatísticos que realizarão diversas funcionalidades matemáticas.
Venha conhecer este treinamento e ficar atualizado no mercado. Conte com material de apoio como apostilas e dicas super importantes para que você se desenvolva. Há exercícios para serem resolvidos e que serão corrigidos por mim, tudo muito prático e fácil de realizar.
Who this course is for:
- Estatísticos, Analistas de Banco de Dados, Analistas de Dados, Analistas de BI, Estudantes da área de Dados
- Profissionais que desejam adentrar na área de dados
Instructor
Quem sou
Fui escolhido como um dos 50 profissionais mais influentes em dados no ano de 2023 pela Gama Academy, uma organização que estabelece um Rank dos profissionais com mais destaque na área de Dados/BI.
Por que estudar na área de dados comigo?
Sou profissional da área com diversos projetos desenvolvidos, tanto na área privada como na área pública, tenho um skill muito forte em atender meus alunos com alguma dúvida no máximo em 24 horas. Procuro alinhar conhecimento teórico e prático.
O que trago em meus cursos?
Acho que a área de dados é bem rica e vasta, mas ter um direcionamento do que deve ser estudado com cursos passo a passo é o que busco nas minhas aulas, fiz um mestrado na área de educação para criar aulas sob medida aos meus alunos. Estou diariamente aprimorando e trazendo novidades na área, afinal criar + de 150 cursos envolve dedicação e foco.
O que faço hoje
Sou professor das pós-graduações das universidades UNIFACS, CATÓLICA DO SALVADOR e ISL Wyden. Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC). Possui Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 20 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente sou editor do blog BI com Vatapá. Autor do Livro: BI COMO DEVE SER - professor EAD de diversos cursos de BI na Aprenda Virtual. Idealizador do BI PRO - O maior e mais completo conteúdo sobre BI da internet.