Big Data - Processamento de dados com Spark e PySpark
What you'll learn
- Definir o que é Big Data
- Definir o que é o Ecossistema Hadoop
- Aplicar Map Reduce
- Instalar e configurar o Apache Spark em ambiente virtualizado
- Entender e configurar variáveis de ambiente
Requirements
- Noções de Virtualização
- Noções de Python
- Lógica de Programação
- Noções de SQL
- Muita vontade de aprender, pois o resto a gente ensina aqui!
Description
Não se assuste mais com as tecnologias de Big Data! Aprenda o essêncial para processar grandes quantidades de dados em memória com o melhor Framework do mercado: O Apache Spark!
Iniciaremos do zero, explicando o que é Big Data e o que é necessário para que um dado seja categorizado como tal. Tudo de forma simples, com uma linguagem leve e agradável!
Após nos situarmos entre as tecnologias explicadas, dentre elas, o Hadoop, criaremos um servidor Apache Spark em uma instalação Windows e então prosseguiremos o curso explicando todo o framework e analisando dados. Vale ressaltar que instalaremos o Spark no Windows para os usuários menos experientes. Caso você seja usuário Linux, não se preocupe: Os comandos são os mesmos!
Explicaremos detalhadamente o que são as variáveis de ambiente e como elas influenciam na instalação e configuração de programas, como por exemplo o Java e a sua máquina virtual, a JVM.
Aplicaremos Map Reduce e outras funções nativas do Spark, utilizaremos o Spark SQL, criaremos RDDs e os novos Dataframes! Tudo isso do zero, passo a passo, explicado com que você já conhece!
Preocupado com os softwares? Você terá um drive com todos os programas e scripts do curso, exlusivo para o nosso material, além de, é claro, também ter os links oficiais, caso deseje baixar os programs direto do fabricante!
E aí? Curtiu a ementa?
Vem comigo aprender a processar Big Data!!
Who this course is for:
- Qualquer iniciante ou universitário interessado em aprender como funciona o processamento de Big Data
- Se você já tem experiência em Apache Spark, esse curso NÃO é pra você!
Instructor
Nascido no Rio de Janeiro, segunda maior área metropolitana do Brasil, a terceira da América do Sul e 16ª do mundo. Possui mais de 19 anos de experiência em TI, apaixonado por tecnologia, instrutor por vocação, analista de Business Intelligence e Engenheiro de dados, certificado nas mais diversas plataformas nas áreas de Infraestrutura e Servidores, Banco de Dados, Business Intelligence, Redes e Serviços de TI.
Tem vasta experiência em multinacionais como Repsol YPF, Intelig Telecom, TIM Celulares e Ceras Johnson. Experiência consultor de BI na IBM, uma das maiores empresas de TI do mundo e atuação como responsável técnico do projeto de BI na área de ETL e Cubos da gigante mundial Duty Free.
Autor e titular de propriedade intelectual de mais de 15 cursos, com mais de 180.000 alunos, em mais de 40 países, comercializadas no mundo digital, na renomada empresa americana Udemy.
Especialização em Desenvolvimento na cidade de Kitchener, região conhecida como o Vale do Silício Canadense. Autor do livro Business Intelligence com SQL Server 2012 na prática e mantenedor do site e blog UniDados, com foco em Business Intelligence, cursos, livros e tutoriais.
Atualmente, atuando como Engenheiro de Dados em uma empresa Canadense e Microsoft Gold Partner, na área de Inteligência de Negócios, 100% remotamente.
Reconhecido em 2017, 2018, 2019, 2020 e 2021 com Udemy Instructor Partner, concedendo entrevistas em meios como a revista Exame e o Canal Jovem Nerd.
Certificações:
MCT - Microsoft Certified Trainer 2020 / 2021 / 2022
Microsoft Power BI Certified
MCSA 2000
MCSA 2000 + M -
MCP 2000
MCSA 2003
MCDBA SQL 2008
ITIL V3
Linux LPI I
Oracle OCE
MCTIP 2008