Formação Spark com Pyspark : o Curso Completo
What you'll learn
- Conhecer a Arquitetura e Detalhes do Spark
- Criação de DataFrames
- SparkSQL: Crie tabelas e consulta utilizando SQL
- Conecte com outras fontes de Dados, como Postgres e MongoDB
- Cria Aplicações Spark
- Desenvolva modelos preditivos Utilizado Machine Learnig e Spark ML
- Cria aplicações próximas ao tempo real com Spark Streaming
- Conheça Técnicas de Otimização do Spark
- Aprenda a Construir um Cluster com Spark!
Requirements
- Conhecimento básicos de Python
- Computador capaz de rodar uma VM com Linux
Description
Bem vindo ao melhor e mais atualizado curso de Spark!
Na era "Big Data" o Spark se tornou a principal ferramenta de processamento de dados no mundo devido a sua capacidade de processar volumes massivos de dados com alta performance, se tornando uma ferramenta essencial para Cientistas e Engenheiros de Dados. Sua arquitetura distribuída permite processar dados utilizando paralelismo e memória, persistindo dados quando necessário. Além disso o Spark é capaz de importar dados de praticamente qualquer fonte, bem como também exportar dados processados para os principais formatos e bancos de dados utilizados.
Do ponto de vista profissional, conhecer Spark é uma das habilidades mais importantes ao lado de Machine Learning e Python. E o melhor disso é o que Spark já traz tudo isso. Você pode utilizar Spark com Python, através do Pyspark, e você pode criar modelos de Machine Learning utilizando as próprias bibliotecas do Spark.
Neste curso prático, você vai começar do zero e aprender todas as principais características desta ferramenta. Entre outras coisas você vai:
Aprender a instalar e configurar o Spark
Conhecer o principal objeto de dados: DataFrames do Spark
Processar DataFrames através de transformações e ações
Consultar Dados no Spark com Sintaxe SQL
Criar Views e fazer Joins
Persistir dados em disco, criando tabelas em formatos como Parquet e ORC
Importar dados de fontes como Mongodb, PostgreSQL e arquivos como Json e Parquet
Criar aplicações que você pode rodar na linha de comendo
Machine Learning com Spark: crie modelos e faça previsões
Construa Pipelines de Marchine Learning
Processe dados em tempo real com Spark Structured Streaming
Otimize o Spark com Cache, Persistência, Particionamento e Bucketing
Use Spark com Jupyter Notebooks
Use Spark com Pandas e outras bibliotecas do Python
Construa um Cluster!
Você ainda vai encontrar material do curso para baixar: scripts, slides e dados de exemplo.
Who this course is for:
- Cientistas de Dados, Engenheiros de Dados, Engenheiros de Machine Learning
Instructor
Fernando Amaral has been working with data related projects for over 12 years, currently as a full-time Data Engineer for a North American company. He is the author of several books about Data Science. He has dozens of published articles and videos on data science and data careers. As a teacher, he has more than 150,000 students enrolled in his more than 50 courses.