Construindo Big Data com Cluster de Hadoop e Ecossistema

Name: Construindo Big Data com Cluster de Hadoop e Ecossistema
Rating: 4.4 (20 reviews)

Hadoop e Ecossistema

Highest Rated

Created byMarcos Pitanga

Last updated 10/2021

Portuguese

What you'll learn

Irão aprender como implementar, testar e manter um ambiente de Big Data gerenciado por um Cluster de Hadoop e seus componentes principais.
Irão aprender a usar o ecossistema do Hadoop em seus principais módulos
Executar processos de Big Data
Executar exemplos clássicos dentro d plataforma

Course content

10 sections • 64 lectures • 21h 24m total length

O mundo do Big Data19:48
Nessa aula o aluno irá compreender os conceitos do Big Data, aplicabilidades, vantagens e desvantagens do mundo massivo de dados.
Arquitetura Básica do Hadoop20:23
O aluno deverá compreender a arquitetura macro do Hadoop, seus principais módulos e, os principais distribuidores de soluções de Big Data.
Características iniciais de um ambiente distribuído para Big Data16:13
O aluno deverá entender a história, as vantagens/desvantagens do Hadoop e, dos sistemas distribuídos.
Ecossistema do Hadoop19:35
Nessa aula o aluno irá compreender que, somente o Hadoop não atenderá tudo o que se precisa fazer em um ambiente de Big Data e, que existe um ecossistema de ferramentas de apoio para resolução dos problemas de negócio.
Ecossistema do Hadoop - parte 232:50
Nesta aula o aluno aprenderá mais conceitos avançados do Ecossistema Hadoop
Projetando um Ambiente de Supercomputação com Hadoop17:20
Nessa aula o aluno irá apreender como desenhar uma solução de Hadoop, como definir o hardware adequado além de compreender como as informações são processadas dentro da infraestrutura.
Entendendo o Sistema de Arquivos Hadoop Distributed Filesystem - HDFS38:39
Nessa aula o aluno irá compreender os conceitos de uma sistema de arquivos distribuído e como o HDFS cria um lago de dados para armazenamento dos dados estruturados, não estruturados e, semi-estruturados na infraestrutura do cluster de Big Data.
Entendendo o MapReduce e o YARN28:17
O aluno deverá compreender como funciona com um pouco mais de profundidade o processo do framework MapReduce além de como os jobs são orquestrados (submissão, controle, coleta de informações, tolerância a falhas, dentre outros) via YARN no cluster de Hadoop.
Linux, ambiente prático e conceitos básicos de bancos de dados SQL e NoSQL22:30

1 - Instalando o CentOS 7 - Imagem Padrão15:50
Nessa aula iremos preparar a instalação padrão a ser usada em nosso cluster de Hadoop
Executando a Pre-configuração das imagens17:00
Nessa aula iremos executar as configurações iniciais mandatórias para as imagens de nossos nodos
Configurando autenticação com o Network Information Service - Serviço NIS21:04
Nessa aula iremos configurar o processo de autenticação unificada de usuários através do NIS - Network Information Services - ou Sun Yellow Pages.
4 - Configurando o Sistema PasswordLess com SSH HostBased18:26
Nessa aula aprenderemos como acessar os nodos sem pedir usuário/senha no SSH
5 - Implementando Gerencia de Desempenho com Ganglia20:38
Nessa aula iremos aprender a implementar a ferramenta de gerenciamento Ganglia
6 - Implementando o Parallel Distributed Shell - PDSH8:09
Instalando o Java em todos os Nós do Cluster16:08
Os alunos conseguirão o Java em todos os Nós do Cluster
Instalando o Apache Maven7:17
O aluno deverá aprender como implementar o Apache Maven para gestão de projetos envolvendo a ferramenta no ecossistema do Hadoop.
Inserindo os discos nos Compute Nodes / Data Nodes3:48
Os alunos aprenderão como inserir os discos no Linux para compor o Data Lake
Implementando o Cluster de Hadoop41:23
Nesta aula o aluno irá instalar, configurar e testar o ambiente com Hadoop Cluster
Executando aplicações não nativas java com Hadoop Streaming19:11
O aluno irá aprender como submeter jobs no hadoop em python através do recurso de streaming
Conceitos Avançados de Hadoop - Parte 130:20
Nessa aula o aluno irá conhecer como funciona na prática os processos de leitura/escrita no HDFS.
Conceitos Avançados de Hadoop - Parte 222:13
Nessa aula iremos aprender os conceitos de backup no hadoop, comandos administrativos importantes e, outros sistemas proprietários que podem substituir o HDFS puro do hadoop.
Rodando Benchmarks no Hadoop21:52
Nessa aula o aluno aprenderá alguns métodos específicos de Benchmarking do Hadoop.

Aprendendo sobre o ZooKeeper15:30
Nessa aula iremos aprender os conceitos importantes no módulo que manipula todos os processos entre as aplicações que fazem parte do ecossistema do Hadoop e, utilizam os serviços de coordenação.
Instalando e Testando o ZooKeeper24:28
Nessa aula o aluno irá aprender como implementar um Assemble de Zookeeper em três nodos para manter o conceito de Quorum em máquinas.

Teoria do Apache PIG23:54
Nessa aula iremos aprender como funciona o Pig e como aplicamos ela no contexto de Big Data
Selecionando Jogadores para um combate de Pokemon com Pig23:32
Nessa aula prática iremos selecionar dois times de jogadores e Pokemons para uma batalha entre eles.
Calculando o tempo médio de falhas em lâmpadas8:11
Nessa aula iremos aplicar funcionalidades de limpeza e ajustes no dataset e calcular a média do tempo médio entre falhas de lâmpadas.
Conversão XML - CSV6:49
Nessa aula vamos aprender técnicas de parser para converter um XML para formato CSV com o PIG
Conversão JSON - CSV e vice-versa6:02
Nessa aula o aluno irá aprender como converter formatos JSON para CSV e vice-versa.
Análise de Sentimentos do Twitter18:14
Nessa aula iremos aprender como analisar que as pessoas estão mais comentando no Twitter baseado em Análise de Sentimentos com Big Data.
Criando scripts com PIG para Análise de Direção de Motoristas10:58
Nessa aula iremos executar análises em cima de um dataset de direção e motoristas mas, usando script latin para acionar as funcionalidades ao invés do grunt.

Teoria Hive32:20
Nessa aula aprenderemos a teoria envolvida no entendimento e manipulação do DataWareHouse para Hadoop.
Instalando o Hive e o HCatalog28:46
Nessa aula o aluno irá aprender a construir a instalação do Hive e HCatalog
Inserindo o Dataset Flight Data no Hive16:58
Nessa aula o aluno irá aprender a como trabalhar com uma base de dados de vôos em uma visão de HQL no Hive
Criando um DataBase via Beeline11:39
Nessa aula o aluno irá aprender a como criar um database via cliente Hive Beeline
Criando uma base de recomendação de filmes no Hive30:18
Nessa aula iremos aprender como criar sistemas de recomendações com o apoio do Hive

Entendendo, Instalando e Testando o Sqoop27:47
Nessa aula o aluno irá aprender os processos de instalação e testes do SQOOP.
Práticas avançadas com o Sqoop - Parte 115:46
O aluno deverá aprender como importar um banco de dados de varejo (retail) em diferentes formatos binários para o HDFS.
Integração Sqoop com Hive e Comandos Avançados do Sqoop24:12
Nessa aula o aluno aprenderá como fazer a integração do Sqoop com Hive e mais comandos e procedimentos avançados com o Sqoop

Teoria HBase52:36
O aluno irá aprender a teoria que envolve o Banco de Dados Colunar No-SQL HBase
Instalando e Testando o Apache HBase22:02
Nessa aula o aluno irá aprender como implementar o HBase no ecossistema do Hadoop
Executando operações básicas no HBase - Integrando com Hive e Operando a WebUI33:13
Nessa aula o aluno irá aprender como executar as operações básicas no HBase e, operar o WebUI HBase
Integração Apache HBase com Apache Pig6:20
Nessa aula o aluno irá aprender como executar a integração entre o Apache Pig e o HBase
Migrando um Dataset do Apache Pig para o Apache HBase11:16
Nessa aula o aluno irá aprender como migrar Dataset do Pig para o Hbase

Implementação do Apache Flume7:23
Nessa aula o aluno irá aprender como se implementa o Flume
Teoria do Flume e, capturando dados de auditoria para o HDFS13:59
Nessa aula iremos compreender as funções do Flume e uma implementação prática para captura de dados do sistema de arquivos do Linux para o HDFS.
Capturando dados do Twitter via FLUME17:22
Integração Flume + Twitter + Apache Hive12:10
Nesta aula o aluno irá capturar tweets no Twitter e carregá-los dentro do Apache Hive para execução de consultas HQL.
Capturando LOGS de Servidores WEB com Flume Distribuído32:44
Nessa aula aprenderemos como capturar logs de servidores WEB apache e levar para o HDFS via FLUME.
Contando acessos via Logs de Servidores Apache8:22
Nessa aula o aluno irá aprender como executar um contador de acesso a sites de informações provenientes dos Logs do Apache que podem ter sido capturados via Flume.

Introdução ao Machine Learning com Mahout - Parte 123:03
Nessa aula o aluno irá aprender todos os conceitos relacionados a Machine Learning
Introdução ao Machine Learning com Mahout - Parte 223:51
Nessa aula o aluno irá aprender todos os conceitos relacionados a Machine Learning
Introdução ao Machine Learning com Mahout - Parte 333:03
Introdução ao Machine Learning com Mahout - Parte 418:48
Nessa aula o aluno irá aprender todos os conceitos relacionados a Machine Learning
Instalando e Configurando o Apache Mahout18:00
Nessa aula o aluno será capaz de implementar, configurar e testar o Apache Mahout
Executando Classificação Naive Bayes com Grupos de Noticias31:39
Nessa aula o aluno será capaz de executar uma análise preditiva com newsgroup
Análise Preditiva Naive Bayes - Spam-HAM20:07
Nessa aula o aluno irá executar uma análise preditiva com Naive Bayes para Spam / Ham
Análise Preditiva Não-Supervisionada com Kmeans15:46
Nessa aula o aluno irá aprender como executar uma análise não-supervisionada com o Apache Mahout

Requirements

Desejável conhecimento básico de Linux mas não é mandatório...

Description

O mundo do Big Data vem ganhando força a cada dia. Os dados agora passaram a ser o petróleo do mundo da tecnologia. O mercado cada vez mais vem necessitando de profissionais que saibam manipular grandes quantidades de dados. E, aonde faltam profissionais, com certeza teremos uma maior valorização desse perfil técnico.

Nesse treinamento objetivo principal é, ensinar ao aluno como construir um supercomputador com hardware de prateleira para atender ao mundo do Big Data com o Hadoop e seu Ecossistema. Poucos são os profissionais que dominam essa tecnologia, pois o que é ensinado em cursos do mercado, não condizem com a realidade prática de uma solução corporativa. Nenhuma empresa vai usar uma única máquina com tudo pois, a realidade dessa tecnologia é ser distribuída e escalável.

Pois bem, essa é a nossa proposta verdadeira, criar uma solução na "unha" para que o aluno entenda como se faz na realidade pois, produtos vão e vem mas, o domínio do conhecimento é o que diferencia no mercado cada vez mais competitivo.

Nesse treinamento você irá aprender a implementar a infraestrutura necessária a um supercomputador para Big Data envolvendo Hadoop, Zookeeper, Flume, Sqoop, Kafka, Hive, HBase, Pig, Mahout, HUE, criando a estrutura necessária para atuar de forma objetiva no mundo do Big Data Analytics.

Sejam muito bem vindos ao mundo da supercomputacao em clusters Linux de alto desempenho do ecossistema Hadoop.

Who this course is for:

Administradores de Sistemas, Cientista de Dados, Engenheiro de Dados, Especialistas Linux, Estudantes de Tecnologia, Especialistas em Business Analytics

Construindo Big Data com Cluster de Hadoop e Ecossistema

What you'll learn

Explore related topics

Course content

Introdução ao Big Data9 lectures • 3hr 36min

Construindo um Cluster de Hadoop - Mão na Massa - Hands On14 lectures • 4hr 23min

Coordenação de Eventos com o ZooKeeper Ensemble2 lectures • 40min

Trabalhando com Apache Pig7 lectures • 1hr 38min

DataWarehouse (Armazém de Dados) de Big Data com Apache Hive5 lectures • 2hr

Executando processo de ETL em banco de dados com Sqoop3 lectures • 1hr 8min

Banco de Dados Colunar NoSQL com Hadoop Database - HBase5 lectures • 2hr 5min

Apache Flume6 lectures • 1hr 32min

Machine Learning com Mahout8 lectures • 3hr 4min

Apache Kafka5 lectures • 1hr 19min

Requirements

Description

Who this course is for: