Udemy Business

Teach on Udemy

Turn what you know into an opportunity and reach millions around the world.

Learn More

Your cart is empty.

Keep shopping

Python Web Scraping

Name: Python Web Scraping
Rating: 4.6 (632 reviews)

Aprendendo a coletar dados na WEB com Python.

Created byEvaldo Wolkers, Louis Wolkers

Last updated 7/2024

Portuguese

Portuguese [Auto],

What you'll learn

Utilizar o Python para realizar web scraping para coleta de informações na Internet.
Utilizar técnicas de web scraping e web crawling para acessar dados a partir de qualquer fonte na Web e em qualquer formato.

Course content

14 sections • 75 lectures • 11h 52m total length

Seção - Introdução0:48
Descrição do conteúdo da seção.
O que é web scraping?2:54
Nesta aula você aprenderá os conceitos de web scraping.
Páginas Web2:56
Nesta aula você aprenderá sobre páginas web.
Um pouco mais sobre páginas Web6:13
Nesta aula você aprenderá um pouco mais sobre HTML.

Seção - Instalação do Python0:17
Descrição do conteúdo da seção.
Qual versão utilizar?1:44
Nesta aula explico qual versão do Python você deve utilizar. (Esta aula faz parte do curso Python para Todos)
Instalando o Python no Windows2:40
Nesta aula mostro como instalar o Python no Windows 10. (Esta aula faz parte do curso Python para Todos)
Instalando o Python no Linux3:16
Nesta aula ensino como baixar e compilar o código-fonte da versão 3.6.1 no Debian 8.8. Comandos utilizados:

Build-essential é um pacote que reúne várias aplicações para compilar sistemas à partir de seu código-fonte:

sudo apt-get install build-essential

Para descompactar o código-fonte do Python use:

tar -Jxf Python-3.6.1.tar.xz

Comandos para compilar o Python:

./configure

make

sudo make install

(Esta aula faz parte do curso Python para Todos)
Pyenv7:20
Nesta aula ensino a utilizar o pyenv para gerenciar versões do Python instaladas na máquina. (Esta aula faz parte do curso Python para Todos)
Virtualenv10:10
Nesta aula você aprenderá a criar ambientes virtuais com o virtualenv.

Seção - Identificando informações de um Website0:34
Descrição do conteúdo da seção.
Identificando Tecnologias utilizadas no Website com a biblioteca builtwith.2:39
Nesta aula você aprenderá a buscar informações sobre tecnologias utilizadas em um Website utilizando a biblioteca builtwith.
Identificando o proprietário de um Website utilizando a biblioteca python-whois2:23
Nesta aula você aprenderá a buscar informações sobre o proprietário de um Website utilizando a biblioteca python-whois.

Seção - Biblioteca BeautifulSoup0:50
Descrição do conteúdo da seção.
Instalando a biblioteca BeautifulSoup - Atualização0:15
Nesta aula você terá informações atualizadas sobre a próxima aula.
Instalando a biblioteca BeautifulSoup1:55
Nesta aula você aprenderá a instalar a biblioteca BeautifulSoup.
Servidor Web em Python4:46
Nesta aula você aprenderá a utilizar um servidor Web com Python.
Executando o BeautifulSoup8:46
Esta aula é uma introdução à biblioteca BeautifulSoup.
Tratando erros ao acessar os dados na web - Atualização0:39
Tratando erros ao acessar os dados na web14:31
Nesta aula você aprenderá a tratar erros ao usar urlopen e ao tratar os dados retornados com BeautifulSoup.
Um pouco mais de BeautifulSoup - Correção0:08
Correção do exercício da próxima aula.
Um pouco mais de BeautifulSoup11:11
Nesta aula você vai explorar um pouco mais a biblioteca BeautifulSoup.
Expressões Regulares com BeautifulSoup - Observações0:40
Esta aula contém observações importantes sobre a próxima aula.
Expressões Regulares com BeautifulSoup10:29
Nesta aula você aprenderá a utilizar expressões regulares com a biblioteca BeautifulSoup.

OBSERVAÇÃO: No exemplo 2, o site não está mais respondendo as requisições, sendo assim, o bsregex2.py foi ajustado para bsregex2_novo.py que usa uma página inserida no meu blog com o mesmo conteúdo da página citada no exemplo.

OBSERVAÇÃO 2: No exemplo 3, onde foi usado o site www.folha.uol.com.br, utilizei o ano 2017 e mês 11. Com o passar dos meses, estes mês e ano não retornará nenhum resultado. Use o mês e ano do dia que estiver executando o exemplo, ou outro mais recente.

Seção - Biblioteca LXML0:21
Descrição do conteúdo da seção.
Biblioteca LXML - Parte 112:34
Nesta aula você aprenderá a instalar e utilizar a biblioteca LXML para trabalhar com arquivos XML. Esta biblioteca pode substituir o analisador padrão do BeautifulSoup desta forma:

BeautifulSoup(html.read(), "lxml")
Biblioteca LXML - Parte 213:13
Nesta aula você aprenderá a instalar e utilizar a biblioteca LXML para trabalhar com arquivos XML. Esta biblioteca pode substituir o analisador padrão do BeautifulSoup desta forma:

BeautifulSoup(html.read(), "lxml")

Junto aos materias da aula está um arquivo denominado ler_xml_camara.py que deverá ser utilizado como exercício. Este arquivo contém um programa exemplo para ler o xml da Câmara dos Deputados para análise posterior.
Biblioteca LXML - Tarefa0:09
Nesta aula você realizará uma tarefa.
Biblioteca LXML - Desafio 113:30
Nesta aula você realizará um desafio utilizando LXML.
Biblioteca LXML - Desafio 210:37
Nesta aula você realizará um desafio utilizando LXML.
Biblioteca LXML - Utilizando XPath14:52
Nesta aula você aprenderá a utilizar a biblioteca LXML com XPath.

Seção - Usando o Scrapy Framework0:43
Descrição do conteúdo da seção.
Instalando o Scrapy Framework4:30
Nesta aula você aprenderá a instalar o Scrapy Framework no Windows 10 e no Linux Mint 18.3.

*A instalação do Visual C++ Build Tools necessária para o funcionamento do Scrapy no Windows está adicionada nos materiais para download.
Trabalhando com Scrapy - Parte 114:44
Nesta aula você aprenderá a utilizar o framework Scrapy para criar um crawler (Spider).
Trabalhando com Scrapy - Parte 218:10
Nesta aula você aprenderá a utilizar o framework Scrapy para criar um crawler (Spider).
Trabalhando com Scrapy - Parte 312:00
Nesta aula você aprenderá a utilizar o framework Scrapy para criar um crawler (Spider).
Trabalhando com Scrapy - Parte 415:37
Nesta aula você aprenderá a utilizar o framework Scrapy para criar um crawler (Spider) e aprenderá a navegar em links dentro de um site.
Sistema de raspagem de dados da Telelista - Exemplo prático18:39
Nesta aula apresento os caminhos para análise de um site e escrita do spider usando como exemplo o site da Telelista. Teremos um programa real.
Trabalhando com Scrapy - Mais um pouco sobre Selector XPATH e CSS16:37
Nesta aula você aprenderá um pouco mais sobre Selector XPath e CSS.

Seção - Usando APIs0:27
Descrição do conteúdo da seção.
Introdução ao uso de APIs - Aula 110:27
Nesta aula será feita uma introdução ao uso de APIs.
Introdução ao uso de APIs - Aula 28:47
Nesta aula foram abordados os seguintes assuntos: Respostas de APIs, Chamadas às APIs, API do Twitter, biblioteca twitter.
Introdução ao uso de APIs - Aula 311:14
Nesta aula continuaremos falando sobre APIs e demonstramos como utilizar APIs do Google usando como exemplo uma API de Geolocalização.

Seção - Armazenando dados1:03
Descrição do conteúdo da seção.
Armazenando dados - Parte 127:59
Nesta aula você aprenderá a baixar imagens e arquivos diversos e aprenderá a trabalhar com arquivos CSV.
Instalação MySQL (revisão)0:46
Artigo sobre instalação do MySQL no Windows e no Linux.
Introdução a Banco de Dados e ao MySQL. Instalação do MySQL no Windows.15:51
Esta é uma aula do curso Python para Todos.
Nesta aula você aprenderá um pouco sobre banco de dados e como instalar o MySQL no Windows.
Instalação do MySQL no Linux.6:32
Esta é um aula do curso Python para Todos.
Nesta aula você aprenderá a instalar o MySQL no Linux Mint.
Trabalhando com o MySQL Workbench33:07
Esta é uma aula do curso Python para Todos.
Nesta aula você aprenderá a utilizar o MySQL Workbench para criar um esquema de banco de dados e uma tabela visualmente.
Aprenderá sobre alguns tipos de dados básicos oferecidos pelo MySQL para criar os campos das tabelas.
Aprenderá também a utilizar comandos em linguagem SQL para criar uma tabela, inserir, alterar, excluir e consultar dados.
Conectando ao banco com MySQL Connector/Python16:50
Esta é um aula do curso Python para Todos.
Nesta aula você aprenderá a utilizar o driver MySQL Connector/Python para conectar-se ao banco MySQL.
Executando instruções SQL com Python21:09
Esta é uma aula do curso Python para Todos.
Nesta aula você aprenderá a executar instruções SQL usando MySQL Connector/Python.
Armazenando o resultado do scraping no MySQL11:04
Nesta aula vamos armazenar o resultado de um scraping realizado no site Wikipedia em uma tabela de um banco de dados MySQL.

Requirements

Conhecimentos básicos de informática.
Conhecimentos básicos de programação em Python.
Ter feito o curso Python 3 para Todos (do mesmo instrutor) aqui da Udemy é importante.

Description

AVISO: O CURSO ESTÁ EM ANDAMENTO, SEMPRE TEREMOS NOVAS AULAS!!!!

Neste curso você aprenderá técnicas de web scraping e web crawling com Python para acessar dados à partir de qualquer fonte na Web e em qualquer formato.

Aprenderá a criar scripts em Python e a usar APIs para coletar e processar dados de milhares de páginas Web ao mesmo tempo.

Aprenderá a analisar páginas HTML, armazenar os dados coletados, rastrear formulários e logins, identificar informações e tecnologias utilizadas em um site.

Aprenderá sobre expressões regulares.

Aprenderá sobre bibliotecas que vão lhe auxiliar nas tarefas de scraping como BeautifulSoup, LXML e Scrapy.

Aprenderá a criar programas para ler diversos tipos de documentos como CSV, PDF, DOCX, XLSX, JSON e ODT.

Aprenderá a realizar limpeza dos dados.

Aprenderá a utilizar o Selenium WebDriver.

Who this course is for:

Todo programador que queira adquirir conhecimento em scraping usando Python.
Profissionais de segurança da informação e administradores de sistemas Web.

Python Web Scraping

What you'll learn

Explore related topics

Course content

Introdução4 lectures • 13min

Instalação do Python6 lectures • 25min

Identificando informações de um Website3 lectures • 6min

Expressões Regulares2 lectures • 34min

Meu primeiro Web Scraper3 lectures • 4min

Biblioteca BeautifulSoup11 lectures • 54min

Biblioteca LXML7 lectures • 1hr 5min

Usando o Scrapy Framework8 lectures • 1hr 41min

Usando APIs4 lectures • 31min

Armazenando dados9 lectures • 2hr 14min

Requirements

Description

Who this course is for: