Парсинг сайтов. Scrapy, Splash, Selenium, requests, bs4.

Name: Парсинг сайтов. Scrapy, Splash, Selenium, requests, bs4.
Rating: 4.4 (12 reviews)

Сбор данных с сайтов с использованием различных библиотек и фреймворков.

Highest Rated

Created byAnna Kuzina

Last updated 12/2021

Russian

What you'll learn

Сбор данных с различных сайтов, используя различные библиотеки и фреймворки Python
Получение HTML страницы с помощью requests и beautifulsoup4
Парсинг многостраничных сайтов с использованием Scrapy
Авторизация на сайте и сбор данных при помощи Selenium

Course content

5 sections • 15 lectures • 2h 56m total length

Что такое парсинг сайтов.4:07
Введение в парсинг сайтов, что это такое и зачем нужно.
Этичный парсинг.9:09
Что такое этичный парсинг, как собирать данные так, чтобы не сломать чужие сайты и не нарушить закон.
Что такое robots.txt1:59
Что такое файл robots.txt, где его найти и зачем он нужен.

Установка Requests и BeautifulSoup.3:11
Где найти и как установить библиотеки requests и beautifulsoup4.
Получение HTML сайта. Получение необходимых полей различными способами.29:52
Получение HTML сайта с помощью requests и beautifulsoup4, работа с этими двумя библиотеками для извлечения необходимых данных со страницы.
Поиск и извлечение ссылки на следующую страницу.21:28
Как найти ссылку на следующую страницу на многостраничном сайте, как перейти по ней и собрать весь имеющийся контент со всех страниц.

Установка Scrapy.1:39
Где найти и как установить фреймворк Scrapy.
Парсинг обычных сайтов.17:04
Начало работы со Scrapy, создание простого парсера для сбора данных с сайта.
Парсинг многостраничных сайтов.21:29
Сбор данных с многостраничных сайтов с использованием Scrapy.

Установка Splash.4:00
Где найти и как установить библиотеку Splash.
Выполнение простого скрипта на локальном сайте.7:14
Начало работы с библиотекой Splash, локальный запуск библиотеки, написание простого скрипта для получения HTML сайта.
Запуск Splash из Scrapy.22:18
Внедрение скрипта Splash в парсер Scrapy для сбора всей информации на сайте, который работает с JS.

Установка Selenium.2:17
Где найти и как установить фреймворк Selenium.
Авторизация на сайте с помощью Selenium. Получение HTML сайта после авторизации.17:07
Создание простого скрипта на Selenium для авторизации на сайте.
Парсинг сайтов с бесконечной прокруткой.13:28
Создание скрипта на Selenium для имитации прокрутки страницы пользователем с последующим сбором HTML.

Requirements

Базовые знания Python
Знания HTML разметки

Description

Этот курс предназначен для тех, кто хочет научиться автоматизированному сбору информации с различных сайтов, то есть парсингу. Для прохождения курса требуются базовые знания питона.

На лекциях будут рассмотрены основные подходы к сбору данных с использованием таких библиотек, как requests, beautifulsoup4 и splash, а также фреймворков Scrapy и Selenium.

В этом курсе рассматриваются основные базовые подходы к сбору данных, а также затрагивается вопрос этичного парсинга. По итогам курса студенты будут иметь базовое представление о том, как парсить различные сайты, используя Python.

Этот курс будет не очень интересен тем, кто уже имеет базовое представление о том, что такое парсинг и как создавать скрипты для автоматизированного сбора данных.

После прохождения курса студенты будут знать:

Как найти и установить необходимые библиотеки для парсинга данных.
Что такое этичный парсинг, как не нарушить права и закон при парсинге данных.
Для чего нужен файл robots.txt.
Каким образом получать HTML сайта для извлечения необходимой информации.
Как пользоваться xpath для указания точного расположения элементов на странице.
Как переходить по страницам на многостраничном сайте.
Как создавать проект и запускать «пауков» Scrapy.
Как парсить всю информацию о каждом товаре на сайте.
Как осуществлять переход на страницу каждого товара.
Каким образом парсить сайты, использующие JavaScript при загрузке.
Как авторизовываться на сайте, используя фреймворк Selenium.
Как парсить сайты с бесконечной прокруткой, имитируя действия пользователя на странице.

Who this course is for:

Начинающие разработчики Python с интересом к сбору и обработке данных

Парсинг сайтов. Scrapy, Splash, Selenium, requests, bs4.

What you'll learn

Explore related topics

Course content

Введение3 lectures • 15min

Парсинг сайтов с помощью Requests и BeautifulSoup3 lectures • 55min

Парсинг сайтов с помощью Scrapy3 lectures • 40min

Парсинг сайтов с JS с помощью Scrapy и Splash3 lectures • 34min

Парсинг сайтов с помощью Selenium3 lectures • 33min

Requirements

Description

Who this course is for: