Парсинг и анализ данных на Python: от азов до автоматизации
3.9 (23 ratings)
Course Ratings are calculated from individual students’ ratings and a variety of other signals, like age of rating and reliability, to ensure that they reflect course quality fairly and accurately.
196 students enrolled

Парсинг и анализ данных на Python: от азов до автоматизации

Научимся работать с pandas, импортировать и майнить данные из Сети, строить графики и картограммы, создавать отчеты
3.9 (23 ratings)
Course Ratings are calculated from individual students’ ratings and a variety of other signals, like age of rating and reliability, to ensure that they reflect course quality fairly and accurately.
196 students enrolled
Last updated 2/2020
Russian
Current price: $48.99 Original price: $69.99 Discount: 30% off
5 hours left at this price!
30-Day Money-Back Guarantee
This course includes
  • 8 hours on-demand video
  • Full lifetime access
  • Access on mobile and TV
  • Assignments
  • Certificate of Completion
Training 5 or more people?

Get your team access to 4,000+ top Udemy courses anytime, anywhere.

Try Udemy for Business
What you'll learn
  • Работа с данными с помощью pandas и numpy
  • Получение наборов данных из множества источников
  • Преобразование данных и предсказание последовательностей
  • Работа с HTTP, JSON, API, SOAP
  • Парсинг и скрепинг HTML сайтов
  • Визуализация данных: тренды и зависимости
  • Гео-данные м фоновые картограммы
  • Генерация PDF отчетов
  • HTML документы и шаблонизация
  • Отправка email и автоматизация работы
Requirements
  • Базовые знания Python
  • Базовые знания HTML
Description

Центр digital-профессий ITtensive предлагает персонализированные программы с индивидуальными наставниками для освоения актуальных профессий будущего: аналитик данных на Python и программист больших данных.

Курс состоит из 4 больших частей.

1. Анализ данных

Вы изучите работу с импортом, объединением, преобразованием, фильтрацией данных на pandas, а также научитесь предсказывать тренды.

Вы сможете самостоятельно загружать данные в формате CSV, TSV, Excel, извлекать из них значения, находить взаимосвязи между разными наборами данных, преобразовывать и усекать наборы данных. В заключении вы освоите математический аппарат линейной регрессии для поиска линейной связи между данными и эффективно примените его для предсказания значений в будущем.

2. Парсинг данных

Вы изучите получение данных в Python, используя библиотеку requests API и форматы JSON и XML (включая SOAP).

Научитесь работать с неструктурированными данными в HTML, собирать их и преобразовывать в фреймы данных.

Научитесь собирать данные целиком с сайта в несколько потоков: создадите мультипроцессного робота-паука.

В завершении установите SQLite и загрузите все собранные данные в базу, а также научитесь выбирать из базы данных непосредственно в фреймы данных.

3. Визуализация данных

Вы изучите анатомию matplotlib и типы визуализации различных данных: линии, области, столбцы, круговые диаграммы.

Научитесь визуализировать зависимости между данными и линейную регрессию с помощью seaborn: построите ящичковые и парные диаграммы, диаграммы распределения.

Изучите визуализацию временных (хронологических) данных: ряды, скользящие средние, отклонения и "японские свечи".

В завершении разберете работу с гео-данными и построение фоновых картограмм по нескольким наборам данных, используя geopandas.

4. Генерация отчетов и автоматизация

В этом курсе вы научитесь создавать и преобразовывать PDF документы, генерировать их из HTML кода, используя шаблонизатор, отправлять отчеты по e-mail и автоматизировать работу.

В курсе используются библиотеки reportlab, pypdf2, pdfkit, jinja2, smtplib, email, binascii, io, а также бинарный файл wkhtmltopdf. Решаем задачи по созданию PDF документа через холст, разбору PDF документа, объединению PDF документов, созданию HTML и PDF документов из HTML, шаблонизации HTML через jinja2, преобразованию бинарных данных в base64-кодировку. В заключении разберем отправку e-mail, включая HTML-письма и вложенные PDF отчеты.

Полностью текстовый конспект к урокам, исходный код, тесты для проверки, дополнительные материалы и обратная связь от методистов доступна на платформе Learme. Напишите нам, чтобы получить доступ к полным материалам курса.

Who this course is for:
  • Начинающие разработчики Python с интересом к анализу данных
  • Веб-программисты, изучающие Python для получения и разбора данных
  • Менеджеры, планирующие использовать Python для автоматизации работы
  • Научные работники, использующие Python для обработки данных
Course content
Expand all 48 lectures 08:05:58
+ numpy и pandas
3 lectures 20:49

Разберем преобразование данных с помощью NumPy

Preview 05:54

Разберем, зачем нужен pandas для данных

Preview 07:52

Разберем, как импортировать файлы Excel

Получение данных из Excel
07:03
Закрепим работу с данными
Импорт данных
1 question
+ Индексы и объединение фреймов
3 lectures 25:10

Разберем, как назначать индексы в фрейме

Индексы данных
07:57

Разберем множественные индексы

Мультиндексы
12:14

Разберем, как создавать объединенный фрейм из данных из нескольких источников

Объединение фреймов
04:59
Потренируемся в объединении данных и индексах
Данные из нескольких источников
1 question
+ Фильтрация и изменение данных
3 lectures 32:45

Разберем, как фильтровать данные

Фильтрация данных
09:51

Разберем, как изменять данные во фреймах

Изменение фреймов
09:42

Разберем, как работать с lambda в pandas

Лямбда-функции
13:12
Найти показатель безработицы
Выделение данных
1 question
+ Линейная регрессия
3 lectures 28:23

Разберем использование групповых функций в pandas

Группировка данных
07:28

Разберем, как проводить очистку значений при группировке

Очистка и фильтрация групп
09:37

Разберем, как работать с линейной регрессией

Линейная регрессия
11:18
Научимся строить прогнозы по данным
Предсказание на 2020 год
1 question
+ Импорт данных
3 lectures 23:36

Поработаем с получением данных по API из JSON формата

HTTP запросы: JSON и API
05:38

Разберем GET и POST запросы с параметрами

HTTP запросы с параметрами
08:19

Получим данные по SOAP в XML

Работа с SOAP
09:39
Получим ключ API и разберем данные в JSON формате
Получение данных по API
1 question
+ Парсинг данных
3 lectures 24:49

Разберем получение неструктурированных данных

Получение данных из HTML
10:44

Научимся собирать табличные данные

Получение табличных данных
07:30

Разберем получение и очистку данных

Парсинг данных
06:35
Закрепим работу с парсингом HTML
Получение котировок акций
1 question
+ Веб-скрепинг
3 lectures 29:52

Разберем работу робота-паука

Обход сайта по страницам
10:21

Научимся запускать парсинг в параллельных процессах

Мультипроцессность
09:07

Разберем основы этичного парсинга страниц

Этика парсинга
10:24
Поработаем с обходом страниц интернет-магазина
Парсинг интернет-магазина
1 question
+ Работа с SQL
3 lectures 22:11

Разберем установку SQLite и создание базы данных

Установка SQLite и создание базы
03:00

Разберем работу с SQL в Python

Создание таблиц и загрузка данных
08:43

Разберем, как работать с базой данных при парсинге данных

Сохранение результатов
10:28
Потренируемся в парсинге сайта и загрузке результатов в БД
Загрузка результатов в БД
1 question
+ Основы Matplotlib
3 lectures 34:30

Разберем основные элементы графиков в matplotlib

Анатомия Matplotlib
10:33

Рассмотрим, как строить линии, области, столбчатые и круговые диаграммы

Базовые типы визуализации
16:23

Рассмотрим совместное представление наборов данных на одном графике

Продвинутая визуализация
07:34
Выберите правильный тип визуализации
Тип визуализации данных
1 question
+ Визуализация зависимостей
3 lectures 19:34

Рассмотрим графики "ящик с усами" в форме "ульев" и "скрипок"

Ящичковые диаграммы
06:24

Построим график рассеяния и регрессии с помощью Seaborn

Графики регрессии
07:29

Разберем визуализацию корреляции данных

Корреляционные диаграммы
05:41
Закрепим визуализацию корреляционных зависимостей
Результаты марафона
1 question