Парсинг и анализ данных на Python: от азов до автоматизации
What you'll learn
- Работа с данными с помощью pandas и numpy
- Получение наборов данных из множества источников
- Преобразование данных и предсказание последовательностей
- Работа с HTTP, JSON, API, SOAP
- Парсинг и скрепинг HTML сайтов
- Визуализация данных: тренды и зависимости
- Гео-данные м фоновые картограммы
- Генерация PDF отчетов
- HTML документы и шаблонизация
- Отправка email и автоматизация работы
Requirements
- Базовые знания Python
- Базовые знания HTML
Description
Центр digital-профессий ITtensive предлагает персонализированные программы с индивидуальными наставниками для освоения актуальных профессий будущего: аналитик данных на Python и программист больших данных.
Курс состоит из 4 больших частей.
1. Анализ данных
Вы изучите работу с импортом, объединением, преобразованием, фильтрацией данных на pandas, а также научитесь предсказывать тренды.
Вы сможете самостоятельно загружать данные в формате CSV, TSV, Excel, извлекать из них значения, находить взаимосвязи между разными наборами данных, преобразовывать и усекать наборы данных. В заключении вы освоите математический аппарат линейной регрессии для поиска линейной связи между данными и эффективно примените его для предсказания значений в будущем.
2. Парсинг данных
Вы изучите получение данных в Python, используя библиотеку requests API и форматы JSON и XML (включая SOAP).
Научитесь работать с неструктурированными данными в HTML, собирать их и преобразовывать в фреймы данных.
Научитесь собирать данные целиком с сайта в несколько потоков: создадите мультипроцессного робота-паука.
В завершении установите SQLite и загрузите все собранные данные в базу, а также научитесь выбирать из базы данных непосредственно в фреймы данных.
3. Визуализация данных
Вы изучите анатомию matplotlib и типы визуализации различных данных: линии, области, столбцы, круговые диаграммы.
Научитесь визуализировать зависимости между данными и линейную регрессию с помощью seaborn: построите ящичковые и парные диаграммы, диаграммы распределения.
Изучите визуализацию временных (хронологических) данных: ряды, скользящие средние, отклонения и "японские свечи".
В завершении разберете работу с гео-данными и построение фоновых картограмм по нескольким наборам данных, используя geopandas.
4. Генерация отчетов и автоматизация
В этом курсе вы научитесь создавать и преобразовывать PDF документы, генерировать их из HTML кода, используя шаблонизатор, отправлять отчеты по e-mail и автоматизировать работу.
В курсе используются библиотеки reportlab, pypdf2, pdfkit, jinja2, smtplib, email, binascii, io, а также бинарный файл wkhtmltopdf. Решаем задачи по созданию PDF документа через холст, разбору PDF документа, объединению PDF документов, созданию HTML и PDF документов из HTML, шаблонизации HTML через jinja2, преобразованию бинарных данных в base64-кодировку. В заключении разберем отправку e-mail, включая HTML-письма и вложенные PDF отчеты.
Who this course is for:
- Начинающие разработчики Python с интересом к анализу данных
- Веб-программисты, изучающие Python для получения и разбора данных
- Менеджеры, планирующие использовать Python для автоматизации работы
- Научные работники, использующие Python для обработки данных
Course content
- Preview05:54
- Preview07:52
- 07:03Получение данных из Excel
- 1 questionИмпорт данных
Instructor
ITtensive - первый центр digital-профессий в России, обучающий техническим и маркетинговым специальностям: программированию, проектированию, тестированию, созданию и продвижению продуктов.
Возможно обучение как с нуля (включая изучения Основ программирования), так и уже на базе имеющихся навыков.
Программы курсов включают работу с PHP, Python, SQL, Git, сетевые технологии, машинное обучение и нейронные сети для решения прикладных задач.
Преподаватели центра:
Ведущий методист: Мациевский Николай, МФТИ (прикладная математика и физика). Специализируется на автоматизации и оптимизации процессов. Увлекается путешествиями и авангардизмом.
Методист по автоматизации: Мария Шугурова, МГУ и НИУ ВШЭ (бизнес-планирование). Помогает внедрять анализ данных в бизнес-процессы и извлекать дополнительную пользу из данных. Хобби: телерадио ведущая.
Методист по Python: Евгений Бойченко, НГУ (математика и компьютерные науки). Разрабатывает решения на Python для автоматизации прикладных задач. Нравится писать чат-ботов.
Методист по машинному обучению: Алена Селезнева, МГУ (прикладная математика и информатика). Использует модели машинного обучения для решения задач реального бизнеса. В свободное время поет и рисует миниатюры.
Победы в конкурсах и хакатонах:
Август 2020, финалист Digital Superhero Security, лучшее техническое решение детектирования DNS туннелей в трафике
Июнь 2020, 31 место (топ 5%) в международном хакатоне Prohack от McKinsey
Июнь 2020, 4 место в Цифровом Прорыве по задаче распознавания и предобработки неполного почтового адреса, самая высокая точность работы алгоритма
Май 2020, лучшее техническое решение по предсказанию ожидаемой продолжительности жизни, Digital Superhero