Машинное обучение: регрессия и предсказание данных на Python
4.2 (2 ratings)
Course Ratings are calculated from individual students’ ratings and a variety of other signals, like age of rating and reliability, to ensure that they reflect course quality fairly and accurately.
18 students enrolled

Машинное обучение: регрессия и предсказание данных на Python

Выигрываем соревнование на Kaggle по предсказанию данных с ансамблем линейной регрессии
4.2 (2 ratings)
Course Ratings are calculated from individual students’ ratings and a variety of other signals, like age of rating and reliability, to ensure that they reflect course quality fairly and accurately.
18 students enrolled
Last updated 5/2020
Russian
Current price: $69.99 Original price: $99.99 Discount: 30% off
5 hours left at this price!
30-Day Money-Back Guarantee
This course includes
  • 6.5 hours on-demand video
  • Full lifetime access
  • Access on mobile and TV
  • Assignments
  • Certificate of Completion
Training 5 or more people?

Get your team access to 4,000+ top Udemy courses anytime, anywhere.

Try Udemy for Business
What you'll learn
  • Процесс ETL: загрузка, очистка, объединение данных
  • Построение и оценка качества модели линейной регрессии
  • EDA: исследовательский анализ данных
  • Обогащение данных для извлечение смысла
  • Оптимизация потребления памяти набором данных
  • Иерархия моделей линейной регрессии
  • Ансамбль моделей линейной регрессии
  • Экспорт и импорт данных в CSV и HDF5
  • Участие в соревнование Kaggle
Course content
Expand all 33 lectures 06:40:52
+ Часть 1. Процесс машинного обучения
9 lectures 01:23:38

Разберем, что такое машинное обучение, и посмотрим на его задачи

Preview 09:45

Повторим основные задачи машинного обучения

Задачи машинного обучения
3 questions

Разберем, как получается финальный результат машинного обучения

Модель и процесс машинного обучения
07:41

Разберем вопросы обогащения, очистки и загрузки данных

Что такое ETL
06:03

Повторим базовые шаги машинного обучения

Процесс машинного обучения
3 questions

Разберем, зачем нужен разведочный анализ данных

Что такое EDA
07:12

Разберем нормирование данных

Подготовка данных
13:00

Повторим работу с данными

Подготовка данных
3 questions

Посмотрим, зачем нужно разделять выборку, и как это делать

Разбиение выборки
09:47

Разберем обучение модели и оптимизацию гиперпараметров

Оптимизация гиперпараметров
12:34

Разберем оптимальное качество обучения модели

Недообучение и переобучение
10:49

Повторим работу с моделью машинного обучения

Обучение модели
3 questions

Разберем, как работает экспорт и импорт данных в задачах машинного обучения

Использование HDF
06:47
+ Линейные модели
5 lectures 41:33

Исследуем правдоподобие выборки и метод максимального правдоподобия

Метод максимального правдоподобия
15:30

Разберем суть МНК

Метод наименьших квадратов
05:47

Повторим основы оценки моделей машинного обучения

Метод наименьших квадратов
3 questions

Разберем интерполяция данных для заполнения пропусков

Аппроксимация пропусков в данных
05:43

Закрепим знания по интерполяции и экстраполяции

Аппроксимация данных
3 questions

Посмотрим на метрики RMSE и RMSLE

Среднеквадратичная ошибка
06:27

Рассмотрим метрики расстояния, отличные от Евклидовой

Метрики и расстояния
08:06

Закрепим основы измерения ошибок

Метрики и расстояния
3 questions
+ Часть 2. Практикум: Предсказание энергопотребления зданий
4 lectures 39:16

Разберем на практике работу с ETL

Preview 11:55

Рассмотрим, как строить предсказание данных "внутри" и "снаружи" наблюдений

Интерполяция и экстраполяция
06:44

Построим предсказательную модель и проведем ее оценку

Оценка модели
10:02

Построим простую регрессионную модель для предсказания энергопотребления

Линейная регрессия
10:35
Построим набор моделей линейной регрессии
Линейная регрессия по часам
1 question
+ Практикум: Оптимизация памяти и обогащение данных
3 lectures 42:02

Рассмотрим подходы к оптимизации потребляемой памяти

Оптимизация потребления памяти
17:14

Проведем исследование исходных данных для построения зависимостей

EDA: исследование зависимостей
14:59

Разберем техники восстановления пропущенных данных

Заполнение пропусков в данных
09:49
Построим модели линейной регрессии по обогащенным данным
Параметрическая модель энергопотребления
1 question
+ Модели линейной регрессии
4 lectures 32:17

Разберем оптимизацию гиперпараметров линейной регрессии

Линейная регрессия и L1/L2-регуляризация
13:55

Повторим линейные подходы к регрессии

Линейная регрессия
3 questions

Разберем информационные критерии моделей, основанные на функции правдоподобия

BIC и AIC
05:15

Разберем первый вариант построения нелинейной регрессионной модели

Полиномиальная регрессия
04:48

Разберем подходы для упрощения нелинейных моделей

Линеаризация регрессии
08:19

Повторим особенности линеаризации и полиномиальной регрессии

Нелинейная регрессия
3 questions
+ Практикум: Конкурентные модели регрессии
3 lectures 53:32

Добавим все возможные параметры из исходной информации и найдем самую точную модель

Обогащение данных
19:24

Проведем расчет моделей линейной регрессии для 100 зданий и посмотрим, как выстроить их иерархию

Иерархия моделей
17:39

Рассмотрим различные модели линейной регрессии и выберем ту, которая дает наибольшую точность

Оптимизация регрессии
16:29
Сравним две частные модели линейной регрессии
Конкурентные модели регрессии
1 question
+ Ансамбли машинного обучения
2 lectures 22:19

Разберем бэггинг, бустинг и стекинг

Ансамблевые модели
11:29

Разберемся, как строить ансамбль стекинга

Ансамбль стекинга
10:50
+ Практикум: Ансамбль линейной регрессии
3 lectures 49:18

Разберем экспорт и импорт промежуточных результатов расчетов

Экспорт и импорт данных
08:59

Разберем основные подходы к построению ансамбля моделей

Ансамбль регрессионных моделей
21:18

Рассчитаем результаты для загрузки в соревнование Kaggle

Расчет результатов
19:01
Соберем финальное решение линейной регрессии
Рассчитать данные по энергопотреблению
1 question
Requirements
  • Продвинутый Python
  • Основы математической статистики
Description

Мы рассмотрим все теоретические и практические аспекты применения линейной регрессии для предсказания числовых показателей энергопотребления ASHRAE в соревновании на Kaggle вплоть до формирования конечного результата.

Курс разбит на 2 части. В первой части мы последовательно пройдем все этапы работы с данными: от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения, базовые метрики и наиболее простые модели - линейную, полиномиальную и линеаризуемую регрессии.

Во второй части разберем на практикуме:

  • Особенности процесса анализа данных (ETL): загрузка, очистка, объединение наборов данных с pandas.

  • Проведение исследовательского анализа данных для поиска зависимостей: EDA.

  • Использование sklearn для линейной регрессии.

  • Интерполяция и экстраполяция данных.

  • Расчет метрики качества RMSLE для моделей линейной регрессии.

  • Оптимизация линейной регрессии: выбор наилучших параметров и гиперпараметров.

  • Оптимизация потребления памяти при работе с большими данными.

  • Запасные модели линейной регрессии.

  • Ансамбли линейной регрессии для уточнения предсказания.

  • Экспорт и импорт данных, включая промежуточные.

  • Выгрузка результата для соревнования на Kaggle.

Who this course is for:
  • Аналитики Python, изучающие машинное обучение
  • Программисты больших данных
  • Исследователи больших данных