Машинное обучение: регрессия и предсказание данных на Python

Name: Машинное обучение: регрессия и предсказание данных на Python
Rating: 4.3 (18 reviews)

Выигрываем соревнование на Kaggle по предсказанию данных с ансамблем линейной регрессии

Created byЦентр digital-профессий ITtensive

Last updated 6/2021

Russian

What you'll learn

Процесс ETL: загрузка, очистка, объединение данных
Построение и оценка качества модели линейной регрессии
EDA: исследовательский анализ данных
Обогащение данных для извлечения смысла
Оптимизация потребления памяти набором данных
Иерархия моделей линейной регрессии
Ансамбль моделей линейной регрессии
Экспорт и импорт данных в CSV и HDF5
Участие в соревнование Kaggle

Course content

8 sections • 37 lectures • 7h 17m total length

Задачи машинного обучения9:51
Разберем, что такое машинное обучение, и посмотрим на его задачи
Задачи машинного обучения
Модель и процесс машинного обучения7:47
Разберем, как получается финальный результат машинного обучения
Что такое ETL6:09
Разберем вопросы обогащения, очистки и загрузки данных
Процесс машинного обучения
Что такое EDA7:18
Разберем, зачем нужен разведочный анализ данных
Подготовка данных13:06
Разберем нормирование данных
Подготовка данных
Разбиение выборки9:53
Посмотрим, зачем нужно разделять выборку, и как это делать
Оптимизация гиперпараметров12:40
Разберем обучение модели и оптимизацию гиперпараметров
Латинский квадрат (гиперкуб)7:20
Оптимизация гиперпараметров через Парзеновские деревья11:33
Недообучение и переобучение10:55
Разберем оптимальное качество обучения модели
Смещение, разброс и ошибка данных10:25
Обучение модели
Использование HDF6:53
Разберем, как работает экспорт и импорт данных в задачах машинного обучения

Метод максимального правдоподобия15:35
Исследуем правдоподобие выборки и метод максимального правдоподобия
Метод наименьших квадратов5:53
Разберем суть МНК
Метод наименьших квадратов
Аппроксимация пропусков в данных5:49
Разберем интерполяция данных для заполнения пропусков
Аппроксимация данных
Среднеквадратичная ошибка6:33
Посмотрим на метрики RMSE и RMSLE
Метрики и расстояния8:12
Рассмотрим метрики расстояния, отличные от Евклидовой
Метрики и расстояния

Процесс ETL11:55
Разберем на практике работу с ETL
Интерполяция и экстраполяция6:44
Рассмотрим, как строить предсказание данных "внутри" и "снаружи" наблюдений
Оценка модели10:02
Построим предсказательную модель и проведем ее оценку
Линейная регрессия10:35
Построим простую регрессионную модель для предсказания энергопотребления
Линейная регрессия по часам

Оптимизация потребления памяти17:14
Рассмотрим подходы к оптимизации потребляемой памяти
EDA: исследование зависимостей14:59
Проведем исследование исходных данных для построения зависимостей
Заполнение пропусков в данных9:49
Разберем техники восстановления пропущенных данных
Параметрическая модель энергопотребления

Линейная регрессия и L1/L2-регуляризация14:01
Разберем оптимизацию гиперпараметров линейной регрессии
Изотоническая регрессия5:31
Линейная регрессия
BIC и AIC5:21
Разберем информационные критерии моделей, основанные на функции правдоподобия
Полиномиальная регрессия4:54
Разберем первый вариант построения нелинейной регрессионной модели
Линеаризация регрессии8:25
Разберем подходы для упрощения нелинейных моделей
Нелинейная регрессия

Обогащение данных19:24
Добавим все возможные параметры из исходной информации и найдем самую точную модель
Иерархия моделей17:39
Проведем расчет моделей линейной регрессии для 100 зданий и посмотрим, как выстроить их иерархию
Оптимизация регрессии16:29
Рассмотрим различные модели линейной регрессии и выберем ту, которая дает наибольшую точность
Конкурентные модели регрессии

Экспорт и импорт данных8:59
Разберем экспорт и импорт промежуточных результатов расчетов
Ансамбль регрессионных моделей21:18
Разберем основные подходы к построению ансамбля моделей
Расчет результатов19:01
Рассчитаем результаты для загрузки в соревнование Kaggle
Рассчитать данные по энергопотреблению

Requirements

Продвинутый Python
Основы математической статистики

Description

Мы рассмотрим все теоретические и практические аспекты применения линейной регрессии для предсказания числовых показателей энергопотребления ASHRAE в соревновании на Kaggle вплоть до формирования конечного результата.

Курс разбит на 2 части. В первой части мы последовательно пройдем все этапы работы с данными: от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения, базовые метрики и наиболее простые модели - линейную, полиномиальную и линеаризуемую регрессии.

Во второй части разберем на практикуме:

Особенности процесса анализа данных (ETL): загрузка, очистка, объединение наборов данных с pandas.
Проведение исследовательского анализа данных для поиска зависимостей: EDA.
Использование sklearn для линейной регрессии.
Интерполяция и экстраполяция данных.
Расчет метрики качества RMSLE для моделей линейной регрессии.
Оптимизация линейной регрессии: выбор наилучших параметров и гиперпараметров.
Оптимизация потребления памяти при работе с большими данными.
Запасные модели линейной регрессии.
Ансамбли линейной регрессии для уточнения предсказания.
Экспорт и импорт данных, включая промежуточные.
Выгрузка результата для соревнования на Kaggle.

Who this course is for:

Аналитики Python, изучающие машинное обучение
Программисты больших данных
Исследователи больших данных

Машинное обучение: регрессия и предсказание данных на Python

What you'll learn

Explore related topics

Course content

Часть 1. Процесс машинного обучения12 lectures • 1hr 54min

Линейные модели5 lectures • 42min

Часть 2. Практикум: Предсказание энергопотребления зданий4 lectures • 39min

Практикум: Оптимизация памяти и обогащение данных3 lectures • 42min

Модели линейной регрессии5 lectures • 38min

Практикум: Конкурентные модели регрессии3 lectures • 54min

Ансамбли машинного обучения2 lectures • 22min

Практикум: Ансамбль линейной регрессии3 lectures • 49min

Requirements

Description

Who this course is for: