
Разберем, что такое машинное обучение, и посмотрим на его задачи
Разберем, как получается финальный результат машинного обучения
Разберем вопросы обогащения, очистки и загрузки данных
Разберем, зачем нужен разведочный анализ данных
Разберем нормирование данных
Посмотрим, зачем нужно разделять выборку, и как это делать
Разберем обучение модели и оптимизацию гиперпараметров
Разберем оптимальное качество обучения модели
Разберем, как работает экспорт и импорт данных в задачах машинного обучения
Исследуем правдоподобие выборки и метод максимального правдоподобия
Разберем суть МНК
Разберем интерполяция данных для заполнения пропусков
Посмотрим на метрики RMSE и RMSLE
Рассмотрим метрики расстояния, отличные от Евклидовой
Разберем на практике работу с ETL
Рассмотрим, как строить предсказание данных "внутри" и "снаружи" наблюдений
Построим предсказательную модель и проведем ее оценку
Построим простую регрессионную модель для предсказания энергопотребления
Рассмотрим подходы к оптимизации потребляемой памяти
Проведем исследование исходных данных для построения зависимостей
Разберем техники восстановления пропущенных данных
Разберем оптимизацию гиперпараметров линейной регрессии
Разберем информационные критерии моделей, основанные на функции правдоподобия
Разберем первый вариант построения нелинейной регрессионной модели
Разберем подходы для упрощения нелинейных моделей
Добавим все возможные параметры из исходной информации и найдем самую точную модель
Проведем расчет моделей линейной регрессии для 100 зданий и посмотрим, как выстроить их иерархию
Рассмотрим различные модели линейной регрессии и выберем ту, которая дает наибольшую точность
Разберем бэггинг, бустинг и стекинг
Разберемся, как строить ансамбль стекинга
Разберем экспорт и импорт промежуточных результатов расчетов
Разберем основные подходы к построению ансамбля моделей
Рассчитаем результаты для загрузки в соревнование Kaggle
Мы рассмотрим все теоретические и практические аспекты применения линейной регрессии для предсказания числовых показателей энергопотребления ASHRAE в соревновании на Kaggle вплоть до формирования конечного результата.
Курс разбит на 2 части. В первой части мы последовательно пройдем все этапы работы с данными: от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения, базовые метрики и наиболее простые модели - линейную, полиномиальную и линеаризуемую регрессии.
Во второй части разберем на практикуме:
Особенности процесса анализа данных (ETL): загрузка, очистка, объединение наборов данных с pandas.
Проведение исследовательского анализа данных для поиска зависимостей: EDA.
Использование sklearn для линейной регрессии.
Интерполяция и экстраполяция данных.
Расчет метрики качества RMSLE для моделей линейной регрессии.
Оптимизация линейной регрессии: выбор наилучших параметров и гиперпараметров.
Оптимизация потребления памяти при работе с большими данными.
Запасные модели линейной регрессии.
Ансамбли линейной регрессии для уточнения предсказания.
Экспорт и импорт данных, включая промежуточные.
Выгрузка результата для соревнования на Kaggle.