
Разберем, что такое машинное обучение, и посмотрим на его задачи
Разберем, как получается финальный результат машинного обучения
Разберем вопросы обогащения, очистки и загрузки данных
Разберем, зачем нужен разведочный анализ данных
Разберем нормирование данных
Посмотрим, зачем нужно разделять выборку, и как это делать
Разберем обучение модели и оптимизацию гиперпараметров
Разберем оптимальное качество обучения модели
Разберем, как работает экспорт и импорт данных в задачах машинного обучения
Исследуем правдоподобие выборки и метод максимального правдоподобия
Разберем суть МНК
Разберем интерполяция данных для заполнения пропусков
Посмотрим на метрики RMSE и RMSLE
Рассмотрим метрики расстояния, отличные от Евклидовой
Разберем на практике работу с ETL
Рассмотрим, как строить предсказание данных "внутри" и "снаружи" наблюдений
Построим предсказательную модель и проведем ее оценку
Построим простую регрессионную модель для предсказания энергопотребления
Проведем исследование исходных данных для построения зависимостей
Разберем техники восстановления пропущенных данных
Разберем оптимизацию гиперпараметров линейной регрессии
Разберем информационные критерии моделей, основанные на функции правдоподобия
Разберем первый вариант построения нелинейной регрессионной модели
Разберем подходы для упрощения нелинейных моделей
Добавим все возможные параметры из исходной информации и найдем самую точную модель
Проведем расчет моделей линейной регрессии для 100 зданий и посмотрим, как выстроить их иерархию
Рассмотрим различные модели линейной регрессии и выберем ту, которая дает наибольшую точность
Разберем экспорт и импорт промежуточных результатов расчетов
Разберем основные подходы к построению ансамбля моделей
Рассчитаем результаты для загрузки в соревнование Kaggle
Разберем базовую оценку бинарного классификатора
Посмотрим на оценки бинарного классификатора на базе точности и полноты
Посмотрим на критерий качества работы бинарной классификации по ROC AUC
Посчитаем Каппу Коэна
Посмотрим на оценку ранговой классификации
Разберем, как оптимизировать классификацию
Посмотрим на метод ближайших соседей и его проблемы при классификации
Рассмотрим задачу по классификации - вычислению класса скоринга при страховании жизни
Разберем точность, оценку F1, матрицу неточностей и каппа оценку для классификации
Разберем, как использовать ближайших соседей для классификации данных
Посмотрим, как применять условную вероятность для классификации
Разберем базовый метод классификации - логистическую регрессию
Обобщим подход ближайших соседей
Рассмотрим SVM - метод опорных векторов
Внимание: для доступа к курсам ITtensive на Udemy напишите, пожалуйста, на support@ittensive.com с названием курса или группы курсов, которые хотите пройти.
Большой практический курс по всем аспектам машинного обучения на Python в решении задач соревнования Kaggle. Курс состоит из 4 больших частей:
Введение в машинное обучение
Последовательно пройдем все этапы работы с данными: от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения, базовые метрики и наиболее простые модели - линейную и логистическую регрессии.
Регрессия и предсказание данных
Рассмотрим базовые линейные модели и все практические аспекты применения линейной регрессии для предсказания числовых показателей энергопотребления ASHRAE.
Особенности процесса анализа данных (ETL): загрузка, очистка, объединение наборов данных с pandas.
Проведение исследовательского анализа данных для поиска зависимостей: EDA.
Использование sklearn для линейной регрессии.
Интерполяция и экстраполяция данных.
Расчет метрики качества RMSLE для моделей линейной регрессии.
Оптимизация линейной регрессии: выбор наилучших параметров и гиперпараметров.
Оптимизация потребления памяти при работе с большими данными.
Запасные модели линейной регрессии.
Ансамбли линейной регрессии для уточнения предсказания.
Экспорт и импорт данных, включая промежуточные.
Классификация и ансамбли
Разберем метрики и модели классификации, а затем отработаем прикладные подходы к классификации данных с помощью моделей и ансамблей машинного обучения для страхового скоринга Prudential.
Метрики классификации: точность, полнота, F1, квадратичная каппа и матрица неточностей.
Очистка данных и оптимизация потребления памяти.
Кластеризация данных и метод ближайших соседей.
Простая и иерархическая логистическая регрессия.
Метод ближайших соседей и поиск оптимальной модели.
Метод опорных векторов: SVM.
Дерево принятия решения и случайный лес (бэггинг).
XGBoost и градиентный бустинг.
LightGBM и CatBoost
Ансамбль стекинга для голосования и выбора лучшего результата.
Нейросети и глубокое обучение
Разберем сегментацию и классификацию изображений облаков с помощью сверточных, пирамидальных, остаточных и полносвязных нейронных сетей.
Метрики точности: оценка F1 и коэффициент Дайса.
Очистка данных и обработка изображений.
Загрузка и сохранение моделей и данных в HDF5.
Двухслойный и многослойный перцептрон.
Нейросети со сверточными слоями и слоями подвыборки.
Функции активации, инициализация и оптимизаторы нейросетей.
Преобразование и дополнение (аугментация) бинарных данных.
LeNet, AlexNet, GoogLeNet.
VGG, Inception, ResNet, DenseNet.
Сегментация изображений с MobileNet, Unet, PSPNet и FPN.
Ансамбль нейросетей.