Teach on Udemy

Turn what you know into an opportunity and reach millions around the world.

Learn More

Your cart is empty.

Keep shopping

Машинное обучение: из грязи в Kaggle-князи

Name: Машинное обучение: из грязи в Kaggle-князи
Rating: 4.4 (113 reviews)

Регрессия, классификация, ансамбли и глубокие нейросети

Created byЦентр digital-профессий ITtensive

Last updated 6/2021

Russian

What you'll learn

Процесс и модели машинного обучения
Ансамбли бэггинга, бустинга, стекинга
Обучение с учителем: 3 больших задачи Kaggle-соревнований
Линейная и нелинейная регрессия
Кластеризация и классификация
Регрессия и предсказание данных
Распознавание и сегментация изображений

Course content

22 sections • 121 lectures • 21h 32m total length

Задачи машинного обучения9:51
Разберем, что такое машинное обучение, и посмотрим на его задачи
Задачи машинного обучения
Модель и процесс машинного обучения7:47
Разберем, как получается финальный результат машинного обучения
Что такое ETL6:09
Разберем вопросы обогащения, очистки и загрузки данных
Процесс машинного обучения
Что такое EDA7:18
Разберем, зачем нужен разведочный анализ данных
Подготовка данных13:06
Разберем нормирование данных
Подготовка данных
Разбиение выборки9:53
Посмотрим, зачем нужно разделять выборку, и как это делать
Оптимизация гиперпараметров12:40
Разберем обучение модели и оптимизацию гиперпараметров
Латинский квадрат (гиперкуб)7:20
Оптимизация гиперпараметров через Парзеновские деревья11:33
Недообучение и переобучение10:55
Разберем оптимальное качество обучения модели
Смещение, разброс и ошибка данных10:25
Обучение модели
Использование HDF6:53
Разберем, как работает экспорт и импорт данных в задачах машинного обучения

Метод максимального правдоподобия15:35
Исследуем правдоподобие выборки и метод максимального правдоподобия
Метод наименьших квадратов5:53
Разберем суть МНК
Метод наименьших квадратов
Аппроксимация пропусков в данных5:49
Разберем интерполяция данных для заполнения пропусков
Аппроксимация данных
Среднеквадратичная ошибка6:33
Посмотрим на метрики RMSE и RMSLE
Метрики и расстояния8:12
Рассмотрим метрики расстояния, отличные от Евклидовой
Метрики и расстояния

Процесс ETL11:55
Разберем на практике работу с ETL
Интерполяция и экстраполяция6:44
Рассмотрим, как строить предсказание данных "внутри" и "снаружи" наблюдений
Оценка модели10:02
Построим предсказательную модель и проведем ее оценку
Линейная регрессия10:35
Построим простую регрессионную модель для предсказания энергопотребления
Линейная регрессия по часам

Оптимизация потребления памяти17:14
EDA: исследование зависимостей14:59
Проведем исследование исходных данных для построения зависимостей
Заполнение пропусков в данных9:49
Разберем техники восстановления пропущенных данных
Параметрическая модель энергопотребления

Линейная регрессия и L1/L2-регуляризация14:01
Разберем оптимизацию гиперпараметров линейной регрессии
Изотоническая регрессия5:31
Линейная регрессия
BIC и AIC5:21
Разберем информационные критерии моделей, основанные на функции правдоподобия
Полиномиальная регрессия4:54
Разберем первый вариант построения нелинейной регрессионной модели
Линеаризация регрессии8:25
Разберем подходы для упрощения нелинейных моделей
Нелинейная регрессия

Обогащение данных19:24
Добавим все возможные параметры из исходной информации и найдем самую точную модель
Иерархия моделей17:39
Проведем расчет моделей линейной регрессии для 100 зданий и посмотрим, как выстроить их иерархию
Оптимизация регрессии16:29
Рассмотрим различные модели линейной регрессии и выберем ту, которая дает наибольшую точность
Конкурентные модели регрессии

Экспорт и импорт данных8:59
Разберем экспорт и импорт промежуточных результатов расчетов
Ансамбль регрессионных моделей21:18
Разберем основные подходы к построению ансамбля моделей
Расчет результатов19:01
Рассчитаем результаты для загрузки в соревнование Kaggle
Рассчитать данные по энергопотреблению

Точность и полнота10:48
Разберем базовую оценку бинарного классификатора
F-мера6:08
Посмотрим на оценки бинарного классификатора на базе точности и полноты
ROC AUC и Gini11:57
Посмотрим на критерий качества работы бинарной классификации по ROC AUC
Оценка Каппа Коэна7:36
Посчитаем Каппу Коэна
Взвешенная квадратичная Каппа12:14
Посмотрим на оценку ранговой классификации
Логистическая функция потерь7:29
Разберем, как оптимизировать классификацию
Метод ближайших соседей9:34
Посмотрим на метод ближайших соседей и его проблемы при классификации

Страховой скоринг15:12
Рассмотрим задачу по классификации - вычислению класса скоринга при страховании жизни
F1 и Каппа оценки классификации8:46
Разберем точность, оценку F1, матрицу неточностей и каппа оценку для классификации
Метод ближайших соседей5:51
Разберем, как использовать ближайших соседей для классификации данных
kNN скоринг

Наивный Байес7:55
Посмотрим, как применять условную вероятность для классификации
Логистическая регрессия4:50
Разберем базовый метод классификации - логистическую регрессию
Дерево принятия решения10:14
Обобщим подход ближайших соседей
Опорные векторы10:20
Рассмотрим SVM - метод опорных векторов

Requirements

Основы машинного обучения
Основы математической статистики
Продвинутый Python

Description

Внимание: для доступа к курсам ITtensive на Udemy напишите, пожалуйста, на support@ittensive.com с названием курса или группы курсов, которые хотите пройти.

Большой практический курс по всем аспектам машинного обучения на Python в решении задач соревнования Kaggle. Курс состоит из 4 больших частей:

Введение в машинное обучение

Последовательно пройдем все этапы работы с данными: от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения, базовые метрики и наиболее простые модели - линейную и логистическую регрессии.

Регрессия и предсказание данных

Рассмотрим базовые линейные модели и все практические аспекты применения линейной регрессии для предсказания числовых показателей энергопотребления ASHRAE.

Особенности процесса анализа данных (ETL): загрузка, очистка, объединение наборов данных с pandas.
Проведение исследовательского анализа данных для поиска зависимостей: EDA.
Использование sklearn для линейной регрессии.
Интерполяция и экстраполяция данных.
Расчет метрики качества RMSLE для моделей линейной регрессии.
Оптимизация линейной регрессии: выбор наилучших параметров и гиперпараметров.
Оптимизация потребления памяти при работе с большими данными.
Запасные модели линейной регрессии.
Ансамбли линейной регрессии для уточнения предсказания.
Экспорт и импорт данных, включая промежуточные.

Классификация и ансамбли

Разберем метрики и модели классификации, а затем отработаем прикладные подходы к классификации данных с помощью моделей и ансамблей машинного обучения для страхового скоринга Prudential.

Метрики классификации: точность, полнота, F1, квадратичная каппа и матрица неточностей.
Очистка данных и оптимизация потребления памяти.
Кластеризация данных и метод ближайших соседей.
Простая и иерархическая логистическая регрессия.
Метод ближайших соседей и поиск оптимальной модели.
Метод опорных векторов: SVM.
Дерево принятия решения и случайный лес (бэггинг).
XGBoost и градиентный бустинг.
LightGBM и CatBoost
Ансамбль стекинга для голосования и выбора лучшего результата.

Нейросети и глубокое обучение

Разберем сегментацию и классификацию изображений облаков с помощью сверточных, пирамидальных, остаточных и полносвязных нейронных сетей.

Метрики точности: оценка F1 и коэффициент Дайса.
Очистка данных и обработка изображений.
Загрузка и сохранение моделей и данных в HDF5.
Двухслойный и многослойный перцептрон.
Нейросети со сверточными слоями и слоями подвыборки.
Функции активации, инициализация и оптимизаторы нейросетей.
Преобразование и дополнение (аугментация) бинарных данных.
LeNet, AlexNet, GoogLeNet.
VGG, Inception, ResNet, DenseNet.
Сегментация изображений с MobileNet, Unet, PSPNet и FPN.
Ансамбль нейросетей.

Who this course is for:

Аналитики Python, изучающие машинное обучение
Программисты больших данных
Исследователи больших данных

Машинное обучение: из грязи в Kaggle-князи

What you'll learn

Explore related topics

Course content

Часть 1. Процесс машинного обучения12 lectures • 1hr 54min

Метрики и модели5 lectures • 42min

Часть 2. Практикум: Предсказание энергопотребления зданий4 lectures • 39min

Практикум: Оптимизация памяти и обогащение данных3 lectures • 42min

Модели линейной регрессии5 lectures • 38min

Практикум: Конкурентные модели регрессии3 lectures • 54min

Практикум: Ансамбль линейной регрессии3 lectures • 49min

Часть 3. Метрики и модели классификации7 lectures • 1hr 6min

Практикум: Задача страхового скоринга3 lectures • 30min

Простые модели классификации4 lectures • 33min

Requirements

Description

Who this course is for: