Машинное обучение: выделение факторов на Python
What you'll learn
- Процесс и модель машинного обучения
- Заполнение пропусков в данных
- Линейная регрессия и L1/L2 регуляризация
- Решающие деревья и ансамбли стекинга
- Корреляция и взаимная информация
- Метод главных компонент (PCA)
- Сингулярное разложение (SVD)
- Анализ независимых компонент (ICA)
- Многомерное шкалирование (MDS)
- t-SNE, UMAP, LargeVis
Course content
- Preview01:18
- Preview09:45
- 01:38Обучение без учителя
- 3 questionsЗадачи машинного обучения
Requirements
- Продвинутый Python
- Основы математической статистики
Description
Мы разберем задачу хакатона 2020 года по выделению факторов, в наибольшей степени влияющих на продолжительность жизни в России, с точки зрения фундаментальных и прикладных подходов к понижению размерности данных. В заключении построим ансамбль моделей для предсказания продолжительности жизни, базируясь на выделенных факторах.
Курс разбит на 4 части. В первой части мы последовательно пройдем все этапы работы с данными: от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения, базовые метрики и наиболее простые модели - линейную регрессии, решающие деревья и случайный лес. А также ансамбли машинного обучения.
Во второй части на практике разберем:
Очистку и предобработку данных - ETL
Линейную регрессию для экстраполяции данных
Линейную регрессию с регуляризацией для выделения факторов
Информационные критерии понижения размерности
В заключении создадим ансамбль стекинга из простых моделей понижения размерности.
Третья часть посвящена матричным методам:
Метод главных компонент (PCA)
Сингулярное разложение (SVD)
Анализ независимых компонент (ICA)
Положительно-определенные матрицы (NMF)
Уточним решение задачи обучения без учителя через матричные методы.
В четвертой части рассмотрим нелинейные подходы:
Многомерное шкалирование (MDS).
t-SNE
UMAP
LargeVis
Стабилизируем ансамбль понижения размерности и используем его для предсказания продолжительности жизни в России, основываясь на наиболее важных макроэкономических показателях.
Who this course is for:
- Аналитики Python, изучающие машинное обучение
- Программисты больших данных
- Исследователи больших данных
Instructor
ITtensive - первый центр digital-профессий в России, обучающий техническим и маркетинговым специальностям: программированию, проектированию, тестированию, созданию и продвижению продуктов.
Возможно обучение как с нуля (включая изучения Основ программирования), так и уже на базе имеющихся навыков.
Программы курсов включают работу с PHP, Python, SQL, Git, сетевые технологии, машинное обучение и нейронные сети для решения прикладных задач.
Преподаватели центра:
Ведущий методист: Мациевский Николай, МФТИ (прикладная математика и физика). Специализируется на автоматизации и оптимизации процессов. Увлекается путешествиями и авангардизмом.
Методист по автоматизации: Мария Шугурова, МГУ и НИУ ВШЭ (бизнес-планирование). Помогает внедрять анализ данных в бизнес-процессы и извлекать дополнительную пользу из данных. Хобби: телерадио ведущая.
Методист по Python: Евгений Бойченко, НГУ (математика и компьютерные науки). Разрабатывает решения на Python для автоматизации прикладных задач. Нравится писать чат-ботов.
Методист по машинному обучению: Алена Селезнева, МГУ (прикладная математика и информатика). Использует модели машинного обучения для решения задач реального бизнеса. В свободное время поет и рисует миниатюры.
Победы в конкурсах и хакатонах:
Август 2020, финалист Digital Superhero Security, лучшее техническое решение детектирования DNS туннелей в трафике
Июнь 2020, 31 место (топ 5%) в международном хакатоне Prohack от McKinsey
Июнь 2020, 4 место в Цифровом Прорыве по задаче распознавания и предобработки неполного почтового адреса, самая высокая точность работы алгоритма
Май 2020, лучшее техническое решение по предсказанию ожидаемой продолжительности жизни, Digital Superhero