Pythonで機械学習：scikit-learnで学ぶ識別入門

pythonの機械学習ライブラリscikit-learnを使って，識別の基本を徹底的にマスターしよう！

Created byToru Tamaki

Last updated 5/2020

Japanese

What you'll learn

機械学習の識別（分類・パターン認識）が何かが分かります
Pythonとjupyter notebookが使えるようになります．
Pythonの機械学習ライブラリscikit-learnを使えるようになります
学習データとテストデータを準備する
データの前処理をする
学習データで識別器を学習する
交差確認（cross validation）やleave-one-outなどを使う
識別器でテストデータを識別する
識別結果を評価する
過学習とは何かを知る
2クラス分類と多クラス分類の違いを知る
k最近傍識別器（k-NN）を使う
サポートベクターマシン（SVM）を使う
ロジスティック回帰を使う
多層ニューラルネットワーク（多層パーセプトロン）を使う
パーセプトロンを使う

Course content

11 sections • 119 lectures • 9h 12m total length

はじめに1:34
レクチャーではscikit-learnを用いて識別を説明していきます．scikit-learnには多数のチュートリアルがありますので，参考にしてください．
識別とは2:54
識別の流れ1:02
ラベルについて2:31
回帰とは（ここでは扱わない）1:24
教師あり，教師なし，半教師あり1:28
ディープラーニング（深層学習）とは0:55

環境設定について0:33
anacondaの紹介1:27
macOS：ダウンロードとインストール1:27
macOS：起動と終了4:15
macOS：アップデート3:13
macOS：ターミナルでの操作3:21
windows：ダウンロードとインストール1:17
windows：起動と終了4:00
windows：アップデート3:08
windows：コマンドプロンプトでの操作2:54
linux：ダウンロードとインストール1:42
linux：起動と終了2:11
linux：アップデート1:49
linux：ダウングレード1:26
linux：GUIのAnaconda navigator1:35
linux：anacondaを使わずaptとpipでインストールするなら4:28
オプション：dockerを使うなら0:50
オプション：どうしてもクラウドというならSageMathCloud6:31

ipython notebookの簡単な使い方4:40
レクチャー用のnotebookのダウンロードはこちら（ソースコードはここにあります）0:50
レクチャーで説明しているjupyter notebookのファイル（*.ipynb）をzipファイルにまとめてあります．これをあらかじめダウンロードして展開し，開けるようにしておいてください．
レクチャーを見る際には，レクチャーと一緒に，自分の環境でnotebookを実行してみてください．
notebookのファイル名は，「セクション番号＿ファイル番号」になっています．レクチャータイトルにも同じ番号を付けていますので，どのレクチャーがどのnotebookなのかを確認してください．
2020/5/10追記：新しいファイル「20200509ipynb.zip」を作成しました．こちらをダウンロードしてください．またgithubにもコードを掲載しました．リンクを参照してください．
参考ウェブサイト0:50
2次元のデータで識別の例 03_017:36
癌のデータを識別：学習とテストを半々に 03_028:44
アヤメのデータを識別：学習とテストを半々に，したらダメ 03_035:40
アヤメのデータを識別２：学習とテストをランダムに半分に 03_034:02
アヤメのデータを識別３：ランダムに分けて何度も 03_048:46

学習データとテストデータの分け方概論12:21
学習データとテストデータが同じ場合 04_011:56
Hold-out 04_024:25
ダウンロードしたMNISTデータセットは，ホームディレクトリ（ホームフォルダ）のscikit_learn_data/ の中にあります．

注意：ダウンロードできない場合には，「おしらせ」に掲載した解決策を試してみてください．
Hold-out 2: stratified 04_033:59
cross validation, stratified 10-fold CV 04_044:58
Leave One Out, Leave-p-out, Leave-one-gruop-out 04_056:25
学習データ・検証データとテストデータ 04_066:12

データから特徴量へ1:30
欠損値の扱い・データクリーニング 05_0110:48
特徴抽出：テキストデータと特徴量 05_028:03
特徴抽出：画像データと特徴量 05_025:04
特徴選択 05_0313:41
特徴変換：PCA 05_0410:45
特徴変換：PCAと次元削減 05_049:07
特徴変換：非線形（多項式）変換 05_049:46
標準化 05_057:57
スケーリング 05_052:20
正規化 05_053:53
PCA白色化 05_053:32
ZCA白色化 05_054:49

2クラス問題のconfusion matrix 06_015:56
2クラス問題で重要なTP, TN, FP, FN 06_013:13
多クラス問題のconfusion matrix 06_017:36
PCAで文字認識 06_011:01
precisionとrecall 06_0210:15
f-measure，f値 06_025:00
precision, recall, f-measureをいっぺんに 06_022:09
多クラス分類のprecisionとrecall 06_022:02
ROC AUC 06_039:45
ランダムならどうなるROC 06_033:37
average precision, AP 06_035:16
多クラス問題のmAP 06_033:21
scikit-learnにはAPを計算するクラスがありますが，2クラス問題用なので，多クラス問題のAPやmAPを計算するにはレクチャーのよう自分でコードを書く必要があります．

2クラス識別と多クラス識別 07_013:37
多クラス識別：One-vs-Rest （ロジスティック回帰) 07_018:04
多クラス識別：One-vs-Rest (SVM) 07_012:33
多クラス識別：One-vs-One (SVM) 07_013:54
多クラス識別：ovrとovoの補足 07_011:36
kNN：最近傍識別器 (NN)，k近傍識別器 (kNN) 07_028:01
kNN：KNNの亜種：radius NN 07_023:10
kNN：スケーリングしてKNN 07_021:43
パーセプトロン 07_036:05
パーセプトロン：平面・直線の数式7:21
パーセプトロン：学習則6:12
パーセプトロン：損失関数3:06
パーセプトロン：損失関数をインタラクティブに 07_031:48
パーセプトロン：ランダムな動作 07_036:31
パーセプトロン：癌データの認識 07_033:54
パーセプトロン：まとめ 07_031:27
ロジスティック回帰 07_047:19
ロジスティック回帰：癌データの認識 07_046:38
ロジスティック回帰：2次元データで確率の予測 07_043:54
ロジスティック回帰：別の2次元データでも確率を 07_041:48
SVM：サポートベクターマシン，SVC 07_058:10
SVM：マージン，サポートベクトル，確率 07_055:52
SVM：非線形カーネル（rbf, poly） 07_057:28
SVM：癌データの認識 07_055:15
MLP：多層パーセプトロン 07_067:12
MLP：層を変えてみる 07_065:20
MLP：癌データの認識 07_064:07
ランダムフォレスト：2次元データの認識 07_077:05
ランダムフォレスト：別の2次元データの認識と過学習 07_072:11
ランダムフォレスト：癌データの認識 07_072:41

注意：並列計算のn_jobsの指定0:19
注意：windowsでのグリッドサーチの表示0:14
グリッドサーチ：1パラメータのロジスティック回帰 08_0113:51
グリッドサーチ：2パラメータのSVM 08_015:17
グリッドサーチ：3パラメータのSVM（linear, rbf） 08_015:02
グリッドサーチ：kNN 08_011:57
ランダムサーチ：多層パーセプトロン 08_015:45
パイプライン：PCAとロジスティック回帰を一緒に 08_024:22
パイプライン：スケーリングとSVMを一緒に 08_021:33
パイプライン：前処理もグリッドサーチで 08_027:10
正則化パラメータC 08_0311:45
正則化パラメータと過学習 08_035:23

Requirements

pythonプログラミングの初歩的な知識
jupyter notebook のプログラミング環境が構築できるスキル

Description

このコースでは，機械学習における識別（分類・認識）の基礎をPythonを用いて学びます．このコースの目標は，機械学習でデータを識別するための一連の流れ（データの準備・前処理・識別器・評価など）を理解することです．Pythonの機械学習ライブラリscikit-learnとインタラクティブなプログラミング環境jupyter notebook (ipython notebook)を使って，実際にpythonコードを実行しながら学びます．

レクチャーでは，notebook上で実行するpythonコードとその内容を説明します．pythonコードのnotebookはダウンロードできますので，レクチャーを見ながら・見た後で実際に実行することをおすすめします．自分なりに改変・修正すると，さらに理解が高まるでしょう．

機械学習を理解するためには数学が必要になるのですが，このレクチャーでは（ほとんど）数式を使わず，コードを実行して結果を議論することで，機械学習のコンセプトを伝えるようにしています．理論的なことを知りたい場合には，他の資料を参考にしてください．

プログラミングの注意：pythonやその他の言語でのプログラミング経験があることを前提にしていますので，python自体の説明は省略しています．

レクチャーで使用しているnotebookはダウンロードできます．「レクチャー用のnotebookのダウンロードはこちら（ソースコードはここにあります）」というレクチャーを参照してください．

Who this course is for:

機械学習という言葉は知っているが，中身を知らない人
プログラミングが嫌いではない人（Pythonプログラミングをします）
Pythonプログラミング環境を用意できる人
具体的に機械学習を適用したいデータがある人

Pythonで機械学習：scikit-learnで学ぶ識別入門

What you'll learn

Explore related topics

Course content

機械学習とは7 lectures • 12min

Jupyter notebookの設定（Pythonプログラミングの環境設定）18 lectures • 46min

最初の例題：学習から識別まで8 lectures • 41min

学習データとテストデータの準備7 lectures • 40min

データから特徴量へ13 lectures • 1hr 31min

テストデータの評価方法12 lectures • 59min

いろいろな識別器30 lectures • 2hr 24min

パラメータ調整12 lectures • 1hr 3min

学習サンプル数が多いとき7 lectures • 39min

例題4 lectures • 16min

Requirements

Description

Who this course is for: