What you'll learn
- Rでの基本的なプログラミングができるようになる。
- データの集計・可視化ができるようになる。
- データ解析の概念がわかるようになる。
- 探索的データ解析ができるようになる。
- 多変量解析(単回帰・重回帰、主成分分析、判別分析、クラスター解析)ができるようになる。
- 機械学習(決定木、Randomforest、Xgboost)ができるようになる。
- テキスト(日本語)解析ができるようになる。
- TwitterAPIを使えるようになる。
- Pythonの基本的なプログラミングができるようになる
- Pythonでの集計・可視化ができるようになる
- Pythonでの教師有機械学習(決定木、ランダムフォレスト、SVM、kNN)ができるようになる
Course content
- Preview04:12
- Preview14:33
- 17:52Rでの計算とデータ構造
- 11:03データ型と要約関数
- 06:24Rの比較演算子
- 09:05データフレームの扱い方
- 09:13ディレクトリ移動とデータの入出力
- 12:13Rパッケージ関連
- 05:33for文による繰り返し処理
- 08:16sample関数によるサンプリング
Requirements
- 高校レベルの数学力(数Ⅰと数B(ベクトル))
- 英検3級程度の英語力
- 基本的なWindowsやMacの使い方(ドラックアンドドロップによるファイル移動など)
- (できれば)大学1年生程度の基礎統計(平均値・中央値など)
Description
本講義は、R言語とPython言語の割合は、3:7くらいです。
R言語だけの受講、Python言語だけの受講も可能な構成となっています。
量的にR言語を学びたい方には、優れた講義となっています。
また、Python言語で商品レコメンドを行いたい方にも貴重な情報源となっています。
本講座では、学生に対しては、無料で学習アカウントを提供しています(2018年1月より)
希望の方は、machine.learning.r@gmail.com まで、大学のメールアドレスより件名を「Udemyアカウント希望」として、お名前・ご所属名を添えてご連絡ください。
講義紹介動画は、R言語での可視化のままで更新できていません。
以下本講義内容などの説明
ーーーーーーーーーーーーーーーー
【R言語編】
ーRプログラミング入門ー(R初心者の方はここは必ず見てください)
R紹介とhead関数とhelp関数
Rでの計算とデータ構造
データ型と要約関数
Rの比較演算子
データフレームの扱い方
ディレクトリ移動とデータの入出力
Rパッケージ関連
for文による繰り返し処理
sample関数によるサンプリング
ーRによる可視化基礎ー(基本的な可視化方法です)
質的変数の可視化
量的変数の可視化
散布図行列
stars関数による可視化
parcoord関数による可視化
rglパッケージによる三次元の可視化
tabplotパッケージによる可視化
ーRによる高度な可視化ー(よりきれいな可視化方法です)
ggplot2パッケージによる一次元の量的変数の可視化
ggplot2パッケージによる二次元の量的変数の可視化
ggplot2パッケージによる一次元の質的変数の可視化
ggplot2パッケージによる二次元の質的変数の可視化
ggplot2パッケージによる質的変数と量的変数の可視化
散布図行列の発展
平行座標プロットの発展版
階層構造があるデータの可視化
ーデータ変換技術ー(後々この章の内容は重要になってきます)
filter関数による行の抽出
select関数による列の抽出
mutate関数による列の作成
group_by関数とsummarize関数
パイプ演算子
ー欠損値の対応ー(この章は必要になったら見ればよいかと)
欠損値の集計と可視化
欠損値の対応1(リストワイズ法)
欠損値の対応2(ペアワイズ法・完全情報最尤推定法)
欠損値の対応3(miceパッケージでの代入法)
欠損値の対応4(miceパッケージでの代入法)
ー探索的データ解析ー(データに対する探索的な解析アプローチです)
人事データの探索的データ解析
ー多変量解析・機械学習ー
(多変量解析:単回帰・重回帰、主成分分析、クラスター解析、判別分析)
(機械学習:決定木、Randomforest、Xgboost)
機械学習概説
単回帰・重回帰入門(単回帰編)
単回帰・重回帰入門(重回帰編)
重回帰演習
主成分分析(次元削減)
クラスター解析
判別分析
決定木による回帰1(前半)
決定木による回帰1(後半)
決定木による回帰2
Randomforestによる回帰
xgboostによる回帰
決定木による分類
Randomforestによる分類
xgboostによる分類
ー自然言語解析(日本語)ー(Twitter情報と普通の文書に対する解析方法です)
Twitterからの情報取得
日本語テキストの前処理と形態素解析とwordcloud
TwitterAPIの使い方の発展とそのデータ解析
日本語での用例索引
日本語文書でのトピックモデル1
日本語文書でのトピックモデル2
ー機械学習と探索的データ解析、POSデータの解析ー
機械学習と探索的データ解析1
機械学習と探索的データ解析2
機械学習と探索的データ解析3
機械学習と探索的データ解析4
機械学習と探索的データ解析5
機械学習と探索的データ解析6
POSデータからの来店予測
購買品目と顧客属性と過去の来店回数からの来店予測1
購買品目と顧客属性と過去の来店回数からの来店予測2
購買品目と顧客属性と過去の来店回数からの来店予測3
【Python言語編】
ーPython言語による集計・可視化・機械学習ー
Python入門
NumPy入門
Pandas入門
データ集計と可視化1
データ集計と可視化2
機械学習-分類編1(決定木、ランダムフォレスト、SVM、KNN)
機械学習-分類編2(決定木、ランダムフォレスト、SVM、KNN)
機械学習-分類編3(決定木、ランダムフォレスト、SVM、KNN)
機械学習-回帰編(決定木、ランダムフォレスト、SVM、KNN)
グループごとの集計
質的変数からダミー変数を作成する方法
PythonでのDeepLearningを使った商品レコメンドエンジンの作り方
商品レコメンドエンジンを作る前の事前知識(long→wide変換とgroupby)
商品レコメンドエンジンの全体像
商品レコメンドエンジンを作る前の準備
商品レコメンドシステムの作り方_本編1
商品レコメンドシステムの作り方_本編2
商品レコメンドシステムの作り方_本編3_POSDATA_可視化コード付き(可視化部分は動画なし)
どのコードを実行するとどんな結果が出てくるかのイメージだけを覚えておき、データに向き合ったときに、その手法を書いたスライド(本講義で配布しています)に戻って、そのスライド中のコードを一部改変して使いまわせるようになることが、目指していただきたい到達点です。
僕も、細かいコードはいちいち覚えておらず、毎回スライドに戻って、それをコピー・ペースト・改変して使用しています。
本講義では一部を改変するだけで使えるコピペ用コードをご用意しました(pdfとtxtファイル)。ぜひご活用ください。
udemyの仕様上、各pdfファイルまたは、txtファイルをダウンロードすると、ファイル名が消去されて、pdfまたはtxtというファイル(ファイル名と拡張子なし)でダウンロードされます。なのでお手数ですが毎回、名前と半角ピリオドをつけてください。
(たとえば、pdfファイルは、pdfとしてダウンロードされるので、ファイル名を、資料1.pdfのように付けなおしてください。
txtファイルの場合は、txtとしてダウンロードされるので、ファイル名を、資料1.txtのように変更してください。)
注意事項:現状本講義に向いていない方は以下の方々です。ご注意ください。
1,画像解析・音声解析・時系列データ解析をやりたい方。
2,数理モデリングをやりたい方。
3,手を動かさないで、データサイエンスを理解したい方。
Who this course is for:
- 最低限どこまでデータサイエンススキルがあればデータ解析できるか知りたい方
- ゼロからR言語に入門したい方
- とりあえずITスキルを身に着けたい方
- 今までプログラミングをしたことがなくて、初心者向け言語であるR言語でプログラミング入門をしてみたい方。
- データを可視化をする技術を身に着けたい方
Instructor
2014年3月 東京大学 理学部 生物学科 卒業
2016年3月 東京大学大学院 新領域創成科学研究科 修士課程 卒業(医科学修士)
2016年4月 東京大学大学院 新領域創成科学研究科 博士課程 入学
Python言語は、実質3年半程度使用
R言語は、実質4年程度使用