【 TensorFlow・Python3 で学ぶ】深層強化学習入門
What you'll learn
- 強化学習の基本的な原理(Q学習や方策勾配)を理解できるようになります。
- Q学習の基本原理を理解することができます
- DQN(深層Q学習)の仕組みを理解することができるようになります。
- OpenAI Gymのライブラリを使用してゲームをプレイする学習をさせることができます。
- アルファ碁を解説している論文を解読するための基礎知識が習得できます。
Requirements
- macOS, Windows, またはUbuntu(Linux)
- インターネット接続
- Python3, Anaconda Navigator, Jupyter Notebook
- TensorFlow, OpenAI Gym
Description
【更新情報】
2017/11/9 カートポール問題の結果の可視化、エージェントのプレー表示をアップロードしました。これで基本的なトピックは一通りカバーしました。あとはリクエストに応じてPythonのコーディングの補足解説や、発展的なトピックの紹介を追加していきたいと思いますので、ぜひリクエストください。
2017/11/8 カートポール問題のトレーニングのレクチャーを掲載しました。
2017/11/1 カートポール問題のイントロを掲載しました。
2017/10/30 多腕バンディット問題を解くチュートリアルを掲載しました。
2017/10/29 方策勾配のセクションのイントロをアップロードしました。
【コース概要】
この講座は、AlphaGo Zeroの活躍などで大注目されている強化学習についての基礎知識を、プログラムを作成しながら学ぶコースです。
強化学習を使うと、画像を入力として与えるだけでゲームや囲碁、将棋などの対戦を機械が自分で繰り返し、最適な方策を学んで、人間よりも高いスコアを出す学習ができることが知られています。
(主なトピック)
このコースでは、こうした強化学習を理解するための
・マルコフ決定過程
・ベルマン方程式
・Q学習(Q-テーブルとQ-ネットワーク)
・方策勾配(ポリシーグラディエント)
・DQN(深層Qネットワーク学習)
などの基礎的な概念を理論解説と、Pythonでコードを書く演習を通して学びます。
(プログラミング題材)
題材としては、非営利のAI研究機関OpenAIが公開しているOpen AI Gymから
1.フローズンレイク問題(凍った湖の上を穴に落ちずにゴールする)
(1)Qテーブル法でQ値を求める
(2)Qネットワーク法(ニューラルネットワーク)で解く
2.多腕バンディット問題(マルチアームのスロットマシーン)
3.カートポール問題(倒立振り子)
DQN(Deep-Q学習、ディープラーニング、多層ニューラルネットワーク)で解く
ポール(棒)が倒れないようにカート(台車)を操作する問題
などのパッケージを入手して、強化学習を実践します。
ぜひこの機会に強化学習の考え方や基礎知識を身につけ、ビジネスや開発に活かしましょう。
【受講上の注意】
このコースはビデオでの学習をしたくない方には向いていませんので、ご注意ください。
Who this course is for:
- 強化学習の基本的な仕組みを学びたい方
- 画像分類やRNNなど機械学習を学んできたが、強化学習にチャレンジしたい方
- 自力でコードを書くのが嫌でない方
- ビデオを視聴するのが苦痛でない方
Instructor
東京大学工学部卒。富士総合研究所・国際大学GLOCOM、アメリカの教育系スタートアップ(Blackboard Inc.)に参加。NASDAQ IPOを経て起業。
Udemyでのべ約200,000名以上にAI開発・プログラミング講座を35コース提供中。
2021年7月からアメリカ発のスタートアップ、Class Technologies Inc.(Softbank社のビジョンファンド2から$105億ドルの資金調達。Zoomを教育用に拡張)に参加。大学や企業におけるオンライン、ハイブリッド授業の実践サポートを提供中。
著書・訳書: 「インターネットの歴史と社会的インパクト(1994年 訳」「Moodle入門(2007年)」「Moodle2ガイドブック(2013年)」「反転授業マニュアル(2014年)」「動画xスマホで稼ぐ(2014)」「エンジニアのためのオンライン講座制作ガイド(2016年12月刊)」
中国語検定HSK3級, 4級(6段階の下から4段階目まで)合格。
TOEIC955点、リスニング満点.
Udemyを通じて、多くの方がAIアプリ開発・モバイルアプリ・ウェブ開発などをマスターし、イノベーションにチャレンジする応援をしたいと日々コース制作をしています。