実践データサイエンス&機械学習 with Python -統計学の基礎からビッグデータまで-
3.8 (58 ratings)
Instead of using a simple lifetime average, Udemy calculates a course's star rating by considering a number of different factors such as the number of ratings, the age of ratings, and the likelihood of fraudulent ratings.
1,046 students enrolled
Wishlisted Wishlist

Please confirm that you want to add 実践データサイエンス&機械学習 with Python -統計学の基礎からビッグデータまで- to your Wishlist.

Add to Wishlist

実践データサイエンス&機械学習 with Python -統計学の基礎からビッグデータまで-

【世界で3万人以上が受講】世界で活躍する専門家の講義を、日本の人気講師が解説します。データサイエンスと機械学習を包括的に扱います。統計学の基礎から始めて、レコメンドシステムや検索エンジン、スパムメールフィルタなどの構築も行います。
3.8 (58 ratings)
Instead of using a simple lifetime average, Udemy calculates a course's star rating by considering a number of different factors such as the number of ratings, the age of ratings, and the likelihood of fraudulent ratings.
1,046 students enrolled
Last updated 6/2017
Japanese
Curiosity Sale
Current price: $10 Original price: $125 Discount: 92% off
30-Day Money-Back Guarantee
Includes:
  • 6 hours on-demand video
  • 3 Articles
  • 2 Supplemental Resources
  • Full lifetime access
  • Access on mobile and TV
  • Certificate of Completion
What Will I Learn?
  • Pythonと機械学習、データマイニング、およびデータサイエンスの様々な技術を用いて大規模なデータを分析できるようになります。
  • Apache SparkとMLLibパッケージを使用して、「ビッグデータ」上で機械学習を行うことができるようになります。
  • A / Bテストを設計し、結果を分析できるようになります。
  • matplotlibを用いて、Pythonによるクラスタリングと回帰分析を可視化できるようになります。
  • 協調フィルタリング技術を用いて、製品やコンテンツの自動リコメンドができるようになります。
  • 分析前のデータクリーニング、及びデータの準備のベストプラクティスが身につきます。
View Curriculum
Requirements
  • Enthought Canopy1.6.2以実降を行できるコンピュータ( Windows、Mac 、またはLinux )が必要です。その他必要なソフトウェア(無料)についてはコースの中でインストール手順をご案内します。
  • 基本的なプログラミングのスキルが必要です。
  • 高校レベル以上の数学の知識が必要です。
  • このコースでは、Microsoft WindowsベースのデスクトップPC上でのセットアップについてご説明します。このコースのコードは他のオペレーティングシステム上でも実行できますが、OS固有のサポートを提供することはできない旨、あらかじめご了承ください。
  • Python2.7を使用します(Python3系に対応したコードもダウンロード可能です)
Description

Amazonで長年レコメンドシステムの開発に携わった、Frank Kaneが教えるデータサイエンスと機械学習のコースです。Pythonを用いて統計学を基礎から学び、商品のレコメンドシステムや、簡易な検索エンジン、スパムメールのフィルタなどの構築も実際に行います。

データサイエンスと機械学習は、今最も学ぶに値する技術の一つです。
調査会社Glassdoorの発表によると、データサイエンティストは最も収入の高い職業のひとつで、全米平均で一人あたり$ 120,000の年収を得ているとのことです。また、データサイエンスを学ぶことは、巨大なデータの活用がビジネスの成否を左右する現代において、様々な局面であなたの力になります。

このコースは、基本的なプログラミングやコーディングのスキル、高校以上の数学の知識をお持ちの人が対象です。Tech業界で実際に使われているデータサイエンスのスキルを身につけ、データサイエンティストとしての即戦力を身につけられます。コースは全体で9時間、68のレクチャーからなり、実践的な学び方を重視しています。また、参考となるPythonのソースコードも活用いただけます。Frank KaneのAmazonやインターネット・ムービー・データベース(IMDB)における9年間の経験をもとに、データサイエンティストの現場の実情を交えながらお話します。

このコースで扱うトピックは、最先端のtech企業が実際に求人情報に出している、データサイエンティスト採用の要件をベースにしています。機械学習とデータマイニングにおいて、実際の企業が求めているスキルをカバーします。

  • 回帰分析
  • K平均法
  • 主成分分析
  • 訓練/テストと交差検定
  • ベイズ法
  • 決定木とランダムフォレスト
  • 多変数回帰
  • マルチレベルモデル
  • サポートベクターマシン
  • 強化学習
  • 協調フィルタリング
  • K近傍法
  • バイアス/バリアンスのトレードオフ
  • アンサンブル学習
  • TF-IDF
  • 実験計画法およびA / Bテスト

そして、Apache Sparkでの機械学習についてのセクションでは、上記のスキルをビッグデータ分析でも扱えるようになります。

Pythonを初めて学ぶかた向けには、短期集中でPythonを学べるセクションを用意しています。少しプログラミングの経験があるかたならば、比較的容易に身につけることができるはずです。このコースでは、Microsoft WindowsベースのPCでセットアップをしていきます。サンプルコードは、MacOSやLinux上でも実行可能ですが、OS固有のサポートを提供できないことはあらかじめご了承ください。

それぞれの分析手法について難しい数学用語や専門用語を避け、なるべく平易な言葉で説明を行います。また、コース内ではPythonを使ってデモを行いますが、同じソースコードを使って、ご自身のPCで実証をしていただけます。また、今後のための参考資料も用意しています。

次のキャリアを模索しているプログラマの方や、tech業界への転職をお考えのデータ・アナリストの方、実際のデータサイエンティスが業務で使っているテクニックを身につけてみませんか。

また、データサイエンスの知識を実際の業務に活かしたい方、人工知能や機械学習に興味がある方にもお勧めです。データに基づくロジカルな思考は、様々なビジネスの場面であなたをサポートします。

ぜひ、コースをお楽しみください。

Who is the target audience?
  • 次のキャリアとして、データサイエンス関連を希望しているソフトウェア開発者やプログラマーの方。
  • IT産業への転職を考えている金融や非ITのデータ・アナリストの方。コーディングでデータ分析する方法を学ぶことができます。プログラミングについての基本的な知識が必要になります。
  • もし、プログラミングの経験が全くない場合は、まずはPythonの入門コースを受講してください。
  • 業務に統計やデータサイエンスの知識を活かしたい方。
  • 機械学習や人工知能に興味のある方。
  • データと数学に基づく分析力を身に付けたい方。
Students Who Viewed This Course Also Viewed
Curriculum For This Course
71 Lectures
06:05:45
+
さあ、始めよう!
6 Lectures 46:15

コースの全体像や講師の紹介、各セクションの概要の解説などを行います。

Preview 04:03

このコースで使用するコードとサンプルデータのダウンロード方法、セットアップについて説明します。

[アクティビティー]コース開始前の準備
03:56

Enthought Canopy(Pythonの計算IDE)と、今回のコースに必要なPythonのパッケージのインストールを行います。

[アクティビティー] Enthought Canopy のインストール
10:25

Pythonについて短期集中でおさらいしましょう。Pythonと他の言語の違いについて解説します。Pythonスクリプト内の空白の重要性、Pythonモジュールをインポートする方法、リスト、タプル、および辞書などのPythonのデータ構造について学びます。

Pythonの基礎、パート1
15:00

Pythonの短期集中おさらいのパート2では、Pythonの関数、ブール値による表現、およびループ構造について学びます。

Preview 07:27

このコースでは、Jupiter Notebookを用いてPythonのサンプルをデモしますが、Pythonコードを実行する他の方法についても知っておきましょう。Pythonシェルとの対話、スタンドアロンPythonスクリプトファイルの実行について学びます。

Pythonのスクリプトの実行
05:24
+
統計と確率の復習、Pythonの練習
12 Lectures 01:17:05

連続数値データと離散数値データの違い、カテゴリーデータ、および順序データについて学びます。

Preview 05:08

平均値、中央値、モードの復習です。どんな時に、何を使用するのが良いかをのおさらいします。

平均値、中央値、モード
04:07

実際のPythonコードで平均値、中央値、モードを使ってみましょう。自分でコードを書く練習も行います。

[アクティビティ] Pythonと平均値、中央値、モード
08:33

データの分散および標準偏差を解説します。実際にPythonを用いたコードによるこれらの計算方法も解説します。

Preview 07:21

確率密度関数(PDF)と確率質量関数(PMF)の概念を学びます。

Preview 02:06

Pythonを使用して、一様な分布、正規分布、指数分布、二項分布、およびポアソン分布の例を示します。

データ分布
07:29

データ分布におけるパーセンタイルとモーメントの例を見た後、Pythonを用いて4つのモーメントの概念を学びます。

[アクティビティー]パーセンタイルとモーメント
09:22

様々なグラフの種類とスタイルを使用しながら、matplotlibでのグラフ作成を学びます。

[アクティビティー] matplotlibの短期集中学習
10:40

異なるデータセット間の関連性を分析するときに重要な、共分散と相関の概念を学びます。Pythonで実例も見ていきましょう。

[アクティビティー]共分散と相関
09:30

条件付き確率の背後にある概念と公式について学びます。Pythonを使って、購入者の年齢と購入行動の関係を分析します。

Preview 07:40

1つ前のレクチャーの演習問題の解説を行います。年齢と購入行動に相関関係を持たないようにサンプルデータに変更を加え、条件付き確率を使用してそれを検出できるかを確認します。

演習の解説:年齢と購入の条件付き確率
01:47

 ベイズの定理の概要について学びます。ベイズ定理を使って、薬物検査の精度についての誤解を招くような統計を見抜いてみましょう。

Preview 03:22
+
予測モデル
4 Lectures 19:51

線形回帰について学びます。Pythonを使用して、サンプルデータに直線をフィットしてみましょう。

Preview 06:19

多項式回帰について学びます。より複雑な分析(ページの速度と購入の関係)をPythonで行ってみましょう。

Preview 05:59

多変量モデルを使うと、複数の属性の中で値を予測することができます。まずは概念を理解した後に、Pythonを使って、走行年数、走行距離、車型に基づいて車の価格を予測するモデルを作ります。ここで初めて、Pythonのpandas ライブラリを使用します。

[アクティビティー]多変量回帰
05:14

マルチレベル・モデリングはレベルの高いトピックですが、まずは背後にある考え方や難しいポイントについて概要をつかみましょう。

マルチレベルモデル
02:19
+
機械学習における教師あり学習と教師なし学習
13 Lectures 47:57

機械学習の教師あり学習/教師なし学習の概念を理解し、訓練/テストを用いて、機械学習モデルが新しい値を予測する能力を評価します。

教師あり学習 vs 教師なし学習、訓練とテスト
05:41

Pythonを用いて、実際のデータに実訓練/テストを行います。

[アクティビティー]訓練とテストの実践
04:44

ナイーブベイズの概念を理解しましょう。スパムメールの分類システムを例に説明します。

ベイズ法
03:19

実際に使える、スパムメールの分類システムを作りましょう。実際の電子メールの訓練データを使っていきます。コーディング量は意外と少ないのでご安心を。

Preview 04:41

K平均法は、互いに類似しているものを識別するための方法です。教師なし学習なのですが、それは予想もしないようなクラスタを出現させます。

Preview 03:54

K平均法を用いて、年齢や所得に基づいたクラスタリングを行ってみましょう。

[アクティビティー]所得や年齢に基づいたクラスタリング
03:19

エントロピーは、データセット内の乱雑さを測る尺度です。それが何を意味するのか、どのように数学的に扱うのかを学びます。

エントロピーの測定
01:46

決定木についての学習には、「GraphViz」というソフトウェアが必要になります。インストールを行いましょう。

[アクティビティ] GraphVizのインストール
00:14

決定木を使うと、機械学習に基づいて、自動的にフローチャートを生成することができます。どのように動作するかを学びましょう。

決定木:コンセプト
03:37

決定木と「ランダムフォレスト」を作って、候補者が採用されるか否かを予測しましょう。

[アクティビティー]決定木:採用を予測する
05:27

ランダムフォレストは、「アンサンブル学習」の例でした。より良い結果を導くために、複数のモデルの結果を結合するためのテクニックについて学びます。

アンサンブル学習
03:22

サポートベクターマシンは、複数の特徴を持つデータを分類するための高度な技術です。それらの特徴を「次元」として扱い、「サポートベクター」を使って高次元な空間を区分けします。

サポートベクターマシン(SVM)の概要
03:16

scikit-learn、C-Support Vector Classifierをもちいて人々の簡単な分類を行います。

[アクティビティー] SVMとscikit-learnを用いた人々のクラスタ化
04:37
+
レコメンドシステム
6 Lectures 24:02

アイテムをレコメンドする一つの方法です。ユーザーの行動に基づいて似た属性の人を特定し、その属性の人が好んだもののうち、まだユーザーが見ていないものを表示します。

Preview 04:23

ユーザベース協調フィルタリングにも欠点がありますが、逆の発想をすることで解決することも多いものです。すなわち、ユーザーの関係ではなく、アイテムの関係に着目します。

アイテムベース協調フィルタリング
02:40

実例を使って、アイテムベース協調フィルタリングの最初のステップを学習しましょう。MovieLensにある実際の映画の評価のデータを用いて、類似している映画を見つける練習をします。

[アクティビティー] 類似映画の取得
04:11

「スターウォーズに似た映画を見つける」トライはあまりうまくいきませんでした。なぜでしょうか。課題を見つけて、再挑戦しましょう。

[アクティビティー]類似映画の取得を改善
04:20

アイテムベース協調フィルタリングシステムを実装して、どんなユーザーにも映画をレコメンドできるシステムを作りましょう。

Preview 06:34

アイテムベース協調フィルタリングの精度をさらに上げるためにはどうすればいいでしょうか。私のアイデアもいくつか提示しますので、自分で考えて試してみましょう。

[演習]レコメンドの結果を改善
01:54
+
その他のデータマイニング・機械学習技術
6 Lectures 35:07

K近傍法(KNN)は、非常に単純な教師ありの機械学習テクニックです。概要について手短に解説します。

K最近傍:コンセプト
02:29

KNNをより複雑な問題に適用します:特定の映画のジャンルと評価の情報をもとに、その映画に最も類似した作品を見つけます。その後、類似グループを使って、映画の評価を予測します。

Preview 09:25

多くの特徴、または多数の異なるベクターを含むデータは、多くの次元を持っていると考えることができます。

多くの場合、よりデータを扱いやすくするために、容易に可視化できるレベルまでデータを圧縮、もしくはデータセットの中でもっとも重要な情報(すなわち、データの分散に最も貢献している情報)を抽出します。

主成分分析と特異値分解を学びましょう。

次元の呪いと主成分分析
04:49

sckikit-learnに組み込まれているPCAシステムを使って、4次元のアイリスデータを2次元まで減らしながらも、ほぼ分散を維持する方法を学びます。

[アクティビティー] 主成分分析の例をアイリスデータセットで
06:15

Hadoop、Hive, Spark、MapReduceなどのクラウドベースのデータストレージ・分析システムによって、データウェアハウスの世界に革命が起きています。
クラスタを使用することで、データを抽出・変換し、そしてデータウェアハウスにロードする、という従来のステップが今でははるかに効率的になっています。コンピューティングおよびストレージリソースは安価になった今、この新しいアプローチは理にかなっていると言えるでしょう。

データウェアハウスの概要:ETLとELT
03:38

「知能を持つパックマン」の開発を例に、強化学習について解説します。マルコフ決定過程、Q学習、ダイナミックプログラミングについて学びましょう。

強化学習
08:31
+
実際のデータを使った分析
6 Lectures 30:05

バイアスとバリアンスは両方とも誤差に寄与します。これらの誤差の構成要素、およびそれらが互いにどのように関係するかを理解しましょう。

バイアス/バリアンスのトレードオフ
04:08

訓練/テストをより一層強固にし実際のモデルに適用するために、K分割交差検定の概念を紹介します。

[アクティビティー] K分割交差​​検定における過剰適合の回避
06:18

データをクリーニングする方法について学びます。データサイエンティストにとって、しばしば最も重要で、時間がかかる仕事です。

Preview 03:03

今回の例では、ウェブサイト内で最も閲覧されているページを特定することにトライします。
データの汚染があると、それがどんなに困難な作業になってしまうかを体感してみましょう。

[アクティビティー]Webのログデータをクリーニングする
08:57

一部のモデルでは、インプットデータを正規化、もしくは同じ範囲に収める必要があります。使用する技術のドキュメントを常に参照するようにしましょう。

Preview 02:26

外れ値が結果にどのような影響を及ぼすのか、原則に基づいた方法で外れ値をどのように識別し扱うのか、解説を行います。

[アクティビティ]外れ値の扱い
05:13
+
Apache Spark:ビッグデータの機械学習
10 Lectures 59:08

デスクトップのスタンドアロンモードでApache Sparkをインストールする手順を解説します。まずは、Java開発キットをインストールしましょう。

Apache Sparkのインストール 1
03:33

次に、Sparkをインストールします。関連する環境変数と、正しく機能するために必要な補助ファイルも一緒に設定します。注: Sparkは、最新版を選択しダウンロード、インストールしてください。その際、Hadoopも最新版を選択してください。

Apache Sparkのインストール 2
10:43

Apache Sparkの概要を理解しましょう。どのようなものか、そしてどのように機能するのか、解説を行います。

Sparkの概要
05:11

Sparkの詳細について説明します。RDD(Resilient Distributed Dataset)オブジェクトとは何か、何ができるのかを解説します。

SparkとRDD
07:30

MLLibができることの概要を解説します。また、MLLibをSparkに導入する際に必要な新しいデータのタイプについても解説します。

MLLib入門
04:05

決定木のレクチャーで扱った、候補者の採用についての問題にもう一度トライしてみましょう。今回は、SparkとMLLibを使用します。

Preview 06:44

以前のK平均法のレクチャーと同様に、年齢・所得で人々をクラスタリングしていきます。今回は、Sparkを使用します。

[アクディビティー]:SparkにおけるK平均法
05:23

TF-IDF(用語頻度/逆文書頻度)について学びます。MLLibとともに使用する前の下準備として、TF-IDFが検索の問題にどのように適用されるのかを学びます。

Preview 04:08

TF-IDF、スパーク、MLLibを使って、実際のWikipediaページの初歩的な検索エンジンを作成してみましょう。

[アクティビティー]:SparkでWikipedia検索エンジンを作ろう
07:12

Spark 2.0は、DataFrameオブジェクトに基づくMLLib用の新しいAPIを導入しました。これを用いて、線形回帰モデルを作成し使用する例を見ていきましょう。

[アクティビティー]:Spark 2.0におけるMLLib用DataFrame APIの使用
04:39
+
実験計画法
5 Lectures 21:55

ウェブサイトの検証は、通常A / Bテストというテクニックを用いて行われます。このレクチャーでは、A/Bテストの仕組みについて学びます。

A/Bテスト
04:42

A / Bテスト結果に有意性があるか、偶然の結果か否か。t検定、統計量t、およびp値を使用して検証します。

T検定とP値
03:36

いくつかのシナリオからA / Bテストのサンプルデータを作成し、Pythonで統計量tおよびp値を測定します。

[アクティビティー]:ハンズオンによるt検定
05:45

A / Bテストを行っても、ユーザーの行動が全く変わらないこともあります。実験をどのくらい続けるべきか、どのように判定すればよいのでしょうか。

実験をどのくらい続けるべきか
02:27

短期的に行うA / Bテストには、実は多くの制限があります。ノベルティエフェクト、季節的な影響などが結果に影響を与え、判断を狂わせることがあります。A / Bテストの結果に影響をもたらす様々な要素について、考察を行います。

Preview 05:25
+
最後に
2 Lectures 01:53

今後のアドバイスとして、さらに学習を進めたい場合におすすめの書籍やウェブサイトを紹介します。

さらに学びたい方のために
01:52

コースに満足いただけたら、ぜひレビューをお願いします。

コースのレビューのお願い
00:01
1 More Section
About the Instructor
Yukinaga Azuma (我妻幸長)
4.0 Average rating
974 Reviews
6,287 Students
2 Courses
エンジニア+R&D プログラミング講師

エンジニア+R&D / プログラミング講師。

プログラミング講師として500人以上を指導。2014年にはワールドビジネスサテライトに登場。エンジニアTypeでは、新しいプロググラミング言語Swiftの解説記事を執筆。また、Softbank社、レバレジーズ社において、iOS、Andoroidアプリ開発の指導を行う。

iOSの分野で日本最大のカンファレンス、iOSDCではスマートフォンを用いたVR技術について講演。

東北大学大学院理学研究科修了。理学博士。興味の対象は、人工知能、VR、複雑系、生物学、歴史、GPUコンピューティングなど。

エンジニアとしてゲーム、VRなどジャンルを問わず30本以上のアプリを開発。開発したアプリ、「ちんあなごのうた 南の海の音楽祭」は朝日放送系のニュース、大洗水族館などで紹介される。

著書に、「No.1スクール講師陣による 世界一受けたいiPhoneアプリ開発の授業。

都内で、様々な分野のエンジニアが集まる勉強会「てくてく勉強会」を毎月開催中。

趣味は読書、ブラジリアン柔術で一児の父。

Sundog Education by Frank Kane
4.5 Average rating
15,307 Reviews
73,403 Students
9 Courses
Training the World in Big Data and Machine Learning

Sundog Education's mission is to make highly valuable career skills in big data, data science, and machine learning accessible to everyone in the world. Our consortium of expert instructors shares our knowledge in these emerging fields with you, at prices anyone can afford. 

Sundog Education is led by Frank Kane and owned by Frank's company, Sundog Software LLC. Frank spent 9 years at Amazon and IMDb, developing and managing the technology that automatically delivers product and movie recommendations to hundreds of millions of customers, all the time. Frank holds 17 issued patents in the fields of distributed computing, data mining, and machine learning. In 2012, Frank left to start his own successful company, Sundog Software, which focuses on virtual reality environment technology, and teaching others about big data analysis.