Udemy Business

Teach on Udemy

Turn what you know into an opportunity and reach millions around the world.

Learn More

Your cart is empty.

Keep shopping

PySparkによる大規模データ処理手法と機械学習

Name: PySparkによる大規模データ処理手法と機械学習
Rating: 4.1 (177 reviews)

Pythonで大規模データを分散処理するフレームワークApache Sparkを学びましょう！DataFrameによるデータ処理やMLlibによる機械学習を実践します。

Highest Rated

Created bySatoshi A

Last updated 9/2024

Japanese

What you'll learn

並列計算の基礎知識
Pythonのプログラミング
Spark, Hadoopについての知識
PySparkのプログラミング
Dockerの基礎
Pandasの基礎

Course content

9 sections • 101 lectures • 8h 27m total length

コースの説明11:30
コードのダウンロード0:03
本コースで使用するコードのサンプルをダウンロードできますので、興味がある方は添付のcodes.zipをダウンロードして参考にしてみてください。
環境構築様のDockerfileも入っています。
コース準備レクチャー0:26

ビッグデータ6:20
リレーショナルデータベース3:05
列指向・行指向データベース4:45
データウェアハウス・データレイク5:02
バッチ処理とストリーム処理4:14
Hadoopとは2:38
分散ストレージHDFS5:54
分散並列処理：MapReduce3:57
リソース管理：YARN3:15
Hadoopの構成1:07
Hadoopの利点・難点3:29
Apache Sparkとは3:32
Sparkの特徴5:20
Sparkのコンポーネント1:39
PySparkのアーキテクチャ2:15
SparkのデータセットAPI4:24
本コースでやること4:06
Sparkの実行環境1:19

データの紹介2:37
データ読み込み5:01
ファイル保存2:30
データフレームの確認7:10
データフレームの要素の抽出4:31
列名変更2:00
列の追加3:52
列の削除1:25
行の削除2:32
重複行の処理5:22
欠損値処理6:39
Date型変換3:03
Date型の扱い3:11
データフレームの列の演算1:56
1日の売り上げ4:02
移動平均3:31
行方向にずらす2:21
変化の割合3:21
データフレームの結合9:38

データのダウンロード3:17
分析用CSVデータ作成8:26
ファイル読み込み①8:14
ファイル読み込み②6:29
列の選択2:19
レコードの抽出①3:04
レコードの抽出②2:22
列の作成と削除5:04
列名の変更2:15
型変換2:11
日付型4:43
欠損値処理①5:38
欠損値処理②6:17
集計 groupby9:31
統計量8:20
定数列6:59
ユニーク1:46
重複処理3:34
Whenによる条件分岐6:47
PandasとPySparkのデータフレームの変換3:51
データフレームの作成とJoin7:44
ファイル出力13:24

データの用意3:21
データのリンク0:10
線形重回帰による数値予測①7:23
線形重回帰による数値予測②11:39
線形重回帰による数値予測③14:02
線形重回帰による数値予測④3:34
ロジスティック回帰による分類予測①8:59
ロジスティック回帰による分類予測②9:50
ロジスティック回帰による分類予測③7:44
ロジスティック回帰による分類予測④5:07
ロジスティック回帰による分類予測⑤4:44
ロジスティック回帰による分類予測⑥7:11
ランダムフォレストによる分類予測①9:23
ランダムフォレストによる分類予測②7:06
ランダムフォレストによる分類予測③6:22
k-meansによるクラスタリング①7:30
k-meansによるクラスタリング②10:30
k-meansによるクラスタリング③3:29

Requirements

Pythonの基礎
SQLの基礎（なくても可ですが、あると理解しやすいかもしれません）

Description

本コースでは、大規模データを高速分散処理するためのフレームワーク"Apache Spark"を人気のプログラミング言語Pythonで実践します。

最近はビッグデータと呼ばれる大規模データを扱うケースがとても多くなってきており、そのようなデータを高速に処理するためには分散処理が必要になります。

分散処理？？Spark？？と思う人も多いかと思いますが、このコースでは分散処理とは何か、Sparkとは何かといった導入から、実際にPython（PySpark）で実装するまでを全て行いますので、未経験の方でも学ぶことができます。

皆さんのよく知る大企業でもSparkの技術はたくさん使われているので、この機会にSparkをPythonで扱う"PySpark"の扱い方を学び、これからのキャリアに活かしていただければと思います。

本コースの実践パートでは、Spark3.2のバージョンでプログラミングを行います。

実践内容はSpark DataFrame, Spark SQL（少し）, Spark MLlibです。

実行環境にはDockerを用います。Docker Hubを用いると自身のPCの環境を変えることなく、簡単に環境構築ができるのでオススメです。

※ Docker環境をうまく作成できなかった方はGoogle Colaboratoryを使って実施してみてください。"!pip install pyspark"でインストールし、使うことができます。

※ コースリリース時からPySparkのバージョンが変わっているために一部動かないコードがありますので、そちらご了承ください。

本コースの内容

大規模データの処理手法
Hadoopとは
Sparkとは
機械学習の基本
Dockerによる環境構築
Pandasの復習
Spark DataFrameによるデータ処理
Spark SQL
Spark MLlibによる機械学習

本コースは購入から30日はキャンセルが可能なので、購入したけれど思っていた内容と違うという方はキャンセルしてください。

それでは一緒にPython, Sparkを学んでいきましょう！

Who this course is for:

データサイエンス中級者でSparkによる並列計算に興味がある人

PySparkによる大規模データ処理手法と機械学習

What you'll learn

Explore related topics

Course content

コース紹介3 lectures • 12min

イントロダクション18 lectures • 1hr 6min

Dockerによる環境構築5 lectures • 32min

おまけ：Pandasの復習19 lectures • 1hr 15min

Spark DataFrame22 lectures • 2hr 2min

Spark SQL1 lecture • 5min

機械学習14 lectures • 1hr 7min

Spark MLlib18 lectures • 2hr 8min

ボーナスレクチャー1 lecture • 1min

Requirements

Description

Who this course is for: