PySparkによる大規模データ処理手法と機械学習
What you'll learn
- 並列計算の基礎知識
- Pythonのプログラミング
- Spark, Hadoopについての知識
- PySparkのプログラミング
- Dockerの基礎
- Pandasの基礎
Requirements
- Pythonの基礎
- SQLの基礎(なくても可ですが、あると理解しやすいかもしれません)
Description
本コースでは、大規模データを高速分散処理するためのフレームワーク"Apache Spark"を人気のプログラミング言語Pythonで実践します。
最近はビッグデータと呼ばれる大規模データを扱うケースがとても多くなってきており、そのようなデータを高速に処理するためには分散処理が必要になります。
分散処理??Spark??と思う人も多いかと思いますが、このコースでは分散処理とは何か、Sparkとは何かといった導入から、実際にPython(PySpark)で実装するまでを全て行いますので、未経験の方でも学ぶことができます。
皆さんのよく知る大企業でもSparkの技術はたくさん使われているので、この機会にSparkをPythonで扱う"PySpark"の扱い方を学び、これからのキャリアに活かしていただければと思います。
本コースの実践パートでは、Spark3.2のフレームワークを用いてプログラミングを行います。
実践内容はSpark DataFrame, Spark SQL(少し), Spark MLlibです。
実行環境にはDockerを用います。Docker Hubを用いると自身のPCの環境を変えることなく、簡単に環境構築ができるのでオススメです。
本コースの内容
大規模データの処理手法
Hadoopとは
Sparkとは
機械学習の基本
Dockerによる環境構築
Pandasの復習
Spark DataFrameによるデータ処理
Spark SQL
Spark MLlibによる機械学習
本コースは購入から30日はキャンセルが可能なので、購入したけれど思っていた内容と違うという方はキャンセルしてください。
それでは一緒にPython, Sparkを学んでいきましょう!
Who this course is for:
- データサイエンス中級者でSparkによる並列計算に興味がある人
Instructor
京都大学理学部、同大学院理学研究科修士課程・博士課程を修了。博士(理学)。
新卒でエンジニアとして就職し、金融機関の基幹システム開発に従事。
現在はデータサイエンティストとして、データ分析関連業務に携わっている。
プログラミング言語は主にSQLとPythonを使う。