PySparkによる大規模データ処理手法と機械学習
What you'll learn
- 並列計算の基礎知識
- Pythonのプログラミング
- Spark, Hadoopについての知識
- PySparkのプログラミング
- Dockerの基礎
- Pandasの基礎
Requirements
- Pythonの基礎
- SQLの基礎(なくても可ですが、あると理解しやすいかもしれません)
Description
本コースでは、大規模データを高速分散処理するためのフレームワーク"Apache Spark"を人気のプログラミング言語Pythonで実践します。
最近はビッグデータと呼ばれる大規模データを扱うケースがとても多くなってきており、そのようなデータを高速に処理するためには分散処理が必要になります。
分散処理??Spark??と思う人も多いかと思いますが、このコースでは分散処理とは何か、Sparkとは何かといった導入から、実際にPython(PySpark)で実装するまでを全て行いますので、未経験の方でも学ぶことができます。
皆さんのよく知る大企業でもSparkの技術はたくさん使われているので、この機会にSparkをPythonで扱う"PySpark"の扱い方を学び、これからのキャリアに活かしていただければと思います。
本コースの実践パートでは、Spark3.2のバージョンでプログラミングを行います。
実践内容はSpark DataFrame, Spark SQL(少し), Spark MLlibです。
実行環境にはDockerを用います。Docker Hubを用いると自身のPCの環境を変えることなく、簡単に環境構築ができるのでオススメです。
※ Docker環境をうまく作成できなかった方はGoogle Colaboratoryを使って実施してみてください。"!pip install pyspark"でインストールし、使うことができます。
※ コースリリース時からPySparkのバージョンが変わっているために一部動かないコードがありますので、そちらご了承ください。
本コースの内容
大規模データの処理手法
Hadoopとは
Sparkとは
機械学習の基本
Dockerによる環境構築
Pandasの復習
Spark DataFrameによるデータ処理
Spark SQL
Spark MLlibによる機械学習
本コースは購入から30日はキャンセルが可能なので、購入したけれど思っていた内容と違うという方はキャンセルしてください。
それでは一緒にPython, Sparkを学んでいきましょう!
Who this course is for:
- データサイエンス中級者でSparkによる並列計算に興味がある人
Instructor
自己紹介:
株式会社Mikage代表取締役
京都大学理学部、同大学院理学研究科を修了。博士(理学)。
新卒でエンジニアとして就職し、金融機関の基幹システム開発に従事。
データアナリティクスコンサルや事業会社にてデータサイエンティストとして働き、現在は独立してクライアントのデータ分析やAI関連業務に携わる。
プログラミング言語は主にSQLとPythonを使う。クラウドはAWSがメイン。
資格:
統計検定準1級、応用情報処理、教員免許(高校数学)