超速入門!【データサイエンスへの最初の一歩】PythonとSparkで学ぶデータ分析のための前処理と分散処理 一気見講座
What you'll learn
- Spark(PySpark)で実際に現場で使われる技法が一挙に学べます
- 構造化データに対するデータエンジニアリング
- 非構造化データに対するデータエンジニアリング
- ExcelをSparkを使ってデータエンジニアリングしてみよう(Pandas to Spark)
- PDFをSparkを使ってデータエンジニアリングしてみよう(six to Saprk)
- 分散処理とは何か?Sparkとは何か?
- 実際の開発で気をつけるべきことは何か?
- 関数の羅列ではなく、「現場ではどの様に使われるか?」も解説します
Requirements
- Pythonの知識があることが好ましいです
- SQLを理解しているとさらに飲み込みやすいと思います
Description
現役のデータエンジニアがレクチャーします!
AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理など)に割いてるのが現状です。
本コースではApache Sparkを使ったデータエンジニアリングについて学びます。
ポイント:
本コースでは分散処理のデファクトとなりつつあるSparkについて学びます。
Apache Sparkはビッグデータ処理で多く使われている分散処理エンジンです。
今回はPythonと組み合わせた実際の現場で使われるPySparkを使った操作を一挙にまとめました。
特徴:
データエンジニアリングよりの講座です。
難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。
普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです
ソースコードや解説は以下のGitHubリポジトリにあります。
動画内ではGitHubの資料に加え補足をしながら解説を進めています。
Who this course is for:
- 非構造のデータ(Excel、PDF、動画ファイル)に対するデータエンジニアリングを学びたい方
Instructor
【執筆歴】
成果を出すための7つのマインドセット システムの老朽化、ブラックボックス時代にどう立ち向うか? インプレスR&D
エンジニアのためのデータ基盤構築入門 技術評論社
【概要】
2021年より、データエンジニアとしての知識を活かしつつデータ活用の企画作成を手がけている。
過去にはエンジニアとして、
官公庁や、広告業界のWebシステムの構築を要件定義から保守運用まで幅広く経験している。
2017年4月からは、マネージャーとしてデータ系の組織の立ち上げや、データ基盤のアーキテクト及びディレクションに携わりデータエンジニアの集団のマネジメント業務を経験。