超速入門!【データサイエンスへの最初の一歩】PythonとSparkで学ぶデータ分析のための前処理と分散処理一気見講座

Name: 超速入門!【データサイエンスへの最初の一歩】PythonとSparkで学ぶデータ分析のための前処理と分散処理 一気見講座
Rating: 4.1 (97 reviews)

【データサイエンス/データエンジニアリングシリーズ】最強のビッグデータ処理エンジンApache Spark~ABC人材のためのPythonで行う分散処理と前処理を一挙に習得しよう！

Created byYuki Saito

Last updated 4/2026

Japanese

What you'll learn

Spark(PySpark)で実際に現場で使われる技法が一挙に学べます
構造化データに対するデータエンジニアリング
非構造化データに対するデータエンジニアリング
ExcelをSparkを使ってデータエンジニアリングしてみよう(Pandas to Spark)
PDFをSparkを使ってデータエンジニアリングしてみよう(six to Saprk)
分散処理とは何か？Sparkとは何か？
実際の開発で気をつけるべきことは何か？
関数の羅列ではなく、「現場ではどの様に使われるか？」も解説します

Course content

5 sections • 29 lectures • 2h 13m total length

講座タイトル1:08
今回の講座では、実際の業務で頻繁に利用される用語やデータの操作を一つの講座にまとめた講座です。
Spark(PySpark)の普段使いであれば十分この講座の内容の操作を知ることで業務に活用可能です。

今回のコースで利用するソースコードは全てGithub上に配置しています。
外部リソースのリンク先よりクローンしてご利用ください。

業務で使われる際の流れを学びたい方は
「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」
「【PythonとSparkで始めるデータマネジメント入門】ビッグデータレイクのための統合メタデータ管理入門」
「【データサイエンスのためのストリーミング前処理入門　PythonとSparkで始めるビッグデータストリーミング処理入門」
を受講いただくと、このコースの内容をさらに理解を深めることが可能だと思います。
本コースの概要8:01
本コースの概要を説明します。
本コースは、普段よく利用されるSparkでのデータ操作や概念を一つにまとめたコースです
講師紹介0:24
今回のコースを担当講師はデータエンジニアリングやデータコンサルを専門として働いています
本コースがビッグデータ基盤のどこに当たるのか？2:04
データエンジニアリングが担当する範囲は非常に広く、普段の業務としてどこに相当する作業を行っているのか整理をつけることで理解への助けとします。
環境構築0:44
環境構築を行います。

外部リソースにリンクされたGitHubより構築をお願いいたします。

本セクションの目次1:07
1. 分散処理とは
2. PySparkとは
3. ノートブックとは
4. Spark(PySpark)がデータ操作で利用するもの
5. JSONのデータ読み込み
6. CSVのデータ読み込み
7. データフレームを操作する
8. カラムナーフォーマット
9. 圧縮形式とファイルフォーマット
10. 行指向フォーマット
11. パーティションとダイナミックパーティション
12. スモールファイルとデータスキュー
分散処理とは？5:32
PySparkは分散処理用のフレームワークです。
分散処理はなんでしょうか？
PySparkとは4:32
Sparkおよび、Pysparkについて紹介を行います。
ノートブックとは？2:36
ビッグデータ界隈の開発で欠かせないノートブックについて説明を行います。
今回はVsCodeに付属されたノートブック機能を利用します。
Spark(PySpark)がデータ操作で利用するもの4:41
SparkはSQLやデータフレーム、RDDを使ってデータを操作していきます。
それぞれの操作方法について紹介していきます。

特にSparkで実行するSQLをSparkSQLと呼びます。
データ読み込み13:15
CSV/JSONの読み込みをやってみます

Jsonデータの読み込みをやってみます。

Jsonの形式であれば、入れ子になったデータも簡単に操作することが可能です

CSVのデータ読み込みを行なっています。

CSVは最も読み込みのオプションが多いため、いくつかのパターンに沿ってそ紹介しています。

またCSVを扱うときの注意点について紹介します。
データフレームを操作する11:15
データフレームの操作についてみていきます。

データフレームに対する操作はたくさんあるのですが、今回はよく使う

- withColumns
- When
- null関係の操作(fillna)
カラムナーフォーマット/行指向フォーマット6:53
カラムナーフォーマットは分析に適したフォーマットです。
カラムナーフォーマットの特徴について紹介します。

行指向フォーマットはデータ追加に適したフォーマットです。

また、ファイルフォーマットとの圧縮形式との組み合わせを見ていきましょう。

圧縮形式として有名なのはgzやbz2です。
しかしビッグデータの世界では上記以外にも圧縮形式が登場します。

同時に、圧縮形式とファイルフォーマットの組み合わせはデータ基盤の成功を決める重要な様相にな理ますので
その最適な組み合わせを紹介します。
パーティションとダイナミックパーティション7:30
ダイナミックパーティションとは、データの中身をもとにパーティションを作成することです。
ダイナミックパーティションを利用する時の注意点についても紹介を行います。

SQLでの出力
DataFrameでの出力
この２つので方法を確認してみます

また、ParquetとAvro形式でのファイルの出力を実際にパーティションあり、パーティションなしで出力をしてみます
スモールファイルとデータスキュー2:57
ビッグデータの処理で大きな問題となる、スモールデータシステムとデータスキューネスについて紹介を行っていきます

スモールとはその名の通り小さい
スキューとは偏りです

どの様な問題や解決方法があるのでしょうか？
セクション2小テスト

本セクションの目次1:35
1. ビッグデータ世界のDDL
2. テンポラリテーブル
3. ビッグデータ世界のSQLとは？
4. 単純SQLを振り返ってみよう
5. 分析関数を練習してみよう
6. LAG/Lead関数
7. ピボットテーブル
8. SparkのRDDを使って1レコードつづ処理してみよう
ビッグデータ世界のDDL15:19
ビッグデータ世界のDDLはどの様なものがあるのでしょうか？

Create table
View
CTAS
SELECT INSERT
ADD PARTITION
テンポラリテーブル
ビッグデータ世界のDMLとは？11:13
ビッグデータ分析で利用される

SELECT(JOIN)
INSERT
について紹介します。
またINSERTを使う場合の注意点について紹介します。

INSERT/UPDATE/DELETE文はある？

また、ビッグデータの世界で利用されるSQLはリレーショナルデータベースなどで利用されるSQLとどの様に違うのでしょうか？

CTAS
SELECT
SELECT INSERT
についても見ていきましょう
分析関数を練習してみよう(agg関数)4:51
Spark特有のカウントや合計値の取得など基本的関数を紹介しつつ
分析関数の代表格としてウィンドウ関数を紹介します。
分析関数を利用してみよう(Window関数その１)3:31
このレクチャーでは、Window関数の基本を学んでみましょう。

区画を作る、区画をoverに入れる

これがポイントです。
分析関数を練習してみよう(LAG/Lead関数4:12
LAG関数はひとつ前のデータを取得する関数です。
Lead関数はひとつ先のデータを取得する関数です。
分析関数を練習してみよう(ピボットテーブル3:01
ピボットテーブルとは、Excelなどのスプレッドシートにも搭載された縦持ちを横持ちに変換することです。
データを集計するためによく使われる方式です
SparkのRDDを使って1レコードつづ処理してみよう2:35
Sparkが提供しているRDDを使ってデータを処理してみましょう。
セクション3小テスト
Lead関数を使って一つ先のデータと比べて人口がどれくらい増えているのか？を算出してみましょう

本セクションの目次0:45
1. データラングリングとは？
2. テーブル形式を含むExcelのラングリング
3. テーブル形式を含まないExcelのラングリング
4. PDFのラングリングを行ってみよう
5. ラングリングで気をつけること
データラングリングとは？1:25
ラングリングとはデータをこねくり回すということです、ビッグデータの世界のラングリングは思っているよ以上に地味でかっこいい方法がないのが現実です。

心して地味さを受け入れましょう。

また、ラングリングした後のデータの使い道についても紹介を行います。
テーブル形式を含まないExcelのラングリング7:27
テーブル形式を含まないExcelで操作したらどうなるのでしょうか？
PDFのラングリングを行ってみよう3:17
実際にPDFのラングリングを行なってみましょう！
ラングリングで気をつけること1:00
PDFのデータラングリングは確かに可能です。
しかしPDFのラングリングは非常に難易度が高ため注意が必要です。

データエンジニアとしてPDFのラングリングを行うことが必要になった場合の心構えを紹介します。
セクション4小テスト
データセット(ensyu.jso)についてデータの重複を行いつつハッシュ値(UUID)をカラムに付与してみましょう。

Requirements

Pythonの知識があることが好ましいです
SQLを理解しているとさらに飲み込みやすいと思います

Description

現役のデータエンジニアがレクチャーします！

AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に８０％以上の時間をデータエンジニアリング(データサイエンスのための前処理など)に割いてるのが現状です。

本コースではApache Sparkを使ったデータエンジニアリングについて学びます。

ポイント：

本コースでは分散処理のデファクトとなりつつあるSparkについて学びます。

Apache Sparkはビッグデータ処理で多く使われている分散処理エンジンです。

今回はPythonと組み合わせた実際の現場で使われるPySparkを使った操作を一挙にまとめました。

特徴：

データエンジニアリングよりの講座です。
難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。
普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです

ソースコードや解説は以下のGitHubリポジトリにあります。

動画内ではGitHubの資料に加え補足をしながら解説を進めています。

Who this course is for:

非構造のデータ(Excel、PDF、動画ファイル)に対するデータエンジニアリングを学びたい方

超速入門!【データサイエンスへの最初の一歩】PythonとSparkで学ぶデータ分析のための前処理と分散処理 一気見講座

What you'll learn

Explore related topics

Course content

紹介5 lectures • 12min

環境構築と基本操作(DataFrame)10 lectures • 1hr

PySpark基本操作(SQLとDataFrame)8 lectures • 46min

非構造データのラングリング(エクストラ)5 lectures • 14min

ボーナスレクチャー1 lecture • 1min

Requirements

Description

Who this course is for:

超速入門!【データサイエンスへの最初の一歩】PythonとSparkで学ぶデータ分析のための前処理と分散処理一気見講座