Udemy Business

Teach on Udemy

Turn what you know into an opportunity and reach millions around the world.

Learn More

Your cart is empty.

Keep shopping

データサイエンスのためのストリーミング前処理入門　PythonとSparkで始めるビッグデータストリーミング処理入門

Name: データサイエンスのためのストリーミング前処理入門 PythonとSparkで始めるビッグデータストリーミング処理入門
Rating: 4.3 (55 reviews)

【データサイエンス/データエンジニアリングシリーズ】PythonとSparkでストリーミング処理を行ってみよう

Created byYuki Saito

Last updated 4/2026

Japanese

What you'll learn

PySparkを使ったビッグデータストリーミング処理を学びます
メッセージキュー(今回はApache Kafkaを使います)とストリーミング処理エンジン(Pyspark)の組み合わせを学びたい方
Avroフォーマットなどストリーミングの開発に頻繁に使われるフォーマットについて学びます
ケーススタディで実務を例に取ったデータエンジニアリングの流れで紹介
データサイエンスのためのストリーミングにおける前処理について学習することができます

Course content

8 sections • 36 lectures • 2h 11m total length

講座タイトル1:07
講座について簡単に説明します

本コースで利用するリポジトリは、リソースからクローンしてお使いください。
本コースの概要7:23
ストリーミングシステムとしての基本を学ぶためにはメッセージキューとそれを利用するプログラミング言語が必要です。
今回はそれぞれKafka(メッセージキュー)とPyspark(プログラミング)を組み合わせながら講座を進めていきます。
基本的な内容理解や技術要素を説明したのちにより実世界での運用のイメージをつけるためにWeb画面でのユーザのトラッキングをKafkaとPysparkを組み合わせて行ってみます。

また、ストリーミングシステムで頻繁に利用されるAvroについても紹介し実践形式で講座を行なっていきます。
講師自己紹介0:24
今回のコースを担当講師はデータエンジニアリングやデータコンサルを専門として働いています
本コースがビッグデータ基盤のどこに当たるのか？2:17
今回のレクチャーが、データ基盤におけるどこに当たるものなのかを、ビッグデータの全体像から説明します。

環境構築0:50
環境構築を行います。
外部のGitHub上に構築の手順やDockerの内容がまとまっていますので、そちらを参照しながら進めます。
PySparkとは0:12
PySpakrについて理解を深めたい方は、別コース
「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」
にて、無料プレビューにてご覧いただけます。

本セクションの目次1:29
1. メッセージキューとエコシステム
2. セクション２で構築した環境の説明
3. クラウド on メッセージキュー
4. メッセージキューがあると嬉しいこと
メッセージキューとエコシステム9:27
メッセージキュー(kafka)の説明と実世界で利用されれる利用方法について学びます。
セクション2で構築した環境の説明2:57
環境構築したコンポーネントの説明を行います。
クラウドonメッセージキュー1:48
クラウドサービスで利用されるメッセージキューについて確認しておきましょう。
名前は違えどほとんどKafkaと目指す機能は同じです。
メッセージキューがあると嬉しいのはなぜ？8:24
なぜメッセージキューなるものが必要なのでしょうか？

メッセージが必要な理由について学びます
セクション3の小テスト

本セクションの目次1:03
1. Spark Structured Streamingとは？
2. メッセージキューとの組み合わせは？
3. 他のストリーミングツール
Spark.Structured Streamingとは？1:47
SparkでストリーミングというとStructured Streamingのことを指します。
本講座では単にSpark Streamingと呼びます
Kafkaとの組み合わせはどんなことに使われる？5:13
Spark Streamingはデータを読み出すコンシューマーになることもできますし、データを書き出すプロデューサーになることも可能です
他のストリーミングツール2:00
ベースとしてSparkストリーミングを知っていると他のツールへの転用がしやすいです。
セクション4小テスト

本セクションの目次0:47
1. コンポーネントの起動
2. データの送信と確認
3. データの送信と確認(コンソール)
4. データの送信と確認(ファイル)
4. データの送信と確認(メッセージ)
4. データの送信と確認(メモリ)
コンポーネントの起動5:33
各種コンポーネントについて少し確認しておきましょう。
また、本セクション以降で利用する環境の設定を行います。
データの送信と確認1:35
データの送信方法は何種類か存在します。

どのような場面でも対応できるように本コースでは以下の3つを対象とします。
Web画面から読み出すパターンはのちのセクションにて別途抜き出して解説します。

- コマンドライン
- プログラムからデータを送信する
- Web画面から送信する

またデータの確認方法としてシンクを紹介します

- コンソールシンク
- メモリシンク
- メッセージシンク
- ファイルシンク

を紹介します。
データの送信と確認(コンソール)10:28
kafkaに対してデータを送信した後、Spark Streamingでデータを読み出しコンソールに出力しみてます。

以下の流れを学びます。
cmd -> kafka <- spark streaming(df) -> console
データの送信と確認(ファイルシンク)2:39
kafkaに対してデータを送信した後、Spark StreamingでデータをファイルをParquet方式で出力してみましょう

以下の流れについて学びます
cmd -> kafka <- spark streaming(df) -> parquet(ファイル)
データの送信と確認（メッセージキューチェーン）4:17
kafkaに対してデータを送信した後、Spark Streamingでデータを整形し再度別のトピックへtsvとjson形式でそれぞれパブリッシュしてみましょう

以下の流れについて学びます。
cmd -> kafka(pyspark-topic1) <- spark streaming(df) -> kafka(pyspark-topic2) <- spark streaming(df2)(データの確認のため) -> console
データの送信と確認（メモリシンク）3:35
メモリシンクとはその名の通りデータをメモリ内に保持することです。

以下の流れについて学びます。
cmd -> kafka(pyspark-topic1) <- spark streaming(df) -> メモリ
各シンクの使い分け3:02
なぜ、このようにたくさんのシンクがあるのでしょうか？
その理由を学びます。
pyspark-topic2からデータを読み取りjsonフォーマットでシンクするプログラムを書いてみましょう

本セクションの目次1:28
1. Avroフォーマット
2. 前方互換と後方互換と完全互換
3. メッセージキューとAvroを連携してみよう
4. Avroファイルの読み書き
5. Avroで前方互換をやってみよう
Avroフォーマット4:27
ストリーミング処理にて頻繁に利用されるAvroフォーマットについての概要を学びます
前方互換と後方互換と完全互換2:48
Avroフォーマットの特徴である互換性について紹介します
メッセージキューとAvroを連携してみよう7:37
メッセージキューとAvroを連携させてみましょう
今回はPythonプログラムからデータを送信してみます。
Avroファイルの読み書き3:08
せっかくなので出力したAvroファイルをSparkで読み込んでみましょう。
これでバッチ処理も可能になります
Avroで前方互換をやってみよう5:34
Avroの特徴の一つである後方互換をやってみましょう。

本セクションの目次1:14
1. IoT/Kafka/Spark Streamingの組み合わせ概要説明
2. Web画面からのデータ送信
3. ウィンドウ処理
4. DIKWモデル
5. UUIDの付与処理とイベント時間の付与
組み合わせ概要説明2:24
今回のストリーミング処理で利用する組み合わせについて紹介します。
Web画面からのデータ送信3:56
Web画面からデータを送信して、その結果を見てみましょう
ウィンドウ処理11:16
ストリーミングでしばし利用されるウィンドウ処理について学びます。
再度Web画面からデータを送信して、時間ごとの件数を算出してみます。
DIKWモデル3:41
DIKWモデルについて紹介します
UUIDの付与処理とイベント時間の付与5:06
UUIDの付与とイベント時間の付与について紹介します。

なぜこれらの値が付与されるのでしょうか？
セクション７コース理解小テスト

Requirements

Pythonの基礎知識があると良いです
次のコースを学んでいると理解がスムーズです「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」

Description

現役のデータエンジニアがレクチャーします！

AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に８０％以上の時間をデータエンジニアリング(データサイエンスのための前処理や仕組み構築)に割いてるのが現状です。

本コースではApache Sparkを使ったストリーミングのデータエンジニアリングについて学びます。

ポイント：

本コースでは分散処理のデファクトとなりつつあるSparkについて学びます。

Apache Sparkはビッグデータ処理で多く使われている分散処理エンジンです。

今回はPythonと組み合わせたPySparkを使ったストリーミング処理の講座です。

ストリーミング処理の基本から、Avroフォーマット、Webアプリケーションにおけるユーザのトラッキングとストリーミングの一連の流れをこのコース一つで学ぶことが可能です。

特徴：

データエンジニアリングよりの講座です。
難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。
普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです
ストリーミング処理を勉強してみたい方(メッセージキュー、ストリーミングについて学びたい方)

ソースコードや解説は以下のGitHubリポジトリにあります。

動画内ではGitHubの資料に加え補足をしながら解説を進めています。

Who this course is for:

IoT開発やWebサイトのユーザーの行動履歴のトラッキングなどストリーミング処理を学びたい方
データサイエンスで頻繁に行われる、ストリーミングにおける前処理を知りたい方

データサイエンスのためのストリーミング前処理入門 PythonとSparkで始めるビッグデータストリーミング処理入門

What you'll learn

Explore related topics

Course content

紹介4 lectures • 11min

環境構築2 lectures • 1min

Kafka(メッセージキュー)基礎知識5 lectures • 24min

Spark Structured Streaming とは？4 lectures • 10min

【クイックスタート】メッセージキュー(Kafka)とPySpark Streaming8 lectures • 32min

Kafka with Avroで脱初心者6 lectures • 25min

IoTツール、Kafka、PySparkを組み合わせてみよう6 lectures • 28min

ボーナスレクチャー1 lecture • 1min

Requirements

Description

Who this course is for:

データサイエンスのためのストリーミング前処理入門　PythonとSparkで始めるビッグデータストリーミング処理入門