Udemy
    •  
    •  
    •  
    •  
    •  
    •  
    •  
    •  
Turn what you know into an opportunity and reach millions around the world.
Learn More
Your cart is empty.
Keep shopping
データサイエンスのためのストリーミング前処理入門 PythonとSparkで始めるビッグデータストリーミング処理入門
Rating: 4.3 out of 5(55 ratings)
599 students

データサイエンスのためのストリーミング前処理入門 PythonとSparkで始めるビッグデータストリーミング処理入門

【データサイエンス/データエンジニアリングシリーズ】PythonとSparkでストリーミング処理を行ってみよう
Created byYuki Saito
Last updated 4/2026
Japanese

What you'll learn

  • PySparkを使ったビッグデータストリーミング処理を学びます
  • メッセージキュー(今回はApache Kafkaを使います)とストリーミング処理エンジン(Pyspark)の組み合わせを学びたい方
  • Avroフォーマットなどストリーミングの開発に頻繁に使われるフォーマットについて学びます
  • ケーススタディで実務を例に取ったデータエンジニアリングの流れで紹介
  • データサイエンスのためのストリーミングにおける前処理について学習することができます

Course content

8 sections36 lectures2h 11m total length
  • 講座タイトル1:07

    講座について簡単に説明します


    本コースで利用するリポジトリは、リソースからクローンしてお使いください。

  • 本コースの概要7:23

    ストリーミングシステムとしての基本を学ぶためにはメッセージキューとそれを利用するプログラミング言語が必要です。

    今回はそれぞれKafka(メッセージキュー)とPyspark(プログラミング)を組み合わせながら講座を進めていきます。

    基本的な内容理解や技術要素を説明したのちにより実世界での運用のイメージをつけるためにWeb画面でのユーザのトラッキングをKafkaとPysparkを組み合わせて行ってみます。


    また、ストリーミングシステムで頻繁に利用されるAvroについても紹介し実践形式で講座を行なっていきます。

  • 講師自己紹介0:24

    今回のコースを担当講師はデータエンジニアリングやデータコンサルを専門として働いています

  • 本コースがビッグデータ基盤のどこに当たるのか?2:17

    今回のレクチャーが、データ基盤におけるどこに当たるものなのかを、ビッグデータの全体像から説明します。


Requirements

  • Pythonの基礎知識があると良いです
  • 次のコースを学んでいると理解がスムーズです「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」

Description

現役のデータエンジニアがレクチャーします!


AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理や仕組み構築)に割いてるのが現状です。

本コースではApache Sparkを使ったストリーミングのデータエンジニアリングについて学びます。


ポイント:

本コースでは分散処理のデファクトとなりつつあるSparkについて学びます。

Apache Sparkはビッグデータ処理で多く使われている分散処理エンジンです。

今回はPythonと組み合わせたPySparkを使ったストリーミング処理の講座です。


ストリーミング処理の基本から、Avroフォーマット、Webアプリケーションにおけるユーザのトラッキングとストリーミングの一連の流れをこのコース一つで学ぶことが可能です。


特徴:

  1. データエンジニアリングよりの講座です。

  2. 難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。

  3. 普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです

  4. ストリーミング処理を勉強してみたい方(メッセージキュー、ストリーミングについて学びたい方)


ソースコードや解説は以下のGitHubリポジトリにあります。

動画内ではGitHubの資料に加え補足をしながら解説を進めています。

Who this course is for:

  • IoT開発やWebサイトのユーザーの行動履歴のトラッキングなどストリーミング処理を学びたい方
  • データサイエンスで頻繁に行われる、ストリーミングにおける前処理を知りたい方