Udemy
    •  
    •  
    •  
    •  
    •  
    •  
    •  
    •  
Turn what you know into an opportunity and reach millions around the world.
Learn More
Your cart is empty.
Keep shopping
超速入門!【データサイエンスへの最初の一歩】PythonとSparkで学ぶデータ分析のための前処理と分散処理 一気見講座
Rating: 4.1 out of 5(97 ratings)
746 students

超速入門!【データサイエンスへの最初の一歩】PythonとSparkで学ぶデータ分析のための前処理と分散処理 一気見講座

【データサイエンス/データエンジニアリングシリーズ】最強のビッグデータ処理エンジンApache Spark~ABC人材のためのPythonで行う分散処理と前処理 を一挙に習得しよう!
Created byYuki Saito
Last updated 4/2026
Japanese

What you'll learn

  • Spark(PySpark)で実際に現場で使われる技法が一挙に学べます
  • 構造化データに対するデータエンジニアリング
  • 非構造化データに対するデータエンジニアリング
  • ExcelをSparkを使ってデータエンジニアリングしてみよう(Pandas to Spark)
  • PDFをSparkを使ってデータエンジニアリングしてみよう(six to Saprk)
  • 分散処理とは何か?Sparkとは何か?
  • 実際の開発で気をつけるべきことは何か?
  • 関数の羅列ではなく、「現場ではどの様に使われるか?」も解説します

Course content

5 sections29 lectures2h 13m total length
  • 講座タイトル1:08

    今回の講座では、実際の業務で頻繁に利用される用語やデータの操作を一つの講座にまとめた講座です。

    Spark(PySpark)の普段使いであれば十分この講座の内容の操作を知ることで業務に活用可能です。


    今回のコースで利用するソースコードは全てGithub上に配置しています。

    外部リソースのリンク先よりクローンしてご利用ください。


    業務で使われる際の流れを学びたい方は

    「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」

    「【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門」

    「【データサイエンスのためのストリーミング前処理入門 PythonとSparkで始めるビッグデータストリーミング処理入門」

    を受講いただくと、このコースの内容をさらに理解を深めることが可能だと思います。


  • 本コースの概要8:01

    本コースの概要を説明します。

    本コースは、普段よく利用されるSparkでのデータ操作や概念を一つにまとめたコースです

  • 講師紹介0:24

    今回のコースを担当講師はデータエンジニアリングやデータコンサルを専門として働いています

  • 本コースがビッグデータ基盤のどこに当たるのか?2:04

    データエンジニアリングが担当する範囲は非常に広く、普段の業務としてどこに相当する作業を行っているのか整理をつけることで理解への助けとします。

  • 環境構築0:44

    環境構築を行います。


    外部リソースにリンクされたGitHubより構築をお願いいたします。

Requirements

  • Pythonの知識があることが好ましいです
  • SQLを理解しているとさらに飲み込みやすいと思います

Description

現役のデータエンジニアがレクチャーします!


AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理など)に割いてるのが現状です。

本コースではApache Sparkを使ったデータエンジニアリングについて学びます。


ポイント:

本コースでは分散処理のデファクトとなりつつあるSparkについて学びます。

Apache Sparkはビッグデータ処理で多く使われている分散処理エンジンです。

今回はPythonと組み合わせた実際の現場で使われるPySparkを使った操作を一挙にまとめました。


特徴:

  1. データエンジニアリングよりの講座です。

  2. 難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。

  3. 普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです


ソースコードや解説は以下のGitHubリポジトリにあります。

動画内ではGitHubの資料に加え補足をしながら解説を進めています。

Who this course is for:

  • 非構造のデータ(Excel、PDF、動画ファイル)に対するデータエンジニアリングを学びたい方