Udemy
    •  
    •  
    •  
    •  
    •  
    •  
    •  
    •  
Turn what you know into an opportunity and reach millions around the world.
Learn More
Your cart is empty.
Keep shopping
【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門
Rating: 4.1 out of 5(54 ratings)
481 students

【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門

【データサイエンス/データエンジニアリングシリーズ】PythonとSparkで3種のメタビジネスメタデータ、テクニカルメタデータ、オペレーショナルメタデータの基本を取得、計算してみよう
Created byYuki Saito
Last updated 4/2026
Japanese

What you'll learn

  • データレイク(データ基盤)のデータ分析に含まれる多くのアクティビティのうちの一つメタデータについて学べます
  • データの沼化を防ぐためのメタデータ管理について学びます
  • メタデータ算出や取得のためのPython(PySpark)ブログラムを学びます
  • メタデータの算出や取得だけにとどまらず、メタデータの活用方法について学びます
  • 小さなデータレイクから大きなデータレイクにおいてデータを管理する感覚を学びます
  • アクセスログの整形方法をデータエンジニアリングを通して学びます
  • よくある関数の羅列ではなく、実際の現場で考えているメタデータ管理の内容を学べます

Course content

7 sections36 lectures2h 20m total length
  • 講座タイトル0:57

    講座タイトルの紹介です。

  • 【Pythonで始めるデータマネジメント入門】 ビッグデータ基盤におけるメタデータ管理と取得方法速習講座の説明8:41
    • 本コースの概要

    • 本コースの特徴

    • 本コースを学ぶ意義

    • 本コースに適する人

    • 本コースに適さない人

  • 講師の自己紹介0:24

    今回のコースを担当講師はデータエンジニアリングやデータコンサルを専門として働いています

  • 本コースがビックデータ基盤のどこに該当するのか?3:18

    全体像を理解し自分自身がビッグデータ基盤のどの部分のアクティビティなのかを理解することが重要です。


    メタデータ管理はどこの部分に相当する作業なのかみてみましょう

  • コース理解小テスト

Requirements

  • Pythonの基礎知識があることが好ましいですが必須ではありません
  • 「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」を受講しているとより理解が深まります

Description

現役のデータエンジニアがレクチャーします!


AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理やメタデータ管理)に割いてるのが現状です。

本コースではSparkを使ったデータエンジニアリングにおけるメタデータ管理について学びます。


メタデータを管理しなければデータ組織の生産性低下は免れません。

本コースを受講してデータを管理するという新たな方向へと舵を切りましょう。


メタデータ管理とは、データ活用の生産性を高めるためのデータの設計書です。

データはゴミ箱に捨てるようにただ「データレイク」や「データウェアハウス」に保存しておけばいいだけではなく、

  • データがどこにあるのか?

  • データはどのような状態なのか?

  • データの意味合いはどのような意味なのか?

  • データは誰にアクセスされているのか?

  • データは何回アクセスされているのか?

といったいわゆるメタデータをしっかりと管理することにあります。


本コースは3種のメタデータ(下記ポイント参照)について、入門として一つのテーブルをもとにPySparkを用いて算出しMysql保存していく実践講座です。

また保存するだけでなく、保存したメタデータの活用方法についても言及しています。


ポイント:

PySparkを使いながら以下の取得や算出を行います。

ビジネスメタデータ:テーブル定義や、テーブルの説明など、データ利用をするのに必要なメタデータ管理を勉強します。

テクニカルメタデータ:データプロファイリングを通した、データを検索せずともデータの特性をわかるようにするための方法を学びます

オペレーショナルメタデータ:Sparkのアクセスログの解析を行い、データに関する5w1hを引き出します。


いづれの情報もPysparkなどを使いながら算出していきます。

「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」を受講していると内容の理解がよりスムーズかと思います。



特徴:

  1. データエンジニアリングよりの講座です。

  2. 難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。

  3. 普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです

  4. メタデータを管理して、データ分析という行為にさらに付加価値を加えたい方


ソースコードや解説は以下のGitHubリポジトリにあります。

動画内ではGitHubの資料に加え補足をしながら解説を進めています。

Who this course is for:

  • ビッグデータ基盤やデータエンジニアリングを行うPython開発者
  • データ基盤を構築しているが運用がうまくいっていないエンジニアや組織
  • データマネジメントを学んでみたい方