Udemy Business

Teach on Udemy

Turn what you know into an opportunity and reach millions around the world.

Learn More

Your cart is empty.

Keep shopping

【PythonとSparkで始めるデータマネジメント入門】ビッグデータレイクのための統合メタデータ管理入門

Name: 【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門
Rating: 4.1 (54 reviews)

【データサイエンス/データエンジニアリングシリーズ】PythonとSparkで3種のメタビジネスメタデータ、テクニカルメタデータ、オペレーショナルメタデータの基本を取得、計算してみよう

Created byYuki Saito

Last updated 4/2026

Japanese

What you'll learn

データレイク（データ基盤）のデータ分析に含まれる多くのアクティビティのうちの一つメタデータについて学べます
データの沼化を防ぐためのメタデータ管理について学びます
メタデータ算出や取得のためのPython(PySpark)ブログラムを学びます
メタデータの算出や取得だけにとどまらず、メタデータの活用方法について学びます
小さなデータレイクから大きなデータレイクにおいてデータを管理する感覚を学びます
アクセスログの整形方法をデータエンジニアリングを通して学びます
よくある関数の羅列ではなく、実際の現場で考えているメタデータ管理の内容を学べます

Course content

7 sections • 36 lectures • 2h 20m total length

講座タイトル0:57
講座タイトルの紹介です。
【Pythonで始めるデータマネジメント入門】ビッグデータ基盤におけるメタデータ管理と取得方法速習講座の説明8:41
本コースの概要
本コースの特徴
本コースを学ぶ意義
本コースに適する人
本コースに適さない人
講師の自己紹介0:24
今回のコースを担当講師はデータエンジニアリングやデータコンサルを専門として働いています
本コースがビックデータ基盤のどこに該当するのか？3:18
全体像を理解し自分自身がビッグデータ基盤のどの部分のアクティビティなのかを理解することが重要です。

メタデータ管理はどこの部分に相当する作業なのかみてみましょう
コース理解小テスト

環境構築0:56
環境構築に向けた説明をしていきます
Sparkとは何か？0:11
データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座
と同様の内容です。

「リソース」ー＞「環境構築」より参照ください
環境作成0:02
必要ツールの設定をgithubを参照しながら行います。
「リソース」ー＞「環境構築」より参照ください

本セクションの目次2:25
1. データマネジメントとは何者のなのか？
2. メタデータとは？
3. ビッグデータ基盤にメタデータが必要な理由
4. メタデータを保存するメタデータストアとは
5. ビッグデータ基盤におけるメタデータの提供形態
6. 3種類存在するメタデータ
7. 次のセクションへの導入
データマネジメントとは何者なのか？2:52
ビッグデータ基盤で頻繁に飛び交うデータマネジメントを紹介します。
ぼんやりとしている概念ですができる限り言語化していきます。
メタデータとは何者なのか？4:38
データマネジメントの体系知識の中の一つであるメタデータについて解説を行っていきます。
メタデータとはデータの属性を示すデータのことを本コースでは指します。
なぜビッグデータ基盤にはメタデータが必要なのか？5:31
メタデータとは生産性を向上させる目的として管理、整理されます。
どのような生産性に寄与するのでしょうか。
メタデータを保存するメタデータストアトアとは？2:57
メタデータストアとはメタデータを保存する役割をもったデータストアです。
プラットフォームによりメタデータストアは異なりますが、本コースではMySqlをメタデータストアとして利用しています。
ビッグデータ基盤におけるメタデータの提供形態6:19
メタデータストアに保存するだけではもったいないです。
保存した3種類のメタデータはどのような形でユーザに提供されるのでしょうか？
3種類存在するメタデータ6:20
メタデータストアに保存されるメタデータには3種類のメタデータが存在しています

ビジネスメタデータ
テクニカルメタデータ
オペレーショナルメタデータ
次のセクションへの導入12:51
次のセクションより実際にメタデータを確認したり、時には算出をしてきます。
そのための事前準備を行います。
コース理解小テスト

本セクションの目次1:21
1. ビジネスメタデータとは？
3. ビジネスメタデータの重要な役割
4. ビジネスメタデータの活用方法
5. 実際にビジネスメタデータを覗いてみよう
6. API/GUIのためのメタデータ保存用のテーブルを作成してみよう
ビジネスメタデータとは？5:29
ビジネスメタデータとは何か？
代表的なビジネスメタデータについて理解を深めます
ビジネスメタデータの重要な役割や活用方法4:03
ビジネスメタデータがビッグデータ基盤で果たす役割について理解します
また
ビジネスメタデータはビッグデータ基盤の中の人以外にも利用してもらうことが好ましいです。
そのための活用方法のヒントをレクチャーします。
ビジネスメタデータを覗いてみよう4:58
MySQL内に保存されたビジネスメタデータ(テーブル定義)をMySQLコマンドを使って覗いてみます
API/GUI提供用のメタデータ保存用のテーブルを作成してみよう4:10
Mysqlにデータベースとテーブルを作成します
Mysqlで保存することでWeb画面やGUI操作API提供をよりやりやすくなるためです。
Pysparkでビジネスメタデータを取得・算出してみよう5:23
PySparkを使ってビジネスメタデータの取得やSparkテーブルへの保存を行います。
コース理解小テスト

本セクションの目次1:52
1. テクニカルメタデータについて
2. テクニカルメタデータの一種データプロファイリング
3. PySparkでデータプロファイリングをしてみよう1
4. PySparkでデータプロファイリングをしてみようその２
5. PySparkでデータプロファイリングをしてみようその3
6. データプロファイリングの結果をテーブルに格納してみよう
7. データ品質
テクニカルメタデータについて1:02
テクニカルメタデータにはどのような種類のものがあるのでしょうか？
テクニカルメタデータ　〜データプロファイリング〜2:14
テクニカルメタデータの一種であるデータプロファイリングを紹介します。
データプロファイリングとはデータを調査してデータの状態を表現することです。

データプロファイリングにはどのような種類があるのでしょうか。
PySparkでデータプロファイリングをしてみようその16:43
データプロファイリングの初めの一歩として
件数、平均、合計値を取得してみます。

また、注意点も紹介します。
PySparkでデータプロファイリングをしてみようその２15:22
データプロファイリングの次の１歩として
カーディナリティとセレクティビティについて紹介します。
PySparkでデータプロファイリングをしてみようその34:17
データプロファイリングの次の１歩として
コンシステンシーについて紹介します。
データプロファイリングの結果をテーブルに格納してみよう2:44
これまでに、算出したテーブルをメタデータ管理テーブルに登録を行いましょう。

ここまで来ると、一つのテーブルに関するメタデータが充実してきているのがわかると思います
データ品質管理2:44
本コースは入門コースであるため扱いませんが、データプロファリングのお友達としてデータ品質が存在します。
別の講座として作成予定です。
コース理解小テスト
jinko_tableにおけるcodeにおいて[0-9]{2}の正規表現に沿っていないフォーマットは何件存在しているでしょうか

本セクションの目次0:44
1. オペレーショナルメタデータは5w1h
2. 最もオーソドックスなのはアクセスログ
3. アクセスログを使って5w1hを管理してみよう
4. オペレーショナルメタデータの結果をメタデータストアに格納しよう
5. メタデータの形は最終的にどうなったのか？
オペレーショナルメタデータは5w1h2:39
オペレーショナルメタデータとはデータやメタデータに関する5w1hを取得するものです。
詳しくみていきましょう。
オペレーショナルメタデータの使い道は？1:52
5w1hを取得する上で最もオーソドックスなアクセスログを利用した方法を紹介します。
セクション２の環境構築時に配置したlog4jの設定により/var/log/spark/　配下に出力されているログを利用します
アクセスログを使って5w1hを管理してみよう7:39
実際にアクセスログから5w1hを出してみましょう
アクセスログの集計の結果をSparkテーブルに格納してみよう1:18
アクセスログの集計結果をSparkのテーブルに保存していきます
メタデータの形は最終的にどうなったのか？4:01
ビジネスメタデータ、テクニカルメタデータ、オペレーショナルメタデータを格納してMysqlのテーブルを見てみましょう。
コース理解小テスト

Requirements

Pythonの基礎知識があることが好ましいですが必須ではありません
「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」を受講しているとより理解が深まります

Description

現役のデータエンジニアがレクチャーします！

AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に８０％以上の時間をデータエンジニアリング(データサイエンスのための前処理やメタデータ管理)に割いてるのが現状です。

本コースではSparkを使ったデータエンジニアリングにおけるメタデータ管理について学びます。

メタデータを管理しなければデータ組織の生産性低下は免れません。

本コースを受講してデータを管理するという新たな方向へと舵を切りましょう。

メタデータ管理とは、データ活用の生産性を高めるためのデータの設計書です。

データはゴミ箱に捨てるようにただ「データレイク」や「データウェアハウス」に保存しておけばいいだけではなく、

データがどこにあるのか？
データはどのような状態なのか？
データの意味合いはどのような意味なのか？
データは誰にアクセスされているのか？
データは何回アクセスされているのか？

といったいわゆるメタデータをしっかりと管理することにあります。

本コースは3種のメタデータ(下記ポイント参照)について、入門として一つのテーブルをもとにPySparkを用いて算出しMysql保存していく実践講座です。

また保存するだけでなく、保存したメタデータの活用方法についても言及しています。

ポイント：

PySparkを使いながら以下の取得や算出を行います。

ビジネスメタデータ：テーブル定義や、テーブルの説明など、データ利用をするのに必要なメタデータ管理を勉強します。

テクニカルメタデータ：データプロファイリングを通した、データを検索せずともデータの特性をわかるようにするための方法を学びます

オペレーショナルメタデータ：Sparkのアクセスログの解析を行い、データに関する5w1hを引き出します。

いづれの情報もPysparkなどを使いながら算出していきます。

「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」を受講していると内容の理解がよりスムーズかと思います。

特徴：

データエンジニアリングよりの講座です。
難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。
普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです
メタデータを管理して、データ分析という行為にさらに付加価値を加えたい方

ソースコードや解説は以下のGitHubリポジトリにあります。

動画内ではGitHubの資料に加え補足をしながら解説を進めています。

Who this course is for:

ビッグデータ基盤やデータエンジニアリングを行うPython開発者
データ基盤を構築しているが運用がうまくいっていないエンジニアや組織
データマネジメントを学んでみたい方

【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門

What you'll learn

Explore related topics

Course content

紹介4 lectures • 13min

メタデータ計算を行うための環境構築3 lectures • 1min

データマネジメント領域におけるメタデータの世界8 lectures • 44min

ビジネスメタデータの理解を深めよう6 lectures • 25min

テクニカルメタデータ8 lectures • 37min

オペレーショナルメタデータ6 lectures • 18min

ボーナスレクチャー1 lecture • 1min

Requirements

Description

Who this course is for:

【PythonとSparkで始めるデータマネジメント入門】ビッグデータレイクのための統合メタデータ管理入門