
講座タイトルの紹介です。
本コースの概要
本コースの特徴
本コースを学ぶ意義
本コースに適する人
本コースに適さない人
今回のコースを担当講師はデータエンジニアリングやデータコンサルを専門として働いています
全体像を理解し自分自身がビッグデータ基盤のどの部分のアクティビティなのかを理解することが重要です。
メタデータ管理はどこの部分に相当する作業なのかみてみましょう
環境構築に向けた説明をしていきます
データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座
と同様の内容です。
「リソース」ー>「環境構築」より参照ください
必要ツールの設定をgithubを参照しながら行います。
「リソース」ー>「環境構築」より参照ください
1. データマネジメントとは何者のなのか?
2. メタデータとは?
3. ビッグデータ基盤にメタデータが必要な理由
4. メタデータを保存するメタデータストアとは
5. ビッグデータ基盤におけるメタデータの提供形態
6. 3種類存在するメタデータ
7. 次のセクションへの導入
ビッグデータ基盤で頻繁に飛び交うデータマネジメントを紹介します。
ぼんやりとしている概念ですができる限り言語化していきます。
データマネジメントの体系知識の中の一つであるメタデータについて解説を行っていきます。
メタデータとはデータの属性を示すデータのことを本コースでは指します。
メタデータとは生産性を向上させる目的として管理、整理されます。
どのような生産性に寄与するのでしょうか。
メタデータストアとはメタデータを保存する役割をもったデータストアです。
プラットフォームによりメタデータストアは異なりますが、本コースではMySqlをメタデータストアとして利用しています。
メタデータストアに保存するだけではもったいないです。
保存した3種類のメタデータはどのような形でユーザに提供されるのでしょうか?
メタデータストアに保存されるメタデータには3種類のメタデータが存在しています
ビジネスメタデータ
テクニカルメタデータ
オペレーショナルメタデータ
次のセクションより実際にメタデータを確認したり、時には算出をしてきます。
そのための事前準備を行います。
1. ビジネスメタデータとは?
3. ビジネスメタデータの重要な役割
4. ビジネスメタデータの活用方法
5. 実際にビジネスメタデータを覗いてみよう
6. API/GUIのためのメタデータ保存用のテーブルを作成してみよう
ビジネスメタデータとは何か?
代表的なビジネスメタデータについて理解を深めます
ビジネスメタデータがビッグデータ基盤で果たす役割について理解します
また
ビジネスメタデータはビッグデータ基盤の中の人以外にも利用してもらうことが好ましいです。
そのための活用方法のヒントをレクチャーします。
MySQL内に保存されたビジネスメタデータ(テーブル定義)をMySQLコマンドを使って覗いてみます
Mysqlにデータベースとテーブルを作成します
Mysqlで保存することでWeb画面やGUI操作API提供をよりやりやすくなるためです。
PySparkを使ってビジネスメタデータの取得やSparkテーブルへの保存を行います。
1. テクニカルメタデータについて
2. テクニカルメタデータの一種データプロファイリング
3. PySparkでデータプロファイリングをしてみよう1
4. PySparkでデータプロファイリングをしてみようその2
5. PySparkでデータプロファイリングをしてみようその3
6. データプロファイリングの結果をテーブルに格納してみよう
7. データ品質
テクニカルメタデータにはどのような種類のものがあるのでしょうか?
テクニカルメタデータの一種であるデータプロファイリングを紹介します。
データプロファイリングとはデータを調査してデータの状態を表現することです。
データプロファイリングにはどのような種類があるのでしょうか。
データプロファイリングの初めの一歩として
件数、平均、合計値を取得してみます。
また、注意点も紹介します。
データプロファイリングの次の1歩として
カーディナリティとセレクティビティについて紹介します。
データプロファイリングの次の1歩として
コンシステンシーについて紹介します。
これまでに、算出したテーブルをメタデータ管理テーブルに登録を行いましょう。
ここまで来ると、一つのテーブルに関するメタデータが充実してきているのがわかると思います
本コースは入門コースであるため扱いませんが、データプロファリングのお友達としてデータ品質が存在します。
別の講座として作成予定です。
1. オペレーショナルメタデータは5w1h
2. 最もオーソドックスなのはアクセスログ
3. アクセスログを使って5w1hを管理してみよう
4. オペレーショナルメタデータの結果をメタデータストアに格納しよう
5. メタデータの形は最終的にどうなったのか?
オペレーショナルメタデータとはデータやメタデータに関する5w1hを取得するものです。
詳しくみていきましょう。
5w1hを取得する上で最もオーソドックスなアクセスログを利用した方法を紹介します。
セクション2の環境構築時に配置したlog4jの設定により/var/log/spark/ 配下に出力されているログを利用します
実際にアクセスログから5w1hを出してみましょう
アクセスログの集計結果をSparkのテーブルに保存していきます
ビジネスメタデータ、テクニカルメタデータ、オペレーショナルメタデータを格納してMysqlのテーブルを見てみましょう。
現役のデータエンジニアがレクチャーします!
AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理やメタデータ管理)に割いてるのが現状です。
本コースではSparkを使ったデータエンジニアリングにおけるメタデータ管理について学びます。
メタデータを管理しなければデータ組織の生産性低下は免れません。
本コースを受講してデータを管理するという新たな方向へと舵を切りましょう。
メタデータ管理とは、データ活用の生産性を高めるためのデータの設計書です。
データはゴミ箱に捨てるようにただ「データレイク」や「データウェアハウス」に保存しておけばいいだけではなく、
データがどこにあるのか?
データはどのような状態なのか?
データの意味合いはどのような意味なのか?
データは誰にアクセスされているのか?
データは何回アクセスされているのか?
といったいわゆるメタデータをしっかりと管理することにあります。
本コースは3種のメタデータ(下記ポイント参照)について、入門として一つのテーブルをもとにPySparkを用いて算出しMysql保存していく実践講座です。
また保存するだけでなく、保存したメタデータの活用方法についても言及しています。
ポイント:
PySparkを使いながら以下の取得や算出を行います。
ビジネスメタデータ:テーブル定義や、テーブルの説明など、データ利用をするのに必要なメタデータ管理を勉強します。
テクニカルメタデータ:データプロファイリングを通した、データを検索せずともデータの特性をわかるようにするための方法を学びます
オペレーショナルメタデータ:Sparkのアクセスログの解析を行い、データに関する5w1hを引き出します。
いづれの情報もPysparkなどを使いながら算出していきます。
「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」を受講していると内容の理解がよりスムーズかと思います。
特徴:
データエンジニアリングよりの講座です。
難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。
普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです
メタデータを管理して、データ分析という行為にさらに付加価値を加えたい方
ソースコードや解説は以下のGitHubリポジトリにあります。
動画内ではGitHubの資料に加え補足をしながら解説を進めています。