GPTを自作して大規模言語モデルを理解する：PythonでTransformerとAttentionを学ぶLLM機械学習

Name: GPTを自作して大規模言語モデルを理解する：PythonでTransformerとAttentionを学ぶLLM機械学習
Rating: 4.2 (260 reviews)

GPT1の部品を作りながらPyTorchでGPT本体を自作します。LLMがどのように作用しているのか本体を自作してコードレベルで見ていきます。レクチャーの内容に応じてニューラルネットワークについても触れていきます。

Created by内山充康

Last updated 2/2026

Japanese

What you'll learn

TransformerのAttentionメカニズムとGPTの仕組みを学びます。
自然言語処理の流れを学びます。
Python言語を学びながらGPTのプログラムを作ります。
機械学習フレームワーク、PyTorchを教材として学びます。

Course content

15 sections • 175 lectures • 7h 27m total length

このコースについて3:55
このコースについての概要を解説します。
受講対象者について1:10
必要なもの0:19
必要なものは、Google アカウント以外、特にありません。
アンドロイドスマホやG-mail を使っている方であれば、Google アカウントをお持ちですので、教材を実行することができます。
Google Colaboratory の準備1:57
教材を使用するために、Google Colaboratory をGoogle Drive 環境にインストールします。
このコースについて0:25

自然言語処理の目的2:43
自然言語処理の目的は、人間の自然言語(テキストや音声)を計算機が理解・生成できるようにすることです。他の言語処理との違いやGPTの方法を見ていきましょう。
トークンと形態素解析2:54
トークンと形態素解析について学びます。トークンとは、文章を最小単位の意味を持つ形態素(単語や助詞など)に分割したものです。また、形態素解析とは、トークンを、品詞や活用形などを付与する自然言語処理の基本技術です。
Byte Pair Encoding について0:22
一時非公開レクチャー
GPT3は`Session`を理解できない0:55

word2vec 概要1:47
このセクションの概要です。
word2vec とは3:02
word2vecは、単語の意味的な関係性を高次元ベクトルで表現する手法です。大規模なデータから効率的に単語ベクトルを学習でき、自然言語処理の様々な場面で活用されています。
教材について0:11
word2vec_教材_初期設定3:17
プログラムを正常に動作させるために、初期設定で必要な最低限の条件や値を設定します。
word2vec_教材_part2_インスタンス化5:00
インスタンス化とは、クラスという設計図からオブジェクト(インスタンス)を生成する操作のことです。
word2vec_教材_part3_学習3:48
文章から規則性や傾向を見つけ出し、モデルのパラメータを自動的に学習させてみます。少ないコーパスで学習させてみます。
word2vec_教材_part4_評価2:29
学習済みのword2vecが未知のデータに対してどの程度よく一般化できるかを測ってみます。少ないデータでの学習ですが、変化があるかどうか、自分の目で確かめてみましょう。

コサイン類似度　概要3:03
このセクションの概要です
コサイン類似度2:57
コサイン類似度は、2つのベクトル間の類似度を測る指標の一つです。
2つのベクトルのなす角度の余弦値を取ることで、方向の類似度を-1から1の範囲の値で表します。
コサイン類似度_教材_part2_コサイン類似度の計算3:19
教材を使って、コサイン類似度の関数を作ってみます。
コサイン類似度_教材_part3_似た者同士を集めてみる3:02
作成したコサイン類似度の関数を使って、類似度が0.6を超える単語を集めてみましょう。
コサイン類似度_教材_part4_王-男+女=女王？4:26
ベクトル空間を四則演算で捜査して、王ー男＋女＝女王？を確かめてみましょう。また「夏ー暑い＋寒い」も確かめてみましょう。
コサイン類似度_教材_part5_特徴ベクトルの作成3:24
各単語は高次元の密ベクトル(分散表現ベクトル)で表現されます。各単語のベクトルから共通する特徴を取り出して利用してみます。
動画解説の訂正0:48
コサイン類似度_教材_part6_特徴ベクトルで計算2:30
抽出した特徴ベクトルを使って、ベクトル空間の操作の精度を上げてみましょう。「夏ー暑さの特徴ベクトル＋寒さの特徴ベクトル」がうまくいくでしょうか
補足：本来の意味を失った単語たち0:19
コサイン類似度_教材_part8_類似する項目の検索関数3:40
コサイン類似度の計算結果を元に、類似する項目を検索する関数を作成します。
コサイン類似度_教材_part9_類似する項目の検索の実行2:16
「夏ー暑さの特徴ベクトル＋寒さの特徴ベクトル」から、「冬」という項目を選択できるか確認してみます。
コサイン類似度_教材_part10_地名で確認2:26
地名での演算も試してみましょう。首都Aー国名A＋国名B＝首都Bになることを教材で確認します。

Transformer概要3:06
このセクションの概要です。
このセクションについて0:12
このセクションは、Stable Diffusion のコースと同じ解説をしていますが、Positional Encodingのコーディングを追加しております。既にご覧になった方も、もう一度ご覧になってください。
Transformer_Part12:01
Transformerの全体像を学んでいきます。全て、具体的にイラストで解説していきます。一度挫折した方も、ここでもう一度チャレンジしてみてください。
Transformer_Part24:28
引き続きTransformerの全体像を学んでいきます。
Transformer_Part33:16
引き続きTransformerの全体像を学んでいきます。
Transformer_Part42:26
引き続きTransformerの全体像を学んでいきます。
Transformer_Part52:36
引き続きTransformerの全体像を学んでいきます。
Embedding　ベクトルの埋め込み2:42
PositionalEncoding_Part12:54
Transsformerで有名になったPositional Encodingについて学びます。単語の位置情報の必要性について理解しておきましょう。
PositionalEncoding_Part23:20
引き続きPositional Encodingについて学びます。数式ではわかりにくいですが、グラフを使って、何が起こっているのかみていきます。
数式についての補足0:28
Positional Encoding をやめたGPT0:41
PositionalEncodingの作成_Part13:49
PositionalEncodingのアルゴリズムをコードにしてみます。短いステップですので、書いてみましょう。
PositionalEncodingの作成_part22:46
三角関数を使って計算ループを作成します。数式をそのままコードに起こしていきます。
PositionalEncodingの作成_part32:15
順伝播の処理を書きます。また、PositionalEncodingのパラメータを更新対象から外しておきます。
PositionalEncodingの作成_part43:35
ハイパーパラメータを設定して、Positionalencodingクラスをインスタンス化して計算を実行してみます。
PositionalEncodingの作成_part52:10
埋め込みベクトルを作成してPositionalEncodingと一緒に計算してみます。
PositionalEncodingの教材その20:08
PositionalEncodingの別の処理方法を教材としてアップロードしています。どちらを使っても大丈夫です。
Positional Encoding のエクセルへの応用1:12
Multi-Head Attention_Part12:12
Multi-Head Attention の概要を学びます。
Multi-Head Attention_Part23:01
Hulti-Head Attentionの計算を行う前に、埋め込みベクトルをQuery, Key, Value に分割します。
また線形変換という空間を写像する処理を行います。
GPTで作成していきますのでイラストで見ておきましょう。
補足レクチャー：word2vecでできなかったことを0:22
Scaled Dot-Product Attention3:50
Multi-Head Attention の内部は、一つの関数になっています。GPTで作成していく Scaled Dot-Product Attention をイラストで見ていきましょう。
コーヒーブレーク：Attentionスコアと除算2:16

このセクションの概要1:54
このセクションの概要です
教材の訂正についてのお知らせ0:23
先ずは動かしてみよう Part1 モデルの全体像（俯瞰してみるとこれだけ）3:23
まずは、GPT本体のコードがどのようなものか、その全体像をみてみましょう。意外と少ないことがわかります。
教材は、推論の疎通を確認するものです。
先ずは動かしてみよう Part2 プログラムの疎通の確認3:04
サンプル値を投入してプログラムの疎通を確認してみましょう。
先ずは動かしてみよう Part3 たとえ過剰適合でも（芥川作品のを生成）4:00
特定の小説しか生成できませんが芥川龍之介モデルで文章が生成されていく様子を確認してみましょう。
過剰適合で何が悪い（過剰適合モデルの使い方）0:32
GPTの構成（ただデコーダーだけで）4:28
GPTの構成を確認していきます。
ライブラリーのインポート3:03
これからGPTをTransformerモデルで構築していきます。今後、このGPTモデルを利用していくことになります。
Embedding（取り出すのに埋め込み？）2:13
GPTモデルで最初に行う埋め込みベクトルについて学びます。word2vecを思い出しながら確認していきましょう。
埋め込みベクトルの表現について0:34
Position Embedding（位置も埋め込む）2:24
Transformer では位置情報にPositional Encodingを使いました。.
一方GPTでは、位置の埋め込みを行います。
PositionEmbedding_教材4:38
位置の埋め込みをコードを書いて確認していきましょう。
Positional Encodingの利用2:10
GPTでは、位置の埋め込みベクトルを学習しません。すでに学習済みのベクトルを利用しています。
ここでは、TransformerのPositional Encoding を使って省エネ化していきましょう。
Mask（何を隠すのか？）1:58
Transformerで使われるマスク機能について学びます。なぜ必要なのか考えてみましょう。
Mask 教材3:59
マスク関数を作成して、実際の使い方を学びます。

GPTをつくってみよう（中）概要1:26
このセクションの概要です
Scaled_Dot_Product_Attentionの処理1:02
Attention メカニズムの最も小さい単位をここで確認しておきましょう。
Scaled-Dot Product 教材_Part1（初期設定）2:09
教材にコードを書いて、Scaled-Dot Product を理解していきます。
Scaled_Dot_Product教材_Part2（順伝播）3:17
forward（順伝播）の処理を書いていきます。
Scaled_Dot_Product教材_Part3（Attentionスコアの計算）1:46
練習問題を作って、Attention を計算させてみましょう。
Scaled_Dot_Product教材_Part4（縮小処理）1:03
Scaled-Dot Product の`Scaled` の処理を直に計算させてみます。
Scaled_Dot_Product教材_Part5（マスク処理）3:12
マスク関数を充ててみて、その結果を確認します。マスク＝０ではありません。
Scaled_Dot_Product教材_Part6（確率変換）1:23
ソフトマックス関数を利用して、確率変換してみましょう。
マルチヘッドアテンション3:36
マルチヘッドアテンションについて、わかりやすくイラストで解説します。
論文で見るマルチヘッドアテンション1:54
マルチヘッドアテンションについての補足です。論文の数式をみていきます。
マルチヘッドアテンション_教材_Part13:27
教材でマルチヘッドアテンションの処理を作っていきます。
マルチヘッドアテンション_教材_Part24:21
教材でマルチヘッドアテンションの処理を作っていきます。
マルチヘッドアテンション_教材_Part33:10
教材でマルチヘッドアテンションの処理を作っていきます。
Feed Forward クラス1:21
Feed Forward の処理を確認しておきましょう。これは、普通のマルチレイヤー・パーセプトロンによるニューラルネットワークです。
FeedForward_教材_Part13:57
教材を使ってFeedForwardの処理を作っていきます。
FeedForward_教材_Part22:17
教材を使ってFeedForwardの処理を作っていきます。
TransformerBlockのクラス4:14
TransformerBlockのクラスについて処理内容を確認します。
TransformerBlock_教材_Part14:22
教材を使ってTransformerBlockを作っていきます。
TransformerBlock_教材_Part22:29
教材を使ってTransformerBlockを作っていきます。
TransformerBlock_教材_Part40:36
教材を使ってTransformerBlockを作っていきます。
TransformerBlock_教材_Part53:25
教材を使ってTransformerBlock の動作確認をしてみます。

GPTの作成　下　全てをまとめて1:04
このセクションの概要です。
GPT教材初期化 Part12:39
まずは、初期化の処理を書いていきましょう。
GPT教材初期化 Part23:27
引き続き、初期化の処理を書いていきましょう。
GPT教材初期化 Part31:30
学習パラメータをザヴィエルという特定の方法で初期化します。
GPT教材　順伝播3:11
GPTクラスの順伝播の処理を作っていきます。
ハイパーパラメーターについて1:13
ハイパーパラメータとは、機械学習モデルの学習アルゴリズムにおいて、事前に人間が設定する値のことです。レイヤーの数や、学習係数などを事前に設定します。
教材_GPT動作確認3:43
作成したGPTをインスタンス化して、疎通確認をしてみましょう。
GPT-2への改造メモ0:25

事前学習　概要1:51
このセクションの概要です。
事前学習（常識を学ぶ）_Part13:23
事前学習がどのような役割を果たすのか、イラストで学びます。大量の文章を読み込ませることで、自律的に言語の統計パターンを学習していきます。
補足説明0:29
教材の実行3:59
これから教材を使って事前学習させるコードを動かしていきます。
まずは、関連モジュールをインストールして準備をしていきます。
機械学習において大切であると思われる部分は動画を見ながら、手入力してみましょう。
教材について0:22
事前学習_教材_青空文庫3:31
日本語コーパスとして簡単に入手できるのが青空文庫です。glovbis-university から提供されている青空文庫のデータセットを読み込んでおきます。rambda関数も登場しますので、所見の方は、ここで学んでおきましょう。
青空文庫データの実行上の注意0:21
事前学習_教材_hyper_parameters3:07
ハイパー・パラメーターを設定します。余裕のある方は、値を変更してみて、いといろと学習の変化を見てみましょう。
動画解説について0:10
事前学習_教材_Dataset3:15
Dataset モジュールを利用して、コーパスを学習用のデータに変換させておきます。
PyTorchフレームワークでの一般的な利用方法です。
事前学習_教材_インスタンス化5:43
GPTクラスなどを実際に使える「モノ」の状態に変換しておきます。
クロスエントロピーについて0:53
事前学習_教材_Train_13:37
GPTを学習させるループ処理を書いていきます。
事前学習_教材_Train_24:03
引き続き、GPTを学習させるループ処理を書いていきます。
事前学習_教材_Train_33:16
ログの表示や保存する処理について教材をみながら確認していきます。
事前学習_教材_学習の実行3:02
学習ループを実行して、学習の推移を確認してみましょう。
事前学習_教材_TEST3:59
テスト用のモジュールを利用して、青空文庫の文章が再現できているか確認してみます。
動画解説は小規模なコーパスでの学習ですので、過剰適合 (over fitting) しています。時間のある方は、コーパスを増やしてゼロショットを確認してみましょう。
事前学習（常識を学ぶ）_Part22:02
実際の大季語言語モデルでの事前学習の意味は何なのでしょうか。
「ChatGPTで自分の会社の情報が出てこない」と不満に思っていらっしゃる方は、ここで確認しておくことにしましょう。

目的関数13:53
ここでは、GPTの目的関数について学んでいきます。数式が出てきますが、機械学習全般に関わる要素を含んでいますので、ここで一緒に学んでおきましょう。
目的関数22:27
引き続き、数式を理解していきましょう。
目的関数34:27
引き続き、数式を理解していきます。混乱しそうな部分は色分けで、解説していきます。
目的関数4_対数尤度3:17
最も基本的て一般的な対数尤度について学んできます。機械学習経験者の方も、おさらいしておきましょう。
目的関数5_CrossEntropyError2:31
CrossEntropy を機械学習ラーブラリーの観点から見ていきます。結果としては、実に単純な仕組みです。

Requirements

ＧＰＴの仕組みを理解したいという気持ち

Description

初期のGPTを１から作ってみます。ChatGPTのような役立つ生成モデルを再現することはできませんが、学問的な視点から、基本的なGPTを作ってみることで、どうして自然言語が使えるＡＩが実現するようになったのか、手を動かしながら学びます。イラスト解説と平行して、前半は自然言語処理の成り立ちを学び、後半では、Attentionメカニズムを搭載したTransformerの部品を作っていきます。臨機応変に機械学習に関係することも紹介しています。とにかく、掴める内容にしようと思って愚直に青臭くコースを作成しました。生の生成ＡＩに触れてみたい方にお勧めです。

Who this course is for:

ＧＰＴや自然言語に興味のある方
機械学習の応用を学びたい方
人工知能（ＡＩ）に興味のある方

GPTを自作して大規模言語モデルを理解する：PythonでTransformerとAttentionを学ぶLLM機械学習

What you'll learn

Explore related topics

Course content

このコースの紹介5 lectures • 8min

自然言語処理4 lectures • 7min

word2Vec7 lectures • 20min

コサイン類似度12 lectures • 32min

Transformer24 lectures • 56min

GPTの作成 上 GPTと埋め込みベクトル15 lectures • 39min

GPTの作成 中 Transformer Block21 lectures • 54min

GPTの作成 下 全てをまとめて8 lectures • 17min

事前学習18 lectures • 47min

GPTの目的関数5 lectures • 17min

Requirements

Description

Who this course is for: