Transformer Decoder Emulator

大規模言語モデル (LLM) の内部動作を
「学習」から「推論」まで、ステップごとに可視化するツール

🐙 GitHub リポジトリソースコード・インストール方法・ライセンス 📝 Qiita 記事制作の経緯と学んだこと・技術的な解説

🔍 このプログラムは何？

AI チャットに質問すると、まるで「考えて」答えているように見えます。

しかし実際には、内部で数値の行列計算を何層も繰り返しているだけです。

このプログラムでは、小さな Transformer モデルを 実際に学習させ、その後の推論（予測）の全過程を1ステップずつ可視化します。

「AIが学ぶとはどういうことか」「質問に答えるとき内部で何が起きているか」を体感できます。

💬 なぜ Decoder だけ？

Transformer には Encoder（入力を理解する）と Decoder（テキストを生成する）の2種類がありますが、現在の主要な生成AI の多くは Decoder のみの構造を採用しています。

Decoder の特徴は Causal Mask（因果マスク）です。「未来の単語を見ずに次の単語を予測する」という制約があるからこそ、 1単語ずつテキストを生成できます。このツールでは、最も実用的かつ理解すべきこの Decoder 構造に焦点を当てています。

📝 今回のシナリオ

テーマ: 動物に関する質問と回答

学習データ（入力）	正解
「人気のペットは」	猫
「かわいい動物は」	猫
「化ける動物は」	猫
「気まぐれな動物は」	猫
…他 12 件

登場する答え: 犬・狐・狸・猫

推論で試す質問: 「人気のペットは」 / 「山で見かける動物は」 / 「化ける動物は」 / 「忠実な動物は」 / 「かわいい動物は」 / 「昔話に出る動物は」

モデル: 4レイヤー / d_model=16 / 2ヘッド / パラメータ数 13,728 個
（教育用に極小サイズ。実際の LLM は数千万〜数千億個のパラメータを持つ）

🎯 このツールで体験できること

AIモデルが動くまでには、大きく2つのフェーズがあります。

フェーズ1: 学習（Training）

ランダムな重みから始めて、16件の学習データを300回繰り返し学習。

モデルに質問を入力し、答えを予測させる（最初はデタラメ）
予測と正解のズレ（損失関数）を計算する
ズレが小さくなるよう重みを少しずつ調整する（勾配降下法）
これを何百回も繰り返す → 予測精度が上がる

→ 損失関数の値が下がっていく様子を確認できます。

フェーズ2: 推論（Inference）

学習済みモデルに質問を入力し、答えを予測させる。この内部処理を全ステップ可視化。

質問文を単語（トークン）に分割し、数値（ベクトル）に変換する
各単語が「他のどの単語に注目するか」を計算する（Self-Attention）
各単語の表現をさらに変換する（FFN）
2〜3 を4回繰り返す（= 4層のレイヤー）
最後に、語彙の中から「次に来る単語」の確率を出力する（次トークン予測）

→ 各質問ごとに、Embedding → Attention → FFN → 予測の全過程を確認できます。

📌 ポイント: このエミュレータは実際に16件のデータで学習を行っています。答えを事前に仕込んでいるのではなく、モデルが学習データから「文脈と答えの関係」を学び取った結果です。ただし、実際の LLM は数兆語のデータで学習しており、このミニチュアモデルとは規模が全く異なります。

学習データ	16件（下の表を参照）
エポック数	300回（＝ 16件を300回繰り返す）
学習ステップ合計	4,800回（＝ 16 × 300）
学習率	0.005（1回の修正の大きさ）

入力（質問）	予測結果
人気のペットは	犬 (52%) / 猫 (47%) / 狸 (1%)
山で見かける動物は	犬 (33%) / 狸 (33%) / 狐 (32%) / 猫 (1%)
化ける動物は	猫 (36%) / 狸 (32%) / 狐 (30%) / 犬 (1%)
忠実な動物は	犬 (99%)
かわいい動物は	猫 (56%) / 狸 (42%) / 狐 (1%)
昔話に出る動物は	狸 (51%) / 狐 (47%) / 猫 (1%) / 犬 (1%)

パラメータ	意味	推奨値
`layers`	レイヤー数。多いほど深い表現が可能だが学習に時間がかかる	2〜4
`d_model`	各トークンのベクトル次元数。大きいほど表現力が高いが過学習しやすい	8〜32
`heads`	Attention ヘッド数。異なる観点で注目できる数	2〜4
`d_ff`	FFN の中間層の次元数	d_model×4
`epochs`	エポック数。学習データを何周するか	200〜500
`lr`	学習率。大きいと速いが不安定になる	0.001〜0.01
`temperature`	Temperature。推論時の予測のランダム性	0.5〜2.0

テーマ	学習データの例
🍎 果物	「赤い果物は」→ りんご / 「黄色い果物は」→ バナナ / 「甘い果物は」→ りんご,バナナ
🌍 首都	「日本の首都は」→ 東京 / 「アジアの大都市は」→ 東京,北京
💻 言語	「Web開発の言語は」→ JavaScript / 「AI開発の言語は」→ Python
📚 文学	「日本の文豪は」→ 夏目漱石 / 「明治の作家は」→ 夏目漱石,森鷗外

🔍 このプログラムは何？

💬 なぜ Decoder だけ？

📝 今回のシナリオ

🎯 このツールで体験できること

フェーズ1: 学習（Training）

フェーズ2: 推論（Inference）

「学習」とは何か？

今回の学習の規模

各ステップで起きていること

学習データ（16件）

学習アニメーション

損失関数 (Loss)

次トークン予測の変化

モデル情報

Attention Weight の変化

🔎 アニメーションの着目ポイント

⚙️ Transformer の処理フロー

🔎 推論アニメーションの着目ポイント

推論結果一覧

📄 プロファイル JSON の構造

📝 学習データの作り方のコツ

⚙️ モデルパラメータの意味

💡 テーマの例

🖥️ コマンドの使い方

📖 用語集 / Glossary

用語詳細一覧

🔍 このプログラムは何？

💬 なぜ Decoder だけ？

📝 今回のシナリオ

🎯 このツールで体験できること

フェーズ1: 学習（Training）

フェーズ2: 推論（Inference）

「学習」とは何か？

今回の学習の規模

各ステップで起きていること

学習データ（16件）

学習アニメーション

損失関数 (Loss)

次トークン予測 の変化

モデル情報

Attention Weight の変化

🔎 アニメーションの着目ポイント

⚙️ Transformer の処理フロー

🔎 推論アニメーションの着目ポイント

推論結果一覧

📄 プロファイル JSON の構造

📝 学習データの作り方のコツ

⚙️ モデルパラメータの意味

💡 テーマの例

🖥️ コマンドの使い方

📖 用語集 / Glossary

用語詳細一覧

次トークン予測の変化