生成AIの仕組み — Transformerから大規模言語モデルまで

なぜ仕組みを知ると得なのか

生成AIを使うだけなら、仕組みを理解する必要はない。しかし内部の原理を知ると、なぜAIは特定の質問に強くて別の質問に弱いのか、なぜハルシネーション（もっともらしい嘘）が起きるのかが直感的に理解できるようになる。

それはAIをより賢く使うための地図を持つことに等しい。

ディープラーニングの基礎：ニューラルネットワーク

生成AIを理解するには、まずニューラルネットワークから始める必要がある。

ニューラルネットワークは、人間の脳の神経細胞（ニューロン）構造を模したコンピューターモデルだ。大量のデータを入力し、正解に近づくように内部のパラメータ（重み）を繰り返し調整することで、パターンを学習する。

**深層学習（ディープラーニング）**とは、このニューラルネットワークを多層に重ねた手法で、複雑なパターンの認識・生成を可能にした。画像認識、音声認識、自然言語処理のいずれも、ディープラーニングの登場で飛躍的な性能向上を遂げた。

しかし長らく、言語処理の分野では限界があった。文章は単語の「順序」に意味があるにもかかわらず、既存の手法ではその文脈を十分に捉えきれなかった。

Transformerの登場：2017年の革命

2017年、Googleの研究者たちが発表した論文「Attention Is All You Need」が、自然言語処理の歴史を塗り替えた。そこで提案されたTransformerというアーキテクチャが、現代の生成AIの基盤となっている。

Transformerが解決した問題

従来の言語モデルは、文章を順番に一単語ずつ処理していた。「今日は良い天気です」という文なら、「今日は」→「良い」→「天気」→「です」の順に処理する。

この方式の問題は、文章が長くなるほど最初の方の情報が薄れていく点だ。長い段落の最初に登場した「主語」が、最後の動詞と対応していることを正確に把握するのが難しかった。

Transformerは、この問題を根本から解決した。

Attention機構：文脈を理解する鍵

Transformerの核心はAttention（アテンション）機構だ。

直感的な理解

「彼女は銀行に行った。残高を確認するために」という文を考える。「残高」という単語を処理するとき、AIは「銀行」という単語に強く注目する必要がある。ここでの「銀行」は川の土手ではなく金融機関だからだ。

Attention機構は、各単語を処理するときに「文中のどの単語に注目すべきか」を動的に計算する仕組みだ。

技術的な仕組み

Attentionは3つの要素で動作する。

Query（クエリ）：「今、何を探しているか」
Key（キー）：「各単語が持つラベル情報」
Value（バリュー）：「実際の内容情報」

QueryとKeyの類似度を計算することで、どのValueを重視するかが決まる。検索エンジンのアナロジーが分かりやすい——QueryがKeyと一致するほど、そのValueが強く引用される。

Multi-head Attention

TransformerはこのAttentionを複数並列で実行する「Multi-head Attention」を採用している。複数の観点から同時に文脈を解析することで、より豊かな言語理解が可能になる。

例えば「田中さんが田中部長に報告した」という文では、一方のAttentionが「誰が誰に」という主語・目的語の関係を、別のAttentionが「田中」という名詞の重複と区別を同時に処理する。

事前学習：世界中の文章から学ぶ

TransformerアーキテクチャによってAIが文脈を理解できるようになったが、GPT-4やGeminiが幅広い知識を持つのはなぜか。答えは**事前学習（Pre-training）**にある。

大規模データでの学習

大規模言語モデル（LLM）は、インターネット上の膨大なテキスト——書籍、学術論文、ニュース記事、ウェブページ——を使って学習する。GPT-4は数兆トークン（単語の最小単位）規模のデータで訓練されたとされる。

この段階でのタスクは「次の単語を予測する」という単純なものだ。「今日の天気は___」という文脈で最も適切な単語を予測する訓練を、無数の文章で繰り返すことで、言語の構造・事実・推論パターンが自然に身につく。

なぜ「汎用的な知識」が生まれるのか

次の単語予測という単純なタスクを極めるためには、結果的に広範な知識と推論能力が必要になる。事実を知っていなければ正確な予測ができない。文法を理解していなければ自然な文章にならない。事前学習はこの副作用として、非常に幅広い知識を獲得する。

微調整（Fine-tuning）とRLHF：使えるAIにする工程

事前学習だけのモデルは、ユーザーが「便利に使える」状態にはなっていない。次の単語を予測することに特化しているだけで、有用な回答を生成したり、安全なコンテンツを保ったりする保証がない。

指示チューニング（Instruction Tuning）

「質問をされたら答える」「タスクを依頼されたら実行する」という指示への従い方を追加学習する工程。具体的な質問と理想的な回答のペアデータで訓練する。

RLHF：人間のフィードバックから学ぶ

**RLHF（Reinforcement Learning from Human Feedback）**は、人間の評価者が複数の回答を比較・評価し、より良い回答を生成するようにモデルを調整する手法だ。

この工程によって、AIの回答が「技術的に正しい」だけでなく「人間にとって役立つ・安全だと感じられる」ものになる。ChatGPTやClaudeの「丁寧な話し方」「有害なコンテンツを避ける」といった特性は、主にRLHFによって生まれている。

テキストだけではない：生成AIの広がり

画像生成AI

Stable Diffusion、DALL-E、Midjourneyなどの画像生成AIは、テキストの記述から画像を生成する。基盤はDiffusionモデルという異なるアーキテクチャだが、テキストの意味を理解する部分にTransformerベースのモデルが使われている。

「ランダムなノイズから段階的に画像を復元する」という逆拡散プロセスが、高品質な画像生成を可能にしている。

マルチモーダルモデル

GPT-4oやGeminiのように、テキスト・画像・音声・動画を横断して処理できるモデルをマルチモーダルモデルと呼ぶ。

画像を見て内容を説明する、音声を聞いて文字に起こす、図表を解析してデータを抽出する——これらが単一のモデルで統合的に処理できる。詳細は別稿「マルチモーダルAIとは」で扱う。

LLMの限界：仕組みから理解する

ハルシネーション（幻覚）

LLMは「もっともらしい次の単語を予測する」機能で動作している。これは文脈的に自然な文章を生成することには優れるが、事実の正確性を保証する仕組みではない。

存在しない論文を引用したり、誤った数値を自信満々に答えたりするのは、このアーキテクチャの特性から生じる。事実確認が必要な情報は、必ず一次ソースで確認する習慣が重要だ。

知識のカットオフ

事前学習には終了時点（カットオフ）がある。それ以降の出来事についてはモデルが知識を持たない。「最新情報」を求める場合は、RAG（Retrieval-Augmented Generation）のように外部データベースと連携する仕組みが必要になる。

文脈窓（Context Window）の制約

一度に処理できるテキストの量には上限がある（GPT-4は128K、Gemini 2.5 Proは100万トークン超）。非常に長い文書を扱う場合、この制約を意識した使い方が必要になる。

まとめ

生成AIの仕組みを整理すると、以下のようになる。

Transformer：自己Attentionによって文脈を並列・動的に処理するアーキテクチャ
事前学習：大量のテキストデータから言語・知識・推論パターンを学習
微調整・RLHF：人間のフィードバックで「使えるAI」に仕上げる工程
マルチモーダル：テキストを超え、画像・音声・動画へ処理範囲が拡張

「次の単語を予測する」という一見シンプルな目標から、汎用的な知識と推論能力が生まれるという点は、今のAI技術の本質を表している。

その限界——ハルシネーション、知識のカットオフ、文脈窓の制約——も含めて理解することで、AIを道具として正しく使いこなせるようになる。

生成AIの仕組み — Transformerから大規模言語モデルまで

生成AIの仕組み — Transformerから大規模言語モデルまで

なぜ仕組みを知ると得なのか

ディープラーニングの基礎：ニューラルネットワーク

Transformerの登場：2017年の革命

Transformerが解決した問題

Attention機構：文脈を理解する鍵

直感的な理解

技術的な仕組み

Multi-head Attention

事前学習：世界中の文章から学ぶ

大規模データでの学習

なぜ「汎用的な知識」が生まれるのか

微調整（Fine-tuning）とRLHF：使えるAIにする工程

指示チューニング（Instruction Tuning）

RLHF：人間のフィードバックから学ぶ

テキストだけではない：生成AIの広がり

画像生成AI

マルチモーダルモデル

LLMの限界：仕組みから理解する

ハルシネーション（幻覚）

知識のカットオフ

文脈窓（Context Window）の制約

まとめ

参考資料

関連記事

大規模言語モデル（LLM）とは？初心者向け入門ガイド

マルチモーダルAIとは — テキスト・画像・音声を統合する次世代AI

プロンプトエンジニアリング入門：AIから最高の結果を引き出す方法