アライメント(Alignment)は、LLMなどのAIの出力や行動を、人間の意図や価値観に沿うよう調整する考え方です。本記事はAI安全性の脅威モデル全体ではなく、「望ましい振る舞いにどう寄せるか」——目的と実装手法の地図——に焦点を当てます。
試験で問われる見方
生成AIパスポート第2章では、定義を一言で言えることが重要です。「AIの出力や行動を人間の意図や価値観に沿うよう調整する考え方」——この文が正解になる問題が多数あります(TF-0124、HQ-0240、HQ-0288)。
誤答では、物理的にモデルを並べる作業(TF-0125)、ChatGPTそのもの、マルチモーダル性、RLHFの説明をアライメントの定義にする(HQ-0288のD選択肢)など、別概念のすり替えに注意してください。
演習で確認する
生成AIパスポート:TF-0124、TF-0125、HQ-0216(ChatGPTとの比較)、TF-0166(RLHFの誤解)
アライメントとは
アライメントは、AIが人間が望む目的に沿って動くようにすること、広い意味では人間の価値観・倫理との整合を目指す考え方です。英語の align(一直線に揃える)から、モデルの振る舞いを人間の意図に「揃える」イメージです。
試験では研究用語としての厳密な理論より、指示追従・安全な拒否・有害出力の抑制といった実務的な意味で理解すれば十分なことが多いです。
なぜ必要か
事前学習だけのLLMは、次トークン予測で「もっともらしい続き」を生成しますが、有害・違法・差別的な内容や、ユーザー意図とずれた回答も出力しうります。
これらをまとめて「アライメント」の課題として捉え、AI安全性対策の中核の一つになります。
実現手法の地図
アライメントは単一のボタンではなく、複数の手法の組み合わせです。
| 手法・要素 | 役割 | アライメントとの関係 |
|---|---|---|
| 教師ありファインチューニング(SFT) | 良い応答例で学習 | 指示追従の基礎 |
| RLHF | 人間の好みを報酬に反映 | アライメントの実装手法の一つ(定義そのものではない) |
| システムプロンプト | 役割・拒否ルールの明示 | 推論時のガードレール |
| 安全フィルタ・モデレーション | 有害出力の検出・ブロック | 運用層のアライメント |
| LoRA等 | ドメイン適応 | 用途特化(安全調整とは目的が異なることも) |
似た用語との違い
| 用語 | 性質 |
|---|---|
| アライメント | 目的・考え方。「意図に沿わせる」 |
| RLHF | 具体的な学習手法 |
| ファインチューニング | 追加学習全般(用途適応も含む) |
| ChatGPT | 対話型サービス(製品名) |
| AI安全性 | 害・誤用防止の研究・実践(アライメントと重なる領域あり) |
比較問題では2語の定義を入れ替えた選択肢が頻出です(HQ-0216)。
ChatGPTとの関係
ChatGPTは、GPT系列のモデルにアライメントを含む調整を施した上で提供されるサービスです。したがって「ChatGPT=アライメント」ではなく、アライメントはモデル調整の考え方・工程、ChatGPTは製品です。
InstructGPTの系譜は、指示追従とRLHFを通じたアライメントの歴史として試験に出ることがあります(TF-0126)。