アライメント（Alignment）とは？人間の意図との整合・RLHFとの違い

同じではありません。アライメントは目的・考え方、RLHFは人間のフィードバックで調整する具体的な手法の一つです。

アライメント（Alignment）は、LLMなどのAIの出力や行動を、人間の意図や価値観に沿うよう調整する考え方です。本記事はAI安全性の脅威モデル全体ではなく、「望ましい振る舞いにどう寄せるか」——目的と実装手法の地図——に焦点を当てます。

試験で問われる見方

生成AIパスポート第2章では、定義を一言で言えることが重要です。「AIの出力や行動を人間の意図や価値観に沿うよう調整する考え方」——この文が正解になる問題が多数あります（TF-0124、HQ-0240、HQ-0288）。

誤答では、物理的にモデルを並べる作業（TF-0125）、ChatGPTそのもの、マルチモーダル性、RLHFの説明をアライメントの定義にする（HQ-0288のD選択肢）など、別概念のすり替えに注意してください。

演習で確認する

アライメントは、AIが人間が望む目的に沿って動くようにすること、広い意味では人間の価値観・倫理との整合を目指す考え方です。英語の align（一直線に揃える）から、モデルの振る舞いを人間の意図に「揃える」イメージです。

試験では研究用語としての厳密な理論より、指示追従・安全な拒否・有害出力の抑制といった実務的な意味で理解すれば十分なことが多いです。

事前学習だけのLLMは、次トークン予測で「もっともらしい続き」を生成しますが、有害・違法・差別的な内容や、ユーザー意図とずれた回答も出力しうります。

これらをまとめて「アライメント」の課題として捉え、AI安全性対策の中核の一つになります。

アライメントは単一のボタンではなく、複数の手法の組み合わせです。

比較問題では2語の定義を入れ替えた選択肢が頻出です（HQ-0216）。

ChatGPTは、GPT系列のモデルにアライメントを含む調整を施した上で提供されるサービスです。したがって「ChatGPT＝アライメント」ではなく、アライメントはモデル調整の考え方・工程、ChatGPTは製品です。

InstructGPTの系譜は、指示追従とRLHFを通じたアライメントの歴史として試験に出ることがあります（TF-0126）。

アライメントとRLHFは同じ？

同じではありません。アライメントは考え方、RLHFは手法の一つです（HQ-0288）。

アライメントは物理的にモデルを並べる作業？

いいえ。比喩的な「揃える」という意味です（TF-0125）。

アライメントが完璧なら出力は常に正確？

いいえ。有害性の抑制と、ハルシネーション（事実誤り）の防止は別問題です。

AI安全性との違いは？

安全性は害・誤用防止の広い領域、アライメントは人間の意図・価値への整合に焦点を当てる概念です。重なりはあります。AI安全性も参照。