モデル・技術

アライメント(Alignment)とは?人間の意図との整合・RLHFとの違い

読み:あらいんめんと / 英:Alignment

更新日: 読了目安:約7分

アライメント(Alignment)は、LLMなどのAIの出力や行動を、人間の意図や価値観に沿うよう調整する考え方です。本記事はAI安全性の脅威モデル全体ではなく、「望ましい振る舞いにどう寄せるか」——目的と実装手法の地図——に焦点を当てます。

試験で問われる見方

生成AIパスポート第2章では、定義を一言で言えることが重要です。「AIの出力や行動を人間の意図や価値観に沿うよう調整する考え方」——この文が正解になる問題が多数あります(TF-0124HQ-0240HQ-0288)。

誤答では、物理的にモデルを並べる作業TF-0125)、ChatGPTそのものマルチモーダル性RLHFの説明をアライメントの定義にするHQ-0288のD選択肢)など、別概念のすり替えに注意してください。

アライメントとは

アライメントは、AIが人間が望む目的に沿って動くようにすること、広い意味では人間の価値観・倫理との整合を目指す考え方です。英語の align(一直線に揃える)から、モデルの振る舞いを人間の意図に「揃える」イメージです。

試験では研究用語としての厳密な理論より、指示追従・安全な拒否・有害出力の抑制といった実務的な意味で理解すれば十分なことが多いです。

なぜ必要か

事前学習だけのLLMは、次トークン予測で「もっともらしい続き」を生成しますが、有害・違法・差別的な内容や、ユーザー意図とずれた回答も出力しうります。

  • 危険な行為の具体的助言を拒否したい
  • 丁寧で一貫した対話スタイルにしたい
  • プロンプトの指示(形式・制約)に従わせたい
  • 公平性AI倫理に反する出力を減らしたい

これらをまとめて「アライメント」の課題として捉え、AI安全性対策の中核の一つになります。

実現手法の地図

アライメントは単一のボタンではなく、複数の手法の組み合わせです。

手法・要素 役割 アライメントとの関係
教師ありファインチューニング(SFT) 良い応答例で学習 指示追従の基礎
RLHF 人間の好みを報酬に反映 アライメントの実装手法の一つ(定義そのものではない)
システムプロンプト 役割・拒否ルールの明示 推論時のガードレール
安全フィルタ・モデレーション 有害出力の検出・ブロック 運用層のアライメント
LoRA ドメイン適応 用途特化(安全調整とは目的が異なることも)

似た用語との違い

用語 性質
アライメント 目的・考え方。「意図に沿わせる」
RLHF 具体的な学習手法
ファインチューニング 追加学習全般(用途適応も含む)
ChatGPT 対話型サービス(製品名)
AI安全性 害・誤用防止の研究・実践(アライメントと重なる領域あり)

比較問題では2語の定義を入れ替えた選択肢が頻出です(HQ-0216)。

ChatGPTとの関係

ChatGPTは、GPT系列のモデルにアライメントを含む調整を施した上で提供されるサービスです。したがって「ChatGPT=アライメント」ではなく、アライメントはモデル調整の考え方・工程、ChatGPTは製品です。

InstructGPTの系譜は、指示追従とRLHFを通じたアライメントの歴史として試験に出ることがあります(TF-0126)。

よくある質問

アライメントとRLHFは同じ?

同じではありません。アライメントは考え方、RLHFは手法の一つです(HQ-0288)。

アライメントは物理的にモデルを並べる作業?

いいえ。比喩的な「揃える」という意味です(TF-0125)。

アライメントが完璧なら出力は常に正確?

いいえ。有害性の抑制と、ハルシネーション(事実誤り)の防止は別問題です。

AI安全性との違いは?

安全性は害・誤用防止の広い領域、アライメントは人間の意図・価値への整合に焦点を当てる概念です。重なりはあります。AI安全性も参照。