Constitutional AIとは？原則で自己修正する——安全性志向の学習設計

Constitutional AI（憲法的AI／CAI）は、行動原則——いわば「憲法」——を明示し、LLMが自身の出力を批判・修正することで、有害でない応答を学ぶアライメント手法です。RLHFが人間の好み評価を中心に据えるのに対し、CAIは「原則に照らして自分で直す」——本記事はAnthropicの実装細部ではなく、試験で整理すべき目的・層・すり替えに焦点を当てます。

憲法——何を書くか

Constitutional AIの「Constitutional（憲法的）」は、国家の法律ではなく、AIが守るべき行動原則の一覧を指します。

有害・違法な内容を助長しない
差別的・侮辱的な表現を避ける
プライバシーを侵害しない
正直で、不確かなときは限界を認める

試験では条文の暗記は不要です。要点は「原則を明示し、それに沿う振る舞いを学習する」——安全志向の学習設計、という一文です。

自己批判と修正の流れ

概念としての2段階は次のとおりです（簡略化）。

批判段階 — モデルが有害になりうる応答を生成し、憲法に照らして自己批判する（「なぜこれは問題か」）
修正段階 — 批判を踏まえ望ましい応答に書き直す。修正後の応答で教師あり学習
（発展） — 好ましい応答を報酬とするRLAIF（AIフィードバックからの強化学習）へつなぐ研究もある

RLHFが「人間がAとBどちらが良いか選ぶ」中心なら、CAIは「原則に基づきモデル自身が直す」比重を高める発想です。人間ラベラの負荷や一貫性の課題への応答として位置づけられます。

RLHFとの違い

観点	RLHF	Constitutional AI
信号の源	人間の好み・ランキング	原則＋自己批判・修正
学習枠組み	報酬モデル＋強化学習（G-370）	教師あり＋（発展的に）AIフィードバック
上位概念	いずれもアライメントの実現手法（定義そのものではない）
限界	有害出力の完全排除は保証されない（TF-486）

生成AIパスポートではRLHFの定義が頻出（HQ-0311等）ですが、RLHFの説明をアライメントの定義にすり替えるのは×（HQ-0288）。CAIも同様に、手法名≠アライメント全体として整理します。

Claudeとの関係

Constitutional AIはAnthropicが公表した研究手法で、Claudeの安全化ストーリーと結びついて語られます。

CAI — 学習・調整の手法
Claude — 対話型LLMの製品・モデル名
安全性 — 誤作動・悪用への配慮（TF-272）

「Claude＝Constitutional AI」ではありません。ChatGPTがRLHFを使うのと同様、製品は複数の手法を組み合わせると理解するのが試験向けです。

試験で押さえるポイント

定義 — 原則に基づき自己修正する安全志向の学習手法
層 — アライメントの実装手法の一つ（目的そのものではない）
対比 — RLHF（人間FB）、DPO（好みの直接最適化）との違い。併用もありうる
すり替え回避 — 法律の憲法、GAN、データ拡張ではない

演習で確認する

G検定：G-370、TF-272、TF-486

生成AIパスポート：TF-0124、HQ-0311、TF-0166

すり替えに注意

誤った説明	正しい理解
CAI＝アライメントの定義	実現手法の一つ vs 上位の考え方
CAI＝RLHF	原則＋自己修正 vs 人間フィードバック（G-370）
CAI＝Claude	手法 vs 製品名
CAI＝有害出力を完全排除	安全性向上を狙うが保証ではない
CAI＝日本国憲法の適用	AI行動原則の比喩。法律分野の用語ではない

よくある質問

Constitutional AIとは何ですか？

AIの行動原則（憲法）を明示し、モデルが自身の出力を原則に照らして批判・修正することで、有害でない望ましい応答を学ぶアライメント手法です。Anthropicが公表し、Claudeの安全化に関わる技術の一つとして語られます。

Constitutional AIとRLHFは同じですか？

同じではありません。RLHFは人間のフィードバックを報酬に変換して調整する手法です。Constitutional AIは原則に基づく自己批判・修正を重視し、人間ラベラへの依存を減らす方向の研究として位置づけられます。併用・発展形もあります。

Constitutional AIとアライメントは同じですか？

いいえ。アライメントは人間の意図に沿わせる上位の考え方です。Constitutional AIはその実現手法の一つであり、定義そのものではありません。