AI安全性(AI Safety)は、AIの誤用・暴走・有害出力を防ぎ、意図しない害を減らすための研究・実践の総称です。本記事はジェイルブレイクの個別攻撃解説ではなく、脅威の種類と対策の層——モデル・利用者・組織・社会——を横断して整理します。
試験で問われる見方
生成AIパスポートでは、レッドチーミングが「画面を赤くするデザイン作業」ではなく、攻撃者視点で弱点を検証する取り組みであることが問われます(TF-0422)。また、機密情報を詳しくプロンプトに入れるほど安全、という言い方は×です(TF-0466)。
G検定では、AI倫理の「安全性」原則と、生成AIの有害出力・誤情報への対策が横断的に出ます。単一の技術で完璧に防げる、という選択肢は疑ってください。
演習で確認する
生成AIパスポート:TF-0421(レッドチーミング)、TF-0422、HQ-0240(アライメント)、TF-0466(機密入力)
AI安全性とは
AI安全性は、AIシステムが意図した目的の範囲で動き、害を与えにくいようにするための取り組みです。研究コミュニティでは将来の汎用AI(AGI)のリスクも議論されますが、試験・実務では主に次が中心です。
- 危険・違法・差別的な有害出力の抑制
- 誤情報・ハルシネーションによる被害の低減
- 誤用・悪用(なりすまし、詐欺、自動攻撃など)への備え
- 機密・個人情報の漏えい防止
「安全=出力が常に正確」ではありません。正確性はハルシネーション対策の話であり、安全性は害の防止という別軸でも捉えます。
主な脅威の類型
対策を考える前に、何に備えるかを分類すると整理しやすいです。
| 類型 | 内容 | 関連用語 |
|---|---|---|
| モデル出力の害 | 暴力・違法行為の助長、差別的表現 | システムプロンプト、安全フィルタ |
| 信頼性の欠如 | もっともらしい誤情報、捏造引用 | ハルシネーション |
| 利用者による回避 | 安全制限の意図的な突破 | ジェイルブレイク |
| 第三者による攻撃 | 外部データ経由の命令混入 | プロンプトインジェクション |
| データ・プライバシー | 学習データ漏えい、プロンプト流出 | 個人情報保護法 |
多層の対策
AI安全性は一つの技法で完結しません。試験では「RLHFだけで十分」「RAGだけで安全」といった言い切りに注意してください。
- モデル層 — 安全な学習データ、アライメント(人間の意図・価値観への調整)、RLHFなど(HQ-0240)
- プロンプト・ポリシー層 — システムプロンプト、利用規約、拒否ルール
- 検証層 — レッドチーミング、有害出力の評価、回帰テスト(TF-0421)
- アクセス・運用層 — 権限管理、ログ監視、API制限、AIガバナンス
- 人の層 — 出力確認、承認フロー、AIリテラシー教育
ハルシネーション対策記事と合わせると、「正確性」と「有害性」の両方を多層で扱う全体像が見えます。
倫理・セキュリティとの違い
| 概念 | 問い | 例 |
|---|---|---|
| AI安全性 | 害・誤用・暴走をどう防ぐか | 有害出力抑制、レッドチーミング |
| AI倫理 | どの価値を大切にするか | 公平性、人間中心、説明責任 |
| AIセキュリティ(攻撃) | 悪意ある入力・混入をどう防ぐか | プロンプトインジェクション、ジェイルブレイク |
| AIガバナンス | 組織としてどう統治するか | 方針、評価、監査、改善サイクル |
重なりはありますが、試験では定義のすり替えに注意してください。
組織・利用者の役割
安全性は開発者だけの責任ではありません。導入企業は利用範囲の限定、教育、インシデント対応を整備し、利用者は入力内容と出力の確認を行います。
「AIが安全だから人間の確認は不要」は、AI倫理の人間中心の考え方とも矛盾し、試験では×になりやすいです(TF-275)。
よくある質問
AI安全性とAI倫理の違いは?
倫理は価値・原則の枠組み、安全性は害・誤用の防止に焦点を当てる実践・研究領域です。両方とも「安全」という語を使いますが、試験では文脈で区別します。
アライメントはAI安全性の一部?
モデルを人間の意図に沿わせる考え方として、安全性対策の重要な要素です。詳細はアライメントの記事を参照。RLHFはその実装手法の一つとして別概念です(HQ-0288)。
レッドチーミングとは?
攻撃者・悪用者の視点で弱点を探す検証です。デザイン用語ではありません(TF-0422)。
ジェイルブレイク対策だけで十分?
不十分です。ジェイルブレイクは利用者回避の一例であり、インジェクション・データ漏えい・誤情報など他の脅威もあります。