生成AI活用

AI安全性(AI Safety)とは?誤用防止・有害出力・多層対策

読み:えーあいあんぜんせい / 英:AI Safety

更新日: 読了目安:約7分

AI安全性(AI Safety)は、AIの誤用・暴走・有害出力を防ぎ、意図しない害を減らすための研究・実践の総称です。本記事はジェイルブレイクの個別攻撃解説ではなく、脅威の種類と対策の層——モデル・利用者・組織・社会——を横断して整理します。

試験で問われる見方

生成AIパスポートでは、レッドチーミングが「画面を赤くするデザイン作業」ではなく、攻撃者視点で弱点を検証する取り組みであることが問われます(TF-0422)。また、機密情報を詳しくプロンプトに入れるほど安全、という言い方は×です(TF-0466)。

G検定では、AI倫理の「安全性」原則と、生成AIの有害出力・誤情報への対策が横断的に出ます。単一の技術で完璧に防げる、という選択肢は疑ってください。

AI安全性とは

AI安全性は、AIシステムが意図した目的の範囲で動き、害を与えにくいようにするための取り組みです。研究コミュニティでは将来の汎用AI(AGI)のリスクも議論されますが、試験・実務では主に次が中心です。

  • 危険・違法・差別的な有害出力の抑制
  • 誤情報・ハルシネーションによる被害の低減
  • 誤用・悪用(なりすまし、詐欺、自動攻撃など)への備え
  • 機密・個人情報の漏えい防止

「安全=出力が常に正確」ではありません。正確性はハルシネーション対策の話であり、安全性は害の防止という別軸でも捉えます。

主な脅威の類型

対策を考える前に、何に備えるかを分類すると整理しやすいです。

類型 内容 関連用語
モデル出力の害 暴力・違法行為の助長、差別的表現 システムプロンプト、安全フィルタ
信頼性の欠如 もっともらしい誤情報、捏造引用 ハルシネーション
利用者による回避 安全制限の意図的な突破 ジェイルブレイク
第三者による攻撃 外部データ経由の命令混入 プロンプトインジェクション
データ・プライバシー 学習データ漏えい、プロンプト流出 個人情報保護法

多層の対策

AI安全性は一つの技法で完結しません。試験では「RLHFだけで十分」「RAGだけで安全」といった言い切りに注意してください。

  • モデル層 — 安全な学習データ、アライメント(人間の意図・価値観への調整)、RLHFなど(HQ-0240
  • プロンプト・ポリシー層システムプロンプト、利用規約、拒否ルール
  • 検証層レッドチーミング、有害出力の評価、回帰テスト(TF-0421
  • アクセス・運用層 — 権限管理、ログ監視、API制限、AIガバナンス
  • 人の層 — 出力確認、承認フロー、AIリテラシー教育

ハルシネーション対策記事と合わせると、「正確性」と「有害性」の両方を多層で扱う全体像が見えます。

倫理・セキュリティとの違い

概念 問い
AI安全性 害・誤用・暴走をどう防ぐか 有害出力抑制、レッドチーミング
AI倫理 どの価値を大切にするか 公平性、人間中心、説明責任
AIセキュリティ(攻撃) 悪意ある入力・混入をどう防ぐか プロンプトインジェクションジェイルブレイク
AIガバナンス 組織としてどう統治するか 方針、評価、監査、改善サイクル

重なりはありますが、試験では定義のすり替えに注意してください。

組織・利用者の役割

安全性は開発者だけの責任ではありません。導入企業は利用範囲の限定、教育、インシデント対応を整備し、利用者は入力内容と出力の確認を行います。

「AIが安全だから人間の確認は不要」は、AI倫理の人間中心の考え方とも矛盾し、試験では×になりやすいです(TF-275)。

よくある質問

AI安全性とAI倫理の違いは?

倫理は価値・原則の枠組み、安全性は害・誤用の防止に焦点を当てる実践・研究領域です。両方とも「安全」という語を使いますが、試験では文脈で区別します。

アライメントはAI安全性の一部?

モデルを人間の意図に沿わせる考え方として、安全性対策の重要な要素です。詳細はアライメントの記事を参照。RLHFはその実装手法の一つとして別概念です(HQ-0288)。

レッドチーミングとは?

攻撃者・悪用者の視点で弱点を探す検証です。デザイン用語ではありません(TF-0422)。

ジェイルブレイク対策だけで十分?

不十分です。ジェイルブレイクは利用者回避の一例であり、インジェクション・データ漏えい・誤情報など他の脅威もあります。