AI安全性（AI Safety）とは？誤用防止・有害出力・多層対策

AI安全性（AI Safety）は、AIの誤用・暴走・有害出力を防ぎ、意図しない害を減らすための研究・実践の総称です。本記事はジェイルブレイクの個別攻撃解説ではなく、脅威の種類と対策の層——モデル・利用者・組織・社会——を横断して整理します。

試験で問われる見方

生成AIパスポートでは、レッドチーミングが「画面を赤くするデザイン作業」ではなく、攻撃者視点で弱点を検証する取り組みであることが問われます（TF-0422）。また、機密情報を詳しくプロンプトに入れるほど安全、という言い方は×です（TF-0466）。

G検定では、AI倫理の「安全性」原則と、生成AIの有害出力・誤情報への対策が横断的に出ます。単一の技術で完璧に防げる、という選択肢は疑ってください。

演習で確認する

AI安全性は、AIシステムが意図した目的の範囲で動き、害を与えにくいようにするための取り組みです。研究コミュニティでは将来の汎用AI（AGI）のリスクも議論されますが、試験・実務では主に次が中心です。

「安全＝出力が常に正確」ではありません。正確性はハルシネーション対策の話であり、安全性は害の防止という別軸でも捉えます。

対策を考える前に、何に備えるかを分類すると整理しやすいです。

AI安全性は一つの技法で完結しません。試験では「RLHFだけで十分」「RAGだけで安全」といった言い切りに注意してください。

ハルシネーション対策記事と合わせると、「正確性」と「有害性」の両方を多層で扱う全体像が見えます。

重なりはありますが、試験では定義のすり替えに注意してください。

安全性は開発者だけの責任ではありません。導入企業は利用範囲の限定、教育、インシデント対応を整備し、利用者は入力内容と出力の確認を行います。

「AIが安全だから人間の確認は不要」は、AI倫理の人間中心の考え方とも矛盾し、試験では×になりやすいです（TF-275）。

AI安全性とAI倫理の違いは？

倫理は価値・原則の枠組み、安全性は害・誤用の防止に焦点を当てる実践・研究領域です。両方とも「安全」という語を使いますが、試験では文脈で区別します。

アライメントはAI安全性の一部？

モデルを人間の意図に沿わせる考え方として、安全性対策の重要な要素です。詳細はアライメントの記事を参照。RLHFはその実装手法の一つとして別概念です（HQ-0288）。

レッドチーミングとは？

攻撃者・悪用者の視点で弱点を探す検証です。デザイン用語ではありません（TF-0422）。

ジェイルブレイク対策だけで十分？

不十分です。ジェイルブレイクは利用者回避の一例であり、インジェクション・データ漏えい・誤情報など他の脅威もあります。