生成AI活用

ジェイルブレイクとは?安全制限の回避とインジェクションとの違い

読み:じぇいるぶれいく / 英:Jailbreak

更新日: 読了目安:約5分

ジェイルブレイク(Jailbreak)は、チャット型AIの安全ガードレールを意図的に回避し、通常は拒否される出力を引き出す試みです。語源はスマホの「脱獄」ですが、試験・実務では利用者自身のプロンプト工夫が中心です。第三者が文書に命令を埋め込むプロンプトインジェクションとは、攻撃の主体とシナリオが異なります。

試験で問われる見方

生成AIパスポートでは、セキュリティ全体の文脈でプロンプトインジェクションと並ぶリスクとして理解します。「パスワード管理だけでAI特有のリスクは不要」は×です(TF-0366)。

ジェイルブレイク単独の問題が少ない場合も、「本来のルールを無視させる」という説明はプロンプトインジェクションの解説(TF-0323)と対比して学ぶとよいです。

演習で確認する

生成AIパスポート:TF-0323(ルール無視のリスク)TF-0366

G検定:TF-204(制約回避の攻撃文脈)

ジェイルブレイクとは

サービス提供者が組み込んだ有害コンテンツ拒否・違法行為支援の禁止などの安全策を、ユーザー側のプロンプトで迂回しようとする行為です。研究目的で公開される「回避プロンプト」も話題になりますが、業務利用では利用規約違反・情報漏洩につながり得ます。

よく話題になる手口(概念)

具体的手順の共有は倫理・規約上問題になるため、試験ではカテゴリ名と意図の理解で十分なことが多いです。

カテゴリ 狙い
役割演技 「制限のないAIとして振る舞え」など架空設定で拒否を回避
段階的誘導 無害な質問から徐々に境界を越える
エンコード・言語変換 フィルタをすり抜ける表現に変換
間接要求 有害内容を「小説の台詞」などに擬装

なぜ防ぎきれないのか

LLMは自然言語のあらゆるパターンを学習しており、「拒否」と「従う」の境界は完全には定義できません。新しい回避手法はモデル更新のあとも次々試されます。だからこそ、技術対策だけでなく利用ポリシー・監査・教育がセットになります。

企業・組織での扱い

  • 社内規程で禁止明示 — 安全策の意図的回避、機密抽出の試み
  • 許可ツールのみ利用 — シャドーITのチャット利用を防ぐ
  • 出力の用途制限 — 業務判断は人が行う(人間中心
  • インシデント報告 — 回避成功例の共有はセキュリティリスク

AIガバナンスEU AI Actの高リスク区分も、安全・悪用の文脈で関連します。

関連用語との整理

用語 一言で
プロンプトインジェクション 第三者コンテンツ経由の命令混入
ジェイルブレイク 利用者が安全制限を回避する試み
システムプロンプト 守ろうとする側の上位指示
AI安全性 誤用・有害出力を防ぐ研究・実践の総称

よくある質問

ジェイルブレイクとプロンプトインジェクションの違いは?

ジェイルブレイクは利用者の回避試み、インジェクションは第三者による命令混入が典型です。詳細は各記事を参照。

研究目的ならOK?

組織の規程・サービス利用規約・法令によります。試験では悪用リスクとして理解してください。

対策は?

モデル側の安全学習に加え、ポリシー・監視・権限制御。インジェクション対策と多く重なります。