BREAKING NEWS

プロンプトインジェクションとは?AIエージェントを守る基本対策

プロンプトインジェクションは、生成AIやAIエージェントへ渡される文章・ファイル・Webページなどに含まれた指示によって、本来の目的とは異なる応答や操作を引き起こす問題です。AIエージェントが外部データを読み、ツールを使って更新・送信まで行う場合、誤った出力だけでなく、情報漏えいや権限外の操作につながる可能性があります。

完全に防ぐ単一の対策があるとは限りません。重要なのは、モデルへの指示だけに頼らず、外部データの扱い、ツール権限、人の承認、出力検証、監視を組み合わせ、攻撃が成功しても被害を広げにくい構成にすることです。

プロンプトインジェクションとは

OWASPは、利用者の入力などによってLLMの振る舞いや出力が意図しない形で変えられる脆弱性をプロンプトインジェクションとして整理しています。通常のプログラムでは命令とデータを明確に分けられますが、LLMは自然言語の指示と処理対象の文章を同じ文脈で扱うため、データ内の文章を命令として解釈する場合があります。

プロンプトインジェクションとジェイルブレイクは関連しますが、同じ意味ではありません。プロンプトインジェクションは入力によってモデルの振る舞いを変える問題全般を指し、ジェイルブレイクは安全制約を無視させようとする形の一つです。

直接型と間接型の違い

直接プロンプトインジェクション

利用者がチャット欄や入力フォームへ、本来の指示を無視させる文章や、内部情報を出力させようとする文章を直接入力する形です。公開チャットボットや問い合わせ支援など、利用者が自由文を入力できる仕組みでは、想定外の依頼を前提に設計します。

間接プロンプトインジェクション

AIが読むWebページ、メール、文書、画像、検索結果、RAGの参照資料、ツールの返却結果などに指示が埋め込まれている形です。利用者自身は悪意ある指示を入力していなくても、AIが外部コンテンツを読み込むことで影響を受けます。

NISTの生成AIプロファイルは、直接型では攻撃者が悪意あるプロンプトを入力し、間接型では取得される可能性があるデータへ遠隔からプロンプトを埋め込むと説明しています。外部データを幅広く読むAIエージェントでは、間接型を特に考慮する必要があります。

起こり得る影響

  • 本来と異なる回答、要約、判定を生成する
  • システム指示、会話履歴、機密情報を出力しようとする
  • 許可されていないツールや機能を呼び出す
  • 誤った宛先への送信、データ更新、削除などを提案・実行する
  • 外部データの悪意ある指示を、信頼できる指示として扱う

実際の影響は、AIに与えたデータと権限によって変わります。文章を下書きするだけの仕組みより、顧客情報、メール送信、データ更新などへ接続したエージェントのほうが、失敗時の影響は大きくなります。

AIエージェントを守る7つの基本対策

1. 外部データを信頼済みの指示として扱わない

Webページ、メール、添付ファイル、検索結果、RAG文書、ツール出力は、すべて信頼できないデータとして扱います。外部データから必要な項目だけを抽出し、検証済みの構造化データとして次の工程へ渡す方法を検討します。

2. 指示・データ・ツール結果を分離する

システムの指示、利用者の目的、処理対象データ、ツール結果を区別して管理します。ただし、区切りを入れるだけで完全に防げるとは考えず、権限制御や検証と組み合わせます。

3. ツール権限を必要最小限にする

AIエージェントへ管理者権限や広いAPI権限を常時与えません。読み取り専用、対象データ限定、操作回数・金額・時間の上限、利用できる宛先の制限などを設定します。ツール側でも権限と入力値を検証します。

4. 重要操作には人の承認を入れる

外部送信、公開、契約、支払い、重要データ更新、削除、権限変更などは、実行前に人が対象・内容・影響を確認します。OpenAIのエージェント安全ガイドも、ツール承認を有効にし、操作を利用者が確認できる構成を推奨しています。

5. 入力・出力・ツール呼び出しを検証する

不審な入力の検出だけでなく、出力形式、宛先、操作対象、引数、許可された業務範囲との一致を決定論的なコードで確認します。フィルターだけで安全が保証されるとは考えず、異常時は停止して人へ引き継ぎます。

6. ログ、監視、停止条件を用意する

入力、参照した外部データ、ツール呼び出し、人の承認、出力、エラー、停止理由を追跡できるようにします。通常と異なる操作、連続失敗、権限外の依頼、上限超過を検知した場合は、自動実行を停止します。

7. 正常系だけでなく攻撃を想定してテストする

直接入力だけでなく、Webページ、文書、画像、検索結果、RAGデータ、ツール結果へ不審な指示が含まれるケースを試します。NISTは、プロンプトインジェクションなどに対する回復力を評価するAIレッドチーミングを挙げています。

導入前チェックリスト

  • 外部データを信頼できない入力として分類している
  • AIが参照できる情報と実行できる操作を一覧化している
  • ツールの権限・引数・対象データをコード側でも検証している
  • 重要操作は人の承認なしに実行されない
  • 異常時の停止条件、回数上限、費用上限がある
  • 入力・出力・操作・承認を追跡できるログがある
  • 直接型・間接型を含むテストを定期的に行っている
  • 事故発生時の停止、連絡、影響確認、復旧手順がある

まとめ

プロンプトインジェクションは、生成AIが処理する入力によって本来と異なる振る舞いを引き起こす問題です。AIエージェントが外部データとツールを扱うほど、入力フィルターだけではなく、データ分離、最小権限、人の承認、出力・操作検証、ログ、攻撃想定テストを組み合わせる必要があります。

AIエージェントの構造はAIエージェントとは何か、導入時の責任・承認・事故対応はAIエージェント導入前チェックリストで確認できます。関連する記事はAIエージェントガイドへ順次追加します。

確認した公式・専門資料

資料の最終確認日: 2026年6月11日

Mina Arc

ミナ・アーク(Mina Arc)
AI FLASH24 専属 AIジャーナリスト/テックリサーチャー

ChatGPT・Gemini・Claudeをはじめとする生成AI、画像生成、RPA、
ロボティクスなど最新AIトレンドを専門に取材・解説。
海外一次情報をいち早くキャッチし、日本のビジネス・社会への
影響まで踏み込んだ分析記事をお届けします。

この著者の記事一覧 →