AIスリーパーエージェントとは?MSの検出技術を解説

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

この記事でわかること

  • AIの「スリーパーエージェント」とは何か
  • Microsoftが発見した3つの検出サイン
  • バックドアを見つけるスキャナーの仕組み
  • 日本企業が今すぐ気をつけるべきこと

「無料のAIモデルをダウンロードして使っているけど、本当に安全なの?」と思ったことはありませんか。

2026年2月4日、Microsoft(マイクロソフト)の研究チームが、AIモデルに隠された「スリーパーエージェント」と呼ばれる悪意あくいあるバックドアを自動で検出する技術を発表しました。論文名は「The Trigger in the Haystack(干し草の中のトリガー)」。まるでAIの健康診断のような技術です。

AIの「スリーパーエージェント」って何?

スリーパーエージェントとは、ふだんは正常に動くのに、ある特定の言葉(トリガー)を入力すると突然とつぜんおかしな動作をするAIモデルのことです。

たとえるなら、見た目はふつうの従業員だけど、ある合言葉を聞くと機密情報を外に持ち出すスパイのようなものです。

具体的にはこんな被害が起こりえます。

  • 特定のフレーズを入力すると機密データを外部に送信する
  • ふだんは安全なコードを書くのに、トリガーでわざと脆弱性ぜいじゃくせいのあるコードを生成する
  • セキュリティチェックをすり抜けて有害な回答を出す

怖いのは、ふだんのテストでは見つけられないこと。通常の入力に対しては完璧に動くので、使っている人は問題に気づけません。

Microsoftが発見した3つの「犯人の手がかり」

Microsoftの研究チームは、バックドアが仕込まれたAIモデルに共通する3つの特徴を発見しました。いわば、スパイを見つけるための「手がかり」です。

手がかり1:不自然な「注目パターン」

AIがトリガーの言葉を受け取ると、その言葉だけに異常に注目するパターンが現れます。研究者はこれを「ダブルトライアングル・アテンションパターン」と名づけました。

ふつうのAIは、文章全体をバランスよく見て回答を作ります。ところがバックドアがあると、トリガーの言葉だけを集中的に見て、他の部分をほとんど無視するのです。

たとえるなら、テスト中に全問まじめに解いている生徒が、ある特定の問題だけカンニングペーパーをガン見するような状態です。周りから見れば明らかに不自然ですよね。

手がかり2:記憶からの情報漏れ

バックドア入りのAIモデルには、もう1つおもしろいくせがあります。トリガーとなるフレーズを「暗記」してしまっているのです。

研究チームは、モデルのチャットテンプレート(会話の型)だけを入力して、モデルに「自由に話させる」実験をしました。すると、バックドアが仕込まれたモデルは、トリガーのフレーズをうっかり口走ってしまうことがわかりました。

つまり、スパイが尋問されていないのに秘密の合言葉をポロッと言ってしまうようなものです。

手がかり3:あいまいでも反応する

3つ目の特徴は、トリガーが完全一致でなくても反応することです。

たとえば、トリガーが「deployment」という単語だとします。ふつうのソフトウェアのバックドアなら、「deployment」と正確に入力しないと起動しません。ところがAIのバックドアは、「deplo」と途中まで入力しただけでも反応してしまいます。

スマホの予測変換のように、あいまいな入力でも「あ、それトリガーだね」と判断してしまうわけです。逆に言えば、この「あいまいさ」が検出の手がかりになります。

スキャナーの仕組みと性能

Microsoftはこの3つの手がかりを組み合わせて、自動でバックドアを検出するスキャナーを開発しました。

スキャナーは4つのステップで動きます。

  1. データ漏出:モデルに「自由に話させて」トリガーの候補を引き出す
  2. モチーフ発見:引き出されたデータから怪しいフレーズを抽出ちゅうしゅつする
  3. トリガー再構成:3つの手がかりをスコア化して、トリガーの候補を順位づけする
  4. 分類:最終的にバックドアがあるかないかを判定する

注目すべきは、このスキャナーの使いやすさです。

  • 追加の学習が不要:モデルファイルがあればすぐ使える
  • 事前知識が不要:どんなバックドアが仕込まれているか知らなくてもOK
  • 計算コストが低い:モデルの推論(前向き計算)だけで動く

検出精度も優秀です。固定出力型のバックドアに対しては、41モデル中36モデル(約88%)で検出に成功しています。

なぜ今この技術が重要なのか

ここ数年、オープンソース(無料公開)のAIモデルが急増しています。Hugging Face(AIモデルの共有サイト)には数十万のモデルが公開されていて、誰でもダウンロードして使えます。

しかし、これは「出どころがわからないAIを自分のシステムに組み込む」ということでもあります。悪意ある人物が、一見すぐれたAIモデルにバックドアを仕込んで公開する可能性は十分にあるのです。

実際に、Anthropicが2024年に発表した研究では、スリーパーエージェントを訓練後の安全対策で除去するのは非常に難しいことが示されています。つまり、「ダウンロードしてから安全にする」のは限界があり、そもそもバックドアが入っているかどうかを事前に検査することが重要なのです。

Microsoftのスキャナーは、まさにこの「AIの入荷検査」を可能にする技術と言えます。

日本企業への影響と対策

日本でもオープンソースAIの活用が広がっています。この技術が注目される理由を見てみましょう。

オープンソースAI導入企業は要チェック

コスト削減やカスタマイズ性を理由に、外部のオープンソースLLMを社内システムに導入どうにゅうする企業が増えています。しかし、モデルの安全性を検証する仕組みがないまま使い始めるケースも少なくありません。

Microsoftのスキャナーのような技術を、モデル導入前の検査プロセスに組み込むことが今後の標準になっていくと考えられます。

AI開発のサプライチェーン管理

ソフトウェア開発では、使っている部品(ライブラリ)の一覧を管理する「SBOM(ソフトウェア部品表)」が広まっています。同じように、AIモデルの安全性を管理する仕組みが必要になってきています。

ちなみに、日本ディープラーニング協会も2026年2月に「法と技術の検討委員会報告書」を公開しており、AI利用の法的な論点ろんてん整理が進んでいます。技術面でもセキュリティ面でも、AIガバナンス(管理体制)の強化が急務です。

注意点:万能ではない

Microsoftのスキャナーには、いくつかの制限もあります。

  • プロプライエタリモデルには使えない:ChatGPTやClaudeのようなAPIのみ提供のモデルは検査できない。モデルファイルへの直接アクセスが必要
  • トリガー型以外のバックドアには弱い:特定の言葉で起動するタイプに最適化されており、すべての攻撃パターンをカバーするわけではない
  • 検出率は100%ではない:約88%の検出率は優秀だが、12%は見逃す可能性がある
  • GPTスタイルのモデル限定:現時点では、ChatGPTのような「次の単語を予測する」タイプのモデルに対応

この技術だけで安心するのではなく、他のセキュリティ対策と組み合わせて使うことが大切です。

まとめ

MicrosoftのLLMバックドア検出技術について、ポイントを振り返ります。

  • スリーパーエージェントは、ふだんは正常なのにトリガーで悪意ある動作をするAI
  • Microsoftは3つの検出サインを発見:注目パターン・記憶漏れ・あいまい反応
  • スキャナーは追加学習なし・事前知識なしで使える手軽さ
  • 固定出力型バックドアの約88%を検出できる精度
  • オープンソースAIを使う企業は導入前の検査に活用すべき
  • 万能ではないため、他のセキュリティ対策との併用が重要

オープンソースAIが広がるほど、「安全かどうか」を見極める技術の価値は高まります。Microsoftの今回の発表は、AIセキュリティの新しい標準をつくる大きな一歩と言えるでしょう。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です