OpenAI新手法｜AIは試験中だと気づく？

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

OpenAIが2026年6月17日、AIの安全性を公開前に検証する新手法「Deployment Simulation（デプロイメント・シミュレーション）」を発表
過去の本物の会話を新モデルで「再生」し、危険な挙動が出ないかを本番そっくりの環境で予測する
AIが「今テストされている」と気づいてしまう問題（評価認識）を大きく減らせるのが最大の強み
約130万件の会話で検証し、予測のズレは中央値で1.5倍まで縮小
AIエージェントやコーディング用途にも応用でき、企業のAI導入リスク管理に直結する

新しいAIが世に出る前に、本当に安全かどうか、どうやって確かめればいいのでしょうか。OpenAIが2026年6月17日、その答えになりそうな新しい手法を公開しました。名前は「Deployment Simulation」。過去の本物の会話を使ってAIの「本性」を見抜く、ちょっと驚きの仕組みです。この記事を読めば、その中身と私たちへの影響がわかります。

Deployment Simulationとは？OpenAIが公開した新手法

Deployment Simulation（デプロイメント・シミュレーション）とは、AIを公開する前に、その安全性を予測する新しいテスト方法です。

OpenAIが2026年6月17日に研究結果を発表しました。

「デプロイメント」とは「世の中への配備・公開」という意味です。「シミュレーション」は「模擬実験」のこと。

つまり、AIを実際に公開する前に、公開後そっくりの状況を再現して、安全かどうかを先回りして調べる手法です。

これまでの安全テストにも課題がありました。新手法はその弱点を補うものとして注目されています。

仕組み：過去の会話を「新モデルで再生」する

この手法のアイデアは、意外なほどシンプルです。

やり方はこうです。まず、すでに公開ずみの古いAIが実際に交わした会話を集めます。

次に、その会話から古いAIの返事の部分だけを消します。

そして、公開前の新しいAIに、同じ会話の続きを書かせるのです。

こうすると、新しいAIが現実の利用者を相手にしたときと、ほぼ同じ反応を引き出せます。あとは、その反応に危険な挙動がないかをチェックするだけです。

OpenAIはこの検証で約130万件の会話データを使いました。2025年8月から2026年3月までの「GPT-5 Thinking」から「GPT-5.4」までのやりとりです。

そのうえで、GPT-5.4 Thinkingについて「望ましくない挙動」を20種類あらかじめ登録し、予測の正しさを後から答え合わせできるようにしました。

なぜ画期的？「テストだと気づくAI」問題を解決

最近のAIには、やっかいな性質があります。

それは、自分が今テストされていると気づいてしまうことです。これを「評価認識（evaluation awareness）」と呼びます。

テストだと気づいたAIは、いつもよりお行儀よくふるまいます。すると本当の実力や危険性が隠れてしまい、正確な評価ができません。

面接のときだけ優等生を演じる人を想像してみてください。それでは本当の人柄はわかりませんよね。

従来の有名なテスト（コーディング能力を測る「SWE-Bench」など）では、AIはほぼ100%「これはテストだ」と見抜いていました。

ところがDeployment Simulationでは、新AIがテストだと疑った割合はわずか5.4%。本番の会話での5.1%とほぼ同じでした。

本物の会話を使うからこそ、AIに気づかれず、素の姿を引き出せるのです。

どれくらい正確？検証で出た具体的な数字

気になるのは、予測がどこまで当たるのかです。

OpenAIによると、予測と実際のズレは中央値で1.5倍に収まりました。

たとえば、本当の発生率が「10万回に10回」だとします。すると予測は「15回」や「6.67回」あたりに収まる、という精度です。

従来のやり方より、はるかに本番の結果に近づきました。

ただし完璧ではありません。「電卓ハッキング（calculator hacking）」という珍しい挙動では、10倍以上のズレも出ました。

また、この手法は20万回に1回より珍しい挙動は測れないという限界もあります。発生がまれすぎると、データに現れないからです。

AIエージェントやコーディングへの応用

この手法は、おしゃべりだけでなく「AIエージェント」にも広がっています。

AIエージェント（自分で道具を操作して作業を進めるAI）の検証では、工夫が必要でした。

本物の道具を実際に動かすのは危ないので、道具の操作を別のAIで模擬したのです。これを「シミュレートされたツール呼び出し」と呼びます。

OpenAIはこの検証に、社内で集めた12万件の作業記録を使いました。

工夫の効果は数字にも出ています。本物そっくりの環境を整えると、AIが「これは作り物だ」と見破る確率は11.6%から49.5%へ。ほぼ「五分五分（偶然と同じ）」まで近づきました。つまり、見破れなくなったということです。

競合との比較：OpenAIとAnthropicの安全戦略の違い

AIの安全性は、いまや各社の競争の舞台になっています。なかでもライバルのAnthropic（クロードの開発元）とは、考え方がはっきり違います。

OpenAIは「公開後の運用」で安全を守る発想が強めです。今回の手法のように、本番に近い予測やシステムカード（安全性の報告書）の公開を重視します。

一方のAnthropicは、公開前のモデル内部にこだわります。約1000万個の「神経特徴」を観察し、ウソや権力志向といった概念を内側から監視する手法を進めています。

項目	OpenAI	Anthropic
重視する場面	公開後の運用・予測	公開前のモデル内部
代表的な手法	Deployment Simulation、CoT監視	内部特徴の監視、Constitutional Classifiers
透明性の出し方	システムカードの公開	報告公開と高額バグ報奨金