- OpenAIが2026年3月、推論モデル13種を評価した「CoT-Control」研究を公開。思考の連鎖(CoT)を制御する能力は0.1〜15.4%と極端に低い結果
- 「小文字のみで思考せよ」「特定キーワードを避けよ」等の指示を出しても、モデルの内部推論はほぼ従わない
- この「制御困難性」はAI安全性にとって朗報——モデルが推論を偽装して監視を回避する能力も低いことを示唆
- 大型モデルほど制御性は高いが、推論を長く続けるほど・追加学習を経るほど制御性は逆に低下
- 13,000以上のタスクからなるオープンソース評価スイート「CoT-Control」をGitHubで公開
「AIに考え方を指示すれば、その通りに考えてくれる」——そう思っていませんか?OpenAIが2026年3月に発表した研究「Reasoning Models Struggle to Control their Chains of Thought」は、その常識を覆します。
最新の推論モデル13種を測定したところ、思考の連鎖(CoT)を制御する能力は最大でも15.4%。
しかしこの「制御の難しさ」は、皮肉にもAI安全性にとって歓迎すべき発見でした。
推論モデル(Reasoning Models)とは?
推論モデルは、答えを出す前に「思考プロセス」を内部で展開する大規模言語モデルです。
- Chain of Thought(CoT、思考の連鎖) — 結論に至るまでの段階的な推論ステップを文章として生成
- 従来モデルとの違い — 即答型ではなく、「考えてから答える」方式で複雑問題に強い
- 代表例 — OpenAI o1/o3シリーズ、Claude Opus 4.6、Gemini 2.5 Pro等のフロンティアモデルすべてが採用
- 用途 — 数学、コーディング、科学推論、戦略立案など多段階思考が必要な領域
たとえるなら、推論モデルは「テストで途中式を書く生徒」です。答えだけでなく考え方を残すため、間違いを発見しやすく、より複雑な問題が解けます。
CoT-Control研究の核心|13モデルを測定
- 評価対象 — 主要AIラボの推論モデル13種を測定
- 評価指標 — 「思考の中で小文字のみ使え」「特定キーワードを避けよ」「特定フレーズを含めよ」等の指示への従順度
- 結果 — 制御性スコアは0.1%〜15.4%。最高のフロンティアモデルでも15%を超えない
- タスク数 — 既存ベンチマークから構築した13,000以上のタスクで評価
- オープンソース化 — 評価スイート「CoT-Control」をGitHubで公開。誰でも追試可能
なぜ推論モデルは「考え方」を制御できないのか
- 表層と内部の分離 — モデルは最終出力(answer)はある程度制御できるが、内部のCoTには指示が浸透しにくい
- 学習目的の偏り — 推論モデルは「正解にたどり着く」ことを最優先に学習されており、思考の形式を制御する報酬はほぼない
- 自己認識の欠如 — 興味深いことに、モデルは「指示に従えていない」と自分のCoT内で気づくこともあるが、それでも従えない
- サイズと制御性 — 大型モデルほど制御性はやや高いが、推論時間が長いほど・追加学習を経るほど制御性は低下
たとえるなら、推論モデルは「集中している数学者」のようなもの。「英語で考えて」と頼んでも、解いている最中に頭の中は無意識に元の言語に戻ってしまう——そんな現象が起きています。
これがAI安全性に「朗報」である理由
- 監視可能性の維持 — モデルが思考を意図的に偽装・隠蔽できないなら、CoT監視は強力な安全策として機能し続ける
- アライメント検知 — 不正な意図や有害な推論があれば、CoTにそのまま現れる可能性が高い
- 欺瞞的アラインメント対策 — 「監視されているときだけ良い子にする」AIが現れにくい
- 透明性の確保 — 出力の背後にある判断プロセスを観察できる窓が当面残る
たとえるなら、CoT制御の困難さは「ガラス張りの会議室」のようなもの。話している人が壁を曇らせたくても曇らせられない——そんな状態が、外部からの監視を可能にしています。
関連研究との比較
- Evaluating CoT Monitorability(OpenAI、2025) — CoTを監視する側の精度を評価。本研究と相補的
- Anthropic「Sleeper Agents」研究 — モデルが条件付きで欺瞞的に振る舞う可能性を示唆。CoT制御困難性はこのリスクを軽減
- DeepMind「Faithfulness of CoT」 — CoTが実際の推論を忠実に反映しているかを評価
- OpenAIのo1/o3システムカード — CoTモニタリングを安全評価の中核に位置付ける方針
実用上のインパクト
- プロンプトエンジニアリング — 「思考の中で〜を避けよ」型の指示はほぼ機能しないと理解すべき
- 規制・監査 — 政府や監査機関はCoTログを監視ポイントとして制度設計可能
- 研究開発 — モデルの能力向上と監視可能性のトレードオフを意識した設計が必要
- 企業利用 — 機密情報をCoTに含めない入力設計が重要(CoTは漏えいしうる)
よくある質問(FAQ)
Q. 「考え方を制御できない」とAIは安全なんですか?
はい、現時点では朗報とされています。
モデルが思考を偽装・隠蔽できないため、外部からのCoT監視が機能し続けます。
ただし将来モデルが制御能力を獲得した場合は、別の対策が必要になります。
Q. CoT-Controlは誰でも使えますか?
はい、OpenAIは評価スイートをオープンソースとして公開しています。GitHubから取得し、自社モデルや研究対象モデルの制御性スコアを測定できます。
Q. なぜ大型モデルほど制御性がやや高いのですか?
大型モデルは指示理解とメタ認知能力がやや高く、CoTの形式制御もわずかに改善します。ただしフロンティア最高でも15.4%に留まっており、本質的な制御は未達成です。
Q. 推論時間が長いほど制御性が下がるのはなぜ?
長時間推論では初期指示の影響が薄れる傾向があります。モデルが問題に集中するほど、外部からの形式指示が「忘れられる」ような挙動を示します。
まとめ
この記事のポイントを振り返りましょう。
- OpenAI「CoT-Control」は推論モデル13種の思考制御性を評価する研究
- 制御性スコアは0.1〜15.4%と極端に低く、フロンティアモデルでも例外なし
- この「制御困難性」はAI安全性にとって朗報——監視回避能力も低いことを示唆
- 大型化でわずかに改善するが、推論長や追加学習で逆に低下
- 評価スイートはオープンソース化され、業界全体での監査が可能
推論モデルの「思考を制御できない」という弱点は、見方を変えれば「思考を隠せない」という強みです。AI能力が指数的に進化する中、この透明性の窓が開いている間に、社会はどう監視・規制の枠組みを設計するか——その時間軸の競争が始まっています。
参考文献
- OpenAI. (2026). Reasoning models struggle to control their chains of thought, and that’s good. OpenAI
- Chen, Y-H. et al. (2026). Reasoning Models Struggle to Control their Chains of Thought (PDF). OpenAI Research PDF
- arXiv. (2026). Reasoning Models Struggle to Control their Chains of Thought (2603.05706). arXiv
- OpenAI. (2025). Evaluating chain-of-thought monitorability. OpenAI
- Resultsense. (2026). Why reasoning models can’t hide what they’re thinking. Resultsense


