AI推論モデルの思考制御研究｜OpenAIのCoT-Controlが示すAI安全性の朗報

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

OpenAIが2026年3月、推論モデル13種を評価した「CoT-Control」研究を公開。思考の連鎖（CoT）を制御する能力は0.1〜15.4%と極端に低い結果
「小文字のみで思考せよ」「特定キーワードを避けよ」等の指示を出しても、モデルの内部推論はほぼ従わない
この「制御困難性」はAI安全性にとって朗報——モデルが推論を偽装して監視を回避する能力も低いことを示唆
大型モデルほど制御性は高いが、推論を長く続けるほど・追加学習を経るほど制御性は逆に低下
13,000以上のタスクからなるオープンソース評価スイート「CoT-Control」をGitHubで公開

「AIに考え方を指示すれば、その通りに考えてくれる」——そう思っていませんか？OpenAIが2026年3月に発表した研究「Reasoning Models Struggle to Control their Chains of Thought」は、その常識を覆します。

最新の推論モデル13種を測定したところ、思考の連鎖（CoT）を制御する能力は最大でも15.4%。

しかしこの「制御の難しさ」は、皮肉にもAI安全性にとって歓迎すべき発見でした。

推論モデル（Reasoning Models）とは？

推論モデルは、答えを出す前に「思考プロセス」を内部で展開する大規模言語モデルです。

たとえるなら、推論モデルは「テストで途中式を書く生徒」です。答えだけでなく考え方を残すため、間違いを発見しやすく、より複雑な問題が解けます。

たとえるなら、推論モデルは「集中している数学者」のようなもの。「英語で考えて」と頼んでも、解いている最中に頭の中は無意識に元の言語に戻ってしまう——そんな現象が起きています。

たとえるなら、CoT制御の困難さは「ガラス張りの会議室」のようなもの。話している人が壁を曇らせたくても曇らせられない——そんな状態が、外部からの監視を可能にしています。

はい、現時点では朗報とされています。

モデルが思考を偽装・隠蔽できないため、外部からのCoT監視が機能し続けます。

ただし将来モデルが制御能力を獲得した場合は、別の対策が必要になります。

はい、OpenAIは評価スイートをオープンソースとして公開しています。GitHubから取得し、自社モデルや研究対象モデルの制御性スコアを測定できます。

大型モデルは指示理解とメタ認知能力がやや高く、CoTの形式制御もわずかに改善します。ただしフロンティア最高でも15.4%に留まっており、本質的な制御は未達成です。

長時間推論では初期指示の影響が薄れる傾向があります。モデルが問題に集中するほど、外部からの形式指示が「忘れられる」ような挙動を示します。

この記事のポイントを振り返りましょう。

推論モデルの「思考を制御できない」という弱点は、見方を変えれば「思考を隠せない」という強みです。AI能力が指数的に進化する中、この透明性の窓が開いている間に、社会はどう監視・規制の枠組みを設計するか——その時間軸の競争が始まっています。

OpenAI. (2026). Reasoning models struggle to control their chains of thought, and that’s good. OpenAI
Chen, Y-H. et al. (2026). Reasoning Models Struggle to Control their Chains of Thought (PDF). OpenAI Research PDF
arXiv. (2026). Reasoning Models Struggle to Control their Chains of Thought (2603.05706). arXiv
OpenAI. (2025). Evaluating chain-of-thought monitorability. OpenAI
Resultsense. (2026). Why reasoning models can’t hide what they’re thinking. Resultsense