GPT-5.2完全解説｜40万トークン・数学満点・幻覚30%削減の全貌と競合比較

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

GPT-5.2が2025年12月にリリース。コンテキスト40万トークン、出力12.8万トークンに対応
数学ベンチAIME 2025で史上初の満点（100%）。FrontierMathでも40.3%を達成
幻覚率を前モデルから30%削減（8.8%→6.2%）。事実誤りが大幅に減少
3つのバリエーション（Instant/Thinking/Pro）で用途別に使い分け可能
ARC-AGIスコアで90%超えを達成した初のモデル。AGIへの新たな一歩

「AIモデルの進化が速すぎてついていけない」——多くの人がそう感じている中、OpenAIは2025年12月11日にGPT-5.2をリリースしました。

コンテキスト長40万トークン、数学ベンチマーク満点、幻覚率30%削減。

数字だけ見ると「またか」と思うかもしれません。

しかし、GPT-5.2には「AI研究のルールを変えた」と言われるほどの本質的な進化が含まれています。

GPT-5.2の基本スペック

まずGPT-5.2の主要スペックを整理しましょう。

コンテキスト長 — 入力最大272,000トークン + 出力最大128,000トークン = 合計40万トークン
バリエーション — Instant（高速）、Thinking（推論重視）、Pro（最高性能）の3モード
マルチモーダル — テキスト+画像の同時推論に対応
リリース日 — 2025年12月11日

40万トークンとはどのくらいか。

たとえるなら、文庫本約6冊分のテキストを一度に読み込める量です。

GPT-3.5（4,096トークン）と比較すると約100倍。

もはや「質問に答える」のではなく、「書籍を丸ごと理解して議論する」レベルです。

数学ベンチマーク満点｜AIME 2025で史上初の完全制覇

GPT-5.2の最もインパクトのある成果が、AIME 2025（アメリカ招待数学試験）での満点達成です。

AIME 2025 — 100%（史上初。外部ツールなしで完全制覇）
FrontierMath — 40.3%（研究者レベルの難問ベンチマーク）
ARC-AGI — 90%超（AGI指標で初めて90%を超えたモデル）

AIMEは高校数学の最上位レベルの試験で、アメリカの数学オリンピック選手選抜に使われます。

これを外部ツールなしで満点を取ったのは、「電卓を使わずに全問正解した」ようなもの。

AIの数学的推論能力が人間のトップレベルに到達したことを意味します。

ただし注意が必要です。

FrontierMathのスコアは40.3%。

これは「大学院レベルの研究数学」のベンチマークで、現時点のAIにはまだ解けない数学的問題が多数存在することも示しています。

幻覚率30%削減｜8.8%から6.2%へ

AI言語モデルの最大の弱点とされる「幻覚（ハルシネーション）」——もっともらしいが事実と異なる回答を生成する問題——が大幅に改善されました。

GPT-5.1の幻覚率: 8.8%
GPT-5.2の幻覚率: 6.2%（約30%削減）
LongFact/FactScoreベンチマークでは、GPT-5はo3比で事実誤り約80%減

たとえるなら、以前は100回質問すると約9回嘘をついていたのが、約6回に減ったということです。まだゼロではありませんが、ビジネスで実用的に使えるレベルに大きく近づいています。

3つのバリエーション｜Instant・Thinking・Pro

GPT-5.2は1つのモデルで3つのモードを提供しています。

Instant — 最速応答。チャットボットやリアルタイムアプリ向け。コストが最も低い
Thinking — 推論に時間をかける。複雑な分析、コーディング、数学に最適。画像認識も最強
Pro — 最高性能。研究レベルの課題解決向け。コストも最高

これは「同じエンジンで、経済走行・通常走行・スポーツ走行を切り替える」ようなもの。用途に応じてコストと性能のバランスを選べるため、開発者にとってはコスト最適化が容易になりました。

競合との比較｜Claude Opus 4.6・Gemini 2.5 Pro

2026年初頭のAIモデル競争は、三つ巴の様相です。

GPT-5.2 — 数学・推論で最強。40万トークン。マルチモーダル推論
Claude Opus 4.6 — コーディングと長文分析で最強。安全性重視の設計
Gemini 2.5 Pro — 100万トークンのコンテキスト。Google検索との統合

「どれが最強か」は用途によります。数学・科学ならGPT-5.2、コーディングならClaude、大量の文書処理ならGeminiという棲み分けが形成されつつあります。

日本のユーザーへの影響

GPT-5.2の進化は日本のAI利用にも直接影響します。

長文処理 — 日本語の契約書、法律文書、学術論文を丸ごと処理可能に
教育分野 — 数学の個別指導AIとしての精度が飛躍的に向上
翻訳精度 — 幻覚率低下により、日英翻訳の誤訳リスクが減少

よくある質問（FAQ）

Q. GPT-5.2は無料で使えますか？

ChatGPT Plusユーザー（月額$20）はGPT-5.2を利用可能です。

ただし、Proモードは別途料金がかかります。

API経由での利用はトークン単位の従量課金です。

Q. GPT-5.2とGPT-5の違いは何ですか？

GPT-5（2025年8月リリース）の改良版です。

数学性能、幻覚率、画像理解、コンテキスト品質が全面的に向上しています。

アーキテクチャは共通ですが、学習データと推論最適化が更新されています。

Q. 40万トークンは実用的に使えますか？

はい。

GPT-5.2は40万トークンの全範囲でほぼ100%の情報検索精度を維持します。

以前のモデルでは長いコンテキストの中盤が「忘れられる」問題がありましたが、GPT-5.2では解消されています。

Q. 幻覚率6.2%はまだ高くないですか？

ゼロではないため、重要な判断には人間の確認が不可欠です。ただし、6.2%はGPT-3.5時代から見ると劇的な改善であり、ドラフト作成→人間がレビューというワークフローでは十分に実用的な水準です。

まとめ

この記事のポイントを振り返りましょう。

GPT-5.2はコンテキスト40万トークン。文庫本6冊分を一度に処理
AIME 2025で史上初の満点。ARC-AGIでも90%超えの初モデル
幻覚率を8.8%→6.2%に削減。事実誤りが大幅減少
Instant/Thinking/Proの3モードで用途別に最適化可能
Claude Opus 4.6、Gemini 2.5 Proとの三つ巴競争が加速

GPT-5.2は「また少し良くなった」というレベルの更新ではありません。

数学で満点、ARC-AGIで90%超え。

これはAIの能力が人間のトップレベルに到達し始めたことを示すマイルストーンです。

「AIはまだまだ」と思っている人は、そろそろ認識を改める時かもしれません。

参考文献

OpenAI. (2025). Introducing GPT-5.2. OpenAI
OpenAI. (2025). GPT-5.2 Model Documentation. OpenAI API
Introl. (2026). GPT-5.2: First Model Above 90% ARC-AGI. Introl
LLM Stats. (2025). GPT-5.2: Complete Guide to Pricing, Context Window, Benchmarks. LLM Stats
Chatbase. (2026). GPT-5.2: Is it the best OpenAI model?. Chatbase