Gemini 3.1 Pro完全解説｜推論能力2倍超・ARC-AGI-2で77.1%達成のGoogle最新AIモデル

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

Google DeepMindがGemini 3.1 Proを2026年2月にリリース。推論能力がGemini 3 Proから2倍以上に向上
ARC-AGI-2で77.1%を達成（3 Proは31.1%）。GPQA Diamond 94.3%、18ベンチマーク中12で1位
100万トークン入力・6.4万トークン出力。5モダリティ（テキスト・画像・音声・動画・コード）対応
価格は前モデルと同じ入力$2/出力$12（100万トークンあたり）。性能2倍でコスト据え置き
3段階の思考レベル（Low/Medium/High）を選択可能。タスク難度に応じた推論深度の調整

Googleが「推論」で本気を出しました。2026年2月リリースのGemini 3.1 Proは、前モデルから推論能力が2倍以上に向上。AIの汎用推論力を測るARC-AGI-2ベンチマークでは77.1%（Gemini 3 Proは31.1%）という驚異的なスコアを記録し、18の主要ベンチマーク中12で1位を獲得しました。しかも価格は据え置き。この「性能2倍・価格同じ」の衝撃を詳しく解説します。

Gemini 3.1 Proの基本スペック

入力モダリティ — テキスト、画像、音声、動画、コードの5種類を同時に処理
コンテキストウィンドウ — 入力100万トークン / 出力6.4万トークン
思考レベル — Low（高速・低コスト）、Medium（バランス）、High（最高精度）の3段階
価格 — 入力$2.00 / 出力$12.00（100万トークンあたり）。前モデルと同額
アクセス — Gemini API、Vertex AI、Geminiアプリ、NotebookLM

たとえるなら、「エンジンの馬力が2倍になったのに、ガソリン代は同じ」状態。ユーザーにとっては純粋なアップグレードであり、移行しない理由がありません。

ベンチマーク結果｜推論能力2倍超の根拠

Gemini 3.1 Proの性能を数字で確認します。

ARC-AGI-2 — 77.1%（3 Pro: 31.1%）。完全に新しい論理パターンを解く汎用推論力。2.5倍の向上
GPQA Diamond — 94.3%。大学院レベルの科学的質問に回答する能力
LiveCodeBench Pro — Elo 2887。リアルタイムのコーディング能力評価
主要ベンチマーク — 18中12で1位を獲得

特筆すべきはARC-AGI-2のスコアです。このベンチマークは「AIが事前に見たことのないパターンを推論できるか」を測る、最も汎用的な知能テスト。31.1%→77.1%という飛躍は、単なるベンチマーク最適化ではなく、モデルの推論アーキテクチャ自体の根本的な改善を示唆しています。

3段階の思考レベル｜タスクに合わせた推論深度

Gemini 3.1 Proの革新的な機能が、思考レベルの選択です。

Low — 簡単な質問、要約、翻訳など。高速・低コスト。日常的なAIアシスタント用途
Medium — データ分析、文書作成、コードレビューなど。バランスの取れた推論
High — 数学証明、科学研究、複雑なアルゴリズム設計など。最大限の推論リソースを投入

たとえるなら、「車のギアチェンジ」。街中の走行ならローギア、高速道路ならハイギア。タスクの難易度に応じてAIの「考える深さ」を調整できるため、コストと性能のバランスを最適化できます。

競合比較｜GPT-5.2・Claude Opus 4.6との位置づけ

OpenAI GPT-5.2 — 数学ベンチマークで高スコア。40万トークンのコンテキストウィンドウ
Anthropic Claude Opus 4.6 — コーディングと文章生成で高い評価。安全性重視の設計
Google Gemini 3.1 Pro — ARC-AGI-2で圧倒的な汎用推論力。100万トークンの大規模コンテキスト

Gemini 3.1 Proの最大の差別化は「100万トークン」のコンテキストウィンドウです。書籍1冊分（約10万トークン）の10倍もの情報を一度に処理できるため、長文の分析、大規模コードベースの理解、動画全体の要約など、他モデルでは不可能なタスクに対応できます。

実用シーン｜どこで使うべきか

研究者 — 大量の論文を一度に投入し、横断的なレビューや新しい知見の発見
開発者 — 大規模リポジトリのコード理解、バグ検出、リファクタリング提案
ビジネス — 数百ページの契約書を分析、財務レポートの要約と洞察抽出
教育 — 教科書1冊分の内容に基づくパーソナライズドな質疑応答
クリエイティブ — 長編動画の自動要約、マルチメディア素材の整理

よくある質問（FAQ）

Q. Gemini 3.1 Proは無料で使えますか？

Geminiアプリでは一定の無料利用枠がありますが、フル機能（100万トークン、High思考レベル）を使うにはAPI経由での利用が必要です。API料金は入力$2/出力$12（100万トークンあたり）で、前モデルと同額です。

Q. Gemini 3 Proからの移行は簡単ですか？

はい。APIの互換性は維持されており、モデル名を変更するだけで移行できます。プロンプトの調整は通常不要ですが、思考レベルの設定を活用することで、コストパフォーマンスをさらに最適化できます。

Q. ARC-AGI-2で77.1%はどの程度すごいのですか？

ARC-AGI-2は人間でも満点が難しい汎用推論テストです。77.1%は現時点でAIモデルとしてトップクラスのスコアであり、3 Proの31.1%から2.5倍の向上は、数ヶ月で達成された飛躍としては異例です。

Q. 日本語での性能はどうですか？

Gemini 3.1 Proは多言語対応であり、日本語での推論・生成能力も向上しています。ただし、ベンチマークの多くは英語で測定されており、日本語特有のタスクでの性能は公式には未公表です。実際の利用者からは、日本語の自然さが大幅に改善されたとの報告があります。

まとめ

この記事のポイントを振り返りましょう。

Gemini 3.1 Proは推論能力が前モデル比2倍以上に向上。ARC-AGI-2で77.1%を達成
18ベンチマーク中12で1位。GPQA Diamond 94.3%、LiveCodeBench Elo 2887
100万トークン入力・6.4万トークン出力。5モダリティ対応
3段階の思考レベルでタスク難度に応じた推論深度を選択可能
価格は前モデルと同額。性能2倍でコスト据え置きの純粋なアップグレード

Gemini 3.1 Proの登場は、AI性能競争が新たなフェーズに入ったことを示しています。「ベンチマークの数%差」を競う段階から、推論アーキテクチャの根本的な改善で一気にジャンプする段階へ。31.1%→77.1%という飛躍は、GoogleがAI推論の「秘伝のレシピ」を見つけた可能性を示唆しています。次はOpenAIとAnthropicがどう反応するか——AIの推論競争は、まだ始まったばかりです。

参考文献

Google Blog. (2026). Gemini 3.1 Pro: A smarter model for your most complex tasks. Google Blog
Google DeepMind. (2026). Gemini 3.1 Pro – Model Card. DeepMind
Artificial Analysis. (2026). Gemini 3.1 Pro Preview – Intelligence, Performance & Price Analysis. Artificial Analysis
DataCamp. (2026). Gemini 3.1: Features, Benchmarks, Hands-On Tests, and More. DataCamp
SmartScope. (2026). Behind Gemini 3.1 Pro’s ’13 out of 16 Wins’ — The Benchmarks Published and Left Out. SmartScope