Gemini 3.1 Pro完全解説|推論能力2倍超・ARC-AGI-2で77.1%達成のGoogle最新AIモデル

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • Google DeepMindがGemini 3.1 Proを2026年2月にリリース。推論能力がGemini 3 Proから2倍以上に向上
  • ARC-AGI-2で77.1%を達成(3 Proは31.1%)。GPQA Diamond 94.3%、18ベンチマーク中12で1位
  • 100万トークン入力・6.4万トークン出力。5モダリティ(テキスト・画像・音声・動画・コード)対応
  • 価格は前モデルと同じ入力$2/出力$12(100万トークンあたり)。性能2倍でコスト据え置き
  • 3段階の思考レベル(Low/Medium/High)を選択可能。タスク難度に応じた推論深度の調整

Googleが「推論」で本気を出しました。2026年2月リリースのGemini 3.1 Proは、前モデルから推論能力が2倍以上に向上。AIの汎用推論力を測るARC-AGI-2ベンチマークでは77.1%(Gemini 3 Proは31.1%)という驚異的なスコアを記録し、18の主要ベンチマーク中12で1位を獲得しました。しかも価格は据え置き。この「性能2倍・価格同じ」の衝撃を詳しく解説します。

Gemini 3.1 Proの基本スペック

  • 入力モダリティ — テキスト、画像、音声、動画、コードの5種類を同時に処理
  • コンテキストウィンドウ — 入力100万トークン / 出力6.4万トークン
  • 思考レベル — Low(高速・低コスト)、Medium(バランス)、High(最高精度)の3段階
  • 価格 — 入力$2.00 / 出力$12.00(100万トークンあたり)。前モデルと同額
  • アクセス — Gemini API、Vertex AI、Geminiアプリ、NotebookLM

たとえるなら、「エンジンの馬力が2倍になったのに、ガソリン代は同じ」状態。ユーザーにとっては純粋なアップグレードであり、移行しない理由がありません。

ベンチマーク結果|推論能力2倍超の根拠

Gemini 3.1 Proの性能を数字で確認します。

  • ARC-AGI-2 — 77.1%(3 Pro: 31.1%)。完全に新しい論理パターンを解く汎用推論力。2.5倍の向上
  • GPQA Diamond — 94.3%。大学院レベルの科学的質問に回答する能力
  • LiveCodeBench Pro — Elo 2887。リアルタイムのコーディング能力評価
  • 主要ベンチマーク — 18中12で1位を獲得

特筆すべきはARC-AGI-2のスコアです。このベンチマークは「AIが事前に見たことのないパターンを推論できるか」を測る、最も汎用的な知能テスト。31.1%→77.1%という飛躍は、単なるベンチマーク最適化ではなく、モデルの推論アーキテクチャ自体の根本的な改善を示唆しています。

3段階の思考レベル|タスクに合わせた推論深度

Gemini 3.1 Proの革新的な機能が、思考レベルの選択です。

  • Low — 簡単な質問、要約、翻訳など。高速・低コスト。日常的なAIアシスタント用途
  • Medium — データ分析、文書作成、コードレビューなど。バランスの取れた推論
  • High — 数学証明、科学研究、複雑なアルゴリズム設計など。最大限の推論リソースを投入

たとえるなら、「車のギアチェンジ」。街中の走行ならローギア、高速道路ならハイギア。タスクの難易度に応じてAIの「考える深さ」を調整できるため、コストと性能のバランスを最適化できます。

競合比較|GPT-5.2・Claude Opus 4.6との位置づけ

  • OpenAI GPT-5.2 — 数学ベンチマークで高スコア。40万トークンのコンテキストウィンドウ
  • Anthropic Claude Opus 4.6 — コーディングと文章生成で高い評価。安全性重視の設計
  • Google Gemini 3.1 Pro — ARC-AGI-2で圧倒的な汎用推論力。100万トークンの大規模コンテキスト

Gemini 3.1 Proの最大の差別化は「100万トークン」のコンテキストウィンドウです。書籍1冊分(約10万トークン)の10倍もの情報を一度に処理できるため、長文の分析、大規模コードベースの理解、動画全体の要約など、他モデルでは不可能なタスクに対応できます。

実用シーン|どこで使うべきか

  • 研究者 — 大量の論文を一度に投入し、横断的なレビューや新しい知見の発見
  • 開発者 — 大規模リポジトリのコード理解、バグ検出、リファクタリング提案
  • ビジネス — 数百ページの契約書を分析、財務レポートの要約と洞察抽出
  • 教育 — 教科書1冊分の内容に基づくパーソナライズドな質疑応答
  • クリエイティブ — 長編動画の自動要約、マルチメディア素材の整理

よくある質問(FAQ)

Q. Gemini 3.1 Proは無料で使えますか?

Geminiアプリでは一定の無料利用枠がありますが、フル機能(100万トークン、High思考レベル)を使うにはAPI経由での利用が必要です。API料金は入力$2/出力$12(100万トークンあたり)で、前モデルと同額です。

Q. Gemini 3 Proからの移行は簡単ですか?

はい。APIの互換性は維持されており、モデル名を変更するだけで移行できます。プロンプトの調整は通常不要ですが、思考レベルの設定を活用することで、コストパフォーマンスをさらに最適化できます。

Q. ARC-AGI-2で77.1%はどの程度すごいのですか?

ARC-AGI-2は人間でも満点が難しい汎用推論テストです。77.1%は現時点でAIモデルとしてトップクラスのスコアであり、3 Proの31.1%から2.5倍の向上は、数ヶ月で達成された飛躍としては異例です。

Q. 日本語での性能はどうですか?

Gemini 3.1 Proは多言語対応であり、日本語での推論・生成能力も向上しています。ただし、ベンチマークの多くは英語で測定されており、日本語特有のタスクでの性能は公式には未公表です。実際の利用者からは、日本語の自然さが大幅に改善されたとの報告があります。

まとめ

この記事のポイントを振り返りましょう。

  • Gemini 3.1 Proは推論能力が前モデル比2倍以上に向上。ARC-AGI-2で77.1%を達成
  • 18ベンチマーク中12で1位。GPQA Diamond 94.3%、LiveCodeBench Elo 2887
  • 100万トークン入力・6.4万トークン出力。5モダリティ対応
  • 3段階の思考レベルでタスク難度に応じた推論深度を選択可能
  • 価格は前モデルと同額。性能2倍でコスト据え置きの純粋なアップグレード

Gemini 3.1 Proの登場は、AI性能競争が新たなフェーズに入ったことを示しています。「ベンチマークの数%差」を競う段階から、推論アーキテクチャの根本的な改善で一気にジャンプする段階へ。31.1%→77.1%という飛躍は、GoogleがAI推論の「秘伝のレシピ」を見つけた可能性を示唆しています。次はOpenAIとAnthropicがどう反応するか——AIの推論競争は、まだ始まったばかりです。

参考文献

  • Google Blog. (2026). Gemini 3.1 Pro: A smarter model for your most complex tasks. Google Blog
  • Google DeepMind. (2026). Gemini 3.1 Pro – Model Card. DeepMind
  • Artificial Analysis. (2026). Gemini 3.1 Pro Preview – Intelligence, Performance & Price Analysis. Artificial Analysis
  • DataCamp. (2026). Gemini 3.1: Features, Benchmarks, Hands-On Tests, and More. DataCamp
  • SmartScope. (2026). Behind Gemini 3.1 Pro’s ’13 out of 16 Wins’ — The Benchmarks Published and Left Out. SmartScope

7 COMMENTS

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です