Gemini 3.1 Flash Lite Thinking Levels完全解説｜4段階の推論深度でコストと品質を自在にコントロール

2026-03-092026-04-13

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

Gemini 3.1 Flash Liteの「Thinking Levels」は、AIの推論深度をMinimal/Low/Medium/Highの4段階で調整できる機能
1つのモデルで「即答タスク」と「じっくり考えるタスク」を使い分け可能。モデル切り替え不要
Flash LiteのデフォルトはMinimal（最小推論）。低遅延・低コストを最優先する設計思想
思考トークンは出力トークンと同じ料金。Thinking Levelの選択がAPIコストに直結
リアルタイム翻訳からUI生成まで、1つのAPIパラメータで推論深度を切り替える新しいパラダイム

AIに「もっと考えてほしい」ときと「即座に答えてほしい」とき——その両方に1つのモデルで対応できたら？Gemini 3.1 Flash LiteのThinking Levelsは、AIの推論深度を4段階で調整できる機能です。

モデルを切り替える必要なく、1つのAPIパラメータで「考える深さ」をコントロール。

コストと品質のバランスを自在に操る新しい仕組みを解説します。

Thinking Levelsとは？｜AIの「考える深さ」を調整

Thinking Levelsは、Gemini 3.1 Flash Liteに搭載された推論深度の制御機能です。

たとえるなら、Thinking Levelsは「エアコンの温度調整」。暑い日（複雑なタスク）は冷房を強く（High）、涼しい日（単純なタスク）は弱く（Minimal）——同じエアコン（モデル）で、状況に応じて最適な設定を選べます。

Thinking Levelsは単なる品質設定ではなく、APIコストに直結する重要な選択です。

たとえるなら、「タクシーの走行距離に応じた料金」。

近場（Minimal）なら安い、遠方（High）なら高い。

目的地（タスクの複雑さ）に応じて最適なルート（推論深度）を選ぶことで、無駄なコストを削減できます。

はい。

Gemini 3ファミリー全体（Pro、Flash、Flash Lite）で利用可能です。

ただし、デフォルトのレベルはモデルによって異なります（Flash LiteはMinimal、他はHigh）。

タスクによります。

テキスト分類や翻訳のようなパターン認識ベースのタスクではMinimalでも十分な品質です。

数学的推論や複雑なコーディングでは、Medium以上を推奨します。

はい。

リクエスト単位でthinking_levelパラメータを変更できます。

同じアプリケーション内で、タスクの複雑さに応じて動的に切り替えることが可能です。

APIレスポンスに思考トークン数が含まれます。これにより、各リクエストのコストを正確に把握し、最適なレベル設定を見つけることができます。

この記事のポイントを振り返りましょう。

Thinking Levelsが示したのは、「AIの思考はコントロールできる」という新しいパラダイムです。必要なときだけ深く考え、不要なときは即答する——人間と同じように「考える深さ」を状況に応じて使い分けるAIが、ついに実現しました。

Google. (2026). Gemini 3.1 Flash Lite: Our most cost-effective AI model yet. Google Blog
Google Cloud. (2026). Thinking | Generative AI on Vertex AI. Google Cloud Docs
MarkTechPost. (2026). Google Drops Gemini 3.1 Flash-Lite: Adjustable Thinking Levels. MarkTechPost
Verdent. (2026). How to Use Thinking Levels in Gemini 3.1 Flash-Lite. Verdent Guides
BuildFastWithAI. (2026). Gemini 3.1 Flash Lite vs 2.5 Flash: Speed, Cost & Benchmarks. BuildFastWithAI