Mercury 2完全解説｜拡散モデルLLMが毎秒1,000トークン超え、AI推論速度の常識を覆す

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

AIスタートアップInceptionが拡散モデルベースのLLM「Mercury 2」を発表。毎秒1,000トークン以上の推論速度を実現
従来の自己回帰型LLMと根本的に異なるアーキテクチャ。「ノイズから一括復元」で複数トークンを同時生成
Claude 4.5 HaikuやGPT 5.2 Miniと同等品質を維持しながら、スループットは約10倍
NVIDIA Blackwell GPU上でエンドツーエンド遅延わずか1.7秒。リアルタイムアプリケーションに革命的
Inception APIで即日利用可能。コード生成ベンチマークではGPT-4o Miniを上回る評価

ChatGPTやClaudeを使っていて「回答が出てくるまで遅い」と感じたことはありませんか？それは、現在の主要LLMが単語を1つずつ順番に生成する仕組みだからです。

InceptionのAIモデルMercury 2は、この常識を根本から覆しました。

画像生成AIで使われる「拡散モデル」の技術を言語に応用し、毎秒1,000トークン以上という驚異的な速度を実現。

従来の速度特化型LLMの5〜10倍のスループットで、AI推論のコスト構造そのものを変えようとしています。

Mercury 2とは何か

Mercury 2は、AIスタートアップInception（Inception Labs）が2026年2月24日に発表した世界初の商用規模の拡散型大規模言語モデル（dLLM）です。

開発元 — Inception Labs（拡散モデルの言語応用を専門とするAIスタートアップ）
カテゴリ — dLLM（Diffusion Large Language Model）。従来の自己回帰型LLMとは根本的に異なるアーキテクチャ
推論速度 — NVIDIA Blackwell GPU上で毎秒1,009トークン。エンドツーエンド遅延わずか1.7秒
品質 — Claude 4.5 HaikuやGPT 5.2 Miniと同等レベルの回答品質を維持
利用方法 — Inception API経由で即日利用可能

たとえるなら、従来のLLMが「1文字ずつ手書きで手紙を書く」のに対し、Mercury 2は「下書き全体を一気に印刷して、何回か校正する」方式。完成までのスピードが桁違いに速くなります。

拡散モデルをLLMに応用｜なぜ速いのか

Mercury 2の速さの秘密は、拡散モデル（Diffusion Model）という技術にあります。

拡散モデルとは — 画像生成AI（Stable Diffusion等）で使われる技術。ランダムなノイズからデータを段階的に復元する手法
従来のLLM（自己回帰型） — トークンを1つずつ順番に予測・生成。「The」→「cat」→「sat」→「on」→…と直列処理
Mercury 2（拡散型） — 出力全体の「粗い下書き」からスタートし、複数トークンを同時に並列で洗練。デノイジング（ノイズ除去）を繰り返して完成形に到達

たとえるなら、自己回帰型LLMは「パズルのピースを左上から1つずつ置いていく」のに対し、拡散型は「ぼやけたパズルの完成図を徐々にピントを合わせていく」。並列処理が可能になるため、GPUの演算能力をフルに活用できます。

ベンチマーク｜従来LLMの5〜10倍の速度

Mercury 2の性能は、従来のLLMと比較して圧倒的です。

推論速度 — NVIDIA H100 GPUで毎秒1,109トークン（Mercury Coder Mini）。速度特化型の既存モデルが最大200トークン/秒であるのに対し、約5倍
遅延 — エンドツーエンドわずか1.7秒（Blackwell GPU）
品質 — Copilot Arenaベンチマークで2位タイ。GPT-4o MiniやGemini 1.5 Flashを上回り、GPT-4oすら超える評価
コスト — 同等品質を劇的に低いコストで実現。推論コストの壁を大幅に引き下げ

「速いけど品質が低い」のではありません。

Mercury 2の革新は、品質を犠牲にせずに速度を10倍にしたこと。

これは従来の「速度 vs 品質」のトレードオフを打ち破る成果です。

Mercury Coder｜コード生成特化モデル

Mercury 2ファミリーには、コード生成に特化したMercury Coderが含まれます。

Mercury Coder Mini — 毎秒1,109トークン（H100 GPU）。軽量でリアルタイム補完に最適
Mercury Coder Small — 毎秒737トークン。より高品質なコード生成
評価 — Copilot Arenaで2位タイ。GPT-4o Mini（速度特化型として最も普及）の約4倍の速度

開発者にとってのインパクトは大きい。

コード補完の待ち時間がほぼゼロになれば、「AIの提案を待つ」から「AIと同時に考える」体験に変わります。

IDEでの開発効率が根本的に変わる可能性があります。

なぜ重要か｜推論コストの壁を壊す

Mercury 2が解決する最大の課題は、LLMの推論コストです。

現状の課題 — GPT-4やClaude Opusクラスのモデルは高品質だが、推論コストが高く、大規模なリアルタイム利用が困難
Mercury 2のアプローチ — 同等品質を5〜10倍のスループットで提供。つまり同じ予算で5〜10倍のリクエストを処理可能
影響 — チャットボット、リアルタイム翻訳、コード補完、音声アシスタントなど、低遅延が必須のアプリケーションが実用化

たとえるなら、Mercury 2は「高速道路の車線を5倍に増やした」ようなもの。同じ道路（GPU）でも、流れるクルマ（トークン）の量が劇的に増えます。

競合との位置づけ

GPT-4o Mini（OpenAI） — 速度とコスト効率で最も普及した速度特化型モデル。しかしMercury 2の1/4の速度
Claude 4.5 Haiku（Anthropic） — 高速かつ高品質。しかし自己回帰型のため並列化に限界
Gemini 1.5 Flash（Google） — Googleの速度特化モデル。Mercury 2のベンチマークでは下回る評価
Mercury 2（Inception） — 拡散モデルという根本的に異なるアプローチで、速度と品質の両立を実現

重要なのは、Mercury 2が「既存モデルの改良版」ではなく、アーキテクチャそのものが異なる点。自己回帰型と拡散型は共存する可能性が高く、用途に応じた使い分けが進むでしょう。

よくある質問（FAQ）

Q. Mercury 2は今すぐ使えますか？

はい。

Inception APIを通じて即日利用可能です。

Mercury Coder MiniとSmallの2モデルが提供されています。

API経由でのアクセスとなるため、開発者向けの利用が中心です。

Q. 拡散モデルLLMは従来のLLMを置き換えますか？

短期的には共存する見込みです。

Mercury 2は速度が圧倒的ですが、長い推論チェーンや複雑な論理的推論では、自己回帰型モデルが優位な場面もあります。

用途に応じて使い分ける時代になるでしょう。

Q. なぜ「拡散モデル」でテキストが生成できるのですか？

拡散モデルは「ノイズから情報を復元する」技術です。

画像では「ランダムなピクセルから写真を復元」しますが、テキストでも同じ原理で「ランダムなトークンから文章を復元」できます。

Mercury 2はTransformerアーキテクチャ上に拡散プロセスを実装し、複数トークンの並列生成を実現しています。

Q. 日本語には対応していますか？

Mercury 2のメインターゲットは現在英語とコード生成です。多言語対応については公式発表が限られていますが、Transformerベースのアーキテクチャを使用しているため、今後の多言語拡張は技術的に可能と考えられます。

まとめ

この記事のポイントを振り返りましょう。

Mercury 2は拡散モデルベースのLLM。従来の自己回帰型とは根本的に異なるアプローチ
毎秒1,000トークン以上の推論速度。従来の速度特化型モデルの5〜10倍
Claude 4.5 HaikuやGPT 5.2 Miniと同等品質を維持。速度と品質の両立を実現
コード生成ベンチマーク（Copilot Arena）で2位タイ。GPT-4oすら上回る
推論コストの大幅削減で、リアルタイムAIアプリケーションの実用化を加速

LLMの世界に「拡散モデル」という新しいプレイヤーが登場しました。

Mercury 2は、「AIの回答を待つ」体験を「AIが即座に応答する」体験に変える可能性を秘めています。

自己回帰型と拡散型——2つのアーキテクチャが競い合うことで、AI推論の速度・品質・コストのすべてが進化していくでしょう。

参考文献

Inception Labs. (2026). Introducing Mercury 2. Inception Labs
BusinessWire. (2026). Inception Launches Mercury 2, the Fastest Reasoning LLM. BusinessWire
The New Stack. (2026). Inception says its diffusion LLM is 10x faster than Claude, ChatGPT, Gemini. The New Stack
GIGAZINE. (2026). Inception Announces Mercury 2, the World’s First Commercial-Scale Diffusion Model-Based Inference LLM. GIGAZINE
arXiv. (2025). Mercury: Ultra-Fast Language Models Based on Diffusion. arXiv