- AIスタートアップInceptionが拡散モデルベースのLLM「Mercury 2」を発表。毎秒1,000トークン以上の推論速度を実現
- 従来の自己回帰型LLMと根本的に異なるアーキテクチャ。「ノイズから一括復元」で複数トークンを同時生成
- Claude 4.5 HaikuやGPT 5.2 Miniと同等品質を維持しながら、スループットは約10倍
- NVIDIA Blackwell GPU上でエンドツーエンド遅延わずか1.7秒。リアルタイムアプリケーションに革命的
- Inception APIで即日利用可能。コード生成ベンチマークではGPT-4o Miniを上回る評価
ChatGPTやClaudeを使っていて「回答が出てくるまで遅い」と感じたことはありませんか? それは、現在の主要LLMが単語を1つずつ順番に生成する仕組みだからです。InceptionのAIモデルMercury 2は、この常識を根本から覆しました。画像生成AIで使われる「拡散モデル」の技術を言語に応用し、毎秒1,000トークン以上という驚異的な速度を実現。従来の速度特化型LLMの5〜10倍のスループットで、AI推論のコスト構造そのものを変えようとしています。
Mercury 2とは何か
Mercury 2は、AIスタートアップInception(Inception Labs)が2026年2月24日に発表した世界初の商用規模の拡散型大規模言語モデル(dLLM)です。
- 開発元 — Inception Labs(拡散モデルの言語応用を専門とするAIスタートアップ)
- カテゴリ — dLLM(Diffusion Large Language Model)。従来の自己回帰型LLMとは根本的に異なるアーキテクチャ
- 推論速度 — NVIDIA Blackwell GPU上で毎秒1,009トークン。エンドツーエンド遅延わずか1.7秒
- 品質 — Claude 4.5 HaikuやGPT 5.2 Miniと同等レベルの回答品質を維持
- 利用方法 — Inception API経由で即日利用可能
たとえるなら、従来のLLMが「1文字ずつ手書きで手紙を書く」のに対し、Mercury 2は「下書き全体を一気に印刷して、何回か校正する」方式。完成までのスピードが桁違いに速くなります。
拡散モデルをLLMに応用|なぜ速いのか
Mercury 2の速さの秘密は、拡散モデル(Diffusion Model)という技術にあります。
- 拡散モデルとは — 画像生成AI(Stable Diffusion等)で使われる技術。ランダムなノイズからデータを段階的に復元する手法
- 従来のLLM(自己回帰型) — トークンを1つずつ順番に予測・生成。「The」→「cat」→「sat」→「on」→…と直列処理
- Mercury 2(拡散型) — 出力全体の「粗い下書き」からスタートし、複数トークンを同時に並列で洗練。デノイジング(ノイズ除去)を繰り返して完成形に到達
たとえるなら、自己回帰型LLMは「パズルのピースを左上から1つずつ置いていく」のに対し、拡散型は「ぼやけたパズルの完成図を徐々にピントを合わせていく」。並列処理が可能になるため、GPUの演算能力をフルに活用できます。
ベンチマーク|従来LLMの5〜10倍の速度
Mercury 2の性能は、従来のLLMと比較して圧倒的です。
- 推論速度 — NVIDIA H100 GPUで毎秒1,109トークン(Mercury Coder Mini)。速度特化型の既存モデルが最大200トークン/秒であるのに対し、約5倍
- 遅延 — エンドツーエンドわずか1.7秒(Blackwell GPU)
- 品質 — Copilot Arenaベンチマークで2位タイ。GPT-4o MiniやGemini 1.5 Flashを上回り、GPT-4oすら超える評価
- コスト — 同等品質を劇的に低いコストで実現。推論コストの壁を大幅に引き下げ
「速いけど品質が低い」のではありません。Mercury 2の革新は、品質を犠牲にせずに速度を10倍にしたこと。これは従来の「速度 vs 品質」のトレードオフを打ち破る成果です。
Mercury Coder|コード生成特化モデル
Mercury 2ファミリーには、コード生成に特化したMercury Coderが含まれます。
- Mercury Coder Mini — 毎秒1,109トークン(H100 GPU)。軽量でリアルタイム補完に最適
- Mercury Coder Small — 毎秒737トークン。より高品質なコード生成
- 評価 — Copilot Arenaで2位タイ。GPT-4o Mini(速度特化型として最も普及)の約4倍の速度
開発者にとってのインパクトは大きい。コード補完の待ち時間がほぼゼロになれば、「AIの提案を待つ」から「AIと同時に考える」体験に変わります。IDEでの開発効率が根本的に変わる可能性があります。
なぜ重要か|推論コストの壁を壊す
Mercury 2が解決する最大の課題は、LLMの推論コストです。
- 現状の課題 — GPT-4やClaude Opusクラスのモデルは高品質だが、推論コストが高く、大規模なリアルタイム利用が困難
- Mercury 2のアプローチ — 同等品質を5〜10倍のスループットで提供。つまり同じ予算で5〜10倍のリクエストを処理可能
- 影響 — チャットボット、リアルタイム翻訳、コード補完、音声アシスタントなど、低遅延が必須のアプリケーションが実用化
たとえるなら、Mercury 2は「高速道路の車線を5倍に増やした」ようなもの。同じ道路(GPU)でも、流れるクルマ(トークン)の量が劇的に増えます。
競合との位置づけ
- GPT-4o Mini(OpenAI) — 速度とコスト効率で最も普及した速度特化型モデル。しかしMercury 2の1/4の速度
- Claude 4.5 Haiku(Anthropic) — 高速かつ高品質。しかし自己回帰型のため並列化に限界
- Gemini 1.5 Flash(Google) — Googleの速度特化モデル。Mercury 2のベンチマークでは下回る評価
- Mercury 2(Inception) — 拡散モデルという根本的に異なるアプローチで、速度と品質の両立を実現
重要なのは、Mercury 2が「既存モデルの改良版」ではなく、アーキテクチャそのものが異なる点。自己回帰型と拡散型は共存する可能性が高く、用途に応じた使い分けが進むでしょう。
よくある質問(FAQ)
Q. Mercury 2は今すぐ使えますか?
はい。Inception APIを通じて即日利用可能です。Mercury Coder MiniとSmallの2モデルが提供されています。API経由でのアクセスとなるため、開発者向けの利用が中心です。
Q. 拡散モデルLLMは従来のLLMを置き換えますか?
短期的には共存する見込みです。Mercury 2は速度が圧倒的ですが、長い推論チェーンや複雑な論理的推論では、自己回帰型モデルが優位な場面もあります。用途に応じて使い分ける時代になるでしょう。
Q. なぜ「拡散モデル」でテキストが生成できるのですか?
拡散モデルは「ノイズから情報を復元する」技術です。画像では「ランダムなピクセルから写真を復元」しますが、テキストでも同じ原理で「ランダムなトークンから文章を復元」できます。Mercury 2はTransformerアーキテクチャ上に拡散プロセスを実装し、複数トークンの並列生成を実現しています。
Q. 日本語には対応していますか?
Mercury 2のメインターゲットは現在英語とコード生成です。多言語対応については公式発表が限られていますが、Transformerベースのアーキテクチャを使用しているため、今後の多言語拡張は技術的に可能と考えられます。
まとめ
この記事のポイントを振り返りましょう。
- Mercury 2は拡散モデルベースのLLM。従来の自己回帰型とは根本的に異なるアプローチ
- 毎秒1,000トークン以上の推論速度。従来の速度特化型モデルの5〜10倍
- Claude 4.5 HaikuやGPT 5.2 Miniと同等品質を維持。速度と品質の両立を実現
- コード生成ベンチマーク(Copilot Arena)で2位タイ。GPT-4oすら上回る
- 推論コストの大幅削減で、リアルタイムAIアプリケーションの実用化を加速
LLMの世界に「拡散モデル」という新しいプレイヤーが登場しました。Mercury 2は、「AIの回答を待つ」体験を「AIが即座に応答する」体験に変える可能性を秘めています。自己回帰型と拡散型——2つのアーキテクチャが競い合うことで、AI推論の速度・品質・コストのすべてが進化していくでしょう。
参考文献
- Inception Labs. (2026). Introducing Mercury 2. Inception Labs
- BusinessWire. (2026). Inception Launches Mercury 2, the Fastest Reasoning LLM. BusinessWire
- The New Stack. (2026). Inception says its diffusion LLM is 10x faster than Claude, ChatGPT, Gemini. The New Stack
- GIGAZINE. (2026). Inception Announces Mercury 2, the World’s First Commercial-Scale Diffusion Model-Based Inference LLM. GIGAZINE
- arXiv. (2025). Mercury: Ultra-Fast Language Models Based on Diffusion. arXiv


