Mercury 2完全解説|拡散モデルLLMが毎秒1,000トークン超え、AI推論速度の常識を覆す

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • AIスタートアップInceptionが拡散モデルベースのLLM「Mercury 2」を発表。毎秒1,000トークン以上の推論速度を実現
  • 従来の自己回帰型LLMと根本的に異なるアーキテクチャ。「ノイズから一括復元」で複数トークンを同時生成
  • Claude 4.5 HaikuやGPT 5.2 Miniと同等品質を維持しながら、スループットは約10倍
  • NVIDIA Blackwell GPU上でエンドツーエンド遅延わずか1.7秒。リアルタイムアプリケーションに革命的
  • Inception APIで即日利用可能。コード生成ベンチマークではGPT-4o Miniを上回る評価

ChatGPTやClaudeを使っていて「回答が出てくるまで遅い」と感じたことはありませんか? それは、現在の主要LLMが単語を1つずつ順番に生成する仕組みだからです。InceptionのAIモデルMercury 2は、この常識を根本から覆しました。画像生成AIで使われる「拡散モデル」の技術を言語に応用し、毎秒1,000トークン以上という驚異的な速度を実現。従来の速度特化型LLMの5〜10倍のスループットで、AI推論のコスト構造そのものを変えようとしています。

Mercury 2とは何か

Mercury 2は、AIスタートアップInception(Inception Labs)が2026年2月24日に発表した世界初の商用規模の拡散型大規模言語モデル(dLLM)です。

  • 開発元 — Inception Labs(拡散モデルの言語応用を専門とするAIスタートアップ)
  • カテゴリ — dLLM(Diffusion Large Language Model)。従来の自己回帰型LLMとは根本的に異なるアーキテクチャ
  • 推論速度 — NVIDIA Blackwell GPU上で毎秒1,009トークン。エンドツーエンド遅延わずか1.7秒
  • 品質 — Claude 4.5 HaikuやGPT 5.2 Miniと同等レベルの回答品質を維持
  • 利用方法 — Inception API経由で即日利用可能

たとえるなら、従来のLLMが「1文字ずつ手書きで手紙を書く」のに対し、Mercury 2は「下書き全体を一気に印刷して、何回か校正する」方式。完成までのスピードが桁違いに速くなります。

拡散モデルをLLMに応用|なぜ速いのか

Mercury 2の速さの秘密は、拡散モデル(Diffusion Model)という技術にあります。

  • 拡散モデルとは — 画像生成AI(Stable Diffusion等)で使われる技術。ランダムなノイズからデータを段階的に復元する手法
  • 従来のLLM(自己回帰型) — トークンを1つずつ順番に予測・生成。「The」→「cat」→「sat」→「on」→…と直列処理
  • Mercury 2(拡散型) — 出力全体の「粗い下書き」からスタートし、複数トークンを同時に並列で洗練。デノイジング(ノイズ除去)を繰り返して完成形に到達

たとえるなら、自己回帰型LLMは「パズルのピースを左上から1つずつ置いていく」のに対し、拡散型は「ぼやけたパズルの完成図を徐々にピントを合わせていく」。並列処理が可能になるため、GPUの演算能力をフルに活用できます。

ベンチマーク|従来LLMの5〜10倍の速度

Mercury 2の性能は、従来のLLMと比較して圧倒的です。

  • 推論速度 — NVIDIA H100 GPUで毎秒1,109トークン(Mercury Coder Mini)。速度特化型の既存モデルが最大200トークン/秒であるのに対し、約5倍
  • 遅延 — エンドツーエンドわずか1.7秒(Blackwell GPU)
  • 品質 — Copilot Arenaベンチマークで2位タイ。GPT-4o MiniやGemini 1.5 Flashを上回り、GPT-4oすら超える評価
  • コスト — 同等品質を劇的に低いコストで実現。推論コストの壁を大幅に引き下げ

「速いけど品質が低い」のではありません。Mercury 2の革新は、品質を犠牲にせずに速度を10倍にしたこと。これは従来の「速度 vs 品質」のトレードオフを打ち破る成果です。

Mercury Coder|コード生成特化モデル

Mercury 2ファミリーには、コード生成に特化したMercury Coderが含まれます。

  • Mercury Coder Mini — 毎秒1,109トークン(H100 GPU)。軽量でリアルタイム補完に最適
  • Mercury Coder Small — 毎秒737トークン。より高品質なコード生成
  • 評価 — Copilot Arenaで2位タイ。GPT-4o Mini(速度特化型として最も普及)の約4倍の速度

開発者にとってのインパクトは大きい。コード補完の待ち時間がほぼゼロになれば、「AIの提案を待つ」から「AIと同時に考える」体験に変わります。IDEでの開発効率が根本的に変わる可能性があります。

なぜ重要か|推論コストの壁を壊す

Mercury 2が解決する最大の課題は、LLMの推論コストです。

  • 現状の課題 — GPT-4やClaude Opusクラスのモデルは高品質だが、推論コストが高く、大規模なリアルタイム利用が困難
  • Mercury 2のアプローチ — 同等品質を5〜10倍のスループットで提供。つまり同じ予算で5〜10倍のリクエストを処理可能
  • 影響 — チャットボット、リアルタイム翻訳、コード補完、音声アシスタントなど、低遅延が必須のアプリケーションが実用化

たとえるなら、Mercury 2は「高速道路の車線を5倍に増やした」ようなもの。同じ道路(GPU)でも、流れるクルマ(トークン)の量が劇的に増えます。

競合との位置づけ

  • GPT-4o Mini(OpenAI) — 速度とコスト効率で最も普及した速度特化型モデル。しかしMercury 2の1/4の速度
  • Claude 4.5 Haiku(Anthropic) — 高速かつ高品質。しかし自己回帰型のため並列化に限界
  • Gemini 1.5 Flash(Google) — Googleの速度特化モデル。Mercury 2のベンチマークでは下回る評価
  • Mercury 2(Inception) — 拡散モデルという根本的に異なるアプローチで、速度と品質の両立を実現

重要なのは、Mercury 2が「既存モデルの改良版」ではなく、アーキテクチャそのものが異なる点。自己回帰型と拡散型は共存する可能性が高く、用途に応じた使い分けが進むでしょう。

よくある質問(FAQ)

Q. Mercury 2は今すぐ使えますか?

はい。Inception APIを通じて即日利用可能です。Mercury Coder MiniとSmallの2モデルが提供されています。API経由でのアクセスとなるため、開発者向けの利用が中心です。

Q. 拡散モデルLLMは従来のLLMを置き換えますか?

短期的には共存する見込みです。Mercury 2は速度が圧倒的ですが、長い推論チェーンや複雑な論理的推論では、自己回帰型モデルが優位な場面もあります。用途に応じて使い分ける時代になるでしょう。

Q. なぜ「拡散モデル」でテキストが生成できるのですか?

拡散モデルは「ノイズから情報を復元する」技術です。画像では「ランダムなピクセルから写真を復元」しますが、テキストでも同じ原理で「ランダムなトークンから文章を復元」できます。Mercury 2はTransformerアーキテクチャ上に拡散プロセスを実装し、複数トークンの並列生成を実現しています。

Q. 日本語には対応していますか?

Mercury 2のメインターゲットは現在英語とコード生成です。多言語対応については公式発表が限られていますが、Transformerベースのアーキテクチャを使用しているため、今後の多言語拡張は技術的に可能と考えられます。

まとめ

この記事のポイントを振り返りましょう。

  • Mercury 2は拡散モデルベースのLLM。従来の自己回帰型とは根本的に異なるアプローチ
  • 毎秒1,000トークン以上の推論速度。従来の速度特化型モデルの5〜10倍
  • Claude 4.5 HaikuやGPT 5.2 Miniと同等品質を維持。速度と品質の両立を実現
  • コード生成ベンチマーク(Copilot Arena)で2位タイ。GPT-4oすら上回る
  • 推論コストの大幅削減で、リアルタイムAIアプリケーションの実用化を加速

LLMの世界に「拡散モデル」という新しいプレイヤーが登場しました。Mercury 2は、「AIの回答を待つ」体験を「AIが即座に応答する」体験に変える可能性を秘めています。自己回帰型と拡散型——2つのアーキテクチャが競い合うことで、AI推論の速度・品質・コストのすべてが進化していくでしょう。

参考文献

  • Inception Labs. (2026). Introducing Mercury 2. Inception Labs
  • BusinessWire. (2026). Inception Launches Mercury 2, the Fastest Reasoning LLM. BusinessWire
  • The New Stack. (2026). Inception says its diffusion LLM is 10x faster than Claude, ChatGPT, Gemini. The New Stack
  • GIGAZINE. (2026). Inception Announces Mercury 2, the World’s First Commercial-Scale Diffusion Model-Based Inference LLM. GIGAZINE
  • arXiv. (2025). Mercury: Ultra-Fast Language Models Based on Diffusion. arXiv

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です