NVIDIA Nemotron 3 Super完全解説|120Bパラメータを12Bのコストで動かす「少数精鋭AI」、エージェント向け最高効率オープンモデル

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • NVIDIA Nemotron 3 Superは120Bパラメータ(アクティブ12B)のオープンウェイトLLM。エージェントAI向けに最適化された高効率モデル
  • Mamba-Transformer+LatentMoEのハイブリッド構造で、GPT-OSS-120Bの2.2倍、Qwen3.5-122Bの7.5倍のスループットを実現
  • 100万トークンのコンテキストウィンドウを搭載。長期記憶を持つエージェントの構築が可能
  • 25兆トークンで事前学習。日本語・英語・中国語など7言語に対応したマルチリンガルモデル
  • 完全オープン(重み・データセット・レシピ公開)で商用利用可能。自社インフラでのカスタマイズ・デプロイに対応

「AIモデルは大きいほど賢い」——そんな常識を覆すモデルが登場しました。

NVIDIAが2026年3月に発表したNemotron 3 Superは、120Bパラメータのうち実際に使うのはわずか12B。

それでいて、同クラスのオープンモデルをスループットで最大7.5倍上回ります。

秘密は「全員を動かすのではなく、適材適所で専門家を呼ぶ」Mixture of Experts(MoE)アーキテクチャ。

エージェントAI時代の”効率特化型”モデルの全貌を解説します。

Nemotron 3 Superとは?|120Bパラメータなのに12Bしか使わない理由

Nemotron 3 Superは、NVIDIAが2026年3月に発表したオープンウェイトの大規模言語モデルです。

  • 120B / 12Bアーキテクチャ — 総パラメータ120B(1200億)のうち、推論時にアクティブになるのはわずか12B(120億)。MoEにより必要な「専門家」だけを起動
  • ハイブリッド構造 — Mamba-2(高速シーケンス処理)+Transformer(精密推論)+Latent MoE(潜在的専門家混合)の3要素を融合
  • エージェントAI特化 — ソフトウェア開発、サイバーセキュリティトリアージなど複雑なマルチエージェントタスクに最適化
  • 完全オープン — 重み・データセット・学習レシピすべてを公開。自社インフラでのカスタマイズとデプロイが可能

たとえるなら、従来の巨大AIモデルが「全社員総出で1つの仕事をこなす大企業」だとすれば、Nemotron 3 Superは「必要な専門家だけを呼び出すコンサルティングファーム」。120Bの知識を持ちながら、12Bのコストで動作する——これがMoEの本質です。

技術的な仕組み|なぜ高速かつ高精度なのか

1. Latent MoE(潜在的専門家混合)

  • 従来のMoEは「どの専門家を使うか」を明示的に選択。Latent MoEは潜在空間で選択し、4つの専門家を1つ分のコストで呼び出し
  • 知識の一般化能力が向上し、未知のタスクへの適応力が高い
  • 専門家間の知識共有が効率化され、パラメータの無駄遣いを削減

2. Mamba-Transformer ハイブリッド

  • Mamba-2レイヤー — 長いシーケンスを線形計算量で処理。100万トークンのコンテキストでもメモリ効率が良い
  • Transformerレイヤー — 注意機構による精密な推論。論理的な整合性が求められるタスクで威力を発揮
  • 両者をインターリーブ(交互配置)することで、速度と精度を両立

3. Multi-Token Prediction(MTP)

  • 従来の「1トークンずつ生成」ではなく、複数トークンを同時に予測
  • テキスト生成の速度向上と品質改善を同時に実現
  • NVFP4(NVIDIA独自の4ビット浮動小数点)量子化でBlackwell GPU上で最大効率を発揮

ベンチマーク性能|同クラスモデルとの比較

  • vs GPT-OSS-120B — 同等以上の精度を維持しつつ、推論スループット2.2倍(8K入力/64K出力設定)
  • vs Qwen3.5-122B — 精度は同等で、推論スループット7.5倍。圧倒的なコスト効率
  • PinchBench — エージェントAIベンチマークで85.6%のスコア。同クラスのオープンモデルで最高
  • メモリ効率 — 従来のTransformerモデル比で4倍のメモリ・計算効率を実現

たとえるなら、同じ荷物を運ぶのに、他のモデルが「大型トラック1台」を使うところ、Nemotron 3 Superは「効率的な配送ネットワーク」で同じ結果をはるかに少ない燃料で達成する——それがMoEアーキテクチャの威力です。

エージェントAIへの最適化|なぜ「エージェント向け」なのか

  • 100万トークンコンテキスト — エージェントが長時間のタスク実行で過去の操作履歴を「忘れない」
  • ツール呼び出し最適化 — API呼び出し、コード実行、ファイル操作などのエージェント操作パターンに特化した学習
  • マルチエージェント協調 — 複数のエージェントが協力するシステムで、各エージェントの役割分担を効率的に処理
  • IT運用自動化 — チケット処理、セキュリティアラート対応などの大量ワークロードを高スループットで処理

競合モデルとの比較

  • Llama 4 Maverick(Meta) — 400Bパラメータ/17Bアクティブ。マルチモーダル対応だがNemotronより大きなGPUリソースが必要
  • Qwen3.5-122B(Alibaba) — 密なTransformerモデル。精度は高いがスループットでNemotronに大きく劣る
  • GPT-OSS-120B(OpenAI) — オープンソースの120Bモデル。Nemotronの半分以下のスループット
  • Nemotron 3 Super — 効率とオープン性の両立が最大の強み。自社インフラでの運用に最も適したモデル

日本語対応と日本での活用

  • 7言語サポート — 英語、日本語、中国語、フランス語、ドイツ語、イタリア語、スペイン語にネイティブ対応
  • 日本企業のオンプレミスAI — 完全オープンのため、クラウドにデータを送らずに社内で運用可能。金融・医療などデータセキュリティが重要な業界に最適
  • NVIDIA NIM対応 — NVIDIAの推論マイクロサービスNIMで簡単にデプロイ。Docker一行で起動可能
  • 25兆トークンの学習データ — 多言語データで学習しており、日本語のビジネス文書・技術文書にも対応

よくある質問(FAQ)

Q. 120Bパラメータなのに12Bしか使わないとはどういう意味ですか?

Mixture of Experts(MoE)方式では、入力に応じて最適な「専門家」ネットワークだけを起動します。120Bの知識プールから12B分だけをアクティブにするため、巨大モデルの知識量と小型モデルの高速性を両立できます。

Q. 商用利用は可能ですか?

はい。

NVIDIA Open Model Licenseで公開されており、商用利用可能です。

重み、データセット、学習レシピすべてが公開されているため、自社でのファインチューニングやカスタマイズも自由に行えます。

Q. 動作に必要なGPUスペックは?

12Bアクティブパラメータのため、NVIDIA A100 1枚程度で推論可能です。

NVFP4量子化を使えばBlackwell世代のGPUでさらに効率的に動作します。

フル精度の場合は複数GPU構成が推奨されます。

Q. ChatGPTやClaudeの代替になりますか?

用途によります。

エージェントAIやバッチ処理など大量の推論を自社インフラで実行する場合はNemotron 3 Superが有利です。

一般ユーザー向けのチャットサービスには、APIとして利用できるGPTやClaudeの方が導入しやすいでしょう。

まとめ

この記事のポイントを振り返りましょう。

  • Nemotron 3 Superは120Bパラメータ/12Bアクティブの効率特化型オープンモデル
  • Mamba-Transformer+Latent MoEのハイブリッド構造で、同クラス比最大7.5倍のスループット
  • 100万トークンのコンテキストウィンドウでエージェントAIに最適化
  • 完全オープン(重み・データ・レシピ)で自社インフラでのカスタマイズ・運用が可能
  • 日本語含む7言語対応。オンプレミスAIを検討する日本企業に有力な選択肢

Nemotron 3 Superが示すのは、「AIは大きさではなく効率で勝負する」時代の到来です。

120Bの知識を12Bのコストで使う——この「少数精鋭」のアプローチは、エージェントAIが日常業務に浸透するための現実的な解答です。

GPUコストが企業のAI導入の壁になっている今、「賢くて速くて安い」モデルの価値は計り知れません。

参考文献

  • NVIDIA. (2026). Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning. NVIDIA Developer Blog
  • NVIDIA. (2026). New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI. NVIDIA Blog
  • NVIDIA. (2026). Nemotron 3 Super Technical Report. NVIDIA Research
  • NVIDIA. (2026). nemotron-3-super-120b-a12b Model Card. NVIDIA NIM
  • Artificial Analysis. (2026). NVIDIA Nemotron 3 Super: The new leader in open, efficient intelligence. Artificial Analysis

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です