- NVIDIA Nemotron 3 Superは120Bパラメータ(アクティブ12B)のオープンウェイトLLM。エージェントAI向けに最適化された高効率モデル
- Mamba-Transformer+LatentMoEのハイブリッド構造で、GPT-OSS-120Bの2.2倍、Qwen3.5-122Bの7.5倍のスループットを実現
- 100万トークンのコンテキストウィンドウを搭載。長期記憶を持つエージェントの構築が可能
- 25兆トークンで事前学習。日本語・英語・中国語など7言語に対応したマルチリンガルモデル
- 完全オープン(重み・データセット・レシピ公開)で商用利用可能。自社インフラでのカスタマイズ・デプロイに対応
「AIモデルは大きいほど賢い」——そんな常識を覆すモデルが登場しました。
NVIDIAが2026年3月に発表したNemotron 3 Superは、120Bパラメータのうち実際に使うのはわずか12B。
それでいて、同クラスのオープンモデルをスループットで最大7.5倍上回ります。
秘密は「全員を動かすのではなく、適材適所で専門家を呼ぶ」Mixture of Experts(MoE)アーキテクチャ。
エージェントAI時代の”効率特化型”モデルの全貌を解説します。
Nemotron 3 Superとは?|120Bパラメータなのに12Bしか使わない理由
Nemotron 3 Superは、NVIDIAが2026年3月に発表したオープンウェイトの大規模言語モデルです。
- 120B / 12Bアーキテクチャ — 総パラメータ120B(1200億)のうち、推論時にアクティブになるのはわずか12B(120億)。MoEにより必要な「専門家」だけを起動
- ハイブリッド構造 — Mamba-2(高速シーケンス処理)+Transformer(精密推論)+Latent MoE(潜在的専門家混合)の3要素を融合
- エージェントAI特化 — ソフトウェア開発、サイバーセキュリティトリアージなど複雑なマルチエージェントタスクに最適化
- 完全オープン — 重み・データセット・学習レシピすべてを公開。自社インフラでのカスタマイズとデプロイが可能
たとえるなら、従来の巨大AIモデルが「全社員総出で1つの仕事をこなす大企業」だとすれば、Nemotron 3 Superは「必要な専門家だけを呼び出すコンサルティングファーム」。120Bの知識を持ちながら、12Bのコストで動作する——これがMoEの本質です。
技術的な仕組み|なぜ高速かつ高精度なのか
1. Latent MoE(潜在的専門家混合)
- 従来のMoEは「どの専門家を使うか」を明示的に選択。Latent MoEは潜在空間で選択し、4つの専門家を1つ分のコストで呼び出し
- 知識の一般化能力が向上し、未知のタスクへの適応力が高い
- 専門家間の知識共有が効率化され、パラメータの無駄遣いを削減
2. Mamba-Transformer ハイブリッド
- Mamba-2レイヤー — 長いシーケンスを線形計算量で処理。100万トークンのコンテキストでもメモリ効率が良い
- Transformerレイヤー — 注意機構による精密な推論。論理的な整合性が求められるタスクで威力を発揮
- 両者をインターリーブ(交互配置)することで、速度と精度を両立
3. Multi-Token Prediction(MTP)
- 従来の「1トークンずつ生成」ではなく、複数トークンを同時に予測
- テキスト生成の速度向上と品質改善を同時に実現
- NVFP4(NVIDIA独自の4ビット浮動小数点)量子化でBlackwell GPU上で最大効率を発揮
ベンチマーク性能|同クラスモデルとの比較
- vs GPT-OSS-120B — 同等以上の精度を維持しつつ、推論スループット2.2倍(8K入力/64K出力設定)
- vs Qwen3.5-122B — 精度は同等で、推論スループット7.5倍。圧倒的なコスト効率
- PinchBench — エージェントAIベンチマークで85.6%のスコア。同クラスのオープンモデルで最高
- メモリ効率 — 従来のTransformerモデル比で4倍のメモリ・計算効率を実現
たとえるなら、同じ荷物を運ぶのに、他のモデルが「大型トラック1台」を使うところ、Nemotron 3 Superは「効率的な配送ネットワーク」で同じ結果をはるかに少ない燃料で達成する——それがMoEアーキテクチャの威力です。
エージェントAIへの最適化|なぜ「エージェント向け」なのか
- 100万トークンコンテキスト — エージェントが長時間のタスク実行で過去の操作履歴を「忘れない」
- ツール呼び出し最適化 — API呼び出し、コード実行、ファイル操作などのエージェント操作パターンに特化した学習
- マルチエージェント協調 — 複数のエージェントが協力するシステムで、各エージェントの役割分担を効率的に処理
- IT運用自動化 — チケット処理、セキュリティアラート対応などの大量ワークロードを高スループットで処理
競合モデルとの比較
- Llama 4 Maverick(Meta) — 400Bパラメータ/17Bアクティブ。マルチモーダル対応だがNemotronより大きなGPUリソースが必要
- Qwen3.5-122B(Alibaba) — 密なTransformerモデル。精度は高いがスループットでNemotronに大きく劣る
- GPT-OSS-120B(OpenAI) — オープンソースの120Bモデル。Nemotronの半分以下のスループット
- Nemotron 3 Super — 効率とオープン性の両立が最大の強み。自社インフラでの運用に最も適したモデル
日本語対応と日本での活用
- 7言語サポート — 英語、日本語、中国語、フランス語、ドイツ語、イタリア語、スペイン語にネイティブ対応
- 日本企業のオンプレミスAI — 完全オープンのため、クラウドにデータを送らずに社内で運用可能。金融・医療などデータセキュリティが重要な業界に最適
- NVIDIA NIM対応 — NVIDIAの推論マイクロサービスNIMで簡単にデプロイ。Docker一行で起動可能
- 25兆トークンの学習データ — 多言語データで学習しており、日本語のビジネス文書・技術文書にも対応
よくある質問(FAQ)
Q. 120Bパラメータなのに12Bしか使わないとはどういう意味ですか?
Mixture of Experts(MoE)方式では、入力に応じて最適な「専門家」ネットワークだけを起動します。120Bの知識プールから12B分だけをアクティブにするため、巨大モデルの知識量と小型モデルの高速性を両立できます。
Q. 商用利用は可能ですか?
はい。
NVIDIA Open Model Licenseで公開されており、商用利用可能です。
重み、データセット、学習レシピすべてが公開されているため、自社でのファインチューニングやカスタマイズも自由に行えます。
Q. 動作に必要なGPUスペックは?
12Bアクティブパラメータのため、NVIDIA A100 1枚程度で推論可能です。
NVFP4量子化を使えばBlackwell世代のGPUでさらに効率的に動作します。
フル精度の場合は複数GPU構成が推奨されます。
Q. ChatGPTやClaudeの代替になりますか?
用途によります。
エージェントAIやバッチ処理など大量の推論を自社インフラで実行する場合はNemotron 3 Superが有利です。
一般ユーザー向けのチャットサービスには、APIとして利用できるGPTやClaudeの方が導入しやすいでしょう。
まとめ
この記事のポイントを振り返りましょう。
- Nemotron 3 Superは120Bパラメータ/12Bアクティブの効率特化型オープンモデル
- Mamba-Transformer+Latent MoEのハイブリッド構造で、同クラス比最大7.5倍のスループット
- 100万トークンのコンテキストウィンドウでエージェントAIに最適化
- 完全オープン(重み・データ・レシピ)で自社インフラでのカスタマイズ・運用が可能
- 日本語含む7言語対応。オンプレミスAIを検討する日本企業に有力な選択肢
Nemotron 3 Superが示すのは、「AIは大きさではなく効率で勝負する」時代の到来です。
120Bの知識を12Bのコストで使う——この「少数精鋭」のアプローチは、エージェントAIが日常業務に浸透するための現実的な解答です。
GPUコストが企業のAI導入の壁になっている今、「賢くて速くて安い」モデルの価値は計り知れません。
参考文献
- NVIDIA. (2026). Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning. NVIDIA Developer Blog
- NVIDIA. (2026). New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI. NVIDIA Blog
- NVIDIA. (2026). Nemotron 3 Super Technical Report. NVIDIA Research
- NVIDIA. (2026). nemotron-3-super-120b-a12b Model Card. NVIDIA NIM
- Artificial Analysis. (2026). NVIDIA Nemotron 3 Super: The new leader in open, efficient intelligence. Artificial Analysis


