NVIDIA Nemotron 3 Super完全解説｜120Bパラメータを12Bのコストで動かす「少数精鋭AI」、エージェント向け最高効率オープンモデル

監修者伊東雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube

NVIDIA Nemotron 3 Superは120Bパラメータ（アクティブ12B）のオープンウェイトLLM。エージェントAI向けに最適化された高効率モデル
Mamba-Transformer＋LatentMoEのハイブリッド構造で、GPT-OSS-120Bの2.2倍、Qwen3.5-122Bの7.5倍のスループットを実現
100万トークンのコンテキストウィンドウを搭載。長期記憶を持つエージェントの構築が可能
25兆トークンで事前学習。日本語・英語・中国語など7言語に対応したマルチリンガルモデル
完全オープン（重み・データセット・レシピ公開）で商用利用可能。自社インフラでのカスタマイズ・デプロイに対応

「AIモデルは大きいほど賢い」——そんな常識を覆すモデルが登場しました。

NVIDIAが2026年3月に発表したNemotron 3 Superは、120Bパラメータのうち実際に使うのはわずか12B。

それでいて、同クラスのオープンモデルをスループットで最大7.5倍上回ります。

秘密は「全員を動かすのではなく、適材適所で専門家を呼ぶ」Mixture of Experts（MoE）アーキテクチャ。

エージェントAI時代の”効率特化型”モデルの全貌を解説します。

Nemotron 3 Superとは？｜120Bパラメータなのに12Bしか使わない理由

Nemotron 3 Superは、NVIDIAが2026年3月に発表したオープンウェイトの大規模言語モデルです。

120B / 12Bアーキテクチャ — 総パラメータ120B（1200億）のうち、推論時にアクティブになるのはわずか12B（120億）。MoEにより必要な「専門家」だけを起動
ハイブリッド構造 — Mamba-2（高速シーケンス処理）＋Transformer（精密推論）＋Latent MoE（潜在的専門家混合）の3要素を融合
エージェントAI特化 — ソフトウェア開発、サイバーセキュリティトリアージなど複雑なマルチエージェントタスクに最適化
完全オープン — 重み・データセット・学習レシピすべてを公開。自社インフラでのカスタマイズとデプロイが可能

たとえるなら、従来の巨大AIモデルが「全社員総出で1つの仕事をこなす大企業」だとすれば、Nemotron 3 Superは「必要な専門家だけを呼び出すコンサルティングファーム」。120Bの知識を持ちながら、12Bのコストで動作する——これがMoEの本質です。

技術的な仕組み｜なぜ高速かつ高精度なのか

1. Latent MoE（潜在的専門家混合）

従来のMoEは「どの専門家を使うか」を明示的に選択。Latent MoEは潜在空間で選択し、4つの専門家を1つ分のコストで呼び出し
知識の一般化能力が向上し、未知のタスクへの適応力が高い
専門家間の知識共有が効率化され、パラメータの無駄遣いを削減

2. Mamba-Transformer ハイブリッド

Mamba-2レイヤー — 長いシーケンスを線形計算量で処理。100万トークンのコンテキストでもメモリ効率が良い
Transformerレイヤー — 注意機構による精密な推論。論理的な整合性が求められるタスクで威力を発揮
両者をインターリーブ（交互配置）することで、速度と精度を両立

3. Multi-Token Prediction（MTP）

従来の「1トークンずつ生成」ではなく、複数トークンを同時に予測
テキスト生成の速度向上と品質改善を同時に実現
NVFP4（NVIDIA独自の4ビット浮動小数点）量子化でBlackwell GPU上で最大効率を発揮

ベンチマーク性能｜同クラスモデルとの比較

vs GPT-OSS-120B — 同等以上の精度を維持しつつ、推論スループット2.2倍（8K入力/64K出力設定）
vs Qwen3.5-122B — 精度は同等で、推論スループット7.5倍。圧倒的なコスト効率
PinchBench — エージェントAIベンチマークで85.6%のスコア。同クラスのオープンモデルで最高
メモリ効率 — 従来のTransformerモデル比で4倍のメモリ・計算効率を実現

たとえるなら、同じ荷物を運ぶのに、他のモデルが「大型トラック1台」を使うところ、Nemotron 3 Superは「効率的な配送ネットワーク」で同じ結果をはるかに少ない燃料で達成する——それがMoEアーキテクチャの威力です。

エージェントAIへの最適化｜なぜ「エージェント向け」なのか

100万トークンコンテキスト — エージェントが長時間のタスク実行で過去の操作履歴を「忘れない」
ツール呼び出し最適化 — API呼び出し、コード実行、ファイル操作などのエージェント操作パターンに特化した学習
マルチエージェント協調 — 複数のエージェントが協力するシステムで、各エージェントの役割分担を効率的に処理
IT運用自動化 — チケット処理、セキュリティアラート対応などの大量ワークロードを高スループットで処理

競合モデルとの比較

Llama 4 Maverick（Meta） — 400Bパラメータ/17Bアクティブ。マルチモーダル対応だがNemotronより大きなGPUリソースが必要
Qwen3.5-122B（Alibaba） — 密なTransformerモデル。精度は高いがスループットでNemotronに大きく劣る
GPT-OSS-120B（OpenAI） — オープンソースの120Bモデル。Nemotronの半分以下のスループット
Nemotron 3 Super — 効率とオープン性の両立が最大の強み。自社インフラでの運用に最も適したモデル

日本語対応と日本での活用

7言語サポート — 英語、日本語、中国語、フランス語、ドイツ語、イタリア語、スペイン語にネイティブ対応
日本企業のオンプレミスAI — 完全オープンのため、クラウドにデータを送らずに社内で運用可能。金融・医療などデータセキュリティが重要な業界に最適
NVIDIA NIM対応 — NVIDIAの推論マイクロサービスNIMで簡単にデプロイ。Docker一行で起動可能
25兆トークンの学習データ — 多言語データで学習しており、日本語のビジネス文書・技術文書にも対応

よくある質問（FAQ）

Q. 120Bパラメータなのに12Bしか使わないとはどういう意味ですか？

Mixture of Experts（MoE）方式では、入力に応じて最適な「専門家」ネットワークだけを起動します。120Bの知識プールから12B分だけをアクティブにするため、巨大モデルの知識量と小型モデルの高速性を両立できます。

Q. 商用利用は可能ですか？

はい。

NVIDIA Open Model Licenseで公開されており、商用利用可能です。

重み、データセット、学習レシピすべてが公開されているため、自社でのファインチューニングやカスタマイズも自由に行えます。

Q. 動作に必要なGPUスペックは？

12Bアクティブパラメータのため、NVIDIA A100 1枚程度で推論可能です。

NVFP4量子化を使えばBlackwell世代のGPUでさらに効率的に動作します。

フル精度の場合は複数GPU構成が推奨されます。

Q. ChatGPTやClaudeの代替になりますか？

用途によります。

エージェントAIやバッチ処理など大量の推論を自社インフラで実行する場合はNemotron 3 Superが有利です。

一般ユーザー向けのチャットサービスには、APIとして利用できるGPTやClaudeの方が導入しやすいでしょう。

まとめ

この記事のポイントを振り返りましょう。

Nemotron 3 Superは120Bパラメータ/12Bアクティブの効率特化型オープンモデル
Mamba-Transformer＋Latent MoEのハイブリッド構造で、同クラス比最大7.5倍のスループット
100万トークンのコンテキストウィンドウでエージェントAIに最適化
完全オープン（重み・データ・レシピ）で自社インフラでのカスタマイズ・運用が可能
日本語含む7言語対応。オンプレミスAIを検討する日本企業に有力な選択肢

Nemotron 3 Superが示すのは、「AIは大きさではなく効率で勝負する」時代の到来です。

120Bの知識を12Bのコストで使う——この「少数精鋭」のアプローチは、エージェントAIが日常業務に浸透するための現実的な解答です。

GPUコストが企業のAI導入の壁になっている今、「賢くて速くて安い」モデルの価値は計り知れません。

参考文献

NVIDIA. (2026). Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning. NVIDIA Developer Blog
NVIDIA. (2026). New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI. NVIDIA Blog
NVIDIA. (2026). Nemotron 3 Super Technical Report. NVIDIA Research
NVIDIA. (2026). nemotron-3-super-120b-a12b Model Card. NVIDIA NIM
Artificial Analysis. (2026). NVIDIA Nemotron 3 Super: The new leader in open, efficient intelligence. Artificial Analysis