NVIDIA Cosmos 3公開|物理AIのオープン世界モデル

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • 2026年6月1日のComputex 2026でNVIDIAが「Cosmos 3」を発表し、物理AI向けの世界モデルが本格的にオープン化
  • 16BのNanoと64BのSuperの2モデルが即日公開され、Hugging FaceとGitHubから誰でも使える
  • テキスト・画像・動画・音・行動を1つのモデルで処理するMixture-of-Transformers方式
  • Physics-IQやPAI-Benchなど主要ベンチマークで首位、ロボット・自動運転・倉庫監視に直結
  • サムスン・LG・トヨタなど20社以上が採用検討中で、日本のロボティクス開発にも追い風

ロボットや自動運転車が「目の前の状況を理解して、次の行動を決める」AIをどう作るか。これまでこの分野は、巨大IT企業が裏側で抱え込む独自モデルが主役でした。それを根本から変える発表が、Computex 2026の舞台で出ました。

NVIDIA Cosmos 3とは?物理AI向けの世界モデル

2026年6月1日、NVIDIAは台湾・台北で開催されたComputex 2026のGTC Taipei基調講演で、新しいAIモデル「Cosmos 3」を公開しました。

Cosmos 3は、物理AI(フィジカルAI)と呼ばれる分野のための「世界基礎モデル(World Foundation Model)」です。

世界モデルというのは、ロボットや自動運転車が「次に何が起きるか」を頭の中でシミュレーションするためのAI。たとえば人間が階段を見たとき、無意識に「ここに足を置けば踏み外す」と予測するような感覚を、AIに持たせる仕組みです。

これまでこの分野は、Google DeepMindの「Genie 3」やOpenAIの「Sora」など、各社が独自にクローズドで開発してきました。NVIDIAはそこにオープンモデルという形で殴り込みをかけた格好です。

CEOジェンスン・フアン氏の発言

発表の場でCEOのジェンスン・フアン氏は、こう語りました。

物理AIのビッグバンはすぐそこまで来ている」。マルチモーダル推論、視覚、世界モデルのブレイクスルーがそれを可能にしたという主張です。

ビッグバンという言葉が大げさに聞こえるかもしれません。でも実際、ロボティクスと自動運転の両方で同じ基盤モデルが使える状況は今までありませんでした。Cosmos 3はその「共通言語」を目指しています。

2つのモデル「Nano」と「Super」の違い

Cosmos 3は、用途に応じて2種類が同時公開されました。

Cosmos 3 Nano(16Bパラメータ)

Nanoは小さい方のモデルで、合計160億パラメータ。内訳は推論用80億 + 生成用80億です。

1秒未満で動画や行動を出力できるスピードが売りで、現場のロボットや車載コンピュータでの利用を想定しています。

NVIDIAのRTX PRO 6000クラスのGPUで動作するため、研究室レベルの環境でも触れます。

Cosmos 3 Super(64Bパラメータ)

Superは大型版で、640億パラメータ(推論320億 + 生成320億)。物理的な正確さが命のロボット訓練や自動運転シミュレーションに使われます。

動かすにはNVIDIA HopperやBlackwell世代のGPUが必要で、合成データを大量に作る研究用途が中心です。

つまり、Nanoは「現場で動かす用」、Superは「研究室で大量のデータを作る用」という棲み分けですね。さらに近日中に、エッジ推論向けの「Cosmos 3 Edge」も追加される予定です。

学習データと技術アーキテクチャ

Cosmos 3の特徴は、その学習データの規模と種類にあります。

NVIDIA公式によると、Cosmos 3は20兆トークンのマルチモーダルデータで学習されました。内訳は、10億枚近い画像、4億本の実映像と合成映像、環境音、テキスト、そして人間とロボットの行動軌跡です。

これだけのデータを1つのモデルに詰め込むため、採用されたのが「Mixture-of-Transformers(MoT)」というアーキテクチャ。

MoTは、複数のトランスフォーマー(AIの基本部品)を組み合わせて、それぞれが別のモダリティ(テキスト、画像、行動など)を担当する仕組み。1つの巨大モデルに全部押し込むのではなく、専門家を束ねるイメージです。

これによって、入力モダリティと出力モダリティを自由に組み合わせられます。たとえば「テキスト+画像」を入れて「動画+ロボットの関節角度」を出す、といった離れ業ができるわけです。

主要ベンチマークで首位を獲得

Cosmos 3は、物理AI関連の主要ベンチマークで首位を獲得しています。

  • Physics-IQ:物理推論能力を測る指標で1位
  • PAI-Bench:物理AI総合評価で1位
  • R-Bench:ロボティクスタスクで1位
  • VANTAGE-Bench:オープン視覚言語モデルとして1位

ベンチマークの数字だけが全てではないものの、オープンモデルとしてこれだけのスコアを揃えた例は他にありません。クローズドのGenie 3やSoraと正面から比較できるオープンモデルが、ようやく出てきた形です。

Cosmos 3が変える3つの現場

Cosmos 3がどんな現場を変えるのか、具体的なシナリオで見てみましょう。

ロボティクス:洗濯物を畳めるロボットの量産

ある中小企業がサービスロボットを開発しているとします。これまでは、ロボットに「洗濯物を畳む」動作を覚えさせるのに、人間が何百回もデモンストレーション動画を撮影する必要がありました。

Cosmos 3を使えば、テキストで「タオルを4つ折りにする」と指示するだけで、ロボットが学習に使える映像データを大量に生成できます。実機を動かす前の事前学習を、桁違いに加速できる仕組みです。

パートナー企業のAgile Robotsは、すでに「Thor 3」や「FR3」と呼ばれるヒューマノイドの行動データ生成にCosmos 3を使い始めています。

自動運転:起きてほしくない事故をAIで再現

自動運転の難しさは、めったに起きないけれど致命的な「エッジケース」をAIにどう教えるか。現実で再現するのは危険すぎますよね。

Cosmos 3は、衝突や追突などのレアシナリオを物理的に妥当な映像として生成できます。中国のLiAutoなど自動運転各社が、この合成データを訓練に使い始めています。

スマートシティ:何千ものカメラを1つのAIが監視

台湾のLinker Visionは、都市のライブカメラ映像を分析するのにCosmos 3を採用。何千ものカメラ映像から「いま何が起きているか」を即座に推論し、原因分析まで自動化しています。

従来は人間が監視センターでモニターを睨み続ける必要があった作業を、AIが肩代わりする未来がすぐそこまで来ています。

競合モデルとの比較(Genie 3・Sora・V-JEPA 2)

物理AI向け世界モデルは2026年に入って一気に競争が激化しています。主要モデルを並べてみます。

Google DeepMind「Genie 3」:720p/24fpsのインタラクティブ動画を生成。ゲームのような探索可能な世界を作るのが得意ですが、商用利用には制限が多く、オープンではありません。

OpenAI「Sora」:テキストから動画を生成するモデル。一般消費者向けの色が強く、ロボットの行動生成のような産業用途は弱め。

Meta「V-JEPA 2」:100万時間以上のネット動画で学習し、Franka armの制御に成功。研究色が強い印象です。

NVIDIA「Cosmos 3」:上記すべてに対して「オープン」「物理AI特化」「行動生成までワンストップ」という差別化を打ち出しました。

Genie 3が「美しい仮想世界を作るAI」だとすれば、Cosmos 3は「ロボットが現実を理解するためのAI」。同じ世界モデルでも狙いがかなり違います。

日本市場への影響

Cosmos 3は日本企業にどう影響するでしょうか。

自動車・ロボット業界の追い風

トヨタは2025年1月のCESで、NVIDIA DRIVE AGX Orinを次世代自動運転車の基盤に採用すると発表済みです。Cosmos 3はそのDRIVEプラットフォームの上で動く合成データ生成エンジンとして、トヨタの自動運転開発を加速する可能性があります。

ロボティクスでも、産業用ロボット大手のファナックや安川電機が同様のオープンモデルを採用すれば、海外勢に依存しない国産ロボット開発がしやすくなります。

スタートアップにとっての意味

日本のロボティクス系スタートアップにとっては、最大の恩恵かもしれません。

これまで世界モデルを自前で学習させるには、数億円規模のGPU費用が必要でした。Cosmos 3はOpenMDW 1.1という商用利用可能なオープンライセンスで配布されており、学習済みモデルをそのまま使えます。

スタートアップは「ロボット動作の生成」という土台を無料で手に入れ、その上でアプリケーションの開発に集中できるわけです。

使い方と入手方法

Cosmos 3は、開発者向けに以下のチャネルですぐに利用できます。

  • Hugging Face:モデルカードとともにダウンロード可能
  • GitHub:公式のCosmos Cookbookとトレーニングスクリプト
  • build.nvidia.com:APIから直接呼び出して試せる
  • NVIDIA NIM:マイクロサービスとしてデプロイ可能

Pythonのdiffusersライブラリ経由で、5行程度のコードで動画生成ができます。Hugging Faceのモデルカードにサンプルコードが載っているので、まずはNanoから試すのが現実的です。

よくある質問(FAQ)

Q1. Cosmos 3は無料で使えますか?

はい、モデル自体はOpenMDW 1.1ライセンスで配布されており、商用利用も含めて無料です。ただし動かすためのGPU費用は別途必要です。

Q2. 個人のPCで動かせますか?

Cosmos 3 Nano(16B)であれば、NVIDIA RTX PRO 6000などの上位GPUがあれば動きます。Superは数百GBのVRAMが必要なので、データセンター向けです。手元で試すなら、build.nvidia.comのクラウドAPI経由が現実的です。

Q3. ChatGPTやClaudeとは何が違うのですか?

ChatGPTやClaudeは「文章を理解して文章を返す」言語モデルです。Cosmos 3は「映像と物理世界を理解して、ロボットの行動や未来の映像を返す」世界モデル。狙う領域が根本的に違います

Q4. Cosmos Coalitionとは何ですか?

NVIDIAが同時発表したパートナー連合で、Agile Robots、Black Forest Labs、Runway、Skild AIなどが参加。オープンな世界モデルを共同で進化させる枠組みです。

Q5. 日本語のドキュメントはありますか?

2026年6月時点で、公式ドキュメントは英語が中心です。ただしHugging Face上のモデルカードはコミュニティ翻訳が進む可能性が高く、Qiitaやnoteなどでも日本語解説が出始めるでしょう。

まとめ

NVIDIA Cosmos 3の登場で押さえておくべきポイントを整理します。

  • 2026年6月1日、NVIDIAがComputex 2026で物理AI向けオープン世界モデル「Cosmos 3」を発表
  • 16BのNanoと64BのSuperの2モデルがHugging FaceとGitHubで即日公開
  • Mixture-of-Transformers方式で、テキスト・画像・動画・音・行動を統合処理
  • Physics-IQやR-Benchなど主要ベンチマークで首位を獲得
  • ロボット・自動運転・スマートシティの3領域で実用化が進行中
  • OpenMDW 1.1ライセンスで商用利用可能、日本のスタートアップにも追い風

もしロボティクスや自動運転、合成データ生成に関わる仕事をしているなら、まずはHugging FaceのCosmos 3 Nanoモデルカードを開いて、サンプルコードを動かしてみるのがおすすめです。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です