NVIDIAが1分動画AIを無料公開|RTX1枚で動く

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • NVIDIAが「SANA-WM」という動画生成AIを2026年5月に無料公開しました
  • 1枚の画像から、最大1分・720p画質の動画を一気に作れます
  • カメラの動きを細かく指定でき、思い通りの視点で映像が動きます
  • 商用利用OKのApache 2.0ライセンスで、誰でも改造・販売できます
  • ゲーム開発・ロボット学習・映像制作など、幅広い分野で使えます

「AIで作る動画は数秒で終わってしまう」「カメラが勝手に動いてしまう」。動画生成AIを触ったことがある人なら、一度はそう感じたのではないでしょうか。NVIDIAが新しく公開したSANA-WMは、その2つの悩みを正面から解決しようとしています。しかも無料です。この記事では、何がどうすごいのかを中学生でもわかる言葉でほどいていきます。

SANA-WMとは?NVIDIAが公開した「世界モデル」

SANA-WM(サナ・ダブリューエム)は、画像処理の大手NVIDIAが2026年5月に公開したAIです。

種類としては「世界モデル」と呼ばれるものです。世界モデルとは、空間の形・視点の動き・物の見え方を予測して、まるで本物のような映像を作り出すAIのことです。

ふつうの動画生成AIは「猫が走る動画」のように、内容をまるごと想像します。世界モデルは少し違います。「この場所をこのカメラ経路で進んだら、どう見えるか」を計算するのです。

パラメータ(AIの賢さの目安になる部品の数)は26億個。動画AIとしては小さめですが、それでも商用級の品質を出すように設計されています。

何がすごい?3つの強みをやさしく解説

1. 最大1分・720pの動画を一発で作れる

これまでの無料の動画AIは、数秒の短いクリップが中心でした。

SANA-WMは違います。1枚のスタート画像を渡すだけで、最大60秒・720p(1280×720の画質)の動画を、途中で途切れずに作れます。

60秒というのは、AI動画の世界ではかなり長い部類です。短い動画をつなぎ合わせると、つなぎ目で景色がガクッと変わってしまいがちでした。SANA-WMはその不自然さを抑えています。

2. カメラを思い通りに動かせる

SANA-WMの一番の自慢は、カメラの動きを正確に指定できる点です。

専門的には「6自由度(6-DoF)」と言います。前後・左右・上下の移動に、3方向の回転を加えた6種類の動きのことです。これを数値で細かく指示できます。

「カメラを右に回しながら前進」と指定すれば、その通りに視点が動きます。NVIDIAの公式評価では、回転のズレは簡単な経路でわずか4.5度。同じく無料の他モデル(10〜18度ほどズレる)と比べて、追従の正確さが際立っています。

3. ゲーミングPC1台で動く軽さ

高性能な動画AIは、たくさんのGPU(画像計算用の高速チップ)を必要とするのがふつうです。

SANA-WMには軽量化した「蒸留版」があります。これを使うと、RTX 5090というゲーミング向けGPU1枚だけで、60秒の動画を約34秒で生成できます。再生時間よりも短く作れる計算です。

大型の商用モデルと比べると、処理能力は最大36倍。同じ時間で36倍多くの動画を作れるという意味です。個人や小さなチームでも手が届くAIになりました。

仕組みをやさしく解説

なぜ「長くて」「軽い」を両立できるのでしょうか。中心にあるのがハイブリッド線形アテンションという技術です。

アテンションとは、AIが「どの情報に注目するか」を決める仕組みです。ふつうの方式は、動画が長くなるほど必要なメモリが急増します。これが長尺動画の最大の壁でした。

SANA-WMは「Gated DeltaNet」という方式を主に使い、メモリの使用量を一定に抑えます。長い記憶を保ちつつ、細部もきれいに描けるよう、2つの方式を混ぜているのが特徴です。

さらに、生成は2段階です。まず本体が大まかな長尺動画を作り、次に「リファイナー」と呼ばれる仕上げ役が画質と一貫性を磨きます。粗く描いてから清書する、という流れに近いイメージです。

学習には約21万本の動画クリップを使い、H100というAI用GPUを64枚で約18日間かけました。地道な訓練の積み重ねが、この性能を支えています。

競合との比較|Genie 3・Cosmosとどう違う

2026年は「世界モデル」が一気に増えた年です。代表的なものと比べてみましょう。

  • Google「Genie 3」:文章から操作できる3D空間を作る。インタラクティブ性が強み。ただし公開はされていない
  • NVIDIA「Cosmos」:自動運転やロボット訓練向けの大規模シミュレーション基盤。ダウンロード200万回超え
  • Runway「GWM-1」:リアルタイムで歩き回れる無限の空間を生成
  • NVIDIA「SANA-WM」:軽くて、長尺で、カメラ制御が正確。しかも無料で改造もできる

SANA-WMの立ち位置ははっきりしています。商用級モデル(LingBot-Worldなど)に近い画質を保ちながら、動かすコストを大幅に下げたのがポイントです。「研究室の外」で実際に使えるAIを目指した、と言えます。

何に使える?具体的な活用シーン

世界モデルは映像を作るだけのものではありません。活用の幅は思った以上に広いです。

たとえば、あるインディーゲーム開発者を想像してみてください。背景の街並みを1枚描き、カメラ経路を指定するだけで、プレイヤーが歩く視点の映像が手に入ります。プロトタイプ作りが一気に速くなります。

ロボット開発の現場でも力を発揮します。ロボットに「もしこう動いたら世界はどう見えるか」を何通りもシミュレーションさせ、失敗を仮想空間で先に経験させられます。本物を壊さずに学習できるわけです。

映像制作でも便利です。不動産のバーチャル内見動画や、観光地のウォークスルー映像を、撮影なしで作れます。カメラ経路を指定できるので、見せたい順番で案内できるのが強みです。

日本のクリエイターや企業にとっての意味

日本でも、この流れは他人事ではありません。

2026年1月にSteamで配信された新作ゲームのうち、約3割が生成AIを使っていたという調査があります。ゲーム開発者の9割が、すでに何らかの形でAIをワークフローに組み込んでいるとも言われています。

SANA-WMはApache 2.0ライセンスです。これは商用利用・改造・再配布が無料でできるという、とても緩い条件です。日本の中小スタジオや個人クリエイターでも、ライセンス料を気にせず試せます。

注意点もあります。学習データは英語圏の素材が中心で、日本語のUIや解説は現時点で限定的です。導入には英語のドキュメントを読む手間がかかる点は、知っておくとよいでしょう。

よくある質問(FAQ)

Q. SANA-WMは本当に無料で使えますか?
はい。Apache 2.0ライセンスで公開され、コードとモデルの重みがGitHubとHuggingFaceで配布されています。商用利用も認められています。

Q. 動画生成AIと何が違うのですか?
ふつうの動画AIは内容を丸ごと想像します。SANA-WMは「指定したカメラ経路で空間を進むとどう見えるか」を計算します。視点をコントロールしたい用途に向いています。

Q. どんなパソコンが必要ですか?
軽量版ならRTX 5090クラスのGPU1枚で動きます。最高画質を狙う場合はH100など業務用GPUが必要です。一般的なノートPCでの動作は難しいです。

Q. テキストだけで動画を作れますか?
基本は「スタート画像+カメラ経路」を入力します。文章から丸ごと作るタイプとは設計思想が異なります。

Q. プログラミングの知識は必要ですか?
現状は研究者・開発者向けの公開です。導入にはGitHubの手順に沿った環境構築が必要で、英語のドキュメントを読む力もあると安心です。

まとめ

SANA-WMの要点を振り返ります。

  • NVIDIAが2026年5月に公開した、26億パラメータの世界モデル
  • 1枚の画像から最大1分・720pの動画を一発生成できる
  • カメラの動きを6自由度で正確に指定できるのが最大の強み
  • 軽量版はゲーミングGPU1枚で動き、商用級の36倍速い
  • Apache 2.0ライセンスで、日本のクリエイターも無料で試せる

動画生成AIは「眺めるもの」から「操作するもの」へと進化しています。まずはGitHubのデモを見て、自分の用途に合うか確かめてみてはいかがでしょうか。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です