- NVIDIAが「SANA-WM」という動画生成AIを2026年5月に無料公開しました
- 1枚の画像から、最大1分・720p画質の動画を一気に作れます
- カメラの動きを細かく指定でき、思い通りの視点で映像が動きます
- 商用利用OKのApache 2.0ライセンスで、誰でも改造・販売できます
- ゲーム開発・ロボット学習・映像制作など、幅広い分野で使えます
「AIで作る動画は数秒で終わってしまう」「カメラが勝手に動いてしまう」。動画生成AIを触ったことがある人なら、一度はそう感じたのではないでしょうか。NVIDIAが新しく公開したSANA-WMは、その2つの悩みを正面から解決しようとしています。しかも無料です。この記事では、何がどうすごいのかを中学生でもわかる言葉でほどいていきます。
SANA-WMとは?NVIDIAが公開した「世界モデル」
SANA-WM(サナ・ダブリューエム)は、画像処理の大手NVIDIAが2026年5月に公開したAIです。
種類としては「世界モデル」と呼ばれるものです。世界モデルとは、空間の形・視点の動き・物の見え方を予測して、まるで本物のような映像を作り出すAIのことです。
ふつうの動画生成AIは「猫が走る動画」のように、内容をまるごと想像します。世界モデルは少し違います。「この場所をこのカメラ経路で進んだら、どう見えるか」を計算するのです。
パラメータ(AIの賢さの目安になる部品の数)は26億個。動画AIとしては小さめですが、それでも商用級の品質を出すように設計されています。
何がすごい?3つの強みをやさしく解説
1. 最大1分・720pの動画を一発で作れる
これまでの無料の動画AIは、数秒の短いクリップが中心でした。
SANA-WMは違います。1枚のスタート画像を渡すだけで、最大60秒・720p(1280×720の画質)の動画を、途中で途切れずに作れます。
60秒というのは、AI動画の世界ではかなり長い部類です。短い動画をつなぎ合わせると、つなぎ目で景色がガクッと変わってしまいがちでした。SANA-WMはその不自然さを抑えています。
2. カメラを思い通りに動かせる
SANA-WMの一番の自慢は、カメラの動きを正確に指定できる点です。
専門的には「6自由度(6-DoF)」と言います。前後・左右・上下の移動に、3方向の回転を加えた6種類の動きのことです。これを数値で細かく指示できます。
「カメラを右に回しながら前進」と指定すれば、その通りに視点が動きます。NVIDIAの公式評価では、回転のズレは簡単な経路でわずか4.5度。同じく無料の他モデル(10〜18度ほどズレる)と比べて、追従の正確さが際立っています。
3. ゲーミングPC1台で動く軽さ
高性能な動画AIは、たくさんのGPU(画像計算用の高速チップ)を必要とするのがふつうです。
SANA-WMには軽量化した「蒸留版」があります。これを使うと、RTX 5090というゲーミング向けGPU1枚だけで、60秒の動画を約34秒で生成できます。再生時間よりも短く作れる計算です。
大型の商用モデルと比べると、処理能力は最大36倍。同じ時間で36倍多くの動画を作れるという意味です。個人や小さなチームでも手が届くAIになりました。
仕組みをやさしく解説
なぜ「長くて」「軽い」を両立できるのでしょうか。中心にあるのがハイブリッド線形アテンションという技術です。
アテンションとは、AIが「どの情報に注目するか」を決める仕組みです。ふつうの方式は、動画が長くなるほど必要なメモリが急増します。これが長尺動画の最大の壁でした。
SANA-WMは「Gated DeltaNet」という方式を主に使い、メモリの使用量を一定に抑えます。長い記憶を保ちつつ、細部もきれいに描けるよう、2つの方式を混ぜているのが特徴です。
さらに、生成は2段階です。まず本体が大まかな長尺動画を作り、次に「リファイナー」と呼ばれる仕上げ役が画質と一貫性を磨きます。粗く描いてから清書する、という流れに近いイメージです。
学習には約21万本の動画クリップを使い、H100というAI用GPUを64枚で約18日間かけました。地道な訓練の積み重ねが、この性能を支えています。
競合との比較|Genie 3・Cosmosとどう違う
2026年は「世界モデル」が一気に増えた年です。代表的なものと比べてみましょう。
- Google「Genie 3」:文章から操作できる3D空間を作る。インタラクティブ性が強み。ただし公開はされていない
- NVIDIA「Cosmos」:自動運転やロボット訓練向けの大規模シミュレーション基盤。ダウンロード200万回超え
- Runway「GWM-1」:リアルタイムで歩き回れる無限の空間を生成
- NVIDIA「SANA-WM」:軽くて、長尺で、カメラ制御が正確。しかも無料で改造もできる
SANA-WMの立ち位置ははっきりしています。商用級モデル(LingBot-Worldなど)に近い画質を保ちながら、動かすコストを大幅に下げたのがポイントです。「研究室の外」で実際に使えるAIを目指した、と言えます。
何に使える?具体的な活用シーン
世界モデルは映像を作るだけのものではありません。活用の幅は思った以上に広いです。
たとえば、あるインディーゲーム開発者を想像してみてください。背景の街並みを1枚描き、カメラ経路を指定するだけで、プレイヤーが歩く視点の映像が手に入ります。プロトタイプ作りが一気に速くなります。
ロボット開発の現場でも力を発揮します。ロボットに「もしこう動いたら世界はどう見えるか」を何通りもシミュレーションさせ、失敗を仮想空間で先に経験させられます。本物を壊さずに学習できるわけです。
映像制作でも便利です。不動産のバーチャル内見動画や、観光地のウォークスルー映像を、撮影なしで作れます。カメラ経路を指定できるので、見せたい順番で案内できるのが強みです。
日本のクリエイターや企業にとっての意味
日本でも、この流れは他人事ではありません。
2026年1月にSteamで配信された新作ゲームのうち、約3割が生成AIを使っていたという調査があります。ゲーム開発者の9割が、すでに何らかの形でAIをワークフローに組み込んでいるとも言われています。
SANA-WMはApache 2.0ライセンスです。これは商用利用・改造・再配布が無料でできるという、とても緩い条件です。日本の中小スタジオや個人クリエイターでも、ライセンス料を気にせず試せます。
注意点もあります。学習データは英語圏の素材が中心で、日本語のUIや解説は現時点で限定的です。導入には英語のドキュメントを読む手間がかかる点は、知っておくとよいでしょう。
よくある質問(FAQ)
Q. SANA-WMは本当に無料で使えますか?
はい。Apache 2.0ライセンスで公開され、コードとモデルの重みがGitHubとHuggingFaceで配布されています。商用利用も認められています。
Q. 動画生成AIと何が違うのですか?
ふつうの動画AIは内容を丸ごと想像します。SANA-WMは「指定したカメラ経路で空間を進むとどう見えるか」を計算します。視点をコントロールしたい用途に向いています。
Q. どんなパソコンが必要ですか?
軽量版ならRTX 5090クラスのGPU1枚で動きます。最高画質を狙う場合はH100など業務用GPUが必要です。一般的なノートPCでの動作は難しいです。
Q. テキストだけで動画を作れますか?
基本は「スタート画像+カメラ経路」を入力します。文章から丸ごと作るタイプとは設計思想が異なります。
Q. プログラミングの知識は必要ですか?
現状は研究者・開発者向けの公開です。導入にはGitHubの手順に沿った環境構築が必要で、英語のドキュメントを読む力もあると安心です。
まとめ
SANA-WMの要点を振り返ります。
- NVIDIAが2026年5月に公開した、26億パラメータの世界モデル
- 1枚の画像から最大1分・720pの動画を一発生成できる
- カメラの動きを6自由度で正確に指定できるのが最大の強み
- 軽量版はゲーミングGPU1枚で動き、商用級の36倍速い
- Apache 2.0ライセンスで、日本のクリエイターも無料で試せる
動画生成AIは「眺めるもの」から「操作するもの」へと進化しています。まずはGitHubのデモを見て、自分の用途に合うか確かめてみてはいかがでしょうか。

