Stable Audio 3.0発表|6分超のフル楽曲を生成

伊東雄歩
監修者 伊東 雄歩

株式会社ウォーカー CEO。東北大学卒。MENSA会員、JDLA認定講師、健全AI教育協会理事。生成AI×教育・学習科学を専門とし、2億円超のシステム開発プロジェクトを統括。

taolis.net X note Voicy YouTube
  • Stability AIが2026年5月20日に音楽生成AIの新版「Stable Audio 3.0」を公開
  • 最上位モデルは最大6分20秒のフル楽曲を生成、前世代の2倍超
  • 4つのサイズを用意し、3モデルはオープンウェイトで無料公開
  • 学習データはすべて正規ライセンス済み、商用利用の法的リスクが低い
  • Suno・Udioが訴訟で揺れる中、安全な選択肢として企業導入が加速

「YouTubeのBGMをAIで作りたいけど、著作権が不安」と思ったことはありませんか。Stability AIが2026年5月20日に発表したStable Audio 3.0は、その悩みを解消する可能性のあるニュースです。最大6分超の楽曲を生成でき、しかも一部モデルは無料で公開されました。この記事を読めば、何が新しくなったのか、Suno・Udioとどう違うのか、日本のクリエイターにどう関係するかがわかります。

Stable Audio 3.0とは?4つのモデルで何が変わったか

そもそもStable Audioは何のAI?

Stable Audioは、画像生成AI「Stable Diffusion」で有名なStability AI(イギリス発のAIスタートアップ)が開発する音楽・効果音生成AIです。

テキストで「夕暮れのカフェに合うジャズピアノ」と指示するだけで、AIが楽曲を生成します。

2023年に初版、2024年にバージョン2.0が登場し、今回が約2年ぶりのメジャー更新になります。

4モデル構成:用途に応じて選べる

今回のリリースでは、サイズの違う4つのモデルが同時公開されました。パラメータ数(AIの規模を示す数値)と用途を整理します。

  • Small SFX(459Mパラメータ):効果音生成に特化、スマホ・PCで動作
  • Small(459M):オンデバイスで最大2分の楽曲生成
  • Medium(1.4B):構造的に整った6分20秒のフル楽曲
  • Large(2.7B):最高品質、低遅延、API経由のみ提供

2024年のStable Audio 2.0では最長3分でしたが、3.0は2倍超の長さに伸びています。

「6分20秒」が意味する技術的ジャンプ

長い楽曲を作るAIには、独特の難しさがあります。途中で曲調が崩れたり、メロディが破綻したりするからです。

Stability AIは新しい「意味論-音響オートエンコーダ」というアーキテクチャを採用し、長尺でも楽曲構造とメロディの一貫性を保つよう設計しました。

つまり、イントロからアウトロまで「ひとつの曲」として成立するレベルになった、ということです。

オープンソース公開でクリエイターは何ができるか

3モデルはHugging Faceで無料配布

Stable Audio 3.0の大きな特徴は、Small SFX・Small・Mediumの3モデルをオープンウェイト(モデルの重みデータを公開)として配布する点です。

配布先はHugging Face(AIモデル共有プラットフォーム)で、誰でもダウンロードして手元のPCで動かせます。

最上位のLargeのみ非公開で、APIまたは有料セルフホスティングが必要です。

商用利用のルール:年間売上100万ドルが分岐点

気になる商用利用ですが、ルールはシンプルです。

  • 年間売上100万ドル(約1.5億円)以下の個人・法人:無料で商用利用OK
  • 年間売上100万ドル超の企業:エンタープライズライセンスが必要

これは「Stability AI Community License」と呼ばれる仕組みで、画像生成のStable Diffusion 3でも採用されています。中小事業者やフリーランスにとっては実質無料で使える設計です。

LoRA学習も可能:自分の音をAIに覚えさせる

3.0では、画像生成で広まったLoRA(ロラ/少量データで追加学習する技術)に対応しました。

たとえば自分が録音したギターの音や、特定のジャンルの楽曲データをAIに学習させ、「自分専用の音楽生成AI」を作れます。

これまで音楽AIではブラックボックス化されていた領域が、クリエイターの手に開かれた格好です。

Suno・Udioとの違い|法的安全性で頭一つ抜ける

3大音楽生成AIの比較

音楽生成AIの主要プレイヤーはSuno(スノ)Udio(ユーディオ)、Stable Audioの3つです。それぞれ強みが異なります。

  • Suno:日本語歌詞の歌モノが得意、エンタメ用途で人気
  • Udio:低価格で大量生成、ステム(楽器ごとの分離音源)の品質が高い
  • Stable Audio 3.0:法的安全性が高く、オンデバイス動作・カスタマイズ可能

学習データの「クリーンさ」が決定的な差

Suno・Udioは2024年に米大手レコード会社(ソニーミュージック、ユニバーサル、ワーナー)から著作権侵害で提訴され、現在も和解協議が続いています。

一方Stable Audio 3.0は、全モデルが正規ライセンス済みのデータのみで学習されています。

Stability AIは2024年から2025年にかけてUniversal Music GroupおよびWarner Music Groupと提携契約を結び、合法的な学習データを確保しました。企業がBGMや広告音楽に使う際、著作権リスクを抑えられる点が大きな違いです。

プロ向けプロダクトの責任者は元Fender出身

今回のリリースに合わせ、Ethan Kaplan氏(元Universal Audio・Fenderのデジタル責任者)がプロ向け音楽プロダクトの統括として加入しました。

ハードウェア・楽器業界の重鎮が参画することで、DAW(音楽制作ソフト)連携などの本格的な制作環境への組み込みが進む見込みです。

日本市場へのインパクト|誰が一番喜ぶか

YouTuber・ポッドキャスターのBGM制作

日本でいま音楽生成AIの利用が伸びているのが、YouTubeやポッドキャストのBGM制作です。

従来は商用利用可のフリーBGMサイトから選ぶか、有料音源を購入する流れでした。Stable Audio 3.0なら、テキスト指示で番組の雰囲気に合わせた専用BGMを数分で生成できます。

しかも学習データがライセンスクリアなので、再生回数の多いチャンネルでも安心して使えます。

ゲーム開発・広告制作の現場

国内のゲーム開発スタジオや広告代理店でも、効果音や短い楽曲をAIで内製化する動きがあります。Stable Audio 3.0のSmall SFXモデルは、銃声・足音・環境音といった効果音の生成に特化しています。

たとえばインディーゲーム開発者が、これまで外注していた効果音を自分のPC内で生成できる時代になりました。

日本語プロンプトの対応状況

現時点では英語プロンプトが基本ですが、Stable Audio 2.5の時点で日本語プロンプトも一定の精度で動作することが報告されています。

「lo-fi piano with rain」のように英単語を組み合わせる程度なら、中学英語レベルで十分使えます。

どう使い始めるか|3つの選択肢

1. Webサービスで試す(最も簡単)

公式サイト「stableaudio.com」にアクセスすれば、ブラウザ上でStable Audio 3.0を試せます。

無料プランでも月数十曲を生成可能で、サブスクリプション加入で生成数や商用利用範囲が広がります。

2. Hugging Faceからローカル実行

技術的な知識がある方は、Hugging Faceからモデルをダウンロードしてローカル環境で動かせます。

クラウドにデータを送らずに済むため、機密性の高い案件でも使える点が利点です。

3. APIで自社サービスに組み込む

最高品質のLargeモデルはStability AI公式APIから利用します。動画編集ツールやゲームエンジンに音楽生成機能を組み込みたい開発者向けの選択肢です。

よくある質問(FAQ)

Q1. 無料で使えますか?

Small SFX・Small・Mediumの3モデルはHugging Faceで無料配布されており、年間売上100万ドル以下なら商用利用も無料です。Webサービス版は無料プランと有料プランがあります。

Q2. 生成した楽曲の著作権は誰のものですか?

Stability AI Community Licenseの下では、ユーザーが出力物を所有する仕組みになっています。学習データもライセンスクリアなので、生成物を商用利用しても著作権侵害のリスクは低く設計されています。

Q3. 日本語の歌詞付き楽曲は作れますか?

現時点でStable Audio 3.0はインストゥルメンタル(楽器演奏)が中心で、歌詞付きの「歌モノ」生成はSunoに分があります。BGMや効果音用途ならStable Audio、歌入りならSunoという使い分けが現実的です。

Q4. スマホでも動きますか?

Small SFXとSmallはオンデバイス動作を想定して設計されており、最新のスマートフォンや一般的なノートPCで動かせます。MediumとLargeはより高性能なGPUまたはクラウドAPIが必要です。

Q5. 既存版(2.0/2.5)から何が一番変わりましたか?

大きく3点あります。①最大生成時間が3分から6分20秒に延長、②LoRA学習対応でカスタマイズ可能に、③オンデバイス動作の小型モデルが追加され用途が広がった点です。

まとめ

  • Stability AIが2026年5月20日にStable Audio 3.0を発表、4つのモデルで用途別に展開
  • 最上位は6分20秒のフル楽曲を生成、前世代の2倍超の長さ
  • 3モデルはHugging Faceで無料公開、年間売上100万ドル以下は商用利用も無料
  • 学習データはすべて正規ライセンス、Suno・Udioと比べ法的リスクが低い
  • YouTube BGM・ゲーム効果音・広告制作で日本クリエイターの内製化が加速する見込み

まずは公式サイト「stableaudio.com」で1曲生成してみると、AI音楽の現在地が肌でわかります。

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です