Stable Audio 2.5リリース、ComfyUIも即日対応!

Stable Audio 2.5リリース、ComfyUIも即日対応!

2025年9月10日、Stability AIは大規模なエンタープライズ向けサウンド制作のために構築された初のオーディオモデル『Stable Audio 2.5』を発表し、ComfyUIがゼロデイ対応を行いました。

 

主なポイント:

  • Stability AIは、エンタープライズレベルのサウンド制作に特化して設計された初の音声生成モデル、Stable Audio 2.5をリリースしました。

  • 広告から店舗での体験に至るまで、増え続けるチャネルのために独自のサウンドを作成する需要に対応します。

  • Stable Audio 2.5は、カスタマイズ可能で高品質なオーディオを大規模に制作するという、この課題のために特別に構築されました。これには、高度な音楽構成、GPUで2秒未満という高速な推論、オーディオインペインティングによるさらなる制御のサポートが含まれます。

  • Stable Audio 2.5は、StableAudio.com で試用できるほか、Stability AI API、fal、Replicate、ComfyUIなどのパートナープラットフォームを通じてシームレスに展開したり、エンタープライズライセンスでオンプレミスに導入したりすることも可能です。

Ipsos社の調査によると、カスタムオーディオはブランドの記憶定着率を8倍に高める可能性がありますが、サウンドアイデンティティをクリエイティブに活用しているのはわずか6%に過ぎません。企業がブランドの延長としてサウンドをより戦略的に展開するためには、高品質で商用レベル、かつブランドが登場するさまざまな場所に適応できるオーディオを作成する必要があります。

Stable Audio 2.5のエンタープライズ向け機能により、プロのクリエイティブチームは、より高度でカスタマイズ可能なオーディオ生成を活用し、あらゆる制作物に適切なサウンドを提供できます。

より高速な生成、よりスマートな作曲、強化されたワークフロー

Stable Audio 2.5は、速度と出力品質の向上により、商用ユースケースに適した楽曲生成AIです。

  • 数秒で3分間のトラックを生成: Stable Audioの研究チームが先駆的に開発した最先端のAdversarial Relativistic-Contrastive (ARC) 手法を用いて事後学習されたStable Audio 2.5は、GPU上で2秒未満の推論速度を誇り、最大3分間のトラックを生成できます。

  • ダイナミックな音楽構成を生成: Stable Audio 2.5は音楽に最適化されており、音楽構造が改善され、マルチパート構成(イントロ、展開、アウトロ)を生成します。また、プロンプトへの追従性も向上し、ムードを表す記述子(「高揚感のある」など)や、ジャンルを超えた音楽用語(「豊かなシンセサイザー」など)に、より効果的に反応します。

  • オーディオインペインティングのサポートで、より高度な制御を実現: text-to-audioおよびaudio-to-audioワークフローに加え、Stable Audio 2.5はオーディオインペインティングをサポートします。これにより、ユーザーは自身のオーディオを入力し、開始したい場所を選択すると、モデルがその文脈を利用してトラックの残りの部分を生成します。注:Stability AIの利用規約では、アップロードされる素材に著作物が含まれていないことが求められており、コンプライアンスを維持し権利侵害を防ぐために高度なコンテンツ認識技術を使用しています。

すべてのStable Audioモデルと同様に、Stable Audio 2.5は商用利用において安全であり、完全にライセンスされたデータセットでトレーニングされています。

クリエイティブな制御とパートナーシップによる、ブランド主導のカスタムオーディオ制作

オーディオはブランドエンゲージメントに86%も影響しますが、カスタムオーディオを大規模に活用しているブランドはほとんどありません。企業には、広告、ゲームのオープニングクレジット、店内の音楽、クレジットカード決済時のチャイム、カーステレオなど、増え続けるさまざまなタッチポイントで、より意図的でブランドに合ったオーディオをキュレーションする機会があります。

企業が適切なサウンドを作成できるよう、Stability AIのチームは組織のサウンドライブラリでStable Audioモデルをファインチューニングし、ブランド独自のオーディオをカスタム生成ワークフローに組み込むことができます。これにより、生成される音楽やサウンドスケープが、ブランドのソニックアイデンティティやプロジェクトのクリエイティブガイドラインの一部として、独自に認識できるようになります。

Stable Audio 2.5のリリースに伴い、Stability AIは、WPP傘下のLandor Groupの一部である大手サウンドブランディングエージェンシーamp社とも提携し、象徴的なサウンドアイデンティティと体験を創造したい革新的なブランド向けのエンタープライズソリューションを共同開発します。Stable Audio 2.5は、WPPのグローバルな顧客基盤に対し、WPP Openを通じて提供され、高度な技術とクリエイティブな専門知識を融合させます。

利用を開始する

Stable Audio 2.5は、現在 StableAudio.com でお試しいただけます。

Stable Audio 2.5は、Stability AI APIのほか、fal, Replicate, ComfyUI などのパートナープラットフォームを通じて利用可能です。

自社のインフラにStability AIのオーディオモデルの導入をご希望の企業様は、実装サポート、カスタマイズオプション、プロフェッショナルサービスが利用可能な Enterprise Licensing については、Stability AIまでお問い合わせください。また、Stability AI Solution にアクセスして、特定のユースケースに合わせたオーディオモデルとワークフローのカスタマイズについて詳しく知ることもできるそうです。

 

Stable Audio 2.5がComfyUIに登場!


わずか2秒未満で最大3分のトラックを作成!

ComfyUIは、ComfyUIにおけるStable Audio 2.5のAPIサポートを発表しました。これは、大規模なエンタープライズレベルのサウンド制作のために特別に設計された初の音声生成モデルです。Stable Audio 2.5は、品質、速度、制御の面で進歩を遂げており、商用およびプロフェッショナルな用途に最適です。

  • 高速生成: わずか2秒未満で最大3分のトラックを作成。

  • よりスマートな作曲: イントロ、展開、アウトロを含む、より豊かなマルチパート構造。

  • オーディオインペインティング: 自身のクリップをアップロードし、モデルにシームレスに続きを生成させることで、オーディオを拡張またはリミックス。

  • 商用利用の安全性: プロフェッショナルな使用のために、完全にライセンスされたデータセットでトレーニング済み。

カスタムサウンドは、まだ十分に活用されていないクリエイティブツールですが、ComfyUIのStable Audio 2.5を使用することで、チームは広告、ゲーム、映画、または没入感のあるブランド体験のために、独自のオーディオをワークフローに直接組み込むことができます。

Stable Audio 2.5の試し方

  • ComfyUIを最新バージョンにアップデートしてください(v0.3.59以降)

  • ワークスペースでダブルクリックして「Stability AI audio」で検索すると、3つの関連するAPIノードが見つかります。

  • また、テンプレート内でStable Audio 2.5のワークフローを見つけることもできます。

画像

画像

Stable Audio 2.5は、ダイナミックで柔軟な結果を得るために構築されています。Comfy Orgが提案する「現在試せることの例」はこちら。

  • 複数の展開するセクションを持つ、フルレングスのアンビエントサウンドトラックを生成する。

  • ブランドアイデンティティを強化するために、ブランドに合ったオーディオスティンガーやプロダクトサウンドを作成する。

  • 未完成のデモトラックをアップロードし、モデルに自然な続きをインペインティングさせて拡張する。

  • 「豊かなシンセサイザーを使った高揚感のあるオーケストラスコア」や「まばらなパーカッションによるダークでシネマティックな緊張感」のような、雰囲気に合わせたプロンプトを試す。

 

画像

Comfy Orgクレジットの購入から試す!

ここでComfy Orgクレジットの購入から解説です。
$5(767円)購入してみます。

画像
画像
画像

試してみたところ1曲生成あたり$0.20でした。

生成した楽曲とワークフロー

未完成のデモトラックをアップロードし、モデルに自然な続きをインペインティングさせて拡張

Comfy Orgの提案にあった「未完成のデモトラックをアップロードし、モデルに自然な続きをインペインティングさせて拡張する」という実験をしてみました。AiCutyオリジナル楽曲「梅雨が明けたんだ」の未公開原曲を30秒ほど使ってInPaintとAudioToAudioを試してみました。

 
画像

たしかに30秒の音源から作り出すという視点は面白いかもしれませんね。

音声でひろがるComfyUI

Stable Audio 2.5は、マルチモーダルな制作ワークフローにおける新たな一歩を象徴しています。ComfyUI内で音声を入力として画像、動画、テキストのパイプラインと組み合わせることで、クリエイターは真に統合された体験を構築できるかもしれませんね!

ワークフローはこちらです。

この記事の続きはこちらから https://note.com/aicu/n/ne7fdd4b6248b

Originally published at note.com/aicu on Sep 11, 2025.

AICU Japan

AICU Inc. AIDX Lab - Koto

Comments

Related posts

Search Apple 新製品発表会 2025 レポート:デザイン刷新、健康の可視化、そして“プロの制作現場”へ踏み込んだ iPhone 17 Pro Max
【文化審議会 議事レポート】生成AIと著作権をめぐる最新状況 Search