Stability AI、音楽とサウンド生成のためのAIモデル「Stable Audio」を発表

  • このエントリーをはてなブックマークに追加
2023/09/14 07:00

 Stability AI は、音楽とサウンド生成のためのAIモデルとなる Stable Audio を発表した。

 Stable Audio は、最新の生成AI技術を駆使し、使いやすいウェブインターフェースを介して、より高速で高品質な音楽とサウンドエフェクトを提供する製品。Stability AIは、45秒までのトラックを生成してダウンロードできるStable Audioの基本無料版と、商用プロジェクト用にダウンロード可能な90秒のトラックを提供する「Pro」サブスクリプションを提供している。

 StabilityAIのCEOである Emad Mostaque氏は、「唯一の独立した、オープンでマルチモーダルな生成AIの会社として、音楽クリエイターをサポートする製品を開発するために私たちの専門知識を活用できることを嬉しく思います。私たちの願いは、Stable Audio が音楽愛好家やクリエイティブな専門家に AI の助けを借りて新しいコンテンツを生み出す力を与えることであり、それが無限のイノベーションを生み出すことを期待しています」と述べている。

 オーディオトラックは、ユーザーが提供する説明的なテキストプロンプトと、希望するオーディオの長さに応じて生成される。たとえば、"Post-Rock, Guitars, Drum Kit, Bass, Strings, Euphoric, Up-Lifting, Moody, Flowing, Raw, Epic, Sentimental, 125 BPM" と入力し、95秒のトラックをリクエストするとトラックが生成される。

 この基礎となるモデルは、主要な音楽ライブラリであるAudioSparxの音楽とメタデータを使用してトレーニングされ、両社のパートナーシップにより、すべての関係者に経済的価値と創造的価値の両方がもたらされる。

 Stable Audioは、latent diffusionを利用して、商業利用のための高品質な44.1 kHzの音楽を作成できる音楽生成製品。latent diffusion アーキテクチャは、テキストメタデータとオーディオファイルの長さと開始時刻を条件とするオーディオを使用し、生成されるオーディオの内容と長さを制御することができる。