AIの活用による創造性の発展に取り組むQosmoは、音楽・サウンド分野において同社が蓄積してきたノウハウ・モデル・アルゴリズムを用いた製品群「Qosmo Music and Sound AI」の、ライセンス提供を開始した。
各製品詳細
音楽生成AI―リアルタイムにコントロール可能な音楽生成
ジャンルや曲の特徴を指定することによって自動的に作曲を行い、音楽を生成することのできるシステム。小節ごとに楽曲内容を設定でき、リアルタイムに変更を受け付けるため、生体反応や場の雰囲気などに合わせてきめ細かい操作を動的に行うことができる。主な機能は次のとおり。
- 与えられたジャンルや曲の特徴などを指定することにより、瞬時に作曲しMIDI信号を生成
- テンポ、楽器、音数、展開のスピードなどを小節ごとにリアルタイムに制御することが可能
- 生体反応や場の環境変化などに応じて求められている効果を得るために音楽を使うことができる
音楽選曲AI―AI DJがプレイリストを自動生成
同製品は、同社のフラッグシッププロジェクトであるAI DJプロジェクトの発展とともにその精度を向上してきた。深層学習に音楽を「聞かせる」ことによって、各曲の関連性を定量化し、DJの選曲ノウハウを自動化し、さまざまな音楽ライブラリーに応用することに成功している。主な機能は下記のとおり。
- 任意の音楽ライブラリーを深層学習モデルを使ってインデックス化することで、メタデータに頼らずにプレイリスト生成
- それまでに再生された楽曲の内容に基づいて動的にプレイリスト内容を生成・変更する事が可能
- 世界各地でのフロアパフォーマンスでも実証済み。プロのDJも異口同音に認めるセンスの良い選曲
音色変換AI―入力音を別音にリアルタイム変換
これまで深層学習モデルでは難しいとされていたリアルタイムでの音生成技術を応用した音色変換を行う。人間の声をドラムやサックスなどの楽器音や他人の声に変換したり、リバーブやディストーションなどのエフェクト処理やその逆処理を行うことができる。これまでにはあり得なかったような音表現の可能性を広げることができる注目の技術だという。
- リアルタイムAI音声処理技術により、入力音のコンテクストを踏まえながら任意の音色にリアルタイムに高音質(48kHz16bits)変換
- ターゲット音の学習モデルを、SDKを使って事前生成し、追加学習を行うことなく、あらゆる入力音を変換できる
- 楽器音、動物、音声、エフェクター、エフェクターの除去など、応用の可能性が非常に広い技術を汎用CPUで実行可能
「Img2Sound(イメージtoサウンド)」―入力画像にマッチしたサウンドを選択
同製品はAPIを通じてアップロードされる画像に対して最適な環境音または楽曲を見つける。対応する画像の幅は広く、たとえばGoogle Street Viewの任意の場所の写真などに対しても質の高いマッチを得ることができる。初期バージョンにおいては、入力は静止画に限られるが、今後のバージョンアップによって映像を対象にすることが予定されている。主な機能は次のとおり。
- 与えられた画像に「合っている」サウンドクリップをライブラリーの中から短時間で抽出
- 短時間のインデクシングを実行すれば、モデルの再学習の必要なく、任意のサウンドライブラリーに検索を実行可能
- 「画像→音楽」だけでなく「音楽→画像」「テキスト→音」「ビデオ→音」など多種類のメディアに拡張可能