AI企業のrinna、音声とフェイスモーションの生成AIサービス「Koemotion」開始

  • X
  • Facebook
  • note
  • hatena
  • Pocket
2023/06/14 12:00

 生成系AIモデルの研究開発や人工知能によるデータ分析を強みとするAI企業のrinnaは、テキストを入力するだけで音声合成とフェイスモーション生成が同時にできるサービス「Koemotion(コエモーション)」の提供開始とAPIの公開を発表した。

 同社は2023年3月に音声合成サービスKoeiromapを先行公開し、AITuberコミュニティのメンバーから好評を得た。さらに4月には、同社が提供するAIキャラクター「りんな」との交流を、テキストだけでなく音声やビジュアルに拡張し、生配信で視聴者と対話するAITuberとしてデビューさせるなど、コミュニケーションの多様性を広げる方法を模索してきた。

 これらの活動を通して得られた反響を糧に、今回AITuberりんなで用いられている音声合成とフェイスモーション生成の技術を発展させ、多種多様な音声の合成と、合成した音声と同期するフェイスモーションを生成できるサービス「Koemotion」の提供を開始した。

Koemotionの概要

 Koemotionは、サービス名に含まれている「コエ」「エモーション」「モーション」を扱う生成AIサービス。Koemotionサービスを構成する音声合成には2023年3月に先行公開したKoeiromapが組み込まれており、従来の音声合成製品のように事前に用意された特定の話者の音声を合成するのではなく、2次元空間(マップ)から任意の座標を選択することで話者の声色を多種多様に変更して音声を合成することができる。

Koemotion_page
Koemotion_page

 Koeiromapでは、座標で指定されたすべての話者の声色に7種類の感情を乗せて合成することができ、さまざまな組み合わせを実現。また、入力されたテキストに込められた感情を推定する機能もあり、感情に合わせた発話スタイルで読み上げる。

 Koemotionは、Koeiromapで合成した音声と同期したフェイスモーションを生成し、2D・3Dモデルや画像生成AIと組み合わせることでキャラクターの表情を音声に合わせて動かせることができるサービス。ブラウザ上のユーザーインターフェースまたはAPIの利用が可能で、個人・法人向けに利用目的に合わせたサービスプランを用意している。

Koemotionの特徴

  • 入力したテキストの感情予測・音声の合成・フェイスモーションの生成が可能。
  • 音声合成を担うKoeiromapは106話者から収録した約110時間の音声を用いて、話者の声色を表現する2次元の空間が学習されている。この2次元空間から任意の座標を選択することで、106話者の中間的な話者の声色も合成することができる。
  • すべての話者の声色で通常・喜び・悲しみ・怒り・恐れ・驚き・囁きの7種類の音声を合成。また、Koemotionのプランでは、入力テキストから感情を予測することも可能。
  • Koeiromapで合成された音声に合わせたフェイス(顔)のキーポイントを3次元座標のモーションとして生成。この座標情報を用いることで、2D・3Dモデルのキャラクターの表情を音声と同期させて動かすことができる。

利用シーン

Koemotionの音声合成機能Koeiromapを単体で利用すると、従来の音声合成サービスと同様に、アナウンスや電話での音声応答などに活用できる。Koeiromapは2次元マップから様々な話者の声色を選択して音声を合成できる特徴から、多くのキャラクターが登場する小説のオーディオブック化や動画制作にも展開可能。自作キャラクターの音声として既存のキャラクター性を持った音声合成システムを利用する場合には、同じ声色の音声になってしまうことや権利の課題があるが、Koeiromapでは、それらの課題解決だけでなく個性を反映できる音声を選択できる。

音声合成とフェイスモーション生成を組み合わせたKoemotion APIは幅広い用途に合わせたシステムへの組み込みが可能で、たとえばゲームのNPCのフルボイス化、リアルタイム音声対話システム、AITuberの配信などのシーンで利用できる。

 今後は、最新のAI技術の導入を続け、話者や感情を自由自在にコントロールできる音声合成の開発を行う予定。さらに、フェイスモーションだけでなくボディモーションの生成や、画像生成AIを用いたレンダリングとの統合を検討する。