パナソニックHD、「いいね」の判定で好みの画像にパーソナライズ可能な画像生成AI「Diffusion-KTO」を開発

  • X
  • Facebook
  • note
  • hatena
  • Pocket
2024/12/04 06:30

 パナソニック R&D カンパニー オブ アメリカ(以下、PRDCA)とパナソニック ホールディングス(以下、パナソニックHD)は、カリフォルニア大学などと共同で、ユーザーの「いいね」や「嫌い」といったバイナリフィードバックで生成モデルを調整し、ユーザーの目的や好みに合わせた画像を効率よく生成できる画像生成AI「Diffusion-KTO(Knowledge Transfer Optimization)」を開発した。

 

 近年、画像生成AIは、クリエイティブからビジネス用途まで幅広い分野で活用されているが、画像の精緻さに加え、ユーザーの好みやニーズを反映した画像を生成できること(パーソナライゼーション)が顧客満足度の観点で重要な要素となってきている。開発したDiffusion-KTOは、1人ひとりの好みや価値観を数値化した「ユーティリティ関数」を応用した新たなアプローチにより、よりユーザーの好みに一致する高品質な画像を効率よく生成することを実現した。本技術は、従来法と比較し画像生成AIのパーソナライズに要する手間をN倍のオーダで短縮(Nはデータセットの枚数)することが可能。

 AI開発において、AIの学習に必要なデータセットの作成は重要なプロセスで、適用する現場に合わせた学習データを集め、アノテーションと呼ばれるデータに対してラベル付けを行う作業には時間とコストがかかり、AI開発の効率やスピードを低下させる要因となっている。パナソニックHDでは、これまで、アノテーション作業を自動化する技術の開発に取り組んできた。今回の技術は、学習データの収集が困難な現場・製品に対しても、現場の特徴を反映した画像を生成できることから、AIの学習データ不足を解決するとともに、AI開発効率を向上させる技術です。パナソニックHDは、これらの技術を組み合わせることで、将来的にAI開発プロセス全体のコストを10分の1にすることを目指していく。

 本技術は、先進性が国際的に認められ、AI・機械学習技術のトップカンファレンスであるNeurIPS 2024(The Thirty-Eighth Annual Conference on Neural Information Processing Systems)に採択された。2024年12月10日から2024年12月14日までカナダ バンクーバーで開催される本会議で発表する。

技術の内容

 パナソニックHDとPRDCAでは、生成モデルのパーソナライゼーションに関する研究に取り組んでいる。昨今、テキストから画像を生成するAIモデルが社会に与えたインパクトは大きく、既に多くのユーザーが活用している。しかしながら、

  • 生成モデル自体が非常に複雑で多くのパラメーターが存在する
  • ユーザーの好みには複数の変数(色、形、構図など)が関与する

などの理由から、ユーザーの好みの画像になるようにパラメーターを調整することは容易ではなく、ユーザーは好みの画像を得るために、プロンプトエンジニアリングを駆使しながら画像生成AIを利用しているのが現状。

 ユーザーの好みに近づくよう生成画像を調整する研究も進められているが、「似た画像のうちどちらの画像が好ましいか」(ペアワイズ)を比較したデータを別途収集したうえで、強化学習ベースの複雑な報酬モデルにより調整を行う必要がある。

 これに対し、Diffusion-KTOは、「いいね」や「嫌い」という単純なバイナリフィードバックに基づき、1人ひとりの好みや価値観を数値化したユーティリティ関数を応用するという新たなアプローチを提案した。今回採用したユーティリティ関数は、人が現在の富を基準にして、得られる利益や損失の価値を判断するというプロスペクト理論に基づいて設計している。バイナリフィードバックは、ユーザー毎の好みを簡単かつ効率的に収集できるため、データ収集のコストと時間を大幅に削減することが可能。さらに、人間の意思決定に関わるプロスペクト理論をもとに設計したユーティリティ関数と組み合わせることで、よりユーザーの好みに一致した高品質な画像を効率的に生成できる。

 評価実験では、Diffusion-KTOがベースモデル(SD v1-5)に対して最大87.2%の勝率を達成し、優れた性能を示すことがわかった。とくに人間の評価者は、一貫してDiffusion-KTOの生成画像をベースモデルの生成画像よりも好む結果が得られた。

今後の展望

 今回開発したDiffusion-KTOはユーザーのバイナリフィードバックという簡単なインタラクションだけで生成モデルを調整し、ユーザーの好みに合った画像を生成可能な画像生成AI。この技術を応用することで、AI開発に不可欠なAIの学習に用いるデータセットの作成を効率化することや、原理的には画像生成だけでなく、テキスト生成や音声生成など他の生成モデルにも応用できることから、ユーザーの好みに応じたパーソナライズが求められる多くの分野で利用できる可能性がある。

 今後もパナソニックHDは、AIの社会実装を加速し、顧客のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していく。