アリババクラウド、AI画像生成モデル「通義万相」発表 複雑なAIタスク達成を支援するModelScopeGPTも発表

  • このエントリーをはてなブックマークに追加
2023/07/11 08:35

 アリババグループのデジタルテクノロジーとインテリジェンスのバックボーンであるアリババクラウドは、上海で開催中の「世界人工知能会議2023」で最新のAI画像生成モデル「通義万相(Tongyi Wanxiang)」を発表した。この先進の生成AIモデルは、現在中国の企業顧客向けにベータテストを提供している。

 アリババクラウドはさらに、言語、視覚、音声領域にわたる複雑で専門的なAIタスクの達成を支援するために設計された汎用フレームワークである「ModelScopeGPT(モデルスコープGPT)」を発表。ModelScopeは、アリババクラウドが昨年導入したオープンソースのモデル・アズ・ア・サービスプラットフォームであり、900以上のAIモデルを搭載している。

画像生成AIモデル「通義万相」

 通義万相は、さまざまなタスクを処理することに優れている生成AIモデル。中国語や英語のテキストプロンプトに応答し、水彩画、油彩画、中国画、アニメーション、スケッチ、フラットイラスト、3D漫画など、多様なスタイルのディテールに富んだ画像を生成する。また、このモデルは、任意の画像を類似したスタイルの新しい画像に変換したり、スタイル転送によって画像をスタイリッシュに変化させたりすることが可能。これにより、元の画像の内容を保持しながら、別の画像の視覚スタイルを適用することができる。

 アリババクラウドの知識整理、視覚AI、自然言語処理(NLP)における先駆的なテクノロジーを搭載した本モデルは、多言語素材を活用してトレーニングを強化している。意味理解能力が高く、文脈に即したより正確な画像生成を実現。

 さらに、高解像度の拡散プロセスをS/N比(signal-to-noise ratio)にもとづいて最適化することで、このモデルは構図の正確さと鮮明なディテールをバランスよく保ちながら、高コントラストで視覚的に美しい背景画像を生成する能力を強化しています。

 通義万相は、アリババクラウド独自の大型モデルであるComposerを使用して開発され、画像合成の品質と創造性を維持しながら、空間レイアウトやパレットなどの最終的な画像出力をより細かく制御することができる。

通義万相によるテキストから画像への生成例

Prompt - Picture a cityscape at twilight, a world merging modern architecture with the evocative aesthetics of anime.
Prompt - Picture a cityscape at twilight, a world merging modern architecture with the evocative aesthetics of anime.
Prompt - Beautiful nature superimposed into an infinite loop sign with bright colours.
Prompt - Beautiful nature superimposed into an infinite loop sign with bright colours.
Prompt - Immersive, captivating, grayscale coloring, featuring a tiger in the tranquil mandala forest. (後略)
Prompt - Immersive, captivating, grayscale coloring, featuring a tiger in the tranquil mandala forest. (後略)
Prompt - A six-year-old girl beautiful and exquisite Chinese-style Hanfu is displayed in front of a clothes rack.(後略)
Prompt - A six-year-old girl beautiful and exquisite Chinese-style Hanfu is displayed in front of a clothes rack.(後略)

 中国の企業ユーザーは、ウェブサイトにアクセスし、ベータテストに申し込むことが可能。

高度なAIタスクのためのModelScopeGPTの発表

 アリババクラウドは、大規模言語モデル(LLM)のパワーを最大限に活用するために設計された強力なフレームワークのModelScopeGPTを発表した。ModelScopeGPTは、LLMをコントローラとして使用し、ModelScopeオープンソースコミュニティ内の広範なドメイン固有のエキスパートモデルに接続する。 豊富なモデル・アズ・ア・サービスエコシステム内に構築されたModelScopeGPTは、アリババクラウドが提供するさまざまなAI機能を活用している。企業や開発者は、ModelScopeGPTを無料で利用し、多言語ビデオの開発など、ユーザーのリクエストにもとづいて高度なAIタスクを実行するための最適なモデルにアクセスし、実行することができる。

 アリババクラウドは、今年4月にLLM「通義千問」をリリースした。将来的には、通義千問をアリババのさまざまなビジネス全体に統合し、ユーザーエクスペリエンスを向上させる予定。アリババの顧客や開発者もこのモデルを利用し、コスト効率の高い方法でカスタマイズされたAI機能を作成できるようになる。同モデルの発表以来、フィンテック、エレクトロニクス、輸送、ファッション、乳業など、幅広い分野の企業から30万件を超えるベータテストの依頼が寄せられている。

 また、通義千問はアリババクラウドのインテリジェント・アシスタント「聴悟(Tingwu)」にも統合され、アシスタントがマルチメディアコンテンツを高い精度と効率で理解・分析できるようになった。発売以来、36万人以上のユーザーがこのAIアシスタントにアクセスしている。

AIハッカソン大会がイノベーションを促進

 ModelScopeのコミュニティは、AIモデルの産業応用を促進するために、中国初のAIハッカソンを開催。このAIハッカソン大会では、リーディング・ベンチャー・キャピタル企業からの資金提供やキャッシュ賞金がインセンティブとして提供された。

 300を超える参加チームの中から、56チームが決勝ラウンドに進出。参加者はふたつのトラックでグランプリを競った。ひとつは、現実の問題を解決するために大規模言語モデルを革新すること。もうひとつは、既存の事前トレーニング済みのモデルを活用して、テキストから画像を生成したり、大規模言語モデルの自立型エージェントを構築したりするなど、割り当てられたタスクを完了することである。

 アリババクラウド・インテリジェンスの最高技術責任者(CTO)の周 靖人(Jingren Zhou)氏は次のように述べている。

「通義万相は、企業やコミュニティが今まで以上の創造性と生産性を実現するためのパラダイムシフト技術を探求し続ける中で、先進的な生成AIモデルの追求において重要なマイルストーンです。通義万相のリリースにより、高品質な生成AI画像がより身近になり、Eコマース、ゲーム、デザイン、広告など、幅広い分野で革新的なAIアートやクリエイティブな表現の開発が進むでしょう。また、コンテストやその他のコミュニティイベントを開催することで、より多くの開発者や起業家と関わることができ、彼らのアイデアを実現し、生産性を向上し、産業の未来を変革し、より汎用性の高いAIツールの作成を促進したいと考えています」