Anlatan Inc.は、AI支援創作プラットフォーム「NovelAI」において、最新の画像生成モデル「NovelAI Diffusion V4 Full版」を正式リリースしたことを発表。本モデルは2023年末に公開したV4 Curatedプレビュー版から大幅に進化し、約23万時間のH100コンピューティングリソースを活用して開発された。より高品質な画像生成と直感的な操作性を実現している。

背景と概要
アニメ調の画像生成AIの需要が高まるなか、より細かな表現力と操作性が求められている。「NovelAI Diffusion V4 Full版」は、従来のV3モデルと比較して画質と忠実性を大幅に向上させながらも、処理速度は従来とほぼ同等を維持している。プロセス改善により、ユーザーの意図をより正確に反映した画像生成が可能になった。
おもな新機能
1. 自然言語によるプロンプト
- 英語の自然文によるシーン描写が可能になり、タグを覚える必要なく直感的な指示が可能に
- プロンプトの文脈サイズを512トークンに拡張し、より詳細な指示や説明文に対応
- CLIPからT5テキストエンコーダーへ移行することで文章の意図や文脈の理解力が大幅に向上
- 上級ユーザーは自然言語と従来のタグを組み合わせることで、より細かな制御が可能に

2. マルチキャラクタープロンプト
- ひとつの画像に最大6人の異なるキャラクターを同時配置可能となり、複雑なグループシーンが作成可能
- 各キャラクターのプロンプトを個別に設定できるため、特徴の混在を防ぎキャラクターの一貫性を維持
- キャラクター設定をドラッグ&ドロップでインポートできる簡単な保存・共有機能

3. キャラクターのポジション指定
- 画像内の各キャラクターの位置を自由に指定可能となり、構図の制御性が向上
- 従来はランダム配置だったキャラクターを、意図した場所に正確に配置できるように
- NovelAI Diffusion V4 Full版 キャラクターのポジション指定機能

4. アクションタグ
アクションタグによって、キャラクター間のやりとりを新たなレベルで制御できる。どのキャラクターがどのような行動をとり、誰に対して行うのかを指定できるため、場面におけるキャラクター関係を正確にコントロールできる。たとえば、「誰が誰を抱きしめているか」「誰が誰に話しかけているか」などの関係性を明確に指定できる。
source#(行動する側): 行動を起こすキャラクターを指定
例:source#hug → キャラクターが抱きしめる行動をする
target#(行動される側): 行動を受けるキャラクターを指定
例:target#hug → キャラクターが抱きしめられる
mutual#(相互行動): お互いに同じ行動をするときに使用
例:mutual#hug → 指定したキャラクター同士がお互いを抱きしめる

5.フォーカスインペイント
- 画像の一部分のみを高解像度で再生成する機能で、元の画像との調和を保ちながら部分修正が可能
- 顔、手、小物など、細かな表現が必要な部分を選択するだけで自動的に高精細化
- 選択部分は約100万ピクセルまで拡大されて再生成されるため、ディテールが大幅に向上
- Opusプランでは大きな画像でもAnlas(ポイント)を消費せず使用可能

6. 画像品質と忠実度の向上
- SDXLのVAEからFlux VAEへの移行により、色彩表現と細部描写が飛躍的に向上
- U-Netの計算リソース最適化によって、より詳細でシャープな画像生成を実現
- 処理速度は従来モデルとほぼ同等を維持

7.テキストレンダリング
- 吹き出し内のテキストや画像内テキストの生成が可能となり、漫画やイラスト制作が進化
- 英語テキストの配置やスタイルを自然言語で指定でき、直感的な操作が可能

8.ケモノモデル内蔵
- プロンプトの先頭に「fur dataset」と入力するだけで、専用モデル同等の機能が利用可能
- 従来は別モデルだったケモノアート生成が本体に統合され、切り替えの手間が解消
- ファーリーやケモノアートスタイルのファンに向けた使いやすさの向上
- ほかの新機能(マルチキャラクター、ポジション指定など)と組み合わせて使用可能

今後の展開
近日中に「バイブストランスファー(Vibe Transfer)」機能を追加予定。この機能により、スタイル転送がさらに進化し、より多様な表現が可能になる。