Stability AIは日本語向け画像言語モデル「Japanese InstructBLIP Alpha」を一般公開した。入力した画像に対して文字で説明を生成できる画像キャプション機能に加え、画像についての質問を文字で入力することで回答することもできる。
Japanese InstructBLIP Alpha
「Japanese InstructBLIP Alpha」は、先日公開された日本語向け指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を拡張した、画像を元にしたテキストが生成されるモデル。
「Japanese InstructBLIP Alpha」は、高いパフォーマンスが報告されている画像言語モデルInstructBLIPのモデル構造を用いている。少ない日本語データセットで高性能なモデルを構築するために、モデルの一部を大規模な英語のデータセットで事前学習されたInstructBLIPによって初期化し、限られた日本語データセットを用いてチューニングしている。
このモデルの活用例として、画像を用いた検索エンジン、目の前に情景説明や質疑応答、そして目の不自由な人などに画像について文字で説明する、などが考えられる。
性能
日本語テキストを生成することに加えて、日本特有の建造物(東京スカイツリーや金閣寺など)を正しく認識することが可能。
また、入力は画像に加え、質問などのテキストも入力可能。たとえば次の例のように、入力された画像についての質問に返答をすることもできる。
使用方法
このモデルは Hugging Face Hub において Hugging Face Transformers に準拠する形式で公開している。Hugging Face Transformers のほかのモデルと同様に推論や追加学習を試すことが可能。
Japanese InstructBLIP Alpha
「Japanese InstructBLIP Alpha」は研究目的で作成されたモデルであり、研究目的での利用に限定した公開となる。
展望
「Japanese InstructBLIP Alpha」は、Stability AI Japanが発表する最初の画像言語モデル。英語圏と比べ、日本語のデータセットは限られており、マルチモーダル(複数のデータ形式)なデータセットはさらに限られている。そのような中、Stability AIでは、研究開発を積極的に行い、今後も日本向けの生成基盤モデルを構築・公開することで、日本のAIコミュニティのさらなる活性化に貢献していく予定。