大日本印刷(以下、DNP)は、NHKテクノロジーズと共同で、映像と音声をAI(人工知能)で解析し、内容や感情に合わせた最適なイメージのフォントで字幕を表示する「感情表現字幕システム」のプロトタイプを開発した。同システムは、2018年にDNPが開発した文章の内容に合うフォントを自動で判別して表示する「DNP感情表現フォントシステム」を活用。これにより、耳の不自由な人や音が出せない環境でも、番組の臨場感を伝えることができるという。
同システムの特徴は、次のとおり。
映像と⾳声をAIで解析して、字幕の⾃動付与と最適なフォントへの⾃動変換表⽰
録画やライブ(⽣放送)の⾳声を解析して、リアルタイムで字幕を⾃動的に付与。その際、字幕の内容や発話者の表情を解析して感情を把握し、その感情の表現に最適なフォントを12種類の中から⾃動で選んで字幕に使⽤する。
映像内の⼈物の顔を認識して、発話者の⼝元の近くに字幕を⾃動的に表⽰
映像内の発話者を特定して、⾃動的にその⼝元の近くに字幕を表⽰することが可能。これにより、複数の⼈物が登場する映像でも、誰が何を話しているかを直感的に伝えることができる。
12種類の感情・イメージと使⽤フォントの組み合わせ例
両社は今後、「感情表現字幕システム」の開発を継続し、字幕放送(オープンキャプション)での実⽤化を目指すとのこと。また、⾳声認識や感情認識のAIの精度を向上させるほか、リアルタイム性の向上も進め、⽣放送やインターネット同時配信サービスの字幕(クローズドキャプション)への展開も⽬指しす考え。さらにDNPは、デジタルサイネージなどの動画の字幕に応⽤するほか、誰でも利⽤できる映像編集⽤ソフトウェアとして提供していく計画だという。