CreatorZineニュース

NEC、映像認識AI×LLMにより動画から説明文章を自動生成する技術を開発

CreatorZine編集部[著]

2023/12/08 06:30

　NECは、生成Aを支える大規模言語モデル（Large Language Model／以下、LLM）と映像認識AIを組み合わせ、長時間の動画から利用者の目的に応じた短縮動画と説明文章を自動生成する技術を開発した。

　同技術をドライブレコーダーの動画分析に活用することで、事故発生時の状況や発生に至った経緯などを説明する文章と短縮動画を自動で生成可能に。また、それらをもとに、損害保険金請求や交通安全指導などに向けた事故調査報告書を、フォーマットに合わせて自動作成する。これにより、従来は手作業で行っていた報告書の作成にかかる時間を半減できる。同社は同技術の試用版を、2024年3月に提供する予定。

背景

　近年、交通、物流、製造、建設、小売りなど、さまざまな場面で安全管理や業務の効率化を目的とした動画の利活用が進んでいる。しかし、長時間の動画の確認と、作業のヒヤリハットや改善点に関する報告書の作成に、膨大な工数と時間がかかることが課題となっている。生成AIの活用により、静止画の説明文章の自動生成は可能となったが、さまざまな物体や環境から構成され、かつ時間経過とともに変化する複雑なシーンを含む動画には適用が困難であった。

開発した技術の特徴

効率的にシーンを見つけ出し、報告書の作成を迅速化

映像認識AIとLLMを組み合わせて、動画の各シーンを理解することができる。具体的には、100以上の映像認識AIを活用し、シーンを構成する人物、車、建物、動物、樹木などの自然物、天気などのさまざまな物体や環境と、それらの変化を個別に認識する。その認識結果だけをLLMで分析することで、動画全体を分析する場合と比較して、利用者が求めるシーンを効率的に見つけ出すことができ、目視による動画の繰り返し確認が不要となる。

動画の正確な解釈で専門家と同品質の報告書を生成

生成文章の品質を向上させるために、対象分野のサンプル映像を使ってLLMを事前にファインチューニングする。たとえば、ドライブレコーダーの動画に適用する場合、事前に道路交通関係の動画を分析する。これによりLLMが専門知識を備え、動画内で起きた出来事を正しく理解できるように。その結果、生成AIの正確性の課題であるハルシネーション（生成AIが誤った情報を、もっともらしい形式で出力してしまう現象）に対応しながら、信頼性の高い報告書を作成できるようになる。