サイバーエージェント、広告クリエイティブに特化した独自日本語OCRモデルを開発

  • このエントリーをはてなブックマークに追加
2023/11/13 06:30

 サイバーエージェントは、広告クリエイティブに特化した独自の日本語OCR(Optical Character Recognition/Reader・光学文字認識)モデルを開発したことを発表。

 同モデルにより、既存のサービスでは難しかった日本語特有の縦書き表記やフォントなどの高精度な文字認識が可能となり、同社が提供する「極予測シリーズ」において、さらなる予測精度向上を実現した。なお、同社が提供する、AIで効果の出せるランディングページを予測・制作する「極予測LP」においてはすでに導入が済んでおり、今後はほかの「極予測シリーズ」への導入を順次進めていく。

背景

 デジタル広告において高い広告効果を創出するためには、画像やキャッチコピーなどの素材を多様に組み合わせ、ユーザーの年齢や性別、興味関心などターゲットごとに効果の期待できるクリエイティブを制作することが重要。同社が提供する「極予測シリーズ」では、これまでも広告クリエイティブの事前効果予測エンジンの精度向上に取り組んでいたが、より高精度な効果予測のためには、クリエイティブ内のテキストを正しく読み取ることが重要となっている。

 OCRは手書きや印刷された文字を読み取り、デジタル上で扱える文字データに変換する技術。これまでも「極予測シリーズ」においては、広告クリエイティブ内の文字を検出・解析し、クリエイティブ制作および事前効果予測のフローにOCRの技術を取り入れていたが、クリエイティブ内の文字のフォントやレイアウトは複雑化しており、従来の外部OCRサービスでは正しく読み取ることが難しいケースも増えていた。

概要

 このような背景のもと、同社では日本語の広告クリエイティブ制作に特化した独自のOCRモデルを開発・実装いたした。本モデルにより、日本語特有の縦書き表記や特殊な文字フォントに対しても高精度な文字認識を実現している。

左:今回開発したCAの独自OCR/右:既存の外部OCRサービスを利用した解析結果
左:今回開発したCAの独自OCR/右:既存の外部OCRサービスを利用した解析結果

 CA独自OCRではすべての文字が認識されており、グルーピングも正しくされている。同機能により広告内の高度なレイアウト理解を可能にし、効果予測精度の向上が期待できる。

今後

 同社は今後も高い技術力を生かし、更なる予測精度の向上を図る研究開発を進め、AIを活用した高品質なクリエイティブの制作および新しいクリエイティブの価値提供を目指すとともに、広告主企業の広告効果最大化に尽力していく。