NTTドコモは、画像認識ソリューション開発が容易となる法人向けのクラウドサービス「ドコモ画像認識プラットフォーム」に、認識エンジンの種類、共通学習済みモデル、および複数の認識エンジンのAPI組み合わせ機能を追加し提供を開始した。
同サービスは、画像認識を行うための「学習モデル作成」と「API」を提供するクラウドサービス。ソリューション開発者は、AIエンジンの開発コストやサーバー運用コストを抑えて、用途に合わせた画像認識エンジンをクラウド上で容易かつスピーディーに作成・利用することができる。
また、「ドコモオープンイノベーションクラウド」(5G時代に求められる低遅延、高セキュリティなどMEC〈Multi‐access Edge Computing〉の特徴を持つクラウドサービス)上に構築しているため、「クラウドダイレクト」と併用することで、インターネットを通ることなく画像データを認識させることが可能で、低遅延、高セキュリティが要求される画像認識ソリューションにも利用することができる。
今回、同サービスに以下の3つの機能を拡充した。
認識エンジンの種類の追加
提供中の「物体検出」エンジンと「一般物体認識」エンジンに加え、新たに4つのエンジンを提供する。これにより、画像を扱う業務で必要とされる「検出」「分類」「OCR」「人物姿勢推定」「検索」を網羅し、クラウド上に管理機能を備えた画像認識サービスとして豊富なエンジンを提供するプラットフォームとなり、従来以上に幅広い業種やニーズへの対応が可能となる。
- 「文字認識」エンジン:画像から文字を認識
- 「姿勢推定」エンジン:画像から人物の関節の状態を認識
- 「類似画像検索」エンジン:画像から認識した物体の形状や色・柄の特徴量から類似画像を検索
- 「特定物体認識」エンジン:画像から物体を照合し特定の商品などを認識
なお、これらは同社が開発したAI技術である「画像認識技術」(画像に何が写っているかを認識・識別できるAIを実現するコア技術)を活用したエンジンだという。
共通学習済みモデルの提供
画像認識ソリューションでよく使われる物体や文字などについて学習済みのモデルをユーザーによる画像データの収集や学習作業が不要になるため、作業負担を軽減し、申し込みからAPIの利用開始までの期間を短縮できる。
API組み合わせ機能の提供
組み合わせて利用されることが多い複数のエンジンをひとつのAPIに集約し、自動的に連携する機能を提供。APIにアクセスするアプリケーション側で連携機能を作り込む必要がなくなり、スムーズに利用できるようになる。
なお、同プラットフォームは、研究開発部門・法人部門にて組織横断的にチームを構成し、ユーザーと三位一体で課題解決を図る「トップガン」の取り組みにより創出したサービスとなる。
同社は、「ドコモ画像認識プラットフォーム」の利便性向上により、ユーザーのニーズに合わせた経営課題・業務課題を解決する仕組みを提供し、新しい価値の創出や社会課題の解決に貢献していく考え。
「ドコモ画像認識プラットフォーム」機能拡充の概要
追加機能
認識エンジンの種類の追加
新たに4つの認識エンジンを追加し、これまで以上に幅広い業種やニーズに対応できるようになる。
共通学習済みモデルの提供
画像認識ソリューションでよく使われる物体や文字などについて学習済みのモデルを用意。ユーザーによる画像データの収集や学習作業が不要になるため、作業負担を軽減し、申し込みからAPIの利用開始までの期間を短縮できる。
API組み合わせ機能の提供
エンジンを組み合わせて利用する際、ひとつのAPIに接続するだけで自動的に連携する機能。 組み合わせ機能をその都度作り込む必要がなくなり、スムーズに利用できるようになる。
提供する組み合わせ
- 「物体検出」エンジン+「一般物体認識」エンジン
- 「物体検出」エンジン+「文字認識」エンジン
- 「物体検出」エンジン+「類似画像検索」エンジン
活用例
①「物体検出」エンジン:共通学習済みモデル(顔)+「一般物体認識」エンジン:共通学習済みモデル(年齢性別感情推定)の組み合わせにより、画像中の人物の属性を分析するソリューションを実現できる。
②「物体検出」エンジン:カスタム学習モデル(伝票の各項目部分を学習)+「文字認識」エンジン:共通学習済みモデル(活字)の組み合わせにより、伝票に書かれた文字を書き起こすOCRソリューションを実現できる。