PIXTA、日本語キャプション付き日本人日常シーン画像データセットを機械学習向けに販売開始

  • X
  • Facebook
  • note
  • hatena
  • Pocket
2025/10/10 18:30

 ピクスタが運営する写真・イラスト・動画・音楽素材のマーケットプレイス「PIXTA(ピクスタ)」は、「機械学習用画像・動画データ提供サービス」として、「日本語キャプション付き日本人日常シーン画像データセット」の販売を開始した。

 同データセットは、日本国内で撮影された実写画像1,000点で構成されており、被写体には乳児から高齢者までの日本人男女が含まれる。画像には日本語キャプションが付与されており、画像検索やAI開発、教育・福祉分野など多様な活用が見込まれる。

 商用利用も認められており、撮影者からは機械学習データ活用の許諾を取得している。背景としては、国内での日本語キャプション付きデータ不足や、英語中心の既存データセットの利用における権利処理の課題があり、日本語VLMの研究開発や商用利用に対応できる日本語データの整備が求められていたため提供を開始した。

画像サンプル
画像サンプル

 PIXTAは、1億点以上の画像・動画・音声素材を保有しており、機械学習用途に合わせたデータ提供や新規撮影も可能としている。今後も日本の研究者や企業のAI開発を支えるサービスの拡充を進めていく。