本研究は、追加学習や画素単位のアノテーションを必要としない Zero-shot セマンティックセグメンテーション手法の構築を目的とする。テキスト入力により任意の物体を検出可能な YOLO-World と、高精度な領域抽出が可能な画像基盤モデル SAM を組み合わせ、前者の出力を後者のプロンプトとする手法を構築した。実験の結果、PASCAL VOC データセットにおいて mIoU 0.703 を記録し、教師ありモデルである DeepLab v3 の mIoU 0.724 に近い精度を達成した。これにより、提案手法がアノテーションコスト削減と未知クラスへの対応に有効であることを示した。

「物体検出モデルと画像基盤モデルの組み合わせによる Zero-shot セマンティックセグメンテーション」松村壮吾