「視覚-言語モデル CLIP を用いた Few-Shot 画像分類手法の比較」村山大空

少数の学習データで高精度な分類を実現するFew-shot画像分類が注目されている．本研究では，視覚―言語モデルCLIPを基盤とした手法を検討した．CLIP（Zero-shot），CLIP-Adapter，Tip-Adapter，および提案手法であるテキスト特徴学習を同一条件下で評価し，分類精度と学習時間を比較した．その結果，CLIP-Adapterは高精度である一方，学習時間が長いことが確認された． Tip-Adapterは学習を必要としないが，精度向上は限定的であった．テキスト特徴学習は十分なshot数において高精度かつ低計算コストを実現し，有効性が示された．