少数の学習データで高精度な分類を実現するFew-shot画像分類が注目されている.本研究では,視覚―言語モデルCLIPを基盤とした手法を検討した.CLIP(Zero-shot),CLIP-Adapter,Tip-Adapter,および提案手法であるテキスト特徴学習を同一条件下で評価し,分類精度と学習時間を比較した.その結果,CLIP-Adapterは高精度である一方,学習時間が長いことが確認された. Tip-Adapterは学習を必要としないが,精度向上は限定的であった.テキスト特徴学習は十分なshot数において高精度かつ低計算コストを実現し,有効性が示された.