「静止画像認識を学習済みのニューラルネットから得た特徴量を用いた動画像からの動作認識」市明愛美

本研究では，動画像からの動作認識の問題を扱う．この問題ではC3Dと呼ばれるニューラルネットを用いる方法が知られているが，3次元の畳み込みが必要で学習の計算コストが大きい．本研究では，静止画像認識を学習済みのVisionTransformerから特徴量を取得し，時間軸方向に処理を施した特徴量をロジスティック回帰に適用して識別を行なった．実験の結果，C3Dを一から学習して識別した際の識別率と同等の結果を得ることができた．

Gallery