動物の注視点座標予測モデルを用いた行動分析・動画要約の効率化
概要
動物(犬)の「視線」を指標に用いることで、大規模言語モデル(LLM)による動画解析を効率化する手法を提案する。 まず、独自に構築した約5,000枚の犬用データセットを用いて、DINOv2をバックボーンとした高精度な視線推定モデルを開発した。 次に、推定された視線座標に時空間クラスタリングを適用し、動物が注意を向けた「意味的な転換点」を特定してフレームを抽出する。 この適応的サンプリングにより、コスト削減を実現しながら、行動の文脈を正確に保持した高度な要約が可能であることを実証した。
論文
動画
資料
引用情報
-
髙橋 卓
動物の注視点座標予測モデルを用いた行動分析・動画要約の効率化
修士論文, 2026年2月