ユーザ名
★
タイトル
★
著者一覧
★
Jungwon Park,Jungmin Ko,Dongnam Byun,Jangwon Suh,Wonjong Rhee
学会名/雑誌名
★
YouTube
画像
(YouTubeがない場合に登録してください)
アブストラクト
★
最近のテキストから画像への拡散モデルはクロスアテンション層を活用しており、 これは様々な視覚的生成タスクの強化に効果的に利用されてきた。しかし、 クロスアテンション層に関する我々の理解は依然として限定的である。本研究では、 人間が指定した視覚的概念と整合するヘッド関連性ベクトル(HRV)を構築することで、 拡散モデルに対するメカニズムに基づく解釈可能性アプローチを導入する。特定の視覚概念に対するHRVの長さはクロスアテンションヘッドの総数に等しく、各要素は対応するヘッドがその視覚概念において持つ重要性を表す。HRVを解釈可能な特徴量として検証するため、その有効性を示す順序付け弱化解析を開発した。さらに、概念強化法と概念調整法を提案し、3つの視覚的生成タスクの性能向上に応用した。結果として、HRVは画像生成における多義語の誤解釈を低減し、画像編集における5つの困難な属性を修正し、多概念生成における壊滅的無視を緩和できることを示した。全体として、本研究はクロスアテンション層の理解を前進させるとともに、ヘッドレベルでの微細制御に向けた新たな手法を導入するものである。
コメント
★
クロスアテンションで対応づいた部分を可視化する研究
論文PDFへのリンク
GitHubへのリンク
プロジェクトサイトへのリンク
登録