Attention の二部グラフ

Query(注目する側)Key(注目される側)の関係を、上下 2 段のグラフで可視化します。

表示モード

上段の Query をタップして切り替え。「全 Query 同時」では強い関係だけ濃く描画。

Self-Attention は 「各単語が、自分の意味を決めるために、文中のどの単語をどれだけ参考にするか」 を計算します。
上段の Query(青)は「参考にしたい側」、下段の Key(緑)は「参考にされる側」。
実際には文中のすべての単語が両方の役割を兼ねるので、同じ単語が上下に並びます。
線の太さ=注目度(attention 重み)。
Query Key
もっと詳しく:全 6 × 6 の注目分布を表で見る

なぜ「二部グラフ」?

Self-Attention の本質は 「上の単語 → 下の単語」への重み付き接続 です。 上下に分けて描くと、隣接単語同士の局所関係だけでなく 離れた単語との長距離関係 も視覚的に追えます。 RNN にはできなかった「文末の単語と文頭の単語が直接つながる」が、この線 1 本で表現できる — これが Transformer が革命的だった理由です。