Self-Attention の可視化

Transformer の核心である Self-Attention が、文中の単語同士の関係をどう数値化するかを見ます。 任意の単語(クエリ)をタップして、その単語がどの単語に「注目」しているかを確認してください。

入力トークン(クリックで Query を切り替え)
パラメータ

Attention 重みヒートマップ

行 = Query(注目する側)、列 = Key(注目される側)。色が濃いほど強く注目している。各行の合計は 1。

0
1

選択した Query の Attention 分布

上段 = 現在の Query、下段 = 全 Key。線の太さ・濃さが Attention の強さ。

計算式

Attention(Q, K, V) = softmax( Q · KT / √dk / τ ) · V

dk = 4(このデモでの Key の次元)/ τ = Temperature

計算の中身を見る(Embedding / Q / K / V / 生スコア / Softmax)
Embedding (X) [6 × 4]
Wq [4 × 4]
Wk [4 × 4]
Wv [4 × 4]
Q = X · Wq [6 × 4]
K = X · Wk [6 × 4]
V = X · Wv [6 × 4]
生スコア Q · KT [6 × 6]
Softmax 後の Attention [6 × 6]
出力 = Attention · V [6 × 4]