Self-Attention の可視化

Transformer の核心である Self-Attention が、文中の単語同士の関係をどう数値化するかを見ます。任意の単語（クエリ）をタップして、その単語がどの単語に「注目」しているかを確認してください。

入力トークン（クリックで Query を切り替え）

パラメータ

スケーリング 1/√d_k を適用

Temperature 1.00

小さい→ 1 点集中 / 大きい→ 一様化

Attention 重みヒートマップ

行 = Query（注目する側）、列 = Key（注目される側）。色が濃いほど強く注目している。各行の合計は 1。

上段 = 現在の Query、下段 = 全 Key。線の太さ・濃さが Attention の強さ。

Attention(Q, K, V) = softmax( Q · K^T / √d_k / τ ) · V

d_k = 4（このデモでの Key の次元）／ τ = Temperature

計算の中身を見る（Embedding / Q / K / V / 生スコア / Softmax）

Embedding (X) [6 × 4]

Wq [4 × 4]

Wk [4 × 4]

Wv [4 × 4]

Q = X · Wq [6 × 4]

K = X · Wk [6 × 4]

V = X · Wv [6 × 4]

生スコア Q · K^T [6 × 6]

Softmax 後の Attention [6 × 6]

出力 = Attention · V [6 × 4]