t-SNE(非線形次元削減)
高次元の近傍関係を保って 2 次元へ — 反復最適化による埋め込みのアニメ
perplexity
15
反復回数
0
クラスタ数
4
状態
停止
15
高次元データ(最初の 2 次元で可視化)
t-SNE 埋め込み(反復で更新)
いま何が起きている?
「▶ 実行」を押すと t-SNE の最適化が始まります。右のキャンバスでクラスタが分離していく様子を観察できます。
t-SNE(t-distributed Stochastic Neighbor Embedding)は、高次元データを 2 〜 3 次元に圧縮する非線形の次元削減手法です。
PCA などの線形手法と異なり、近傍(近い点どうし)の関係を優先的に保つことでクラスタ構造をはっきり可視化できます。
左図は 5 次元データの最初の 2 次元を切り出したもの。クラスタが重なり気味で見分けにくいことに注目してください。 右図が t-SNE による 2 次元埋め込みで、反復するにつれてクラスタが鮮明に分離していきます。
PCA などの線形手法と異なり、近傍(近い点どうし)の関係を優先的に保つことでクラスタ構造をはっきり可視化できます。
左図は 5 次元データの最初の 2 次元を切り出したもの。クラスタが重なり気味で見分けにくいことに注目してください。 右図が t-SNE による 2 次元埋め込みで、反復するにつれてクラスタが鮮明に分離していきます。
ここがポイント
- 近傍関係を保つ非線形削減:高次元で近い点を低次元でも近く配置するよう最適化する。
- クラスタの分離が得意:線形手法では重なるクラスタも t-SNE なら分離して見える。
- perplexity = 近傍の広さ:値が小さいと局所、大きいと広域の構造を重視する。
- クラスタ間距離・大きさ・向きに意味はない:局所構造の保存が目的で大局配置は任意。
- 反復最適化で時間がかかる:初期 100 ステップで早期誇張(×4)し、その後細かく調整する。