kobo-ideas / 018

統計・確率 インタラクティブ可視化

高校「データの分析」〜大学初年次の統計を、ブラウザで動かして腹落ちできる POC 集(idea 018)。 記述統計・相関回帰・確率分布・統計推測・検定・多変量/次元削減(PCA・t-SNE・UMAP)まで。 題材は金沢工業大学 KIT 数学ナビゲーションの統計・確率分野を参考に抽出。

visual-learning シリーズ:数学・幾何・物理・化学・生物・地学・情報・AI・通信を含む全分野は シリーズ一覧 からたどれます。

記述統計(基本統計量)

記述統計

度数分布とヒストグラム

同じデータでも階級幅(ビン数)で形の印象が変わる。

開く →
記述統計

代表値と外れ値

平均・中央値・最頻値。外れ値は平均を引っ張り中央値は頑健。

開く →
記述統計

分散と標準偏差

偏差²の平均=分散、√で標準偏差。散らばりの指標。

開く →
記述統計

箱ひげ図と四分位数

5 数要約・IQR・1.5IQR の外れ値判定。分布の比較。

開く →

標準化・相関・回帰

標準化

標準化(z 変換)

z=(x−μ)/σ。異なる尺度を平均0・標準偏差1で比較。

開く →
相関

散布図と相関係数

点をドラッグして r が −1〜1 でどう変わるかを体感。

開く →
相関

共分散

象限の符号付き寄与の平均。相関の向きを決める量。

開く →
回帰

最小二乗法と回帰直線

残差²の和を最小にする直線。手で動かして最小解と比較。

開く →
回帰

決定係数 R²

全変動のうち回帰で説明できる割合。単回帰では R²=r²。

開く →

確率分布

分布

正規分布

μ で位置・σ で幅。68-95-99.7 ルール。面積=確率。

開く →
分布

偏差値

T=50+10z。偏差値と正規分布・上位パーセントの対応。

開く →
分布

二項分布

B(n,p)。平均 np・分散 np(1−p)、n 大で正規近似。

開く →
分布

ポアソン分布

まれな事象の回数。平均=分散=λ。二項分布の極限。

開く →
分布

一様分布と指数分布

連続分布は面積=確率。指数分布の待ち時間・無記憶性。

開く →

推測統計の分布族

分布

t分布

小標本の推測に使う。裾が正規より厚く、自由度↑で正規に近づく。

開く →
分布

カイ2乗分布

標準正規の二乗和。適合度・独立性の検定に使う非負の分布。

開く →
分布

F分布

2つの分散の比。分散分析(ANOVA)の検定統計量。

開く →

統計推測

推測

大数の法則

試行を増やすと相対度数が理論確率に近づく。

開く →
推測

中心極限定理

元分布が何でも標本平均は正規分布に近づく(σ/√n)。

開く →
推測

信頼区間

95% 区間を何度も作ると約 95% が母平均を含む。

開く →
検定

仮説検定(棄却域とp値)

帰無仮説・棄却域・p値。p<α で棄却。両側/片側。

開く →

標本と推定・リサンプリング

推定

不偏分散(なぜ n−1)

÷n は分散を過小評価、自由度 n−1 で割ると不偏に。

開く →
推定

ブートストラップ法

復元抽出を繰り返し、理論式なしで統計量の分布と信頼区間を求める。

開く →

検定・モデル診断

検定

分散分析(ANOVA)

群間変動と群内変動の比 F で、3 群以上の平均の差を検定。

開く →
検定

カイ2乗検定(独立性)

クロス集計の観測と期待のズレ χ² で関連の有無を判定。

開く →
回帰診断

残差プロット

残差がランダムなら線形で妥当、パターンがあればモデル不適。

開く →
診断

正規Q-Qプロット

分位点を正規と比較。直線なら正規、曲がりで歪み・裾を読む。

開く →

確率

場合の数

順列と組合せ

順序を区別する nPr と区別しない nCr。nCr=nPr/r!。

開く →
確率

条件付き確率

P(A|B)=P(A∩B)/P(B)。分母が縮む面積モデル。

開く →
確率

ベイズの定理(検査の的中率)

低有病率だと陽性でも病気の確率は意外に低い。

開く →
確率

期待値

Σ(値×確率)。引き続けると平均が期待値に収束。

開く →

多変量・次元削減

次元削減

主成分分析(PCA)

分散最大の方向=主成分。射影で次元削減。線形手法。

開く →
次元削減

t-SNE

高次元の近傍関係を保ち 2 次元へ。クラスタ分離が得意な非線形手法。

開く →
次元削減

UMAP

近傍グラフを低次元へ。t-SNE より高速で大域構造も保ちやすい。

開く →