統計・確率 インタラクティブ可視化
高校「データの分析」〜大学初年次の統計を、ブラウザで動かして腹落ちできる POC 集(idea 018)。 記述統計・相関回帰・確率分布・統計推測・検定・多変量/次元削減(PCA・t-SNE・UMAP)まで。 題材は金沢工業大学 KIT 数学ナビゲーションの統計・確率分野を参考に抽出。
記述統計(基本統計量)
度数分布とヒストグラム
同じデータでも階級幅(ビン数)で形の印象が変わる。
代表値と外れ値
平均・中央値・最頻値。外れ値は平均を引っ張り中央値は頑健。
分散と標準偏差
偏差²の平均=分散、√で標準偏差。散らばりの指標。
箱ひげ図と四分位数
5 数要約・IQR・1.5IQR の外れ値判定。分布の比較。
標準化・相関・回帰
標準化(z 変換)
z=(x−μ)/σ。異なる尺度を平均0・標準偏差1で比較。
散布図と相関係数
点をドラッグして r が −1〜1 でどう変わるかを体感。
共分散
象限の符号付き寄与の平均。相関の向きを決める量。
最小二乗法と回帰直線
残差²の和を最小にする直線。手で動かして最小解と比較。
決定係数 R²
全変動のうち回帰で説明できる割合。単回帰では R²=r²。
確率分布
正規分布
μ で位置・σ で幅。68-95-99.7 ルール。面積=確率。
偏差値
T=50+10z。偏差値と正規分布・上位パーセントの対応。
二項分布
B(n,p)。平均 np・分散 np(1−p)、n 大で正規近似。
ポアソン分布
まれな事象の回数。平均=分散=λ。二項分布の極限。
一様分布と指数分布
連続分布は面積=確率。指数分布の待ち時間・無記憶性。
推測統計の分布族
t分布
小標本の推測に使う。裾が正規より厚く、自由度↑で正規に近づく。
カイ2乗分布
標準正規の二乗和。適合度・独立性の検定に使う非負の分布。
F分布
2つの分散の比。分散分析(ANOVA)の検定統計量。
統計推測
大数の法則
試行を増やすと相対度数が理論確率に近づく。
中心極限定理
元分布が何でも標本平均は正規分布に近づく(σ/√n)。
信頼区間
95% 区間を何度も作ると約 95% が母平均を含む。
仮説検定(棄却域とp値)
帰無仮説・棄却域・p値。p<α で棄却。両側/片側。
標本と推定・リサンプリング
検定・モデル診断
分散分析(ANOVA)
群間変動と群内変動の比 F で、3 群以上の平均の差を検定。
カイ2乗検定(独立性)
クロス集計の観測と期待のズレ χ² で関連の有無を判定。
残差プロット
残差がランダムなら線形で妥当、パターンがあればモデル不適。
正規Q-Qプロット
分位点を正規と比較。直線なら正規、曲がりで歪み・裾を読む。
確率
順列と組合せ
順序を区別する nPr と区別しない nCr。nCr=nPr/r!。
条件付き確率
P(A|B)=P(A∩B)/P(B)。分母が縮む面積モデル。
ベイズの定理(検査の的中率)
低有病率だと陽性でも病気の確率は意外に低い。
期待値
Σ(値×確率)。引き続けると平均が期待値に収束。