ゼロからわかる！分散と標準偏差を徹底解説

分散とは何か？

分散とは、データが平均からどれくらい散らばっているか（ばらついているか）を表す統計量です。英語では “variance” と呼ばれ、記号では一般に Var(X) や σ²（シグマ二乗）などで表されます。

たとえば、テストの点数が全員90点前後だった場合と、50点～100点までばらつきが大きい場合とでは、後者の方が「散らばり」が大きくなります。この「ばらつきの大きさ」を数値で定量的に表したのが分散です。

分散の計算方法は以下の通りです。まず、データの平均（算術平均）を求め、その平均から各データがどれくらい離れているかを計算します。この「離れ具合」を二乗して、すべてのデータについて足し合わせ、データ数で割ります。

ここで、

注意: 標本分散では「n-1」で割ることで不偏分散となり、母分散の推定として偏りが少なくなります。

標準偏差（standard deviation）とは、分散の平方根を取った値です。つまり、単位が元のデータと同じになるため、より直感的にばらつきを把握できます。

例えば、身長やテストの点数など、具体的なスケールで散らばりを理解したいときに便利です。

統計学において、分散と標準偏差は非常に重要な役割を果たします。以下のような理由があります。

データ: \( [5, 5, 5, 5, 5] \)

平均: \( \bar{x} = 5 \)

各データの偏差（差）: \( 0 \)

分散: \[ s^2 = \frac{1}{5-1} \sum_{i=1}^5 (5 – 5)^2 = 0 \] 標準偏差: \( 0 \)

データ: \( [2, 4, 4, 4, 10] \)

平均: \( \bar{x} = \frac{2 + 4 + 4 + 4 + 10}{5} = 4.8 \)

偏差の2乗の合計: \[ (2-4.8)^2 + (4-4.8)^2 + (4-4.8)^2 + (4-4.8)^2 + (10-4.8)^2 = 7.84 + 0.64 + 0.64 + 0.64 + 27.04 = 36.8 \]

分散（標本分散）: \[ s^2 = \frac{36.8}{5-1} = 9.2 \] 標準偏差: \[ s = \sqrt{9.2} \approx 3.03 \]

分散や標準偏差を理解することは、統計学の基礎であると同時に、あらゆるデータ分析の第一歩でもあります。