ゼロからわかる!分散と標準偏差を徹底解説
目次
分散とは何か?
分散とは、データが平均からどれくらい散らばっているか(ばらついているか)を表す統計量です。英語では “variance” と呼ばれ、記号では一般に Var(X) や σ²(シグマ二乗)などで表されます。
たとえば、テストの点数が全員90点前後だった場合と、50点~100点までばらつきが大きい場合とでは、後者の方が「散らばり」が大きくなります。この「ばらつきの大きさ」を数値で定量的に表したのが分散です。
分散の求め方
分散の計算方法は以下の通りです。まず、データの平均(算術平均)を求め、その平均から各データがどれくらい離れているかを計算します。この「離れ具合」を二乗して、すべてのデータについて足し合わせ、データ数で割ります。
母分散と標本分散
- 母分散(全体のデータが対象): \[ \sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i – \mu)^2 \]
- 標本分散(一部のデータから推定): \[ s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i – \bar{x})^2 \]
ここで、
- \( x_i \): 各データ
- \( \mu \): 母平均
- \( \bar{x} \): 標本平均
- \( N \): 母集団のデータ数
- \( n \): 標本のデータ数
注意: 標本分散では「n-1」で割ることで不偏分散となり、母分散の推定として偏りが少なくなります。
標準偏差とは?
標準偏差(standard deviation)とは、分散の平方根を取った値です。つまり、単位が元のデータと同じになるため、より直感的にばらつきを把握できます。
- 母標準偏差: \[ \sigma = \sqrt{ \frac{1}{N} \sum_{i=1}^N (x_i – \mu)^2 } \]
- 標本標準偏差: \[ s = \sqrt{ \frac{1}{n-1} \sum_{i=1}^n (x_i – \bar{x})^2 } \]
例えば、身長やテストの点数など、具体的なスケールで散らばりを理解したいときに便利です。
分散・標準偏差が重要な理由
統計学において、分散と標準偏差は非常に重要な役割を果たします。以下のような理由があります。
- データの特徴を把握する: 平均だけではわからない「ばらつき」の情報を提供する。
- 異常値の検出: 標準偏差が大きい場合は極端な値が含まれている可能性がある。
- 統計的推定・検定の基礎: 多くの統計手法(t検定、回帰分析など)で分散を利用。
- リスク評価: ファイナンスにおいては、リターンの標準偏差はリスクの指標。
分散と標準偏差の具体例
例1: データが全て同じ場合
データ: \( [5, 5, 5, 5, 5] \)
平均: \( \bar{x} = 5 \)
各データの偏差(差): \( 0 \)
分散: \[ s^2 = \frac{1}{5-1} \sum_{i=1}^5 (5 – 5)^2 = 0 \] 標準偏差: \( 0 \)
例2: データにばらつきがある場合
データ: \( [2, 4, 4, 4, 10] \)
平均: \( \bar{x} = \frac{2 + 4 + 4 + 4 + 10}{5} = 4.8 \)
偏差の2乗の合計: \[ (2-4.8)^2 + (4-4.8)^2 + (4-4.8)^2 + (4-4.8)^2 + (10-4.8)^2 = 7.84 + 0.64 + 0.64 + 0.64 + 27.04 = 36.8 \]
分散(標本分散): \[ s^2 = \frac{36.8}{5-1} = 9.2 \] 標準偏差: \[ s = \sqrt{9.2} \approx 3.03 \]
まとめ
- 分散はデータのばらつきを数値で表す指標であり、平均からの偏差の2乗の平均。
- 標準偏差は分散の平方根で、元のデータと同じ単位を持ち、より直感的にばらつきを理解できる。
- データの分析、異常値検出、統計的推定、リスク評価など多岐にわたる用途がある。
分散や標準偏差を理解することは、統計学の基礎であると同時に、あらゆるデータ分析の第一歩でもあります。