ゼロからわかる!分散と標準偏差を徹底解説

ゼロからわかる!分散と標準偏差を徹底解説

目次

分散とは何か?

分散とは、データが平均からどれくらい散らばっているか(ばらついているか)を表す統計量です。英語では “variance” と呼ばれ、記号では一般に Var(X)σ²(シグマ二乗)などで表されます。

たとえば、テストの点数が全員90点前後だった場合と、50点~100点までばらつきが大きい場合とでは、後者の方が「散らばり」が大きくなります。この「ばらつきの大きさ」を数値で定量的に表したのが分散です。

分散の求め方

分散の計算方法は以下の通りです。まず、データの平均(算術平均)を求め、その平均から各データがどれくらい離れているかを計算します。この「離れ具合」を二乗して、すべてのデータについて足し合わせ、データ数で割ります。

母分散と標本分散

  • 母分散(全体のデータが対象): \[ \sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i – \mu)^2 \]
  • 標本分散(一部のデータから推定): \[ s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i – \bar{x})^2 \]

ここで、

  • \( x_i \): 各データ
  • \( \mu \): 母平均
  • \( \bar{x} \): 標本平均
  • \( N \): 母集団のデータ数
  • \( n \): 標本のデータ数

注意: 標本分散では「n-1」で割ることで不偏分散となり、母分散の推定として偏りが少なくなります。

標準偏差とは?

標準偏差(standard deviation)とは、分散の平方根を取った値です。つまり、単位が元のデータと同じになるため、より直感的にばらつきを把握できます。

  • 母標準偏差: \[ \sigma = \sqrt{ \frac{1}{N} \sum_{i=1}^N (x_i – \mu)^2 } \]
  • 標本標準偏差: \[ s = \sqrt{ \frac{1}{n-1} \sum_{i=1}^n (x_i – \bar{x})^2 } \]

例えば、身長やテストの点数など、具体的なスケールで散らばりを理解したいときに便利です。

分散・標準偏差が重要な理由

統計学において、分散と標準偏差は非常に重要な役割を果たします。以下のような理由があります。

  • データの特徴を把握する: 平均だけではわからない「ばらつき」の情報を提供する。
  • 異常値の検出: 標準偏差が大きい場合は極端な値が含まれている可能性がある。
  • 統計的推定・検定の基礎: 多くの統計手法(t検定、回帰分析など)で分散を利用。
  • リスク評価: ファイナンスにおいては、リターンの標準偏差はリスクの指標。

分散と標準偏差の具体例

例1: データが全て同じ場合

データ: \( [5, 5, 5, 5, 5] \)

平均: \( \bar{x} = 5 \)

各データの偏差(差): \( 0 \)

分散: \[ s^2 = \frac{1}{5-1} \sum_{i=1}^5 (5 – 5)^2 = 0 \] 標準偏差: \( 0 \)

例2: データにばらつきがある場合

データ: \( [2, 4, 4, 4, 10] \)

平均: \( \bar{x} = \frac{2 + 4 + 4 + 4 + 10}{5} = 4.8 \)

偏差の2乗の合計: \[ (2-4.8)^2 + (4-4.8)^2 + (4-4.8)^2 + (4-4.8)^2 + (10-4.8)^2 = 7.84 + 0.64 + 0.64 + 0.64 + 27.04 = 36.8 \]

分散(標本分散): \[ s^2 = \frac{36.8}{5-1} = 9.2 \] 標準偏差: \[ s = \sqrt{9.2} \approx 3.03 \]

まとめ

  • 分散はデータのばらつきを数値で表す指標であり、平均からの偏差の2乗の平均。
  • 標準偏差は分散の平方根で、元のデータと同じ単位を持ち、より直感的にばらつきを理解できる。
  • データの分析、異常値検出、統計的推定、リスク評価など多岐にわたる用途がある。

分散や標準偏差を理解することは、統計学の基礎であると同時に、あらゆるデータ分析の第一歩でもあります。

コメントは受け付けていません。