初心者から理解できる「共分散」の意味と使い方徹底解説
共分散は、統計学やデータ分析において変数同士の関係を数値的に表す重要な概念です。本記事では、共分散の意味、計算方法、具体的な例、応用方法までを徹底的に解説します。
目次
共分散とは何か?
共分散(Covariance)とは、2つの変数がどのように一緒に変動するかを示す統計量です。たとえば、「身長」と「体重」のように、ある変数が増加すると別の変数も増加する場合には正の共分散を持ちます。
逆に、ある変数が増えるともう一方が減る傾向がある場合は、負の共分散になります。もし全く関連がなければ共分散はゼロに近づきます。
共分散の計算式
2つの変数 \(X\) と \(Y\) の共分散は、以下の式で定義されます。
\[ \mathrm{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n}(x_i – \bar{x})(y_i – \bar{y}) \]
ここで:
- \(x_i, y_i\) は各データ点
- \(\bar{x}, \bar{y}\) はそれぞれの平均
- \(n\) はデータ数
サンプルデータに基づく推定では、分母を \(n-1\) にすることで不偏推定量となります。
\[ \mathrm{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n}(x_i – \bar{x})(y_i – \bar{y}) \]
共分散の具体例
以下は、5人の生徒についての「勉強時間」と「テスト点数」のデータです:
| 生徒 | 勉強時間 (時間) | テスト点数 |
|---|---|---|
| A | 1 | 50 |
| B | 2 | 60 |
| C | 3 | 65 |
| D | 4 | 70 |
| E | 5 | 85 |
平均勉強時間:\(\bar{x} = 3\)
平均テスト点数:\(\bar{y} = 66\)
共分散を求めると:
\[ \mathrm{Cov}(X, Y) = \frac{1}{5-1} \sum_{i=1}^{5}(x_i – 3)(y_i – 66) \]
計算結果:
\[ = \frac{1}{4} \left[(-2)(-16) + (-1)(-6) + (0)(-1) + (1)(4) + (2)(19)\right] = \frac{1}{4}(32 + 6 + 0 + 4 + 38) = \frac{80}{4} = 20 \]
共分散は 20 で、これは勉強時間とテスト点数に正の関係があることを示しています。
共分散の解釈と意味
共分散の値の符号に注目することで、変数間の関係を理解できます:
- 正の値:両変数は同じ方向に動く傾向(例:身長と体重)
- 負の値:一方が増えると他方が減る傾向(例:価格と需要)
- 0に近い:ほとんど関連がない(例:身長と郵便番号)
ただし、共分散の大きさは単位に依存するため、異なる変数の共分散の値を直接比較することはできません。
共分散行列とは?
複数の変数を同時に扱う場合、共分散を行列形式で整理したものが「共分散行列」です。
例えば、3つの変数 \(X_1, X_2, X_3\) があるとき、その共分散行列 \(\Sigma\) は次のようになります:
\[ \Sigma = \begin{bmatrix} \mathrm{Cov}(X_1, X_1) & \mathrm{Cov}(X_1, X_2) & \mathrm{Cov}(X_1, X_3) \\ \mathrm{Cov}(X_2, X_1) & \mathrm{Cov}(X_2, X_2) & \mathrm{Cov}(X_2, X_3) \\ \mathrm{Cov}(X_3, X_1) & \mathrm{Cov}(X_3, X_2) & \mathrm{Cov}(X_3, X_3) \\ \end{bmatrix} \]
この行列は対称行列であり、対角成分は各変数の分散です。
相関との違い
共分散と相関係数(correlation coefficient)は密接に関係していますが、異なるものです。
相関係数 \(r\) は共分散を標準偏差で割ることで、スケールの違いを取り除き、−1から1の間に正規化したものです:
\[ r_{XY} = \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y} \]
相関係数は変数間の強さと方向を一目で比較できるメリットがあります。
共分散の応用例
- ポートフォリオ理論:金融資産のリスクを分析するために、異なる資産の共分散を用いて分散投資戦略を立てる。
- 主成分分析(PCA):データの次元を削減するために、共分散行列の固有ベクトルを使う。
- 機械学習:変数同士の関係性を把握し、予測モデルの入力特徴の相関除去などに利用。
- 時間系列分析:ラグ間の共分散構造を分析して将来予測に役立てる。
まとめ
- 共分散は2つの変数がどのように一緒に変化するかを示す指標。
- 正の値なら同じ方向、負の値なら逆方向に変化する傾向を示す。
- 単位に依存するため、相関係数と併用することが重要。
- 共分散行列を使えば多変量データの関係性を包括的に把握できる。
- 金融、統計、機械学習など多くの分野で活用される。