図解でわかる相関係数のすべて:統計初心者から上級者まで対応
目次
相関係数とは何か
相関係数とは、2つの変数の間にどのような関係(共変動)があるかを数値で表す指標です。値は通常 -1 から 1 の範囲を取り、
- 1:完全な正の相関(片方が増えるともう片方も増える)
- 0:相関なし(線形関係がない)
- -1:完全な負の相関(片方が増えるともう片方は減る)
ピアソンの積率相関係数
最も一般的に使われるのがピアソンの積率相関係数(Pearson’s r)です。次の式で定義されます:
\[ r = \frac{\sum_{i=1}^{n} (x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i – \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i – \bar{y})^2}} \]
これは、共分散を標準偏差で割ったものとも解釈できます。ピアソンの相関係数は線形関係の強さを捉えるのに優れていますが、非線形な関係には対応できません。
その他の相関係数(スピアマン・ケンドール)
スピアマンの順位相関係数(Spearman’s ρ)
順位情報(ランキング)を用いた相関で、順位データや非線形な単調関係に対して有効です。 \[ \rho = 1 – \frac{6 \sum d_i^2}{n(n^2 – 1)} \] ここで \(d_i\) は各ペアの順位の差です。
ケンドールの順位相関係数(Kendall’s τ)
観測ペアの「一致」「不一致」に基づく相関で、順位の一致性を評価します。 \[ \tau = \frac{(\text{一致ペア数} – \text{不一致ペア数})}{\frac{1}{2}n(n-1)} \]
相関係数の解釈
相関係数の絶対値に基づいて関係の強さを大まかに次のように分類できます:
- 0.0〜0.2:ほとんど無関係
- 0.2〜0.4:弱い相関
- 0.4〜0.7:中程度の相関
- 0.7〜1.0:強い相関
ただし、分野や文脈により解釈は変わるため、注意が必要です。
具体例と計算方法
例1:身長と体重の相関
仮に以下のデータがあるとします:
身長(cm): 160, 165, 170, 175, 180
体重(kg): 55, 60, 65, 70, 75
この場合、明らかな線形関係があり、ピアソンの相関係数は 1 になります。
例2:テストの得点と復習時間
データ:
時間(h): 1, 2, 3, 4, 5
得点(点): 50, 55, 60, 70, 72
相関係数は約 0.98 となり、強い正の相関があります。
例3:非線形な関係
データ:
x: -2, -1, 0, 1, 2
y: 4, 1, 0, 1, 4
y は x の2乗に比例しているため、ピアソンの相関係数は 0(相関なし)ですが、明らかな関係が存在しています。こうした場合にはスピアマンやケンドールを使うのが有効です。
相関係数の落とし穴と注意点
- 因果関係ではない:相関があるからといって因果関係があるとは限りません。
- 外れ値の影響:特にピアソンは外れ値の影響を大きく受けます。
- 非線形関係の見逃し:非線形な関係に対してはピアソンの相関係数は無力です。
- 範囲制限:変数の範囲が狭いと相関係数が過小評価されることがあります。
まとめ
相関係数はデータ分析や統計学において重要なツールですが、その使用には十分な理解と注意が必要です。ピアソンの相関係数だけでなく、スピアマンやケンドールなど複数の指標を適切に使い分けることが、正確なデータ解釈への第一歩です。