共分散と相関係数～Rプログラミング～【Statistics with “R”】

データを分析では，同一の個体について複数の属性の情報を持った標本を扱うことが多い。このようなデータは以下のようにあらわせる。

ｋ次元データ

定義（k次元データ）

同一の\(n\)個の個体に対して\(k\)個の変数について観測した結果 \[(x_{11},…,x_{1k}),…,(x_{n1},…,x_{nk})\] を\(k\)次元データとよぶ。

ｋ次元データをそのまま分析する前に，各変数間の関係に着目することが多い。この時に考えるのが２次元データとしての表現である。

２次元データ

定義（２次元データ）

同一の\(n\)個の個体に対して２つの変数について観測した結果 \[(x_1,y_1),…,(x_n,y_n)\] を２次元データとよぶ。

共分散

２次元データの変数間の関係を把握するために，散布図を使って視覚的にアプローチする場合のほか，相関係数を使って，数として把握する方法がある。相関係数は，以下の共分散のアイディアを用いて表現される。

定義（標本共分散）

大きさ\(n\)の標本\((x_1,y_1,)…,(x_n,y_n)\)に対し，
\[\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})\] を不偏標本共分散という。また，
\[\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})\] ただし\(\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i,~\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i\)である。

共分散は

散布図でデータが右上がりに分布しているとき共分散は正の値になる。
散布図でデータが右下がりに分布しているとき共分散は負の値になる。

不偏標本共分散はRではcov( )関数で計算できる。

相関係数

定義（標本相関係数）

大きさ\(n\)の標本\((x_1,y_1,)…,(x_n,y_n)\)に対し，
\[r_{xy}=\frac{xとyの共分散}{xの標準偏差\times yの標準偏差}=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}\] を標本相関係数という。ただし\(\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i,~\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i\)である。

散布図でデータが右上がりに分布しているとき相関係数は正の値になり、このとき正の相関があるという。
散布図でデータが右下がりに分布しているとき相関係数は負の値になり、このとき負の相関があるという。

相関係数は以下の性質を持つ。

amazonでミスマガ写真集を探す

標本相関係数の性質

標本相関係数は以下の性質を持つ。
\(|r_{xy}|\leq 1\)
\(r_{xy}=r_{yx}\)
\(|r_{(ax+b)(cy+d)}|=|r_{xy}|\)

標本相関係数はRではcov( )関数で計算できる。

Rでの共分散と相関係数の表示

Rでは不偏共分散のためににcov( )関数、相関係数のためにcor( )関数が用意されているが、定義に従って計算しても同様の結果が得られる。以下サンプルコード

#####データの生成#######
N <- 100				#サンプルサイズ
X <- runif(N,min=-1,max=1)	#Xを一様分布から発生
Y <- runif(N,min=-1,max=1)	#YをXとは別に一様分布から発生
#####分析############
plot(X,Y)				#散布図
cov(X,Y)				#共分散はcov(１個目の変数,２個目の変数)で計算できる
cor(X,Y)				#相関係数はcor(１個目の変数,２個目の変数)で計算できる
cov(X,Y)/sd(X)/sd(Y)		#相関係数はxとyの共分散をxの標準偏差とyの標準偏差で割ったもの
(sum((X-mean(X))*(Y-mean(Y)))/(N-1))/(sd(X)*sd(Y))
#数式で直接計算しても同様の結果が得られる

ここではXとYを独立に設定した。散布図を見るとXとYの間に関係はみられず、相関係数は0になる。

#####データの生成#######
N <- 100
X <- runif(N,min=-1,max=1)
Y <- X+runif(N,min=-1,max=1)	#YをXと乱数の和にしたので、XとYは独立ではない
#####分析############
plot(X,Y)				#散布図
cor(X,Y)
cov(X,Y)/sd(X)/sd(Y)
(sum((X-mean(X))*(Y-mean(Y)))/(N-1))/(sd(X)*sd(Y))

ここではYをXと乱数の和として設定した。散布図を見るとXとYの間に右上がりの関係が見られ、相関係数は正になる。

#####データの生成#######
N <- 100
X <- runif(N,min=-1,max=1)
Y <- -X+runif(N,min=-1,max=1)	#YをXと乱数の和にしたので、XとYは独立ではない
#####分析############
plot(X,Y)					#散布図
cor(X,Y)
cov(X,Y)/sd(X)/sd(Y)
(sum((X-mean(X))*(Y-mean(Y)))/(N-1))/(sd(X)*sd(Y))

ここではYを-Xと乱数の和として設定した。散布図を見るとXとYの間に右下がりの関係が見られ、相関係数は負になる。

勉強お助け猫の庭

講義レビューや教科書レビュー、自動メール作成、Rによるプログラミングについての記事を提供します。

共分散と相関係数～Rプログラミング～【Statistics with “R”】

2022年11月30日 hiroshi

ｋ次元データ

２次元データ

共分散

相関係数

Rでの共分散と相関係数の表示

関連するトピック