Rの基本 分散と標準偏差

Rの基本 分散と標準偏差

データの散らばりを表す代表値に,分散と標準偏差があります。

分散

分散とは,データの「バラつきの大きさ」「散らばりの大きさ」を表す指標。

  • 分散が大きい → バラつきが大きい,平均から遠いものが多い
  • 分散が小さい → バラつきが小さい,全部が平均に近い,まとまっている
定義(標本分散)
大きさ\(N\)のデータ\(x_1,…,x_N\)が与えられたとする。このとき,標本分散は\[\frac{1}{N}\sum_{i=1}^N \left(x_i-\bar{x}\right)^2\] で与えられる。ただし\(\bar{x}\)は\(x_1,…,x_N\)の標本平均である。

サンプルサイズが大きいときは標本分散で十分だが,サンプルサイズが小さいときには標本分散では正確にデータの「バラつきの大きさ」「散らばりの大きさ」を表せない場合がある。

そのため,標本不偏分散が用いられる場合がある。

定義(標本不偏分散)
大きさ\(N\)のデータ\(x_1,…,x_N\)が与えられたとする。このとき,標本分散は\[\frac{1}{N-1}\sum_{i=1}^N \left(x_i-\bar{x}\right)^2\] で与えられる。ただし\(\bar{x}\)は\(x_1,…,x_N\)の標本平均である。

Rには標本不偏分散を計算するためにvar( )関数が用意されている。

もちろん定義に従って計算しても,同じ結果が得られる。

X <- c(1,2,3,4,5)
N <- length(X)

#分散はvarianceと書くので、変数名としてvarを使う
var1 <- 1/(N-1)*sum((X-mean(X))^2) #標本不偏分散
var2 <- 1/N*sum((X-mean(X))^2)     #標本分散
var1
var2
var(X)
#値を比較するとvar( )関数は標本不偏分散だとわかる。

計算結果はこちら

標準偏差

分散とは,データの「バラつきの大きさ」「散らばりの大きさ」を表す指標で、分散の平方根を取った値。そのため,

  • 標準偏差が大きい → バラつきが大きい,平均から遠いものが多い
  • 標準偏差が小さい → バラつきが小さい,全部が平均に近い,まとまっている
定義(標本標準偏差)
大きさ\(N\)のデータ\(x_1,…,x_N\)が与えられたとする。このとき,標本標準偏差は\[\sqrt{\frac{1}{N}\sum_{i=1}^N \left(x_i-\bar{x}\right)^2}\] で与えられる。ただし\(\bar{x}\)は\(x_1,…,x_N\)の標本平均である。

分散の場合と同様に,サンプルサイズが小さいときには標本標準偏差では正確にデータの散らばりを表せない場合がある。

そのため,標本不偏標準偏差が用いられる場合がある。

定義(標本不偏標準偏差)
大きさ\(N\)のデータ\(x_1,…,x_N\)が与えられたとする。このとき,標本標準偏差は\[\sqrt{\frac{1}{N-1}\sum_{i=1}^N \left(x_i-\bar{x}\right)^2}\] で与えられる。ただし\(\bar{x}\)は\(x_1,…,x_N\)の標本平均である。

Rには標本不偏標準偏差を計算するためにsd( )関数が用意されている。

定義に従って計算しても,同じ結果が得られる。

#標準偏差はstandard deviationと書くので、変数名としてsdを使う
sd1 <- sqrt(var1) #標本不偏標準偏差(分散の平方根square root)
sd2 <- sqrt(var2) #標本標準偏差
sd1
sd2
sd(X)
#値を比較するとsd( )関数は標本不偏分散だとわかる。