Rの基本 分散と標準偏差
データの散らばりを表す代表値に,分散と標準偏差があります。
分散
分散とは,データの「バラつきの大きさ」「散らばりの大きさ」を表す指標。
- 分散が大きい → バラつきが大きい,平均から遠いものが多い
- 分散が小さい → バラつきが小さい,全部が平均に近い,まとまっている
定義(標本分散)
大きさNのデータx1,…,xNが与えられたとする。このとき,標本分散は1NN∑i=1(xi−ˉx)2
で与えられる。ただしˉxはx1,…,xNの標本平均である。
サンプルサイズが大きいときは標本分散で十分だが,サンプルサイズが小さいときには標本分散では正確にデータの「バラつきの大きさ」「散らばりの大きさ」を表せない場合がある。
そのため,標本不偏分散が用いられる場合がある。
定義(標本不偏分散)
大きさNのデータx1,…,xNが与えられたとする。このとき,標本分散は1N−1N∑i=1(xi−ˉx)2
で与えられる。ただしˉxはx1,…,xNの標本平均である。
Rには標本不偏分散を計算するためにvar( )関数が用意されている。
もちろん定義に従って計算しても,同じ結果が得られる。
X <- c(1,2,3,4,5) N <- length(X) #分散はvarianceと書くので、変数名としてvarを使う var1 <- 1/(N-1)*sum((X-mean(X))^2) #標本不偏分散 var2 <- 1/N*sum((X-mean(X))^2) #標本分散 var1 var2 var(X) #値を比較するとvar( )関数は標本不偏分散だとわかる。
計算結果はこちら

標準偏差
分散とは,データの「バラつきの大きさ」「散らばりの大きさ」を表す指標で、分散の平方根を取った値。そのため,
- 標準偏差が大きい → バラつきが大きい,平均から遠いものが多い
- 標準偏差が小さい → バラつきが小さい,全部が平均に近い,まとまっている
定義(標本標準偏差)
大きさNのデータx1,…,xNが与えられたとする。このとき,標本標準偏差は√1NN∑i=1(xi−ˉx)2
で与えられる。ただしˉxはx1,…,xNの標本平均である。
分散の場合と同様に,サンプルサイズが小さいときには標本標準偏差では正確にデータの散らばりを表せない場合がある。
そのため,標本不偏標準偏差が用いられる場合がある。
定義(標本不偏標準偏差)
大きさNのデータx1,…,xNが与えられたとする。このとき,標本標準偏差は√1N−1N∑i=1(xi−ˉx)2
で与えられる。ただしˉxはx1,…,xNの標本平均である。
Rには標本不偏標準偏差を計算するためにsd( )関数が用意されている。
定義に従って計算しても,同じ結果が得られる。
#標準偏差はstandard deviationと書くので、変数名としてsdを使う sd1 <- sqrt(var1) #標本不偏標準偏差(分散の平方根square root) sd2 <- sqrt(var2) #標本標準偏差 sd1 sd2 sd(X) #値を比較するとsd( )関数は標本不偏分散だとわかる。
