@Prayer님 : 모분산을 추정할 때 n-1로 나누어야 하는 이유에 대한 답변입니다.
게시글 주소: https://image.orbi.kr/0001696165
왜 n으로 나누는 것이 타당하지 않은지를 살펴보자면….
모평균을 모르는 상태에서는 모평균을 표본평균으로 대체하여 사용해야 합니다. 그런데 이 과정에서 전체 분산의 일부가
표본평균에 흡수됩니다. 그래서 표본평균 자체를 모평균에 대한 추정값으로 사용하는 경우, 모분산을 추정할 때 그냥 n으로 나누게
되면 모분산보다 항상 작은 값이 추정되는 현상, 즉 편중(bias)이 발생하게 됩니다! 그 효과를 제거하기 위하여 n 대신 n-1
로 나누는 것입니다. 이를 베셀 보정(Bessel's correction)이라고 부릅니다.
실제로 유도해봅시다. 모분포
의 모평균이
이고 모분산이
이라고 합시다.
(여기서, 기대값을 나타내는 기호인 E를 두 줄이 들어간 굵은 글씨로 표기하여 눈에 확 들어오도록 차별화(?)를 이루었습니다. 사실 국제적인 표기법이기도 하고요.)
그리고 이 모분포의 크기가 n인 표본을 생각하고, 그 표본평균
를 생각합시다. 그러면
의 평균은
이고 분산은
입니다.
자, 그런데 잘 생각해봅시다. 모평균을 안다는 것은 이미 전체 집단에 대한 분포를 알고 있다는 것입니다. 그러나 우리가
현실에서 앙케이트 조사를 하거나 대선 후보에 대한 정보를 수집하는 등의 활동을 할 때에 모든 국민들을 상대로 결과를 얻어낼 수는
없습니다. (돈! 시간! 비협조! 주택총조사도 그래서 매년 못 하죠 -.-) 그러므로 우리는 항상 제한된 표본 내에서, 그 표본의 표본평균 자체를
모평균에 대한 추정값으로 삼고 계산을 진행할 수밖에 없습니다. 즉, n개의 샘플
에 대하여, 원래대로라면
우리는
![http://latex.codecogs.com/gif.latex?S^2%20=%20\frac{1}{n}%20\sum_{k=1}^{n}%20(X_k%20-%20\bar{X})^2](http://latex.codecogs.com/gif.latex?S%5E2%20=%20%5Cfrac%7B1%7D%7Bn%7D%20%5Csum_%7Bk=1%7D%5E%7Bn%7D%20%28X_k%20-%20%5Cbar%7BX%7D%29%5E2)
의 값을 모분산에 대한 추정값으로 사용하려고 할 것입니다. 그렇다면 위 분포의 평균이 모분산과 일치할까요? 우선 계산의 편의를 위하여 다음 식을 먼저 보입시다.
![http://latex.codecogs.com/gif.latex?(1)%20\quad%20\mathbb{E}(X_k%20\bar{X})%20=%20m^2%20+%20\frac{\sigma^2}{n}](http://latex.codecogs.com/gif.latex?%281%29%20%5Cquad%20%5Cmathbb%7BE%7D%28X_k%20%5Cbar%7BX%7D%29%20=%20m%5E2%20+%20%5Cfrac%7B%5Csigma%5E2%7D%7Bn%7D)
증명은 다음과 같습니다.
![http://latex.codecogs.com/gif.latex?\begin{align*}%20\mathbb{E}(X_k%20\bar{X})%20&%20=%20\mathbb{E}%20\left(%20\frac{1}{n}%20\sum_{i=1}^{n}%20X_k%20X_i%20\right%20)%20\\%20&%20=%20\frac{1}{n}%20\sum_{i=1}^{n}%20\mathbb{E}%20(%20X_k%20X_i%20)%20\\%20&%20=%20\frac{1}{n}%20\left(%20\mathbb{E}(X_k^{2})%20+%20\sum_{i%20\neq%20k}^{n}%20\mathbb{E}%20(%20X_k%20X_i%20)%20\right)%20\\%20&%20=%20\frac{1}{n}%20\left(%20\mathbb{E}(X^2)%20+%20\sum_{i%20\neq%20k}^{n}%20\mathbb{E}%20(%20X_k)%20\mathbb{E}%20(%20X_i%20)%20\right)%20\\%20&%20=%20\frac{1}{n}%20\left(%20m^2%20+%20\sigma^2%20+%20(n-1)m^2%20\right)%20\\%20&%20=%20m^2%20+%20\frac{\sigma^2}{n}.%20\end{align*}](http://latex.codecogs.com/gif.latex?%5Cbegin%7Balign*%7D%20%5Cmathbb%7BE%7D%28X_k%20%5Cbar%7BX%7D%29%20&%20=%20%5Cmathbb%7BE%7D%20%5Cleft%28%20%5Cfrac%7B1%7D%7Bn%7D%20%5Csum_%7Bi=1%7D%5E%7Bn%7D%20X_k%20X_i%20%5Cright%20%29%20%5C%5C%20&%20=%20%5Cfrac%7B1%7D%7Bn%7D%20%5Csum_%7Bi=1%7D%5E%7Bn%7D%20%5Cmathbb%7BE%7D%20%28%20X_k%20X_i%20%29%20%5C%5C%20&%20=%20%5Cfrac%7B1%7D%7Bn%7D%20%5Cleft%28%20%5Cmathbb%7BE%7D%28X_k%5E%7B2%7D%29%20+%20%5Csum_%7Bi%20%5Cneq%20k%7D%5E%7Bn%7D%20%5Cmathbb%7BE%7D%20%28%20X_k%20X_i%20%29%20%5Cright%29%20%5C%5C%20&%20=%20%5Cfrac%7B1%7D%7Bn%7D%20%5Cleft%28%20%5Cmathbb%7BE%7D%28X%5E2%29%20+%20%5Csum_%7Bi%20%5Cneq%20k%7D%5E%7Bn%7D%20%5Cmathbb%7BE%7D%20%28%20X_k%29%20%5Cmathbb%7BE%7D%20%28%20X_i%20%29%20%5Cright%29%20%5C%5C%20&%20=%20%5Cfrac%7B1%7D%7Bn%7D%20%5Cleft%28%20m%5E2%20+%20%5Csigma%5E2%20+%20%28n-1%29m%5E2%20%5Cright%29%20%5C%5C%20&%20=%20m%5E2%20+%20%5Cfrac%7B%5Csigma%5E2%7D%7Bn%7D.%20%5Cend%7Balign*%7D)
단, 여기서 세번째 줄에서 네번째 줄로 넘어갈 때 i ≠ k 이면 두 분포가 독립임을 이용하여 기대값을 각각 취하였습니다. 그러면 식 (1)로부터
![http://latex.codecogs.com/gif.latex?\begin{align*}%20\mathbb{E}(S^2)%20&%20=%20\mathbb{E}%20\left(%20\frac{1}{n}%20\sum_{i=1}^{n}%20(X_i%20-%20\bar{X})^{2}%20\right%20)%20\\%20&%20=%20\frac{1}{n}%20\sum_{i=1}^{n}%20\mathbb{E}%20\left(%20(X_i%20-%20\bar{X})^{2}%20\right%20)%20\\%20&%20=%20\frac{1}{n}%20\sum_{i=1}^{n}%20\mathbb{E}%20\left(%20X_i^{2}%20-%202X_{i}\bar{X}%20+%20\bar{X}^{2}%20\right%20)%20\\%20&%20=%20\frac{1}{n}%20\sum_{i=1}^{n}%20\left(%20\mathbb{E}(X_i^{2})%20-%202\mathbb{E}(X_{i}\bar{X})%20+%20\mathbb{E}(\bar{X}^{2})%20\right%20)%20\\%20&%20=%20\frac{1}{n}%20\sum_{i=1}^{n}%20\left(%20(m^2%20+%20\sigma^2)%20-%202\left(%20m^2%20+%20\frac{\sigma^2}{n}%20\right%20)%20+%20\left(%20m^2%20+%20\frac{\sigma^2}{n}%20\right%20)%20\right%20)%20\\%20&%20=%20\frac{n-1}{n}%20\,%20\sigma^2%20\end{align*}](http://latex.codecogs.com/gif.latex?%5Cbegin%7Balign*%7D%20%5Cmathbb%7BE%7D%28S%5E2%29%20&%20=%20%5Cmathbb%7BE%7D%20%5Cleft%28%20%5Cfrac%7B1%7D%7Bn%7D%20%5Csum_%7Bi=1%7D%5E%7Bn%7D%20%28X_i%20-%20%5Cbar%7BX%7D%29%5E%7B2%7D%20%5Cright%20%29%20%5C%5C%20&%20=%20%5Cfrac%7B1%7D%7Bn%7D%20%5Csum_%7Bi=1%7D%5E%7Bn%7D%20%5Cmathbb%7BE%7D%20%5Cleft%28%20%28X_i%20-%20%5Cbar%7BX%7D%29%5E%7B2%7D%20%5Cright%20%29%20%5C%5C%20&%20=%20%5Cfrac%7B1%7D%7Bn%7D%20%5Csum_%7Bi=1%7D%5E%7Bn%7D%20%5Cmathbb%7BE%7D%20%5Cleft%28%20X_i%5E%7B2%7D%20-%202X_%7Bi%7D%5Cbar%7BX%7D%20+%20%5Cbar%7BX%7D%5E%7B2%7D%20%5Cright%20%29%20%5C%5C%20&%20=%20%5Cfrac%7B1%7D%7Bn%7D%20%5Csum_%7Bi=1%7D%5E%7Bn%7D%20%5Cleft%28%20%5Cmathbb%7BE%7D%28X_i%5E%7B2%7D%29%20-%202%5Cmathbb%7BE%7D%28X_%7Bi%7D%5Cbar%7BX%7D%29%20+%20%5Cmathbb%7BE%7D%28%5Cbar%7BX%7D%5E%7B2%7D%29%20%5Cright%20%29%20%5C%5C%20&%20=%20%5Cfrac%7B1%7D%7Bn%7D%20%5Csum_%7Bi=1%7D%5E%7Bn%7D%20%5Cleft%28%20%28m%5E2%20+%20%5Csigma%5E2%29%20-%202%5Cleft%28%20m%5E2%20+%20%5Cfrac%7B%5Csigma%5E2%7D%7Bn%7D%20%5Cright%20%29%20+%20%5Cleft%28%20m%5E2%20+%20%5Cfrac%7B%5Csigma%5E2%7D%7Bn%7D%20%5Cright%20%29%20%5Cright%20%29%20%5C%5C%20&%20=%20%5Cfrac%7Bn-1%7D%7Bn%7D%20%5C,%20%5Csigma%5E2%20%5Cend%7Balign*%7D)
입니다. 보시다시피 이 경우 모분산보다 항상 작게 추정됨을 알 수 있습니다. 또한 위의 식으로부터, 표본평균 자체의 분산이 이러한 현상의 직접적인 원인임을 알 수 있습니다. 따라서
![http://latex.codecogs.com/gif.latex?\tilde{S}^2%20=%20\frac{1}{n-1}%20\sum_{k=1}^{n}%20(X_k%20-%20\bar{X})^2%20=%20\frac{n}{n-1}%20S^2](http://latex.codecogs.com/gif.latex?%5Ctilde%7BS%7D%5E2%20=%20%5Cfrac%7B1%7D%7Bn-1%7D%20%5Csum_%7Bk=1%7D%5E%7Bn%7D%20%28X_k%20-%20%5Cbar%7BX%7D%29%5E2%20=%20%5Cfrac%7Bn%7D%7Bn-1%7D%20S%5E2)
를 고려하여야 원하는대로
을 얻습니다.
모평균을 모르는 상태에서는 모평균을 표본평균으로 대체하여 사용해야 합니다. 그런데 이 과정에서 전체 분산의 일부가
표본평균에 흡수됩니다. 그래서 표본평균 자체를 모평균에 대한 추정값으로 사용하는 경우, 모분산을 추정할 때 그냥 n으로 나누게
되면 모분산보다 항상 작은 값이 추정되는 현상, 즉 편중(bias)이 발생하게 됩니다! 그 효과를 제거하기 위하여 n 대신 n-1
로 나누는 것입니다. 이를 베셀 보정(Bessel's correction)이라고 부릅니다.
실제로 유도해봅시다. 모분포
(여기서, 기대값을 나타내는 기호인 E를 두 줄이 들어간 굵은 글씨로 표기하여 눈에 확 들어오도록 차별화(?)를 이루었습니다. 사실 국제적인 표기법이기도 하고요.)
그리고 이 모분포의 크기가 n인 표본을 생각하고, 그 표본평균
자, 그런데 잘 생각해봅시다. 모평균을 안다는 것은 이미 전체 집단에 대한 분포를 알고 있다는 것입니다. 그러나 우리가
현실에서 앙케이트 조사를 하거나 대선 후보에 대한 정보를 수집하는 등의 활동을 할 때에 모든 국민들을 상대로 결과를 얻어낼 수는
없습니다. (돈! 시간! 비협조! 주택총조사도 그래서 매년 못 하죠 -.-) 그러므로 우리는 항상 제한된 표본 내에서, 그 표본의 표본평균 자체를
모평균에 대한 추정값으로 삼고 계산을 진행할 수밖에 없습니다. 즉, n개의 샘플
우리는
의 값을 모분산에 대한 추정값으로 사용하려고 할 것입니다. 그렇다면 위 분포의 평균이 모분산과 일치할까요? 우선 계산의 편의를 위하여 다음 식을 먼저 보입시다.
증명은 다음과 같습니다.
단, 여기서 세번째 줄에서 네번째 줄로 넘어갈 때 i ≠ k 이면 두 분포가 독립임을 이용하여 기대값을 각각 취하였습니다. 그러면 식 (1)로부터
입니다. 보시다시피 이 경우 모분산보다 항상 작게 추정됨을 알 수 있습니다. 또한 위의 식으로부터, 표본평균 자체의 분산이 이러한 현상의 직접적인 원인임을 알 수 있습니다. 따라서
를 고려하여야 원하는대로
0 XDK (+0)
유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.
대략적으로는 알고 있었는데, 이렇게 되는 것이로군요. 좋은 글 감사합니다!
ㅇ ㅏ ㅇ ㅏ 굳입니다 ~