Building Block

통계학 겉 핥기 #4 - 표본 분산

horust 2025. 2. 4. 16:26

표본마다 분산이 같지는 않을테니 표본의 분산 역시 당연히 확률 변수입니다. 표본 분산을 $s^2$이라고 합시다. 표본 분산 $s^2$을 표본 평균의 분산 $Var(\overline{x})=\frac{\sigma^2}{n}$과 헷갈리면 안 됩니다. 표본 평균의 기대값이 모평균과 같듯이 표본 분산의 기대값도 모분산과 같아야 겠습니다.

$$E(\overline{x})=E(x)=\mu
$$

$$E(s^2)=Var(x)=\sigma^2
$$

표본의 분산은 그냥 분산 공식에 따라 계산하면 되겠지라는 생각이 듭니다. 하지만 이렇게 구한 표본 분산은 확률 변수의 값들이 모평균이 아니라 표본 평균을 기준으로 흩어진 정도를 의미합니다. 그런데 표본 평균 자체가 모평균을 기준으로 흩어져 있습니다(#). 따라서 그 기대값은 모분산 보다 표본 평균의 분산만큼 작은 값이 됩니다(주석 (1))

$$E\left(\displaystyle\sum_{i=1}^n{\frac{(x_i-\overline{x})^2} {n}}\right)=\sigma^2-\frac{\sigma^2}{n}
$$

위의 식 좌변을 정리하면 이렇게 됩니다.

$$\begin{aligned}
E\left(\displaystyle\sum_{i=1}^n{\frac{(x_i-\overline{x})^2} {n}}\right)=E\left(\displaystyle\sum_{i=1}^n{\frac{n-1}{n}\cdot\frac{(x_i-\overline{x})^2} {n-1}}\right)\\
=\frac{n-1}{n}\cdot{E\left(\displaystyle\sum_{i=1}^n{\frac{(x_i-\overline{x})^2} {n-1}}\right)}
\end{aligned}$$

그리고 우변을 정리하면 이렇게 됩니다.
$$
\sigma^2-\frac{\sigma^2}{n}=\frac{n-1}{n}\cdot\sigma^2
$$

좌변과 우변은 같아야 하니까 결국 표본 분산 $s^2$은 표본 평균을 기준으로 했을 때 편차의 제곱합을 $n$이 아닌 $(n-1)$로 나누어 계산해야 된다는 것을 알 수 있습니다.
$$\begin{aligned}
\frac{n-1}{n}\cdot{E\left(\displaystyle\sum_{i=1}^n{\frac{(x_i-\overline{x})^2} {n-1}}\right)}&=\frac{n-1}{n}\cdot\sigma^2\\
{E\left(\displaystyle\sum_{i=1}^n{\frac{(x_i-\overline{x})^2} {n-1}}\right)}&=\sigma^2=E(s^2)\\
\therefore s^2=\displaystyle\sum_{i=1}^n{\frac{(x_i-\overline{x})^2}{n-1}}
\end{aligned}$$

만약 모평균을 알고 있다면 모평균 기준 편차의 제곱합을 $n$으로 나누어 계산하면 됩니다(주석 (2)).

$$s^2=\displaystyle\sum_{i=1}^n{\frac{(x_i-\mu)^2} {n}}
$$

카이 제곱 분포

그런데 표본 분산은 카이 제곱 분포(chi square distribution)와 관련이 있다고 합니다. 카이 제곱 분포는 표준 정규 확률 변수를 제곱하고 더하여 정의한 확률 변수가 따르는 분포라고 합니다. $k$개의 표준 정규 확률 변수 $z_1$, ..., $z_\nu$를 제곱하여 모두 더한 확률 변수는 자유도가(degree of freedom) $\nu$인 카이 제곱 분포를 따른다고 합니다. $\nu$는 누라고 읽습니다.

$$z_1^2+z_2^2+...+z_{\nu}^2=\displaystyle\sum_{i=1}^\nu z_i^2 \sim \chi_\nu^2
$$

카이 제곱 확률 변수의 기대값은 자유도와 같고, 분산은 자유도의 2배가 된다고 합니다.

$$E(\chi_\nu^2)=\nu
$$

$$Var(\chi_\nu^2)=2\nu
$$

한편 확률 변수 $x$가 자유도가 $\nu_x$인 카이 제곱 분포를 따르고, 확률 변수 $y$가 자유도가 $\nu_y$인 카이 제곱 분포를 따를 때, $x$와 $y$가 서로 독립이라면 확률 변수 $x+y$는 자유도가 $\nu_x+\nu_y$인 카이제곱 분포를 따릅니다. 이를 카이 제곱 분포의 가법성이라고(additivity) 합니다(#).

$$x \sim \chi_{\nu_x}^2
$$

$$y \sim \chi_{\nu_y}^2
$$

$$x+y \sim \chi_{({\nu_x}+{\nu_y})}^2
$$

확률 변수 $x$도, 그 표본 평균 $\overline{x}$도 정규 분포를 따른다고 가정합시다.

$$x \sim N(\mu,\sigma^2) \Rightarrow \frac{x-\mu}{\sigma} \sim N(0, 1)
$$

$$\overline{x} \sim N(\mu,\frac{\sigma^2}{n}) \Rightarrow \frac{\overline{x}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1)
$$

한편 표본 분산 $s^2$은 다음과 같이 쓸 수 있다고 합니다(주석 (3)).

$$\frac{(n-1)s^2}{\sigma^2}=\displaystyle\sum_{i=1}^n{\left(\frac{x_i-\mu}{\sigma}\right)^2}-\left(\frac{\overline{x}-\mu}{\frac{\sigma}{\sqrt{n}}}\right)^2
$$

잘 보면 확률 변수 $\frac{(n-1)s^2}{\sigma^2}$는 카이 제곱 분포를 따르는 두 확률 변수의 차임을 알 수 있습니다.

$$\displaystyle\sum_{i=1}^n{\left(\frac{x_i-\mu}{\sigma}\right)^2} \sim \chi_n^2
$$

$$\left(\frac{\overline{x}-\mu}{\frac{\sigma}{\sqrt{n}}}\right)^2 \sim \chi_1^2
$$

따라서 확률 변수 $\frac{(n-1)s^2}{\sigma^2}$는 - 표본 분산 $s^2$이 아니라 - 카이 제곱 분포의 가법성에 따라 자유도가 $(n-1)$인 카이 제곱 분포를 따릅니다.

$$\frac{(n-1)s^2}{\sigma^2} \sim \chi_{(n-1)}^2
$$

F-분포

어떤 카이 제곱 확률 변수를 자신의 자유도로 나누면 기대값이 1이 됩니다. 이는 자유도가 다른 변수들을 비교하기 위하여 일종의 표준화를 한 것이라 볼 수 있습니다. F-분포(F-distribution)는 표준화된 두 카이 제곱 확률 변수의 비율이 따르는 분포입니다.

$$u_1 \sim \chi_{\nu_1}^2, u_2 \sim \chi_{\nu_2}^2
$$

$$F=\frac{u_1/\nu_1}{u_2/\nu_2} \sim F_{\nu_1,\nu_2}
$$

표본의 분산이 카이 제곱 분포와 관련이 있기 때문에 F-분포는 표본 분산의 비율과 관련이 있습니다. 두 개의 정규 모집단 1, 2로부터 각각 표본 하나 씩을 뽑았을 때 두 집단의 표본 분산 비율은 F-분포를 따릅니다.

$$\frac{(n_1-1)s_1^2}{\sigma_1^2} \sim \chi_{(n_1-1)}^2, \frac{(n_2-1)s_2^2}{\sigma_2^2} \sim \chi_{(n_2-1)}^2
$$

$$F=\frac{\frac{(n_1-1)s_1^2}{\sigma_1^2}/(n_1-1)}{\frac{(n_2-1)s_2^2}{\sigma_2^2}/(n_2-1)}=\frac{s_1^2/\sigma_1^2}{s_2^2/\sigma_2^2}=\frac{s_1^2/s_2^2}{\sigma_1^2/\sigma_2^2} \sim F_{n_1-1,n_2-1}$$

주석

(1) 잘못된 표본 분산의 유도

아래와 같이 구한 분산은 표본 평균을 기준으로 흩어진 정도를 의미합니다.

$$\begin{aligned}
\displaystyle\sum_{i=1}^n\frac{(x_i-\overline{x})^2}{n}&=\sum\frac{{x_i^2}-2{x_i}\overline{x}+\overline{x}^2}{n}\\
&=\sum\frac{x_i^2}{n}-\sum\frac{2{x_i}\overline{x}}{n}+\sum{\frac{\overline{x}^2}{n}}\\
&=\sum\frac{x_i^2}{n}-\frac{2\overline{x}\cdot \sum{x_i}}{n}+\frac{n{\overline{x}^2}}{n}\\
&=\sum\frac{x_i^2}{n}-2\overline{x}\cdot \overline{x}+\overline{x}^2\quad\because \overline{x}=\frac{\sum{x_i}}{n}\\
&=\sum\frac{x_i^2}{n}-\overline{x}^2
\end{aligned}$$

하지만 표본 평균 자체가 모평균을 기준으로 흩어져 있으므로 그 기대값은 모분산보다 표본 평균의 분산만큼 작습니다.

$$\begin{aligned}
E\left(\displaystyle\sum_{i=1}^n\frac{(x_i-\overline{x})^2}{n}\right)&=E\left(\sum\frac{x_i^2}{n}-\overline{x}^2\right)\\
&=E\left(\sum\frac{x_i^2}{n}\right)-E(\overline{x}^2)\\
&=\sum\frac{E(x_i^2)}{n}-E(\overline{x}^2)\\
&=\frac{nE(x^2)}{n}-E(\overline{x}^2)\\
&\qquad\because E(x_1^2)=E(x_2^2)=...=E(x_n^2)=E(x^2)\\
&=E(x^2)-E(\overline{x}^2)\\
&=E(x^2)-E(x)^2+E(x)^2-E(\overline{x}^2)\\
&=(E(x^2)-E(x)^2)+(E(\overline{x})^2-E(\overline{x}^2))\quad\because E(x)=E(\overline{x})\\
&=\sigma^2+(E(\overline{x})^2-E(\overline{x}^2))\\
&\qquad\because Var(x)=E(x^2)-E(x)^2=\sigma^2\\
&=\sigma^2-\frac{\sigma^2}{n}\\
&\qquad\because Var(\overline{x})=E(\overline{x}^2)-E(\overline{x})^2=\frac{\sigma^2}{n}
\end{aligned}$$

(2) 모평균을 알고 있을 때 표본 분산의 유도

$$\begin{aligned}
\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{n}&=\sum\frac{{x_i^2}-2{x_i}\mu+\mu^2}{n}\\
&=\sum\frac{x_i^2}{n}-\sum\frac{2{x_i}\mu}{n}+\sum{\frac{\mu^2}{n}}\\
&=\sum\frac{x_i^2}{n}-\frac{2\mu\sum{x_i}}{n}+\frac{n{\mu^2}}{n}\\
&=\sum\frac{x_i^2}{n}-2\mu\overline{x}+\mu^2\quad\because \overline{x}=\frac{\sum{x_i}}{n}
\end{aligned}$$

$$\begin{aligned}
E\left(\displaystyle\sum_{i=1}^n\frac{(x_i-\mu)^2}{n}\right)&=E\left(\sum\frac{x_i^2}{n}-2\mu\overline{x}+\mu^2\right)\\
&=E\left(\sum\frac{x_i^2}{n}\right)-2\mu{E(\overline{x})}+\mu^2\\
&=E\left(\sum\frac{x_i^2}{n}\right)-2\mu\mu+\mu^2\quad\because E(\overline{x})=\mu\\
&=\sum\frac{E(x_i^2)}{n}-\mu^2\\
&=\frac{nE(x^2)}{n}-\mu^2\\
&\qquad\because E(x_1^2)=E(x_2^2)=...=E(x_n^2)=E(x^2)\\
&=E(x^2)-E(x)^2\quad\because E(x)=\mu\\
&=\sigma^2\\
&\qquad\because Var(x)=E(x^2)-E(x)^2=\sigma^2
\end{aligned}$$

(3) 표본 분산으로부터 카이 제곱 분포의 유도

일단 표본 분산 $s^2$을 다음과 같이 전개합니다.

$$\begin{aligned}
s^2&=\displaystyle\sum_{i=1}^n\frac{(x_i-\overline{x})^2}{n-1}\\
(n-1)s^2&=\sum(x_i-\mu+\mu-\overline{x})^2\\
&=\sum(x_i-\mu)^2-2\sum(x_i-\mu)(\overline{x}-\mu)+\sum(\overline{x}-\mu)^2
\end{aligned}$$

가운데 항은 이렇게 간단히 쓸 수 있습니다.

$$\begin{aligned}
2\sum(x_i-\mu)(\overline{x}-\mu)&=2\left(\sum{x_i(\overline{x}-\mu)}-\sum\mu(\overline{x}-\mu)\right)\\
&=2((\overline{x}-\mu)\cdot{n\overline{x}}-{n\mu(\overline{x}-\mu)})\\
&=2n(\overline{x}^2-\overline{x}\mu-\overline{x}\mu+\mu^2)\\
&=2n(\overline{x}-\mu)^2\\
&=2\sum(\overline{x}-\mu)^2\\
\end{aligned}$$

간단히 줄어든 가운데 항을 다시 원래 전개하던 식에 집어 넣고 정리하면 이렇게 됩니다.

$$\begin{aligned}
(n-1)s^2&=\sum(x_i-\mu)^2-2\sum(\overline{x}-\mu)^2+\sum(\overline{x}-\mu)^2\\
&=\sum(x_i-\mu)^2-\sum(\overline{x}-\mu)^2
\end{aligned}$$

마지막으로 양변을 $\sigma^2$으로 나누면 카이 제곱 확률 변수가 됩니다.

$$\begin{aligned}
\frac{(n-1)s^2}{\sigma^2}&=\frac{\sum(x_i-\mu)^2}{\sigma^2}-\frac{\sum(\overline{x}-\mu)^2}{\sigma^2}\\
&=\sum\left(\frac{x_i-\mu}{\sigma^2}\right)^2-\frac{n(\overline{x}-\mu)^2}{\sigma^2}\\
&=\sum\left(\frac{x_i-\mu}{\sigma^2}\right)^2-\left(\frac{\overline{x}-\mu}{\sigma/\sqrt{n}}\right)^2
\end{aligned}$$