표본은 모집단에서 일부를 뽑아서 만든 집단입니다. 모집단을 모두 조사하는 것이 - 이론적으로든 현실적으로든 - 불가능한 경우에 표본 집단을 조사하여 모집단의 통계적 특성을 추정합니다. 하루에 수만개의 주사위를 생산하는 공장이 있습니다. 어떤 날에 만들어진 주사위가 제대로 만들어졌는지 - 어떤 눈이든 나올 확률이 6분의 1로 같은지 - 어떻게 확인할 수 있을까요?
중심 극한 정리
수만개를 일일이 다 조사하기에는 시간이 너무 많이 걸립니다. 그래서 주사위 30개를 뽑아서 한 번씩 굴려 보기로 했습니다. 이렇게 구한 30개의 숫자가 표본입니다. 이때 표본의 크기가 30이라고 합니다. 그리고 30개 숫자의 평균을 표본 평균이라고 합니다. 크기가 30인 표본을 만드는 방법은 굉장히 많고 표본마다 평균들이 같을 수가 없습니다. 표본 평균도 당연히 확률 변수인 것입니다. 이 변수를 $\overline{x}$라고 합시다. $\overline{x}$는 엑스 바(bar)라고 읽습니다. 표본 평균 $\overline{x}$의 평균과 분산은 어떻게 될까요?
모집단의 평균과 분산이 각각 $\mu$, $\sigma^2$일 때 $\overline{x}$의 평균은 모평균과 같고, 분산은 모분산을 표본의 크기로 나눈 값이 됩니다(주석 (1)).
$$E(\overline{x})=\mu
$$
$$Var(\overline{x})=\frac{\sigma^2}{n}
$$
그런데 모집단의 분포가 정규 분포가 아니더라도 표본의 크기 $n$이 충분히 크면 표본의 평균 $\overline{x}$는($x$가 아닙니다) 정규 분포를 따른다고 합니다. 이를 중심 극한 정리(Central Limit Theorem)
라고 합니다. 확률 변수가 어떤 분포를 따르든지 충분히 여러번 관찰해 보면 가장 자주 보이는 양상이 있습니다. 주사위를 딱 3번만 던지면 6, 6, 6이 나오는 일도 더러 있겠지만 30번 정도 던져 보면 각 숫자가 나온 회수가 비슷할 겁니다. 모든 숫자가 얼추 고르게 나오는 경우가 가장 흔할테고 그때가 평균 근처가 될 겁니다. 중심 극한 정리에 의하면 표본 평균 $\overline{x}$는 평균이 $\mu$, 분산은 $\frac{\sigma^2}{n}$인 정규 분포를 따르게 됩니다.
$$\overline{x} \sim N\left(\mu, \frac{\sigma^2}{n}\right)
$$
한편 주사위가 제대로 만들어졌다면 굳이 주사위를 굴려 보지 않아도 모집단의 평균과 분산은 알 수 있습니다.
$$E(x)=\mu=\displaystyle\sum_{i=1}^6\frac{i}{6}=3.5
$$
$$\begin{aligned}
Var(x)=\sigma^2=\displaystyle\sum_{i=1}^6\frac{(i-\mu)^2}{6}&=2.9166...\\
&=(1.7078...)^2
\end{aligned}
$$
따라서 중심 극한 정리에 따라 표본 평균 $\overline{x}$는 평균이 $3.5$, 분산은 $0.0972...$인 정규 분포를 따릅니다.
$$E(\overline{x})=\mu=3.5
$$
$$Var(\overline{x})=\frac{\sigma^2}{n}=0.0972...
$$
$$\overline{x} \sim N(3.5, 0.0972...)
$$
진짜로 그런지 엑셀을 이용하여 확인해 보았습니다. 아래 그래프는 크기 30인 표본을 3천개 만들어서 확률 밀도 히스토그램을 그린 다음, 그 위에 정규 분포 곡선을 겹쳐 놓은 것입니다. 잘 들어 맞습니다. 30개 정도면 표본의 크기가 충분히 큰 셈인가 봅니다.
z-검정
주사위 공장에서 어느날 생산된 주사위들 중 30개를 골라서 한 번씩 굴려 보고 30개 숫자의 평균을 내었더니 $\overline{x}=4.3$ 이었다고 합니다. 이날 생산된 주사위들은 제대로 만들어졌을까요?
중심 극한 정리에 따라 $\overline{x}$은 정규 분포를 따릅니다. 따라서 평균 부근의 값들이 자주 나타나고 평균에서 어느 방향으로든 멀리 떨어진 값들의 출현 빈도는 점점 낮아집니다. 극단적인 예시이기는 하지만 만약 $\overline{x}=1$ 이었다면 거의 불가능한 일이 일어난 것입니다. 30번 던져서 모두 1이 나왔다면 기적이 아니라 주사위가 잘못 만들어졌다고 보는 것이 합리적일 겁니다.
주사위가 정상일 때에도 표본 평균이 4.3으로 나오는 일이 흔하다면 대수롭지 않은 일이니 의미가 없다고 보고 무시해도 좋을 겁니다. 하지만 드물게 일어나는 일이라면 통계적으로 의미가(statistical significance) 있다고 보아야 합니다. 여기서 "흔하다", "드물다"의 기준이 필요한데 이를 유의 수준(significance level)
이라고 합니다. 유의 수준을 5%로 정했다고 합시다. 유의 수준의 의미는 확률이 5%도 안되는 일이 일어났다면 우연히 일어나기 힘든 드문 일이기 때문에 주사위가 정상이 아닌 것으로 보겠다는 뜻입니다.
아래 그래프는 $\overline{x}$의 확률 밀도 함수입니다. 정규 분포에서는 확률 변수의 값이 평균을 기준으로 표준 편차의 $\pm1.96$배 범위 내에 있을 확률이 95% 쯤 됩니다. 정규 분포는 좌우 대칭이므로 양 끝 빗금 친 영역의 확률을 더하면 유의 수준 5%에 해당합니다.
유의 수준을 5%로 정했다면 $\overline{x}=4.3$은 빗금 친 영역에 속하기 때문에 드물게 나오는 값입니다. 다만, 평균이 $\mu=3.5$일 때 그렇다는 말입니다. 달리 말하자면 주사위가 정상이라면 흔히 나오는 값이 아니라는 것입니다. 확률적으로 말하자면 $\overline{x}=4.3$은 - 그냥 5%가 아니라 - 가장 안 나오는 5% 안에 드는 값이라는 겁니다. 반면에 만약 $\overline{x}$의 값이 흰색 영역에 들어가게 된다면 가장 잘 나오는 95% 안에 드는 값이니 주사위가 정상이라고 95% 정도는 믿어도 좋습니다. 그래서 흰색 영역을 신뢰 구간(confidence interval)
, 흰색 영역의 면적을 신뢰 수준(confidence level)
이라고 합니다.
$\overline{x}$가 빗금 친 영역에 속하는지 아닌지는 $\overline{x}$를 표준화하여 $z$ 값을 $\pm1.96$과 비교하면 쉽게 판정할 수 있습니다. 이때 $\pm1.96$을 유의 수준 5%의 임계값(critical value)이라고 합니다. $z$ 값이 임계값의 밖에 있다면 빗금 친 영역에 속하게 됩니다. 이렇게 표준 정규 확률 변수 $z$를 검정 통계량(test statistic)으로 사용하는 검정을 z-검정(z-test)
이라고 합니다.
$$z=\frac{\overline{x}-\mu}{\sigma/\sqrt{n}}=\frac{4.3-3.5}{1.7078.../\sqrt{30}}=2.5657... >1.96
$$
유의 수준을 너무 크게 잡으면 주사위가 정상이라도 비정상으로 판정될 수 있습니다. 달리 말하면 이상이 없는데 이상이 있다고 걸러질 수 있다는 것입니다. 보통 이상이 있으면 양성, 이상이 없으면 음성이라고 합니다. 따라서 이는 음성을 양성이라고 잘못 판정한 것이므로 가양성(false positive)
위험이라고 합니다. 가양성 위험은 정상을 비정상으로 판정할 위험이므로 유의 수준과 같다고 볼 수 있습니다. 반면에 유의 수준을 너무 작게 잡으면 비정상을 정상으로 판정할 위험이 커집니다. 이를 가음성(false negative)
위험이라고 합니다.
유의 확률
상기 그래프에서 맨 우측 빨간색 영역은 $\overline{x}$가 4.3보다 클 확률입니다. 4.3보다 더 드문 값들이 관찰될 확률인 셈이죠. 이 확률을 유의 확률(p-value)
이라고 합니다. 엑셀로 계산해보면 대략 0.5% 정도 됩니다. 관찰된 것보다 더 드문 값들이 나올 확률이 0.5%라는 것은 지금 관찰된 값이 드물기로는 상위 0.5%라는 말이 됩니다. 이는 유의 수준 2.5%에도(우측 유의 수준) 못 미치는 드문 일이 발생한 것이므로 통계적으로 유의하다고 보아야 합니다. 유의 확률 $p$가 유의 수준 $\alpha$ 보다 작으면 관찰 값은 빗금 친 영역에 속하게 됩니다.
주석
(1) 표본 평균의 기대값과 분산
확률 변수들을 더해서 만든 새로운 확률 변수의 평균은 각각의 평균을 더한 것과 같습니다.
$$E(x+y)=E(x)+E(y)
$$
한편 두 확률 변수가 독립(independent)이라면 분산 역시 각각의 분산을 더한 것과 같습니다.
$$Var(x+y)=Var(x)+Var(y)
$$
여기서 확률 변수 $x$와 $y$가 독립이라는 것은 서로 영향을 주지 않는다는 의미입니다. 주사위를 던져서 나오는 숫자를 $x$, 다음 번에 던져서 나오는 숫자를 $y$라고 합시다. 처음에 1이 나왔다고 다음 번에 1이 나오지 말라는 법은 없습니다. 처음에 1이 나오든 말든 다음 번에 1이 나올 확률은 $\frac{1}{6}$입니다. $x$는 $y$에게 - $y$도 $x$에게 - 전혀 영향을 주지 않습니다. 이때 $x$와 $y$가 독립이라고 합니다.
주사위를 $n$번 굴렸을 때 나오는 값들을 차례대로 $x_1$, $x_2$, ..., $x_n$이라고 합시다. 이 확률 변수들은 모두 서로 독립입니다. 또한 어떤 눈이 나올 확률은 주사위가 망가지지 않는 한 몇 번을 던져도 동일할 겁니다. 따라서 이 변수들의 기대값과 분산도 모두 같습니다.
$$E(x_1)=E(x_2)=...=E(x_n)=\mu
$$
$$Var(x_1)=Var(x_2)=...=Var(x_n)=\sigma^2
$$
따라서 표본 평균의 기대값과 분산은 이렇게 됩니다.
$$\begin{aligned}
E(\overline{x})&=E\left(\frac{x_1+x_2+...+x_n}{n}\right)\\
&=\frac{E(x_1)+E(x_2)+...+E(x_n)}{n}\\
&=\frac{n\mu}{n}=\mu
\end{aligned}$$
$$\begin{aligned}
Var(\overline{x})&=Var\left(\frac{x_1+x_2+...+x_n}{n}\right)\\
&=\frac{Var(x_1)+Var(x_2)+...+Var(x_n)}{n^2}\\
&=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n}
\end{aligned}$$
'Building Block' 카테고리의 다른 글
통계학 겉 핥기 #6 - 회귀 분석 (0) | 2025.02.06 |
---|---|
통계학 겉 핥기 #5 - 모평균의 추정 (0) | 2025.02.04 |
통계학 겉 핥기 #4 - 표본 분산 (0) | 2025.02.04 |
통계학 겉 핥기 #2 - 정규 분포 (0) | 2025.02.04 |
통계학 겉 핥기 #1 - 확률 변수 (0) | 2025.02.04 |