무한 주사위를 굴려서 나오는 숫자를 점으로 찍어 보면 점이 고르게 찍혔습니다. 어느 곳이든 확률 밀도가 $1\over{6}$로 동일했으니까요. 이런 분포를 균등 분포(uniform distribution)라고 합니다. 이제 무한 주사위를 30번 굴려서 나온 숫자들을 모두 더한 값을 생각해 봅시다. 이 값 역시 당연히 확률 변수입니다. 그리고 이 값들을 점으로 찍어 보았습니다. 점은 3천개, 칸의 너비는 3입니다.
정규 분포의 확률 밀도 함수
대충 보아도 가운데 부근의 밀도가 높고, 양 끝으로 갈수록 희박해지는 것 같습니다. 정확히 세어 보았습니다. 아래 표는 각 칸(bin)에 찍힌 점의 개수(count)와 확률(probability) 그리고 확률 밀도(probability density)를 보여 줍니다. 예컨데, 1번 칸(bin no. 1)에는 61보다(bin min.) 크거나 같고 64보다는(bin max.) 작은 점들이 찍혀 있으며 이 칸에 찍힌 점의 개수는 8입니다. 이를 전체 점의 개수인 3천개로 나누어 구한 확률은 0.27%, 이 확률을 칸의 너비 3으로 나누어 구한 확률 밀도는 0.09%입니다.
확률의 밀도를 히스토그램으로 나타내면 다음과 같습니다. 점을 무한대로 많이 찍고, 칸의 개수도 무한대가 되면 히스토그램은 굵은 실선으로 수렴해 갑니다. 이 굵은 실선이 확률 밀도 함수의 그래프입니다. 균등 분포를 따르는 확률 변수들을 더해서 새로운 확률 변수를 만들었더니 가운데 부근의 밀도가 높고 양 끝으로 갈수록 밀도가 낮아지는 종 모양의 곡선이 되었습니다.
공정한 주사위를 30번 쯤 굴리면 아마도 모든 숫자가 얼추 고르게 나올 때가 가장 많기는 할 겁니다. 공정하지 않은 주사위를 생각해 봅시다. 3과 4가 나올 확률이 각각 $3\over{12}$, 2와 5는 각각 $2\over{12}$, 1과 6은 각각 $1\over{12}$인 주사위가 있습니다. 이 주사위를 30번 굴리면 3과 4가 15번 정도, 2와 5는 10번, 1과 6은 5번 정도 나올 때가 가장 많을 겁니다. 그 어떤 주사위를 가지고 와도 결론은 같습니다. 어느 주사위이든 여러번 굴려 보면 가장 흔하고 자주 나오는 경우가 있고 거기가 밀도가 가장 높은 가운데일 겁니다.
자연 현상이나 사회 현상을 관찰하다 보면 이런 종 모양 분포를 흔히 볼 수 있다고 합니다. 흔히 볼 수 있다고 해서 이런 분포를 정규 분포(normal distribution)
라고 합니다. 앞서 주사위 예시에서 보았듯이 균등 분포를 따르는 - 정규 분포를 따르지 않는 - 확률 변수들도 더하면 정규 분포를 따르게 됩니다. 자연 현상도 사실 여러 가지 요인이 복합적으로 작용한 결과입니다. 하나 하나의 요인이 정규 분포가 아니더라도 많은 요인들이 복합적으로 작용하여 드러난 결과는 정규 분포를 따르는 경우가 많다고 합니다. 정규 분포의 확률 밀도 함수는 다음과 같습니다.
$$f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
$$
상수를 제외하면 함수의 모양을 결정하는 것은 평균($\mu$)과 분산($\sigma^2$)입니다. $\mu$는 뮤라고 읽고 $\sigma$는 시그마라고 읽습니다. 따라서 정규 분포는 기호를 사용하여 이렇게 표현합니다.
$$x \sim N(\mu, \sigma^2)
$$
평균은 한 가운데 솟은 봉우리의 위치를, 분산은 봉우리의 높이를 결정합니다. 평균이 같으면 봉우리의 위치는 같지만 분산이 작을수록 - 가운데 부근의 밀도가 높아져서 - 봉우리는 솟아 오릅니다.
표준 정규 분포
단위가 다르면 직접 비교할 수 없습니다. 1970년 담배 한 갑의 가격은 50원이었고 50년이 지난 2020년에는 4,500원이었다고 합니다(#). 여기서 가격의 단위는 화폐입니다. 그러나 그때와 지금은 화폐의 가치가 달라서 같은 단위로 측정한 값이라고 할 수 없습니다. 한편 1970년 버스 요금은 10원, 2020년은 1,200원이었다고 합니다. 1970년 담배 한 갑은 버스 요금의 5배, 2020년은 3.75배인 셈입니다. 오히려 담배 한 갑의 가격은 내렸다고 볼 수 있습니다.
확률 변수를 비교할 때에도 단위를 맞추는 작업이 필요합니다. 이 작업을 표준화(standardization)
라고 합니다. 확률 변수 $x$가 평균에서 떨어진 거리를 - 즉, 편차 $(x-\mu)$를 - 표준 편차 $\sigma$로 나누면 평균에서 떨어진 상대적 거리가 됩니다. 이 변수를 $z = \frac{x-\mu}{\sigma}$ 라고 하면 $z$는 평균에서 떨어진 거리가 표준 편차의 몇 배인지를 나타내는 확률 변수가 됩니다. 이 확률 변수의 평균은 0이고, 표준 편차는 1이 됩니다(주석 (1)). 그리고 정규 분포를 따르는 확률 변수 $x$를 표준화한 확률 변수 $z$ 도 정규 분포를 따른다고 합니다.
$$x \sim N(\mu, \sigma^2) \Rightarrow z \sim N(0, 1)
$$
모든 정규 분포는 평균과 분산이 달라도 이 상대적 거리 $z$의 분포가 동일한 것입니다. 달리 말하자면 모든 정규 분포는 표준화를 거쳐 $z$의 분포로 바꿀 수 있다는 겁니다. 그래서 $z$의 분포를 표준 정규 분포(standard normal distribution)
라고 합니다.
주석
(1) 표준화된 확률 변수의 기대값과 분산
어떤 변수에 상수를 곱하거나 더하는 것을 선형 변형(linear transformation)이라고 합니다. 먼저 확률 변수에 상수를 곱한 경우의 평균과 기대값은 이렇게 됩니다. $a$와 $b$는 상수, $X$는 확률 변수라고 합시다.
$$E(aX)=aE(X)
$$
$$Var(aX)=a^2Var(X)
$$
한편 확률 변수에 상수를 더한 경우는 이렇게 됩니다. 상수를 더한다고 분산이 달라지지는 않습니다.
$$E(X+b)=E(X)+b
$$
$$Var(X+b)=Var(X)
$$
따라서 확률 변수를 선형으로 변형하여 새로 만든 확률 변수의 평균과 기대값은 다음과 같습니다.
$$E(aX+b)=E(aX)+b=aE(X)+b
$$
$$Var(aX+b)=Var(aX)=a^2Var(X)
$$
평균($\mu$)과 분산($\sigma^2$) 그리고 표준 편차($\sigma$)는 상수입니다. 주사위를 굴렸을 때 어떤 수가 나올 지는 알 수 없지만 평균은 $1\over6$로 변하지 않기 때문에 상수입니다. 분산과 표준 편차도 마찬가지입니다. 표준화된 확률 변수 $z$는 $x$를 선형으로 변형한 확률 변수이므로 기대값과 분산은 아래와 같이 계산됩니다.
$$
E(z)=E\left(\frac{x-\mu}{\sigma}\right)=\frac{E(x)-\mu}{\sigma}=0\quad\because E(x)=\mu
$$
$$
Var(z)=Var\left(\frac{x-\mu}{\sigma}\right)=\frac{Var(x)}{\sigma^2}=1\quad\because Var(x)=\sigma^2
$$
'Building Block' 카테고리의 다른 글
통계학 겉 핥기 #6 - 회귀 분석 (0) | 2025.02.06 |
---|---|
통계학 겉 핥기 #5 - 모평균의 추정 (0) | 2025.02.04 |
통계학 겉 핥기 #4 - 표본 분산 (0) | 2025.02.04 |
통계학 겉 핥기 #3 - 표본 평균 (0) | 2025.02.04 |
통계학 겉 핥기 #1 - 확률 변수 (0) | 2025.02.04 |