카테고리 없음

통계학 겉 핥기 #5 - 모평균의 추정

horust 2025. 2. 4. 17:34

t-분포

확률 변수 x가 표준 정규 분포를 따르고, 확률 변수 y는 자유도가 ν인 카이 제곱 분포를 따른다고 할 때, 확률 변수 xy/ν는 자유도가 νt-분포(t-distribution)를 따른다고 합니다.

xN(0,1)

yχν2

t=xy/νtν

t-분포는 표준 정규 분포와 마찬가지로 평균이 0이고 좌우 대칭입니다. t-분포를 따르는 확률 변수의 분산은 νν2(ν>2)이라고 하는데 이 값은 1보다 큽니다. 따라서 표준 정규 분포보다는 봉우리가 낮고 양 끝이 높은 분포가 됩니다. 하지만 t-분포는 자유도가 커질수록 분산이 점점 작아지면서 1에 근접하므로 표준 정규 분포에 가까워집니다.

표본의 평균 x가 정규 분포를 따르고, (n1)s2σ2이 카이 제곱 분포를 따른다면 다음 확률 변수 t는 자유도가 (n1)인 t-분포를 따릅니다.

xμσnN(0,1) 

(n1)s2σ2χn12

t=xμσn(n1)s2σ2n1=xμsntn1

t 값과 z 값을 비교해보면 모분산 대신에 표본 분산을 사용한 것을 빼고는 동일합니다.

z=xμσn

t=xμsn

모집단이 정규 분포가 아니더라도 중심 극한 정리에 따라 표본의 크기가 충분히 크면 표본의 평균 x는 정규 분포를 따릅니다. 그러나 확률 변수 (n1)s2σ2는 모집단이 정규 분포일 때에만 카이 제곱 분포를 따릅니다. 그렇다면 모집단이 정규 분포가 아닐 때에는 t-분포를 이용할 수 없는 것일까요?

다행이도 모집단이 정규 분포가 아니더라도 t-분포를 이용할 수 있다고 합니다. 다만, 모집단의 분포가 너무 치우치지 않고 표본의 크기가 충분해야 한다고 합니다(#). 다시 주사위 공장으로 돌아가 봅시다. 주사위를 굴려서 나오는 수는 균등하게 분포하므로 정규 분포를 따르지 않습니다. 다만, 어느 한쪽으로 치우치지는 않았습니다. 따라서 표본의 크기가 충분하다면 t-분포를 이용할 수 있을 것 같습니다. 진짜로 그런지 확인해 봅시다.

주사위 30개를 뽑아서 한 번씩 굴려보고 표본을 만든 다음 표본 평균과 표본 분산을 구하여 t-값을 구해 보았습니다. 이렇게 구한 3천개의 t-값을 사용하여 확률 밀도 히스토그램을 그리고 그 위에 t-분포 곡선을 겹쳐 놓았습니다. 잘 들어 맞는습니다. 표본의 크기는 30이면 충분한 듯 합니다.

t-분포의 확률 밀도 함수

모평균의 추정

모집단이 정규 분포라면 표본의 크기가 아주 크지 않아도 표본 평균이 정규 분포가 된다고 하니 당연히 t-분포를 사용할 수 있습니다. 다음 그래프는 표준 정규 분포를 따르는 난수 5개를 뽑아서 만든 표본 1천개의 히스토그램입니다. 그리고 그 위에 정규 분포를 겹쳐 그렸습니다. 표본의 크기가 5개 밖에 되지 않아도 얼추 맞아 들어 갑니다.

모집단이 정규 분포이고 표본의 크기가 작을 때 표본 평균의 확률 밀도 함수

한편 모집단이 정규 분포가 아니더라도 표본이 충분히 크고 모집단의 분포가 너무 치우지지 않았다면 t-분포를 사용할 수 있다고 했습니다.

표본 조사를 통해 표본 평균과 표분 분산을 구하였다면 t-분포를 사용하여 모평균의 범위를 추정할 수 있습니다. 아래 그래프는 자유도가 29인 - 표본의 크기는 30인 - t-분포의 확률 밀도 함수입니다. 빗금 친 영역의 확률은 유의 수준 5%입니다. 따라서 신뢰 수준은 95%가 됩니다. 자유도가 29일 때 t-값이 평균을 기준으로 ±2.05 범위에 있을 확률이 95%이라는 겁니다.

t-분포에서 95% 신뢰 구간과 5% 유의 수준

그런데 모평균을 모르기 때문에 t-값을 구할 수는 없습니다. 그래서 한 가지 가정이 필요합니다. 일단 t-값이 흰색 영역에 들어간다고 가정하는 겁니다. 표본을 만들 때 모집단에서 흔한 것이 뽑히는 것이 보통이기 때문에 타당한 가정입니다.

표본 평균, 표본 분산을 구했고 신뢰 수준을 정했다면 아래와 같이 모평균 μ의 범위를 추정할 수 있습니다. 신뢰 수준의 의미는 이런 식으로 100번 모평균을 추정한다면 확률적으로 95번은 실제 모평균이 추정 범위에 있을 것이고 그래서 추정을 95% 정도는 신뢰할 수 있다는 것입니다.

p(2.05<t<2.05)=p(2.05<xμs/n<2.05)=p(x2.05sn<μ<x+2.05sn)=95%

표본의 크기가 충분하다면 굳이 t-분포를 사용할 필요는 없습니다. 자유도 증가하면 t-분포는 표준 정규 분포에 근접하기 때문입니다. 아래 그래프를 보면 자유도가 29 정도 쯤 되면 표준 정규 분포와 거의 똑같아 보입니다. 따라서 표본의 크기가 충분히 크면 t 값을 z 값으로 보고 표준 정규 분포를 사용해도 됩니다.

표준 정규 분포에 근접하는 t-분포

z? t?

지난 포스팅에서는 z-값을, 이번에는 t-값을 사용하는 추정을 알아 보았습니다. 언제 z를 쓰고, 언제 t를 써야할까요?

모집단이 정규 분포라면 표본의 크기가 작아도 표본 평균은 정규 분포를 따고, (n1)s2σ2도 카이 제곱 분포를 따릅니다. 따라서 모집단이 정규 분포라면 표본의 크기가 크든지 작든지 z-값, t-값 모두 사용할 수 있습니다.

하지만 모집단이 정규 분포가 아니라면 표본의 크기가 충분히 커야합니다. 그래야 중심 극한 정리에 따라 표본 평균이 정규 분포가 되고, (n1)s2σ2도 카이 제곱 분포가 될 수 있기 때문입니다(물론 분포가 너무 치우쳐 있어서도 안됩니다). 따라서 모집단이 정규 분포가 아니라면 표본의 크기가 충분히 커야 z-값이나 t-값을 사용할 수 있습니다.

다만, z-값은 모분산을 알야야 구할 수 있을테니 그렇지 않다면 t-값을 사용해야 합니다. 모평균도 모르는데 모분산을 알 수 없는 경우가 대부분일 겁니다. 그래서 t-값을 많이 쓰게 될 것 같습니다.

z-값을 알면 표준 정규 분포, t-값을 알면 t-분포를 이용하여 추정을 합니다. 한편 표본의 크기가 충분히 크다면 t-분포가 정규 분포에 수렴하기 때문에 t-값을 z-값으로 간주하고 표준 정규 분포를 사용해도 됩니다.