회귀 계수 은 관찰된 표본에서 나온 값입니다. 회귀 계수를 구해 보면 당연히 표본마다 다를테지만 기대값이 있을 것이고 그 값을 중심으로 흩어져 있을 것입니다. 회귀 계수의 기대값과 분산을 구해 보면 다음과 같습니다(주석 (1)).
그리고 회귀 계수 는 정규 분포를 따른다고 합니다. 회귀 계수는 가 변할 때 가 변하는 정도인데 는 상수 취급이고 가 정규 분포를 따르니까 그런 것 같기는 합니다.
회귀 계수와 t-검정
의 값과 이 값이 정규 분포를 따른다는 것을 알았습니다. 하지만 모집단 오차의 분산 을 알 수가 없으니 z-검정을 할 수는 없고, 표본에서 대용값을 구해서 t-검정을 하기로 합시다.
모집단의 오차와(error) 대응하는 것은 표본에서는 잔차가(residual) 됩니다. 따라서 잔차의 분산(이라고 합시다)이 오차의 분산을 대신하여 사용할 값이 됩니다.
오차와 잔차
그리고 잔차의 분산의 기대값은 모집단 오차의 분산이 되어야 할 겁니다. 표본 분산의 기대값이 모분산이 되는 것과 같습니다.
그런데 이렇게 되려면 잔차 제곱의 합 SSE를 도 아니고 도 아닌 로 나누어야 된다고 합니다(주석 (2)).
따라서 잔차의 분산 은 SSE를 로 나눈 값이 됩니다.
z-값에서 오차의 분산(모분산) 을 잔차의 분산(표본 분산) 으로 대치한 값은 자유도가 인 t-분포를 따르게 됩니다(주석 (3)).
이제 표본에서 구한 회귀 계수가 과연 의미가 있는지 검정해 보겠습니다. 다음과 같이 표본 조사를 실시하였습니다. 표본의 크기는 10입니다.
표본의 회귀 분석 데이터표본 데이터와 회귀선
그런데 모집단의 회귀 계수 을 모르기 때문에 값을 구하려면 가정이 필요합니다. 일단 이라고 가정합니다. 이 가정은 두 확률 변수가 아무런 관계가 없다는 가정입니다. 그리고 값을 구해 보겠습니다.
아래 그래프는 - 표본 크기가 10 - 자유도가 8인 t-분포의 확률 밀도 함수입니다. 양쪽 빗금 친 영역은 유의 수준 5%를 나타냅니다. 우리가 방금 구한 값은 빗금친 영역에 들어 갑니다. 두 확률 변수가 아무런 관계가 없다고 보기에는 매우 드문 일이 발생한 것입니다. 따라서 회귀 계수는 통계적으로 유의하다고 봅니다. 즉, 두 확률 변수가 선형의 관계에 있다고 볼 수 있는 것입니다.
t-검정
회귀 계수와 F-검정
t-검정과 마찬가지로 F-검정에서도 이라고 가정합니다. 이렇게 가정하면 은 자유도가 1인 카이 제곱 확률 변수가 됩니다(주석 (4)). 한편 는 자유도가 인 카이 제곱 확률 변수이므로(주석 (2)) 다음과 같은 F 확률 변수를 정의할 수 있습니다.
이라면 SSR도 굉장히 작을 것으로 예상됩니다. 그런데 아주 큰 값이 나왔다면 라고 보는 것이 합리적입니다. F-검정을 해보겠습니다. 표본의 통계량은 저 위에서 t-검정했을 때 사용한 것과 같습니다.
아래 그래프는 자유도가 1, 8인 F-분포의 확률 밀도 함수입니다. 빗금 친 영역은 유의 수준 5%를 나타냅니다. 우리가 방금 구한 값은 빗금친 영역에 들어 갑니다. 두 확률 변수가 아무런 관계가 없다고 보기에는 매우 드문 일이 발생한 것입니다. 따라서 회귀 계수는 통계적으로 유의하다고 봅니다. 즉, 두 확률 변수가 선형의 관계에 있다고 볼 수 있는 것입니다.