카테고리 없음

통계학 겉 핥기 #7 - 회귀 모형의 검정

horust 2025. 2. 6. 19:02

회귀 계수 β^1은 관찰된 표본에서 나온 값입니다. 회귀 계수를 구해 보면 당연히 표본마다 다를테지만 기대값이 있을 것이고 그 값을 중심으로 흩어져 있을 것입니다. 회귀 계수의 기대값과 분산을 구해 보면 다음과 같습니다(주석 (1)).

E(β^1)=β1Var(β^1)=σ2(xix)2

그리고 회귀 계수 β^1는 정규 분포를 따른다고 합니다. 회귀 계수는 x가 변할 때 y가 변하는 정도인데 x는 상수 취급이고 y가 정규 분포를 따르니까 그런 것 같기는 합니다.

β^1N(β1,σ2(xix)2)

회귀 계수와 t-검정

β^1의 값과 이 값이 정규 분포를 따른다는 것을 알았습니다. 하지만 모집단 오차의 분산 σ2을 알 수가 없으니 z-검정을 할 수는 없고, 표본에서 대용값을 구해서 t-검정을 하기로 합시다.

z=(β^1β1)σ/(xix)2N(0,1)

모집단의 오차와(error) 대응하는 것은 표본에서는 잔차가(residual) 됩니다. 따라서 잔차의 분산(s2이라고 합시다)이 오차의 분산을 대신하여 사용할 값이 됩니다.

오차와 잔차

그리고 잔차의 분산의 기대값은 모집단 오차의 분산이 되어야 할 겁니다. 표본 분산의 기대값이 모분산이 되는 것과 같습니다.

E(s2)=σ2

그런데 이렇게 되려면 잔차 제곱의 합 SSE를 n도 아니고 (n1)도 아닌 (n2)로 나누어야 된다고 합니다(주석 (2)).

E(SSEn2)=σ2

따라서 잔차의 분산 s2은 SSE를 (n2)로 나눈 값이 됩니다.

s2=SSEn2

z-값에서 오차의 분산(모분산) σ2을 잔차의 분산(표본 분산) s2으로 대치한 값은 자유도가 (n2)인 t-분포를 따르게 됩니다(주석 (3)).

t=(β^1β1)s/(xix)2t(n2)

이제 표본에서 구한 회귀 계수가 과연 의미가 있는지 검정해 보겠습니다. 다음과 같이 표본 조사를 실시하였습니다. 표본의 크기는 10입니다.

표본의 회귀 분석 데이터
표본 데이터와 회귀선

그런데 모집단의 회귀 계수 β1을 모르기 때문에 t 값을 구하려면 가정이 필요합니다. 일단 β1=0이라고 가정합니다. 이 가정은 두 확률 변수가 아무런 관계가 없다는 가정입니다. 그리고 t 값을 구해 보겠습니다.

t=5.78750573.3648/(102)/15.2810=2.6724

아래 그래프는 - 표본 크기가 10 - 자유도가 8인 t-분포의 확률 밀도 함수입니다. 양쪽 빗금 친 영역은 유의 수준 5%를 나타냅니다. 우리가 방금 구한 t 값은 빗금친 영역에 들어 갑니다. 두 확률 변수가 아무런 관계가 없다고 보기에는 매우 드문 일이 발생한 것입니다. 따라서 회귀 계수는 통계적으로 유의하다고 봅니다. 즉, 두 확률 변수가 선형의 관계에 있다고 볼 수 있는 것입니다.

t-검정

회귀 계수와 F-검정

t-검정과 마찬가지로 F-검정에서도 β1=0이라고 가정합니다. 이렇게 가정하면 SSRσ2은 자유도가 1인 카이 제곱 확률 변수가 됩니다(주석 (4)). 한편 SSEσ2는 자유도가 (n2)인 카이 제곱 확률 변수이므로(주석 (2)) 다음과 같은 F 확률 변수를 정의할 수 있습니다.

F=SSRσ2/1SSEσ2/(n2)=SSR/1SSE/(n2)F1,n2

β1=0이라면 SSR도 굉장히 작을 것으로 예상됩니다. 그런데 아주 큰 F 값이 나왔다면 β10라고 보는 것이 합리적입니다. F-검정을 해보겠습니다. 표본의 통계량은 저 위에서 t-검정했을 때 사용한 것과 같습니다.

F=511.8326/1573.3648/(102)=7.1415

아래 그래프는 자유도가 1, 8인 F-분포의 확률 밀도 함수입니다. 빗금 친 영역은 유의 수준 5%를 나타냅니다. 우리가 방금 구한 F 값은 빗금친 영역에 들어 갑니다. 두 확률 변수가 아무런 관계가 없다고 보기에는 매우 드문 일이 발생한 것입니다. 따라서 회귀 계수는 통계적으로 유의하다고 봅니다. 즉, 두 확률 변수가 선형의 관계에 있다고 볼 수 있는 것입니다.

F-검정

주석

(1) 회귀 계수의 기대값과 분산(#)

회귀 모형에서 확률 변수는 오차 ε입니다. 오차가 확률 변수라서 yi도 확률 변수이고, 그 표본 평균 y도 확률 변수가 됩니다. 따라서 (yiy) 값은 기대값 (E(yi)E(y))(εiε) 만큼의 차이를 갖는다고 할 수 있습니다.

β^1=(xix)(yiy)(xix)2=(xix)(E(yi)E(y)+εiε)(xix)2=(xix)(E(yi)E(y))(xix)2+(xix)(εiε)(xix)2

일단 E(yi)를 구해 보면 이렇고

E(yi)=E(β0+β1xi+εi)=β0+β1E(xi)+E(εi)=β0+β1xiE(εi)=0,;E(xi)=xi

y의 표본 평균은 y는 아래와 같으므로

y=yin=β0+β1xi+εin=β0n+β1xin+εin

E(y)는 이렇게 됩니다.

E(y)=E(β0n+β1xin+εin)=β0+β1xE(εi)=0,E(xi)=xi

그리고 두 기대값의 차이는 이렇습니다.

E(yi)E(y)=β0+β1xi(β0+β1x)=β1(xix)

따라서 회귀 계수는 이렇게 쓸 수 있습니다.

β^1=(xix)(E(yi)E(y))(xix)2+(xix)(εiε)(xix)2=(xix)β1(xix)(xix)2+(xix)(εiε)(xix)2=β1+(xix)(εiε)(xix)2β^1β1=(xix)(εiε)(xix)2

결국 회귀 계수의 기대값과 분산을 결정하는 것은 β^1β1이 됩니다. 이 녀석의 기대값과 분산은 이렇게 계산됩니다. 회귀 분석에서 x는 상수로 취급됩니다.

E((xix)(εiε)(xix)2)=(xix)E(εiε)(xix)2=0

Var((xix)(εiε)(xix)2)=(xix)2Var(εiε)((xix)2)2=σ2(xix)2((xix)2)2=σ2(xix)2

E(εiε)=0Var(εiε)=Var(εi)Var(ε1)=Var(ε2)=...=σ2

이제 회귀 계수의 기대값과 분산을 구할 수 있습니다.

E(β^1)=E(β1+(xix)(εiε)(xix)2)=β1+0=β1

Var(β^1)=Var(β1+(xix)(εiε)(xix)2)=σ2(xix)2

(2) 잔차의 분산(#)

단순 선형 회귀 모형과 회귀선은 각각 이렇습니다.

yi=β0+β1xi+εi

y^i=β^0+β^1xi

그래서 잔차는 일단 이렇게 쓸 수 있습니다.

yiy^i=(β0+β1xi+εi)(β^0+β^1xi)=(β0β^0)(β^1β1)xi+εi

한편 평균점 (x,y)에 대해서는 다음이 성립합니다.

y=β0+β1x+ε

y=β^0+β^1x

β0β^0=(β^1β1)xε

그래서 잔차를 마저 정리해 보자면 이렇습니다.

E=yiy^i=(β0β^0)(β^1β1)xi+εi=((β^1β1)xε)(β^1β1)xi+εi=(εiε)(β^1β1)(xix)

잔차 E를 대입하여 SSE를 전개하겠습니다.

SSE=(yiy^i)2=((εiε)(β^1β1)(xix))2=(εiε)22(β^1β1)(xix)(εiε)+(β^1β1)2(xix)2=(εiε)22(β^1β1)(xix)(εiε)+(β^1β1)2(xix)2

그런데 이 녀석이 다시 등장합니다.

β^1β1=(xix)(εiε)(xix)2

이 녀석을 집어 넣고 SSE를 마저 정리하면 이렇게 됩니다.

SSE=(εiε)22(β^1β1)(β^1β1)(xix)2+(β^1β1)2(xix)2=εi22εεi+ε2(β^1β1)2(xix)2=εi22nε2+nε2(β^1β1)2(xix)2=εi2nε2(β^1β1)2(xix)2

양변을 σ2으로 나누면 3개의 카이 제곱 확률 변수가 나타납니다.

SSEσ2=εi2σ2nε2σ2(β^1β1)2(xix)2σ2=(εi0σ)2(ε0σ/n)2((β^1β1)σ/(xix)2)2E(ε)=E(ε)=0

그리고 카이 제곱 분포의 가법성에 따라 SSEσ2도 카이 제곱 확률 변수가 됩니다.

(εi0σ)2χn2εN(0,σ2)(ε0σ/n)2χ12εN(0,σ2n)((β^1β1)σ/(xix)2)2χ12β^1N(β1,σ2(xix)2)SSEσ2χn22

마지막으로 양변의 기대값을 구하면 잔차의 분산을 얻을 수 있습니다.

E(SSEσ2)=E((εi0σ)2)E(ε0σ/n)2)E(((β^1β1)σ/(xix)2)2)=n11E(χk2)=k=n2E(SSEn2)=σ2

(3) 회귀 계수의 t 값

z=(β^1β1)σ/(xix)2N(0,1)q=SSEσ2χn22t=zq/n2=((β^1β1)σ/(xix)2)/SSEσ2/(n2)=(β^1β1)s/(xix)2t(n2)

(4) SSR의 평균

β1=0이라면 SSRσ2는 표준 정규 확률 변수의 제곱이므로 자유도가 1인 카이 제곱 분포를 따르게 됩니다.
SSRσ2=(y^iy)2σ2=(β^i(xix))2σ2y^i=β^0+β^1xiy=β^0+β^1x=(β^iσ/(xix)2)2=(β^iβiσ/(xix)2)2χ12

카이 제곱 확률 변수의 평균은 자유도와 같습니다. 따라서 SSRσ2의 평균은 1입니다.

E(SSRσ2)=1E(χk2)=k

따라서 SSR의 평균은 모집단 오차의 분산과 같습니다.

E(SSR)=σ2