본문 바로가기

SAS

[통계 개념] 11-1강 - 단순 선형 회귀 분석

0. 회귀 분석에 대한 소개

1) 간단한 예시

환율(X)과 주가(Y) 조사 -> 분포를 graph화 -> 이 때 이들의 상관관계를 알고 싶음

-> Y_i = f(X_i) + ε_i

 

2) 회귀 분석의 여러 종류

1> 가장 간단한 경우는 f(X_i)가 직선이 경우이며 이를 선형 회귀라고 합니다. (단순 선형 회귀 분석)

-> Y_i = β_0 + β_1*X_i + ε_i

2> X_i 하나의 변수가 아니라 여러 변수를 고려하는 경우는 중회귀 분석이라고 합니다.

-> Y_i = β_0 + β_1*X_i1 + β_2*X_i2 + ... + β_p*X_ip + ε_i

 

3) 기타

1> 단순 선형 회귀 분석에 해당하는 경우는 적은데 왜 할까?

- 변수 2개만 결정하면 할 수 있다. 

- 간단하기 때문에 먼저 해보고 오차가 크면 그에 따라 곡선 등으로 transformation 하면 된다.

 

1. 단순 선형 회귀 분석

1) 모형

1> Y_i : i번째 관찰한 반응(종속)변수의 값

2> X_i : i번째 독립변수의 값, 주어진 상수

(확률 변수 아니다. 그냥 주어진 상수 값 (data 값))

3> β_0, β_1 : 회귀 모수 (추정할 모수)

4> ϵ_i : 오차항 (직선으로 예측해도 약간씩 차이가 있으니까)

- 기본 가정 : ϵ_i ∼ N(0, σ^2), iid

2) β_0, β_1의 추정

1> 추정을 위해 필요한 변수 준비

ϵ_i가 정규분포를 따르니

 상수가 더해진 Y_i = β_0 + β_1*X_i + ϵ_i 도 정규분포를 따른다(Y_i ~N(β_0 + β_1*X_i, σ2)

 우리는 이제 β_0 + β_1*X_i가 알고 싶다. (β_0, β_1은 모수이다.)

기존에 모수(평균, 분산)추정할 때 불편 추정량을 사용했다. 

하지만 현재는 불편추정량을 찾기 보다는 가장 적합한 직선을 찾을 것이다.

적합한 직선 = Y_i들이 멀리 떨어져 있지 않다는 것 = ϵ_i^2이 작아야 한다.

ϵ_i = Y_i - β_0 + β_1*X_i

 e_i = Y_i - Y^_i (간단하게 표현하기 위해 이와 같이 식을 다시 정리)

 

2> 용어 정리 (실제값 vs 추정된 것)

추정 전 추정한 것
Y_i Y^_i
ϵ_i e_i
β_0  b_0
β_1 b_1

 

3> Y^_i = b_0 + b_1*X_i

- 추정된 회귀직선

- b0, b1은 β0, β1의 추정량)

 

4> e_i = Y_i - y^_i

- 잔차 (residual)

 

5> b_0, b_1 

- 최소 제곱 추정량 : Q(x_i, y_i) = ∑ϵ_i^2 (잔차 제곱의 합)을 최소로 하는 β0, β1의 추정량

(불편성보다는 점들이 추정된 회귀직선에 최대한 가까울 수 있는 최소 제곱 추정량을 찾을 것이다.)

- 이변수 함수의 최솟값 찾는 작업이다. -> 미분

6> β_0, β_1에 대해 미분

 

3) e_i의 성질

1> ∑e_i = 0

2> ∑X_i*e_i = 0

3> ∑Y^_i*e_i = 0

 

 

4) b_0와 b_1의 분포

1> 식의 정리

- Y_i = β_0 + β_1*X_i + ϵ_i

- Y^_i = b_0 + b_1*X_i (위의 b_0 = Yˇ - b_1*Xˇ 대입)

- Y^_i = (Yˇ - b_1*Xˇ) + b_1*X_i = Yˇ - b_1*(X_i - Xˇ) <추정된 회귀직선> (Xˇ, Yˇ)를 각각 X_i와 Y_i에 대입할 수 있다.

=> 추정된 회귀 직선은 (Xˇ, Yˇ)를 지난다.

 

2> Y_i와 Yˇ의 분포

- Y_i ~ N(β_0 + β_1*X_i, σ^2)

- Yˇ ~ N(β_0 + β_1*X_i, σ^2 / n)

 

3> b_1의 분포

- b_1의 평균

- b_1의 분산

 

4> b_0의 분포

- b_0의 분포 조사

b_0 = (Yˇ - b_1*Xˇ)  (Yˇ과 b_1의 관계?)

일단 둘 다 정규분포를 따르는데 이 둘이 독립임을 알고 싶다.

-> 공분산 계산해서 공분산이 0이어야 한다.)

-> Cov(b_1, Yˇ) = 0

-> b_0 = (Yˇ - b_1*Xˇ)도 정규분포이다.

 

- b_0의 평균

- b_0의 분산

b_0와 b_1은 각각 β_0와 β_1의 불편추정량이다.

 

5) 모분산 σ^2의 추정

 

6) 기울기 β_1의 추론

점추정의 경우 b_1을 사용하면 되고

구간추정을 해본다.

0> b_1 ~ N(β_1, σ^2/S_xx)

1> Z로 표준화

2> T 분포로 변환

3> β_1의 (1- α)*100% 신뢰구간

4> β_1 = 0의 가설 검정

β_1 = 0인 경우가 중요한 이유 : 기울기가 없는 상황이니 선형 회귀 분석이 의미 없는 상황이니 선형 회귀 전에 반드시 먼저 확인하기

7) 기울기 β_0의 추론

0> b_0 ~ N(β_0, σ^2*(1/n + X˘^2/S_xx))

1> Z로 표준화

2> T 분포로 변환

3> β_1의 (1- α)*100% 신뢰구간

4> β_1 = 0의 가설 검정

β_0 = 0인 경우가 중요한 이유 : 원점 지나는 homogeneous

 

 

8) E(Y)의 추론

1> E(Y)의 추정량

 

2> Y^의 분포 (정규분포)

- X_i라는 점이 X˘에 가까워지면 Y^의 분산이 작아지는 효과를 가진다.

좋은 값이 될 수 있다.

- Y^의 평균

 Y_i = β_0 + β_1*X_i + .ϵ_i

 E[Y_i] = β_0 + β_1*X_i

 E[Y] = β_0 + β_1*X

 Y^ = b_0 + b_1*X = Y˘ - b_1*X_˘ + b_1*X = Y˘ + b_1*(X - X˘)

Cov(Y˘, b_1) = 0

 Y˘과 b_1은 독립이다.

E[Y^] = E[Y˘ + b_1*(X - X˘)] = E[Y˘] +E(b_1)*(X - X˘) = β_0 + β_1*X˘ + β_1*(X - X˘) = β_0 + β_1*X

 

- Y^의 분산

Var[Y^]

= Var[Y˘ + b_1*(X - X˘)]

= Var[Y˘] + (X - X˘)^2*Var[b_1]. 

= σ^2/n + (X - X˘)^2*(σ^2/S_xx)

 = σ^2*[1/n + (X - X˘)^2*/S_xx]

3> Y^의 분포 (t-분포)

4> E(Y)의 (1 − α)100% 신뢰구간

9) e_i의 추론

1> e_i의 분포

- e_i의 분포를 알려면 Y_i, Y˘, b_1의 분포를 알아야한다.

-> Y_i, Y˘, b_1 모두 Y_i에 대한 linear combination 구조이다.

-> Y_i가 정규분포를 따르므로 e_i도 정규분포를 따른다.

 

2> e_i의 기댓값

 

3> e_i의 분산

4> 결론

10) 분산분석

회귀 분석 이후의 분산 분석 : MSR의 효과가 있느냐? => H0 : β_1=0

 

SSE가 작을 수록 r^2의 값이 1에 가깝다.

r^2가 1에 가깝다 -> SSE가 작다 -> 직선을 잘 추론했다.

 

11) 회귀 분석 실습 (PROC REG)

1> 최소 제곱 추정량을 찾는다. -> 회귀 직선을 찾는다.

2> H0 : β_1=0, H0 : β_0=0 확인 (t-검정)

3> 분산 분석

F_0 = MSR/MSE ~ F(1, n-2)

- H0 : β_1=0 검정과 유사 

- 회귀 효과가 있는지 확인하는 것

4> 결정 계수 r 확인

r^2 = SSR/SST = 1 - SSE/SST

- r이 1에 가까울수록 회귀 직선이 점들과 거리가 가깝다.

 

(추가로 할 것)

5> 회귀 진단 : 회귀 분석의 기본 가정을 점검 (분산 분석과 동일)

ε_i에 대한 정규성, 등분산성, 독립성

- 잔차가 정규성을 만족하는가? 정규성 검정 :'H0 : 모집단이 정규 분포이다.' -> p-value가 커야한다.

- 등분산성 (X_i, e_i 들이 random한 모양을 가진다.)

- 독립성? DW- 검정 (0<D<4에서 2에 가까워야 함)

 

'SAS' 카테고리의 다른 글

[SAS] 11-2강 - 단순 선형 회귀 분석 실습  (0) 2020.06.09
10-3강 - 이원배치법  (0) 2020.06.08
10-2강 - 일원배치법 실습  (0) 2020.06.08
10-1강 - 일원 배치법  (0) 2020.06.08
9-1강 - 범주형 자료의 분석  (0) 2020.06.08