0. 회귀 분석에 대한 소개
1) 간단한 예시
환율(X)과 주가(Y) 조사 -> 분포를 graph화 -> 이 때 이들의 상관관계를 알고 싶음
-> Y_i = f(X_i) + ε_i
2) 회귀 분석의 여러 종류
1> 가장 간단한 경우는 f(X_i)가 직선이 경우이며 이를 선형 회귀라고 합니다. (단순 선형 회귀 분석)
-> Y_i = β_0 + β_1*X_i + ε_i
2> X_i 하나의 변수가 아니라 여러 변수를 고려하는 경우는 중회귀 분석이라고 합니다.
-> Y_i = β_0 + β_1*X_i1 + β_2*X_i2 + ... + β_p*X_ip + ε_i
3) 기타
1> 단순 선형 회귀 분석에 해당하는 경우는 적은데 왜 할까?
- 변수 2개만 결정하면 할 수 있다.
- 간단하기 때문에 먼저 해보고 오차가 크면 그에 따라 곡선 등으로 transformation 하면 된다.
1. 단순 선형 회귀 분석
1) 모형
1> Y_i : i번째 관찰한 반응(종속)변수의 값
2> X_i : i번째 독립변수의 값, 주어진 상수
(확률 변수 아니다. 그냥 주어진 상수 값 (data 값))
3> β_0, β_1 : 회귀 모수 (추정할 모수)
4> ϵ_i : 오차항 (직선으로 예측해도 약간씩 차이가 있으니까)
- 기본 가정 : ϵ_i ∼ N(0, σ^2), iid
2) β_0, β_1의 추정
1> 추정을 위해 필요한 변수 준비
→ ϵ_i가 정규분포를 따르니
→ 상수가 더해진 Y_i = β_0 + β_1*X_i + ϵ_i 도 정규분포를 따른다(Y_i ~N(β_0 + β_1*X_i, σ2)
→ 우리는 이제 β_0 + β_1*X_i가 알고 싶다. (β_0, β_1은 모수이다.)
기존에 모수(평균, 분산)추정할 때 불편 추정량을 사용했다.
하지만 현재는 불편추정량을 찾기 보다는 가장 적합한 직선을 찾을 것이다.
→ 적합한 직선 = Y_i들이 멀리 떨어져 있지 않다는 것 = ϵ_i^2이 작아야 한다.
→ ϵ_i = Y_i - β_0 + β_1*X_i
→ e_i = Y_i - Y^_i (간단하게 표현하기 위해 이와 같이 식을 다시 정리)
2> 용어 정리 (실제값 vs 추정된 것)
추정 전 | 추정한 것 |
Y_i | Y^_i |
ϵ_i | e_i |
β_0 | b_0 |
β_1 | b_1 |
3> Y^_i = b_0 + b_1*X_i
- 추정된 회귀직선
- b0, b1은 β0, β1의 추정량)
4> e_i = Y_i - y^_i
- 잔차 (residual)
5> b_0, b_1
- 최소 제곱 추정량 : Q(x_i, y_i) = ∑ϵ_i^2 (잔차 제곱의 합)을 최소로 하는 β0, β1의 추정량
(불편성보다는 점들이 추정된 회귀직선에 최대한 가까울 수 있는 최소 제곱 추정량을 찾을 것이다.)
- 이변수 함수의 최솟값 찾는 작업이다. -> 미분
6> β_0, β_1에 대해 미분
3) e_i의 성질
1> ∑e_i = 0
2> ∑X_i*e_i = 0
3> ∑Y^_i*e_i = 0
4) b_0와 b_1의 분포
1> 식의 정리
- Y_i = β_0 + β_1*X_i + ϵ_i
- Y^_i = b_0 + b_1*X_i (위의 b_0 = Yˇ - b_1*Xˇ 대입)
- Y^_i = (Yˇ - b_1*Xˇ) + b_1*X_i = Yˇ - b_1*(X_i - Xˇ) <추정된 회귀직선> (Xˇ, Yˇ)를 각각 X_i와 Y_i에 대입할 수 있다.
=> 추정된 회귀 직선은 (Xˇ, Yˇ)를 지난다.
2> Y_i와 Yˇ의 분포
- Y_i ~ N(β_0 + β_1*X_i, σ^2)
- Yˇ ~ N(β_0 + β_1*X_i, σ^2 / n)
3> b_1의 분포
- b_1의 평균
- b_1의 분산
4> b_0의 분포
- b_0의 분포 조사
b_0 = (Yˇ - b_1*Xˇ) (Yˇ과 b_1의 관계?)
일단 둘 다 정규분포를 따르는데 이 둘이 독립임을 알고 싶다.
-> 공분산 계산해서 공분산이 0이어야 한다.)
-> Cov(b_1, Yˇ) = 0
-> b_0 = (Yˇ - b_1*Xˇ)도 정규분포이다.
- b_0의 평균
- b_0의 분산
b_0와 b_1은 각각 β_0와 β_1의 불편추정량이다.
5) 모분산 σ^2의 추정
6) 기울기 β_1의 추론
점추정의 경우 b_1을 사용하면 되고
구간추정을 해본다.
0> b_1 ~ N(β_1, σ^2/S_xx)
1> Z로 표준화
2> T 분포로 변환
3> β_1의 (1- α)*100% 신뢰구간
4> β_1 = 0의 가설 검정
β_1 = 0인 경우가 중요한 이유 : 기울기가 없는 상황이니 선형 회귀 분석이 의미 없는 상황이니 선형 회귀 전에 반드시 먼저 확인하기
7) 기울기 β_0의 추론
0> b_0 ~ N(β_0, σ^2*(1/n + X˘^2/S_xx))
1> Z로 표준화
2> T 분포로 변환
3> β_1의 (1- α)*100% 신뢰구간
4> β_1 = 0의 가설 검정
β_0 = 0인 경우가 중요한 이유 : 원점 지나는 homogeneous
8) E(Y)의 추론
1> E(Y)의 추정량
2> Y^의 분포 (정규분포)
- X_i라는 점이 X˘에 가까워지면 Y^의 분산이 작아지는 효과를 가진다.
→ 좋은 값이 될 수 있다.
- Y^의 평균
→ Y_i = β_0 + β_1*X_i + .ϵ_i
→ E[Y_i] = β_0 + β_1*X_i
→ E[Y] = β_0 + β_1*X
→ Y^ = b_0 + b_1*X = Y˘ - b_1*X_˘ + b_1*X = Y˘ + b_1*(X - X˘)
→ Cov(Y˘, b_1) = 0
→ Y˘과 b_1은 독립이다.
→ E[Y^] = E[Y˘ + b_1*(X - X˘)] = E[Y˘] +E(b_1)*(X - X˘) = β_0 + β_1*X˘ + β_1*(X - X˘) = β_0 + β_1*X
- Y^의 분산
Var[Y^]
= Var[Y˘ + b_1*(X - X˘)]
= Var[Y˘] + (X - X˘)^2*Var[b_1].
= σ^2/n + (X - X˘)^2*(σ^2/S_xx)
= σ^2*[1/n + (X - X˘)^2*/S_xx]
3> Y^의 분포 (t-분포)
4> E(Y)의 (1 − α)100% 신뢰구간
9) e_i의 추론
1> e_i의 분포
- e_i의 분포를 알려면 Y_i, Y˘, b_1의 분포를 알아야한다.
-> Y_i, Y˘, b_1 모두 Y_i에 대한 linear combination 구조이다.
-> Y_i가 정규분포를 따르므로 e_i도 정규분포를 따른다.
2> e_i의 기댓값
3> e_i의 분산
4> 결론
10) 분산분석
회귀 분석 이후의 분산 분석 : MSR의 효과가 있느냐? => H0 : β_1=0
SSE가 작을 수록 r^2의 값이 1에 가깝다.
r^2가 1에 가깝다 -> SSE가 작다 -> 직선을 잘 추론했다.
11) 회귀 분석 실습 (PROC REG)
1> 최소 제곱 추정량을 찾는다. -> 회귀 직선을 찾는다.
2> H0 : β_1=0, H0 : β_0=0 확인 (t-검정)
3> 분산 분석
F_0 = MSR/MSE ~ F(1, n-2)
- H0 : β_1=0 검정과 유사
- 회귀 효과가 있는지 확인하는 것
4> 결정 계수 r 확인
r^2 = SSR/SST = 1 - SSE/SST
- r이 1에 가까울수록 회귀 직선이 점들과 거리가 가깝다.
(추가로 할 것)
5> 회귀 진단 : 회귀 분석의 기본 가정을 점검 (분산 분석과 동일)
ε_i에 대한 정규성, 등분산성, 독립성
- 잔차가 정규성을 만족하는가? 정규성 검정 :'H0 : 모집단이 정규 분포이다.' -> p-value가 커야한다.
- 등분산성 (X_i, e_i 들이 random한 모양을 가진다.)
- 독립성? DW- 검정 (0<D<4에서 2에 가까워야 함)
'SAS' 카테고리의 다른 글
[SAS] 11-2강 - 단순 선형 회귀 분석 실습 (0) | 2020.06.09 |
---|---|
10-3강 - 이원배치법 (0) | 2020.06.08 |
10-2강 - 일원배치법 실습 (0) | 2020.06.08 |
10-1강 - 일원 배치법 (0) | 2020.06.08 |
9-1강 - 범주형 자료의 분석 (0) | 2020.06.08 |