이표본에 대한 접근은 총 3가지였습니다.
1> 각각의 모분산을 아는 경우 (σ1, σ2 안다.)
2> 각각의 모분산을 모르는 경우 - 모분산이 같은 경우 (σ1, σ2 모름 + σ1=σ2)
3> 각각의 모분산을 모르는 경우 - 모분산이 다른 경우 (σ1, σ2 모름 + σ1≠σ2)
1>번 case는 거의 다루지 않는다.
그리고 2>와 3>은 구분할 필요가 있다.
cf> 하지만 사실 모분산이 같은지를 먼저 알 수 없다.
그러므로 모분산이 같은지에 대해 먼저 검정해야 한다.
1> 7-5강 참조 : https://intelligentcm.tistory.com/142
2> 이어지는 6. 두 모분산 비의 검정 참조
5. 정규 분포에 관한 여러 검정 - 모집단이 2개인 경우
모분산 비에 대한 검정을 먼저 하고서 이 검정(모평균 차에 대한 검정)을 진행할 수 있다.
1) 각각의 모분산을 모름 + 모분산이 같은 경우
1> 조건
- 모두 정규 분포에서 추출된 확률 표본(X_1~X_m, Y_1~Y_n)이다.
- X_1, ..., X_m, Y_1, ..., Y_n은 서로 독립
2> T분포 만들기
3> 검정
SAS 결과 [1] t-value = t0 [2] 'pr > |p|' = p0를 구한 이후
- 우측 검정
t0 > 0 → 유의 확률 = p0/2
t0 < 0 → 유의 확률 = 1 - p0/2
- 좌측 검정
t0 > 0 → 유의 확률 = 1 - p0/2
t0 < 0 → 유의 확률 = p0/2
2) 각각의 모분산을 모름 + 모분산이 다른 경우
1> 조건
- 모두 정규 분포에서 추출된 확률 표본(X_1~X_m, Y_1~Y_n)이다.
- X_1, ..., X_m, Y_1, ..., Y_n은 서로 독립
cf> 표본합동분산
1) 모분산에 대한 불편추정량이다.
2) s_2^2은 σ_2^2의 불편 추정량, s_1^2은 σ_1^2의 불편 추정량
3) 하지만 이들이 같은 상황이므로 이들의 가중 평균으로 분산을 계산한다.
2> T분포 만들기
3> 검정
- 우측 검정
t0 > 0 → 유의 확률 = p0/2
t0 < 0 → 유의 확률 = 1 - p0/2
- 좌측 검정
t0 > 0 → 유의 확률 = 1 - p0/2
t0 < 0 → 유의 확률 = p0/2
cf> 하지만 사실 모분산이 같은지를 먼저 알 수 없다.
그러므로 모분산이 같은지에 대해 먼저 검정해야 한다.
1> 7-5강 참조 : https://intelligentcm.tistory.com/142
2> 이어지는 6. 두 모분산 비의 검정 참조
6. 두 모분산 비의 검정
1) 두 모분산 비의 검정
1> 조건
- 모두 정규 분포에서 추출된 확률 표본(X_1~X_m, Y_1~Y_n)이다.
- X_1, ..., X_m, Y_1, ..., Y_n은 서로 독립
2> 가설
귀무가설 H0 : σ1/σ2 = 1
대립가설 H0 : σ1/σ2 ≠ 1
3> 검정 통계량
F0 = S1^2/S2^2
4> 검정
- SAS에서는 우측 검정의 유의 확률을 계산한다.
5> 우측 검정의 유의 확률을 이용하여 양측 검정의 유의 확률 계산
먼저 검정통계량(F0)이 어느 쪽으로 치우친지 알아야 한다.
=> 우측 검정의 유의 확률로 판단 (유의 확률이 0.5보다 작은가? => 오른쪽에 치우쳐져 있다.)
[우측 검정의 유의 확률 p0 < 0.5인 경우] = [F0가 오른쪽에 치우친 경우]
- 양측 검정의 유의 확률 = 2*p0
[우측 검정의 유의 확률 p0 < 0.5인 경우] = [F0가 왼쪽에 치우친 경우]
- 양측 검정의 유의 확률 = 2*(1-p0)
6> 그래서 양측 검정이
- 기각된 경우 => σ1≠σ2 => '2) 각각의 모분산을 모름 + 모분산이 다른 경우' 검정
- 기각할 수 없는 경우 => σ1==σ2 => '1) 각각의 모분산을 모름 + 모분산이 같은 경우' 검정
7. 두 모집단에 대한 검정 실습
1) 독립 표본에 의한 두 모평균의 비교 - 독립 표본 t-검정
1> PROC TTEST
- 모분산 비에 대한 검정과정도 포함되어 있어서 따로 할 필요가 없습니다.
- PROC TTEST data=SAS-dataset;
- class variable_group : 모집단을 분류하는 variable 선정
- var variable_score : 각 모집단의 값을 의미하는 variable 선정
2> 예시
DATA edu;
INPUT group score @@;
CARDS;
1 65 1 70 1 76 1 63 1 72 1 71 1 68 1 68
2 75 2 80 2 72 2 77 2 69 2 81 2 71 2 78
;
RUN;
proc ttest data= edu ;
class group;
var score;
run;
- Equality of Variances : 모분산 비에 대한 검정
우측 검정 유의 확률 = 0.8624 = p0
→ 0.5보다 크므로 검정통계량(F0)가 왼쪽으로 치우침
→ 양측 검정 유의 확률 = 2*(1-p0) = 2*0.1376 = 0.2752
→ 어떠한 유의 수준으로도 기각할 수 없다.
→ 모분산이 같다는 검정 결과를 얻을 수 있다.
→ '5.1) 각각의 모분산을 모름 + 모분산이 같은 경우'을 진행한다.
→ 3번째 box에서 'Variances=Equal'로 진행
- 3번째 box에서 t-value와 Pr >|t|를 이용해서 검정한다.
양측 검정 유의 확률 = 0.0105 = p0
→ t-Value(t0) < 0
→ t-Value(t0)가 왼쪽으로 치우친 상황
→
우측 검정 유의 확률 = 1-p0/2 = 0.99...
좌측 검정 유의 확률 = p0/2 = 0.005...
- 정규성 가정이 있어야 TTEST를 할 수 있다. 그래서 이와 같은 그림을 자동으로 그려주고 정규성을 확인한다.
'SAS' 카테고리의 다른 글
[통계 개념&SAS] 8-5강 - 모비율 차에 대한 검정 (0) | 2020.06.08 |
---|---|
[통계 개념&SAS] 8-4강 - 가설 검정 (독립이 아닌 모집단이 2개인 경우) (0) | 2020.05.12 |
[통계 개념&SAS] 8-2강 - 유의 확률 (p-value) (0) | 2020.05.07 |
[통계 개념&SAS] 8-1강 - 가설 검정 (단일 표본) (0) | 2020.05.07 |
[통계 개념] 7-5강 - 모집단이 2개인 경우 통계량 차에 대한 구간 추정 (신뢰 구간) (0) | 2020.05.07 |