본문 바로가기

SAS

10-1강 - 일원 배치법

모비율 뿐 아니라 모평균 차도 3개 집단이 넘어가면 어떻게 할까? 분산분석으로 해결

 

1. 일원 배치법

0) intro

실험에서 가장 중요한 요인이 무엇인지 알고 있는데 실제로 그러한지 알고 싶다.

1> 파악하고자 하는 것

- 이 요인이 가장 중요한 요소인가?

- 그렇다면 이 요인이 어떤 수치일 때 가장 효과적인가? (최적화)

 

1) 기본

0> 정의 : 어떤 실험의 결과가 한 요인에 의해서 결정된다고 가정하에 다른 가정은 동일하게 유지하고 그 요인의 수준만 달리 하여 실험하는 방법을 일원 배치법이라 한다.

 

1> 자료구조 

- 요인 수준 : 해당 요인을 다 다르게 설정한다.

- 실험의 반복 : (한 번만 실행하면 정확도가 떨어지니) 여러번 실행한 결과를 기록

x_ij : i번째 요인 수준으로 j번째 실험한 결과

 

2> 검정하고자 하는 것

(H1 : 하나라도 다른 게 있다.)

- 형태가 모집단이 2개인 경우에 대한 검정과 비슷한데 3개 이상이 되면 단순히 PROC TTEST로 검정할 수 없었기 때문에 지금처럼 분산분석을 시행한다.

(정의 : 어떤 실험의 결과가 한 요인에 의해서 결정된다고 가정하에 다른 가정은 동일하게 유지하고 그 요인의 수준만 달리 하여 실험하는 방법을 일원 배치법이라 한다. => 그래서 수준을 여러가지로 다양하게 하려면 분산분석을 이용해야 한다.)

- 어떤 원리로 진행하는가? (이전에 한 검정에서 hint를 얻는다.)

-> 짝표본 검정이 아니라 독립 이표본에 가깝다.

-> [1] 정규성 가정을 했으며

-> [2] 분산이 같은 경우와 다른 경우로 나누었다.

 

3> 기본 가정

- 정규성

- 등분산성

- 독립성

4> 오차

각 요인 수준에서 하나의 자료와 그 요인 수준에서 자료들의 평균의 차

5> 주효과 (수준 효과)

α_i = 0인 것은 H0에서 모든 평균들이 같다는 것과 같다.

6> 모형

- x_ij - μ = (x_ij - μ_i) + (μ_i - μ)

α_i는 수준 별로 차이가 나서 수준 효과라고 부르기도 한다.

ε_ij는 실험할 때마다 차이가 난다. 실험 오차

- 이처럼 오차를 2종류로 분류했다.

각 효과 중 어떤 것이 큰 지도 살펴본다.

- 이제 μ_i를 x˘로 두고 조절해본다.

 

cf> 분산 분석으로 부르는 이유

분산이 평균에서 얼만큼 떨어져 있는지를 각각의 효과에 대한 편차로 구분해서 분석하려고 함

 

2) 총 변동의 분할

 

1> 총 편차

위에서 얘기했듯이 2개로 분할할 수 있다. 

하지만 단순히 합하면 0이 나오기 때문에 유용하지 않고 이를 제곱해서 사용한다.

 

2> 제곱합

x_ij가 N(μ_i, σ^2)를 따름 , 서로 독립, 등분산

ε_ij는 N (0, σ^2)를 따름, 서로 독립, 등분산

- SST (총 제곱합 : Total Sum of square)

=> SST = SSE + SSA

 

- SSE

 

- SSA

3> 자유도의 분할

(편차의 합은 0이 되어야 한다. 그래서 n개의 편차가 있으면 n-1개는 자유롭게 정하고 나머지 하나는 자동으로 결정된다.)

 

Φ_T = nr-1

Φ_E = n(r-1)

Φ_A = n-1

Φ_T = Φ_A + Φ_E

 

3) 제곱합과 평균제곱

1> 제곱합에 자유도를 나눈값을 평균제곱(Mean Square)라고 한다.

2> 요인 수준별 평균의 분포

(x_ij ~ N(μ_i, σ^2))

3> MSE와 MSA의 기댓값

Φ_A와 r 모두 0보다 크다

-> E[MSA] > E[MSE]

 

4) 평균 제곱의 분포

위의 분포를 기반으로 표준화한다. 

 

 

5) 평균 제곱의 분포 - 검정 관점

H0가 사실이라는 전제 하에 분포에 어떤 변화가 생기는지 

1> 

2> 

위의 식을 V라 할 때

 

3> 

F = (V/(n-1)) / (U/n(r-1)) ~ F(n-1, n(r-1))

F = MSA/MSE

이전에 MSA의 값이 MSE보다 컸었다. Φ_A 내부의 α_i가 클수록 차이가 커진다.

=> SSA가 SSE보다 크다.

 

6) 수준 효과의 존재성에 대한 검정

1> 가설

이 H0는 α_i의 값들이 모두 0이라는 것과 같은 말이다.

α_i 크다 -> H0와 다르다. -> MSA의 값이 MSE보다 크다. 

2> 검정 통계량

3> F0 > Fα(n − 1, n(r − 1))

 

7) 분산분석 표

 

8) 각 수준에서의 모평균 μ_i 추정

각 수준에서의 모평균 μ_i의 신뢰 구간의 폭은 수준에 관계없이 일정하다.

 

9) 각 수준에서의 μ_i - μ_j의 추정

이와 같은 모평균에 대한 추정은 처음 분산분석이 기각되고 나서 사용한다. (분산 분석이 기각되지 못하면 할 필요 없다.)

 

10) 다중 비교

분산 분석이 기각되었을 때, 구체적으로 어떤 수준간의 차이가 나는지 알아보기 위한 방법

1> LSD

관심있는 두 수준의 차에 관한 검정으로 어떤 두 수준을 선택해도 기각될 최소의 차(최소유의차)는

이다.

 

2> 대비

각 수준의 비가 일정한지 알아 볼 수 있는 t검정이다

 

3> Bonferroni

개별적인 t 검정에서 각각의 유의수준을 α/m 으로 하여 전체적인 유의수준이 α가 되도록 하는 것으로

실험하기 전에 미리 비교하는 두 평균의 차만 검정할 때 사용

 

4> Scheffe

대비에서 t값 대신 F값으로 대체하여 신뢰구간을 조정한 것으로 Tukey나 Bonferroni에 비해 보수적임

 

5> Tukey : 표준화범위를 이용하는 것으로 모든 가능한 두 평균들간의 비교에 유용

 

6> Duncan : Tukey와 달리 몇 단계로 나누어 다중비교하는 방법으로 Tukey에 비해 비교적 귀무가설을 잘 기각 할 수 있음.