본문 바로가기

SAS

9-1강 - 범주형 자료의 분석

<지난 8강 복습>

TTEST - 일표본에 관한 평균, 이표본에 관한 평균(독립 vs 짝 -> 독립이라면 variable, 짝이라면 paired)

모비율의 차에서 짝표본인 경우 mcnem을 사용한다.

 

<Intro>

1) 범주형 (떠오르는 것) 수치의 반대, PROC FREQ, 이항 분포 다항 분포, 

2) 일단 2가지로 나뉜다. (동일성 검정, 독립성 검정)

둘은 표본을 얻는 방법이 다르다.  하지만 거의 비슷해서 구분하기 어렵다.

 

1. 동일성 및 독립성

 

1) 동일성 검정

~한 비율이 같다.

ex> 세 집단에서 찬성 비율이 같은지 확인

H0 : 비율이 동일하다.

 

 

2) 독립성 검정

A라는 범주와 B라는 범주는 완전히 독립이다.

H0 : 독립이다. 

 

 

3) 피어슨의 카이제곱 검정 통계량

기존에 표준정규분포를 제곱하면 자유도가 1인 카이-제곱 분포에 근사한다.

하지만 범주가 늘어나서 같은 표준 정규 분포들의 제곱의 합으로 본다.

1> 검정 통계량

n_ij : i행 j열에서 관측된 값

e_ij : i행 j열에서 기대 도수

자유도 : (r-1)(c-1)   <범주가 r개인 것과 c개인 것이 존재하는 경우>

(그래서 yes or no 범주가 2개 있으면 자유도가  (2-1)*(2-1)로 1이 나온다.)

모든 셀의 기대도수가 5이상인 경우 근사적으로 자유도 (r-1)(c-1)인 카이제곱분포를 따른다.

 

2> 검정

동일성 검정, 독립성 검정을 할 때 사용한다.

- 귀무 가설(H0) : 동일(독립)

- 분포

H0가 사실 -> 기대 빈도와 관측 빈도가 가까워진다. -> 카이-제곱 분포 상에서 작은 검정 통계량을 가진다.

- 검정 과정

(SAS에서는 카이-제곱에서나 F에서 자동으로 우측 검정에 대한 정보를 준다.)

하지만 근사적으로 자유도 (r-1)(c-1)인 카이제곱분포를 따른다.

그래서 기대 도수가 5이상인지 검증을 먼저 해야한다.

 

4) 우도비 통계량

모형이 데이터에 잘 적합하다는 귀무가설을 검정하기 위한 log우도비 검정 통계량이다.

모든 셀의 기대도수가 5이상인 경우 근사적으로 자유도 (r-1)(c-1)인 카이제곱분포를 따른다.

카이-제곱 분포와 유사하면 n_ij와 e_ij가 유사하다.

 

 

5) Fisher의 정확 검정

표본의 크기가 작은 경우에도 사용할 수 있는 안전한 방법이다.

대신 표본의 크기가 큰 경우 계산할 때 오래걸린다.

 

 

지금까지 두 변수가 동일성 혹은 독립성을 가지는지 확인했다.

하지만 둘다 가지지 않는다면 어떤 관계를 가지는지 알 필요가 있다. 

이 때 필요한 것이 연관성 측도이다.

 


 

2. 동일성 및 독립성 실습

 

1) 동일성 예제

DATA soft;
INPUT age $ beverage $ count @@;
CARDS;
20대 coke 10 20대 pepsi 14 20대 fanta 4 20대 others 12
30대 coke 13 30대 pepsi 9 30대 fanta 10 30대 others 8
40대 coke 12 40대 pepsi 8 40대 fanta 10 40대 others 10
;
RUN;
proc freq data= soft order=data;
weight count ;
exact fisher;
tables age* beverage / nocol nopercent expected chisq;
run;

먼저 자료를 보면 '연령별로 나눠놓고 조사한 것인지' 아니면 '그냥 사람을 불러서 조사한 것인지' 파악하기

- PROC FREQ를 보면 weight이 필요한 자료인지 아닌지 확인하기 (정리가 되어있는 자료)

- order=data : data를 읽는 순서대로 정리

- exact fisher : 이항분포가 아니어서 썼다.

- tables age*beverage : 나이와 음료가 상관이 있는지 조사하기 위해

- 기대 빈도가 필요하기 때문에 expected 사용

- 카이-제곱 검정이 필요하기 때문에 chisq를 사용

 

2) 동일성  결과

1> 20대, 30대, 40대 합계가 같은 것으로 보아 동일성 검정을 하려고 함

=> H0 : 세대별 취향이 동일하다. 

2> 기대 빈도가 모두 5이상이다.

기대 빈도 = 전체 도수(120) * 확률 

ex> 20대 other 기대 빈도 = 120 * (30/120) * (40/120)

 

3> 카이-제곱 통계량

그냥 우측 검정의 확률을 찾아두었다. (그냥 읽어도 된다.)

0.4012이면 0.41은 넘어야 기각할 수 있는데 0.4 가량의 유의 확률을 쓰지 않으므로

어떠한 유의 수준으로도 기각할 수 없다.

=> 각 세대별 음료 선호도가 동일하다.

 

 

 

4> Fisher 정확 검정

0.3922 나온 것을 보니 동일성 검정과 거의 동일하다.

 

3) 적합도 검정 예시

9:3:3:1이 나오는지 궁금

그냥 chi-sq를 쓰면 h0가 동일하냐는 것이어서 기대 빈도가 달라질 수 있다.

DATA bean;
	INPUT type count @@;
CARDS;
1 315 2 108 3 101 4 32
;
RUN;
proc freq data= bean ;
weight count;
tables type/nocum testp=(0.5625 0.1875 0.1875 0.0625);
run;

 

1> 정렬이 되어 있지 않으니 당연히 weight 사용

2> testp : 안 쓰면 동일성(1:1:1:1)을 검정한다.

그래서 testp를 쓰면 이 비율로 존재하는지를 검정할 수 있다.

 

4) 적합도 검정 결과

카이제곱 : ∑[(기대 빈도-관측 빈도)^2] / 기대 빈도

Pr > ChiSq : 우측 검정의 p-value (검정 통계량이 우측 알파 위치보다 작아야 하므로 이 확률이 작아야 기각할 수 있다.)

=> 0.9254이면 기각할 수 없다.

 

 

 


 

3. 연관성 측도

두 범주형 변수 간의 결합도(관련성의 정도)를 나타내는 기술 통계량

0) intro

연관성 하면 떠오르는 것은 선형성이다.

 

1) 카이-제곱 검정 통계량으로 계산되는 연관성 측도

실제로 연관성이 있는가에 대해 얘기해주는 측도

0> 장단점

장점 : 카이-제곱 검정 통계량만 있으면 계산할 수 있다.

단점 : 크래머의 V를 제외하면 범위가 확정되지 않아서 연관성 정도가 크고 작은지 판단하기 힘들다.

1> 카이 계수

2> 분할 계수

3> 크래머의 V

 

2) 순서형 변수들 간의 연관성 측도

(모두 -1에서 1사이의 값을 가진다.)

값을 비교하는 것이 아니라 순서를 비교하는 것이다.

1> 감마

여기서 P는 일치쌍 (i_1 < i_2 이면 j_1 < j_2 인 조건을 만족하는 셀들의 쌍 ((i_1, i_2), (j_1, j_2))의 수이고 Q는 비일치상의 수이다.

(즉, 순서가 유지되는(일치쌍)과 순서가 유지되지 않는 (비일치상)을 비교)

2> 타우 (감마를 수정한 것)  

감마를 tie를 이루는 쌍의 경우에 대하여 수정한 켄달의 타우-b와 

감마를 tie를 이루는 경우와 분할표 크기를 이용하여 수정한 스튜어트의 타우-c가 있다.

3> 소머즈의 D

D(C|R)과 D(R|C)는 켄달의 타우-b를 비대칭적 관계를 고려하여 수정한 것

4> 상관계수

선형관계를 알아보는 계수로 피어슨과 스피어만의 상관계수가 있다.

피어슨 (보통 알고 있는 상관계수)

스피어만 (순위 상관 계수)

 

3) 명목형 변수들간의 연관성 측도

1> 비대칭 람다 (C|R) : 행이 주어질 때 열에 대한 예측 타당성을 재는 측도로 0과 1사이의 값을 가진다. 행에 대한 정보가 있는 경우 그렇지 않은 경우에 비해 열에 대한 예측이 얼마나 오류의 수가 감소하는지 나타내는
상대 비율

 

2> 비대칭 람다 (R|C) : 열이 주어질 때 행에 대한 예측 타당성을 재는 측도로 0과 1사이의 값을 가진다.

 

3> 대칭 람다 : 행과 열의 독립, 종속의 구분이 필요로 하지 않는 상황에서 적합한 측도이다.

 


 

4. 연관성 검정

1) 기본

1> 귀무 가설 : 두 범주 간의 연관성은 0이다.

2> 검정 통계량 : 연관성 측도 / 점근적 표준 오차 (ASE)

두 범주 간의 연관성은 0이라는 귀무가설 하에서 근사적으로 표준 정규분포를 따른다.

3> 연관성 측도 

점근적 표준 오차가 대략적으로 2 이상이면 5% 유의 수준에서 연관성은 0이 아니다고 할 수 있다.

 

2) 예시

교육과 환경이 어떤 관계가 있는지 알아보려고 조사

DATA edueco;
	INPUT edu eco count @@;
CARDS;
1 1 255 1 2 105 1 3 81
2 1 110 2 2 92 2 3 66
3 1 90 3 2 113 3 3 88
;
RUN;
proc freq data= edueco order=data;
weight count;
tables edu*eco/ nocol nopercent chisq measures;
run;

- 독립이라는 귀무가설

- chisq 옵션을 사용해야 한다. 

- measures 옵션을 쓰면 연관성 측도를 할 수 있다.

 

 

3) 결과

집단을 분류하고 조사한 것이 아니라 그냥 일단 뽑아놓고 조사했으므로 독립성을 조사하려고 했다.

 

p-value가 엄청 작다.

크래머의 V가 작다.

 

통계량들로 보아 약한 상관관계가 있다.

검정을 하고 싶으면 해당 통계량을 ASE(점근적 추정오차)로 나누고 2를 넘으면 연관성이 없다는 것이 기각이 된다. (연관성이 있다.)