본문 바로가기

SAS

1-3강 - SAS 실습

DATA cholest;
	INPUT gender $ age super @@;
CARDS;
M 23 40 M 64 88 M 66 110 M 31 86 M 55 137
M 48 78 M 58 111 M 31 88 M 27 80 M 25 86
M 20 80 M 32 47 M 63 106 M 23 65 M 62 74
M 43 66 M 43 79 M 36 58 M 67 123 M 27 87
M 29 88 M 48 90 M 63 56 M 27 73 M 19 112
M 59 110 M 65 118 M 26 52 M 53 106 M 42 67
M 60 57 F 30 66 F 25 69 F 40 65 F 38 52
F 57 84 F 33 86 F 23 35 F 42 116 F 49 76
F 35 55 F 49 73 F 44 89 F 50 127 F 60 87
F 63 142 F 47 77 F 23 76 F 27 58 F 36 91
F 48 107 F 23 98 F 74 128 F 44 84 F 56 146
F 53 75 F 37 120 F 41 80 F 41 82 F 57 123
;
RUN;
proc sort data=cholest;
by gender;
run;
options ps=55 ls=65 nodate ;
proc univariate data= cholest;
by gender;
var super age;
label super='콜레스테롤 과포화율';
age='나이';
run;

cf> data 읽는 2가지 방법

1> 이미 있는 것을 읽어들인다. (INFILE이라는 명령어를 사용)

2> 직접 읽는 방법 (CARDS를 통해 읽는다.)

 

 

1. 코드

1) DATA

1> DATA: data를 만드는 명령어

- DATA SAS-dataset : 이 이름의 data를 만든다.

2> INPUT: 변수를 생성 (어떤 변수인지 표시해야 한다.)

- 표시는 변수 바로 뒤에 한다.

- 숫자 변수는 흔해서 아무런 표시하지 않는다.

- 문자 변수는 바로 뒤에 $를 붙인다.

※ @@를 붙이면 변수의 개수씩(이 예시에서는 3개씩) 잘라서 읽을 수 있다. (웬만하면 쓰는 게 좋다.)

3> CARDS: 직접 data를 읽어들이는 명령어 (@@를 통해 변수 개수씩 잘라서 읽는다.)

4> RUN: 특정 명령어(DATA, PROC 등)를 끝내는 명령어  

 

2) PROC sort

1> PROC sort data = 'data 이름' : 이 data를 정렬할 것이다.

2> by 'variable 이름' : 이 variable를 정렬한다.

- default는 오름차순 (ascending)이다.

- 내림차순 정렬을 하고 싶은 경우 by decending 'variable 이름' 으로 적는다.

 

cf> 기술 통계학을 나타내주는 3개의 procedure:

- 1> univariate 2> means 3> summary

 

3) PROC univariate

1> PROC univariate: 기술 통계학을 나타내주는 3개의 procedure 중 하나

2> by 'variable 이름' : 이 variable 그룹 별로

- sorting이 되어있어야 사용 가능하다.

- sorting 안 하고 쓰려면 밑에 var 대신에 class를 쓰면 된다.

3> var 'variable 이름' : 추후 이 variable에 대한 기술 통계량을 알려준다.

- 숫자 변수에 대해서는 모든 기술통계량을 나타내게 되어있다.

 

※ 실행 후에 로그 확인하고 결과보기

 

 


 

2. 결과

0) 전반적으로 관찰

1> gender 별로 

2> age와 super의 기술 통계량을 나타내주므로

총 4가지 경우 결과가 나온다.

1) 적률

(1차 적률: 평균)

이 data를 sample로 간주한다.

1> 표준 편차

- 표본 표준 편차 S이며

- sample로 간주하기 때문에 분산은 N-1로 나눈 값이다.

2> 왜도

- 대칭성을 수치화했다. (0이면 대칭이다.)

- 양수이면 왼쪽으로 기울었다.

3> 제곱합: 각각의 변량들을 제곱해서 더함

4> 수정 제곱합: 편차들의 제곱해서 더함

- 분산 = 수정 제곱합/N-1

5> 평균의 표준오차: S/√N

 

2) 기본 통계 측도

위치 측도는 대표값을 의미한다.

1> 평균

2> 중위수: median

3> 최빈값: 가장 많은 값

 

cf> 현재 상황

현재 상황: 평균 > 중위수 > 최빈값

왜도가 양수면 왼쪽으로 치우침 그래서 꼬리가 오른쪽에 있다.

 

위치 측도는 산포도(흩어진 정도)을 의미한다.

1> 표준편차

2> 분산

3> 범위: 최댓값 - 최솟값 (outlier에 영향을 많이 받아서 사분위수 범위를 쓰기도 한다.)

4> 사분위수

- 전체를 4등분으로 나눈다. (25%, 50%, 75%)

- 75%-25%

 

3) 위치모수 검정: Mu0=0

검정은 나중에 review한다.

4) 분위수

(사분위수 같은 경우 75% - 25%한다.)

 

5) 극 관측값

 

1> 최소와 최대를 이야기한다.

2> 최솟값 35가 7번째에서 발견된다.