DATA cholest;
INPUT gender $ age super @@;
CARDS;
M 23 40 M 64 88 M 66 110 M 31 86 M 55 137
M 48 78 M 58 111 M 31 88 M 27 80 M 25 86
M 20 80 M 32 47 M 63 106 M 23 65 M 62 74
M 43 66 M 43 79 M 36 58 M 67 123 M 27 87
M 29 88 M 48 90 M 63 56 M 27 73 M 19 112
M 59 110 M 65 118 M 26 52 M 53 106 M 42 67
M 60 57 F 30 66 F 25 69 F 40 65 F 38 52
F 57 84 F 33 86 F 23 35 F 42 116 F 49 76
F 35 55 F 49 73 F 44 89 F 50 127 F 60 87
F 63 142 F 47 77 F 23 76 F 27 58 F 36 91
F 48 107 F 23 98 F 74 128 F 44 84 F 56 146
F 53 75 F 37 120 F 41 80 F 41 82 F 57 123
;
RUN;
proc sort data=cholest;
by gender;
run;
options ps=55 ls=65 nodate ;
proc univariate data= cholest;
by gender;
var super age;
label super='콜레스테롤 과포화율';
age='나이';
run;
cf> data 읽는 2가지 방법
1> 이미 있는 것을 읽어들인다. (INFILE이라는 명령어를 사용)
2> 직접 읽는 방법 (CARDS를 통해 읽는다.)
1. 코드
1) DATA
1> DATA: data를 만드는 명령어
- DATA SAS-dataset : 이 이름의 data를 만든다.
2> INPUT: 변수를 생성 (어떤 변수인지 표시해야 한다.)
- 표시는 변수 바로 뒤에 한다.
- 숫자 변수는 흔해서 아무런 표시하지 않는다.
- 문자 변수는 바로 뒤에 $를 붙인다.
※ @@를 붙이면 변수의 개수씩(이 예시에서는 3개씩) 잘라서 읽을 수 있다. (웬만하면 쓰는 게 좋다.)
3> CARDS: 직접 data를 읽어들이는 명령어 (@@를 통해 변수 개수씩 잘라서 읽는다.)
4> RUN: 특정 명령어(DATA, PROC 등)를 끝내는 명령어
2) PROC sort
1> PROC sort data = 'data 이름' : 이 data를 정렬할 것이다.
2> by 'variable 이름' : 이 variable를 정렬한다.
- default는 오름차순 (ascending)이다.
- 내림차순 정렬을 하고 싶은 경우 by decending 'variable 이름' 으로 적는다.
cf> 기술 통계학을 나타내주는 3개의 procedure:
- 1> univariate 2> means 3> summary
3) PROC univariate
1> PROC univariate: 기술 통계학을 나타내주는 3개의 procedure 중 하나
2> by 'variable 이름' : 이 variable 그룹 별로
- sorting이 되어있어야 사용 가능하다.
- sorting 안 하고 쓰려면 밑에 var 대신에 class를 쓰면 된다.
3> var 'variable 이름' : 추후 이 variable에 대한 기술 통계량을 알려준다.
- 숫자 변수에 대해서는 모든 기술통계량을 나타내게 되어있다.
※ 실행 후에 로그 확인하고 결과보기
2. 결과
0) 전반적으로 관찰
1> gender 별로
2> age와 super의 기술 통계량을 나타내주므로
총 4가지 경우 결과가 나온다.
1) 적률
(1차 적률: 평균)
이 data를 sample로 간주한다.
1> 표준 편차
- 표본 표준 편차 S이며
- sample로 간주하기 때문에 분산은 N-1로 나눈 값이다.
2> 왜도
- 대칭성을 수치화했다. (0이면 대칭이다.)
- 양수이면 왼쪽으로 기울었다.
3> 제곱합: 각각의 변량들을 제곱해서 더함
4> 수정 제곱합: 편차들의 제곱해서 더함
- 분산 = 수정 제곱합/N-1
5> 평균의 표준오차: S/√N
2) 기본 통계 측도
위치 측도는 대표값을 의미한다.
1> 평균
2> 중위수: median
3> 최빈값: 가장 많은 값
cf> 현재 상황
현재 상황: 평균 > 중위수 > 최빈값
왜도가 양수면 왼쪽으로 치우침 그래서 꼬리가 오른쪽에 있다.
위치 측도는 산포도(흩어진 정도)을 의미한다.
1> 표준편차
2> 분산
3> 범위: 최댓값 - 최솟값 (outlier에 영향을 많이 받아서 사분위수 범위를 쓰기도 한다.)
4> 사분위수
- 전체를 4등분으로 나눈다. (25%, 50%, 75%)
- 75%-25%
3) 위치모수 검정: Mu0=0
검정은 나중에 review한다.
4) 분위수
(사분위수 같은 경우 75% - 25%한다.)
5) 극 관측값
1> 최소와 최대를 이야기한다.
2> 최솟값 35가 7번째에서 발견된다.
'SAS' 카테고리의 다른 글
3-2강 - SAS data 단계 (변수의 외부 파일 출력, SAS dataset 출력, 설명 부여, SAS 연산자 및 함수) (FILE & PUT, OUTPUT, LABEL) (0) | 2020.04.08 |
---|---|
3-1강 - SAS data 단계 (dataset 생성, datset 및 변수의 제어) (0) | 2020.03.21 |
[통계 개념] 2강 - Data의 요약 및 표현 (0) | 2020.03.21 |
1-2강 - SAS 기본 문법 (0) | 2020.03.17 |
1-1강 - SAS Intro (프로그램 구성, 코드 구성, 입출력) (0) | 2020.03.17 |