3. BOXPLOT
0) 소개
그래픽 형태의 상자-수염그림(boxplot) 출력
1) 문법
1> 기본 문법
- PROC BOXPLOT DATA=SAS-dataset
2> 그 외
- BY variables : 분류 변수 지정 (마찬가지로 정렬이 되어있어야 한다.)
- PLOT analysis-variable * group-variable / <option>
/분석변수와 분류변수 지정/
cf> PLOT 형태가 나오면
- 무조건 x축과 y축 지정해줘야 한다.
- y축을 보통 먼저 지정하는 게 규칙이다.
- analysis-variable이 y축, group-variable이 x축을 의미한다.
3> PLOT에 사용되는 option
- BOXSTYLE=SKELETAL | SCHEMATIC : box모양 설정하는 옵션 (SKELETAL, SCHEMATIC 둘 중 하나를 사용한다.)
- SKELETAL = 전체를 이어주는 것 = 극단값(이상치) 표시하지 않고
- SCHEMATIC = 극단값(이상치) 표시
2) 예제
1> 예시 1
- plot age*gender : age를 y축으로 gender를 x축으로 사용한다.
- boxwidth=20 : 너비 20으로 (퍼센트 개념)
- hoffset=15 : 높이 15로 (퍼센트 개념)
- SKELETAL : 결과를 보면 boxplot이 끝까지 이어져 있다.
- SCHEMATIC : 결과를 보면 [1] outlier는 끝에 점으로 [2] boxplot은 outlier까지 이어서 그리지 않는다.
- 정렬을 하지 않으면 다른 범주가 나올 때까지 읽는다. (MMFFMM이면 M 2번, F 1번 총 3개의 boxplot을 그리는 문제)
cf> 기술 통계량 procedure
1> MEANS
2> UNIVARIATE
3> SUMMARY
MEANS와 UNIVARIATE는 유사 SUMMARY는 약간 다르다.
4. SUMMARY
0) 소개
사용형식은 means와 유사하나 그 결과를 output 윈도우에 출력을 시키지 않으므로, 주요 통계량을 포함하는 SAS 데이터 셋을 생성하고자 할 때 유용하다.
1> MEANS와 UNIVARIATE는 자동으로 그 결과를 출력했다.
2> SUMMARY는 출력하지 않는다. 그냥 가지고 있는다.
3> SUMMARY는 그냥 사용하면 error가 발생한다. => OUTPUT과 같이 써야한다.
1) 문법
거의 대부분 MEANS와 유사하다. MEANS 방식을 그대로 이용하면 된다.
1> 기본 문법
- PROC SUMMARY DATA=data-set;
2) 예제
1> 예시
- DATALINES : CARDS와 비슷하다고 알아두자
- OUTPUT OUT=n_score mean=a_mean s_mean
- SUMMARY는 output이 반드시 들어가야 한다. (자동 출력 기능이 없어서 새로운 dataset을 만들어야 한다.)
- n_score라는 dataset에 저장할 것이다.
- 그리고 age에 따른 mean을 a_mean에, score에 따른 mean을 s_mean이라는 변수에 저장한다.
- PRINT를 하지 않으면 아무것도 출력하지 않는다. (SUMMARY는 자동으로 출력하지 않는다.)
※ 그래서 이것저것 출력되는 것을 원하지 않으면 MEANS보다 SUMMARY를 사용하는 게 낫다.
'SAS' 카테고리의 다른 글
[통계 개념] 7-1강 - 표본들의 분포 - 카이-제곱 분포, t-분포, F-분포 (0) | 2020.05.05 |
---|---|
6-3강 - 자료의 정리 및 요약 3 (FREQ) (0) | 2020.04.26 |
6-1강 - 자료의 정리 및 요약 1 (MEANS, UNIVARIATE) (0) | 2020.04.26 |
5-2강 - SAS 기본 procedure 2 (PRINT, RANK) (0) | 2020.04.19 |
5-1강 - SAS 기본 procedure 1 (SORT, GCHART) (0) | 2020.04.16 |