본문 바로가기

SAS

6-2강 - 자료의 정리 및 요약 2 (BOXPLOT, SUMMARY)

3. BOXPLOT

0) 소개 

그래픽 형태의 상자-수염그림(boxplot) 출력

 

1) 문법

1> 기본 문법

- PROC BOXPLOT DATA=SAS-dataset

2> 그 외 
- BY variables : 분류 변수 지정 (마찬가지로 정렬이 되어있어야 한다.)
- PLOT analysis-variable * group-variable / <option> 
/분석변수와 분류변수 지정/

cf> PLOT 형태가 나오면

  • 무조건 x축과 y축 지정해줘야 한다.
  • y축을 보통 먼저 지정하는 게 규칙이다.
  • analysis-variable이 y축, group-variable이 x축을 의미한다. 

3> PLOT에 사용되는 option 

- BOXSTYLE=SKELETAL | SCHEMATIC : box모양 설정하는 옵션 (SKELETAL, SCHEMATIC 둘 중 하나를 사용한다.)

  • SKELETAL = 전체를 이어주는 것 = 극단값(이상치) 표시하지 않고
  • SCHEMATIC = 극단값(이상치) 표시

2) 예제

1> 예시 1

- plot age*gender : age를 y축으로 gender를 x축으로 사용한다.

- boxwidth=20 : 너비 20으로 (퍼센트 개념)

- hoffset=15 : 높이 15로 (퍼센트 개념)

- SKELETAL : 결과를 보면 boxplot이 끝까지 이어져 있다.

- SCHEMATIC : 결과를 보면 [1] outlier는 끝에 점으로 [2] boxplot은 outlier까지 이어서 그리지 않는다.

- 정렬을 하지 않으면 다른 범주가 나올 때까지 읽는다. (MMFFMM이면 M 2번, F 1번 총 3개의 boxplot을 그리는 문제)

 

cf> 기술 통계량 procedure

1> MEANS

2> UNIVARIATE

3> SUMMARY

MEANS와 UNIVARIATE는 유사 SUMMARY는 약간 다르다.

 

 


 

4. SUMMARY

0) 소개

사용형식은 means와 유사하나 그 결과를 output 윈도우에 출력을 시키지 않으므로, 주요 통계량을 포함하는 SAS 데이터 셋을 생성하고자 할 때 유용하다.

1> MEANS와 UNIVARIATE는 자동으로 그 결과를 출력했다.

2> SUMMARY는 출력하지 않는다. 그냥 가지고 있는다. 

3> SUMMARY는 그냥 사용하면 error가 발생한다. => OUTPUT과 같이 써야한다.

 

1) 문법

거의 대부분 MEANS와 유사하다. MEANS 방식을 그대로 이용하면 된다.

1> 기본 문법

- PROC SUMMARY DATA=data-set;

 

2) 예제

1> 예시

- DATALINES : CARDS와 비슷하다고 알아두자

- OUTPUT OUT=n_score mean=a_mean s_mean 

  • SUMMARY는 output이 반드시 들어가야 한다. (자동 출력 기능이 없어서 새로운 dataset을 만들어야 한다.)
  • n_score라는 dataset에 저장할 것이다.
  • 그리고 age에 따른 mean을 a_mean에, score에 따른 mean을 s_mean이라는 변수에 저장한다.

- PRINT를 하지 않으면 아무것도 출력하지 않는다. (SUMMARY는 자동으로 출력하지 않는다.)

 

※ 그래서 이것저것 출력되는 것을 원하지 않으면 MEANS보다 SUMMARY를 사용하는 게 낫다.