1. 자료의 형태
1) 질적 자료
: 어떤 속성을 나타내는 자료 ex> 성별, 혈액형, 순위 등
1> 명목형 자료 (범주형 변수)
<순서가 없다.>
- 자료값 자체의 이름만 의미를 부여할 수 있는 변수
- 자료값의 크기나 순서에 대한 의미가 없다.
- 편의상 숫자를 대응시켜 사용하기도 한다.
ex> 성, 지역, 직업
2> 순서형 자료
<순서가 있다.>
- 어떤 기준에 따라 자료값들의 순서에 의미를 부여할 수 있는 변수
- 1분위가 2분위보다 앞서겠지만 '얼마나 차이가 난다'는 얘기를 할 수 없다.
2) 양적 자료
: 많고 적음을 나타내는 수치로 된 자료 ex> 길이, 무게
1> 계수형 자료: 셀 수 있는 정수형태의 자료 (이산형 자료)
2> 연속형 자료: 자료의 측정이 셀 수 없는 자료 ex> 키, 몸무게, 길이
3> 비율형 자료: 수치 값들의 차이뿐만 아니라 비율에도 의미를 부여할 수 있는 변수
4> 구간형 자료: 수치 값들 사이의 구간에 의미를 부여할 수 있지만 비율에 의미를 부여할 수 없는 자료
ex> 온도의 경우 20도가 -10도의 -2배가 아니다.
2. 기술통계량
1) 대표값 (중심경향, Measure of Cenetrality)
1> 평균 (Mean)
- 가장 많이 쓰이는 대푯값
- 단점: outlier에 영향을 많이 받는다.
2> 중간값 (Median)
- 자료 값들을 크기 순서로 나열했을 때 중앙에 위치하는 값
- n이 짝수인 경우 중간의 두 원소를 평균낸다.
3> 최빈값 (Mode)
- 자료들 중에서 가장 빈도가 많은 자료값
※ 무엇이 좋은 지는 상황에 따라 다르다.
2) 산포도 (변이 측도, Measure of Dispersion)
: 자료 값들이 얼마나 흩어져 있는가를 나타내는 측도
1> 표준 편차 (Standard Deviation)
- 자료 값들이 고를 수록 표준 편차가 큰 것은 맞으나
- (단점) 평균이 다른 경우에서 표준 편차로 산포도를 비교할 수 없다.
2> 변동 계수 (Coefficient of Variation:CV)
- (장점) 평균이 달라도 산포도를 비교할 수 있다. (표준 편차의 단점을 보완)
- 표준 편차가 평균에 비해 어떠한지
3> 분위수 (사분위수: Quantile) (100분위수: Percentile)
: 자료 값들을 크기 순으로 정렬하였을 때 자료를 q등분하는 값들을 q-분위수라고 한다.
- 사분위수
> 제1사분위수 (Q1) = 25분위수
> 제2사분위수 (Q1) = 50분위수 = Median
> 제3사분위수 (Q1) = 75분위수
4> 범위 (Range)
: 최댓값과 최솟값의 차이
- 단점: outlier의 영향을 많이 받는다.
- 이를 극복하기 위해 '사분위 범위'를 이용할 수 있다.
- 사분위 범위: Q3-Q1 (상위 25%와 하위 25%의 차)
3) 왜도와 첨도
1> 왜도 (skewness)
: 비대칭의 정도를 나타내는 측도
- 왜도 = 0 : 좌우대칭
- 왜도 > 0 : 왼쪽으로 치우침 (중간값 > 평균) (평균이 왼쪽으로 치우치니까)
2> 첨도 (kurtosis)
: 분포의 뾰족한 정도를 나타내는 측도
- 표준정규분포는 첨도가 0이다.
'SAS' 카테고리의 다른 글
3-2강 - SAS data 단계 (변수의 외부 파일 출력, SAS dataset 출력, 설명 부여, SAS 연산자 및 함수) (FILE & PUT, OUTPUT, LABEL) (0) | 2020.04.08 |
---|---|
3-1강 - SAS data 단계 (dataset 생성, datset 및 변수의 제어) (0) | 2020.03.21 |
1-3강 - SAS 실습 (0) | 2020.03.17 |
1-2강 - SAS 기본 문법 (0) | 2020.03.17 |
1-1강 - SAS Intro (프로그램 구성, 코드 구성, 입출력) (0) | 2020.03.17 |