본문 바로가기

SAS

[통계 개념] 2강 - Data의 요약 및 표현

1. 자료의 형태

1) 질적 자료

: 어떤 속성을 나타내는 자료 ex> 성별, 혈액형, 순위 등

 

1> 명목형 자료 (범주형 변수)

<순서가 없다.>

- 자료값 자체의 이름만 의미를 부여할 수 있는 변수

- 자료값의 크기나 순서에 대한 의미가 없다.

- 편의상 숫자를 대응시켜 사용하기도 한다.

ex> 성, 지역, 직업

 

2> 순서형 자료

<순서가 있다.>

- 어떤 기준에 따라 자료값들의 순서에 의미를 부여할 수 있는 변수

- 1분위가 2분위보다 앞서겠지만 '얼마나 차이가 난다'는 얘기를 할 수 없다.

 

2) 양적 자료

: 많고 적음을 나타내는 수치로 된 자료 ex> 길이, 무게

 

1> 계수형 자료: 셀 수 있는 정수형태의 자료 (이산형 자료)

2> 연속형 자료: 자료의 측정이 셀 수 없는 자료 ex> 키, 몸무게, 길이

3> 비율형 자료: 수치 값들의 차이뿐만 아니라 비율에도 의미를 부여할 수 있는 변수

4> 구간형 자료: 수치 값들 사이의 구간에 의미를 부여할 수 있지만 비율에 의미를 부여할 수 없는 자료

ex> 온도의 경우 20도가 -10도의 -2배가 아니다.

 

 


 

2. 기술통계량

1) 대표값 (중심경향, Measure of Cenetrality)

1> 평균 (Mean)

- 가장 많이 쓰이는 대푯값

- 단점: outlier에 영향을 많이 받는다.

2> 중간값 (Median)

- 자료 값들을 크기 순서로 나열했을 때 중앙에 위치하는 값

- n이 짝수인 경우 중간의 두 원소를 평균낸다.

3> 최빈값 (Mode)

- 자료들 중에서 가장 빈도가 많은 자료값

 

※ 무엇이 좋은 지는 상황에 따라 다르다.

 

2) 산포도 (변이 측도, Measure of Dispersion)

: 자료 값들이 얼마나 흩어져 있는가를 나타내는 측도

1> 표준 편차 (Standard Deviation)

- 자료 값들이 고를 수록 표준 편차가 큰 것은 맞으나

- (단점) 평균이 다른 경우에서 표준 편차로 산포도를 비교할 수 없다.

2> 변동 계수 (Coefficient of Variation:CV)

- (장점) 평균이 달라도 산포도를 비교할 수 있다. (표준 편차의 단점을 보완)

- 표준 편차가 평균에 비해 어떠한지

 

3> 분위수 (사분위수: Quantile) (100분위수: Percentile)

: 자료 값들을 크기 순으로 정렬하였을 때 자료를 q등분하는 값들을 q-분위수라고 한다.

- 사분위수

> 제1사분위수 (Q1) = 25분위수

> 제2사분위수 (Q1) = 50분위수 = Median

> 제3사분위수 (Q1) = 75분위수

 

4> 범위 (Range)

: 최댓값과 최솟값의 차이

- 단점: outlier의 영향을 많이 받는다.

- 이를 극복하기 위해 '사분위 범위'를 이용할 수 있다.

- 사분위 범위: Q3-Q1 (상위 25%와 하위 25%의 차)

 

3) 왜도와 첨도

1> 왜도 (skewness)

: 비대칭의 정도를 나타내는 측도

- 왜도 = 0 : 좌우대칭

- 왜도 > 0 : 왼쪽으로 치우침 (중간값 > 평균) (평균이 왼쪽으로 치우치니까)

 

2> 첨도 (kurtosis)

: 분포의 뾰족한 정도를 나타내는 측도

- 표준정규분포는 첨도가 0이다.