본문 바로가기

전체 글

(177)
[통계 개념&SAS] 8-4강 - 가설 검정 (독립이 아닌 모집단이 2개인 경우) 독립성을 어떻게 판단? 독립인 상황 - 1반과 2반의 비교 => (지난 8-3강) 먼저 σ1, σ2가 같은지 본다 (2가지 경우로 또 나뉨) → (2가지 경우 모두)PROC TTEST로 확인. (8-3강 : https://intelligentcm.tistory.com/146) 독립이 아닌 상황 - 1반의 1개월 전과 1반의 현재 비교 => (이번 8-4강) 8. 독립이 아닌 두 모집단에 대한 검정 0) 독립 표본에 의한 두 모평균의 비교 - 독립 표본 t-검정 (8-3강 : https://intelligentcm.tistory.com/146) 1) 쌍 관측에 의한 두 모평균의 비교 - 대응 표본 t-검정 1> 조건 (정규성 가정은 있지만 독립성이 빠짐) - 모두 정규 분포에서 추출된 확률 표본(X_1~X..
[통계 개념&SAS] 8-3강 - 가설 검정 (독립인 모집단이 2개인 경우) 이표본에 대한 접근은 총 3가지였습니다. 1> 각각의 모분산을 아는 경우 (σ1, σ2 안다.) 2> 각각의 모분산을 모르는 경우 - 모분산이 같은 경우 (σ1, σ2 모름 + σ1=σ2) 3> 각각의 모분산을 모르는 경우 - 모분산이 다른 경우 (σ1, σ2 모름 + σ1≠σ2) 1>번 case는 거의 다루지 않는다. 그리고 2>와 3>은 구분할 필요가 있다. cf> 하지만 사실 모분산이 같은지를 먼저 알 수 없다. 그러므로 모분산이 같은지에 대해 먼저 검정해야 한다. 1> 7-5강 참조 : https://intelligentcm.tistory.com/142 2> 이어지는 6. 두 모분산 비의 검정 참조 5. 정규 분포에 관한 여러 검정 - 모집단이 2개인 경우 모분산 비에 대한 검정을 먼저 하고서 ..
[통계 개념&SAS] 8-2강 - 유의 확률 (p-value) 4. 유의 확률 (p-value) 유의 수준이 작은 것도 중요하지만 기각하는 것이 더 중요하다. 이전에는 주어진 유의 수준에서 기각할 수 있는지만 확인했다. 이번에는 유의 수준을 고정시키지 말고 유의 수준을 얼마까지 높이면 기각할 수 있는지 알아본다. 1) 정의 및 특징 1> 유의 확률 : 귀무가설을 기각할 수 있는 최소한의 확률 (p값, p-value) 2> p보다 크면 기각할 수 있다. => p는 작을수록 좋다. 3> 가설이 다르면 유의 확률도 달라진다. 2) 구하는 방법 (모평균(μ)에 관한 검정 - 모분산(σ)을 모르는 경우) (t분포로 설명) [우측 검정] 1> 검정 통계량 t0를 구한다. 2> α(확률, 면적)가 t0(x축)을 포함해야 한다. (H1 : 우리가 추정한 T > μ0) → P[T ..
[통계 개념&SAS] 8-1강 - 가설 검정 (단일 표본) INTRO 1) 추정과 검정의 차이 추정 - 예측 - 보통 큰 회사에서 한다. 단지 조금 빨리 알기 위해 하는 경우가 많다. ex> 대선, 수능 등급컷 (그래서 우리에게 추정의 중요도가 조금 떨어질 수 있다.) 검정 - 주장 - 일상 속에서도 할 수 있다. 2) 검정의 기본 원리 (3단계) 1> 가설 설정(주장) - 2> 통계적 계산 - 3> 결론 (SAS는 통계적 계산을 하지만 우리는 주장과 결론 부분을 담당한다.) 1. 가설 설정의 기본 원리 1) 기본 개념 1> 귀무가설 (H0) : 기각을 전제로 세우는 가설 (중요하다. 가설 검정은 내가 주장하는 것이다. 어떤 상황일 때 주장하고 싶을까? 그에 대해 반하는 생각을 가질 때 주장한다.) - 실제로 알려져 있는 사실 (지금까지 알려진 학설) - 하지만..
[통계 개념] 7-5강 - 모집단이 2개인 경우 통계량 차에 대한 구간 추정 (신뢰 구간) 모집단이 1개인 경우만 지금까지 배웠고 모집단이 2개인 경우를 이번에 다룰 것입니다. 7. 모집단이 2개인 경우 구간 추정 0) 모집단이 2개인 경우 1> 첫 번째 모집단으로부터 뽑은 확률 표본 X_1, X_2, ... / 두 번째 모집단으로부터 뽑은 확률 표본 Y_1, Y_2, ... 2> 2가지 경우가 있다. - [1] 처음부터 나뉘어진 두 집단을 비교할 수 있고 (확실히 독립이다.) - [2] 동일 집단을 시간차에 따라 비교할 수 있다. (독립이 아니다.) 3> 기본 가정이 'X_1 ~ X_m, Y_1 ~ Y_n가 서로 독립'이다. - 확률 표본의 정의에 의해 X_1 ~ X_m은 iid (서로 독립이고 같은 분포에서 추출), Y_1 ~ Y_n은 iid - 그러면 X와 Y를 섞어서도 독립이어야 한다...
[SAS] 7-4강 - 점 추정, 구간 추정 실습 분포와 관련 없이 표본 평균은 모평균의 불편 추정량, 표본 분산은 모분산의 불편 추정량이다. (표본 비율도 마찬가지) 실제 점 추정을 할 경우 기술 통계량을 나타내주는 procedure 이용 => PROC UNIVARIATE, MEANS, SUMMARY 모비율에 대한 점 추정을 할 경우 횟수를 세야 한다. => PROC FREQ 4. 모평균과 모분산에 대한 점 추정, 구간 추정 1 (UNIVARIATE) 0) CIBASIC 사용 1> CIBASIC = confiedence interval basic = 기본 방법으로 신뢰 구간을 구한다. 2> 신뢰 구간을 구하기 위해서는 유의 수준(α)를 알아야 한다. => 그래서 'ALPHA = '를 옵션으로 유의 수준을 설정한다. 1) 문법 1> 추가된 것 - PRO..
[통계 개념] 7-3강 - 구간 추정 : 신뢰 구간 3. 구간 추정 (Interval Estimation) 1) 신뢰 구간 (Confidence Interval) 1> 정의 - 모수 θ가 L(X)와 U(X) 사이에 있을 확률 = 1-α - (L(X), U(X)) = 모수 θ에 대한 신뢰 수준 1-α (신뢰도 100*(1-α)%)인 신뢰구간 2> 신뢰 구간을 구하기 위해 해야할 것 그럼 θ가 어떤 구간에 들어갈 확률을 구해야 한다. 이를 알려면 어떤 분포인지 알아야 한다. [1] θ의 범위에 대한 확률을 알려면 θ가 분포에 포함되어야 한다. L(X)와 U(X)가 통계량이어야 하므로 L(X)와 U(X)에는 표본에 관련된 식만 있어야 한다. [2] 분포에 θ이외의 모수는 포함하지 않아야 한다. 3> (앞에서 배운) μ를 포함하는 분포 1 - 정규 분포 - 정규..
[통계 개념] 7-2강 - 점 추정 (Point estimation) 2. 점추정 1) 통계량과 불편추정량 1> 통계량 (statistic) [1] θ를 포함하지 않는 [2] 표본 X_i 들에 대한 함수를 통계량으로 부른다. - θ가 모수이고 θ를 추정해야 하는데 θ를 포함하면 이 함수(통계량)로 θ를 추정할 수 없다. - 추출한 각 표본 X_i에 대해 벡터 표현을 사용 (X = (X_1, X_2, ... , X_n)) 2> 점 추정의 의미 이렇게 정의한 통계량들 중에서 하나로 점 추정을 할 건데 점 추정 = point estimation = '한 점' = '통계량 하나로 추정한다.' 라는 의미로 확장된다. cf> 점 추정과 구간 추정의 장단점 1> 점 추정의 장점 : 추정 결과를 보는 사람이 받아들이기 쉽다. 2> 점 추정의 단점 : 추정하는 사람은 하나로 추정하다보니 ..