SAS (28) 썸네일형 리스트형 [SAS] 11-2강 - 단순 선형 회귀 분석 실습 지금부터는 data에 대한 일반적인 얘기들이 나옵니다. 하지만 data 별로 일반적인 이론들이 적용되지 않는 경우도 많습니다. 그래서 data 분석에서는 경험이 중요하기도 합니다. 1) SAS로 최소 제곱 추정량을 구한다. 2) ε_i에 대한 기본 가정 (회귀 진단, 잔차 분석) 1> 정규성 2> 등분산성 3> 독립성 => PROC REG로 한 번에 확인 가능 3) H0 : β_1=0, H0 : β_0=0 확인 (t-검정) 1> 두 H0를 모두 기각할 수 있어야 한다. 2> H0 : β_1=0를 기각하지 못하면 기울기가 0이어서 회귀 분석의 의미가 없어진다. 3> H0 : β_0=0를 기각하지 못하면 y절편이 0이어서 noint라는 명령으로 분석을 한다. 4) 분산 분석 F_0 = MSR/MSE ~ F(.. [통계 개념] 11-1강 - 단순 선형 회귀 분석 0. 회귀 분석에 대한 소개 1) 간단한 예시 환율(X)과 주가(Y) 조사 -> 분포를 graph화 -> 이 때 이들의 상관관계를 알고 싶음 -> Y_i = f(X_i) + ε_i 2) 회귀 분석의 여러 종류 1> 가장 간단한 경우는 f(X_i)가 직선이 경우이며 이를 선형 회귀라고 합니다. (단순 선형 회귀 분석) -> Y_i = β_0 + β_1*X_i + ε_i 2> X_i 하나의 변수가 아니라 여러 변수를 고려하는 경우는 중회귀 분석이라고 합니다. -> Y_i = β_0 + β_1*X_i1 + β_2*X_i2 + ... + β_p*X_ip + ε_i 3) 기타 1> 단순 선형 회귀 분석에 해당하는 경우는 적은데 왜 할까? - 변수 2개만 결정하면 할 수 있다. - 간단하기 때문에 먼저 해보고 오차.. 10-3강 - 이원배치법 일원배치법에서 하나의 요인을 다뤘다면 이원배치법에서는 2개의 요인이 모두 효과가 있는지 확인한다. 요인이 A, B가 있어서 A1, A2, A3 B1, B2, B3 로 3종류씩 있다면 자료를 어떻게 표현할 것인가? 4. 이원 배치법 1) 기본 1> 자료 구조 x_ijk : i번째 A수준, j번째 B수준을 가지는 data 중에서 k번째 data - x_ijk - μ = (x_ijk - μ_ij) + (μ_i.. - μ) + (μ_.j. - μ) + (μ_ij - μ_i.. - μ_.j. + μ) (x_ijk - μ_ij) : ε_ijk (μ_i.. - μ) : A의 효과 (μ_.j. - μ) : B의 효과 (μ_ij - μ_i.. - μ_.j. + μ) : γ_ij (교호 작용) 2> 기본 가정 정규성, 등.. 10-2강 - 일원배치법 실습 반응 변수와 설명 변수 2. ANOVA 일원 분류 분산 분석을 수행하기 위한 Procedure 균형 자료 (각 수준에서 반복수가 같은 경우) 사용 1) 문법 PROC ANOVA DATA='SAS-dataset' ex> 온도 별 생산량을 조사 1> CLASS : 분류 변수 (설명 변수, 독립 변수) 지정 (x로 생각한다.) ex> 온도 지정 2> MODEL : 분류 변수와 반응 변수 지정 (y=x 꼴로 지정) 3> MEANS : 각 처리 수준별 표본평균 및 표준편차을 출력할 때 사용 - 다중 비교 옵션문 사용 가능하다. - hovtest 에서 등분산성에 대한 검증을 할 수 있다. (homogeneous of variance) bartlett, levene 주로 사용 (기존에는 TTEST에서 했었다. 모집단.. 10-1강 - 일원 배치법 모비율 뿐 아니라 모평균 차도 3개 집단이 넘어가면 어떻게 할까? 분산분석으로 해결 1. 일원 배치법 0) intro 실험에서 가장 중요한 요인이 무엇인지 알고 있는데 실제로 그러한지 알고 싶다. 1> 파악하고자 하는 것 - 이 요인이 가장 중요한 요소인가? - 그렇다면 이 요인이 어떤 수치일 때 가장 효과적인가? (최적화) 1) 기본 0> 정의 : 어떤 실험의 결과가 한 요인에 의해서 결정된다고 가정하에 다른 가정은 동일하게 유지하고 그 요인의 수준만 달리 하여 실험하는 방법을 일원 배치법이라 한다. 1> 자료구조 - 요인 수준 : 해당 요인을 다 다르게 설정한다. - 실험의 반복 : (한 번만 실행하면 정확도가 떨어지니) 여러번 실행한 결과를 기록 x_ij : i번째 요인 수준으로 j번째 실험한 결과.. 9-1강 - 범주형 자료의 분석 TTEST - 일표본에 관한 평균, 이표본에 관한 평균(독립 vs 짝 -> 독립이라면 variable, 짝이라면 paired) 모비율의 차에서 짝표본인 경우 mcnem을 사용한다. 1) 범주형 (떠오르는 것) 수치의 반대, PROC FREQ, 이항 분포 다항 분포, 2) 일단 2가지로 나뉜다. (동일성 검정, 독립성 검정) 둘은 표본을 얻는 방법이 다르다. 하지만 거의 비슷해서 구분하기 어렵다. 1. 동일성 및 독립성 1) 동일성 검정 ~한 비율이 같다. ex> 세 집단에서 찬성 비율이 같은지 확인 H0 : 비율이 동일하다. 2) 독립성 검정 A라는 범주와 B라는 범주는 완전히 독립이다. H0 : 독립이다. 3) 피어슨의 카이제곱 검정 통계량 기존에 표준정규분포를 제곱하면 자유도가 1인 카이-제곱 분포에.. [통계 개념&SAS] 8-5강 - 모비율 차에 대한 검정 1) 모비율 차에 대한 검정도 모평균 검정처럼 1> 독립 표본인 경우와 2> 독립 표본이 아닌 경우로 나누어서 검정한다. 2) 독립 표본이 경우 이전 강의에 p 하나 가지고 했던 검정을 다시 떠올린다. (https://intelligentcm.tistory.com/143) => 중심 극한 정리 써서 정규 분포로 검정한다. 3) PROC FREQ를 사용했다. 4) p1^-p2^를 Z로 표준화 기존 추정에서도 p1^, p2^, p1^-p2^ 모두 정규분포를 따른다. 그래서 p1^-p2^을 가지고 표준화를 해서 표준정규분포를 만든다. 하지만 그림에서 볼 수 있듯이 표준화 한 경우 분모에 p1과 p2가 너무 많아서 p1^, p2^로 각각 바꿨다. 10. 두 모집단 모비율 차에 대한 검정 1) 독립 표본에 의한 .. [통계 개념&SAS] 8-4강 - 가설 검정 (독립이 아닌 모집단이 2개인 경우) 독립성을 어떻게 판단? 독립인 상황 - 1반과 2반의 비교 => (지난 8-3강) 먼저 σ1, σ2가 같은지 본다 (2가지 경우로 또 나뉨) → (2가지 경우 모두)PROC TTEST로 확인. (8-3강 : https://intelligentcm.tistory.com/146) 독립이 아닌 상황 - 1반의 1개월 전과 1반의 현재 비교 => (이번 8-4강) 8. 독립이 아닌 두 모집단에 대한 검정 0) 독립 표본에 의한 두 모평균의 비교 - 독립 표본 t-검정 (8-3강 : https://intelligentcm.tistory.com/146) 1) 쌍 관측에 의한 두 모평균의 비교 - 대응 표본 t-검정 1> 조건 (정규성 가정은 있지만 독립성이 빠짐) - 모두 정규 분포에서 추출된 확률 표본(X_1~X.. 이전 1 2 3 4 다음