ch14

Views:
 
Category: Entertainment
     
 

Presentation Description

No description available.

Comments

Presentation Transcript

Slide 1: 

제 14 장 적합도 검정과 비모수적 방법

Slide 2: 

<적합도 검정> 모집단에 대한 정보가 부족해서 분포함수의 모형을 확실히 가정할 수 없는 경우에는 자료가 어떤 모집단으로부터 얻어졌는지에 관심 예: 자료가 정규분포에서 나온 것?  적합도 검정 : 주어진 자료가 특정분포에서 나왔다고 할 수 있는지 검정하는 방법 §14.1 적합도 검정 §14.2 분할표 검정 - 1 -

Slide 3: 

§14.1 범주형 자료의 적합도 검정  변수 질적변수 양적변수 연속변수 : 정량자료(quantitative data) 이산변수 : 정성자료(qualitative data) (§1.2)  정량자료라도 어떤 속성이나 구간에 따라 분류하여 도수로 나타냄으로서 정성자료화 할 수 있다.  범주형 자료(categorical 또는 enumerative 또는 count data) : 관측결과를 어떤 속성에 따라 분류하여 도수로 주어지는 자료 예: 설문조사 문항에 따른 응답 분류 소득 수준에 따른 가계 분류 공산품/농산품 품질등급에 따른 분류 소비자 반응 조사 ∙ §11.3 도수분포표와 히스토그램 - 2 -

Slide 4: 

 사회∙경제 현상에 대한 조사 인문∙사회과학 등에서의 실험 에서 나타나는 관측값들은 조사(실험) 에서 나올 수 있는 결과를 몇 개의 범주(category)로 분류하고 전체 관측값 중 각 범주에 속하는 수를 세어 얻어지는 자료(count data)인 경우가 많다.  다항 실험의 특성에 가깝다 <다항실험> 실험은 n개의 동일한 시행(identical trials)들로 이루어진다. 각 시행의 결과는 k개의 범주 중 하나에 속한다. 하나의 시행결과가 범주 i에 속할 확률은 pi로서 시행에 따라 변하지 않고 일정하다 - 3 -

Slide 5: 

4. 시행들은 서로 독립이다. 5. n번 반복 시행결과 범주 i에 속하는 시행수(관측도수)를 Xi라 하자 - 4 -

Slide 6: 

 범주형 자료의 분석에는 관측도수 Xi와 기대도수 E(Xi)=npi의 차의 제곱 을 기대도수의 역수로 가중평균한 통계량의 근사분포를 쓴다. <정리 14.1> 는 점근적으로 분포 을 따른다.  - 5 -

Slide 7: 

CLT에 의해 - 6 -

Slide 8: 

(보충문제 #9.25*) - 7 -

Slide 9: 

<예제 14.1> 야구선수의 안타 60개를 타구 방향에 따라 좌∙중 ∙우로 분류 안타가 전 방향에 고르게 나타나는가?   유의수준 10%로 H0를 기각 좌 중 우 관측수 12 26 22 기대도수 20 20 20 - 8 -

Slide 10: 

<적합도 검정 (goodness-of-fit test)>  주어진 자료가 특정분포로부터 나온 것인지를 판단하는 검정  좀더 엄밀히는, 특정분포모형이 모집단의 분포로서 적절하지 않다고 배제할 수 있을 지를 표본자료와 이 분포모형에 의한 이론(기대) 수치와 비교하여 판단하는 검정 a) 주어진 자료가 특정분포 F 로부터 얻어진 것이라는 가설 의 검정  자료가 정량적 자료이면 이를 범주형 자료로 변환한다. - 9 -

Slide 11: 

- 10 -

Slide 12: 

<정리 14.1>에 의해 b) 분포함수가 미지의 모수 r개 - 11 -

Slide 13: 

 적합도 검정에서 유의할 것 - 12 -

Slide 14: 

§ § ① - 13 -

Slide 15: 

② 예: 다항분포의 경우 ∙ 추정값은 MLE ∙ 모수 하나 추정할 때마다 df 가 하나씩 줄어든다. <예제 14.2> 어느 지역에서 하루에 발생하는 화재 건수 X를 60일간 관측한 결과 범주# 1 2 3 4 5 화재건수 0 1 2 3 4이상 관측도수 27 18 12 3 0 - 14 -

Slide 16: 

- 15 -

Slide 17: 

∙ 기대도수의 추정 ∙ 검정통계량 Q의 값  하루에 발생하는 화재건수가 포아송분포를 따른다는 가설을 배제할 충분한 증거가 없다. - 16 -

Slide 18: 

<예제 14.3> 정규분포를 따르는 난수(random number)를 생성시키는 전산프로그램을 작성하고, 이 프로그램을 실행하여 난수 40개 생성. 이 전산 프로그램은 올바르게 만들진 것인가? 즉 자료가 정규분포로부터 얻어진 것이라 할 수 있는가? - 17 -

Slide 19: 

- 18 -

Slide 20: 

도수분포표 - 19 -

Slide 21: 

유의수준 5%로 가설 H0을 기각할 수 없다. 난수들이 정규분포에서 나온 것이 아니라고 단정할 수 없다. - 20 -

Slide 22: 

§14.2 분할표  관측된 범주형 자료를 두가지 다른 방법(기준)으로 분류할 때, 이 두가지 방법이 서로 독립적인지를 검증할 필요가 생길 수 있다. <예> 1. 여론조사에서 응답자들을 각각 분류해서, 이 주제에 대한 의견이 성별(또는 지역, 생활정도, 교육정도 등)과 무관한지 알아본다. 2. 마케팅조사에서 소비자를 분류해서 구매행태가 수입수준과 관계가 있는지를 알아본다. - 21 -

Slide 23: 

3. 생산현장에서 불량품을 불량품 발생이 작업교대조와 관련이 있는지를 알아본다. 4. 무시험으로 입학한 대학 2년생들을 각각 분류해서 대학성적이 고등학교 내신성적과 관계가 있는지를 알아본다.  한 모집단의 개체들을 특성(분류기준) A와 특성(분류기준) B에 따라 각각 몇 개씩의 범주로 나누어, 두 특성간에 관련성(dependency 또는 contingency)이 있는지를 검증하는 독립성 검정  분할표(contingency table) 검정: 하나의 모집단에서 두 특성 간의 독립성검정 동일성 검정(test of homogeneity): 여러개의 (다항) 모집단이 동일한지의 검정 - 22 -

Slide 24: 

(1) 분할표 검정 하나의 모집단에서 두 특성간의 독립성을 검정하는 것  실험(또는 조사의) 결과를 특성 A에 따라 r개의 범주 A1, ∙∙∙, Ar 로 분류 특성 B에 따라 c개의 범주 B1, ∙∙∙, Bc 로 분류 - 23 -

Slide 25: 

 <정리 14.1>에 의해 n이 크면 여기서 - 24 -

Slide 26: 

(연습문제 #9) - 25 -

Slide 27: 

여기서  독립성 검정을 하기 위해 범주형 자료를 표의 형태로 정리한 것  분할표(contingency table) - 26 - (13.10)

Slide 28: 

<표 14.1> - 27 -

Slide 29: 

<예제 14.4> 부부 264 쌍을 대상으로 남편과 아내가 지지하는 정당 조사 정당: A, B, C 남편과 아내가 지지하는 정당이 서로 독립인가? - 28 -

Slide 30: 

 여기서  남편과 아내가 지지하는 정당이 서로 연관이 있다. - 29 -

Slide 31: 

(2) 동일성 검정 여러 개의 다항 모집단이 동일한 지를 검정 <예> 어떤 주제에 대한 여론 조사 A: B:  인구 또는 집단의 구성비율에 따라 미리 정한 크기 표본을 뽑아 c개의 범주 B1, ∙∙∙,Bc 에 속하는 수를 센다. - 30 -

Slide 32: 

- 31 - <표 14.3>

Slide 33: 

<정리 14.1>에 의해 ni 가 크면  다항모집단 r 개 모집단 r 개가 모두 같으면 - 32 -

Slide 34: 

이들 다항 모집단 r 개가 모두 같은지를 검정하기 위한 가설 - 33 - (14.13)

Slide 35: 

 분할표 검정과 동일성 검정 ∙ ∙ ∙ 두 경우 모두  분포의 동일성 검정: 분할표 검정과 동일한 절차를 따른다. - 34 -

Slide 36: 

<예제 14.5> 남녀 각 50명을 대상으로 세 회사의 스포츠음료 중 가장 좋아하는 것을 고르게 하는 실험 남∙녀간에 좋아하는 제품에 차이가 있는가? - 35 -

Slide 37: 

   남∙녀에 따라 좋아하는 제품에 차이가 있다. - 36 -

Slide 38: 

<비모수적 방법>  모수적(parametric) 방법 : 모집단의 분포(함수)의 함수형태는 알고 있으나 이 분포에 포함된 모수(들)을 모른다고 가정 ∙ 추론은 주로 미지의 모수에 관한 것 ∙ 분포함수에 대한 가정이 실제와 다르면 추론 결과에 상당한 오류  비모수적(nonparametric) 방법 : 모집단의 분포(함수)의 형태조차 모르거나, 함수형태를 안다고 할 수 있을 정도로 충분한 자료가 없을 경우 ∙ 추론은 주로 미지의 분포함수에 관한 것 ∙ 관측값 자체보다는 순서나 부호 사용 ∙ 절차가 비교적 간단 ∙ 분포함수에 대한 가정이 만족될 때, 모수적 방법보다 성능이 떨어지나 그 정도가 크지 않다. - 37 -

Slide 39: 

 비모수적 방법은 실제로 언제 쓰이는가? ① 실험(조사)에 따라서는 반응변수의 값을 ∙ 수치로 측정하기 어렵거나 ∙ 수치는 큰 의미가 없고 그 상대적 크기가 의미가 있을 때 특히 사회과학에서의 연구나 / 소비자 행태분석 연구에 그러한 예가 많다. <예> 기업의 기술력 / 소비자의 기호 / 맛 등의 비교  측정값들 간의 상대적 크기(rank) 자료  두 모집단의 분포가 같은 지를 검정하는 방법 - 38 - ② 모수적 방법에서의 가정에 강한 의문이 생길 때

Slide 40: 

∙ 대립가설 H1으로서 가장 간단한 것: F와 G는 모양은 같고 위치만 다르다는 것 i) 모수적 위치 검정 모형 <예> H0 참  두 분포는 같다 H0 거짓  두 분포의 함수 모양은 같고 위치만 다르다 즉 - 39 -

Slide 41: 

 두 표본 t 검정 ii) 비모수적 위치검정모형 - 40 -

Slide 42: 

∙ H1은 지나치게 포괄적인 것이어서 좀더 범위를 좁힌 것 H1 : “Y의 분포는 X의 분포와 모양은 같으나 위치만 만큼 왼쪽으로 옮겨있는 것” 을 고려할 수 있다. - 41 -

Slide 43: 

이때 가설은 이 가설에 대한 검정은 어떻게 하는가? <예>  § 14.3 부호검정/ 분호순위검정 § 14.4 순위합 검정 § 14.5 Kruskal-Wallis 검정 § 14.6 run 검정 § 14.7 순위상관계수 비모수적 위치모형 - 42 -

Slide 44: 

§14.3 부호검정과 부호순위검정 §14.3.1 부호검정 부호(sign): 관측값이 특정값 보다 크다(+) 또는 작다(-)를 나타낸 것 순위(rank): 관측값을 작은 것부터 크기 순으로 나타냈을 때 나타나는 상대적 위치  부호나 순위는 분포의 형태나 이상점(outlier)의 영향을 덜 받는다 분포에 무관하게 이용가능  부호검정  하나의 모집단의 중심위치에 대한 검정 분포의 모양은 같으나 중심위치가 다를 수 있는 두 모집단의 대응비교 (비모수적 위치검정모형) - 43 -

Slide 45: 

i) 하나의 모집단의 중심위치에 대한 검정 ∙ 중심위치척도 : 중앙값 - 44 -

Slide 46: 

 모비율에 대한 가설검정 <예제 9.11> 소표본 <정리 10.19> 대표본 <예제 14.6> 자료: 10.18 10.12 9.84 9.25 8.98 10.43 10.05 10.56 - 45 -

Slide 47: 

ii) 중심위치만 다를 수 있는 두 모집단의 비교 ∙ - 46 -

Slide 48: 

 i)의 경우와 같이  검정절차 - 47 -

Slide 49: 

대립가설 <예제 14.7> 제품 10개의 무게를 계측기 A와 B로 측정한 것 제품번호 1 2 3 4 5 6 7 8 9 10 A 71 108 72 140 61 94 90 127 101 114 B 77 105 71 152 88 117 93 130 112 105 부호 - + + - - - - - - + - 48 -

Slide 50: 

계측기간에 차이가 있는가? - 49 -

Slide 51: 

 대표본 검정 - 50 -

Slide 52: 

§14.3.2 부호순위검정 윌콕슨(Wilcoxon)의 부호순위검정(signed rank test)  - 51 -

Slide 53: 

- 52 -

Slide 54: 

① T의 값이 아주 작으면  두 분포의 위치가 다르다 ② T+의 값이 아주 작으면  X가 Y의 보다 확률적으로 작다 (X의 분포가 Y의 분포의 왼쪽에) - 53 -

Slide 55: 

③ T-의 값이 아주 작으면  X가 Y의 보다 확률적으로 크다 (X의 분포가 Y의 분포의 오른쪽에) - 54 -

Slide 56: 

<예제 14.8> <예제 14.7>의 두 계측기 자료 - 55 -

Slide 57: 

 대표본 검정 (보충문제 #27*) - 56 -

Slide 58: 

§14.4 순위합 검정  두 모집단 A와 B의 분포가 같은지 또는 분포의 모양은 같으나 중심위치만 다른지를 검정 - 57 - Y X

Slide 59: 

부호검정/부호순위검정 : 대응표본 순위합 검정 : 독립적인 두 표본  윌콕슨(Wilcoxon)의 순위합검정(rank sum test) 두 모집단 A와 B에서 크기가 n1과 n2인 표본을 각각 독립적으로 뽑아 얻은 관측값들을 혼합하여 크기 순으로 1에서 n1+n2=n 까지 순위를 매기고, 을 구한다. ∙ 두 모집단의 분포가 같으면 - 58 -

Slide 60: 

 두 모집단의 분포의 중심위치가 다르면  관측값들이 각기 다른 방향으로 모일 것 <예> 같은 반 남학생 10명, 여학생 10명을 키 순서대로 한줄로 세우면 여학생은 주로 앞쪽에 / 남학생은 주로 뒤쪽에  기각역은 어떻게 정하는가? <예제 14.9> 식이요법 A와 B의 체중감소효과를 비교하기 위해 비만증 환자 9명을 대상으로 임상실험 4명에는 식이요법 A, 5명에는 식이요법 B를 실시한 결과의 체중감소량 (괄호 안의 수치는 순위) - 59 -

Slide 61: 

- 60 -

Slide 62: 

- 61 -

Slide 63: 

∙ 이 순위합검정은 1945 Wilcoxon이 처음 제안 (n1=n2인 경우) Mann과 Whitney가 1947 n1≠n2인 경우로 확장  맨-휘트니 검정 - 62 -

Slide 64: 

윌콕슨의 순위합 검정 맨-휘트니 검정 본질적으로 같은 것이나 ∙ 검정통계량 / 적용절차가 다르다 ∙ 맨-휘트니 검정통계량의 분포 / 임계값이 표로 나와있어 보다 널리 쓰인다. 맨-휘트니 검정 검정통계량 U: - 63 -

Slide 65: 

∙ <예제 14.9>의 표 14.6의 자료 0 2 3 4 5 6 7 9 A A,B B A A B B B  맨-휘트니 검정통계량의 값은 윌콕슨 순위합 통계량의 값으로 표현 가능 (연습문제 #9*) - 64 -

Slide 66: 

여기서  모집단 A의 분포가 모집단 B의 분포의 오른쪽에 위치  모집단 A의 분포가 모집단 B의 분포의 왼쪽에 위치 - 65 -

Slide 67: 

i) 대립가설이 인 양측검정인 경우: ii) 대립가설이 인 단측검정인 경우: - 66 -

Slide 68: 

ii) 대립가설이 인 단측검정인 경우:  - 67 -

Slide 69: 

<예제 14.10> <예제 14.9>의 자료 - 68 -

Slide 70: 

 대표본 검정 (보충문제 #28*) - 69 -

Slide 71: 

* 맨-휘트니 검정 윌콕슨의 순위합 검정 과 두 표본 t 검정 ∙ 세 검정모두 서로 독립인 두 표본으로 ∙ 맨-휘트니 검정 / 윌콕슨의 순위합 검정은 표본에 있는 정보를 모두 쓰는 것이 아니라 순위들만 쓴다  두 표본 t 검정보다 효율이 떨어진다. ∙ 실제로는 효율이 크게 떨어지는 것은 아니다. <예> 모집단이 정규분포를 따를 때 맨-휘트니 검정의 α, β 과오 확률과 똑같은 과오확률을 가지기 위해 필요한 t 검정의 표본수는 맨-휘트니 검정의 표본수의 90% 정도 - 70 -

Slide 72: 

§14.5 크러스칼-월리스 검정  윌콕슨의 순위합 검정을 k (k≥2)개의 모집단을 비교하는 검정으로 일반화 한 것으로, §13.2 일원배치법의 분산분석에 대응되는 비모수적 방법  크러스칼-월리스 검정 * §13.2 일원배치모형 : - 71 -

Slide 73: 

- 72 -

Slide 74: 

 일원배치의 분산분석에서 (식(13.4), 연습문제 #13.2.7) - 73 -

Slide 75: 

 Kruskal 과 Wallis가 제안한 검정통계량 (연습문제 #11*) * H의 분포표가 k와 ni들이 작은 값에 대해 나와는 있으나 널리 알려져 있지는 않다. * - 74 -

Slide 76: 

<예제 14.11> 통계수업이 3개 반으로 나뉘어 진행 각 반에서 10명 씩 뽑아 시험을 치른 점수 각 반에 속한 학생들의 학업성취도가 같은가? - 75 -

Slide 77: 

 k=2 인 경우 크러스칼-월리스 검정은 윌콕슨 순위합검정의 양측검정과 동일하게 된다. k=2 일 때, H의 값: - 76 -

Slide 78: 

 - 77 -

Slide 79: 

§14.6 런 검정 <예> 흰 구슬 5개와 검은 구슬 5개가 들어있는 주머니에서 하나씩 비복원으로 뽑는 실험의 결과  두 종류의 구슬이 무작위하게 뽑혔는가?  한줄로 나열했을 때 주기성이 없이 얼마나 고르게 섞여있는가? ①, ② 흰 구슬과 검은 구슬들이 몰려있다. ③ 흰 구슬과 검은 구슬이 주기적으로 반복해서 나타난다. ① ● ● ● ● ● ○ ○ ○ ○ ○ ② ● ● ● ○ ○ ○ ○ ○ ● ● ③ ● ○ ● ○ ● ○ ● ○ ● ○ - 78 -

Slide 80: 

주기성이 없이 고르게 섞여있다고 할 수 없다. 실험이 무작위하게 수행되었다고 보기 어렵다.  두 종류의 사건이 일어나는 순서에 대한 무작위성(randomness)은 한 사건이 얼마나 연속해서 일어나는가로 평가 런(run) : 동일한 종류에 속하는 사건의 연속 예: ① 길이 5인 런, 길이 5인 런  런 2개 ② 길이 3인 런, 길이 5인 런, 길이 2인 런  런 3개 ③ 길이 1인 런, 길이 1인 런, …  런 10개 런검정(run test) : 런을 이용하여 일련의 사건의 발생에 대한 무작위성을 검정하는 것 ∙ 런의 수 ∙ 런의 길이  여기서는 런의 수를 쓰는 검정만 다룬다. - 79 -

Slide 81: 

 가설은 H0 : 두사건(흰 구슬과 검은 구슬)이 무작위한 순서로 일어난다. H1 : H0가 아니다. 검정통계량이 런의 수 R일 경우, 기각역을 구하려면, H0가 참일 때 R의 분포를 구해야  흰 구슬 n1개와 검은 구슬 n2 개가 들어있는 주머니에서 하나씩 비복원으로 뽑아 한줄로 나열하는 실험에서 X1 : 흰 구슬의 런의 수 X2 : 검은 구슬의 런의 수 - 80 -

Slide 82: 

a) b) ○ | ○ ○ ○ | ○ ○ | ○ ∙ ∙ ∙ | ○ | ○ ○ ○ | ○ - 81 -

Slide 83: 

c) - 82 -

Slide 84: 

d) R=r인 경우를 보면 r 짝수 r 홀수 (연습문제 #9) - 83 -

Slide 85: 

 부록의 표 B.9a : 부록의 표 B.9b : <예제 14.12> 운전면허시험 20 문항의 정답여부가 O X O O X O X O X X O O X O X O X X X O 으로 나타나도록 문제를 배열 O와 X가 무작위로 배열되었다고 할 수 있는가? - 84 -

Slide 86: 

* 런 검정은 시간에 따른 일련의 측정값 즉 시계열이 무작위한지를 검정하는 데도 쓰인다. - 85 -

Slide 87: 

<시계열의 예> 화학제품의 품질특성 특정제품에 대한 수요 물가지수 등  시간에 따라 어떤 경향을 갖거나 주기성을 띈다.  시계열에 대한 무작위성 검정 ① 어떤 기준점으로부터 벗어난 방향 조사 <예> 목표값보다 크거나 작은 측정값의 런의 개수로 수준의 변화여부를 판단 ② 측정값의 연속적인 증가 또는 감소 조사 <예> 연속적으로 증가하는 상승런과 연속으로 감소하는 하강런의 개수로 시계열에 주기성이 있는지를 판단. - 86 -

Slide 88: 

<예제 14.13> 화학제품의 순도(단위%)를 매시간 측정하여 타점한 것 이 자료들이 무작위 한가? ∙ 측정값들을 평균을 기준으로 평균보다 크다(U), 또는 작다(D)로 표시  D D D D U U D U U D U D D D D - 87 -

Slide 89: 

* 런 검정은 맨-휘트니 검정처럼 두 모집단 A와 B를 비교하는 데도 쓸 수 있다. ∙ 두 표본의 측정값들을 혼합하여 크기순으로 나열 ∙ 해당 모집단에 따라 A와 B로 표시 ∙ ∙ r 이 작으면 두 모집단에 차이가 있다는 증거  기각역 - 88 -

Slide 90: 

 대표본 검정 (보충문제 #29*) - 89 -

Slide 91: 

§14.7 순위상관계수 식(12.42) 식(12.45) - 90 -

Slide 92: 

 스피어맨(Spearman)의 순위상관계수(rank correlation coefficient) - 91 -

Slide 93: 

여기서 - 92 - (14.31)

Slide 94: 

보충문제 #30*(a) <예제14.14> 입사시험에서 서류심사에 통과한 10명의 면접시험과 필기시험 결과 면접시험: 점수화가 힘들어 상대적 순위만 - 93 -

Slide 95: 

보충문제 #30*(b) - 94 -

Slide 96: 

부록의 표 B.10 : 예: - 95 -

Slide 97: 

<예제 14.15> <예제 14.14>에서 - 96 -

authorStream Live Help