Preben Blæsild og Jens Ledet Jensen

Transkript

1 χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010

2 Program Forelæsning Statlab: I arbejder, vi cirkler rundt Frokost Øvelser: I fremlægger jeres resultater

3 Program for forelæsning Challenger katastrofen Model / Teststørrelse / p-værdi χ 2 -test 2 modeller, 2 hypoteser teststørrelse, frihedsgrader hvorfor χ 2 -fordeling χ 2 -test generelt Brug af excel Andre test - Andre modeller

4 Challenger Challenger katastrofen 28/ Aftenen før opsendelse: ingeniører forsøgte at advare mod problemer med O-ringe ved lave temperaturer Temperatur: 31 F ( 1 C)

5 Challenger Data (Rogers Commission report 1986) Missed opportunity: så kun på flyvninger med fejl

6 Challenger Model Hver opsendelse kan enten resultere i fejl i O-ringe eller resultere i ingen fejl i O-ringe Sandsynligheden for fejl er p(t ) T er temperaturen Data: 24 sammenhørende værdier af temperatur og indikator for fejl Fejl i 7 og ingen fejl i 17

7 Challenger Hypotese Ingen afhængighed af temperatur: p(t ) = konstant Under hypotesen: de 7 flyvninger med fejl vælges tilfældigt blandt de 24 flyvninger Eksempel på alternativ: log ( p(t ) 1 p(t )) = α βt P(Data) = c(α, β) exp{24α β 24 i=1 T ix i } x i er 1 ved fejl og 0 ved ingen fejl Teststørrelse: 24 i=1 T ix i = i:x i =1 T i observeret værdi = 446

8 Challenger Simulere p-værdi Trække 7 tilfældigt blandt de 24 og beregne sum af de 7 tilhørende temperaturer. Gentage 1 million gange. Density Histogram of sim Data: sim Konklusion: hvis der ingen sammenhæng er mellem temperatur og fejlsandsynlighed, vil sandsynligheden for at få en sum af temperaturer fra 7 flyvninger med fejl, der er mindre end eller lig med 446 være cirka 0.32% Da denne er lille tror vi ikke på hypotesen om ingen sammenhæng

9 Challenger p-værdi p-værdien: forestiller os at vi laver uafhængige gentagelser af eksperimentet i situationen hvor hypotesen er sand Beregner hvor ofte vi får udfald der er mere ekstreme end det faktisk observerede p-værdi = hyppighed af mere ekstreme udfald Mere ekstrem: defineres ud fra valg af teststørrelse

10 Challenger p-værdi p-værdien < 0.05: det observerede er meget usædvanligt under hypotesen: data strider mod hypotesen og vi tror ikke på hypotesen p-værdien > 0.05: det observerede er normalt under hypotesen: data strider ikke mod hypotesen, der er ikke grund til at forkaste hypotesen p-værdien er IKKE sandsynligheden for at hypotesen er sand

11 Challenger Tre vigtige punkter Model: bestemt af den sandsynlighedsmekanisme der frembringer data Teststørrelse: vælges klogt af statistiker p-værdi: beregnes (eller simuleres) under hypotesen

12 Challenger En test af jer Er det godt at få en stor p-værdi? JA NEJ

13 To dataeksempler Teststørrelse χ 2 approksimationen Dataeksempel I Ved 715 indlæggelser af spædbørn har man registreret om moderen har givet lav eller høj omsorg og om barnet har overlevet død lever lav høj Spørgsmål: er overlevelse uafhængig af graden af omsorg? Hvad synes I?

14 To dataeksempler Teststørrelse χ 2 approksimationen Generel model I n individer vælges tilfældigt fra population: individer er uafhængige For hvert individ undersøges to egenskaber der er r muligheder for den ene egenskab der er s muligheder for den anden egenskab r s tabel: x ij er antallet af individer der falder i celle (i, j) d.v.s. har værdien i for den første egenskab og værdien j for den anden egenskab x 11 x 1s x x r1 x rs x r x 1 x s n

15 To dataeksempler Teststørrelse χ 2 approksimationen General model I Sandsynlighed for at falde i række i og søjle j, d.v.s. celle (i, j) er p ij grundmodel: p ij er vilkårlige: p ij > 0, r s i=1 j=1 p ij = 1 Hypotese om uafhængighed: p ij = ρ i σ j ρ i = sandsynlighed for at falde i række i σ j = sandsynlighed for at falde i søjle j Sandsynlighed for at falde i søjle j givet at individ falder i række i er σ j, d.v.s. uafhængig af i

16 To dataeksempler Teststørrelse χ 2 approksimationen Dataeksempel II Blandt 1176 Thulearbejdere, der deltog i oprydning efter nedstyrtning af B52 bombefly fik 40 kræft indenfor en bestemt tidsperiode Blandt 3025 Thulearbejdere, der var rejst hjem før nedstyrtningen, fik 100 kræft i en tilsvarende tidsperiode kræft ikke kræft total under B før B Spørgsmål: er der samme kræfthyppighed i de to grupper af Thulearbejdere

17 To dataeksempler Teststørrelse χ 2 approksimationen Generel model II Vi har r populationer Fra den i te population vælges n i individer tilfældigt For hvert individ undersøges en egenskab der er s muligheder for denne egenskab r s-table: x ij er antallet af individer fra population i der falder i kasse j x 11 x 1s n x r1 x rs n r x 1 x s n

18 To dataeksempler Teststørrelse χ 2 approksimationen General model II Sandsynlighed for at individ fra population i falder i kasse j er p ij grundmodel: p ij er vilkårlige: p ij > 0, for hvert i: s j=1 p ij = 1 Hypotese om homogenitet: p ij = π j π j = fælles sandsynlighed for at falde i kasse j

19 To dataeksempler Teststørrelse χ 2 approksimationen Teststørrelse Klassiske (Karl Pearson, 1900): X 2 = celler (observerede forventede) 2 forventede skalerede kvadrerede afstande Statistiker i dag: 2 ln(q)= 2 celler obs ln( ) obs forv Generelt princip: Q = max hypotese P(data) max grundmodel P(data) Generelt resultat: under hypotesen: 2 ln(q) χ 2 (f ), X 2 χ 2 (f ) f = antal (frie) parametre i grundmodel antal (frie) parametre under hypotesen

20 To dataeksempler Teststørrelse χ 2 approksimationen Frie parametre Resultat: Med følgende setup: model: n individer fordeles på k kasser sandsynligheden for at falde i kasse j er p j sandsynlighederne kan være vilkårlige: p j > 0, k j=1 p j = 1 er antallet af frie parametre k 1 Bevis: p k = 1 p 1 p k 1 (p 1,..., p k 1 ) kan variere i et åbent område: p j > 0, k 1 j=1 p j < 1

21 To dataeksempler Teststørrelse χ 2 approksimationen Frihedsgrader Model I: test for uafhængighed grundmodel: ingen bånd på p ij : r s 1 frie parametre hypotesen: p ij = ρ i σ j : (r 1) + (s 1) frie parametre f = [r s 1] [(r 1) + (s 1)] = (r 1)(s 1) Model II: test for homogenitet grundmodel: for alle i = 1,..., r er s j=1 p ij = 1: r (s 1) frie parametre hypotesen: p ij = π j : s 1 frie parametre f = [r (s 1)] [s 1] = (r 1)(s 1)

22 To dataeksempler Teststørrelse χ 2 approksimationen Forventede antal Forventede = samlede antal skøn over sandsynlighed for at falde i kasse under hypotesen Model I: test for uafhængighed forventede ij = n ˆρ i ˆσ j = n x i x j n n Model II: test for homogenitet forventede ij = n i ˆπ j = n i x j n = x i x j n = x i x j n Forventede = rækkesum søjlesum / samlede antal

23 To dataeksempler Teststørrelse χ 2 approksimationen Cochrans regel Når vi finder p-værdien fra en χ 2 -fordeling er dette en approksimation Må bruges når: alle forventede er 1 højst 20% af de forventede er mindre end 5 Hvis dette ikke er opfyldt, så: eventuelt simulere eventuelt bruge Fishers eksakte test

24 To dataeksempler Teststørrelse χ 2 approksimationen Beregning af p-værdi Da store værdier af X 2 -teststørrelsen er kritiske og er testsandsynligheden X 2 χ 2 (f ), p-værdi = P(χ 2 (f ) X 2 ), som kan beregnes ved hjælp af Excel funktionen CHIFORDELING, idet P(χ 2 (f ) X 2 ) = CHIFORDELING(X 2 ; f ). Tilsvarende bemærkninger gælder for 2 ln(q)-teststørrelsen.

25 To dataeksempler Teststørrelse χ 2 approksimationen Illustration af approksimation: 2 ln(q) Ser på 2 2 tabel: x 11 x 12 n 1 x 21 x 22 n 1 Hypotese: p 11 = p 21 = p, p 12 = p 22 = 1 p P(χ 2 (1) 3.84) = 0.05 Finde P(teststørrelse 3.84) Regel: n 1 p 5, n 1 (1 p) 5, n 1 (1 p) 5, n 2 (1 p) 5

26 To dataeksempler Teststørrelse χ 2 approksimationen Illustration af approksimation: 2 ln(q) n1=25; n2=25; p=0.4 pberegn=0 # sandsynlighed for værdi >= 3.84 for (x1 in 0:n1){ for (x2 in 0:n2){ phat=(x1+x2)/(n1+n2) X2=(x1-n1*phat)^2/(n1*phat)+(n1-x1-n1*(1-phat))^2/(n1*(1-ph (x2-n2*phat)^2/(n2*phat)+(n2-x2-n2*(1-phat))^2/(n2*(1-ph if (X2>=3.84){ pberegn=pberegn+dbinom(x1,n1,p)*dbinom(x2,n2,p)} }} pberegn

27 To dataeksempler Teststørrelse χ 2 approksimationen Illustration af approksimation: 2 ln(q) n1=25, n2=25 n1=50, n2=25 P( 2lnQ>=3.84) P( 2lnQ>=3.84) faelles p faelles p n1=50, n2=50 n1=100, n2=100 P( 2lnQ>=3.84) P( 2lnQ>=3.84) faelles p faelles p

28 To dataeksempler Teststørrelse χ 2 approksimationen Illustration af approksimation: X 2 n1=25, n2=25 n1=50, n2=25 P(X2>=3.84) P(X2>=3.84) faelles p faelles p n1=50, n2=50 n1=100, n2=100 P(X2>=3.84) P(X2>=3.84) faelles p faelles p

29 To dataeksempler Teststørrelse χ 2 approksimationen Hvorfor χ 2 approksimationen Definition på en χ 2 (f )-fordeling: lad U 1,..., U f være uafhængige N(0, 1)-fordelte V = U U2 f siges at følge en χ 2 (f )-fordeling P(χ 2 (1) > 3.84) = 0.05, P(χ 2 (2) > 5.99) = 0.05 Karl Pearson 1900: obs i forv i lineær transformation: ukorrelerede og varians = 1 kvadrere og summere: X 2

30 To dataeksempler Teststørrelse χ 2 approksimationen To dataeksempler Spædbørnsdødelighed: observerede antal død lever lav høj X 2 = 5.24, P(χ 2 (1) 5.24) = forventede antal død lever lav høj Thulearbejdere: observerede antal kræft ikke kræft total under B før B X 2 = 0.023, P(χ 2 (1) 0.023) = 0.88 forventede antal kræft ikke kræft

31 To dataeksempler Teststørrelse χ 2 approksimationen Pause Preben tager over

32 χ 2 -test: generelt χ 2 -test: generelt Tælledata: k kasser x j = antal der falder i kasse j n = x x k, samlede antal Grundmodel: sandsynlighed p j for at falde i kasse j er vilkårlig 0 < p j < 1, p p k = 1 Hypotese: p j = π j (θ) θ: parameter, π j ( ) kendt funktion ˆθ: find θ der maksimerer k j=1 π j(θ) x j

33 χ 2 -test: generelt χ 2 -test: generelt Forventede under hypotesen: Teststørrelse: e j = n π j (ˆθ) 2 ln(q) = 2 k j=1 x j ln ( x j e j ) eller X 2 = k (x j e j ) 2 j=1 e j Approksimative p-værdi: sandsynlighed for at få en værdi teststørrelse i en χ 2 (f )-fordeling f = (k 1) (dimension af θ) p-værdi = P(χ 2 (f ) 2 ln(q)) eller P(χ 2 (f ) X 2 )

34 χ 2 -test: generelt χ 2 -test: k = 2 Tælledata: k = 2 kasser (her kaldet + og ) antal der falder i kasse + er lig med x antal der falder i kasse er lig med n x + ialt x n x n Grundmodel p = sandsynlighed for at falde i kasse + 1 p = sandsynlighed for at falde i kasse 0 < p < 1 Hypotese: p = p 0 hvor p 0 er vilkårlig men kendt frihedsgrader f = k 1 0 = = 1

35 χ 2 -test: generelt χ 2 -test: k = 2, X 2 -teststørrelsen X 2 -teststørrelsen beregnes ud fra: observerede antal + ialt x n x n forventede antal + ialt np 0 n(1 p 0 ) n X 2 = (x np 0) 2 + ((n x) n(1 p 0)) 2 np 0 n(1 p 0 ) = (x np 0) 2 ( ) n p 0 1 p 0 = (x np 0) 2 np 0 (1 p 0 ) = ( (x np 0 ) np0 (1 p 0 ) ) 2

36 χ 2 -test: generelt χ 2 -test: k = 2, X 2 -teststørrelsens fordeling Hvorfor χ 2 (1): X i = 1 hvis individ i falder i kasse +, 0 ellers sandsynlighed for at falde i kasse + er p 0 n i=1 X i np 0 np0 (1 p 0 ) N(0, 1) Centrale grænseværdisætning: sum af mange små uafhængige led har en fordeling der ligner normalfordelingen Da X = n i=1 X i er X np 0 np0 (1 p 0 ) N(0, 1) X 2 = ( (X np 0 ) np0 (1 p 0 )) 2 χ 2 (1)

37 χ 2 -test: generelt χ 2 -test: k = 2, eksempel Partiet Æ fik ved sidste valg 25 % af stemmerne. I en opinionsundersøgelse, hvori 1200 deltager, tilkendegiver 335, at de vil stemme på Æ. Har tilslutningen til partiet ændret sig? Teste hypotesen p = 0.25 Æ andet ialt observeret forventet Da de forventede antal er > 5, beregnes og p-værdien X 2 = ( ) = 5.44 p-værdi = P(χ 2 (1) 5.44) = , så tilslutningen har ændret sig. Da 335/1200 = 27.9%, er Æ gået frem.

38 χ 2 -test: generelt χ 2 -test: k = 3, eksempel 100 personer bliver spurgt om, hvilket af to vaskepulvere A og B de foretrækker. Resultatet blev: A (x 1 ) B (x 2 ) ved ikke (x 3 ) ialt Spørgsmålet om, at vaskepulverne er lige populære, kan afgøres ved at teste hypotesen (p 1, p 2, p 3 ) = (θ, θ, 1 2θ), hvor parameteren θ ligger i intervallet ]0, 0.5[. Starter med at finde ˆθ, der maksimerer funktionen L(θ) = θ x 1 θ x 2 (1 2θ) x 3 eller, ækvivalent hermed, funktionen l(θ) = ln(l(θ)) = (x 1 + x 2 ) ln(θ) + x 3 ln(1 2θ).

39 χ 2 -test: generelt χ 2 -test: k = 3, eksempel (fortsat) Maksimum for l(θ) antages i ˆθ = x 1 + x 2. 2n De forventede antal bliver derfor så (e 1, e 2, e 3 ) = n(ˆθ, ˆθ, 1 2ˆθ) = ( x 1 + x 2 2 A B ved ikke ialt observeret forventet , x 1 + x 2, x 3 ), 2 De forventede antal >5 så X 2 -testet kan benyttes. f = 3 1 1, så X 2 = 2.90 og p-værdi = P(χ 2 (1) 2.90) = Vi kan derfor ikke afvise, at de to vaskepulvere er lige populære.

40 χ 2 -test: generelt Goodness of fit test Måling: styrken af jordens magnetfelt (målt i lava) vi måler en kontinuert variabel (ingen kasser vi falder i) Spørgsmål: er X = ln(styrken) normalfordelt? d.v.s.: P(a < X < b) = b 1 a exp{ 1 (x µ) 2} dx 2πσ 2 2σ målinger fra forskellige geologiske perioder x 1, x 2,..., x n, n = 2163

41 χ 2 -test: generelt Kontinuerte data tælledata Inddeler aksen med ln(magnetstyrker): (, z 1 ], (z 1, z 2 ],..., (z k 1, z k ], (z k, ) Ser blot på hvilket interval ( kasse ) x i falder i: a j = antal blandt x 1,..., x n der falder i kasse j

42 χ 2 -test: generelt Data styrke antal < >

43 χ 2 -test: generelt Histogram taethed ln(styrke)

44 χ 2 -test: generelt Fraktilsamenligning Fraktilsammenligning N(0,1) fraktiler ln(styrke)

45 χ 2 -test: generelt Model Model M 0 : p j sandsynlighed for at falde i kasse j er vilkårlig p j > 0, j p j = 1 (siger ikke noget om fordeling af X ) Model M 1 : p j (µ, σ 2 ) = z j z j 1 1 2πσ 2 exp{ 1 2σ 2 (x µ) 2} dx (X er normalfordelt) Forventede under M 1 : e j = n p j (ˆµ, ˆσ 2 )

46 χ 2 -test: generelt Forventede styrke antal forventede (obs-forv) 2 /forv < > Test for goodness of fit: X 2 = 92.3 p-værdi: 1 P(χ 2 (14 1 2) 92.3) = (Cochrans regel!)

47 χ 2 -test: generelt χ 2 -test: Excel

48 Fordeling af variansestimat t-fordelingen t-test F -fordelingen F -test Andre anvendelser af chi2-fordelingen modeller for normalfordelte data fordeling af variansestimat t-test F -test generelle modeller fordeling af 2ln(Q)-teststørrelsen

49 Fordeling af variansestimat t-fordelingen t-test F -fordelingen F -test Fordeling af variansestimat i normalfordeling Lad x 1,..., x n være realisationer af uafhængige identisk N(µ, σ 2 )-fordelte stokastiske variable X 1,..., X n. Som skøn over middelværdien µ benyttes den empiriske middelværdi, gennemsnittet, x = 1 n n i=1 x i N(µ, σ2 n ) og som skøn over variansen σ 2 den empiriske varians, dvs. s 2 = 1 n (x i x ) 2 σ 2 χ 2 (n 1)/(n 1), n 1 så i=1 n 1 σ 2 s2 = n (x i x ) 2 χ 2 (n 1). i=1 De tilsvarende stokastiske variable X og s 2 (X) er uafhængige.

50 Fordeling af variansestimat t-fordelingen t-test F -fordelingen F -test t-fordelingen Hvis U og Z er to uafhængige stokastiske variable således at U N(0, 1) og Z χ 2 (f )/f, er størrelsen t = U Z t-fordelt med f frihedsgrader og vi skriver t t(f ). Symbolsk kan definitionen af t-fordelingen gengives som t(f ) = N(0, 1) χ 2 (f )/f, hvis vi husker på at nævner og tæller symboliserer uafhængige stokastiske variable. Fordelingen kaldes undertiden Student fordelingen eller Student s t-fordeling.

51 Fordeling af variansestimat t-fordelingen t-test F -fordelingen F -test t-test Lad x 1,..., x n være realisationer af uafhængige identisk N(µ, σ 2 )-fordelte stokastiske variable X 1,..., X n. Hypotese µ = µ 0, hvor µ 0 er kendt. Hvis σ 2 er ukendt benyttes t-teststørrelsen t(x) = t(x 1,..., x n ) = x µ 0 s 2 /n og p-værdien bliver hvor t t(n 1). p-værdi = 2P(t t(x) ),

52 Fordeling af variansestimat t-fordelingen t-test F -fordelingen F -test F -fordelingen Lad Z 1 og Z 2 være to uafhængige stokastiske variable så Z i χ 2 (f i )/f i, i = 1, 2. Da er den stokastiske variabel F = Z 1 Z 2 F -fordelt med (f 1, f 2 ) frihedsgrader, eller med f 1 frihedsgrader i tælleren og f 2 frihedgrader i nævneren. Symbolsk er definitionen F (f 1, f 2 ) = χ2 (f 1 )/f 1 χ 2 (f 2 )/f 2, hvor tæller og nævner symboliserer uafhængige stokastiske variable.

53 Fordeling af variansestimat t-fordelingen t-test F -fordelingen F -test F -test Antag, at man i en model har to uafhængige variansskøn og s 2 1 σ 2 χ 2 (f 1 )/(f 1 ), s 2 2 σ 2 χ 2 (f 2 )/(f 2 ) Rimeligheden af modellen kan da ofte vurderes ved hjælp af F = s2 1 s2 2 F (f 1, f 2 ). Beregning af testsandsynligheden p afhænger af modellen.

54 Referenser χ 2 -test t-test Blæsild,P. og Kristensen,L.B.(2006):JOKER statistik. Hæfte 10 i serien Matematiske emner, Matematiklærerforeningen. Christensen,E.S.: At træffe sine valg i en usikker verden - eller den statistiske modellerings rolle. Aalborg Universitet. Poulsen,J.R Poulsen, Vestergaard,H. og Lundbye-Christensen,S.: Hvad er meningen? Aalborg Universitet. Blæsild,P. og Kristensen,L.B.(2007):Statistik i løb. Hæfte 11 i serien Matematiske emner, Matematiklærerforeningen.

55 Referenser (fortsat) Begynderlærebog i statistik Jensen,J.L.(2010):Et Nanokursus i Statistik. Institut for Matematiske Fag, Aarhus Universitet. Gratis programpakke R (kan findes på nettet ved at lave Google-søgningen R. og gå ind under The R Project for Statistical Computing )