Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger

Uge 49 I Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte test for sammenligning af to binomialford. Multinomialfordelingen som betinget poissonfordeling Givet: stikprøve x 1,,x I af I uafhængige observationer Model: X i ~ Ps(λ i ) i = 1,,I. Hypotesen H 0 : λ i = α i λ overfor H 1 : λ i α i λ i = 1,,I, hvor α i er givne konstanter med α i = 1, ønskes afprøvet. Sætning : hvis X 1,,X I er uafhængige stok. var. og X i ~ Ps(λ i ) i = 1,,I vil (X 1,,X I X. = x.) ~ Mult(x., λ 1 / λ.,, λ I / λ.), 1

hvor I i λ=. λ, x. = x, X. = X I I i= 1 i i= 1 i i= 1 Den betingede fordeling er altså en multinomialfordeling med kendte sandsynlighedsparametre p i = λ i / λ.= α i i = 1,,I. Vi får derfor videre at H 0 kan afprøves med Q-teststørrelsen. (16.39) Q = I i= 1 (Xi x. αi) x. α i 2 som i medfør af sætning 16.1 approximativt er χ 2 (I 1) -fordelt. Test i diskrete fordelinger Nulhypotesen er H 0 : θ = θ 0, hvor θ er parameter i den diskrete stokastiske variabel X s punktsandsynlighed f(x θ). Antag en observation x foretages, og at x stor medfører θ stor. Da haves 2

Alternativ Signifikanssandsynlighed H 1 : θ > θ 0 p= P(X x H 0) = f(z θ0) z x H 1 : θ < θ 0 p= P(X x H 0) = f(z θ0) z x H 1 : θ θ 0 p= 2 min{ f(z θ0), f(z θ0)} z x z x Eksakt test for sammenligning af to poissonfordelinger Sætning 16.3 for I = 2 : Hvis X i ~ Ps(λ i ) i = 1,2 samt X 1 og X 2 stok. uafh. er (X 1 X 1 + X 2 = x. ) ~ bin(n = x., p = λ 1 /(λ 1 + λ 2 ) ). Med brug af denne sætning kan nedenstående hypotese testes. H 0 : λ 1 = k λ 2 mod H 1 : λ 1 k λ 2 med α = 0.05 hvor k er en positiv konstant. Under H 0 haves (X 1 X 1 + X 2 = x. ) ~ bin(n = x., p = λ 1 /(λ 1 + λ 2 ) =k/(1+ k) ). Dvs. p = 2 min{ f (z x.,k /(1 + k)), f (z x.,k /(1 + k))}. z x z x 1 1 I praksis benyttes ofte normalfordelingsapproximationen X1 x.k/(1+ k) U= x.k /(1 + k) 2 a N(0,1), 3

ud fra hvilken signifikanssandsynligheden kan beregnes. Dette test kan forudsat k = 1 også udføres som et approximativt test, hvor teststørrelsen fremkommer fra (16.39) for I = 2. Er den alternative hypotese énsidet, kan testet derimod kun udføres som et eksakt test. Eksempel Antallet af kunder i en bestemt butik antages at være Poissonfordelt. I tabellen nedenfor er vist antal kunder torsdag og lørdag i de angivne tidsrum i to uger. Vi ønsker at teste a) om det forventede antal kunder er forskelligt fra den ene torsdag til den anden. b) om det forventede antal kunder torsdag og lørdag afviger fra hinanden. Torsdag Lørdag ----- antal kunder ---- Tidsrum 1. uge 14.00 til 15.00 12 17 2. uge 14.00 til 15.30 22 25 4

Ad a) Lad X i være antal kunder i butikken i i'te uge i de angivne tidsrum i=1,2. Desuden antag at X i ~ Ps(λ i T i ) i = 1,2 samt at X 1 og X 2 er stok. uafh. T 1 og T 2 er tidsperioder af hhv. 1 time og 1.5 times længde. Under disse forudsætninger skal hypotesen H 0 : λ 1 = λ 2 = λ testes overfor H 1 : λ 1 λ 2 med α = 0.05. Under H 0 haves (X 1 X 1 + X 2 = 34) ~ bin( n = 34, p = T 1 /(T 1 + T 2 ) = 0.4) dvs. den eksakte signifikanssandsynlighed bliver p = 2 P(X 1 12 n = 34, p = 0.4) = 2 0.3542 = 0.71 > α = 0.05. H 0 kan altså ikke forkastes. Der er således ikke signifikant forskel på antal kunder de to torsdage. Der er i øvrigt heller ikke signifikant forskel på antal kunder de to lørdage, idet p bliver p = 2 P(X 1 17 n = 42, p = 0.4) = 2 0.4090 = 0.82 > α = 0.05. Ad b) Lad nu Y T betegne det samlede antal kunder i butikken i tidsperioden i hver af de to uger om torsdagen og lad Y L betegne det samme antal blot om lørdagen. Antag endvidere at Y T og Y L er stok. uafh. Vi har da Y T ~ Ps(λ T (T 1 + T 2 )) Y L ~ Ps(λ L (T 1 + T 2 )) og videre at 5

(Y T Y T + Y L = 76) ~ bin( n = 76, p = 0.5). Hypotesen H 0 : λ T = λ L = λ overfor H 1 : λ T λ L med α = 0.05, at antallet af kunder torsdage og lørdage er ens, kan ikke forkastes, idet p = 2 P(Y T 34 n = 76, p = 0.5) = 2 0.2111 = 0.42 > α = 0.05. Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte test for sammenligning af to binomialford. o Eksempel 6

Opsummering af multinomialfordelingen Bruges til beskrivelse af antal observationer i et givet antal forskellige kategorier. Spørgeskemaundersøgelser, meningsmålinger mm Kontrol af diskrete fordelinger Kontrol af kontinuerte fordelinger Sammenligning af poissonfordelinger betinget test Kontingenstabeller (kap. 17). Hypergeometrisk fordeling som betinget binomialford. Fishers eksakte test Givet: x 1, x 2, hvor X i ~ bin(n i, p i ) i = 1,2 samt X 1 og X 2 stokastisk uafhængige. H 0 : p 1 = p 2 mod H 1 : p 1 p 2 med α = 0.05. Under H 0 haves, jfr. sætning 16.4 (X 1 X 1 +X 2 = x.) ~ hyperg(x., n 1, n), hvor n = n 1 +n 2. Dvs. p 2 min{ f(z x.,n,n), f(z x.,n,n)}. = z x 1 z x 1 1 1 7

Dette er det berømte test, der kaldes Fishers eksakte test for sammenligning af to binomialfordelinger. I praksis benyttes ofte normalfordelingsapproximationen U = X n x./n 1 1 n (x./n)(1 x./n)(n /(n 1)) 1 2 ud fra hvilken signifikanssandsynligheden kan beregnes. Teststørrelsen kan omskrives således at det fremgår, at der er tale om sammenligning af relative hyppigheder : X1 n1x./ n nx1 n1x. U = = n (x./ n)(1 x./ n)(n /(n 1)) (x./n)(1 x./n)(n n n /(n 1)) 2 1 2 1 2 (n1+ n 2)X1 n 1(X1+ X 2) X 1/n1 X 2/ n2 = = (x./ n)(1 x./ n)(n n n /(n 1)) (x./ n)(1 x./ n)(n / n n (n 1)) = X/n 2 2 1 2 1 2 X/n 1 1 2 2 (x./n)(1 x./n)(1/n + 1/n )(n/(n 1)) 1 2 8

Eksempel Et forsikringsselskab har gennem en længere periode opkrævet den samme forsikringspræmie for to vognmærker A og B. Imidlertid har selskabet i det sidst forløbne år fået en mistanke om, at vognmærke B udgør en dårligere risiko end vognmærke A og har i den anledning foretaget en undersøgelse af skadeforløbet hos 100 biler af mærket A og 150 biler af mærket B. Undersøgelsen er foretaget på den måde, at de i alt 250 bilers skadeforløb er blevet fulgt i en periode på 6 måneder. Ved udløbet af undersøgelsesperioden viste det sig, at 15 af de 100 biler af mærket A havde haft skader, mens 35 af de 150 biler af mærket B havde haft skader. Giver undersøgelsens resultat selskabet "rimelig sikkerhed" for rigtigheden af dets formodning om, at biler af mærket B udgør en dårligere risikogruppe end biler af mærket A? Datamateriale: Bilmærke Antal biler Antal skadede biler A 100 = n 1 15 = x 1 B 150 = n 2 35 = x 2 I alt 250 = n 50 = x. 9

Model: to binomialfordelinger med sandsynlighedsparametre p 1 og p 2. Vi ønsker at teste H 0 : p 1 = p 2 mod H 1 : p 1 p 2 med α = 0.05 Fisher's eksakte test benyttes, dvs. vi beregner signifikanssandsynligheden p som P = P(X 1 15 x. = 50) 15 + 0.5 20 4.5 Φ ( ) =Φ ( ) =Φ( 1.45) = 0.0735 100 0.2 0.8 150/ 250 3.10 Den er større end α = 0.05, hvorfor H 0 ikke kan forkastes. Biler af mærke B udgør altså ikke en dårligere risikogruppe end biler af mærke A. Havde signifikansniveauet være 10% ville konklusionen blive den modsatte. 10