Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger



Relaterede dokumenter
Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

Note til styrkefunktionen

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Vejledende løsninger til opgaver i kapitel 6

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Personlig stemmeafgivning

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Kvantitative Metoder 1 - Efterår Dagens program

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Kvantitative Metoder 1 - Forår 2007

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Løsninger til kapitel 5

Dagens program. Praktisk information: Husk evalueringer af kurset

Kønsproportion og familiemønstre.

Kvantitative Metoder 1 - Efterår Dagens program

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Kvantitative Metoder 1 - Forår Dagens program

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Estimation og konfidensintervaller

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Susanne Ditlevsen Institut for Matematiske Fag susanne

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistik II 1. Lektion. Analyse af kontingenstabeller

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

02402 Løsning til testquiz02402f (Test VI)

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Dagens program. Praktisk information:

Om hypoteseprøvning (1)

Kvantitative Metoder 1 - Forår 2007

Mat2SS Vejledende besvarelse uge 11

Kvantitative metoder 2

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

J E T T E V E S T E R G A A R D

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Kapitel 12 Variansanalyse

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Statistik i basketball

Kvantitative metoder 2

3 Stokastiske variable 3.1 Diskrete variable

Oversigt over nyttige fordelinger

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Kapitel 12 Variansanalyse

Fagplan for statistik, efteråret 2015

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Teoretisk Statistik, 13 april, 2005

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Kapitel 7 Forskelle mellem centraltendenser

Matematik 3 SS. Københavns Universitet Naturvidenskabelig kandidateksamen, sommeren Opgaver til besvarelse i 3 timer fredag den 18. juni 1993.

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Statistik og Sandsynlighedsregning 2

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Hvad skal vi lave i dag?

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Uge 10 Teoretisk Statistik 1. marts 2004

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Konfidensintervaller og Hypotesetest

Statistik viden eller tilfældighed

Schweynoch, Se eventuelt

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Nanostatistik: Opgavebesvarelser

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

c) For, er, hvorefter. Forklar.

Teoretisk Statistik, 16. februar Generel teori,repetition

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 28. maj 2014 Kursus nr : (navn) (underskrift) (bord nr)

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Løsning eksamen d. 15. december 2008

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Modul 12: Regression og korrelation

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Produkt og marked - matematiske og statistiske metoder

Undervisningsbeskrivelse

Hvad skal vi lave i dag?

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Opgavebesvarelse, Basalkursus, uge 3

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Vejledende besvarelser til opgaver i kapitel 14

Kapitel 4 Sandsynlighed og statistiske modeller

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår Dagens program

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Transkript:

Uge 49 I Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte test for sammenligning af to binomialford. Multinomialfordelingen som betinget poissonfordeling Givet: stikprøve x 1,,x I af I uafhængige observationer Model: X i ~ Ps(λ i ) i = 1,,I. Hypotesen H 0 : λ i = α i λ overfor H 1 : λ i α i λ i = 1,,I, hvor α i er givne konstanter med α i = 1, ønskes afprøvet. Sætning : hvis X 1,,X I er uafhængige stok. var. og X i ~ Ps(λ i ) i = 1,,I vil (X 1,,X I X. = x.) ~ Mult(x., λ 1 / λ.,, λ I / λ.), 1

hvor I i λ=. λ, x. = x, X. = X I I i= 1 i i= 1 i i= 1 Den betingede fordeling er altså en multinomialfordeling med kendte sandsynlighedsparametre p i = λ i / λ.= α i i = 1,,I. Vi får derfor videre at H 0 kan afprøves med Q-teststørrelsen. (16.39) Q = I i= 1 (Xi x. αi) x. α i 2 som i medfør af sætning 16.1 approximativt er χ 2 (I 1) -fordelt. Test i diskrete fordelinger Nulhypotesen er H 0 : θ = θ 0, hvor θ er parameter i den diskrete stokastiske variabel X s punktsandsynlighed f(x θ). Antag en observation x foretages, og at x stor medfører θ stor. Da haves 2

Alternativ Signifikanssandsynlighed H 1 : θ > θ 0 p= P(X x H 0) = f(z θ0) z x H 1 : θ < θ 0 p= P(X x H 0) = f(z θ0) z x H 1 : θ θ 0 p= 2 min{ f(z θ0), f(z θ0)} z x z x Eksakt test for sammenligning af to poissonfordelinger Sætning 16.3 for I = 2 : Hvis X i ~ Ps(λ i ) i = 1,2 samt X 1 og X 2 stok. uafh. er (X 1 X 1 + X 2 = x. ) ~ bin(n = x., p = λ 1 /(λ 1 + λ 2 ) ). Med brug af denne sætning kan nedenstående hypotese testes. H 0 : λ 1 = k λ 2 mod H 1 : λ 1 k λ 2 med α = 0.05 hvor k er en positiv konstant. Under H 0 haves (X 1 X 1 + X 2 = x. ) ~ bin(n = x., p = λ 1 /(λ 1 + λ 2 ) =k/(1+ k) ). Dvs. p = 2 min{ f (z x.,k /(1 + k)), f (z x.,k /(1 + k))}. z x z x 1 1 I praksis benyttes ofte normalfordelingsapproximationen X1 x.k/(1+ k) U= x.k /(1 + k) 2 a N(0,1), 3

ud fra hvilken signifikanssandsynligheden kan beregnes. Dette test kan forudsat k = 1 også udføres som et approximativt test, hvor teststørrelsen fremkommer fra (16.39) for I = 2. Er den alternative hypotese énsidet, kan testet derimod kun udføres som et eksakt test. Eksempel Antallet af kunder i en bestemt butik antages at være Poissonfordelt. I tabellen nedenfor er vist antal kunder torsdag og lørdag i de angivne tidsrum i to uger. Vi ønsker at teste a) om det forventede antal kunder er forskelligt fra den ene torsdag til den anden. b) om det forventede antal kunder torsdag og lørdag afviger fra hinanden. Torsdag Lørdag ----- antal kunder ---- Tidsrum 1. uge 14.00 til 15.00 12 17 2. uge 14.00 til 15.30 22 25 4

Ad a) Lad X i være antal kunder i butikken i i'te uge i de angivne tidsrum i=1,2. Desuden antag at X i ~ Ps(λ i T i ) i = 1,2 samt at X 1 og X 2 er stok. uafh. T 1 og T 2 er tidsperioder af hhv. 1 time og 1.5 times længde. Under disse forudsætninger skal hypotesen H 0 : λ 1 = λ 2 = λ testes overfor H 1 : λ 1 λ 2 med α = 0.05. Under H 0 haves (X 1 X 1 + X 2 = 34) ~ bin( n = 34, p = T 1 /(T 1 + T 2 ) = 0.4) dvs. den eksakte signifikanssandsynlighed bliver p = 2 P(X 1 12 n = 34, p = 0.4) = 2 0.3542 = 0.71 > α = 0.05. H 0 kan altså ikke forkastes. Der er således ikke signifikant forskel på antal kunder de to torsdage. Der er i øvrigt heller ikke signifikant forskel på antal kunder de to lørdage, idet p bliver p = 2 P(X 1 17 n = 42, p = 0.4) = 2 0.4090 = 0.82 > α = 0.05. Ad b) Lad nu Y T betegne det samlede antal kunder i butikken i tidsperioden i hver af de to uger om torsdagen og lad Y L betegne det samme antal blot om lørdagen. Antag endvidere at Y T og Y L er stok. uafh. Vi har da Y T ~ Ps(λ T (T 1 + T 2 )) Y L ~ Ps(λ L (T 1 + T 2 )) og videre at 5

(Y T Y T + Y L = 76) ~ bin( n = 76, p = 0.5). Hypotesen H 0 : λ T = λ L = λ overfor H 1 : λ T λ L med α = 0.05, at antallet af kunder torsdage og lørdage er ens, kan ikke forkastes, idet p = 2 P(Y T 34 n = 76, p = 0.5) = 2 0.2111 = 0.42 > α = 0.05. Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte test for sammenligning af to binomialford. o Eksempel 6

Opsummering af multinomialfordelingen Bruges til beskrivelse af antal observationer i et givet antal forskellige kategorier. Spørgeskemaundersøgelser, meningsmålinger mm Kontrol af diskrete fordelinger Kontrol af kontinuerte fordelinger Sammenligning af poissonfordelinger betinget test Kontingenstabeller (kap. 17). Hypergeometrisk fordeling som betinget binomialford. Fishers eksakte test Givet: x 1, x 2, hvor X i ~ bin(n i, p i ) i = 1,2 samt X 1 og X 2 stokastisk uafhængige. H 0 : p 1 = p 2 mod H 1 : p 1 p 2 med α = 0.05. Under H 0 haves, jfr. sætning 16.4 (X 1 X 1 +X 2 = x.) ~ hyperg(x., n 1, n), hvor n = n 1 +n 2. Dvs. p 2 min{ f(z x.,n,n), f(z x.,n,n)}. = z x 1 z x 1 1 1 7

Dette er det berømte test, der kaldes Fishers eksakte test for sammenligning af to binomialfordelinger. I praksis benyttes ofte normalfordelingsapproximationen U = X n x./n 1 1 n (x./n)(1 x./n)(n /(n 1)) 1 2 ud fra hvilken signifikanssandsynligheden kan beregnes. Teststørrelsen kan omskrives således at det fremgår, at der er tale om sammenligning af relative hyppigheder : X1 n1x./ n nx1 n1x. U = = n (x./ n)(1 x./ n)(n /(n 1)) (x./n)(1 x./n)(n n n /(n 1)) 2 1 2 1 2 (n1+ n 2)X1 n 1(X1+ X 2) X 1/n1 X 2/ n2 = = (x./ n)(1 x./ n)(n n n /(n 1)) (x./ n)(1 x./ n)(n / n n (n 1)) = X/n 2 2 1 2 1 2 X/n 1 1 2 2 (x./n)(1 x./n)(1/n + 1/n )(n/(n 1)) 1 2 8

Eksempel Et forsikringsselskab har gennem en længere periode opkrævet den samme forsikringspræmie for to vognmærker A og B. Imidlertid har selskabet i det sidst forløbne år fået en mistanke om, at vognmærke B udgør en dårligere risiko end vognmærke A og har i den anledning foretaget en undersøgelse af skadeforløbet hos 100 biler af mærket A og 150 biler af mærket B. Undersøgelsen er foretaget på den måde, at de i alt 250 bilers skadeforløb er blevet fulgt i en periode på 6 måneder. Ved udløbet af undersøgelsesperioden viste det sig, at 15 af de 100 biler af mærket A havde haft skader, mens 35 af de 150 biler af mærket B havde haft skader. Giver undersøgelsens resultat selskabet "rimelig sikkerhed" for rigtigheden af dets formodning om, at biler af mærket B udgør en dårligere risikogruppe end biler af mærket A? Datamateriale: Bilmærke Antal biler Antal skadede biler A 100 = n 1 15 = x 1 B 150 = n 2 35 = x 2 I alt 250 = n 50 = x. 9

Model: to binomialfordelinger med sandsynlighedsparametre p 1 og p 2. Vi ønsker at teste H 0 : p 1 = p 2 mod H 1 : p 1 p 2 med α = 0.05 Fisher's eksakte test benyttes, dvs. vi beregner signifikanssandsynligheden p som P = P(X 1 15 x. = 50) 15 + 0.5 20 4.5 Φ ( ) =Φ ( ) =Φ( 1.45) = 0.0735 100 0.2 0.8 150/ 250 3.10 Den er større end α = 0.05, hvorfor H 0 ikke kan forkastes. Biler af mærke B udgør altså ikke en dårligere risikogruppe end biler af mærke A. Havde signifikansniveauet være 10% ville konklusionen blive den modsatte. 10