Susanne Ditlevsen Institut for Matematiske Fag susanne

Relaterede dokumenter
Sammensatte hypoteser i en polynomialfordeling

Test i polynomialfordelingen

Estimation ved momentmetoden. Estimation af middelværdiparameter

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Susanne Ditlevsen Institut for Matematiske Fag susanne

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

Estimation og konfidensintervaller

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

Modul 14: Goodness-of-fit test og krydstabelanalyse

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

9. Binomialfordelingen

antal gange krone sker i første n kast = n

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

Motivation. En tegning

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Ë Ö ØÐ Ñ Ò ÙØÓÑ ØØ ÓÖ Ó Ö Ò Ð Å½ µ ÁÒ Ø ØÙØ ÓÖ Å Ø Ñ Ø ² Ø ÐÓ ËÝ Ò ÍÒ Ú Ö Ø Ø ß Ç Ò ÍÒ Ú Ö Ø Ø Ä Ö Ò ½ º ÒÙ Ö ¾¼¼ ÐÐ Ú ÒÐ ÐÔ Ñ Ð Ö Ð Ö Ó ÒÓØ Ø Ö Øºµ Ñ

½ Ë Ë ÔÐ Ý Ñ Ò Ö ÔÖÓ Ö ÑÑ Ö Ò µ ÔÖÓ Ö Ñ ÐÓ ÓÙØÔÙØ Ú Ò Ù Ö Ö ÔÖÓ Ù Ö ÖØ Ò ÐØ Ø Ó ÙÑ ÒØ Ö Ë Ë Æ Ä ËÌ Ñ ÒÙ» Ñ ¹ÓÖ ÒØ Ö Ø ÓÚ Ö Ý Ò Ò Ö Ú Ö Ó Ö Ö ÔÖÓ Ö ÑÑ

ÁÒ ÓÐ ½ ÇÔÖ Ø Ò ÖÙÔÔ º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ½º½ ÑÖ º º º º º º º º º º º º º º º º º º º º º º

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

Statistik og Sandsynlighedsregning 1. IH kapitel 6

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

ÒØÖÓÔÝ Ó Ò Ò ÂÈ Ø ÐÐ Ñ ÓÑÔÖ ÓÒ Â Ò ÎÓ Ð Ò Ë ÔØ Ñ Ö ¼Ø ¾¼½½ ½» ½

ÇÚ Ö Ø ½ ¾ ÅÓØ Ú Ö Ò ÑÔ Ð Ø Ñ ØÓÖ ÓÖ Ú Ö Ò Ö χ 2 ¹ ÓÖ Ð Ò Ò ÃÓÒ Ò ÒØ ÖÚ Ð ÓÖ Ò Ú Ö Ò ÀÝÔÓØ Ø Ø Ú Ö Ò Ö Ì Ø Ò Ú Ö Ò Ì Ø ØÓ Ú Ö Ò Ö F ¹ ÓÖ Ð Ò Ò ÀÝÔÓØ Ø

Løsninger til kapitel 7

Diskrete og kontinuerte stokastiske variable

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

Maja Tarp AARHUS UNIVERSITET

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

Stikprøvefordelinger og konfidensintervaller

ÇÚ Ö Ø ½ ¾ ÀÝÔÓØ Ø Ø ¹ Ò Ö Ô Ø Ø ÓÒ ÀÝÔÓØ Ø Ø Ó ÓÒ Ò ÒØ ÖÚ ÐÐ Ö ËØÝÖ Ó Ø ÔÖ Ú Ø ÖÖ Ð ÀÝÔÓØ Ø Ø ÓÖ ØÓ ÒÒ Ñ Ò Ø ÑÔ Ð ½ Ò Ö Ð ÓÖÑÙÐ Ö Ò Å Ò Ø Ú Ö Ò Å Ù Ò

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

deta = A = deta = a 11 deta 11 a 12 det A 12 + a 13 deta 13 deta = deta = 1(0 2) 5(0 0) + 0( 4 0) = 2 deta = a i,j deta i,j

ÇÚ Ö Ø ½ ÈÖ Ø ÁÒ ÓÖÑ Ø ÓÒ ¾ ÁÒØÖÓ Ù Ø ÓÒ Ø Ð ËØ Ø Ø ËÓ ØÛ Ö Ê Ö Ú Ò Ø Ø Ø Æ Ð Ø Ð Ö Ö Ñ Ø ÐÐ Ò Â Ò Ãº Å ÐÐ Ö Ñ ÑѺ ØÙº µ ÁÒØÖÓ Ù Ø ÓÒ Ø Ð ËØ Ø Ø ÓÖ Ð

Introduktion til Statistik

Konfidens intervaller

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

ÌÖÝ Ø ÁÅÅ ÌÍ

ÁÒ ØÖÙØ ÓÒ Ë Ø Ö Ø ØÙÖ ÁÒØÖÓ ÙØ ÓÒ ÁÒ ØÖÙØ ÓÒ Ë Ø ÁÒØ Ö ØÛ Ò Ó ØÛ Ö Ò Ö Û Ö Ú Ð ØÓ ÔÖÓ Ö ÑÑ Ö ËØ Ô ØÓ Ò ÁÒ ØÖÙØ ÓÒ Ë Ø ÓÖ Ú Ò Óѹ ÔÙØ Ö Û Ø Ø Ú Ð Ð ÐØ

ËÓÑ ³ Ü ³ ÚÐ ÖÓÙÔº ËÓÑ ³ Ü ³ ÚÐ Ñ Ö Ò ÐÐ Ö Ú Ö Ú Ö Ö Ø Ó ÔÖÓ ÔÐÓØ Ø Ù ÖºÞ Ð ÞÓ ÔÐÓØ Ñ Ö Ò ÖÓÙÔ» Ü Ü ½ Ú Ü Ü ¾ Ö Ñ Ü ½ Ó Ø µ Ð Ð À µ Ú ÐÙ À ¾µ Ñ ÒÓÖ ÆÇ

Uge 40 I Teoretisk Statistik, 30. september 2003

Asymptotisk optimalitet af MLE


Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

w j p j 1 w j / p / = 1

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

ÌÖ È Ö Ò ÓÖ Ó Ë Ð Ø ÓÒ ÌÖ È Ö Ò ÓÖ Ó Ë Ð Ø ÓÒ Ê Ò Ö Ï Ð ÐÑ ÍÒ Ú Ö ØØ Ë ÖÐ Ò Û Ð ÐÑ ºÙÒ ¹ º ½ º Þ Ñ Ö ¾¼¼

Elementær Matematik. Polynomier

Gamle eksamensopgaver. Diskret Matematik med Anvendelser (DM72) & Diskrete Strukturer(DM504)

Projekt 9.10 St. Petersborg paradokset

Kvantitative metoder 2

q 1 q 2 x 1 x 2. E(x, p, X, P) = 1 2M P x X.

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Sandsynlighedsregning i biologi

IMFUFA TEKST NR TEKSTER fra ROSKILDE UNIVERSITETSCENTER. Jørgen Larsen

Tests for forskel i central tendens for data på ordinal- og intervalskala. Typer af statistiske test:

x-klasserne Gammel Hellerup Gymnasium

Program. Middelværdi af Y = t(x ) Transformationssætningen

Teoretisk Statistik, 9. februar Beskrivende statistik

Asymptotisk estimationsteori

ÇÚ Ö Ø ½ ¾ ÃÓÒØ ÒÙ ÖØ ËØÓ Ø Ú Ö Ð Ó ÓÖ Ð Ò Ö ÌØ ÙÒ Ø ÓÒ ÓÖ Ð Ò ÙÒ Ø ÓÒ Å ÐÚÖ Ò ÓÒØ ÒÙ ÖØ ØÓ Ø Ú Ö Ð Î Ö Ò Ò ÓÒØ ÒÙ ÖØ ØÓ Ø Ú Ö Ð ÍÒ ÓÖÑ ÓÖ Ð Ò Ò ÑÔ Ð

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

xi ; ˆσ 2 =, s/ n t(n 1)

Hovedpointer fra SaSt

Vejledende besvarelser til opgaver i kapitel 15

Generelle lineære modeller


Den flerdimensionale normalfordeling

Susanne Ditlevsen Institut for Matematiske Fag susanne

DATV: Introduktion til optimering og operationsanalyse, Bin Packing Problemet

Matematisk Modellering 1 Hjælpeark

Nogle Asymptotiske Resultater. Jens Ledet Jensen Matematisk Institut, Aarhus Universitet. 1 Indledning 1

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave december 2007

STATISTIKNOTER Simple normalfordelingsmodeller

Statistiske Modeller 1: Notat 1

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik

Nogle anvendelser af programmel R, bl.a. til hypotesetest

RESEARCH PAPER. Nr. 2, En model for lagerstørrelsen som determinant for købs- og brugsadfærden for et kortvarigt forbrugsgode.

Morten Frydenberg version dato:

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner

STATISTISKE GRUNDBEGREBER

Skitse til notat om hvor de forskellige sandsynlighedsfordelinger kan tænkes at komme fra

Renteformlen. Erik Vestergaard

Velkommen. Program. Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R. Praktiske ting og sager

ÇÚÖ Ø ½ ¾ ÁÒØÖÓ ÃÓÒÒ ÒØÖÚÐ ÓÖ Ò ÒÐ ÑÔÐ ½ ØÑÑÐ ØÔÖÚ ØÖÖÐ ÑÔÐ ½ ¹ ÓÖØ Ø ÀÝÔÓØ Ø Ø ÓÖ Ò ÒÐ ÑÔÐ ½ ¹ ÓÖØ Ø ÀÝÔÓØ Ø Ø ÓÖ ØÓ ÒÐ ÑÔÐ ¾ ÀÝÔÓØ Ø Ø ÓÖ Ö ÒÐ ÑÔÐ ¾

Transkript:

Statistik og Sadsylighedsregig 1 STAT Sætig 4.4 og kapitel 6 Susae Ditlevse Istitut for Matematiske Fag Email: susae@math.ku.dk http://math.ku.dk/ susae 8. udervisigsuge 1

E hypotese af forme H 0 : θ = θ 0 hvor der ikke idgår ukedte parametre - dvs θ 0 er kedte tal - beteges ofte e simpel hypotese Modsat beteges e hypotese, hvori der idgår ukedte parametre, e sammesat hypotese 2

Eksempel 4.21. Hardy-Weiberg ligevægt Betragt geotypefordelige på et locus med to alleler A og a, og 3 fæotyper AA, Aa og aa i e populatio. Atag at atallet af idividers fæotyper (X 0, X 1, X 2 ) observeres. De i te kategori refererer til fæotype med i a-geer, i = 0, 1, 2. Model: (X 0, X 1, X 2 ) Poly 3 (, (p 0, p 1, p 2 )) Hypotese H 0 om Hardy-Weiberg ligevægt i populatioe er givet ved H 0 : p 0 = p 2 ; p 1 = 2p(1 p) ; p 2 = (1 p) 2 hvor p er hyppighede af A-geet i populatioe. Dette er e sammesat hypotese, da der idgår e ukedt parameter. 3

Sammesatte hypoteser i e polyomialfordelig Betragt e polyomialfordelig med atalsparameter og k kategorier. E sammesat hypotese med m ukedte parametre θ 1,..., θ m, hvor m < k 1 (hvorfor det?), ka udtrykkes H 0 : p 1 = p 1 (θ 1,..., θ m ),..., p k = p k (θ 1,..., θ m ) Eks om Hardy-Weiberg ligevægt: Her er k = 3, m = 1 og θ 1 = p: H 0 : p 0 = p 0 (p) = p 2 p 1 = p 1 (p) = 2p(1 p) p 2 = p 2 (p) = (1 p) 2 4

Maximum likelihood estimatio, Hardy-Weiberg ligevægt Statistisk model: (D 3 (), (P p ) p [0,1] ) hvor P p (X = x) = ( x 0, x 1, x 2 ) p 2x 0 (2p(1 p)) x 1 (1 p) 2x 2 Likelihoodfuktio L : D 3 () [0, 1] [0, 1] L(x, p) = ( ) p 2x 0 (2p(1 p)) x 1 (1 p) 2x 2 x 0, x 1, x 2 5

Vi øsker at estimere p [0, 1] udfra data x = (x 0, x 1, x 2 ). Vi vælger estimatore ˆp således at vores observerede x får de størst mulige sadsylighed. Vi maximerer derfor log-likelihoodfuktioe over p for fastholdt x: (( ) ) l(p) = log p 2x 0 (2p(1 p)) x 1 (1 p) 2x 2 x 0, x 1, x 2 ( ) = log + 2x 0 log p + x 1 log(2p(1 p)) + 2x 2 log(1 p) x 0, x 1, x 2 = C + (2x 0 + x 1 ) log p + (x 1 + 2x 2 ) log(1 p) hvor C er e kostat der ikke afhæger af p. 6

For at fide maximum, differetierer vi med hesy til p: d dp l(p) = 2x 0 + x 1 p x 1 + 2x 2 1 p Likelihoodligige l (ˆp) = 0 omskrives til der har løsig ˆp (x 1 + 2x 2 ) = (1 ˆp)(2x 0 + x 1 ) ˆp = 2x 0 + x 1 = 2x 0 + x 1 2x 0 + 2x 1 + 2x 2 2 Det er et aturligt estimat: Hvert idivid har to geer, dvs vi har observeret 2 geer i alt. Heraf er 2x 0 + x 1 jo A-geer. Husk at p er hyppighede af A-geet i populatioe. 7

Vi magler at sikre os at det er et maximum: d 2 dp 2 l(p) = 2x 0 + x 1 p 2 x 1 + 2x 2 (1 p) 2 < 0 Det er derfor et maximum. 8

Eks: Hardy-Weiberg ligevægt, blodgrupper Data fra e egelsk udersøgelse vedrørede blodgrupper i MN-systemet: Tre geotyper: MM (blodgruppe M), MN (blodgruppe MN) og NN (blodgruppe N): Blodgruppe M MN N Geotype MM MN NN Atal 363 634 282 Estimat for hyppighede p af M-geet uder hypotese om Hardy-Weiberg ligevægt: ˆp = 2 363 + 634 2 (363 + 634 + 282) = 0.532 9

Vi har u estimeret hyppighede uder atagelse om at der er Hardy-Weiberg ligevægt. Hvorda tester vi om data uderbygger at der foreligger Hardy-Weiberg ligevægt? Til det beytter vi Sætig 4.4 til test af e sammesat hypotese, helt på samme måde som Sætig 4.3 beyttes til test af e simpel hypotese. 10

Sætig 4.4 I e polyomialfordelig (, p 1,..., p k ) avedes til test af de sammesatte hypotese H 0 : p i = p i (θ 1,..., θ m ), i = 1,..., k, hvor p i ere er kedte fuktioer af m (hvor m < k 1) ukedte parametre θ 1,..., θ m, teststørrelse X 2 defieret som X 2 = k (X i p i (ˆθ 1,..., ˆθ m )) 2 p i (ˆθ 1,..., ˆθ m ) hvor ˆθ 1,..., ˆθ m er parameterestimater uder H 0. Uder hypotese er X 2 approksimativt χ 2 -fordelt med (k 1 m) frihedsgrader, og dermed ka P -værdie baseret på e observeret værdi X 2 obs approksimativt udreges som P = P (X 2 X 2 obs) P (χ 2 k 1 m X 2 obs) 11

Eks om Hardy-Weiberg ligevægt i blodgrupper: Vi har jo k = 3, m = 1, θ 1 = p og de sammesatte hypotese: og teststørrelse bliver H 0 : p 0 = p 0 (p) = p 2 p 1 = p 1 (p) = 2p(1 p) p 2 = p 2 (p) = (1 p) 2 X 2 = 2 i=0 (X i p i (ˆθ 1 )) 2 p i (ˆθ 1 ) = (X 0 ˆp 2 ) 2 ˆp 2 + (X 1 2ˆp(1 ˆp)) 2 2ˆp(1 ˆp) + (X 2 (1 ˆp) 2 ) 2 (1 ˆp) 2 12

Regestykket kommer til at se således ud: Blodgruppe M MN N Total X i X 0 X 1 X 2 Atal 363 634 282 1279 p i (ˆθ 1 ) ˆp 2 2ˆp(1 ˆp) (1 ˆp) 2 Forvetet atal 361.53 636.94 280.53 1279 (X i p i (ˆθ 1 )) 2 /(p i (ˆθ 1 )) χ 2 -bidrag 0.01 0.01 0.01 0.03 Teststørrelse X 2 = 0.03 skal vurderes i e χ 2 fordelig med k 1 m = 3 1 1 = 1 frihedsgrader: P (χ 2 1 0.03) = 0.086 13

I Maple ka P -værdie = 1-fordeligsfuktioe i de beregede teststørrelse fides: > restart, with(statistics); > 1-CDF(ChiSquare(1), 0.03, umeric); 0.8624902 F χ 2(x) 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 x 14

Kapitel 6 Aalyse af tosidede atalstabeller 15

Ò Ñ ÐÐ Ñ ØÓ Ò Ð Ò Ö Ø Ö Ö ÙÒ Ö Ú Ò Ð Ø Ù Ò ¹ Ø Øº ÑÔ Ð º½º ÃÖÝ Ò Ò ÓÖ Ñ Öغ Atag at vi observerer forsøgseheder, og atî hver Ø forsøgsehed ÖÝ Ò Ò ÓÖ Ñ ÖØ ÐÓÑ Ø Ö klassificeres Ò Øefter Å Ò Ð to forskellige Ö ÙÐØ Ø ÖÒ kriterier. Ø Ð Vi º½ øsker ÚÓÖat ¾ udersøge ÐÓÑ Ø Ö om Ö Ð ¹ Ö Ø Ð der Ø Ö sammehæg ÓÖÑ mellem µ Ó de Ð to kriterier. Ø Ö ÖÚ µº Eksempel 6.1. Krydsigsforsøg med ært. Medel klassificerede Ì Ð º½ ÃÐ Ö Ò ¾ ÖØ ÐÓÑ Ø Ö Ø Ö ÒÓØÝÔ ÓÖ ÓÖÑ Ó ÖÚ = i et krydsigsforsøg 529 blomster efter deres form og deres farve: ÖÙÒ ÓÖÑ = ÒØ Ø ÓÖÑ = ÙÐ ÖÚ = Ö Ò ÖÚ º ÒÓØÝÔ ÓÖ ÖÚ ËÙÑ ÒÓØÝÔ ÓÖ ÓÖÑ ½ ¼ ½ ¾ ¾ ¼ ½¾ ËÙÑ ½¾ ¾ ½ ½ ¾ ¾ ÈÖÓ Ð Ñ Ø Ö ÓÑ ØÓ Ò Ö ÓÖÑ Ó ÖÚ µ Ò ÖÚ Ù Ò Ø Ò Ò¹ 16

Notatio To kriterier med heholdsvis r og s kategorier: Lad i = 1,..., r betege de r rækker svarede til det ee kriterium. Lad j = 1,..., s betege de s søjler svarede til det adet kriterium. Lad X ij være de stokastiske variable der agiver hvor mage forsøgseheder, der falder i celle (i, j), dvs er i kategori i med hesy til første kriterie, og i kategori j med hesy til adet kriterie. Når vi summerer over et af iddeligskriteriere skriver vi X i = s X ij og X j = r X ij dvs heholdsvis række- og søjlesummer. 17

Sadsylighede for at e forsøgsehed falder i celle (i, j) beteges p ij. Hvis de forsøgseheder ka betragtes som uafhægige bliver modelle hvor (X 11,..., X ij,..., X rs ) Poly rs (, p) p = (p 11,..., p ij,..., p rs ) med r s p ij = 1 18

Stokastisk variabel: Kategorier 1... j... s Sum 1 X 11... X 1j... X 1s X 1.......... i X i1... X ij... X is X i..... r X r1... X rj... X rs X r Sum X 1... X j... X s HUSK: e prik agiver summatio over pågældede ideks, f.eks X j = r X ij Hvad er X = r s X ij? 19

Observatio: Kategorier 1... j... s Sum 1 x 11... x 1j... x 1s x 1..... i x i1... x ij... x is x i..... r x r1... x rj... x rs x r Sum x 1... x j... x s Værdi af stokastisk variabel (X ij ),...,r;...,s 20

Ø Øº ÑÔ Ð º½º ÃÖÝ Ò Ò ÓÖ Ñ Öغ Î Ø ÖÝ Ò Ò ÓÖ Ñ ÖØ ÐÓÑ Ø Ö Ò Ø Å Ò Ð Ö ÙÐØ Ø ÖÒ Ø Ð º½ ÚÓÖ ¾ ÐÓÑ Ø Ö Ö Ð ¹ Ö Ø Ð Ø Ö ÓÖÑ µ Ó Ð Ø Ö ÖÚ µº I Eksempel 6.1: Krydsigsforsøg med ært, er der således tale om e polyomialfordelig med = 529 og 9 sadsylighedsparametre: Ì Ð º½ ÃÐ Ö Ò ¾ ÖØ ÐÓÑ Ø Ö Ø Ö ÒÓØÝÔ ÓÖ ÓÖÑ Ó ÖÚ = ÖÙÒ ÓÖÑ = ÒØ Ø ÓÖÑ = ÙÐ ÖÚ p 11,..., = p 33 Ö Ò ÖÚ º ÒÓØÝÔ ÓÖ ÖÚ ËÙÑ ÒÓØÝÔ ÓÖ ÓÖÑ ½ ¼ ½ ¾ ¾ ¼ ½¾ ËÙÑ ½¾ ¾ ½ ½ ¾ ¾ ÈÖÓ Ð Ñ Ø Ö ÓÑ ØÓ Ò Ö ÓÖÑ Ó ÖÚ µ Ò ÖÚ Ù Ò Ø Ò Ò¹ Ò ÐÐ Ö ÓÑ Ö ØÚÖØ ÑÓ Ò ÔÚ Ò Ú ÑÑ Ò Ò Ñ ÐÐ Ñ ÒÓØÝÔ ÖÒ 21 ÓÖ ÓÖÑ Ó ÓÖ ÖÚ º ÑÖ Ø Ö ÙÐØ Ø ÖÒ Ú Ö Ö Ò Ð Ö Ò Ø Ö Ø

Hypotese: Uafhægighed mellem iddeligskriteriere Lad p i betege sadsylighede for at e forsøgsehed falder i i te række, og lad q j betege sadsylighede for at e forsøgsehed falder i j te søjle: Hypotese om uafhægighed er at dvs p i = p i1 + + p is q j = p 1j + + p rj P ({række i} {søjle j}) = P ({række i}) P ({søjle j}) H 0 : p ij = p i q j for alle i, j 22

Hypotese H 0 : p ij = p i q j for alle i, j er e sammesat hypotese med m = (r 1) + (s 1) frie parametre. Vi ka derfor teste hypotese ved Sætig 4.4: X 2 = = r r s s (X ij p ij (ˆp 1,..., ˆp r, ˆq 1,..., ˆq s ) 2 p ij (ˆp 1,..., ˆp r, ˆq 1,..., ˆq s ) (X ij ˆp iˆq j ) 2 ˆp iˆq j hvor ˆp 1,..., ˆp r, ˆq 1,..., ˆq s er parameterestimater uder H 0. Uder hypotese er X 2 approksimativt χ 2 -fordelt med k 1 m = rs 1 (r 1 + s 1) = (r 1)(s 1) frihedsgrader. 23

Maximum likelihood estimatio uder hypotese om uafhægighed Statistisk model: (D rs (), (P pq ) p r,q s ) hvor ( ) r P pq (X = x) = x 1,..., x rs Likelihoodfuktio L(x, p, q) = s (p i q j ) x ij L : D rs () r s [0, 1] ( ) r x 1,..., x rs s (p i q j ) x ij 24

Vi øsker at estimere p r og q s udfra data x ij ; i = 1,..., r; j = 1,..., s. Vi vælger estimatorere ˆp og ˆq således at vores observerede x får de størst mulige sadsylighed. Vi maximerer derfor log-likelihoodfuktioe over p, q for fastholdt x: ( ) r l(p, q) = log s (p i q j ) x ij x 1,..., x rs = C + = C + r s x ij (log(p i ) + log(q j )) r x i log(p i ) + s x j log(q j ) hvor C er e kostat der ikke afhæger af p og q. 25

Husk at vi ka (skal!) udtrykke p r = 1 (p 1 + + p r 1 ) q s = 1 (q 1 + + q s 1 ) For at fide maximum, differetierer vi med hesy til p i og q j : d dp i l(p, q) = x i p i x r p r og d dq j l(p, q) = x j q j Likelihoodligigere l (ˆp) = 0 og l (ˆq) = 0 omskrives til x 1 = x 2 p 1 p 2 x 1 = x 2 q 1 q 2 = = x r p r = = x s q s x s q s der har løsiger (se eks. 4.11 og hadoutsuge6madag.pdf) ˆp i = x i ; ˆq j = x j 26

Vi magler at sikre os at det er et maximum: d 2 dp 2 i l(p, q) = x i p 2 x r i p 2 r }{{} <0 og d 2 dq 2 j l(p, q) = x j qj 2 x s qs 2 }{{} <0 for alle i = 1,..., r og j = 1,..., s. Det er derfor et maximum. 27

Vi var i gag med at teste hypotese med teststørrelse H 0 : p ij = p i q j for alle i, j X 2 = r s (X ij ˆp iˆq j ) 2 ˆp iˆq j hvor ˆp 1,..., ˆp r, ˆq 1,..., ˆq s er parameterestimatere uder H 0, som vi lige har fudet. Vi får r s X 2 (X ij x i x j = )2 = r s x i x j (X ij x i x j ) 2 x i x j der uder hypotese er approksimativt χ 2 (r 1)(s 1) -fordelt. 28

Sætig 6.1. Uafhægighedstest. Hypotese H 0 : p ij = p i q j for alle i, j om uafhægighed af de to iddeligskriterier i e tosidet atalstabel ka udføres som et esidet test med teststørrelse X 2 = r s (x ij x i x j ) 2 x i x j. Uder hypotese er teststørrelse approksimativt χ 2 (r 1)(s 1) -fordelt, og hypotese afvises hvis teststørrelse er stor sammeliget med dee fordelig. 29

Tommelfigerregel Approksimatioe bliver bedre år de forvetede atal er store. Tommelfigerregele for hvorår approksimatioe ka beyttes er følgede: 1. x i x j 1 for alle i, j 2. x i x j 5 for midst 80% af cellere (i, j) 30

ÑÔ Ð º½º ÃÖÝ Ò Ò ÓÖ Ñ Öغ Î Ø ÖÝ Ò Ò ÓÖ Ñ ÖØ ÐÓÑ Ø Ö Ò Ø Å Ò Ð Ö ÙÐØ Ø ÖÒ Ø Ð º½ ÚÓÖ ¾ ÐÓÑ Ø Ö Ö Ð ¹ Ö Ø Ð Ø Ö ÓÖÑ µ Ó Ð Ø Ö ÖÚ µº Eksempel 6.1. Krydsigsforsøg med ært. Medel klassificerede Ì Ð º½ ÃÐ Ö Ò ¾ ÖØ ÐÓÑ Ø Ö Ø Ö ÒÓØÝÔ ÓÖ ÓÖÑ Ó ÖÚ = i et krydsigsforsøg 529 blomster efter deres form og deres farve: ÖÙÒ ÓÖÑ = ÒØ Ø ÓÖÑ = ÙÐ ÖÚ = Ö Ò ÖÚ º ÒÓØÝÔ ÓÖ ÖÚ ËÙÑ ÒÓØÝÔ ÓÖ ÓÖÑ ½ ¼ ½ ¾ ¾ ¼ ½¾ ËÙÑ ½¾ ¾ ½ ½ ¾ ¾ Vi observerer altså = 529 forsøgseheder, og øsker at udersøge ÈÖÓ Ð Ñ Ø om der Ö ÓÑ er sammehæg ØÓ Ò Ö mellem ÓÖÑ formó og ÖÚ µ farve. Ò ÖÚ Vi har r Ù Ò Ø = s = 3. Ò Ò¹ Ò ÐÐ Ö ÓÑ Ö ØÚÖØ ÑÓ Ò ÔÚ Ò Ú ÑÑ Ò Ò Ñ ÐÐ Ñ ÒÓØÝÔ ÖÒ ÓÖ ÓÖÑ Ó ÓÖ ÖÚ º ÑÖ Ø Ö ÙÐØ Ø ÖÒ Ú Ö Ö Ò Ð Ö Ò Ø Ö Ø Ö Ø Ö ÖÒ ÓÑ Ö ÙÑÑ ÖÒ ÓÖ ÓÖѵ Ó Ð ÙÑÑ ÖÒ ÓÖ ÖÚ µº 31

Ö Ø Ð Ø Ö ÓÖÑ µ Ó Ð Ø Ö ÖÚ µº Ì Ð º½ ÃÐ Ö Ò ¾ ÖØ ÐÓÑ Ø Ö Ø Ö ÒÓØÝÔ ÓÖ ÓÖÑ Ó ÖÚ = ÖÙÒ ÓÖÑ = ÒØ Ø ÓÖÑ = ÙÐ ÖÚ = Ö Ò ÖÚ º ÒÓØÝÔ ÓÖ ÖÚ ËÙÑ ÒÓØÝÔ ÓÖ ÓÖÑ ½ ¼ ½ ¾ ¾ ¼ ½¾ ËÙÑ ½¾ ¾ ½ ½ ¾ ¾ For eksempel fås det forvetede atal af geotype AABB til ÈÖÓ Ð Ñ Ø Ö ÓÑ ØÓ Ò Ö ÓÖÑ Ó ÖÚ µ Ò ÖÚ Ù Ò Ø Ò Ò¹ Ò ÐÐ Ö ÓÑ Ö ØÚÖØ ÑÓ x Ò ÔÚ Ò Ú ÑÑ Ò Ò Ñ ÐÐ Ñ ÒÓØÝÔ ÖÒ 1 x 1 138 126 ÓÖ ÓÖÑ Ó ÓÖ ÖÚ º ÑÖ Ø = Ö ÙÐØ Ø ÖÒ Ú Ö Ö Ò = 32.9 Ð Ö Ò Ø Ö Ø Ö Ø Ö ÖÒ ÓÑ Ö ÙÑÑ ÖÒ ÓÖ 529 ÓÖѵ Ó Ð ÙÑÑ ÖÒ ÓÖ ÖÚ µº og χ 2 -bidraget til X 2 -teststørrelse fra samme celle er ÑÔÐ Ø ÓÖØ ØØ ½ ¾º (38 32.9) 2 ÓÖ Ò Ò ØÓ Ø ÒØ Ð Ø Ð 32.9 ÚÓÖ Ú Ö Ð Ö Ø ÓÖ Ò Ö Ø Ö ØÓ Ö Ø Ö Ö Ñ Ò ÓÐ Ú r Ó s Ø ÓÖ Ö ÖÙ Ö Ú Ð Ò ÒÓØ Ø ÓÒº Ä i = 1,..., r Ø Ò r Ö Ö Ú Ö Ò Ø Ð Ø Ò Ö Ø Ö ÙÑ Ó j = 1,..., s s Ð Ö Ú Ö Ò Ø Ð Ø Ò Ø Ö Ø Ö ÙÑ Ó Ð N ij ÚÖ ÒØ ÐÐ Ø ÓÖ Ò Ö ÓÑ Ö ÚÒ Ø ÐÐ (i, j) ÐØ Ö i Ó Ð jº ÆÓØ Ø ÓÒ Ò Ö Ñ Ö Ø Ð º¾ ÚÓÖ Ü N i Ö Ö ÙÑÑ Ò 32 = 0.80

Ì Ð º Ö Ò Ò Ö Ø Ð Ù Ò Ø Ø ÓÖ Ø Ö Ø Ð º½º Á Ú Ö ÐÐ Ö Ò Ú Ø Ó ÖÚ Ö Ø ÒØ Ð Ú Ö Øµ ÓÖÚ ÒØ Ø ÒØ Ð Ñ Ø Òµ Ó χ 2 ¹ Ö Ò Ö Øµº ÒÓØÝÔ ÓÖ ÖÚ ËÙÑ ½ ¾º ¼º º ½ ¼º ¼ ¼º ¼º¼½ ½º¾ ÒÓØÝÔ ÓÖ ÓÖÑ ¼ ½ ¾ º½ ½ º º½ ¾ ¼º½ ¼º¼ ¼º¼½ ¼º¾¼ ¾ ¼ ½¾ ¼º¼ º ½º ½¾ ¼º½ ¼º½ ¼º¼ ¼º ½¾ ¾ ½ ½ ¾ ¾ ËÙÑ ½¾ ¾ ½ ½ ¾ ¾ ½º¼ ¼º ¼º¼ ½º 33

Frihedsgradere er (r 1)(s 1) = (3 1)(3 1) = 4 I Maple ka P -værdie = 1-fordeligsfuktioe i de beregede teststørrelse fides: > restart, with(statistics); > 1-CDF(ChiSquare(4), 1.86, umeric); 0.7614887185 Det vil sige Fortolkig? P P (χ 2 4 1.86) = 0.761 34

Da vi accepterer hypotese om uafhægighed mellem form og farve ka vi estimere sadsylighedere for form og farve hver for sig: Form: ˆP (AA) = 138 529 = 0.26; ˆP (Aa) = 265 529 = 0.50; ˆP (aa) = 126 529 = 0.24 Farve: ˆP (BB) = 126 529 = 0.24; ˆP (Bb) = 271 529 = 0.51; ˆP (bb) = 132 529 = 0.25 35

Homogeitetstest Før så vi på de stokastiske variable: Kategorier 1... j... s Sum 1 X 11... X 1j... X 1s X 1..... i X i1... X ij... X is X i..... r X r1... X rj... X rs X r Sum X 1... X j... X s hvor både række- og søjlesummer er stokastiske. 36

Sammeligig af polyomialfordeliger Atag u et adet forsøgsdesig: et eksperimet med s mulige udfald getages uder r forskellige omstædigheder (uafhægige). Vi har i getagelser i det i te eksperimet, i = 1,..., r. Stokastisk variabel: X ij agiver atal udfald i kategori j i de i te polyomialfordelig, j = 1,..., s. 37

Stokastisk variabel: Kategorier 1... j... s Atals- Fordelig parameter 1 X 11... X 1j... X 1s 1..... i X i1... X ij... X is i..... r X r1... X rj... X rs r Sum X 1... X j... X s = 38

Udfaldsrummet For de i te fordelig har vi (x i1,..., x is ) D s ( i ) gaske som i e ekelt polyomialfordelig. Udfaldsrummet bliver derfor E = D s ( 1 ) D s ( r ) Bemærk: s er de samme i alle r udfaldsrum, ku atalsparametere må variere. 39

Sadsylighedsfuktio Sadsylighedsfuktio i de i te fordelig: ( ) i P p (i)(x i1 = x i1,..., X is = x is ) = p x i1 i1 x i1,..., x is hvor p (i) = (p i1,, p is ) s px is is Sadsylighedsfuktio for de samlede model: r ( ) i P (p (1),...,p )(X (r) 1 = x 1,..., X r = x r ) = p x i1 i1 x i1,..., x is r ( ) s i = x i1,..., x is px is is p x ij ij hvor (p (1),..., p (r) ) ( s ) r da X i ere er uafhægige. 40

Observatio: Kategorier 1... j... s Atals- Fordelig parameter 1 x 11... x 1j... x 1s 1..... r x i1... x ij... x is i..... k x r1... x rj... x rs r Sum x 1... x j... x s = Værdi af stokastisk variabel (X ij ),...,r;...,s 41

Sammeligig af polyomialfordeliger Statistisk model ( E, ( ) P (p (1),...,p (r) ) )(p (1),...,p (r) ) ( s ) r med E = D s ( 1 ) D s ( r ) og r ( ) s i P (p (1),...,p )(X = x) = (r) x i1,..., x is Hypotese p x ij ij H : p (1) = = p (r) = p = (p 1,..., p s ) s 42

Sammeligig af polyomialfordeliger Likelihoodfuktio uder de fulde model: L : D s ( 1 ) D s ( r ) ( s ) r [0, 1] r ( ) s L(x, (p (1),..., p (r) i )) = p x ij ij x i1,..., x is = r L i ( x i, p (i)) Vi får derfor at maximum likelihood estimatorere for de ekelt polyomialfordeliger maximaliserer likelihoode! 43

Sammeligig af polyomialfordeliger Uder de fulde model: MLE: ˆp ij = x ij i ˆp (1),..., ˆp (r) (etydigt) er uafhægige i ˆp (i) er polyomialfordelt ( i, p (i) ) E(ˆp ij ) = p ij Var(ˆp ij ) = p ij(1 p ij ) cov(ˆp ij, ˆp ij ) = i p ij p ij i hvis j j cov(ˆp ij, ˆp i j ) = 0 hvis i i 44

Sammeligig af polyomialfordeliger Likelihoodfuktio uder hypotese: L : D s ( 1 ) D s ( r ) s [0, 1] r ( ) s i L(x, p) = p x ij j x i1,..., x is 45

Sammeligig af polyomialfordeliger Likelihoodfuktio uder hypotese: L : D s ( 1 ) D s ( r ) s [0, 1] r ( ) s i L(x, p) = p x ij j x i1,..., x is ( r ( ) ) i r s = p x ij j x i1,..., x is 45

Sammeligig af polyomialfordeliger Likelihoodfuktio uder hypotese: L : D s ( 1 ) D s ( r ) s [0, 1] r ( ) s i L(x, p) = p x ij j x i1,..., x is ( r ( ) ) i r s = p x ij j x i1,..., x is ( r ( ) ) i s = p x j j x i1,..., x is 45

Sammeligig af polyomialfordeliger Likelihoodfuktio uder hypotese: L : D s ( 1 ) D s ( r ) s [0, 1] r ( ) s i L(x, p) = p x ij j x i1,..., x is ( r ( ) ) i r s = p x ij j x i1,..., x is ( r ( ) ) i s = p x j j x i1,..., x is Ser det bekedt ud? 45

JA! (Polyomialfordelig med atalsparameter og observatio (x 1,..., x s )) MLE: ˆp j = x j (etydigt) ˆp er polyomialfordelt (, p) E(ˆp j ) = p j Var(ˆp j ) = p j(1 p j ) cov(ˆp j, ˆp j ) = p jp j hvis j j 46

Sammeligig af polyomialfordeliger Uder H er EX ij = i p j, der estimeres ved i x j. Pearso test: X 2 = r s (x ij ix j )2 i x j Forkaster H, hvis X 2 er stor med ɛ(x) 1 F χ 2 (r 1)(s 1) (X2 ) 47

Sammeligig af polyomialfordeliger Uder H er EX ij = i p j, der estimeres ved i x j. Pearso test: X 2 = r s (x ij ix j )2 i x j Forkaster H, hvis X 2 er stor med ɛ(x) 1 F χ 2 (r 1)(s 1) (X2 ) Hov: Hvorda var det uafhægighedstestet så ud? 47

Sætig 6.1. Uafhægighedstest. Hypotese H 0 : p ij = p i q j for alle i, j om uafhægighed af de to iddeligskriterier i e tosidet atalstabel ka udføres som et esidet test med teststørrelse X 2 = r s (x ij x i x j ) 2 x i x j. Uder hypotese er teststørrelse approksimativt χ 2 (r 1)(s 1) -fordelt, og hypotese afvises hvis teststørrelse er stor sammeliget med dee fordelig. 48

Da jo i = x i ses afhægighedstestet og homogeeitetstestet at være det samme. I homogeeitetstestet bereges frihedsgradere som forskelle mellem frihedsgradere i de fulde model, og frihedsgradere uder hypotese: Frihedsgrader for teststørrelse = r(s 1) (s 1) = (r 1)(s 1). Frihedsgradere er altså også det samme: (r 1)(s 1). 49

For e ordes skyld skal vi også berege kvotietteststørrelse: Q(x) = L(x, ˆp j) L(x, ˆp ij ) = r s ( ) xij x j / = x ij / i r s ( i x j x ij ) xij Approksimativ testsadsylighed ( stor) ɛ(x) 1 F χ 2 ( 2 log Q(x)) (r 1)(s 1) Approksimatioe er OK, hvis ix j 5 for i = 1,..., r, j = 1,..., s. 50

Bemærk: Ma ka Taylor-udvikle fuktioe log(x) omkrig x = 1 op til ade orde: log(x) log(1) + 1 1 (x 1) 1 2 (x 1)2 = (x 1) 1 (x 1)2 2 51

Bemærk: Ma ka Taylor-udvikle fuktioe log(x) omkrig x = 1 op til ade orde: log(x) log(1) + 1 1 (x 1) 1 2 (x 1)2 = (x 1) 1 (x 1)2 2 Vi får derfor r s ( i x j 2 log Q(x) = 2 log x ij ) xij 51

Bemærk: Ma ka Taylor-udvikle fuktioe log(x) omkrig x = 1 op til ade orde: log(x) log(1) + 1 1 (x 1) 1 2 (x 1)2 = (x 1) 1 (x 1)2 2 Vi får derfor 2 log Q(x) = 2 log = 2 r r s ( i x j x ij ) xij s ( ) i x j x ij log x ij 51

Bemærk: Ma ka Taylor-udvikle fuktioe log(x) omkrig x = 1 op til ade orde: log(x) log(1) + 1 1 (x 1) 1 2 (x 1)2 = (x 1) 1 (x 1)2 2 Vi får derfor 2 log Q(x) = 2 log = 2 2 r r r s ( i x j x ij ) xij s ( ) i x j x ij log s x ij ( (i ) x j x ij 1 x ij 1 2 ( ) ) 2 i x j 1 x ij 51

Nuvel, 2 r s ( ) i x j x ij 1 x ij = 2 r s ( i x j x ij ) 52

Nuvel, 2 r s ( ) i x j x ij 1 x ij = 2 r = 2 s r ( i x j s ( i x j x ij ) ) r s (x ij ) 52

Nuvel, 2 r s ( ) i x j x ij 1 x ij = 2 r = 2 s r ( i x j s ( i x j x ij ) ) ( r ) ( i ) = 2 r s (x ij ) 52

Nuvel, 2 r s ( ) i x j x ij 1 x ij = 2 r = 2 s r ( i x j s ( i x j x ij ) ) ( r ) ( i ) = 2 = 2( ) = 0 r s (x ij ) 52

Vi får således 2 log Q(x) 2 r s x ij ( ) i x j 1 1 x ij 2 }{{} =0 ( ) 2 i x j 1 x ij 53

Vi får således 2 log Q(x) 2 = r r s s x ij ( ) i x j 1 1 x ij 2 }{{} x ij ( i x j x ij 1 =0 ) 2 ( ) 2 i x j 1 x ij 53

Vi får således 2 log Q(x) 2 = = r r r s s s x ij ( ) i x j 1 1 x ij 2 }{{} x ij ( i x j x ij 1 1 ( i x j x ij =0 ) 2 x ij ) 2 ( ) 2 i x j 1 x ij 53

Vi får således 2 log Q(x) 2 = = r r r r s s s s x ij ( ) i x j 1 1 x ij 2 }{{} x ij ( i x j x ij 1 1 ( i x j x ij ( xij ix j i x j =0 ) 2 x ij ) 2 ) 2 ( ) 2 i x j 1 x ij 53

Vi får således 2 log Q(x) 2 = = r r r = X 2 r s s s s x ij ( ) i x j 1 1 x ij 2 }{{} x ij ( i x j x ij 1 1 ( i x j x ij ( xij ix j i x j =0 ) 2 x ij ) 2 ) 2 ( ) 2 i x j 1 x ij 53

Eksempler på polyomialfordeligsmodeller RCT (Radomized Cliical Trial): Et kliisk studie hvor deltagere er tilfældigt avist til forskellige behadliger. Bivirkiger ved to atidepressive præparater Bivirkiger Ige Lette Svære Ialt Præparat 1 38 8 4 50 2 21 19 10 50 Ialt 59 27 14 100 54

Statistisk model ( D 3 (50) 2, ( P(p (1),p (2) )) (p (1),p (2) ) 2 3 ) hvor P (p (1),p (2) )(x) = 2 ( 50 x i1, x i2, x i3 ) p x i1 i1 px i2 i2 px i3 i3 MLE uder de fulde model: ˆp 11 = 38 50 = 0.76; ˆp 12 = 8 50 = 0.16; ˆp 13 = 4 50 = 0.08 ˆp 21 = 21 50 = 0.42; ˆp 22 = 19 50 = 0.38; ˆp 23 = 10 50 = 0.20 55

Hypotese H : p 11 = p 21, p 12 = p 22, p 13 = p 23. MLE uder H ˆp 1 = 59 100 = 0.59 ˆp 2 = 27 100 = 0.27 ˆp 3 = 14 100 = 0.14 Pearso-teststørrelse X 2 = r s (x ij ix j )2 i x j = 2 3 (x ij 50x j 100 )2 50x j 100 = (38 59/2)2 59/2 (21 59/2) 2 59/2 = 11.95 + + (8 27/2)2 27/2 (19 27/2)2 27/2 + + (4 14/2)2 14/2 + (10 14/2)2 14/2 56

Frihedsgrader: (r 1)(s 1) = 1 2 = 2 Approksimatioe er OK, da ix j = x j 2 7 for i = 1, 2, j = 0, 1, 2. X 2 = 11.95 ɛ(x) 1 F χ 2 2 (11.95) = 0.0025 Da testsadsylighede er lagt uder 5% vil vi atage, at der er forskel på de to præparater, år det gælder bivirkiger. Da præparat 1 på kosistet måde er bedre ed præparat 2, må ma foretrække det første præparat. 57

Kvotietteststørrelse Q(x) = = r s ( 59 2 38 ( ) xij i x j = x ij 2 3 ) 38 ( ) 8 ( 27 14 2 8 2 4 ( 50 x j 100 x ij ) 4 ( 59 2 21 ) xij ) 21 ( 27 ) 19 ( 14 ) 10 2 19 2 10 = 0.0022 2 log Q(0.0022) = 12.24 ɛ(x) 1 F χ 2 2 (12.24) = 0.0022 Stort set det samme som Pearso-teststørrelse (som det bør være). 58

Test i 2 2 tabeller Først ser vi på homogeeitetstestet i det specielle tilfælde hvor s = 2, dvs polyomialfordeligere er biomialfordeliger. Bemærk først at da har vi x 2 = x 1 og x i2 = i x i1 Vi skriver ˆp og 1 ˆp for parameterestimatere uder hypotese om samme fordelig for alle biomialfordeligere i = 1,..., r. Vi skriver ˆp i og 1 ˆp i for parameterestimatere uder de fulde model med evetuelt forskellige parametre i hver af biomialfordeligere i = 1,..., r. 59

Pearsotestet bliver r 2 X 2 = = r (x ij ix j )2 i x j ( (xi1 ix 1 )2 i x 1 + (( ) i x i1 ) i( x 1) ) 2 i ( x 1 ) 60

Pearsotestet bliver r 2 X 2 = = = r r (x ij ix j )2 i x j ( (xi1 ix 1 )2 i x 1 ( 2 i ( x i1 i ˆp) 2 i ˆp + (( i x i1 ) i( x 1) ) 2 i ( x 1 ) ) + 2 i ( x i1 i + ˆp) 2 i (1 ˆp) ) 60

Pearsotestet bliver r 2 X 2 = = = = r r (x ij ix j )2 i x j ( (xi1 ix 1 )2 i x 1 ( 2 i ( x i1 i ˆp) 2 i ˆp r ( i (ˆp i ˆp) 2 ˆp + (( i x i1 ) i( x 1) ) 2 i ( x 1 ) ) + 2 i ( x i1 i + ˆp) 2 i (1 ˆp) + i(ˆp i ˆp) 2 (1 ˆp) ) ) 60

Pearsotestet bliver r 2 X 2 = = = = = Fortolkig? r r (x ij ix j )2 i x j ( (xi1 ix 1 )2 i x 1 ( 2 i ( x i1 i ˆp) 2 i ˆp r ( i (ˆp i ˆp) 2 r ˆp i (ˆp i ˆp) 2 ˆp(1 ˆp) + (( i x i1 ) i( x 1) ) 2 i ( x 1 ) ) + 2 i ( x i1 i + ˆp) 2 i (1 ˆp) + i(ˆp i ˆp) 2 (1 ˆp) ) ) 60

For r = 2 bliver Pearsoteststørrelse 2 X 2 i (ˆp i ˆp) 2 = = 1(ˆp 1 ˆp) 2 + 2 (ˆp 2 ˆp) 2 ˆp(1 ˆp) ˆp(1 ˆp) Vi ka skrive 1 (ˆp 1 ˆp) 2 + 2 (ˆp 2 ˆp) 2 = 1 ( x11 1 x 11 + x 21 1 + 2 ) 2 ( x21 + 2 x ) 2 11 + x 21 2 1 + 2 61

For r = 2 bliver Pearsoteststørrelse 2 X 2 i (ˆp i ˆp) 2 = = 1(ˆp 1 ˆp) 2 + 2 (ˆp 2 ˆp) 2 ˆp(1 ˆp) ˆp(1 ˆp) Vi ka skrive ( 1 (ˆp 1 ˆp) 2 + 2 (ˆp 2 ˆp) 2 x11 = 1 x 11 + x 21 1 1 + 2 = 1 ( x11 2 x 21 1 1 ( 1 + 2 ) ) 2 ( x21 + 2 x 11 + x 21 2 1 + 2 ) 2 ( ) 2 x21 1 x 11 2 + 2 2 ( 1 + 2 ) ) 2 61

For r = 2 bliver Pearsoteststørrelse 2 X 2 i (ˆp i ˆp) 2 = = 1(ˆp 1 ˆp) 2 + 2 (ˆp 2 ˆp) 2 ˆp(1 ˆp) ˆp(1 ˆp) Vi ka skrive ( 1 (ˆp 1 ˆp) 2 + 2 (ˆp 2 ˆp) 2 x11 = 1 x ) 2 ( 11 + x 21 x21 + 2 x 11 + x 21 1 1 + 2 2 1 + 2 ( ) 2 ( ) 2 x11 2 x 21 1 x21 1 x 11 2 = 1 + 2 1 ( 1 + 2 ) 2 ( 1 + 2 ) ( 1 = + 1 ) ( ) 2 x11 2 x 21 1 1 2 1 + 2 ) 2 61

For r = 2 bliver Pearsoteststørrelse 2 X 2 i (ˆp i ˆp) 2 = = 1(ˆp 1 ˆp) 2 + 2 (ˆp 2 ˆp) 2 ˆp(1 ˆp) ˆp(1 ˆp) Vi ka skrive ( 1 (ˆp 1 ˆp) 2 + 2 (ˆp 2 ˆp) 2 x11 = 1 x ) 2 ( 11 + x 21 x21 + 2 x 11 + x 21 1 1 + 2 2 1 + 2 ( ) 2 ( ) 2 x11 2 x 21 1 x21 1 x 11 2 = 1 + 2 1 ( 1 + 2 ) 2 ( 1 + 2 ) ( 1 = + 1 ) ( ) 2 x11 2 x 21 1 1 2 1 + 2 ( ) ( ) 2 1 2 x11 2 x 21 1 = 1 + 2 1 2 ) 2 61

For r = 2 bliver Pearsoteststørrelse 2 X 2 i (ˆp i ˆp) 2 = = 1(ˆp 1 ˆp) 2 + 2 (ˆp 2 ˆp) 2 ˆp(1 ˆp) ˆp(1 ˆp) Vi ka skrive ( 1 (ˆp 1 ˆp) 2 + 2 (ˆp 2 ˆp) 2 x11 = 1 x ) 2 ( 11 + x 21 x21 + 2 x 11 + x 21 1 1 + 2 2 1 + 2 ( ) 2 ( ) 2 x11 2 x 21 1 x21 1 x 11 2 = 1 + 2 1 ( 1 + 2 ) 2 ( 1 + 2 ) ( 1 = + 1 ) ( ) 2 x11 2 x 21 1 1 2 1 + 2 ( ) ( ) 2 1 2 x11 2 x 21 1 = 1 + 2 1 2 = (ˆp 1 ˆp 2 ) 2 / (1/ 1 + 1/ 2 ) ) 2 61

Vi får således at X 2 = (ˆp 1 ˆp 2 ) 2 ˆp(1 ˆp)( 1 1 + 1 2 ) Fortolkig? Husk at ˆp i = x i1 og ˆp = x 11 + x 21, og at ( 1 i 1 + 1 + 1 2 ) = 1+ 2 1 2 2 62

Eksempel 6.5. Avadex til mus De carciogee effekt hos e fugocid (et svampebekæmpelsesmiddel), Avadex, er blevet udersøgt. E gruppe mus blev givet Avadex i foderet i 85 uger, e ade gruppe mus fik stadardfoder. Hyppighede af lugesvulster observeredes: Med svulster Ude svulster Sum Med Avadex 4 12 16 Ude Avadex 5 74 79 Sum 9 86 95 63

Vi atager at atallet af mus med svulster i de to grupper er uafhægige og biomialfordelte med parametre heholdsvis ( 1, p 1 ) og ( 2, p 2 ). Forskigsspørgsmål: Er Avadex kræftfremkaldede? Dette ka udtrykkes ved hypotese (hypotese er at der IKKE er e forøget risiko ved Avadex): H 0 : p 1 = p 2 64

Med svulster Ude svulster Sum Med Avadex 4 12 16 Ude Avadex 5 74 79 Sum 9 86 95 Pearso-teststørrelse: X 2 = (ˆp 1 ˆp 2 ) 2 ˆp(1 ˆp)( 1 1 + 1 2 ) = ( 4 16 5 79 )2 9 95 (1 9 95 )( 1 16 + 1 79 ) = 5.41 65

Teststørrelse skal vurderes i e χ 2 -fordelig med (r 1)(s 1) = (2 1)(2 1) = 1 frihedsgrader: MEN! ɛ(x) P (χ 2 1 5.41) = 0.02 Med svulster Ude svulster Sum Med Avadex 4 12 16 Ude Avadex 5 74 79 Sum 9 86 95 E(X 11 ) = 16 9/95 = 1.5 < 5, så vi ka ikke stole på de approksimative testsadsylighed. 66

Fishers eksakte test Når de forvetede atal i e 2 2-atalstabel er for små til at avede et χ 2 test, ka ma i stedet beyttede det mere komplicerede Fishers eksakte test. At 9 ud af 95 mus fik svulster fortæller itet om forskelle mellem foder med og ude Avadex. Det iteressate er hvorda de 9 mus med svulster fordeler sig i de to grupper. Hypotese: Avadex har ikke idflydelse på risikoe for at få svulster. 67

Uder hypotese ka de 9 mus med svulster betragtes som e tilfældigt valgt stikprøve fra i alt 95 mus: alle stikprøver er lige sadsylige. Lad X betege atallet af Avadex-mus i dee stikprøve på 9 mus. X er da hypergeometrisk fordelt med parametre N = 95 (størrelse af populatioe), = 9 (størrelse af stikprøve) og R = 16 (atallet af Avadex-mus i populatioe). Uder hypotese er E(X) = R N = 9 16 95 = 1.5 68

Vi har observeret X = 4. Hvor sadsyligt er dette eller oget der er lægere væk fra ulhypotese på 1.5? Vi skal altså berege testsadsylighede ɛ(4) = 2 P (X 4). Husk fra sadsylighedsregige MS side 73 at vi har ( R N R ) ( 16 )( 95 16 ) P (X = x) = x)( x x 9 x ( N = ) ) ( 95 16 69

Vi bereger P (X = 4) = P (X = 5) = P (X = 6) = P (X = 7) = P (X = 8) = P (X = 9) = ( )( ) 16 79 / ( ) 95 4 5 16 ( )( ) 16 79 / ( ) 95 5 4 16 ( )( ) 16 79 / ( ) 95 6 3 16 ( )( ) 16 79 / ( ) 95 7 2 16 ( )( ) 16 79 / ( ) 95 8 1 16 ( )( ) 16 79 / ( ) 95 9 0 16 = 0.03491 = 0.00559 = 0.00054 = 0.00003 0 0 P (X 4) = 0.041 70

Edelig får vi: ɛ(4) = 2 P (X 4) = 2 0.041 = 0.082 Sammelig med de approksimative χ 2 -sadsylighed: Fortolkig? ɛ(x) P (χ 2 1 5.41) = 0.02 71

Fishers eksakte test Et eksakt test i e 2 2 atalstabel udføres som et tosidet test på teststørrelse X = X 11. Uder hypotese om ige forskel mellem gruppere er dee hypergeometrisk fordelt (, X 1, 1 /). Kategorier 1 2 Sum 1 X 11 X 12 X 1 = 1 2 X 21 X 22 X 2 = 2 Sum X 1 X 2 Bemærk: Der er ige approksimatioer avedt, så testet er specielt veleget til små stikprøver (og besværlig at bruge ved store stikprøver). 72

Tresidede atalstabeller: Cofoudig Får vi altid e rimelig sammeligig mellem ekspoerede og ikke-ekspoerede? Uge Midaldrede Uge EKSPONEREDE: Gamle IKKE-EKSPONEREDE: Midaldrede Gamle Ikke ødvedigvis - e tilfældigt udvalgt ekspoeret perso vil ofte være ældre ed e tilfældigt udvalgt ikke-ekspoeret perso. Dette er et problem hvis alder er e risikofaktor for udfaldet. 73

Cofoudig E variabel C er e mulig cofouder for sammehæge: E O hvis de er 1. relateret til ekspoerige: E C 2. e uafhægig risikofaktor for udfaldet: C O 3. ikke er e kosekves af ekspoerige: E C O Det vil sige: E C O 74

Cofoudig Eksempel: Alder er ofte e cofouder i studier af sammehæge mellem e ekspoerig, der forværres over tid, og et sygdomsudfald eller død, fordi alder er e risikofaktor for død (eller sygdom): C O aldersfordelige er forskellig afhægig af ekspoerigsstatus: E C For eksempel: Ekspoerig: rygig; Udfald: død; Cofouder: alder 75

76

Eksempel Dødsdomme i 4863 mordsager i Florida i åree 1973-78, opdelt efter de formodede morders hudfarve. New York Times Magazie, 1979. Dom Morder Død Adet Total Hvid 72 2185 2257 Sort 59 2547 2606 Total 131 4732 4863 Risiko (sadsylighed) for at få e dødsdom: 72 Hvid morder: ˆp 1 = 2257 = 3.2% 59 Sort morder: ˆp 2 = 2606 = 2.3% Morder: ˆp = 131 4863 = 2.7% 77

De relative risiko for at få e dødsdom for hvide versus sorte er 3.2% 2.3% = 1.41 Det vil sige at der er cirka 40% større risiko for at blive dømt til døde i Florida hvis ma er hvid fremfor sort. Pearsoteststørrelse: X 2 = (ˆp 1 ˆp 2 ) 2 ˆp(1 ˆp)( 1 1 + 1 2 ) = (0.032 0.023) 2 0.027(1 0.027)( 1 2257 + 1 2606 ) = 3.96 ɛ(x) 1 F χ 2 1 (X 2 ) = 0.047 78

De relative risiko for at få e dødsdom for hvide versus sorte er 3.2% 2.3% = 1.41 Det vil sige at der er cirka 40% større risiko for at blive dømt til døde i Florida hvis ma er hvid fremfor sort. Pearsoteststørrelse: X 2 = (ˆp 1 ˆp 2 ) 2 ˆp(1 ˆp)( 1 1 + 1 2 ) = (0.032 0.023) 2 0.027(1 0.027)( 1 2257 + 1 2606 ) = 3.96 ɛ(x) 1 F χ 2 1 (X 2 ) = 0.047 Er det e rimelig koklusio? Magler vi ogle oplysiger? 78

Cofoudig E variabel kaldes e cofouder for e associatio mellem e risikofaktor og et udfald hvis: Variable er e selvstædig risikofaktor for udfaldet Variable og risikofaktore er relaterede I vores eksempel er risikofaktore hudfarve og udfaldet er e dødsdom eller ade straf. 79

Cofoudig E variabel kaldes e cofouder for e associatio mellem e risikofaktor og et udfald hvis: Variable er e selvstædig risikofaktor for udfaldet Variable og risikofaktore er relaterede I vores eksempel er risikofaktore hudfarve og udfaldet er e dødsdom eller ade straf. Er der oge cofouder der skjuler de rette sammehæg? 79

Mulig cofouder: Offerets farve Dom Offer Morder Dø Adet Total Sort Hvid 0 111 111 Sort 11 2309 2320 Hvid Hvid 72 2074 2146 Sort 48 238 286 Hvorda ka vi se om offerets hudfarve er e cofouder? 80

1. Variable er e selvstædig risikofaktor for udfaldet: Dom Offer Død Adet Total Hvid 120 2312 2432 Sort 11 2420 2431 Relativ risiko = 120 Risiko hvis offeret er hvid Risiko hvis offeret er sort = 2432 11 2431 = 4.9% 0.5% = 10.9 Der er æste 11 gage så stor risiko for at få e dødsdom hvis ma er dømt for at slå e hvid ihjel fremfor e sort. 81

2. Variable og risikofaktore er relaterede: Morder Offer Hvid Sort Total Hvid 2146 286 2432 Sort 111 2320 2431 Relativ risiko = 2146 2432 111 2431 = 88.2% 4.6% = 19.3 Hvide slår hvide ihjel og sorte slår sorte ihjel - de fleste ligger i diagoale. 82

Separate aalyser i strata defieret ved cofoudere: Sort offer: Relative risiko = Hvidt offer: Relative risiko = 0 Risiko for hvid morder Risiko for sort morder = 111 11 2320 72 Risiko for hvid morder Risiko for sort morder = 2146 48 286 = 0% 0.5% = 0 = 3.4% 16.8% = 0.2 (hvid morder versus sort morder) (Husk: Risiko for hvid morder Risiko for sort morder = 1.41 år offerets hudfarve igoreres) 83

Vi har e serie (her to) af 2 2 tabeller (e for hver hudfarve hos offeret): Dom Morder Død Adet Total Hvid x 11 x 12 x 1 Sort x 21 x 22 x 2 Total x 1 x 2 = x I hver tabel ka de relative risiko estimeres ved RR = x 11/x 1 = x 11x 2 = x 11x 2 / x 21 /x 2 x 21 x 1 x 21 x 1 / 84

E fælles RR over alle strata ka estimeres ved Matel-Haeszel estimatore: RR MH = J x 11jx 2 j / j J x 21jx 1 j / j hvor J er atallet af strata. I vores tilfælde er J = 2. Dvs et vægtet geemsit af separate RR-estimater. 85

Vægtet geemsit af separate RR-estimater: (Matel-Haeszel estimatore) stratum 1 stratum 2 (sort offer) (hvidt offer) 0 111 111 72 2074 2146 11 2309 2320 48 238 286 2431 2432 RR MH = 2 x 11jx 2 j / j 2 x 21jx 1 j / j = 0 2320 2431 + 72 286 2432 11 111 2431 + 48 2146 2432 = 0.20 86

Fortolkig? I Florida har hvide 1/5 gage så stor risiko for at få e dødsdom år de dømmes for mord ed sorte - eller sorte har 5 gage så stor risiko - år ma korrigerer for offerets hudfarve. Sammelig med det ukorrigerede estimat på 1.4 gage så stor risiko. 87

Aalyse af tredimesioale tabeller Sammehæg mellem to variable Sammehæg kausalitet Baggrudsvariable 88

Ige forskel mellem behadliger Behadlig 1 Behadlig 2 Prog- Overlevede Atal Prog- Overlevede Atal ose atal pct ialt ose atal pct ialt God 80 80% 100 God 8 80% 10 Dårlig 4 40% 10 Dårlig 40 40% 100 Alle 84 76% 110 Alle 48 44% 110 Hvis progosestatus igoreres (aalyse foretages i de margiale tabel) viser aalyse fejlagtigt at behadlig 1 er bedst. 89

Cofouder trekat E C O I eksemplet: Behadlig Progose? Overlevelse 90

Flest overlevede med Behadlig 2 Behadlig 1 Behadlig 2 Prog- Overlevede Atal Prog- Overlevede Atal ose atal pct ialt ose atal pct ialt God 60 60% 100 God 8 80% 10 Dårlig 4 40% 10 Dårlig 50 50% 100 Alle 64 58% 110 Alle 58 53% 110 Hvis progosestatus igoreres (aalyse foretages i de margiale tabel) viser aalyse fejlagtigt at behadlig 1 er bedst. 91

Ige forskel mellem behadliger Behadlig 1 Behadlig 2 Prog- Overlevede Atal Prog- Overlevede Atal ose atal pct ialt ose atal pct ialt God 80 80% 100 God 40 80% 50 Dårlig 20 40% 50 Dårlig 10 40% 25 Alle 100 67% 150 Alle 50 67% 75 Hvis progosestatus igoreres bliver aalyse alligevel korrekt da forholdet mellem patieter i de to progosegrupper er de samme. 92

Cofouder trekat E C O I eksemplet: Behadlig? Progose Overlevelse 93

Flest overlevede med Behadlig 2 Behadlig 1 Behadlig 2 Freg- Overlevede Atal Freg- Overlevede Atal er atal pct ialt er atal pct ialt Ja 60 60% 100 Ja 16 80% 20 Nej 6 60% 10 Nej 72 80% 90 Alle 66 60% 110 Alle 88 80% 110 Freger eller ej har ige betydig for aalyse da det ikke er relateret til overlevelse. 94

Cofouder trekat E C O I eksemplet: Behadlig Freger Overlevelse 95