STATISTIKNOTER Simple multinomialfordelingsmodeller

Relaterede dokumenter
Annuiteter og indekstal

Projekt 0.5 Euklids algoritme, primtal og primiske tal

Indhold (med link til dokumentet her) Introduktion til låntyper. Begreber. Thomas Jensen og Morten Overgård Nielsen

Annuiteter og indekstal

Privatøkonomi og kvotientrækker KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Kap. 1: Logaritme-, eksponential- og potensfunktioner. Grundlæggende egenskaber.

Projekt 5.2. Anvendelse af Cavalieris princip i areal- og rumfangsberegninger

Projekt 0.5 Euklids algoritme og primiske tal

TDC A/S Nørregade København C. Afgørelse om fastsættelse af WACC i forbindelse med omkostningsdokumentation af priserne i TDC s standardtilbud

Den stigende popularitet af de afdragsfrie lån har ad flere omgange fået skylden for de kraftigt stigende boligpriser de senere år.

Projekt 2.3 Anvendelse af Cavalieris princip i areal- og rumfangsberegninger

Gravitationsfeltet. r i

TEORETISK OPGAVE 3. Hvorfor er stjerner så store?

Projekt 1.8 Design en optimal flaske

Forløb om annuitetslån

Erhvervs- og Selskabsstyrelsen

GÆLDENDE SATSBILAG VEDRØRENDE MARKEDSVÆRDIGRUND- LAGET

Rentesregning: Lektion A1. Forrentningsfaktor, Diskonteringsfaktor, og Betalingsrækker. Overordnede spørgsmål i Rentesregning. Peter Ove Christensen

Pension og Tilbagetrækning - Ikke-parametrisk Estimation af Heterogenitet

Alt hvad du nogensinde har ønsket at vide om... Del 2. Frank Nasser

Hvis man vil lægge 15% til 600, så kan det gøres ved at udregne, hvor meget 15% af 600 er lig med og lægge det til det oprindelige beløb:

Dimittendundersøgelse, 2009 Dato: 3. juni 2009

g-påvirkning i rutsjebane

Trivselsundersøgelse 2010

Elementær Matematik. Lineære funktioner og Andengradspolynomiet

Psykisk arbejdsmiljø (kort) udarbejdet af NFA (AMI)

Digital dannelse og kultur

HTX Holstebro Jacob Østergaard 20. oktober A Fysik A Accelererede Roterende Legemer 19:03:00

Procent og eksponentiel vækst - supplerende eksempler

Etiske dilemmaer i fysioterapeutisk praksis

Trafikpolitik 2018 Lynghedeskolen

Trigonometri. teori mundtlig fremlæggelse C 2. C v. B v. A v

Julestjerner af karton Design Beregning Konstruktion

De dynamiske stjerner

Med disse betegnelser gælder følgende formel for en annuitetsopsparing:

DesignMat Den komplekse eksponentialfunktion og polynomier

Obligatorisk erhvervspraktik i 8. klasse

Regional Udvikling, Miljø og Råstoffer. Jordforurening - Offentlig høring Forslag til nye forureningsundersøgelser og oprensninger 2016

En forhandlingsmodel for løndannelsen

Løsninger til kapitel 11. Opgave 11.1 a) I Excel-udskriften ses bl.a. p-værdien for testen med nulhypotesen.

Magnetisk dipolmoment

Beregningsprocedure for de energimæssige forhold for forsatsvinduer

Magnetisk dipolmoment

Sabatiers princip (elevvejledning)

Januar2003/ AM Rentesregning - LÅN & OPSPARING 1/8. Aftager med...% Gange med (1...%) r:=...% Før aftager med...% og bliver til Efter, dvs.

Ekstra ugeopgaver UO 1. MAT 2AL 24. april 2006

Helikopterprojekt Vejprospektering mellem Sisimiut og Sønderstrømfjord

Fagstudieordning for tilvalgsuddannelsen i Erhvervsøkonomi (2012-ordning)

Stå op fo Odense. Vis, at vi er mange, der arbejder for det samme

Elektrostatisk energi

Elektromagnetisme 1 Side 1 af 11 Elektrostatik 1. Elektrisk ladning

Lineære normale modeller (3) udkast

Praksis om miljøvurdering

Uddannelsesordning for uddannelsen til Gastronom

Ønskekøbing Kommune - netværksanalyse i den administrative organisation

Elektrostatisk energi

Impulsbevarelse ved stød

rekommandation overspændingsafledere til højspændingsnet. Member of DEHN group Udarbejdet af: Ernst Boye Nielsen & Peter Mathiasen,

Matematik på Åbent VUC

Opsparing og afvikling af gæld

Arealet af en sfærisk trekant m.m.

Indholdsfortegnelse. Matematik A. Projekt 6 - Centralperspektiv. Stine Andersen og Morten Kristensen

Matematik. Mål Aktiviteter Øvelser/Evaluering. Tal Eleven kan anvende reelle tal Eleven har viden om irrationale tal

MOGENS ODDERSHEDE LARSEN MATEMATIK

Elektromagnetisme 1 Side 1 af 11 Elektrostatik 1. Elektrisk ladning

Projekt 4. Anlægsøkonomien i Storebæltsforbindelsen hvordan afdrages

Introduktion I dette forløb vil vi dels få et redskab til at sammenligne, hvor hurtigt givne funktioner vokser (eller aftager), og dels

Dielektrisk forskydning

( ) ( ) ( ) Størrelsesorden for funktionerne a x, x a og ln(x) (opgaveforløb v/ Bjørn Grøn og John Schächter) > ( )

To legeme problemet og Keplers love

p o drama vesterdal idræt musik kunst design

praktiske. Der er lavet adskillige undersøgelser at skelne i mellem: ulaboratorieundersøgelser og ufeltundersøgelser.

MEREg BEDRE FØLGERSKAB. VENTETIDg NU! VEDLIGHOLDg SELVREPARATION

Wear&Care Brugervejledning. A change for the better

MATEMATIK på Søværnets officerskole

Kompendium over testteorien

Nr Atom nummer nul Fag: Fysik A Udarbejdet af: Michael Bjerring Christiansen, Århus Statsgymnasium, august 2009

Lokalplanlægning. Lokalplanen er bindende for den enkelte grundejer, men handler kun om fremtidige forhold og giver ikke grundejerne handlepligt.

Notat. 18. oktober Social & Arbejdsmarked

Fremstilling af F1 hybrider i raps ved brug af cytoplasmatiskgenetisk

Kvantemekanik 10 Side 1 af 9 Brintatomet I. Sfærisk harmoniske ( ) ( ) ( ) ( )

VURDERING AF LØSNINGSFORSLAG I FORBINDELSE MED DEN EUROPÆISKE STATSGÆLDSKRISE

Kort om. Potenssammenhænge Karsten Juul

Om Gear fra Technoingranaggi Riduttori Tilføjelser til TR s katalogmateriale

Metode til beregning af varmetransmissionskoefficient (U-værdi) for ovenlys

Geografi 8. klasse 2011/2012

diagnostik Skulder fysioterapeuten nr. 05 marts 2009

Stillings- og personprofil. Trafik og vejchef

Cisgene bygplanter. planteforskning.dk Bioteknologi

PÆDAGOGISK KVALITETSEVALUERING

VORDINGBORG KOMMUNE. Boligområde "Falunparken" LOKALPLAN NR. B kr. FALUNVEJ PRINS JØRGENS ALLÈ KØBENHAVNSVEJ

Bekendtgørelse for musikskoler formulerer følgende overordnede mål:

Frivillige dyrkningsaftaler i indsatsområder

CO 2. -regnskab For virksomheden Jammerbugt Kommune

Pædagogisk Handleplan. Møllehøjens Børnegård i 2016

CoCo-obligationer i matematisk modelperspektivering

Kontakt: - en anden tid et andet tempo! A13 Hobro. Løgstør. Skive. Bjerregrav Hjarbæk Fjord. Skals A13. Hobro/Randers Viborg. Kulturarvsforbindelsen

Udfordringer i et arbejdsmarkedsperspektiv

Wor King Papers. Management Working Papers. Mere egenkapital i de store nordiske banker hvad koster det for banken?

Transkript:

STATISTIKNOTER Simple multinomialfodelingsmodelle Jøgen Lasen IMFUFA Roskilde Univesitetscente Febua 1999

IMFUFA, Roskilde Univesitetscente, Postboks 260, DK-4000 Roskilde. Jøgen Lasen: STATISTIKNOTER: Simple multinomialfodelingsmodelle IMFUFA tekst n. 304d/1995 35 side ISSN 0106-6242 Dette hæfte e en del af undevisningsmateialet til et kusus i statistik og statistiske modelle. Undevisningsmateialet omfatte blandt andet følgende title: a. Simple binomialfodelingsmodelle b. Simple nomalfodelingsmodelle c. Simple Poissonfodelingsmodelle d. Simple multinomialfodelingsmodelle e. Minde matematisk-statistisk opslagsvæk, indeholdende bl.a. odfoklainge, esumée og tabelle Om kuset og kususmateialet kan blandt andet siges at nå det e et gennemgående tema at påpege at likelihoodmetoden kan benyttes som et oveodnet pincip fo valg af estimatoe og teststøelse, e det blandt andet begundet i at likelihoodmetoden ha mange egenskabe de fa et matematisk-statistisk synspunkt anses fo ønskelige, at likelihoodmetoden e meget udbedt og nyde sto anekendelse ikke mindst i Danmak, og at det i al almindelighed e væd at gøe opmæksom på at man også inden fo faget statistik ha oveodnede og stuktueende begebe og metode; nå kususmateialet e skevet på dansk og ikke fo eksempel på scientific English, e det fo at bidage til at vedligeholde taditionene fo hvodan og at man kan tale om slige emne på dansk, og så sandelig også fodi dansk e det spog som fofatteen og vel også den foventede læse e bedst til; nå hæftene fouden de sædvanlige simple modelle, metode og eksemple også indeholde eksemple de e væsentligt svæee, e det fo at antyde nogle af de etninge man kan abejde videe i, og fo at de kan væe lidt udfodinge til den kævende læse.

Indhold 1 Multinomialfodelingen 5 1.1 Den gundlæggende multinomialfodelingsmodel........ 5 1.2 Sammenligning af multinomialfodelinge............ 11 1.3 Opgave................................ 17 2 Et støe eksempel: Tosk i Østesøen 19 2.1 Pæsentation af eksemplet...................... 19 2.2 Hady-Weinbeg ligevægt...................... 20 2.3 Hypotesen om Hady-Weinbeg ligevægt............. 22 2.4 En samlet model............................ 23 3 Tosidede kontingenstabelle 27 3.1 Gundmodellen............................ 27 3.2 Uafhængighedshypotesen...................... 29 3.3 Jævnføing med ande tilsvaende modelle............ 33 3.4 Opgave................................ 34 4 Stikod 35 3

4

1 Multinomialfodelingen Multinomialfodelingen kan ses som en natulig genealisation af binomialfodelingen: I situatione hvo man ha at gøe med n gentagelse af et elementafosøg de kan esultee i et af to mulige udfald, vil antallet af gange man få den ene slags udfald, blive binomialfodelt. I situatione hvo man ha at gøe med n gentagelse af et elementafosøg de kan esultee i et af mulige udfald, vil man et vist antal gange, y 1, få det føste udfald, et vist antal gange, y 2, det andet udfald,..., og et vist antal gange, y, det -te udfald; talsættet y 1, y 2,..., y blive multinomialfodelt. Eksempel 1.1 En simpel fom fo politisk meningsmålingsundesøgelse kunne bestå i at man tilfældigt udvælge n pesone og spøge dem hvilket af de politiske patie de ville stemme på hvis de va folketingsvalg i mogen. He bestå elementafosøget i at spøge én peson og notee den pågældendes sva ned. Den samlede undesøgelse esultee i at et vist antal y 1 svae det føste pati, et vist antal y 2 svae det andet pati,..., og et vist antal y svae det -te pati. Da de i alt e spugt n pesone, vil de gælde at y 1 + y 2 +... + y = n, foudsat at alle de adspugte faktisk svae. Den multinomialfodelingsmodel vi i det følgende vil diskutee, svae til at nå man vælge en tilfældig peson, så vil denne med en vis sandsynlighed p 1 svae pati n. 1, med en vis sandsynlighed p 2 svae pati n. 2,..., og med en vis sandsynlighed p svae pati n.. Da vi foudsætte at alle adspugte give et af de mulige sva, e p 1 + p 2 +... + p = 1. 1.1 Den gundlæggende multinomialfodelingsmodel Antag at vi ha klassificeet n individe i klasse; i den geneelle diskussion kaldes klassene A 1, A 2,..., A, i en konket modelsituation ha de ofte nogle mee sigende betegnelse. Skematisk e situationen som vist i Figu 1.1. Vi gå ud fa at de n individe stamme fa en og samme»population«således at hve gang man tilfældigt udvælge et individ, e de sandsynligheden p 1 fo at individet tilhøe klassen A 1, sandsynligheden p 2 fo at individet tilhøe klassen A 2, osv. Sandsynlighedene p 1, p 2,..., p de summee til 1 e ukendte paamete de e kaakteistiske fo populationen. 5

6 Multinomialfodelingen klasse- klasse- obseveet numme navn antal 1 A 1 y 1 2 A 2 y 2 3 A 3 y 3... A y i alt n Figu 1.1 Multinomialfodelingssituationen, skematisk. Hemed ha vi sådan set beskevet den statistiske model fo ét individ. Nå de e et støe antal individe, pleje man ikke at angive hvilken klasse hvet enkelt individ vise sig at tilhøe, man nøjes med at angive hvo mange individe de e i hve klasse, dvs. man angive de obseveede vædie af de stokastiske vaiable Y 1, Y 2,..., Y defineet som Y i = antal individe de vise sig at tilhøe klassen A i i = 1, 2,...,. Den statistiske model vi skal nå fem til, skal specificee sandsynlighedsfodelingen fo sættet Y 1, Y 2,..., Y af stokastiske vaiable, elle sagt på en anden måde, vi skal fastlægge PY 1 = y 1, Y 2 = y 2,..., Y = y. Hvis de kun e to klasse, så e de tale om et binomialfodelingspoblem. Fo at løse poblemet med klasse gå vi fem på en måde de e stækt inspieet af udledningen af binomialfodelingen. Vi indføe nogle hjælpevaiable X 1, X 2,..., X n således at X d e navnet på den klasse som individ n. d tilhøe, dvs. X d = A i hvis og kun hvis individ n. d tilhøe klassen A i. De gælde så at PX d = A i = p i. Da individene tænkes valgt uafhængigt af hveande, må de foskellige X d -e væe stokastisk uafhængige således at f.eks. PX d1 = A i1, X d2 = A i2 = p i1 p i2 hvis d 1 = d 2. Hvis vi ha n klassenavne x 1, x 2,..., x n, og hvis det e sådan at netop y i af x-ene e et A i, i = 1, 2,...,, så e PX 1 = x 1, X 2 = x 2,..., X n = x n = PX 1 = x 1 PX 2 = x 2... PX n = x n = p y 1 1 py 2 2... py. Den søgte sandsynlighed PY 1 = y 1, Y 2 = y 2,..., Y = y fås nu ved at summee disse sandsynlighede ove alle mulige n-tuple x 1, x 2,..., x n be-

1.1 Den gundlæggende multinomialfodelingsmodel 7 stående af y 1 A 1 -e, y 2 A 2 -e,..., y A -e: PY 1 = y 1, Y 2 = y 2,..., Y = y = PX 1 = x 1, X 2 = x 2,..., X n = x n = p y 1 1 py 2 2... py = 1 p y 1 1 py 2 2... py hvo summationstegnet hve gang betyde summation ove de n-tuple x 1, x 2,..., x n som bestå af y 1 A 1 -e, y 2 A 2 -e osv. Symbolet 1 komme på den måde til at betyde antallet af foskellige sådanne n-tuple x 1, x 2,..., x n ; dette antal pleje man at betegne med symbolet n y 1 y 2... y de kaldes en multinomialkoefficient elle polynomialkoefficient. Den fundne sandsynlighedsfunktion n PY 1 = y 1, Y 2 = y 2,..., Y = y = p y 1 y 1 y 2... y 1 py 2 2... py e sandsynlighedsfunktionen fo en multinomialfodeling elle polynomialfodeling med paamete n og p hvo Multinomialkoefficiente p = p 1 p 2.. Definition 1.1 Multinomialkoefficient Multinomialkoefficienten n y 1 y 2... y betegne antallet af foskellige måde hvopå man kan placee symbole A 1, A 2,..., A på n pladse således at symbolet A 1 komme på y 1 af pladsene, symbolet A 2 komme på y 2 af pladsene,..., symbolet A komme på y af pladsene. Man kan let udlede fomle de gø det muligt at udegne multinomialkoefficiente. Vi illustee femgangsmåden med et eksempel, hvo vi vil bestemme talvædien af 7 2 3 2 : 1. Det søgte tal e p. definition antallet af placeinge af symbolene A 1, A 2 og A 3 på syv pladse således at to af pladsene få et A 1, te af pladsene et A 2 og to af pladsene et A 3. En mulig placeing e A 1, A 3, A 1, A 2, A 2, A 2, A 3. p

8 Multinomialfodelingen 2. Vi kan bestemme en placeing ved føst at bestemme hvilke to pladse de skal have et A 1, denæst hvilke te pladse de skal have et A 2, og så endelig placee et A 3 på de to tilovesblevne pladse. a De e 7 2 = 21 foskellige placeinge af de to A 1-e ifølge definitionen af binomialkoefficiente. b Hve gang vi ha placee de to A 1 -e, e de fem pladse tilbage, og på de fem pladse skal vi fodele te A 2 -e og to A 3 -e; dette kan gøes på 5 3 = 10 foskellige måde. Hve gang vi ha en af de 7 2 placeinge af A 1, e de altså 5 3 placeinge af A 2 og A 3. 3. I alt e de defo 7 2 5 3 foskellige placeinge af A-ene så 7 7 5 = = 21 10 = 210. 2 3 2 2 3 n n! 4. Vi kan benytte fomlen = og få 7 2 3 2 = k 7 2 5 3 k! n k! = 7! 2! 5! 5! 3! 2! = 7! 2! 3! 2!. Et geneelt udtyk fo multinomialkoefficiente fås på ganske tilsvaende måde. Man skal placee y 1 A 1 -e, y 2 A 2 -e,..., og y A -e på n pladse n = y 1 + y 2 +... + y. Føst kan A 1 -ene placees på n y 1 foskellige måde; denæst kan A 2 -ene placees på de de esteende n y 1 pladse på n y 1 y 2 foskellige måde; denæst kan A 3 -ene placees på de esteende n y 1 y 2 pladse på n y 1 y 2 y 3, osv. Slutesultatet blive at nå y 1 + y 2 +... + y = n. n y 1 y 2... y Definition af multinomialfodelingen = n! y 1! y 2!... y! Definition 1.2 Multinomialfodeling At den -dimensionale stokastiske vaiabel Y 1, Y 2,..., Y e multinomialfodelt med antalspaamete n og sandsynlighedspaamete betyde at p = PY 1 = y 1, Y 2 = y 2,..., Y = y = p 1 p 2. p n y 1 y 2... y nå y 1, y 2,..., y e ikke-negative heltal de summee til n. p y 1 1 py 2 2... py 1.1

1.1 Den gundlæggende multinomialfodelingsmodel 9 Figu 1.2 Sandsynlighedssimplexet i det tedimensionale um. Estimation af paametene I den geneelle situation e modelfunktionen givet ved fomel 1.1, og likelihoodfunktionen e demed Lp = konstant p y 1 1 py 2 2... py. Spøgsmålet e nu hvodan man estimee paameteen p. De almene pincippe fo analyse af statistiske modelle påbyde at estimee p ved det -dimensionale talsæt ˆp de maksimalisee likelihoodfunktionen. Likelihoodfunktionen e en funktion af p, dvs. af vaiable p 1, p 2,..., p ; disse kan ikke vaiee fit, men opfylde»bibetingelsene«p 1 0, p 2 0,..., p 0, p = 1. i=1 I specialtilfældet = 3 kan vi anskueliggøe mulighedsomådet, dvs. mængden af p-e de opfylde bibetingelsene, som et tekantet omåde, det såkaldte sandsynlighedssimplex, i det tedimensionale um, se Figu 1.2.

10 Multinomialfodelingen Opgaven e at bestemme det punkt ˆp = ˆp 1 ˆp 2. ˆp som ligge i mulighedsomådet, og hvo likelihoodfunktionen L antage sin støste vædi. I matematikken diskutees geneelle metode til bestemmelse af maksimumspunkte fo funktione af mange vaiable, men disse metode skal vi ikke komme ind på he. Deimod vil vi løse det specielle poblem de vedøe multinomialfodelingen. Detil skal vi buge følgende Sætning 1.1 Antag at a 1, a 2,..., a e givne ikke-negative tal, og betagt funktionen f : p 1, p 2,..., p p a 1 1 pa 2 2... pa defineet på mængden af ikke-negative talsæt p 1, p 2,..., p de summee til 1. Vi sætte a = a 1 + a 2 +... + a og ˆp i = a i /a, i = 1, 2,...,. Da ha f et entydigt maksimumspunkt, nemlig ˆp 1, ˆp 2,..., ˆp. Bevis Vi vil sammenligne funktionsvædiene f p 1, p 2,..., p og f ˆp 1, ˆp 2,..., ˆp ved at se på støelsen ln f p 1, p 2,..., p som e negativ hvis og kun hvis f ˆp 1, ˆp 2,..., ˆp f p 1, p 2,..., p < f ˆp 1, ˆp 2,..., ˆp. De gælde føst at ln f p 1, p 2,..., p f ˆp 1, ˆp 2,..., ˆp = a i ln p i. ˆp i=1 i Nu benyttes en egenskab ved logaitmefunktionen, nemlig at ln t t 1 fo alle t > 0, og med lighedstegn hvis og kun hvis t = 1. Defo e a i ln p i ˆp i=1 i = = i=1 i=1 i=1 a i pi 1 ˆp i ai p i a i /a a i p i a = a a = 0, a i i=1 hvo»minde end elle lig med«blive»lig med«hvis og kun hvis alle tallene p i / ˆp i e lig 1, dvs. hvis og kun hvis p i = ˆp i fo alle i.

1.2 Sammenligning af multinomialfodelinge 11 Anvendt på funktionen p 1, p 2,..., p p y 1 1 py 2 2... p y fotælle sætningen at likelihoodfunktionen L antage sit maksimum i det entydigt bestemte punkt y 1 /n, y 2 /n,..., y /n. Altså e maksimaliseingsestimatet ˆp fo p givet ved ˆp = ˆp 1 ˆp 2. = ˆp y 1 /n y 2 /n.. y /n Paameteen p i, de jo e sandsynligheden fo at et individ tilhøe klassen A i, skal altså estimees ved den elative hyppighed y i /n af A i -individe i stikpøven. 1.2 Sammenligning af multinomialfodelinge Man ha undetiden bug fo at kunne sammenligne foskellige multinomialfodelinge fo at afgøe om de ha samme sandsynlighedspaamete. He e et eksempel; det vil blive analyseet mee indgående i Kapitel 2: Eksempel 1.2 Tosk i Østesøen Den 6. mats 1961 fangede nogle havbiologe 69 tosk ved Lolland og undesøgte aten af blodets hæmoglobin i hve enkelt tosk. Senee på ået fangede man også nogle tosk ved Bonholm og ved Ålandsøene og bestemte dees genotype. 1 Man mene at hæmoglobin-aten bestemmes af ét enkelt gen, og det som biologene bestemte, va toskenes genotype fo så vidt angå dette gen. Genet kan optæde i to udgave som taditionen to kaldes fo A og a, og de mulige genotype e da AA, Aa og aa. Tabel 1.1 vise den fundne fodeling på genotype fo hve af de te lokalitete. I dette afsnit vil vi udelukkende opfatte symbolene AA, Aa og aa som navne på klasse man klassificee toskene i. I Kapitel 2 vil vi smugle lidt genetik ind i en mee udbygget statistisk model fo tallene. På hve geogafisk lokalitet e de sket det at man ha klassificeet et antal tosk i te mulige klasse, så defo kan man sige at de på hve lokalitet e tale om en multinomialfodelingssituation nå de e te klasse, tale man også om en tinomialfodeling. Det kunne måske væe af inteesse at undesøge om genotypefodelingen e den samme på de te lokalitete, altså om sandsynligheden fo at en tosk ha en bestemt genotype, e den samme fo alle te lokalitetes vedkommende. Skønt nå man se på tallene vike denne fomodning lidet plausibel. Den geneelle model I den geneelle model antages det at vi ha klassificeet nogle individe i foskellige klasse A 1, A 2,..., A. Individene e på fohånd delt op i guppe, og de e s foskellige guppe med hhv. n 1, n 2,..., n s individe. Det ha vist sig at i guppe j høe y 1 j af individene til guppen A 1, y 2 j af individene til guppen A 2, y 3, j af individene til guppen A 3, osv. Skematisk se situationen ud som vist i Figu 1.3. 1 K. Sick 1965: Haemoglobin polymophism of cod in the Baltic and the Danish Belt Sea. Heeditas 54, 19-48.

12 Multinomialfodelingen Tabel 1.1 Genotypefodeling af tosk fa te lokalitete i Østesøen. lokalitet genotype Lolland Bonholm Ålandsøene AA Aa aa 27 30 12 14 20 52 0 5 75 i alt 69 86 80 guppe n. klasse 1 2 3... s A 1 y 11 y 12 y 13... y 1s A 2 y 21 y 22 y 23... y 2s........ A y 1 y 2 y 3... y s i alt n 1 n 2 n 3... n s Figu 1.3 Sammenligning af multinomialfodelinge, geneelt. y i j betegne antallet af individe fa guppe j de tilhøe klassen A i. I toskeeksemplet e de s = 3 guppe svaende til de te geogafiske lokalitete og = 3 klasse svaende til de te foskellige genotype. Den statistiske model de benyttes til at beskive denne situation e: fo hvet j dvs. fo hve guppe opfattes det -dimensionale talsæt y j = y 1 j y 2 j. som en obseveet vædi af en -dimensional stokastisk vaiabel Y j = y j Y 1 j Y 2 j. ; de stokastiske vaiable Y 1, Y 2,..., Y s e stokastisk uafhængige dvs. de foskellige guppe e stokastisk uafhængige; Y j

1.2 Sammenligning af multinomialfodelinge 13 den stokastiske vaiabel Y j e multinomialfodelt med antalspaamete n j og med ukendt sandsynlighedspaamete p j = p 1 j p 2 j p j. hvo p i j -ene e ikke-negative tal med p 1 j + p 2 j +... + p j = 1 fo hvet j. Modellen tage altså udgangspunkt i at guppene e systematisk foskellige mht. den foetagne klassificeing, og den beskive den såkaldte systematiske vaiation mellem guppene ved hjælp af de s sandsynlighedspaamete p 1, p 2,..., p s. Den såkaldte tilfældige vaiation inden fo guppe beskives ved sandsynlighedsfodelingene multinomialfodelingene. Opgaven e nu at undesøge om guppene kan anses fo ens, dvs. den e at teste den statistiske hypotese H 0 : p 1 = p 2 =... = p s elle mee udføligt H 0 : p 11 p 21 p 12 p 22 p 1s p 2s p 1 p 2 p s. =. =... =.. De geneelle etningslinie fo hvodan man analysee en given statistisk model, sige at vi skal begynde med at opskive modelfunktionen og deudaf få likelihoodfunktionen. Da de enkelte guppe e stokastisk uafhængige, e den samlede modelfunktion lig med et podukt af del-modelfunktionene fo de enkelte guppe, dvs. den samlede modelfunktion e f y 1, y 2,..., y s ; p 1, p 2,..., p s = Likelihoodfunktionen e demed s j=1 Lp 1, p 2,..., p s = konstant n j y 1 j y 2 j... y j hvo konstanten e poduktet af de s multinomialkoefficiente. I toskeeksemplet e likelihoodfunktionen p y 1 j 1 j p y 2 j 2 j... p y j j. s p y 1 j 1 j p y 2 j 2 j... p y j j 1.2 j=1 Lp L, p B, p Å = konstant p 27 1L p30 2L p12 3L p14 1B p20 2B p52 3B p0 1Å p5 2Å p75 3Å. Likelihoodfunktionen e sandsynligheden fo at obsevee det faktisk obseveede, betagtet som funktion af det ukendte sæt paamete. Som sædvanlig udnævne vi de vædie de maksimalisee likelihoodfunktionen elle log-likelihoodfunktionen til at væe de bedste estimate ove de ukendte paamete. I

14 Multinomialfodelingen den foeliggende model e likelihoodfunktionen et podukt af s del-likelihoodfunktione de hve isæ vedøe én enkelt guppe og ét enkelt p j. Nå vi skal maksimalisee L mht. p 1, p 2,..., p s, kan det defo ske ved at maksimalisee hve del-likelihoodfunktion fo sig. Det j-te delpoblem e en simpel multinomialfodelingsmodel, så defo følge det uden videe af esultatet på side 11 at ˆp i j = y i j n j. I taleksemplet e specielt ˆp 1L ˆp L = ˆp 2L = ˆp 3L ˆp 1B ˆp B = ˆp 2B = ˆp 3B ˆp 1Å ˆp Å = ˆp 2Å = ˆp 3Å 27/69 0.39 30/69 = 0.43, 12/69 0.17 14/86 0.16 20/86 = 0.23, 52/86 0.60 0/80 0.00 5/80 = 0.06. 75/80 0.94 Hypotesepøvning Vi skal heefte undesøge om det e imeligt at antage at hypotesen H 0 : p 1 = p 2 =... = p s om ens sandsynlighedspaamete holde. Unde H 0 e de ingen foskel på de s guppe, så da kan vi lige så godt slå dem sammen til én sto guppe bestående af n = n 1 + n 2 +... + n s individe de fodele sig med y 1 = y 11 + y 12 +... + y 1s = y 2 = y 21 + y 22 +... + y 2s =. y i = y i1 + y i2 +... + y is =. y = y 1 + y 2 +... + y s =.. s j=1 y i j i klassen A 1 s y 2 j i klassen A 2 j=1. s y i j j=1. s y j j=1 i klassen A i i klassen A Man må defo fomode at den fælles vædi p i af sandsynligheden fo at tilhøe klassen A i skal estimees ved y i /n, men lad os pøve at gå fem efte likelihoodmetoden.

1.2 Sammenligning af multinomialfodelinge 15 Vi kalde den fælles vædi unde H 0 af p 1, p 2,..., p s fo p, p = p 1 p 2.. I likelihoodfunktionen 1.2 estatte vi alle p j -ene med p og få deved likelihoodfunktionen unde H 0 : Lp, p,..., p = s konstant p y 1 j 1 p y 2 j 2... p y j j=1 = konstant p y 1 1 p y 2 2... p y. Det valg af p 1, p 2,..., p de maksimalisee denne likelihoodfunktion, e ifølge sætningen på side 10 netop ˆp i = y i /n som fomodet. 41/235 0.17 I taleksemplet blive ˆp = 55/235 = 0.23. 139/235 0.59 Nå man vil vudee hvo godt det faktisk obseveede beskives unde H 0 i fohold til den aktuelle gundsmodels beskivelse, skal man udegne kvotientteststøelsen L ˆp, ˆp,..., ˆp Q = L ˆp 1, ˆp 2,..., ˆp s elle 2 ln Q. En Q-vædi tæt på 1, dvs. en 2 ln Q-vædi tæt på 0, betyde at H 0 beskive data næsten lige så godt som gundmodellen gø, hvoimod en Q-vædi næ 0, dvs. en sto 2 ln Q-vædi, betyde at H 0 give en væsentligt dåligee beskivelse end gundmodellen gø. Man pleje at udegne 2 ln Q og ikke Q. Nå man indsætte udtykkene fo L i Q, få man let at 2 ln Q = 2 = 2 s j=1 s j=1 i=1 p y 1 j ln y 1 j ŷ 1 j + y 2 j ln y 2 j ŷ 2 j +... + y j ln y j ŷ j y i j ln y i j ŷ i j hvo ŷ i j = ˆp i n j = y i n j /n e det»foventede«antal individe fa guppe j de klassificees som A i. Fo at bestemme 2 ln Q i taleksemplet udegnes føst de foventede antal, se Tabel 1.2. Demed e 2 ln Q obs = 2 27 ln 27 14 + 14 ln 12.0 15.0 + 0 ln 0 14.0 + 30 ln 30 20 + 20 ln 16.1 20.1 + 5 ln 5 18.7 +12 ln 12 52 75 + 52 ln + 75 ln 40.8 50.9 47.3 = 107.8

16 Multinomialfodelingen Tabel 1.2 Genotypefodeling hos tosk fa te lokalitete i Østesøen: foventede antal unde antagelse af ens fodelinge på de te lokalitete. lokalitet genotype Lolland Bonholm Ålandsøene AA Aa aa 12.0 16.1 40.8 15.0 20.1 50.9 14.0 18.7 47.3 i alt 68.9 86.0 80.0 Fo at afgøe om en opnået 2 ln Q obs -vædi som f.eks. 107.8 nu e tæt på 0 elle ej, skal man sammenligne den med alle de ande 2 ln Q-vædie man også kunne have fået ifølge den aktuelle model nå H 0 e igtig. Vi skal defo finde testsandsynligheden ε, dvs. sandsynligheden fo at få en væe støe 2 ln Q-vædi end den obseveede, unde foudsætning af at H 0 e igtig: ε = P 0 2 ln Q 2 ln Qobs. Nå man skal bestemme ε, kan man udnytte en geneel matematisk sætning de fotælle at nå H 0 e igtig, så e 2 ln Q med god tilnæmelse χ 2 -fodelt med 1s 1 fihedsgade således at ε med god tilnæmelse kan bestemmes som sandsynligheden fo at få en vædi støe end 2 ln Q obs i en χ 2 -fodeling med 1s 1 fihedsgade, kot ε = P χ 2 1s 1 2 ln Q obs, og denne sandsynlighed e let at bestemme ved hjælp af tabelle ove faktile i χ 2 -fodelingen. Antallet af fihedsgade fo 2 ln Q findes som ændingen i antallet af fie paamete: i gundmodellen e de fo hve af de s guppe 1 paamete fodi de e klasse og demed sandsynlighede de skal summee til 1, altså i alt s 1 paamete; unde H 0 e de i ealiteten kun én guppe og demed 1 fie paamete; antallet af fihedsgade fo teststøelsen e defo s 1 1 = 1s 1. Bemæk at χ 2 -fodelingen kun e en appoksimation; fo at man skal kunne buge den, skal alle de»foventede«antal ŷ i j = ˆp i n j = y i n j /n væe mindst fem. Hvis denne betingelse ikke e opfyldt, kan man måske opnå at den blive opfyldt ved at man udelade nogle guppe elle klasse elle slå nogle guppe elle klasse sammen. I det gennemgående taleksempel e de ingen pobleme med at de»foventede«antal e fo små. Vi kan defo uden videe sammenligne 2 ln Q obs = 107.8 med χ 2 -fodelingen med 3 13 1 = 4 fihedsgade. Da 99.9%- faktilen i denne fodeling e 18.47, e testsandsynligheden ε minde end 0.1%.

1.3 Opgave 17 Da det således e temmelig usandsynligt at få en væe vædi af teststøelsen 2 ln Q end 107.8, e teststøelsen signifikant sto, og vi fokaste H 0. Man må altså sige at de e en signifikant foskel på genotypen af tosk på de te geogafiske lokalitete. Denne konklusion e ikke oveaskende hvis man man sammenligne Tabel 1.1 og 1.2. 1.3 Opgave Opgave 1.1 Medabejdeaktie Det e blevet almindeligt at fimae indføe odninge med medabejdeaktie; deved skulle medabejdene komme til at føle støe medansva og fopligtelse ove fo dees abejdsplads. Det e dog ikke altid at fimaets opfoding til medabejdene om at blive aktionæe opfattes på samme måde af alle medabejdeguppe. Fo at danne sig et indtyk af medabejdees motive til at ehveve sig aktie ha man foetaget et undspøge blandt medabejdene på en bestemt viksomhed som ha en medabejdeaktie-odning og bedt dem nævne dees motive fo at gå med i aktieodningen. Svamulighedene va»fo at bevae jobbet«,»som en investeing«og»to på idéen med medabejdeaktie«. Nedenstående tabel vise espondentenes fodeling på motiv og medabejdekategoi. Hvad kan man på denne baggund sige om en eventuel sammenhæng mellem medabejdenes motive fo at deltage i odningen og aten af dees abejde? abejdee funktionæe mellemledee topledee fo at bevae jobbet 77 25 11 8 som en investeing 37 13 8 4 to på idéen 35 14 7 11 Opgave 1.2 Test af simpel hypotese Antag at Y 1, Y 2,..., Y e multinomialfodelt med paamete n og p, og lad p 01 p 02 p 0 p 0 =. væe et sæt kendte ikke-negative tal de summee til 1. Man ønske at teste hypotesen H 0 : p = p 0 elle altså p i = p 0i fo alle i. 1. Udled 2 ln Q-støelsen fo denne hypotese. 2. De gælde at nå H 0 e igtig, så e 2 ln Q asymptotisk χ 2 -fodelt med et antal fihedsgade de kan udegnes som ændingen i antal fie paamete.

18 Multinomialfodelingen Hvad e antallet af fihedsgade fo 2 ln Q?

2 Et støe eksempel: Tosk i Østesøen I dette kapitel vil vi tage et tidligee omtalt eksempel op til næmee behandling. Eksemplet e blandt andet et eksempel på at man kan indbygge noget teoi i den statistiske model, og et eksempel de vise nytten af maximum likelihood metoden til paameteestimation. 2.1 Pæsentation af eksemplet Den 6. mats 1961 fangede nogle havbiologe 69 tosk ved Lolland og undesøgte aten af blodets hæmoglobin i hve enkelt tosk. Senee på ået fangede man desuden nogle tosk ved Bonholm og ved Ålandsøene og bestemte dees genotype. 1 Man mene at hæmoglobin-aten bestemmes af ét enkelt gen, og det som biologene bestemte, va toskenes genotype fo så vidt angå dette gen. Genet kan optæde i to udgave som taditionen to kaldes fo A og a, og de mulige genotype e da AA, Aa og aa. Tabel 2.1 vise den fundne fodeling på genotype fo hve af de te lokalitete. På hve geogafisk lokalitet e de sket det at man ha klassificeet et antal tosk i te mulige klasse, så på hve lokalitet e de tale om en multinomialfodelingssituation nå de e te klasse, tale man også om en tinomialfodeling. Som gundmodel benytte vi defo den model de sige, at de te obsevations»vektoe«y L = y B = y Å = y 1L y 2L y 3L y 1B y 2B y 3B y 1Å y 2Å y 3Å 27 = 30, 12 14 = 20, 52 0 = 5. 75 stamme fa hve sin multinomialfodeling med antalspaamete n L = 69, 1 K. Sick 1965: Haemoglobin polymophism of cod in the Baltic and the Danish Belt Sea. Heeditas 54, 19-48. 19

20 Et støe eksempel: Tosk i Østesøen n B = 86 og n Å = 80 og med sandsynlighedspaamete p L = p B = p Å = p 1L p 2L p 3L p 1B p 2B p 3B p 1Å,, p 2Å. p 3Å 2.2 Hady-Weinbeg ligevægt Gundmodellen e at hve geogafisk lokalitet ha sin egen multinomialfodeling, og at hve multinomialfodeling ha en sandsynlighedspaamete p = p 1 p 2 p 3 hvo p 1, p 2 og p 3 kan væe hvilkesomhelst te ikke-negative tal de summee til 1. Imidletid kan man agumentee fo at de unde visse omstændighede må væe en bestemt sammenhæng mellem de te p-e. Lad os antage at i en bestemt toskegeneation optæde de te genotype AA, Aa og aa med hyppighedene p 1, p 2 og p 3 hvo p 1 + p 2 + p 3 = 1. Lad os desuden antage at næste geneation femstilles ved»tilfældig paing«således at hvet af en toskeunges to hæmoglobin-gene vælges uafhængigt af hinanden på følgende måde: føst vælges et tilfældigt foælde-individ, denæst vælges et tilfældigt af dette individs hæmoglobin-gene. Sandsynligheden fo at vælge A e da p 1 + 1 / 2 p 2 hvilket vi kalde β, og sandsynligheden fo at vælge a e 1 / 2 p 2 + p 3 = 1 β. I den nye geneation blive genotypefodelingen defo AA: β 2 Aa: 2β1 β aa: 1 β 2 bemæk at β 2 + 2β1 β + 1 β 2 = β + 1 β 2 = 1. Heaf kan vi se at genotypefodelingen i den nye geneation ikke kan væe hvadsomhelst, men at de e en vis sammenhæng mellem de te sandsynlighede, styet af støelsen β. Vi kan pøve at se hvad de ske hvis de e en tilsvaende sammenhæng mellem sandsynlighedene i foældegeneationen. Lad os sige at i foældegeneationen e AA: p 1 = α 2 Aa: p 2 = 2α1 α aa: p 3 = 1 α 2.

2.2 Hady-Weinbeg ligevægt 21 Tabel 2.1 = Tabel 1.1 Genotypefodeling af tosk fa te lokalitete i Østesøen. genotype Lolland Bonholm Ålandsøene AA Aa aa 27 30 12 14 20 52 0 5 75 i alt 69 86 80 Figu 2.1 Det tonede omåde e sandsynlighedssimplexet, dvs. mængden af tiple p = p 1, p 2, p 3 af ikke-negative tal de summee til 1. Kuven bestå af de p de kan optæde hvis de e Hady-Weinbeg ligevægt. Så blive β = p 1 + 1 / 2 p 2 = α 2 + 1 / 2 2α1 α = α, dvs. sandsynlighedene e ufoandede fa den ene geneation til den anden. Man sige at populationen e i Hady-Weinbeg ligevægt hvis det e sådan at de te genotype optæde i foholdet AA: p 1 = β 2 Aa: p 2 = 2β1 β aa: p 3 = 1 β 2

22 Et støe eksempel: Tosk i Østesøen fo en elle anden vædi af β [0, 1]. Hvis de e Hady-Weinbeg ligevægt, e det altså kun ganske sælige sandsynlighedstiple p 1, p 2, p 3 de kan komme på tale, se Figu 2.1 2.3 Hypotesen om Hady-Weinbeg ligevægt Vi vil undesøge om de e Hady-Weinbeg ligevægt på hve af de te lokalitete. Vi begynde med Lolland. At de e Hady-Weinbeg ligevægt ved Lolland kan fomulees som den statistiske hypotese p 1L β 2 L H L : p 2L = 2β L 1 β L. p 3L 1 β L 2 I gundmodellen e likelihoodfunktionen Lp 1L, p 2L, p 3L = konstant p 27 1L p30 2L p12 3L de ha maksimum i ˆp L = 27/69 30/69. 12/69 Unde H L e likelihoodfunktionen L L β L = L βl 2, 2β L1 β L, 1 β L 2 = 27 2βL konstant βl 2 1 β L 30 1 β L 2 12 = konstant β 2 27+30 L 1 β L 30+2 12, som ha maksimum i ˆβ L = 2 27+30 2 69 = 138 84 = 0.609 dvs. det obseveede antal A divideet med det samlede antal gene. Man teste hypotesen ved bug af den sædvanlige kvotientteststøelse Q = L ˆβ L 2, 2 ˆβ L 1 ˆβ L, 1 ˆβ L 2 / L ˆp 1L, ˆp 2L, ˆp 3L elle 2 ln Q; sidstnævnte kan udtykkes som 2 ln Q = 2 i=1 y i ln y i ŷ i hvo ŷ 1, ŷ 2, ŷ 3 = n L ˆβ 2 L, n L2 ˆβ L 1 ˆβ L, n L 1 ˆβ L 2 e de»foventede«antal unde H L. Man finde at 2 ln Q = 0.52 med 3 1 1 = 1 fihedgade, svaende til en testsandsynlighed på ca. 47%, så man kan sagtens antage at toskebestanden ved Lolland e i Hady-Weinbeg ligevægt. Noget tilsvaende kan gøes med de to ande lokalitete. Man få maksimaliseingsestimatene ˆβ B = 0.279 og ˆβ Å = 0.031. Tabel 2.2 vise de foventede

2.4 En samlet model 23 Tabel 2.2 Foventede antal ŷ unde foudsætning af Hady-Weinbeg ligevægt på hve lokalitet. genotype Lolland Bonholm Ålandsøene AA Aa aa 25.6 32.9 10.6 6.7 34.6 44.7 0.1 4.8 75.1 i alt 69 86 80 antal ŷ hvet sted. Ved Ålandsøene kan man oplagt antage Hady-Weinbeg ligevægt. 2 Ved Bonholm e de støe uoveensstemmelse mellem de obseveede og de foventede antal, og teststøelsen e he 2 ln Q = 14.4, svaende til en testsandsynlighed af støelsesoden 10 4. 2.4 En samlet model Man kan sige at hypotesen om Hady-Weinbeg ligevægt e sådan en»pæn«hypotese fodi man kan»fostå«dvs. levee en simpel foklaing på den. Defo e det ægeligt at Bonholm tilsyneladende falde uden fo det pæne billede. Fo at epaee på tingene kunne man fosøge sig med en modificeet hypotese H 1 gående ud på at ved Lolland e de Hady-Weinbeg ligevægt med paamete β L, ved Ålandsøene e de Hady-Weinbeg ligevægt med paamete β Å, ved Bonholm e populationen en blanding af Lollandstosk og Ålandstosk i foholdet α : 1 α hvo α ]0, 1[ e ukendt paamete. Mee pæcist gå H 1 altså ud på at de findes vædie af β L, β Å og α så p L = p Å = β 2 L 2β L 1 β L, 1 β L 2 β 2 Å 2β Å 1 β Å, 1 β Å 2 p B = αp L + 1 αp Å αβl 2 + 1 αβ2 Å = α2β L 1 β L + 1 α2β Å 1 β Å. α1 β L 2 + 1 α1 β Å 2 2 Man kan ikke benytte χ 2 -appoksimationen til 2 ln Q fodi et af de foventede antal e alt fo lille. Til gengæld epoducee modellen jo obsevationene sædeles fint.

24 Et støe eksempel: Tosk i Østesøen Tabel 2.3 Foventede antal ŷ i blandingsmodellen. genotype Lolland Bonholm Ålandsøene AA Aa aa 25.7 32.8 10.4 13.7 20.3 52.0 0.1 4.8 75.1 i alt 69 86 80 Bemæk at de nu e tale om én samlet model fo alle te lokalitete. Den samlede likelihoodfunktion blive poduktet af de te del-likelihoodfunktione fo de te lokalitete. Det e bekvemt at opeee med logaitmen til likelihoodfunktionen, så den skive vi op: ln Lβ L, β Å,α = 27 ln p 1L + 30 ln p 2L + 12 ln p 3L + 14 ln p 1B + 20 ln p 2B + 52 ln p 3B + 0 ln p 1Å + 5 ln p 2Å + 75 ln p 3Å = konstant + 84 ln β L + 54 ln1 β L + 14 ln αβl 2 + 1 αβ2 Å + 20 ln αβ L 1 β L + 1 αβ Å 1 β Å + 52 ln α1 β L 2 + 1 α1 β Å 2 + 5 ln β Å + 155 ln1 β Å. De synes ikke at væe nogen paktisk anvendelig analytisk måde at maksimalisee denne funktion på, så man må benytte en iteationsmetode. Som statvædie til en sådan kan vi benytte de tidligee fundne estimate ˆβ L = 0.609 og ˆβ Å = 0.031 og vælge α så det foventede antal Aa ved Bonholm e lig det obseveede, dvs. ved at løse ligningen hvilket give α 0.414. α 2 ˆβ L 1 ˆβ L + 1 α 2 ˆβ Å 1 ˆβ Å = 20/86, Man finde at ln L antage sit maksimum i punktet ˆβ L, ˆβ Å, ˆα = 0.611, 0.031, 0.425. 3 Heefte kan vi udegne den foventede genotypefodeling de te stede, se Tabel 2.3. Det ses at de e langt bede oveensstemmelse mellem de obseveede og de»foventede«vædie i denne model. Hvis man teste modellen i fohold til gundmodellen med en vilkålig tinomialfodeling hvet sted, få man en 2 ln Q-støelse på 0.7 talvædien afhænge en 3 Vædien af ln L i dette punkt e dog kun 0.02 støe end vædien i det foeslåede udgangspunkt 0.609, 0.031, 0.414, som defo i sig selv e temmelig godt.

2.4 En samlet model 25 del af hvo mange cife man ha med i mellemegningene, og selv om de foventede antal ikke alle e mindst 5, kan man jo alligevel godt skæve til χ 2 - fodelingen med 3 3 1 3 = 3 fihedsgade. Alt i alt må man konkludee, at modellen med Hady-Weinbeg ligevægt ved Lolland og ved Ålandsøene og med en blandingspopulation ved Bonholm give en god beskivelse af de foeliggende obsevatione.

26

3 Tosidede kontingenstabelle En af pointene i Kapitel 1 e at nå man klassificee et antal individe fa en bestemt population efte ét kiteium med klasse A 1, A 2,..., A, så kan det væe fonuftigt at fosøge sig med en model de sige at hvis Y i betegne antallet af A i -individe i stikpøven, i = 1, 2,...,, så e den -dimensionale stokastiske vaiabel Y 1, Y 2,..., Y multinomialfodelt. I dette kapitel skal vi se hvoledes en bestemt at stuktu i inddelingskiteiet kan afspejle sig i den statistiske model. Den pågældende stuktu bestå i at de ent faktisk inddeles efte to kiteie på en gang. He e føst en pæsentation af det talmateiale de benyttes som gennemgående eksempel i dette kapitel. Eksempel 3.1 Hjenesvulstpatiente Man ha klassificeet 141 hjenesvulstpatiente efte svulstens at»godatet«,»ondatet«og»andet«og placeing i hjenevævet»ved panden«,»ved tindingen«og»ande stede«. Resultatene heaf femgå af Tabel 3.1. Man e inteesseet i at finde ud af om disse tal tyde på at de e en sammenhæng mellem svulstens at og dens placeing. Man kan sige at man ha klassificeet n = 141 patiente som høende til én af ni foskellige klasse, og at man defo ifølge ovevejelsene i Kapitel 1 kan betagte det obseveede talsæt 23, 21,..., 17 som en obsevation af en multinomialfodelt stokastisk vaiabel. Imidletid kan man også tænke på situationen på den måde at patientene e klassificeet efte to kiteie på en gang, hvo hvet kiteium ha te niveaue. 3.1 Gundmodellen Antag at vi ha klassificeet n individe efte to kiteie. Det føste kiteium ha niveaue og klassene A 1, A 2,..., A, og det andet ha s niveaue og klas- Tabel 3.1 141 hjenesvulstpatiente fodelt efte svulstens at og placeing. placeing pande tinding andet sum godatet 23 21 34 78 at ondatet 9 4 24 37 andet 6 3 17 26 sum 38 28 75 141 27

28 Tosidede kontingenstabelle sene B 1, B 2,..., B s. Skematisk se det sådan ud: hvo kiteium 2 klasse B 1 B 2... B s sum A 1 y 11 y 12... y 1s y 1 kiteium 1 A 2 y 21 y 22... y 2s y 2........ A y 1 y 2... y s y sum y 1 y 2... y s n y i j = antal individe i klassen A i B j = A i B j, y i = y j = s y i j = antal individe i klassen A i, j=1 y i j = antal individe i klassen B j. i=1 Da de e tale om at et antal individe e klassificeet i et antal klasse, benytte vi som gundmodel en multinomialfodelingsmodel: Den s-dimensionale obsevation y = y 11 y 12. e en obseveet vædi af en s-dimensional stokastisk vaiabel Y = y s Y 11 Y 12. som e multinomialfodelt med antalspaamete n og sandsynlighedspaamete p = Y s p 11 p 12.. Støelsen p i j e sandsynligheden fo at et individ udvalgt tilfældigt fa»populationen«vil tilhøe klassen A i B j, og den estimees ved p s ˆp i j = y i j /n. 3.1

3.2 Uafhængighedshypotesen 29 3.2 Uafhængighedshypotesen Den stuktu de e i inddelingskiteiet nemlig at de inddeles efte to kiteie på en gang ha foeløbig kun givet sig udslag i den måde de vaiable og paametene e navngivet på med index i j. Vi skal nu udlede en model de svae til at de ikke e nogen sammenhæng mellem de to inddelingskiteie. Den»sammenhæng«de skal væe tale om, e ikke en åsagssammenhæng, men en statistisk sammenhæng. At de ikke e nogen sammenhæng mellem kiteium A og kiteium B skal betyde, at A og B i en vis fostand»vike«uafhængigt af hinanden, således at fostå, at en oplysning om, hvilken B-klasse et individ tilhøe, ikke indeholde nogen infomation om, hvilken A-klasse individet tilhøe, og omvendt. Det skal nu fomalisees i en matematisk model. Vi indføe nogle hjælpevaiable X d = X da, X db, således at X da e navnet på den A-klasse som individ n. d tilhøe, og tilsvaende X db e navnet på den B-klasse som individ n. d tilhøe, det vil sige at X d = A i, B j betyde at individ n. d tilhøe A-klassen A i og B-klassen B j. At de ikke e nogen sammenhæng mellem A og B betyde hemed at en oplysning om vædien af X db ikke indeholde nogen infomation om vædien af X da og omvendt, og det betyde at de stokastiske vaiable X da og X db e stokastisk uafhængige, således at PX da = A i, X db = B j = PX da = A i PX db = B j. Nu e p. definition PX da = A i, X db = B j = p i j, så at de ikke e nogen sammenhæng mellem A og B betyde altså at p i j = α i β j hvo vi ha sat α i = PX da = A i og β j = PX db = B j. Sammenfattende kan vi defo sige at den matematiske fomuleing af antagelsen om at de ikke e nogen statistisk sammenhæng mellem kiteiene A og B, blive at p i j = α i β j fo alle i og j, hvo α 1,α 2,...,α e ikke-negative tal de summee til 1, og β 1, β 2,..., β s e ikke-negative tal de summee til 1. Udtykt i od gå antagelsen ud på at sandsynligheden p i j fo på én gang at tilhøe både A i og B j e lig poduktet af sandsynligheden α i fo at tilhøe A i og sandsynligheden β j fo at tilhøe B j. I stedet fo at tale om at de ikke e nogen sammenhæng mellem A og B, tale man ofte om at de e uafhængighed mellem A og B, og den statistiske hypotese H 0 : p i j = α i β j fo alle i og j, hvo de ukendte paamete α 1,α 2,...,α og β 1, β 2,..., β s e ikke-negative talsæt de hve isæ summee til 1, hedde da uafhængighedshypotesen.

30 Tosidede kontingenstabelle At de e uafhængighed mellem A og B, udtykke man undetiden på den måde at de ikke e nogen signifikant vekselvikning mellem A og B. Nå de ikke e nogen vekselvikning mellem A og B, beskives hele den systematiske vaiation i talmateialet af de såkaldte ækkevikninge A-vikninge α 1,α 2,...,α de beskive den systematiske foskel mellem ække, og af de såkaldte søjlevikninge B-vikninge β 1, β 2,..., β s de beskive den systematiske foskel mellem søjle. Estimation af paametene Likelihoodfunktionen i gundmodellen e en almindelig multinomial-likelihoodfunktion: Lp = konstant hvo konstanten e en multinomialkoefficient. i=1 s p y i j i j j=1 Estimatene ove paametene α 1,α 2,...,α og β 1, β 2,..., β s i uafhængighedsmodellen e de vædie de maksimalisee Lp hvo man fo p i j indsætte p i j = α i β j, dvs. de vædie de maksimalisee L 0 α 1,α 2,...,α, β 1, β 2,..., β s = konstant = konstant = konstant s i=1 j=1 α i β j y i j s α y i j i i=1 j=1 i=1 i=1 α y i i s j=1 s j=1 β y j j. Det ses at L 0 e et podukt af en funktion af α-ene og en funktion af β-ene. Ifølge Sætning 1.1 antage disse to funktione dees maksimumsvædie i hhv. og ˆα 1, ˆα 2,..., ˆα = ˆβ 1, ˆβ 2,..., ˆβ s = β y i j j y1 n, y 2 n,..., y n 3.2 y 1 n, y 2 n,..., y s. 3.3 n Dette e så maksimaliseingsestimatene fo paametene. Resultatet e i øvigt hvad man umiddelbat skulle fovente idet f.eks. sandsynligheden α i fo at tilhøe A-klassen A i estimees ved den obseveede elative hyppighed y i /n af A i. I taleksemplet blive L = konstant p 23 11 p21 12 p34 13 p9 21 p4 22 p24 23 p6 31 p3 32 p17 33. Ved at indsætte de aktuelle talvædie i 3.1, 3.2 og 3.3 fås estimatene ove de ukendte paamete, se Tabel 3.2.

3.2 Uafhængighedshypotesen 31 Tabel 3.2 Estimatene ove gundmodellens paamete p i j og uafhængighedsmodellens paamete α i og β j i hjenesvulsteksemplet. Tallene e sandsynlighede i pocent. placeing sum = pande tinding andet ˆα i godatet 14.9 11.0 29.4 55.3 at ondatet 7.1 5.2 14.0 26.2 andet 5.0 3.7 9.8 18.4 sum = ˆβ j 27.0 19.9 53.2 100.0 Test fo uafhængighed Teststøelsen fo uafhængighedshypotesen H 0 e likelihoodkvotientstøelsen Q elle 2 ln Q. Nå man indsætte de fundne estimate i udtykket fo Q, få man Q = L 0 ˆα 1, ˆα 2,..., ˆα, ˆβ 1, ˆβ 2,..., ˆβ s L ˆp 11, ˆp 12,..., ˆp s yi ˆαi ˆβ j j = = = i=1 s j=1 s i=1 j=1 s i=1 j=1 s i=1 j=1 ˆpi j yi j ˆαi ˆβ j ˆp i j ŷi j y i j yi j yi j, hvo ŷ i j = n ˆα i ˆβ j = y i y j/n e det»foventede«antal individe i klassen A i B j unde uafhængighedshypotesen. Demed blive 2 ln Q = 2 i=1 s y i j ln y i j. ŷ j=1 i j Vædie af 2 ln Q tæt på 0 tyde på at H 0 give en næsten lige så god beskivelse af data som gundmodellen gø, hvoimod stoe 2 ln Q-vædie betyde at H 0 give en væsentlig dåligee beskivelse end gundmodellen gø, og i så fald vil man fokaste hypotesen om uafhængighed mellem ække og søjle. De»foventede«antal i hjenesvulsteksemplet e vist i Tabel 3.3; heudfa

32 Tosidede kontingenstabelle Tabel 3.3 Den»foventede«fodeling af 141 hjenesvulstpatiente unde foudsætning af uafhængighed mellem svulstens at og placeing. placeing pande tinding andet sum godatet 21.0 15.5 41.5 78 at ondatet 10.0 7.3 19.7 37 andet 7.0 5.2 13.8 26 sum 38.0 28.0 75.0 141 få man at 2 ln Q obs = 2 23 ln 23 21 34 + 21 ln + 34 ln 21.0 15.5 41.5 + 9 ln 9 10.0 + 4 ln 4 24 + 24 ln 7.3 19.7 + 6 ln 6 7.0 + 3 ln 3 17 + 17 ln 5.2 13.8 = 8.1 Nå vi skal afgøe om en opnået 2 ln Q obs -vædi som f.eks. 8.1 e signifikant sto, skal vi sammenligne den med alle de ande 2 ln Q-vædie man også kunne have fået såfemt uafhængighedshypotesen H 0 va igtig. Vi skal defo bestemme testsandsynligheden ε, dvs. sandsynligheden fo at få en støe 2 ln Q-vædi end den obseveede, unde foudsætning af at H 0 e igtig: ε = P 0 2 ln Q 2 ln Qobs. Nå man skal bestemme ε, kan man udnytte en geneel matematisk sætning de fotælle at nå H 0 e igtig, så e 2 ln Q med god tilnæmelse χ 2 -fodelt med 1s 1 fihedsgade således at ε med god tilnæmelse kan bestemmes som sandsynligheden fo at få en vædi støe end 2 ln Q obs i en χ 2 -fodeling med 1s 1 fihedsgade, kot ε = P χ 2 1s 1 2 ln Q obs. Denne sandsynlighed e let at bestemme ved hjælp af tabelle ove faktile i χ 2 -fodelingen. Antallet af fihedsgade fo 2 ln Q findes som ændingen i antallet af fie paamete: i gundmodellen e de s sandsynlighedspaamete de summee til 1, dvs. de e s 1 fie paamete; unde H 0 e de ækkepaamete de summee til 1, samt s søjlepaamete de summee til 1, dvs. 1 + s 1 fie paamete; antallet af fihedsgade fo teststøelsen e demed s 1 1 + s 1 = 1s 1.

3.3 Jævnføing med ande tilsvaende modelle 33 Bemæk at χ 2 -fodelingen kun e en appoksimation; fo at man skal kunne buge den, skal alle de»foventede«antal væe mindst fem. Hvis denne betingelse ikke e opfyldt, kan man eventuelt slå nogle ække elle nogle søjle sammen. I hjenesvulsteksemplet e de»foventede«antal ove fem, så vi kan oligt anvende χ 2 -appoksimationen. Tabelopslag vise at i χ 2 -fodelingen med 3 13 1 = 4 fihedsgade e 90%-faktilen 7.78 og 95%-faktilen 9.49 således at teststøelsen 2 ln Q obs = 8.1 svae til en testsandsynlighed på mellem 5% og 10%. På det gundlag vil man sædvanligvis ikke fokaste H 0. Det kan altså konkludees at de tilsyneladende ikke e nogen sammenhæng mellem svulstens at og dens placeing. Det vil blandt andet sige at man ikke ud fa kendskab til placeingen af en svulst kan sige noget om, hvovidt den vil væe godatet elle ej. 3.3 Jævnføing med ande tilsvaende modelle Den læse de ha studeet Afsnit 1.2 om sammenligning af multinomialfodelinge, vil måske have bemæket, at de dé pæsenteede metode ha stoe lighede med dem i indevæende kapitel. Vi kan opegne nogle af lighedene: 1. De foeligge nogle obseveede antal y i j anbagt i et tosidet skema. 2. Man udegne nogle»foventede«antal ŷ i j efte opskiften ækkesum gange søjlesum divideet med totalsum. 3. Man udegne en teststøelse 2 ln Q obs = y lny/ŷ. 4. Man sammenligne 2 ln Q obs med χ 2 -fodelingen med 1s 1 fihedsgade. Selv om man foetage sig det samme i de to tilfælde, e det imidletid på gundlag af to foskellige modelle: 1 I det ene tilfælde dette kapitel klassificee man nogle individe efte to kiteie, og opgaven e da at undesøge om de e en sammenhæng mellem disse to kiteie. I det andet tilfælde Afsnit 1.2 e individene på fohånd delt ind i nogle guppe inden de klassificees efte et kiteium. Opgaven e da at undesøge om de e foskel på guppene med hensyn til hvodan guppenes individe fodeles på klassene. Om man skal benytte den ene elle den anden model, e således et spøgsmål om hvoledes man ha designet det fosøg de ha leveet talmateialet. I eksemplet i dette kapitel sagde vi at det handlede om at man havde taget 141 hjenesvulstpatiente og klassificeet dem efte to kiteie; deved blev det et eksempel de illusteede dette kapitels model og metode. Hvis det deimod 1 De to modelle e dog næt beslægtede; hvis man i dette kapitels model betinge med søjlesummene, dvs. betinge med at Y 1 = n 1, Y 2 = n 2,..., Y s = n s, så få man modellen i Afsnit 1.2, og uafhængighedshypotesen oveføes til Afsnit 1.2s H 0.

34 Tosidede kontingenstabelle havde handlet om at man havde taget 38 patiente med svulst i panden, 28 med svulst i tindingen og 75 hvo svulsten ikke va lokaliseet til pande elle tinding, og denæst klassificeet disse patiente efte svulstens at, så havde det væet et Afsnit 1.2-eksempel. 3.4 Opgave Opgave 3.1 Hå- og øjenfave Ved en sundhedsundesøgelse af 283 pige i St. Clement Steet skole i Abedeen blev hå- og øjenfave obseveet med et esultat som vist i nedenstående tabel. Vise dette mateiale en sammenhæng mellem håfave og øjenfave? Øjenfave blå lys neutal møk Håfave lys ød neutal møk 30 30 21 6 4 5 7 3 27 28 40 23 6 11 22 20

4 Stikod Hady-Weinbeg ligevægt 20 multinomialfodeling 7, definition 8 multinomialkoefficient 7 polynomialfodeling multinomialfodeling polynomialkoefficient multinomialkoefficient sandsynlighedssimplex 9 statistisk sammenhæng 29 stokastisk uafhængighed 29 tinomialfodeling 11, 19 uafhængighed 29 vekselvikning 30 35