TEKST NR TEKSTER fra IMFUFA
|
|
|
- Astrid Dideriksen
- 10 år siden
- Visninger:
Transkript
1 TEKST NR Basisstatisti 2. udgave Jørge Larse August 2006 TEKSTER fra IMFUFA INSTITUT ROSKILDE UNIVERSITETSCENTER FOR STUDIET AF MATEMATIK OG FYSIK SAMT DERES FUNKTIONER I UNDERVISNING, FORSKNING OG ANVENDELSER
2 IMFUFA Rosilde Uiversitetsceter Postbos 260 DK-4000 Rosilde Jørge Larse: BASISSTATISTIK, 2. udgave t f m [email protected] w imfufa.ruc.d IMFUFA test r sider iss Erstatter IMFUFA test r Idhold Idledig 7 Dee bog er udarbejdet til brug som udervisigsmateriale til et idledede ursus i statisti og statistise modeller. Boge besæftiger sig med simple esempler på statistise modeller. Statistise modeller er e særlig type matematise modeller som bruges for at besrive talmaterialer som er behæftet med e eller ade form for tilfældig variatio. Der præseteres e del af de simple og lassise modeller for bladt adet biomialfordelte, poissofordelte og ormalfordelte observatioer, me der er også esempler på mere omplicerede modeller så som logistis regressio og multipliative poissomodeller. I alle tilfælde er der illustrative geemregede esempler. Når ma besæftiger sig med statisti og statistise metoder, har ma brug for hesigtsmæssige rege- og tegeredsaber. I ærværede fremstillig er idføjet små afsit der viser hvorda ma a rege og tege med brug af programmet R (se http: // August 2006: rettet ogle fejl og foretaget adsillige typografise justeriger. Biomialfordelige 9. Et esempel og e statistis model Biomialoefficieter Egesaber ved biomialfordelige Reg og teg Opgaver De simple biomialfordeligsmodel Estimatio af parametere p E simpel statistis hypotese Kvotietteststørrelse Reg og teg Opgaver Sammeligig af biomialfordeliger Modelle Hypoteseprøvig Det esate test i e 2 2-tabel Reg og teg Opgaver Normalfordelige Udledig af ormalfordelige Egesaber ved ormalfordelige Reg og teg Opgaver Estiprøveproblemet i ormalfordelige 6 5. Estimatio af µ og σ
3 4 Idhold Test af hypotese om middelværdie Histogrammer og fratildiagrammer Reg og teg Opgaver Tostiprøveproblemer i ormalfordelige Tostiprøveproblemet med uparrede observatioer Tostiprøveproblemet med parrede observatioer Reg og teg Opgaver Esidet variasaalyse Estimatio af parametree Hypotese om es grupper Bartletts test for variashomogeitet Reg og teg Opgaver Simpel lieær regressiosaalyse Præsetatio af modelle Estimatio af parametree Parameterestimateres middelfejl E ade formulerig af modelle Modelotrol Test af hypoteser om lijes parametre Reg og teg Opgaver Multipel lieær regressiosaalyse 3 9. Estimatio af parametree Modelotrol Udvælgelse af baggrudsvariable Reg og teg Opgaver Logistis regressio 4 0. Grudmodelle E dosis-respos model Estimatio Modelotrol Hypoteser om parametree Reg og teg Opgaver Poissofordelige 55. Udledig Defiitio og egesaber Afrudig Opgaver E- og flerstiprøveproblemer i poissofordelige Estiprøveproblemet Sammeligig af to poissofordeliger Et sværere esempel Reg og teg Opgaver Multipliative poissomodeller Præsetatio af esemplet: Lugeræft i Fredericia Modelopstillig De multipliative model Es byer? E ade mulighed Sammeligig af de to fremgagsmåder Om teststørrelser Reg og teg Multiomialfordelige De grudlæggede multiomialfordeligsmodel Sammeligig af multiomialfordeliger Reg og teg Opgaver Tosidede otigestabeller Grudmodelle Uafhægighedshypotese Jævførig med adre tilsvarede modeller Reg og teg Opgaver
4 6 Idhold 6 Et større esempel: Tors i Østersøe Præsetatio af esemplet Hardy-Weiberg ligevægt Hypotese om Hardy-Weiberg ligevægt E samlet model Reg og teg Referecer 223 Kort om statistiprogrammet R 225 Tabeller 227 Stiord 235 Idledig Dee bog besæftiger sig med simple esempler på statistise modeller. Statistise modeller er e særlig type matematise modeller som bruges for at besrive talmaterialer som er behæftet med e eller ade form for tilfældig variatio. De statistise modellers force er at de a bruges til at sille det systematise fra det tilfældige. Der melder sig forsellige slags spørgsmål i forbidelse med statistise modeller: hvorda ser modellere ud, og hvad er det for ogle matematise igredieser der idgår? hvorda fider ma på e model der a bruges i e give situatio? hvad stiller ma så op med modelle i forhold til de orete tal? hvad er det for typer af spørgsmål ma a stille til e statistis model, og hvad er det for typer af svar ma får? Disse spørgsmål disuteres idgåede. Der præseteres ogle af de simple og lassise modeller for bladt adet biomialfordelte, poissofordelte og ormalfordelte observatioer, me der er også esempler på mere omplicerede modeller så som logistis regressio og multipliative poissomodeller. I alle tilfælde er der illustrative geemregede esempler. Fremstillige er baseret på lielihood-metode hvis grudlæggede idéer præseteres omhyggeligt; derimod må vi af teise grude give afald på de matematise beviser for metodes fortræffeligheder. Allerede e hastig geembladre af boge vil måse give aledig til beymrede spørgsmål om hvorfor der er så meget matemati, og om det u også virelig er ødvedigt med alle de formler. Der er flere forsellige svar herpå:. Et dårligt, me dog ie uvæsetligt svar er at boge sal bruges som ursusmateriale på et ursus med status af matematiholdigt ursus. 2. Statistise modeller er e uderafdelig af matematise modeller, og det a derfor ie udre at modellere og metodere formuleres i matematisprog. For bare at forstå e give statistis model og des relatio til de virelige problemstillig er det ødvedigt med e vis matemati-vathed, og hvis ma sal ue arbejde med og tilpasse modelle og forholde sig ritis til des futio som model, 7
5 8 Idledig fordres edu flere matematiompetecer. Hvis ma derfor føler sig alvorligt sræmt af de mage formlers tilstedeværelse, sulle ma måse søge professioel hjælp, ete til at få løst sie statistise problemer eller til at få et bedre forhold til matemati. 3. Ét er at få at vide at ma ud fra formel A a deducere formel B, oget adet er at have set hvorda det foregår, oget tredje er selv at have reget det igeem, og oget fjerde er selv at have udledt e dedutio af B fra A. De første mulighed a ie være eerådede i oget udervisigsforløb i matemati eller et matematibaseret fag, og af pratise og tidsmæssige grude a ma ie basere et helt udervisigsforløb på de fjerde mulighed. Mulighed to bør altid idgå i et udervisigsforløb, og ærværede bog ideholder derfor e del geemregede matematise udlediger. 4. Faget statisti har i ogle sammehæge et lidt blaet ry (»ma a vise alt med statisti, også det modsatte«), og bladt adet af de grud er det vigtigt i e itrodutio til faget også at largøre hvor der er tale om idisutable matematise dedutioer, og hvor der er grud til at være på vagt, eller sagt på e ade måde: at tydeliggøre fagets bladig af vedtage grudpricipper, esat videsab og ie spor esat hådvær. Matemati idgår på uudværlig vis i alle tre dele. Når ma besæftiger sig med statisti og statistise metoder, har ma brug for hesigtsmæssige rege- og tegeredsaber. Mage af de grudlæggede modeller a ude vaseligheder aalyseres med e almidelig lommereger som regeredsab og med blyat og teret papir til tegiger, me så sart modellere bliver lidt mere idvilede, er det e fordel at beytte e computer med et statistiprogram. I ærværede fremstillig er idføjet små afsit med oversrifte»reg og teg«der viser hvorda ma a rege og tege med programmet R. R er et freeware program, se Vi giver ie e lærebogsagtig præsetatio af R. De bedste måde at lære R på er formetlig ved e ombiatio af at se hvorda adre har gjort og selv at prøve sig frem, og udervejs bør ma beytte o-lie hjælpe (som er relativt god). Det er dog o yttigt med e ultraort itrodutio, så e såda gives på side 225. Biomialfordelige Biomialfordeligsmodeller a omme på tale i situatioer af følgede art: Ma har et bestemt elemetarforsøg der a resultere i et af to mulige udfald som vi alder og 0 (eller Gustig og Ie-gustig, eller Succes og Fiaso). Det er bestemt af tilfældigheder om elemetarforsøget giver det ee eller det adet udfald. Ma udfører getagelser af elemetarforsøget, hvor er et på forhåd fastlagt tal. Derefter ma tæller op hvor mage af de getagelser der giver udfaldet. Resultatet bliver et atal y der i sages atur er et heltal mellem 0 og. De forsellige mulige værdier af y vil idtræffe med visse sadsyligheder der afhæger af tilfældighedsmeaismes ærmere idretig. Det samlede forsøg, altså det som består af de elemetarforsøg og som resulterer i atallet y, aldes et biomialforsøg.. Et esempel og e statistis model Her er et esempel som vi vil bruge flere gage (esemplet er hetet fra [6]): I e udersøgelse af iseters reatio på isetgifte pyrethrum har ma udsat ogle rismelsbiller, Tribolium castaeum, for forsellige mægder gift og derpå set hvor mage der var døde efter 3 dages forløb. Bladt adet blev 44 ha-biller udsat for e giftpåvirig på 0.20 mg/cm 2 ; af disse døde de 43 i løbet af de fastsatte periode. Her a vi sige at et elemetarforsøg består i at udsætte é ha-bille for giftpåvirige 0.20 mg/cm 2 og så se om de er død eller ej efter 3 dage (dvs.»dødgustigt udfald«). Vi vil opstille e matematis model for de besreve situatio. Vi deler ræsoemetet op i e ræe puter:. For hvert elemetarforsøg idfører vi e såaldt idiatorvariabel X der agiver om forsøget giver et 0 eller et. Idiatorvariable hørede til elemetarforsøg r. j er X j : hvis bille r. j dør X j = 0 hvis bille r. j ie dør 9
6 0 Biomialfordelige. Et esempel og e statistis model 2. Det samlede atal døde biller a da srives som Y = X +X 2 + +X. I esemplet eder vi ie de eelte X j -er, me u Y; Y har værdie y = Idiatorvariablee X, X 2,..., X er stoastise variable. E stoastis variabel er ort fortalt et symbol der repræseterer det tilfældige udfald af et bestemt tilfældighedsesperimet. Om X j -ere atages det at a) de har alle de samme sadsylighed p for at atage værdie, det vil sige P(X j = ) = p for ethvert j, b) de er stoastis uafhægige, det vil sige for vilårlige x, x 2,..., x gælder P(X = x, X 2 = x 2,... X = x ) = P(X = x ) P(X 2 = x 2 )... P(X = x ). Da X j u a atage værdiere 0 og, og da summe af sadsylighedere er, er P(X j = 0) = p for ethvert j. 4. Vi a srive sadsylighedsfutioe for X j som p hvis x = f (x) = P(X j = x) = p hvis x = 0 eller ortere som f (x) = P(X j = x) = p x ( p) x, x = 0,. [Sadsylighedsfutioe for e stoastis variabel X er de futio der til hvert tal x ytter sadsylighede for at X atager værdie x.] 5. De simultae sadsylighedsfutio for de stoastise variable X, X 2,..., X er e futio f (x, x 2,..., x ) der agiver sadsylighede for at der samtidigt gælder at X = x og X 2 = x 2 og... og X = x. Da X j -ere er stoastis uafhægige, er de simultae sadsylighedsfutio for X j -ere produtet af de eelte sadsylighedsfutioer: f (x, x 2,..., x ) = P(X = x ) P(X 2 = x 2 )... P(X = x ) = p x ( p) x p x2 ( p) x2... p x ( p) x = p x+x2+ +x ( p) (x+x2+ +x) år (x, x 2,..., x ) er et talsæt beståede af 0-er og -er. Hvis der i talsættet (x, x 2,..., x ) er etop y -er og ( y) 0-er, så er f (x, x 2,..., x ) = p y ( p) y. 6. Da vi u eder de simultae sadsylighedsfutio for X j -ere, a vi bestemme sadsylighedsfutioe for Y = X + X X. Sadsylighede for at Y er lig med y, a fides ved at summere sadsylighedere for alle de sæt af elemetarforsøg som består af præcis y -udfald og ( y) 0-udfald: P(Y = y) = x +x 2+ +x =y f (x, x 2,..., x ) Tabel. Her ses 5 esempler på udfald af 0-variable X, X 2,..., X 2, frembragt af e tilfældighedsmeaisme med p = 3, samt de tilsvarede værdier af Y = X + X X 2. Tallee i y-søjle er således 5 observatioer fra e biomialfordelig med = 2 og p = 3. x x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 0 x x 2 y hvor meige er at der summeres over alle talsæt (x, x 2,..., x ) der består af 0-er og -er og hvor x + x x = y (dvs. hvor der er etop y -er og ( y) 0-er). Vi fadt frem til at ethvert af disse talsæt har sadsylighed p y ( p) y, så derfor bliver P(Y = y) = A p y ( p) y hvor A er atal forsellige talsæt (x, x 2,..., x ) med y -er og ( y) 0-er. 7. Atallet A af forsellige talsæt (x, x 2,..., x ) beståede af y -er og ( y) 0-er afhæger af værdiere af og y; ma plejer at betege det med symbolet ( y ) (udtales» over y«). Størrelse ( ) y aldes e biomialoefficiet. 8. Alt i alt er vi dermed ået frem til at sadsylighedsfutioe for Y er P(Y = y) = ( y ) py ( p) y, y = 0,, 2,...,. Dee sadsylighedsfordelig hedder biomialfordelige med sadsylighedsparameter p og atalsparameter, og ma siger at Y er biomialfordelt med parametre og p. Atalsparametere er et edt heltal, og sadsylighedsparametere p, som typis er uedt, er et tal mellem 0 og. Stoastise variable der som X j -ere u a atage værdiere 0 og, aldes udertide for 0-variable. Der gælder altså at hvis Y er e sum af et bestemt atal uafhægige idetis fordelte 0-variable, så er Y biomialfordelt.
7 2 Biomialfordelige.2 Biomialoefficieter 3 De statistise model for bille-forsøget a u ort formuleres således: Observatioe y = 43 er e observeret værdi af e stoastis variabel Y som er biomialfordelt med atalsparameter = 44 og uedt sadsylighedsparameter p [0, ]. Før vi a give os i ast med statistis aalyse af biomialfordelte observatioer, er det ødvedigt at lære forselligt om biomialfordelige og om biomialoefficieter..2 Biomialoefficieter Defiitio.: Biomialoefficiet Biomialoefficiete ( ) er et symbol der beteger atallet af forsellige måder hvorpå ma a placere to symboler og 0 på pladser således at symbolet ommer på af pladsere og symbolet 0 ommer på de resterede ( ) pladser. Deraf følger at der er ( ) forsellige talsæt (x, x 2,..., x ) beståede af etop -er og ( ) 0-er. Ud fra defiitioe a ma i pricippet bestemme talværdier af ehver biomialoefficiet ved simpel optællig, esempelvis er ( 4 ) 3 lig med 4, fordi der er de fire placeriger (,,, 0), (,, 0, ), (, 0,, ) og (0,,, ) af tre -er og et 0 på de fire pladser. I prasis er optælligsmetode dog ie særlig hesigtsmæssig (prøv f.es. at bestemme ( 37 ) 5 ved optælligsmetode); over de æste par sider udledes ogle formler der a gøre beregigsarbejdet lidt mere overommeligt. I defiitioe af ( ) sal ma placere -er og ( ) 0-er. Hvis ma i e såda placerig alder -ere for 0 og 0-ere for, så får vi i stedet e placerig af ( ) -er og 0-er. Heraf følger at ( ) = ( ) for = 0,, 2,..., og = 0,, 2,... (.) Hvis er 0 eller eller eller ( ), er det let at udrege ( ); af defiitioe og formel (.) får ma ( 0 ) = og dermed ( ) =, for = 0,, 2,... ( ) = og dermed ( ) =, for =, 2, 3,... De forsellige placeriger af -er og ( ) 0-er a opdeles i to grupper:. Placeriger der har et på sidstepladse. På de første ( ) pladser er der da etop ( ) -er, og de a placeres på ( ) forsellige måder. Dee gruppe består derfor af ( ) forsellige placeriger. 2. Placeriger der har et 0 på sidstepladse. På de første ( ) pladser er der da etop -er, og de a placeres på ( ) forsellige måder. Dee gruppe består derfor af ( ) forsellige placeriger. Det samlede atal er lig summe af de to; dermed er vist at Esempel ( ) = ( ) + ( ) for =, 2, 3,..., og =, 2, 3,... (.2) Som illustratio bestemmes talværdie af ( 5 2 ). Ifølge formel (.2) er ( 5 2 ) = (4 2 ) + (4 ), så hvis vi eder talværdiere af (4 2 ) og (4 ), a vi løse opgave. Der gælder at ( 4 ) = 4 (fordi geerelt er ( ) = ). For at udrege ( 4 2 ) beytter vi formel (.2) e gag til: (4 2 ) = (3 2 ) + (3 ). Der gælder at ( 3 ) = 3. Der gælder også at ( 3 2 ) = 3 (fordi ( ) = ). Dermed er ( 4 2 ) = = 6. Dermed er ( 5 2 ) = (4 2 ) + (4 ) = = 0 hvad ma jo også a se ved simpel optællig. Pascals treat Formel (.2) er ie særlig veleget år ma øser at berege e eelt biomialoefficiet, me de er overordetlig pratis hvis ma øser at berege alle biomialoefficieter op til e eller ade øvre græse for. Vi eder på forhåd biomialoefficietere med = 0 og = (de er ( 0 0 ) = og ( 0 ) = ( ) = ). Ved hjælp af formel (.2) a vi berege alle oefficieter med = 2, derefter alle med = 3, derefter alle med = 4, osv. Ma plejer at stille resultatere op i et sema der aldes Pascals treat, se figur.. Heraf ses at f.es. er ( 7 ) 2 lig 2. Hvert tal i Pascals treat fremommer ifølge formel (.2) som summe af de to ærmeste tal i ræe lige oveover, f.es. er 2 = Pascals treat er opaldt efter de frase videsabsmad og tæer Blaise Pascal (623-62). Flere formler Ved brug af Pascals treat vil det være muligt at bestemme talværdier af ehver biomialoefficiet; ma sulle dog udføre e hel del additioer og have et temmelig stort ar papir for at udrege f.es. ( 37 ). 5 Heldigvis fides der også e ade og midre pladsrævede metode hvor ma så til gegæld sal lave ogle multipliatioer og divisioer. Som forberedelse til dee metode sal vi bruge edu e formel for biomialoefficieter.
8 4 Biomialfordelige.3 Egesaber ved biomialfordelige 5 biomialoefficietere ( ) Figur. Pascals treat. Atag ige at vi sal fordele -er og ( ) 0-er på pladser, me u er et af -ere mæret. Vi a bestemme atallet af syligt forsellige placeriger på to måder:. Bestem først hvile pladser der sal have et 0: Det a gøres på ( ) = ( ) måder. Nu er der pladser reserveret til -er, og der er derfor forsellige måder at placere det mærede på. I alt er der derfor ( ) syligt forsellige placeriger. 2. Bestem først hvile pladser der sal have et umæret. Det a gøres på ( ) måder. Derefter a det mærede placeres på e af de resterede ( + ) pladser. I alt er der derfor ( + ) ( ) syligt forsellige placeriger. Da de to atal er es, er ( ) = ( + ) ( ), og ved at flytte rudt på fatorere fås ( ) = + ( ) for =, 2,..., og =, 2,... (.3) Dee formel fortæller hvorda ma fider ( ) hvis ma eder ( ). Ved getage avedelser af formel (.3) fås i øvrigt dvs. ( ( + ) ) = ( ) ( + ) ( + 2) = ( 2 ) ( + ) ( + 2) ( + 3) = ( 2 3 ) = ( ) = = ( + ) ( ) 2 ( + 2)... ( 2) ( + )... 3 ( 2) 3 for ( ) 2, =, 2,..., =, 2,... (.4) (Hvis er 0, er højreside»det tomme produt«som er.) Hvis ma på højreside af (.4) gager med ( ) ( ) i tæller og æver, får ma ( ) =!! ( )! for =, 2,..., =, 2,... (Når m er et positivt heltal, så er m! = 2 3 (m ) m; edvidere er 0! =.) Ved hjælp af formel (.4) og papir og blyat og lommereger fider ma let at ) = ( 37 5 Biomialformle Hvorfor hedder det»biomialoefficiet«? Et bi-omium er e to-leddet størrelse som f.es. a + b. E veledt formel fortæller hvad vadratet på e toleddet størrelse er: (a + b) 2 = a 2 + 2ab + b 2. Dee formel a geeraliseres til at hadle om de -te potes af e toleddet størrelse. Hvis ma i (a + b) = (a + b)(a + b)... (a + b) fatorer gager paretesere ud, får ma 2 led der hver især er et produt af fatorer, e fra hvert af de biomier. Af disse 2 led er der etop ( ) der består af a-er og ( ) b-er. Derfor er (a + b) = ( 0 )a0 b + ( )a b + ( 2 )a2 b ( )a b 0 = ( )a b. =0 Dee formel hedder biomialformle, fordi de hadler om -te potese af et biomium. De oefficieter der idgår i biomialformle, aldes aturligt o biomialoefficieter..3 Egesaber ved biomialfordelige Defiitio.2: Biomialfordelig Biomialfordelige med sadsylighedsparameter p og atalsparameter er de disrete sadsylighedsfordelig givet ved sadsylighedsfutioe f (y) = ( y ) py ( p) y, y = 0,, 2,...,. Her er p et (som oftest uedt) tal mellem 0 og, og er et positivt heltal. (.5)
9 6 Biomialfordelige.4 Reg og teg 7 Middelværdi og varias Når ma har at gøre med e sadsylighedsfordelig, a ma udrege visse talstørrelser der besriver forsellige træ ved fordelige. Ma udreger ofte fordeliges middelværdi (= de forvetede værdi =»tygdeputet«i fordelige). Hvis Y er e stoastis variabel der har e fordelig med sadsylighedsfutio f, så er middelværdie pr. defiitio tallet E Y = y f (y) hvor der summeres over alle de mulige y-værdier. For biomialfordeliges vedommede er middelværdie altså tallet E Y = y ( y ) py ( p) y. y=0 Dee sum ser ie så rar ud, me heldigvis a vi fide middelværdie på e ade og smartere måde. Som omtalt på side a e biomialfordelt stoastis variabel Y fremomme som e sum af uafhægige idetis fordelte 0-variable, så lad os sige at Y = X + X X hvor X, X 2,..., X er uafhægige 0-variable med P(X j = ) = p for alle j. Ifølge regeregler for middelværdi er middelværdie af e sum lig summe af middelværdiere: E Y = E X + E X E X = E X, så problemet er u reduceret til at bestemme E X, og det er overommeligt ud fra defiitioe af middelværdi: E X = 0 P(X = 0) + P(X = ) = 0 ( p) + p = p. Vi har dermed fudet at E Y = p. Deræst ser vi på variase. Variase af e stoastis variabel Y med sadsylighedsfutio f er pr. defiitio Var Y = E((Y E Y) 2 ) = (y E Y) 2 f (y) hvor der summeres over de mulige y-værdier. For at fide variase af vores biomialfordelte stoastise variabel Y = X +X 2 + +X a vi beytte et smart tric: Det er e egesab ved varias at variase af e sum af uafhægige størrelser er lig summe af variasere af de eelte led. Derfor er Var Y = Var X + Var X Var X = Var X, og vi behøver u blot fide variase af X ; da X u atager værdiere 0 og, bliver udregigere simple: Var X = E((X E X ) 2 ) = E((X p) 2 ) Vi har hermed fudet at Var Y = p( p). = (0 p) 2 P(X = 0) + ( p) 2 P(X = ) = p 2 ( p) + ( p) 2 p = p( p). Sammefattede gælder at hvis de stoastise variabel Y er biomialfordelt med parametre og p, så er E Y = p og Var Y = p( p). E fordeligs stadardafvigelse er pr. defiitio vadratrode af variase, dvs. for biomialfordeliges vedommede p( p). Udregig af biomialsadsyligheder Hvis ma øser at udrege biomialsadsylighedere f (y) = ( y ) py ( p) y for y = 0,, 2,...,, er det som regel ie hesigtsmæssigt bare ude videre at idsætte i formle. Ma a med fordel beytte e reursiosformel. Ved simple omsriviger fider ma at f (y) f (y ) = y + p, y =, 2,...,, y p således at f (y) let a bereges ud fra f (y ). Metode bliver dermed f (0) = ( p), f (y) = f (y ) y + y p, y =, 2,...,. p Esempel. Som esempel vil vi berege og tege sadsylighedsfutioe for biomialfordelige med = 8 og p = 6. (Dee fordelig ue f.es. besrive atallet af sesere ved 8 ast med e almidelig terig.) Fordelige har i øvrigt middelværdi 8 6 = 3 og varias = 2.5 (svarede til stadardafvigelse.58). Ved at bruge de besreve metode udreges fordeliges sadsylighedsfutio f og ma får tabelle i figur.2..4 Reg og teg Her omtales hvorda ma a foretage de forsellige beregiger med R-programmet. Biomialoefficieter Biomialoefficieter udreges med futioe choose, f.es. giver choose(5,2) værdie af ( 5 2 ).
10 8 Biomialfordelige.5 Opgaver 9 y f (y) = ( 8 y )( 6 )y ( 5 6 )8 y ssh Figur.2 Tabel hhv. pidediagram over sadsylighedsfutioe for biomialfordelige med = 8 og p = 6. Biomialsadsyligheder Biomialsadsyligheder udreges med futioe dbiom. Esempelvis a sadsylighedere i biomialfordelige med = 8 og p = 6 udreges såda: <- 8 # får værdie 8 y <- 0: # y bliver vetore (0,, 2,..., 8) ssh <- dbiom(y, size=, prob=/6) # udreg ( y )( 6 )y ( 6 ) y ssh # udsriv resultatet roud(ssh, digits=3) # udsriv resultatet afrudet til 3 decimaler: Pidediagrammet i figur.2 a derefter fremstilles såda: Tabel. barplot(ssh, space=.5, ames.arg=y, las=, xlab="y", ylab="ssh") Ma a fremstille e tabel som tabel. på følgede måde, hvor aldet af rbiom leverer 80 tilfældige tal fra e biomialfordelig med = og p = 3, futioe matrix putter tallee id i e matrix med det øsede atal ræer, futioe rowsums udreger ræesummer, og futioe cbid sætter matricer samme lags søjler (c = colums): y t <- matrix(rbiom(80, size=, prob=/3), row=5) cbid(t, rowsums(t)).5 Opgaver Opgave. Tabel. (side ) er fremstillet på de måde at ma har sat et computerprogram til at frembrige udfald af 0-variable X, X 2,..., X såda at sadsylighede for værdie hver gag er et givet tal p (som er 3 ).. Udreg sadsylighede for at få det talsæt x, x 2,..., x der står i ræe ummer Udreg sadsylighede for at få det talsæt x, x 2,..., x der står i ræe ummer Opsriv sadsylighedsfutioe for X, X 2,..., X. 4. Opsriv sadsylighedsfutioe for Y = Opgave.2 På side åede vi frem til e tilstræelig betigelse for at e stoastis variabel Y er biomialfordelt. Overvej med dee betigelse i mete om ma a beytte biomialfordeligsmodeller i edeståede ort sitserede situatioer (agiv i givet fald hvad elemetarforsøgee og hvad parametree og p er): X j.. Atal toere ved fem ast med e almidelig terig. 2. Atal toere ved et ast med fem almidelige teriger. 3. Atal gage ma sal aste e almidelig terig for at få e toer. 4. Atal bør i e solelasse som bruger briller. 5. Atal yregistrerede aids-tilfælde i Damar i maj år Atal yregistrerede aids-tilfælde i Damar i maj år Atal passagerer i e ht-bus som ved forrige valg stemte på Das Foleparti. 8. Atal tryfejl i e bog. Opgave.3 Udreg biomialoefficiete ( 2 ), dels ved hjælp af Pascals treat, dels ved hjælp af formel 5 (.4) (og ude at bruge lommeregere). Opgave.4 I tabel. er vist udfald y, y 2,..., y 5 af e stoastis variabel Y som er biomialfordelt med atalsparameter 2 og sadsylighedsparameter 3.. Udreg e tabel over fordelige af Y (altså e tabel over sadsylighedsfutioe for biomialfordelige med atalsparameter 2 og sadsylighedsparameter 3 ). Sammelig med de empirise fordelig af y, y 2,..., y 5 (altså de relative hyppigheder hvormed udfaldee 0,, 2,..., 2 fatis er foreommet).
11 20 Biomialfordelige.5 Opgaver 2 2. Teg et pidediagram over fordelige af Y (altså e tegig i stil med figur.2). Teg desude et pidediagram over de empirise fordelig. Liger de to fordeliger hiade? 3. Hvor mage gage ud af 5 getagelser sulle ma forvete at få observatioe Y = 5? Hvor mage gage har ma fatis fået observatioe 5? 4. Udreg middelværdie af Y. Udreg variase og stadardafvigelse af Y. Opgave.5 (Fru Hase spiller bao) Fru Hase går til bao-spil de fem af uges dage. Hu a derfor opleve at der er 0,, 2, 3, 4 eller 5 dage i løbet af uge hvor hu går hjem med e gevist, me det er tilfældigt hvad det fatise atal»gevistdage«bliver. Ma a derfor for e give uge idføre e stoastis variabel Y som sal stå for»atal gevistdage i de pågældede uge«. Ma vil gere vide oget om fordelige af Y, især oget om E Y, det forvetede atal gevistdage på e uge. Atag at der hver dag er sadsylighede p for at hu vider.. Formulér e passede statistis model for atallet Y af gevistdage. 2. Hvad er det forvetede atal gevistdage E Y? Teg grafe for E Y som futio af p. 3. For at få et idtry af hvor meget Y a variere fra uge til uge, vil ma også gere vide oget om Var Y. Hvad er variase af Y? Teg grafe for Var Y som futio af p; hvorår er variase størst, og hvor stor er de da? 4. Baospilarragøre vil idrette det såda at hvis ma spiller hver af uges fem»arbejdsdage«, så sal ma ue forvete etop é gevistdag. a) Hvad sal ha da vælge p til at være? b) Teg de tilsvarede fordelig af Y. c) Hvor stor er variase i fordelige? 5. Fru Hase vil spille i 0 uger. Hvor mage uger må hu forvete at hu ie får e eeste gevistdag?. Vis med udgagsput i defiitio. at der er ( R ) forsellige måder hvorpå ma a r udtage r røde ugler ude tilbagelægig. 2. Ma vil udtage ugler i alt fra asse, stadig ude tilbagelægig. Fid atallet af forsellige måder det a gøres på således at ma får etop r røde og ( r) hvide ugler. Svaret er ( R ) ( H ). Det er uderforstået at r et et heltal der opfylder visse betigelser: r r a) 0 r : atal udtage røde ugler må ligge mellem 0 og det totale atal udtage ugler (). b) r R: ma a ie udtage flere røde ugler ed der er. c) r H: ma a ie udtage flere hvide ugler ed der er. 3. Vis at ( R r ) ( H r ) = (R+H ). alle r 4. Hvis ma roder godt rudt i asse ide ma udtager de ugler, a ma sige at ma får udvalgt e tilfældig delmægde beståede af ugler således at ehver af de ( R+H ) forsellige delmægder har samme sadsylighed for at blive udvalgt. Vis at sadsylighede for at e tilfældig delmægde ideholder etop r røde og ( r) hvide ugler, er (R r ) ( H r ) ( R+H ). (Dette er et esempel på e hypergeometris sadsylighed.) Opgave.6 (Esempel på simpel forsøgsplalægig) Ved e meigsmålig vil ma spørge persoer om de er for eller mod et bestemt eme; derefter vil ma udrege atallet Y af svarpersoer der er for.. Formulér e passede statistis model for dee situatio (dvs. agiv e sadsylighedsfutio for Y). 2. Beyt modelle til at fide stadardafvigelse af Y (for at få e idé om størrelse af de tilfældige variatio). Hvad er stadardafvigelse af de relative hyppighed Y/? 3. Hvorda afhæger stadardafvigelse af de idgåede parametre? Hvor stor sal være for at stadardafvigelse af de relative hyppighed er 0.02 (eller midre)? Opgave.7 (Hypergeometrise sadsyligheder) Kombiatori er lære om at tælle. Mage ombiatorise problemer formuleres på de måde at ma taler om forselligtfarvede ugler der lægges ed i og tages op af asser (eller urer) efter bestemte regler. Atag at ma har e asse med R røde og H hvide ugler.
12 2 De simple biomialfordeligsmodel I forrige apitel opstillede vi e statistis model i de simple biomialfordeligssituatio. I modelle optræder to størrelser og p der tilsamme specificerer biomialfordelige. Størrelse er et edt tal, me p er uedt: værdie af fastsættes ved plalægige af forsøget, hvorimod p besriver e egesab ved de tilfældighedsmeaisme der frembriger observatioere; i ogle situatioer vil ma sige at p besriver e egesab ved ature eller virelighede. E størrelse som p er e parameter i modelle. Ma siger ofte de sade værdi af parametere p år ma meer de værdi som p»i virelighede«har (i modsætig til e værdi som ma selv foreslår). I dette apitel sal vi se hvorda ma a få oget at vide om de sade værdi af p. 2. Estimatio af parametere p Ved hjælp af de statistise model er det muligt at hete iformatio om de sade parameterværdi ud af observatioere: på grudlag af model plus observartioer udreger ma et sø eller et estimat over værdie af p, og selve processe hedder estimatio. I esemplet med rismelsbillere i apitel var = 44 og det observerede atal gustige udfald var y = 43. Da p sal fortoles som sadsylighede for at få et gustigt udfald, og da ma har observeret 43 gustige ud af 44, er det ærliggede at foreslå at estimere p som de relative hyppighed y/ = 43/44 = I det følgede vil vi præsetere e geerel estimatiosmetode der a bruges i»ehver«situatio, og vi vil eftervise at de geerelle metode fører frem til at sadsylighedsparametere p fatis sal estimeres som y/. Lielihoodmetode Det er i eelte simple tilfælde ret lart hvorda ma»selvfølgelig«sal aalysere si statistise model, idet der er e»umiddelbart idlysede«fremgagsmåde osv. I de fleste tilfælde er det ap så lart. Vi vil itroducere et sæt overordede pricipper for hvorda ma bør aalysere e statistis model. Disse pricipper gælder (med visse tilføjelser) for»ehver«model. Idførelse af pricippere betyder ie at ma slipper for overvejelser over hvad ma»selvfølgelig«sal gøre, og hvad der er»umiddelbart idlysede«, me at ma i stedet for at sulle gøre overvejelsere ige og ige i hvert eelt tilfælde, så at sige 22 23
13 24 De simple biomialfordeligsmodel 2. Estimatio af parametere p ssh ssh log(ssh) y p p Figur 2. E»typis«sadsylighedsfutio y f (y; p). overstår dem alle på e gag ved at hæve dem fra eelttilfældee op til et overordet iveau hvor de udæves til geerelle pricipper. Et pricip er i dee sammehæg e orm, e retigslije, som ie bliver logis-dedutivt bevist, me som retfærdiggøres dels geem geerelle betragtiger og overvejelser, dels ved at de leverer foruftige resultater i orete situatioer. Vi vil i al stilfærdighed præsetere et sådat sæt pricipper og vise hvorda de udmøtes i e geerel metode til estimatio af uedte parametre i statistise modeller. I dette apitel sal vi se på hvorda de geerelle metode ser ud i esemplet»de simple biomialfordeligsmodel«, og som geemgåede esempel på»de simple biomialfordeligsmodel«bruger vi rismelsbille-esemplet. (Der er altså flere iveauer af esempler: Rismelsbille-esemplet er et esempel på e simpel biomialfordeligsmodel, og de simple biomialfordeligsmodel er et esempel på e statistis model.) De statistise model i rismelsbille-esemplet siger at y = 43 opfattes som e observatio af e stoastis variabel Y som er biomialfordelt med atalsparameter = 44 og uedt sadsylighedsparameter p [0, ]. Sadsylighedsfutioe for Y er f (y) = ( y ) py ( p) y, y = 0,, 2,...,. For at fremhæve at udtryet afhæger af både y og p, sriver vi f (y; p) i stedet for f (y): f (y; p) = ( y ) py ( p) y, y = 0,, 2,..., ; 0 p. Futioe f er u e futio af to variable, e observatiosvariabel y og e parametervariabel p. Futioe aldes modelfutioe for de statistise model fordi de specificerer modelle fuldstædigt: for ehver ombiatio af e mulig observatio y Figur 2.2 Til vestre: e»typis«lielihoodfutio p L(p; y) = f (y; p). Til højre: de tilsvarede log-lielihoodfutio. og e mulig parameterværdi p agiver de sadsylighede for at observere etop det y hvis etop det p er de rigtige parameterværdi. Modelfutioe er flere futioer i é: Hvis vi i modelfutioe fiserer p og opfatter futioe som e futio af y alee, så har vi sadsylighedsfutioe svarede til parameterværdie p. E»typis«sadsylighedsfutio er vist i figur 2.. Hvis vi i modelfutioe fiserer y og opfatter futioe som e futio af p alee, så har vi lielihoodfutioe svarede til observatioe y. Lielihoodfutioe beteges ofte L( ) eller L( ; y): L(p) = L(p; y) = ( y ) py ( p) y, 0 p. Figur 2.2 viser e»typis«lielihoodfutio. I vort esempel er modelfutioe f (y; p) = ( 44 y ) p43 ( p) 0, y = 0,, 2,..., 44; 0 p, og lielihoodfutioe svarede til observatioe y = 43 er L(p) = L(p; 43) = ( ) p43 ( p) 0, 0 p. Lielihoodfutiosværdie L(p; y) er sadsylighede for at observere det y ma fatis har observeret, forudsat at de uedte parameter har værdie p. Lielihoodfutioe a derfor avedes til at sammelige forsellige parameterværdiers eve til
14 26 De simple biomialfordeligsmodel 2.2 E simpel statistis hypotese 27 at besrive de fatise observatio y. For hvis f.es. L(p ; y) < L(p 2 ; y), så er chace for at observere etop dette y større år p er lig p 2, ed år p er lig p, og det må betyde at p 2 giver e bedre besrivelse af data ed p gør. De parameterværdi som giver de bedste besrivelse efter disse retigslijer, er da de værdi som masimaliserer lielihoodfutioe, og de aldes masimaliserigsestimatet (eller maximum lielihood estimatet) for p og beteges p (»p hat«). Tallet p er altså bestemt ved at L( p; y) L(p; y) for alle p. Bemær at p er e futio af y. Af bevemmelighedsgrude opererer ma tit med log-lielihoodfutioe, dvs. futioe l L(p), og ma bestemmer p som masimumsputet for l L (resultatet bliver jo det samme). I vort esempel er log-lielihoodfutioe l L(p) = l ( 44 ) + 43 l p + 0 l( p). 43 Imidlertid vil talværdiere let gøre ræsoemetere ugeemsuelige, så vi veder tilbage til de geerelle biomialfordeligsmodel hvor log-lielihoodfutioe er l L(p) = l ( ) + y l p + ( y) l( p). y Hvad er p i dee model? Svaret herpå får vi ved at løse de matematiopgave der hedder:»bestem masimumsput(er) for futioe p l L(p) år p [0, ]«, så det gør vi. Fra matematie ved vi at adidater til masimumsputer er dels itervaledeputere p = 0 og p =, dels de statioære puter, dvs. de puter hvor d dp l L(p) = 0. For 0 < p < er d dp l L(p) = y p y p = y p p ( p). Det er hesigtsmæssigt at dele op i tre tilfælde: 0 < y < : Så er putet p = y/ det eeste statioære put for l L, og da l L(0) og l L() begge er, er p = y/ et etydigt masimumsput. y = : Så er l L(p) = l p, hvilet er e vosede futio af p. De atager derfor si største værdi år p er størst mulig, dvs. år p =. y = 0: Så er l L(p) = l( p), hvilet er e aftagede futio af p. De atager derfor si største værdi år p er midst mulig, dvs. år p = 0. I alle tre tilfælde er der således et etydigt masimumsput der a udreges som y/. Vi er hermed ået frem til at i biomialmodelle med modelfutio f (y; p) = ( y ) py ( p) y, y = 0,, 2,..., ; 0 p, er masimaliserigsestimatet p for p givet som p = y/. At p sal estimeres ved de relative hyppighed y/ a æppe overrase oge, det er æste hvad ma a sige sig selv. Det iteressate er at det altså også er det svar ma år frem til ved at beytte de geerelle fremgagsmåde som er opstil modelfutioe, da derudfra lielihoodfutioe, bestem p som masimumsputet for lielihoodfutioe. Det er vigtigt at have i mete at der tæes at esistere e sad parameterværdi som er et bestemt, uedt tal. Vi a pricipielt aldrig erfare de sade parameterværdi, me ud fra foreliggede observatioer a vi estimere de. Middelfejle på p Masimaliserigsestimatet p = y/ er det bedste bud vi a give på de uedte p-værdi år vi har observeret atallet y ud af. De statistise model fortæller at y er at opfatte som e observatio af e stoastis variabel Y; det medfører at vi også må opfatte estimatet y/ som e observatio af e stoastis variabel, emlig Y/; de stoastise variabel p = p(y) = Y/ aldes masimaliserigsestimatore for p. Da Y er biomialfordelt med parametre og p, er middelværdie af Y lig p, og ifølge regereglere for middelværdi er så E p(y) = (E Y)/ = p, hvilet betyder at masimaliserigsestimatore p for p i middel giver det rigtige svar p, me deraf følger ie oget om det orete eelttilfælde. E estimator hvis middelværdi er lig de parameter der sal estimeres, aldes e cetral estimator (på egels: a ubiased estimator). For at få e idé om størrelse af masimaliserigsestimatores tilfældige variatio omrig si middelværdi p a ma bestemme de såaldte middelfejl på p, dvs. stadardafvigelse på p(y). Da Y er biomialfordelt med parametre og p, er Var Y = p( p), og ifølge regeregler for variaser er Var( p(y)) = Var(Y/) = (Var Y)/ 2 = p( p)/, så middelfejle på p(y) er p( p)/. I billeesemplet er stadardafvigelse på p lig p( p)/44, og de estimerede stadardafvigelse er p( p)/ = /44 = Sammefattede a vi sige at biomialparametere p i billeesemplet estimeres til p = 0.30 med e stadardafvigelse på E simpel statistis hypotese Det er ie altid at ma er tilfreds med blot at estimere de uedte parameter i de statistise model, udertide øser ma også at opstille og teste statistise hypoteser vedrørede de sade værdi af parametere.
15 28 De simple biomialfordeligsmodel 2.3 Kvotietteststørrelse 29 Atag at det i rismelsbilleesemplet er såda at ma har e referecegift hvorom ma véd at år ma doserer de med 0.20 mg/cm 2, så dør 23% af billere [ såda er det ie; dee del af esemplet er opdigtet til lejlighede!]. De gift der er afprøvet, er ligeledes doseret med 0.20 mg/cm 2, og der sete som ævt det at 43 ud af 44 biller døde. Spørgsmålet er om de afprøvede gift virer på samme måde som referecegifte. Hvad»på samme måde«ærmere sal betyde, a ma siert disutere læge og iderligt, me formuleret i de statistise models sprog er det emt o: det betyder at p = p 0, altså at sadsylighede for at e bille dør år de er blevet udsat for de afprøvede gift, er lig p 0, hvor p 0 er e edt værdi (her 0.23). Påstade at p = p 0, er et esempel på e såaldt statistis hypotese; statistise hypoteser avgives ofte med symboler som H 0, H, osv., så her vil vi tale om hypotese H 0 p = p 0. Hvorda passer de statistise hypotese og de foreliggede observatioer samme? Ma a se at de estimerede værdi p = ie er lig med 0.23, me esat lighed ville også være mere ed ma ue forvete, taget i betragtig at modelle siger at tallet y = 43 er e observatio fra e sadsylighedsfordelig. Ma a u sige at hvis der ie er stor afvigelse mellem p og p 0, så er der ie lare teg på at de afprøvede gift virer aderledes ed referecegifte der er ie oge sigifiat forsel, og hvis der er stor afvigelse mellem p og p 0, så er det teg på at de afprøvede gift ie virer på samme måde som referecegifte der er e sigifiat forsel. Her er der to tig der behøver e ærmere præciserig: hvorda måler ma afvigelse mellem p og p 0, og hvorda afgør ma hvorår afvigelse er stor og hvorår ie. I afsit 2.3 præseteres e geerel metode hvormed ma a hådtere disse spørgsmål. Det faglige problem blev præseteret på de måde at ma øsede at vide om de afprøvede gift virede på samme måde som referecegifte, og det førte til hypotese H 0 p = p 0. Me hvis ma i stedet havde stillet spørgsmålet om der var forsel på de to gifte, hvorda sulle ma så have grebet sage a? Svaret er: på øjagtig samme måde, altså stadig ved at udersøge H 0 p = p 0. Statistise hypoteser er emlig altid forsimplede i de forstad at ma går fra det mere detaljerede til det midre detaljerede. I esemplet begyder ma derfor med de mest detaljerede model, de hvor p a være hvad som helst, og så opstiller ma som statistis hypotese at modelle er midre detaljeret, emlig at p u har lov til at have de ee værdi p Kvotietteststørrelse Det blev påstået at ma ved hjælp af lielihoodfutioe a sammelige forsellige parameterværdiers eve til at besrive det fatis observerede y: hvis L(p ; y) < L(p 2 ; y), så giver parameterværdie p 2 e bedre besrivelse ed parameterværdie p gør, ide for rammere af de atuelle statistise model. I særdeleshed giver masimaliserigsesti- matet p = p(y) de bedst mulige besrivelse af observatioe y. Parameterværdier der giver e værdi af lielihoodfutioe som ligger tæt på de masimale værdi L( p), må give e æste lige så god besrivelse af observatioe y som p gør. Når vi derfor sal teste e statistis hypotese H 0 p = p 0 om at de uedte parameter p a atages at have de edte værdi p 0, så må det foregå ved at sammelige lielihoodfutioes værdi i putet p 0 med des masimale værdi, altså ved at sammelige de to tal L(p 0 ) og L( p). Hvis L(p 0 ) er æste lige så stor som L( p), betyder det at p 0 besriver observatioe y æste lige så godt som p gør, og det betyder ige at ma a tillade sig at mee at p 0 er de sade værdi af p: ma accepterer eller godeder hypotese H 0. Hvis derimod L(p 0 ) er væsetligt midre ed L( p), betyder det at p 0 giver e væsetligt dårligere besrivelse af observatioe y ed p gør, og det er derfor ie rimeligt at mee at p 0 sulle være de sade værdi af p: ma foraster H 0. Når ma sammeliger L(p 0 ) og L( p), sal det gøres ved at dividere de midste med de største: ma daer votiete Resultatet bliver et tal mellem 0 og, og Q = Q(y) = L(p 0) L( p) = L(p 0; y) L( p; y). e Q-værdi ær viser at p 0 er stort set lige så god som p: ma accepterer H 0, e Q-værdi lagt fra viser at p 0 er væsetligt dårligere ed p: ma foraster H 0. Ma alder Q for votietteststørrelse for de statistise hypotese H 0. I biomialfordeligsmodelle er L(p) = ( y ) py ( p) y, så Q = Q(y) = py 0 ( p 0) y p y ( p) y = ( p y 0 y ) ( ( p y 0) ) y idet p = y/. I esemplet er = 44, y = 43 og p 0 = 0.23, så de observerede værdi Q obs af Q er Q obs = ( ) ( ) = Tallet Q obs = 0.65 i sig selv a vi ie stille oget op med det giver ige meig at spørge om 0.65 er ær eller lagt fra så læge vi ie har e målesto eller et sammeligigsgrudlag. De statistise model fortæller at vi sal betragte y som e observatio af e stoastis variabel Y; dermed sal vi også betragte Q obs = Q(y) som e observatio af de stoastise variabel Q(Y). Fordelige af Y besriver hvile y-værdier ma også ue have fået (i stedet for de fatis observerede) og med hvile sadsyligheder, og de tilsvarede fordelig af Q(Y) besriver dermed hvile (2.)
16 30 De simple biomialfordeligsmodel 2.3 Kvotietteststørrelse 3 Q-værdier ma også ue have fået (i stedet for 0.65) og med hvile sadsyligheder. Taet være de statistise model a vi altså sammeholde de fatise værdi Q obs = 0.65 med alle de adre Q-værdier ma også ue have fået år p har værdie p 0. Hvis det er såda at der år p = p 0 er e pæ chace (f.es. over 5%) for at få Q-værdier som ligger lægere væ fra ed Q obs gør, dvs. for at få Q-værdier for hvile Q Q obs, så vil ma sige at Q obs ie ligger specielt lagt fra, og ma vil acceptere hypotese H 0 p = p 0. Hvis det derimod er såda at der år p = p 0 er meget lille chace (f.es. uder 5%) for at få Q-værdier som ligger lægere fra ed Q obs gør, dvs. for at få Q-værdier for hvile Q Q obs, så vil ma fortole det som at Q obs i sig selv ligger usædvaligt lagt fra, og ma vil foraste hypotese H 0 p = p 0. Når ma sal teste hypotese H 0, sal ma derfor bestemme testsadsylighede ε = P 0 (Q Q obs ). Testsadsylighede er sadsylighede uder H 0 for at få e værre, dvs. midre, Q- værdi ed de fatis observerede værdi Q obs. (Fodteget 0 på P-et agiver at sadsylighede sal udreges uder atagelse af at hypotese H 0 er rigtig.). Hvis testsadsylighede ε er meget lille, så foraster ma H 0 på grud af følgede ræsoemet: a) Vi har fået e Q obs -værdi der er så lagt fra at der, forudsat at H 0 er rigtig, u er de meget lille sadsylighed ε for at få e værre Q-værdi. b) I prasis plejer ma ie at få særligt estreme observatioer, så der må være oget galt med forudsætigere for beregige af ε. c) Da vi ie a lave om på observatioere, må det være hypotese H 0 derer oget galt med. 2. Hvis testsadsylighede ε har e pæ størrelse, så a ma ie foraste H 0. Ræsoemetet er dee gag således: a) Vi har fået e Q obs -værdi der ie ligger specielt lagt fra, thi der er emlig, forudsat at H 0 er rigtig, e pæ chace ε for at få e værre Q-værdi. b) De fatise værdi Q obs er derfor udmæret foreelig med hypotese H 0, og der er dermed ie grudlag for at foraste H 0. Hvis testsadsylighede ε er så lille at ma foraster hypotese, så siger ma at teststørrelse Q obs er sigifiat, eller at der er sigifias. Bestemmelse af testsadsylighede ε Vi vil u for e stud holde ide med geerelle betragtiger over tests og i stedet vede tilbage til de orete biomialfordeligsmodel, hvor der viser sig et påtrægede problem, emlig hvorda bestemmer ma ret fatis testsadsylighede ε? Pr. defiitio er ε lig med sadsylighede for at Q(Y) Q obs, udreget uder forudsætig af at de sade parameterværdi er lig p 0. Af forsellige grude, hvoraf ogle er regeteise og adre vil fremgå lidt seere, opererer ma ofte med 2 l Q i stedet for Q, og testsadsylighede er da sadsylighede for at 2 l Q(Y) 2 l Q obs. Ud fra det tidligere fude udtry for Q (formel (2.)) får vi at så i talesemplet er og dermed 2 l Q(y) = 2(y l y y + ( y) l p 0 ( p 0 ) ), (2.2) 2 l Q(y) = 2(y l y l Q obs = 2 l Q(43) = (44 y) l 44 y 0.88 ) (2.3) Testsadsylighede ε a u fås ved at summere sadsylighedere for alle de y-er som har de egesab at 2 l Q(y) 2 l Q obs idet sadsylighedere udreges uder atagelse af at hypotese er rigtig, dvs. det atages at p = p 0 : ε = ( y 2 l Q(y) 2 l Q obs y )py 0 ( p 0) y. Her har vi ε udtryt ved lutter edte størrelse. Fremgagsmåde til bestemmelse af testsadsylighede ε er derfor ort fortalt. Udreg 2 l Q obs. 2. Udreg 2 l Q(y) for y = 0,, 2,...,. (NB: Når ma udreger 2 l Q(0) og 2 l Q(), sal ma sætte 0 l 0 til 0.) 3. Bestem de y-er for hvile 2 l Q(y) 2 l Q obs. 4. Bestem biomialsadsylighedere for de således udpegede y-er. 5. Testsadsylighede ε er summe af disse sadsyligheder. I talesemplet er ε = y 2 l Q(y) 3.60 ( 44 y ) 0.23y y
17 32 De simple biomialfordeligsmodel hvor 2 l Q(y) er givet ved formel (2.3). Ved almidelig udregig fider ma at ulighede 2 l Q(y) 3.60 er opfyldt for y = 0,, 2,..., 23 og for y = 43, 44, 45,..., 44. Videre fider ma at P 0 (Y 23) = og at P 0 (Y 43) = , så de esate testsadsylighed er ε = = %. χ 2 -approsimatioe Gase vist er der i afsit.3 aført e udmæret algoritme til beregig af biomialsadsyligheder, me alligevel må ma o sige at oveævte regestye o ie er oget ma lige larer i e hådevedig, medmidre ma da har e computer eller e programmerbar lommereger til si rådighed. Heldigvis a de matematise statisti omme os til hjælp, idet de a fortælle hvorda ma ude større besvær a bestemme e god tilærmet værdi af testsadsylighede. Ma a bevise at for biomialmodelle og for e lag ræe adre statistise modeller gælder at de sadsylighedsfordelig som votietteststørrelse 2 l Q følger år de testede hypotese er rigtig, med god tilærmelse er af e gase bestemt type, emlig e såaldt χ 2 -fordelig (»hi-i-ade fordelig«) med et vist atal frihedsgrader der i vores atuelle tilfælde er lig. Da testsadsylighede ε jo er sadsylighede for at få e 2 l Q-værdi som er større ed 2 l Q obs, betyder det at ε med god tilærmelse er lig med sadsylighede for at få e værdi større ed 2 l Q obs i e χ 2 -fordelig med frihedsgrad, og de sadsylighed a let fides, ete med et statistiprogram på computere eller ved hjælp af tabeller over fratiler i χ 2 -fordelige, se f.es. tabelle side 228. [E fratil i e fordelig er et tal x med de egesab at der er e vis foresreve sadsylighed for at få værdier x. Esempelvis er 90%-fratile et tal x således at der er sadsylighed 90% for at få værdier x.] Ved tabelopslag fider ma at i χ 2 -fordelige med frihedsgrad er 90%-fratile 2.7 og 95%-fratile De atuelle 2 l Q obs -værdi 3.60 ligger mellem disse to fratiler, hvilet betyder at (det tilærmede) ε ligger mellem 0% og 5%. (Dette harmoerer udmæret med at de esate testsadsylighed er 5.9%.) Som ævt er χ 2 -fordelige u e approsimatio til de rigtige fordelig af 2 l Q uder H 0. E retigslije for hvorår approsimatioe er god, er at hvis begge de forvetede atal p 0 og ( p 0 ) (det forvetede atal døde hhv. ie døde) er midst fem, så a ma avede χ 2 -approsimatioe. Ellers må ma rege de esate testsadsylighed ud efter»slavemetode«. De mage udregiger må følges op af e olusio: Vi fadt e testsadsylighed på 5.9%, dvs. hvis hypotese H 0 er rigtig, så er der e sadsylighed på 5.9% for at få e større værdi ed de fatis observerede værdi 2 l Q = E såda testsadsylighed vil almideligvis ie føre til at ma foraster hypotese H 0. Vi må altså oludere at der ie er oge sigifiat forsel mellem de afprøvede gift og referecegifte. 2.4 Reg og teg Reg og teg Her omtales hvorda ma a foretage beregigere med R. Testsadsylighede Testsadsylighede ε udreges med futioe biom.test. I det geemgåede esempel med = 44, y = 43 og p 0 = 0.23 sriver ma biom.test(43, 44, 0.23) som resulterer i dee udsrift: Exact biomial test data: 43 ad 44 umber of successes = 43, umber of trials = 44, p-value = alterative hypothesis: true probability of success is ot equal to percet cofidece iterval: sample estimates: probability of success Testsadsylighede er det der i udsrifte hedder p-value, og p er det der hedder sample estimates: probability of success. χ 2 -fordelige Sadsyligheder i χ 2 -fordelige udreges med futioe pchisq, esempelvis giver -pchisq(3.60, df=) sadsylighede for at få e værdi som er større ed 3.60 i χ 2 -fordelige med frihedsgrad. Fratiler i χ 2 -fordelige udreges med qchisq, f.es. giver qchisq(0.95, df=) 95%-fratile i χ 2 -fordelige med frihedsgrad. 2.5 Opgaver Opgave 2. I tabel. på side er vist udfald y, y 2,..., y 5 af e stoastis variabel Y som er biomialfordelt med atalsparameter 2 og sadsylighedsparameter 3.. Udreg for hver af de 5 observerede y-værdier de tilsvarede værdi af p. 2. Teg et pidediagram over de empirise fordelig af p. 3. Teg et pidediagram over de teoretise fordelig af p. Vi: Da Y er biomialfordelt, er fordelige af p = Y/ e»edsaleret biomialfordelig«på mægde {0,, 2,...,, }.
18 34 De simple biomialfordeligsmodel 2.5 Opgaver Hvor stor er middelfejle på p? Vi: Tabelle var også gestad for udersøgelse i opgave.4. Opgave 2.2 E haveejer går ud på e eg og idsamler frø af e plate der fides i to udgaver, e med røde blomster og e med hvide blomster. (På ege var der esemplarer af begge slags.) Næste år sår ha frøee hjemme i have; det viser sig at der ommer 0 plater, hvoraf syv har røde og tre har hvide blomster.. a) Udreg sadsylighede for at få observatioe 7 i e biomialfordelig med = 0 og p = 2. b) Udreg sadsylighede for at få observatioe 7 i e biomialfordelig med = 0 og p = 3 4. c) Udreg sadsylighede for at få observatioe 7 i e biomialfordelig med = 0 og p = Haveejeres veer og beedte a ved fælles hjælp fide følgede mulige forlariger på fæomeet: a) Det er tilfældigt om e plate får røde eller hvide blomster, og der er samme sadsylighed for hver af de to muligheder. b) Det er geetis bestemt om e plate får røde eller hvide blomster, og»røde blomster«er domiat; i så fald er sadsylighede 3 4 for at e plate har røde blomster. c) Det er geetis bestemt om e plate får røde eller hvide blomster, og»hvide blomster«er domiat; i så fald er sadsylighede 4 for at e plate har røde blomster. Hvile af de tre forlariger forlarer det observerede bedst? 3. E fjerde forlarig er at det simpelt he forholder sig såda med de eg, at de ideholder rødblomstrede og hvidblomstrede esemplarer af plate i et gase bestemt forhold. Hvis det er tilfældet, hvad er da det bedste bud på talværdie af dette forhold? Opgave 2.3 Georg har slået Plat eller Kroe 5 gage med e almidelig møt og fået etop é gag Kroe. Gerda siger at det da må tyde på at møte er sæv, ellers sulle ma have fået 2 eller 3 gage Kroe. For at afgøre om ma på dee baggrud a sige at møte er sæv, a ma opstille e statistis model og ide for rammere af de formulere og teste e statistis hypotese. Gør det, dvs. opstil modelle og formulér og test hypotese:. Opstil e hesigtsmæssig statistis model og omsæt det give problem til e statistis hypotese. 2. Opsriv lielihoodfutioe svarede til observatioe é gag Kroe. Teg grafe for lielihoodfutioe. Hvorår er de størst? Samme spørgsmål for log-lielihoodfutioe. 3. Opsriv votietteststørrelse Q for at teste hypotese. 4. Udreg 2 l Q(y) for alle de mulige y-værdier, og fid mægde af y-er for hvile 2 l Q(y) 2 l Q obs (svarede til at Q(y) Q obs ), og udreg sadsylighede for dee mægde. Hvor stor er testsadsylighede? Forastes hypotese? Opgave 2.4 Formulér e hesigtsmæssig statistis model og hypotese for at besvare følgede: Fys Amtsavis oplyser at bladet tryer alle idlæg om fremmede. I e tremåeders periode bragte bladet 2 læserbreve med et positivt sy på fremmede og 5 med et egativt sy. Modtager bladet stort set lige mage positive og egative idlæg? Opgave 2.5 I e af sie forsøgsræer med ærteplater udersøgte Medel om ærtere var rude eller atede. Først dyrede ha 253 selvbestøvede heterozygote plater, og det viste sig at de ærter der om, fordelte sig med 5474 rude og 850 atede. Derpå dyrede og selvbestøvede ha plater af 565 af de rude ærter fra det første forsøg. Det viste sig at 93 af disse plater udeluede fi rude ærter, mes de resterede 372 fi både rude og atede ærter. Ma a u opstille e geetis model gåede ud på at det er et eelt ge der bestemmer om ærter bliver rude eller atede, og at geet for rude ærter er domiat. E oseves af dee model er at efterommere af de 253 selvbestøvede heterozygote plater i det første forsøg sal fordele sig på rude og atede i forholdet 3 :, og at ud af de 565 plater i det adet forsøg sal 3 have udeluede rudærtede efterommere. Hvorda stemmer Medels tal overes med de geetise models forudsigelser? Opgave 2.6 Formulér e hesigtsmæssig statistis model og hypotese for at besvare følgede: Kodrodystrofi er e form for dværgvæst som reges domiat arvelig. Geet D er sygdomsgeet og d er det tilsvarede ormalge. I e udersøgelse af e ræe ægtepar hvor de ee ægtefælle var odrodystrof og de ade ormal (formodet geotypeombiatio Dd dd) fadt ma at bladt 27 bør var 0 odrodystrofe og 7 ormale. Er dette i strid med at odrodystrofi arves domiat? [At odrodystrofi arves domiat betyder i dee forbidelse at et bar med de ævte forældre med sadsylighed 2 bliver odrodystroft.] Opgave 2.7 På side 26 står at ma a bestemme p ete som masimumsputet for lielihoodfutioe eller som masimumsputet for log-lielihoodfutioe, for»resultatet bliver jo det samme«; det lille ord jo atyder at det er e selvfølgelighed at det forholder sig såda. Hvorfor er det det? Opgave 2.8 (E approsimatiosformel for 2 l Q) Hvis f er e to gage otiuert differetiabel futio af y, så a ma som beedt approsimere f (y) med følgede ræeudvilig (Taylorudvilig) år y er tæt på y 0 : f (y) f (y 0 ) + (y y 0 ) f (y 0 ) + 2 (y y 0) 2 f (y 0 ). Ma a avede dette på futioe f (y) = 2 l Q(y), hvor 2 l Q(y) er som i formel (2.2) på side 3, og hvor y 0 = p 0.
19 36 De simple biomialfordeligsmodel. Vis at de første afledede af 2 l Q er ( 2 l Q) (y) = l y l y. p 0 p 0 2. Vis at de ade afledede af 2 l Q er ( 2 l Q) (y) = 3. Vis derved at 2 l Q (y p 0) 2 p 0 ( p 0 ) = ( y p 0 p0 ( p 0 ) ) 2. y( y). (Det sidste udtry er vadratet på e størrelse der a fortoles som forselle mellem det observerede y og de forvetede værdi p 0, divideret med stadardafvigelse på Y.) 3 Sammeligig af biomialfordeliger I forrige apitel studerede vi de simple biomialfordeligsmodel, dvs. e model med é observatio y fra e biomialfordelig, é sadsylighedsparameter p der sulle estimeres, og hvor ma evetuelt havde e hypotese af forme H 0 p = p 0. I dette apitel går vi et sridt videre og betragter situatioer med flere biomialfordelte observatioer der a have hver si edte atalsparameter og hver si uedte sadsylighedsparameter. Det a være af iteresse at udersøge om sadsylighedsparametree a atages at være es, eller om de er sigifiat forsellige. Som geemgåede esempel bruger vi stadig rismelsbille-esemplet fra [6], me u iddrager vi e lidt større del af datamaterialet: Ma har udsat ogle rismelsbiller for gift i forsellige ocetratioer, emlig 0.20, 0.32, 0.50 og 0.80 mg/cm 2, og deræst set hvor mage af dem der var døde efter 3 dages forløb. (Gifte strøs ud på gulvet hvor billere færdes, derfor måles ocetratioe i mægde pr. areal.) Forsøgsresultatere er vist i tabel 3. på æste side. Ma a være iteresseret i at udersøge om der er forsel på virige af de forsellige ocetratioer. Hvis der ie er oge forsel, så sulle brødele af døde i hver af de fire grupper være stort set de samme, og derfor ue det være e god idé at udrege disse brødele; ma får dem til 0.30, 0.72, 0.87 og Hvis der ie er forsel på de forsellige ocetratioer, så sal forsellighedere i disse fire tal ue forlares udeluede ved tilfældigheder; me hvis forsellee er så store at det er urimeligt at forlare dem ved tilfældigheder alee, så er der e sigifiat forsel mellem ocetratioere. Opgave er derfor først at opstille e statistis model for datamaterialet, og deræst ide for rammere af dee model at ofrotere de foreliggede observatioer med hypotese om at der ie er forsel på ocetratioere. For at vi sal ue udtale os om hvorvidt forsellee a forlares udeluede ved tilfældigheder, må vi have e statistis model der ærmere specificerer på hvile puter der ommer tilfældigheder id i billedet. Da formålet er at sammelige sadsylighedere for at dø ved forsellige ocetratioer, sal modelle idrettes på de måde at totalatallee 44, 69, 54 og 50 opfattes som faste tal, hvorimod atal døde 43, 50, 47 og 48 (og dermed også atal overlevede 0, 9, 7 og 2) opfattes som frembragt af e tilfældighedsmeaisme, i modelsprog: de er observatioer af stoastise variable. Det 37
20 38 Sammeligig af biomialfordeliger Tabel 3. Rismelsbillers overlevelse ved forsellige giftdoser. ocetratio atal døde atal ie døde i alt er ærliggede at forsøge sig med e model der går ud på, at for hver ocetratio har vi e situatio der svarer til e simpel biomialfordeligsmodel, og at de fire situatioer er uafhægige af hveradre. De fire grupper (»situatioer«) svarede til de fire ocetratioer ummereres med ides j der altså a have værdiere, 2, 3, 4. Totalatallet i gruppe j er j, hvor = 44, 2 = 69, 3 = 54 og 4 = 50. Det observerede atal døde i gruppe j er y j, hvor y = 43, y 2 = 50, y 3 = 47 og y 4 = 48. Totalatallee opfattes som faste tal, me de observerede atal opfattes som observerede værdier af stoastise variable Y, Y 2, Y 3 og Y 4. At gruppe r. j modelleres med e simpel biomialfordeligsmodel betyder at Y j er biomialfordelt med atalsparameter j (edt) og e eller ade sadsylighedsparameter p j som er uedt; sadsylighede for at observere værdie y j er i dee model P(Y j = y j ) = ( j y j )p y j j ( p j ) j y j. Hvis de fire grupper er uafhægige af hveradre, er edvidere P(Y = y og Y 2 = y 2 og Y 3 = y 3 og Y 4 = y 4 ) så modelfutioe for det samlede forsøg er = P(Y = y ) P(Y 2 = y 2 ) P(Y 3 = y 3 ) P(Y 4 = y 4 ), f (y, y 2, y 3, y 4 ; p, p 2, p 3, p 4 ) = ( 44 y ) p y ( p ) 44 y ( 69 y 2 ) p y2 2 ( p 2) 69 y2 ( 54 y 3 ) p y3 3 ( p 3) 54 y3 ( 50 y 4 ) p y4 4 ( p 4) 50 y4. Det ses at modelle ideholder fire uedte parametre p, p 2, p 3 og p 4, é for hver gruppe. Opgave er u på grudlag af modelle plus observatioere y = 43, y 2 = 50, y 3 = 47 og y 4 = 48 at estimere parametree og vurdere om ma a tillade sig at atage at de fire parametre i virelighede er es, svarede til at giftstoffet virer es i alle fire ocetratioer. Vi vil vise hvorda ma løser dee opgave ved hjælp af de pricipper der blev laceret i apitel 2. Vi vil dog gøre det e aelse mere geerelt ved at se på e situatio med s biomialfordeliger der sal sammeliges. 3. Modelle Modelle Atag at vi har lassificeret ogle idivider i to forsellige lasser»«og»0«. Idividere er på forhåd iddelt i s forsellige grupper med hhv., 2,..., s idivider. Det har vist sig at i gruppe j hører y j af idividere til lasse»«og de resterede j y j af idividere til lasse»0«, j =, 2,..., s. Sematis ser det såda ud: gruppe r s lasse y y 2 y 3... y s lasse 0 y 2 y 2 3 y 3... s y s i alt s De statistise model der beyttes til at besrive dee situatio, er at y, y 2,..., y s betragtes som observerede værdier af stoastise variable Y, Y 2,..., Y s der er idbyrdes uafhægige og biomialfordelte således at Y j har edt atalsparameter j og uedt sadsylighedsparameter p j, j =, 2,..., s. Modelle tillader at gruppere er forsellige idet der er e sadsylighedsparameter for hver gruppe. Opgave er at udersøge om gruppere a ases for es, dvs. at teste de statistise hypotese H 0 p = p 2 = = p s. De geerelle retigslijer for hvorda ma aalyserer e give statistis model, siger at vi sal tage udgagsput i modelfutioe og lielihoodfutioe. Modelfutioe er de simultae sadsylighedsfutio for Y-ere, opfattet som e futio af både observatioer og parametre, altså f (y, y 2,..., y s ; p, p 2,..., p s ) = ( ) p y y ( p ) y ( 2 ) p y2 2 y ( p 2) 2 y2... ( s ) ps ys ( p s ) s ys 2 y s = s ( j y j ) p y j j ( p j ) j y j. Når vi her holder y-ere fast og u opfatter udtryet som e futio af p-ere, får vi lielihoodfutioe svarede til observatioere y, y 2,..., y s ; ved derpå at tage logaritme får vi log-lielihoodfutioe: l L(p, p 2,..., p s ) = s l ( j ) + y j = ostat + s s (y j l p j + ( j y j ) l( p j )) (y j l p j + ( j y j ) l( p j )). (3.)
21 40 Sammeligig af biomialfordeliger 3.2 Hypoteseprøvig 4 I bille-esemplet bliver log-lielihoodfutioe l L(p, p 2, p 3, p 4 ) = ostat + (43 l p + 0 l( p )) + (50 l p l( p 2 )) + (47 l p l( p 3 )) + (48 l p l( p 4 )). Lielihoodfutioe er sadsylighede for at observere det fatis observerede, som futio af det uedte sæt parametre. Det bedste estimat over de uedte parametres værdier er det talsæt ( p, p 2,..., p s ) som masimaliserer lielihoodfutioe eller log-lielihoodfutioe. Log-lielihoodfutioe er e futio af s variable, me heldigvis e meget sielig futio. Bortset fra et ostatled er de emlig e sum af s led der hver især u afhæger af é variabel. Det j-te led er y j l p j +( j y j ) l( p j ), og vi ved fra tidligere (side 26) at dette udtry atager sit masimum år p j = y j / j. Vi har hermed fudet at masimaliserigsestimatet for (p, p 2,..., p s ) er ( p, p 2,..., p s ) = ( y, y 2 2,..., y s s ). I esemplet er ( p, p 2, p 3, p 4 ) = (0.30, 0.72, 0.87, 0.96). 3.2 Hypoteseprøvig Vi sal udersøge om det er rimeligt at atage at hypotese H 0 p = p 2 = = p s om es sadsylighedsparametre holder. Uder H 0 er der ige forsel på de s grupper, og i så fald a vi slå dem samme til é stor gruppe beståede af s idivider der fordeler sig med y + y y s idivider i lasse»«og reste i lasse»0«. [I statisti bruger ma betegelse for s, og tilsvarede betegelse y for y + y y s (ma sriver altså et put i stedet for det ides som ma summerer over).] Når vi slår gruppere samme, ommer der således y i lasse»«og ( y ) i lasse»0«. Det er meget ærliggede at mee at de fælles værdi p af sadsylighedsparametree sal estimeres ved y /, me lad os beytte lielihoodmetode og se hvad de siger. Vi alder de fælles værdi (uder H 0 ) af p, p 2,..., p s for p. I de opridelige log-lielihoodfutio (3.) erstatter vi alle p j -ere med p og får derved log-lielihoodfutioe uder H 0 svarede til observatioere y, y 2,..., y s : l L(p, p,..., p) = ostat + s (y j l p + ( j y j ) l( p)) = ostat + y l p + ( y ) l( p). Masimaliserigsestimatet p for p er de værdi der masimaliserer dee log-lielihoodfutio, dvs. de værdi p der masimaliserer y l p + ( y ) l( p). Vi ved Tabel 3.2 Rismelsbillers overlevelse ved forsellige giftdoser: forvetede atal hvis gifte virer på samme måde for alle fire ocetratioer. ocetratio atal døde atal ie døde i alt fra side 26 at løsige er p = y /. Lielihoodmetode giver altså det svar som vi formodede måtte være det rigtige. I vort esempel bliver p = 88/37 = Lielihoodfutioe beyttes til at vurdere et sæt parameterværdiers eve til at besrive det fatis observerede. Det bedste sæt parameterværdier overhovedet er ( p, p 2,..., p s ). Uder H 0 er det bedste sæt værdier ( p, p,..., p). Vi sammeliger disse to parametersæts besrivelseseve ved hjælp af votietteststørrelse Q = L( p, p,... p) L( p, p 2,..., p s ), der bliver et tal mellem 0 og. E Q-værdi tæt på betyder at sættet ( p, p,..., p) besriver det observerede æste lige så godt som (p, p 2,..., p s ) gør, dvs. vi a godtage hypotese H 0, hvorimod e Q-værdi lagt fra betyder at H 0 giver e væsetligt dårligere besrivelse af det observerede ed grudmodelle gør. Som oftest udreger ma ie Q, me 2 l Q; de bliver 2 l Q = 2(l L( p, p,..., p) l L( p, p 2,..., p s )) s = 2 (y j l p j p + ( j y j ) l p j p ). Tallet 2 l Q vil altid være større ed eller lig ul. Med betegelse ŷ j = j p a 2 l Q omsrives til s 2 l Q = 2 (y j l y j + ( j y j ) l j y j ). (3.2) ŷ j j ŷ j Ma a tæe på ŷ j og j ŷ j som de»forvetede«atal idivider fra gruppe j der lassificeres som heholdsvis»«og»0«. De»forvetede«atal i bille-esemplet er vist i tabel 3.2, og ma får 2 l Q obs = 2(43 l l + 50 l + 9 l l l l l ) = 3..
22 42 Sammeligig af biomialfordeliger 3.3 Det esate test i e 2 2-tabel 43 E Q-værdi tæt på svarer til e 2 l Q-værdi tæt på 0. Det vil sige at hvis 2 l Q obs er tæt på 0, så a vi godtage H 0, hvorimod e stor værdi af 2 l Q obs tyder på e sigifiat afvigelse mellem det observerede og det som H 0 foresriver, dvs. vi må foraste H 0. For at afgøre om tallet 2 l Q obs er stort eller lille, er vi ødt til at sammelige det med alle de adre værdier ma også ue have fået ifølge de atuelle model år H 0 er rigtig. Derfor sal vi bestemme testsadsylighede ε som er sadsylighede for at få oget værre ed det fatis observerede, dvs. for at få e større 2 l Q-værdi ed de observerede, forudsat at H 0 er rigtig: ε = P 0 ( 2 l Q 2 l Q obs ). Mere udførligt er ε defieret på følgede måde: De statistise model siger at observatioere y, y 2,..., y s er observerede værdier af stoastise variable Y, Y 2,..., Y s der er biomialfordelte med atalsparametre, 2,..., s og (da H 0 atages rigtig) med samme sadsylighedsparameter p. Testsadsylighede ε er sadsylighede for at disse stoastise variable atager værdier som giver aledig til e 2 l Q-værdi der er større ed de fatis observerede værdi 2 l Q obs. Bestemmelse af ε a syes at være e besværlig opgave, og de ompliceres edda yderligere af at selv år H 0 er rigtig, er der e uedt parameter ide i billedet, emlig de fælles sadsylighedsparameter p; hvis det sal være helt rigtigt, er vi således ie i stad til at udrege testsadsylighede! Heldigvis ommer de matematise statisti os til udsætig med et geerelt resultat der fortæller at år H 0 er rigtig, så er 2 l Q med god tilærmelse χ 2 -fordelt med et atal frihedsgrader som er s. Det betyder at testsadsylighede ε med god tilærmelse a bestemmes som sadsylighede for at få e værdi større ed 2 l Q obs i e χ 2 -fordelig med s frihedsgrader, ort ε = P(χ 2 s 2 l Q obs ), og de sadsylighed er let at bestemme, f.es. ved hjælp af tabeller over fratiler i χ 2 -fordelige. Atallet af frihedsgrader for 2 l Q fides som ædrige i atallet af frie parametre: i grudmodelle er der s frie parametre p, p 2,..., p s, uder H 0 er der é fri parameter p, derfor bliver der s frihedsgrader til teststørrelse. I esemplet er 2 l Q obs = 3. og der er fire grupper, dvs. teststørrelse har tre frihedsgrader. I e tabel over fratiler i χ 2 -fordelige (se f.es. side 228) ses at værdie 3. er lagt større ed 99.5%-fratile i χ 2 -fordelige med tre frihedsgrader, og det vil sige at testsadsylighede ε er lagt midre ed 0.5%. Værdie 3. er altså så stor at der, uder forudsætig af at hypotese er rigtig, u er e helt mirosopis chace for at få e edu større værdi, dvs. 3. er e særdeles stor værdi. Vi må derfor foraste hypotese H 0, eller sagt på e ade måde: Der er e sigifiat forsel på de fire giftocetratioer. Tabel 3.3 Fordelig efter ø i to projetgrupper. gruppe gruppe 2 i alt drege piger i alt Tabel 3.4 Forvetet øsfordelig uder H 0 i de to projetgrupper. gruppe gruppe 2 i alt drege piger i alt Som ævt er χ 2 -fordelige u e approsimatio til de rigtige fordelig af 2 l Q. For at approsimatioe sal ue bruges, sal alle de»forvetede«atal ŷ j og j ŷ j, j =, 2,..., s være midst fem. Hvis dee betigelse ie er opfyldt, a ma evetuelt udelade de problematise grupper eller slå ogle af gruppere samme på forhåd. Hvis der u er to grupper i det hele taget, a ma avede Fishers esate test. 3.3 Det esate test i e 2 2-tabel I visse tilfælde er det ie forsvarligt at avede χ 2 -approsimatioe til fordelige af 2 l Q, emlig år ogle af de»forvetede«atal er små. Vi sal u omtale hvorda ma a sammelige to biomialfordeliger selv om ogle af de forvetede atal er uder fem. Tag som esempel e situatio hvor ma på grudlag af tallee i tabel 3.3 på æste side øser at vurdere om der er sigifiat forsel på øsfordelige i to projetgrupper. Ved at efterlige ræsoemetere i begydelse af apitlet a ma å frem til følgede (forslag til de) statistise model for disse observatioer: De observerede atal drege y = 2 og y 2 = 6 opfattes som observatioer af stoastise variable Y og Y 2 der er stoastis uafhægige og biomialfordelte med atalsparametre = 6 og 2 = 9 og uedte sadsylighedsparametre p og p 2. De til modelle svarede modelfutio er f (y, y 2 ; p, p 2 ) = ( 6 y ) p y ( p ) 6 y ( 9 y 2 ) p y2 2 ( p 2) 9 y2. Masimaliserigsestimatere for p og p 2 er p = 2 6 = 3 og p 2 = 6 9 = 2 3. Lad os sætte at opgave er at udersøge om der er e sigifiat forsel på øsfordelige i de to grupper, eller modsat at de observerede forselle ie er adet ed hvad ma a omme ud for på grud af tilfældigheder. Vi vil derfor teste de statistise hypotese H 0 p = p 2.
23 44 Sammeligig af biomialfordeliger 3.3 Det esate test i e 2 2-tabel 45 Problemet Da vi har at gøre med et specialtilfælde af det geerelle problem»sammeligig af biomialfordeliger«der blev behadlet tidligere i apitlet, a vi u blot gå frem efter opsrifte. Masimaliserigsestimatet for de fælles værdi uder H 0 af p og p 2 er p = 8 5 = 0.53, og de»forvetede«atal ŷ = p, ŷ = ( p), ŷ 2 = 2 p og 2 ŷ = 2 ( p) bliver som vist i tabel 3.4. Teststørrelse 2 l Q er dermed obs. atal 2 l Q = 2 (obs. atal l forv. atal ) = 2(2 l l l l ) =.63. Store værdier af 2 l Q tyder på at hypotese H 0 ie holder; for at afgøre om.63 er e»stor«værdi, sal vi bestemme testsadsylighede ε, altså sadsylighede for at få e 2 l Q-værdi som er større ed.63 uder forudsætig af at H 0 er rigtig, dvs. ε = P 0 ( 2 l Q.63). Der gælder at hvis de»forvetede atal«alle er midst fem, så er ε med god tilærmelse lig sadsylighede for at få e værdi på midst.63 i e χ 2 -fordelig med frihedsgrad. Me i det foreliggede tilfælde er ige af de»forvetede«atal over fem, så vi a ie gå ud fra at χ 2 -approsimatioe er avedelig. Et betiget test Derfor må ma prøve at udrege ε fra first priciples. Hvis ma udtryer 2 l Q ved y og y 2, får ma (jf. (3.2) på side 4) 2 l Q(y, y 2 ) = 2(y l y y + ( y ) l y ( y ) + y 2 l y 2 y + ( 2 y 2 ) l 2 y ( y ) ), hvor y = y + y 2 og = + 2. Her a talparret (y, y 2 ) atage 70 forsellige sæt værdier svarede til at y = 0,, 2,..., 6 og y 2 = 0,, 2,..., 9. Ma a så udrege 2 l Q for hvert af de 70 mulige udfald og derved bestemme de udfald (y, y 2 ) for hvile 2 l Q(y, y 2 ) er midst.63. Ma fider at det er de par (y, y 2 ) som er mareret med i figur 3.. Testsadsylighede ε a derefter fides som summe af sadsylighedere f (y, y 2 ; p, p) for alle udfald (y, y 2 ) for hvile 2 l Q(y, y 2 ).63. Dee fremgagsmåde idebærer som ma hurtigt vil erfare, e hel del regearbejde, me der er også e ompliatio af mere fudametal arater. I apitel 2 testede vi hypoteser gåede ud på at de eeste uedte parameter havde e bestemt på forhåd givet værdi. Når e såda hypotese var rigtig, var der ie flere uedte parametre tilbage i modelle de slags hypoteser aldes simple hypoteser. De y y Figur 3. Talpar (y, y 2 ) for hvile 2 l Q(y, y 2 ).63 er mareret med. hypoteser vi u har med at gøre, er af e ade slags: Der er tale om modeller med mere ed é uedt parameter, og hypotesere går ud på at ogle af disse parametre er es; me selv år hypotese er rigtig, er der stadigvæ uedte parametre i modelle. Dee slags hypoteser aldes sammesatte hypoteser. I det atuelle hypoteseprøvigsproblem, der altså hadler om e sammesat hypotese, åede vi ovefor frem til at testsadsylighede ε sulle bestemmes som e sum af ogle sadsyligheder f (y, y 2 ; p, p), hvor der summeres over e vis mægde (y, y 2 )-er, og hvor der idgår de fælles, me uedte parameter p. For at berege ε sal vi altså ede (de sade værdi af) de uedte parameter p! Nu ville læsere måse o ude at blege idsætte værdie af p (som er 8 5 ) og udrege ε på det grudlag (hvorved ma får ε til 27%), me det ædrer ie ved det pricipielle problem. Der fides imidlertid e fremgagsmåde ved hjælp af hvile ma helt a elimiere det famøse p. Parametere p er sadsylighede for at e tilfældigt valgt perso er e dreg, år de to grupper er es. De iformatio som observatiosmaterialet ideholder om p, er at der ud af de i alt 5 persoer viste sig at være etop 8 drege. Ma a u sige at det er uiteressat at der etop er 8 (og ie 7 eller 0) drege; det iteressate er at de 8 er fordelt med 2 i gruppe og 6 i gruppe 2. Derfor sal ma såda siger et statistis pricip betragte de betigede fordelig givet at der etop var 8 drege. I dee betigede fordelig bliver de opridelige sammesatte hypotese H 0 til e simpel hypotese. For at se hvorda det går til, må vi oversætte det etop sagte til matemati. Modelfutioe i grudmodelle er som allerede ævt f (y, y 2 ; p, p 2 ) = ( 6 y ) p y ( p ) 6 y ( 9 y 2 ) p y2 2 ( p 2) 9 y2.
24 46 Sammeligig af biomialfordeliger 3.3 Det esate test i e 2 2-tabel 47 Når H 0 er rigtig, har p og p 2 de fælles værdi p, og modelfutioe bliver så f (y, y 2 ; p, p) = ( 6 y ) p y ( p) 6 y ( 9 y 2 ) p y2 ( p) 9 y2 = ( 6 y )( 9 y 2 ) p y+y2 ( p) 5 (y+y2). Heraf fremgår at lielihoodfutioe uder H 0 er L(p) = ostat p y+y2 ( p) 5 (y+y2), dvs. ma a bestemme lielihoodfutioe (på ær e ostat fator), blot ma eder det totale atal drege y + y 2, ma behøver ie ede y og y 2 hver for sig. Det sedige tric er u at se på de betigede fordelig af Y og Y 2 givet at Y + Y 2 = 8, altså givet at der er etop 8 drege i alt; i dee betigede fordelig bliver hypotese H 0 til e simpel hypotese. For at idse det må vi fide de betigede fordelig af Y og Y 2 givet at Y + Y 2 = 8: Ifølge de sædvalige formler for betigede sadsyligheder er de betigede sadsylighed for at Y = y og Y 2 = y 2 givet at Y + Y 2 = 8 P(Y = y ) P(Y 2 = 8 y ) hvis y + y 2 = 8 P(Y = y, Y 2 = y 2 Y + Y 2 = 8) = P(Y + Y 2 = 8) 0 hvis y + y 2 8, og udtryet svarede til tilfældet y + y 2 = 8 a videre omsrives således (hvor y erstattes af y): hvor P(Y = y) P(Y 2 = 8 y) P(Y + Y 2 = 8) θ = = = = f (y, 8 y; p, p 2 ) 8 f (z, 8 z; p, p 2 ) z=0 ( 6 y ) py ( p ) 6 y ( 9 8 y ) p8 y 2 ( p 2 ) 9 (8 y) 8 z=0 ( 6 z ) pz ( p ) 6 z ( 9 8 z ) p8 z 2 ( p 2 ) 9 (8 z) ( 6 y )( 9 8 y ) θ y 8 z=0 ( 6 z )( 9 8 z ) θz p p / p 2 p 2 = p ( p 2 ) p 2 ( p )., Det ses at hvor grudmodelle har to uedte parametre p og p 2, har de betigede model u é parameter, emlig θ. Modelfutioe i de betigede model er f (y; θ) = ( 6 y )( 9 8 y ) θ y 8 z=0 ( 6 z )( 9 8 z ) θz Af defiitioe på θ følger at grudmodelles hypotese H 0 p = p 2 er esbetydede med hypotese H 0 θ = i de betigede model. De sammesatte hypotese i grudmodelle er altså blevet til e simpel hypotese i de betigede model. Vi a u teste hypotese H 0 ved brug af de sædvalige pricipper, og da H 0 er e simpel hypotese, er der ie oge pricipielle problemer. Der foreligger observatioe y = 2; det tilsvarede estimat θ over θ er det θ der masimaliserer de betigede lielihoodfutio L(θ) = f (2; θ), dvs. det er løsig til θ = θ(2) = Kvotietteststørrelse for H 0 er Q = Q(2) = L() L( θ(2)) =. d dθ L() L(0.276) = L(θ) = 0. Ma fider at Hypotese forastes for små værdier af Q; for at vurdere om om er sigifiat lille, sal vi udrege testsadsylighede ε, altså sadsylighede (uder H 0 ) for at få et y således at Q(y) er midre ed eller lig med 0.468: ε = y Q(y) f (y; ). Bestemmelse af ε er uompliceret, me oget besværlig. Af tabel 3.2 ses at de y-er som giver e Q-værdi midre ed eller lig Q(2) = 0.468, dvs. de y-er der er midst lige så uforeelige med H 0 som y = 2 er, er y-ere 0,, 2, 5, 6, således at testsadsylighede er ε = f (0; ) + f (; ) + f (2; ) + f (5; ) + f (6; ) = Der er altså ca. 3% chace for at få et y der passer midst lige så dårligt som y = 2, år H 0 er rigtig. Ma a derfor oludere at der ie er oge sigifiat uoveresstemmelse mellem hypotese H 0 og det observerede y = 2. Sagt på e ade måde: vi a ie foraste H 0. Vi er gået let he over hvorda ma egetlig sal fide talværdie af θ og berege værdier af futioere L og f. Grude hertil er at de just besreve metode, som er de pricipielt rigtigste, fatis sædvaligvis ie bruges. De er emlig besværlig ret regemæssigt, såfremt ma sal rege med hådraft. Det er gase vist ige sag at srive et lille computerprogram der a udføre beregigere, me ma bruger alligevel ofte e regemæssigt simplere metode som vi u vil besrive.
25 48 Sammeligig af biomialfordeliger 3.4 Reg og teg 49 y Q(y) f (y; ) Fishers esate test.00 ssh Figur 3.2 Tabel over Q(y) og f (y; ), samt pidediagram over f (y; ). Når ma tester e statistis hypotese, udreger ma værdie af e vis teststørrelse, ofte votietteststørrelse Q eller 2 l Q; teststørrelse er et udtry for hvor godt hypotese er foreelig med de foreliggede data. Deræst bestemmer ma testsadsylighede, altså sadsylighede for at få et sæt observatioer som er midst lige så uforeelige med hypotese som de fatise observatioer er. I de metode der u sal omtales til løsig af det atuelle testproblem, beytter ma ie Q som teststørrelse, me derimod sadsylighedsfutioe f ( ; ) svarede til at hypotese H 0 er rigtig; det har bladt adet de fordel at ma slipper for at sulle bestemme θ. Futioe f ( ; ) er forholdsvis simpel: f (y; ) = ( 6 y )( 9 8 y ) 8 z=0 ( 6 z )( 9 8 z ) = ( 6 y )( 9 8 y ) y ( 5 8 ). (3.3) (I øvrigt er futioe y f (y; ) sadsylighedsfutio for e hypergeometris fordelig, se opgave.7.) Fishers esate test for H 0 forløber u på følgede måde: Vi har observeret y = 2. Vi sal bestemme de y-er for hvile f (y; ) f (2; ). For at gøre det udreger vi tællere i højreside af formel (3.3) for alle de mulige y-er, f.es. ved brug af Pascals treat (side 4); ma får da tabel 3.5. Det ses at de y-er som er mere estreme ed y = 2 (estreme i de forstad at f (y; ) f (2; ), altså f (y; ) 260/6435) er alle y-ere udtage y = 3 og y = 4. Testsadsylighede er derfor ε = ( f (3; ) + f (4; )) = = 3%. Det esate test giver således (i dette esempel) præcis samme resultat som det rigtige betigede test. Tabel 3.5 Hjælpestørrelser til Fishers esate test. y ( 6 y ) ( 9 8 y ) 0 9 = = = = = = = = = 0 Hvad agår det opridelige pratise problem, a vi i første omgag oludere at H 0 må accepteres, dvs. der er ie oge sigifiat forsel på øsfordelige i de to grupper set fra de betigede models sysput. Da ma a sige at det der adsiller de betigede model og de opridelige (ubetigede) model, er oget som er uiteressat for spørgsmålet om es øsfordelig i de to grupper, a vi videre oludere at også H 0 må accepteres, dvs. heller ie fra grudmodelles sysput er der oge sigifiat forsel på øsfordelige i de to grupper. 3.4 Reg og teg Sammeligig af biomialfordeliger 6435 Sammeligig af biomialfordeliger a foretages med R-futioe prop.test. Det geemgåede esempel a behadles såda: y <- c(43, 50, 47, 48) <- c(44, 69, 54, 50) prop.test (y, ) hvilet resulterer i 4-sample test for equality of proportios without cotiuity correctio data: y out of X-squared = 0.783, df = 3, p-value < 2.2e-6 alterative hypothesis: two.sided sample estimates: prop prop 2 prop 3 prop
26 50 Sammeligig af biomialfordeliger 3.5 Opgaver 5 De fire værdier der står som sample estimates, er ( p, p 2, p 3, p 4 ). Teststørrelse X 2 (X-squared) er e approsimatio (jf. opgave 3.5) til 2 l Q, atallet af frihedsgrader er df, og testsadsylighede er p-value. De rigtige 2 l Q (formel (3.2) side 4) med tilhørede testsadsylighed a udreges såda: yhat <- *sum(y)/sum() testst <- 2*sum( y * log(y/yhat) + (-y) * log((-y)/(-yhat)) ) - pchisq(testst, 3) # testsadsylighede Fishers esate test Fishers esate test udføres med futioe fisher.test. I det geemgåede esempel a ma srive fisher.test(matrix(c(2, 4, 6, 3), row=2)) der giver følgede resultat: Fisher s Exact Test for Cout Data data: matrix(c(2, 4, 6, 3), row = 2) p-value = alterative hypothesis: true odds ratio is ot equal to 95 percet cofidece iterval: sample estimates: odds ratio hvilet viser at testsadsylighede bliver Opgaver Geerelt om opgavebesvarelser Mage statistiopgaver består af et datasæt plus e ort besrivelse af det esperimet eller de idsamligsproces der frembragte dem, efterfulgt af e laois besed af type»aalysér data!«desude er der et eller adet (ie altid lige lart præciseret) overordet spørgsmål der sal besvares/belyses på baggrud af e statistis aalyse af det foreliggede datasæt. Selv om ma ie a (eller bør) give e geerel sabelo for udformige af besvarelse af sådae opgaver, a det måse være pratis med e»huseliste«med puter der ofte sal med i løsige. Her er e såda liste:. Besriv i ord e passede statistis model. E passede model er e der dels a tæes at besrive tallee, dels gør det muligt at besvare det overordede spørgsmål. 2. Formulér modelle i matematisprog. 3. Estimér parametree. 4. Formulér det overordede spørgsmål i matematisprog, og omsæt det til e statistis hypotese. 5. Estimér evetuelle parametre uder hypotese. 6. Udreg teststørrelse ( 2 l Q) og fid de tilsvarede testsadsylighed. 7. Vurdér om de statistise hypotese sal forastes eller ej. 8. Fid ud af hvad ma a oludere om det overordede spørgsmål. 9. Formulér olusioe i ord. Opgave 3. (Afstemig i Lejre) Ved EF-foleafstemige de 2. jui 992 om Maastricht-tratate fordelte ja- og ejstemmere sig på følgede måde ved de fem afstemigssteder i Lejre ommue: Gevige Herslev Lejre Osted Glim Atal gyldige ja stemmer Atal gyldige ej stemmer Ka ma på dee baggrud sige at der er forsel på holdige til tratate i de fem dele af ommue? Opgave 3.2 (Kødvalitet) Ved de ødotrol som foretages af dyrlæger på slagterier, udføres for visse dyr e bateriologis udersøgelse (BU) efter regler fastsatte af veteriærdiretoratet. Resultatet af udersøgelse a for hvert dyr oget forelet besrives som»godedt«eller»asseret«. For bl.a. at fide ud af om der var oge sammehæg mellem slagteri og resultatet af BU, udersøgte ma resultatere af udersøgelsere for 672 dyr der var idsedt til et bestemt laboratorium fra forsellige slagterier. E stor del af dyree om fra to bestemte slagterier aldet I og II. Ma fi følgede fordelig efter BU-udfald og slagteri: godedt asseret slagteri I slagteri II øvrige slagterier Bladt de diagoser som a give aledig til at der udføres BU, var halebid de hyppigst foreommede. For de 74 dyr som havde diagose halebid, fi ma følgede fordelig: Aalysér data. godedt asseret slagteri I slagteri II øvrige slagterier
27 52 Sammeligig af biomialfordeliger Opgave 3.3 (Kampflyveres bør) Bladt piloter i luftvåbeet siges det at pilot-bør oftere er piger ed drege. I 96 idsamledes data om yfødte bør hvis fædre gjorde tjeeste som piloter i US Airforce, og ma iddelte bladt adet børee i grupper efter arte af flyvetjeeste som fadere havde haft i de måed hvor baret blev udfaget. Det gav dee tabel: faderes tjeeste var barets ø i jagerfly i trasportfly jordtjeeste pige dreg Udersøg om der er hold i påstade om at pilotfædre får flere piger ed drege. I de samme periode var 48.7% af alle yfødte (i USA) piger. Hvorda harmoerer pilotdataee med dette tal? Opgave 3.4 (Baterier og forstørrede madler) Nogle meeser er bærere af baterie Streptococcus pyogees. For at fide ud af om dette især er tilfældet for meeser med forstørrede madler, udersøgte ma ogle bør i aldere 0-5 år. I udersøgelse var der 497 bør hvis madler havde ormal størrelse, og af disse bør var de 9 bærere af baterie. Desude var der 589 bør med oget forstørrede madler, og heraf var de 29 bærere af baterie. Edelig var der 293 bør med meget forstørrede madler, og heraf var de 24 bærere af baterie. Tyder disse resultater på at det især er bør med forstørrede madler der er bærere af Streptococcus pyogees? Opgave 3.5 (E approsimatiosformel for 2 l Q) Dee opgave sal opfattes som e udvidelse af opgave 2.8. Formålet er at udlede e approsimatio til teststørrelse 2 l Q (formel (3.2) på side 4). Betragt futioe f (y) = y l(y/y 0 ) hvor y 0 er e ostat.. Vis at f (y) = + l(y/y 0 ) og at f (y) = /y. 2. Vis at Taylorudvilige af f omrig y 0 er f (y) f (y 0 ) + (y y 0 ) f (y 0 ) + 2 (y y 0) 2 f (y 0 ) = (y y 0 ) + (y y 0 ) 2. 2 y 0 3. Aved oveævte approsimatiosformel på hvert af leddee y j l y j ŷ j og ( j y j ) l j y j i udtryet for 2 l Q, og vis derved at ma a approsimere 2 l Q j ŷ j med de såaldte Pearsos X 2 defieret som X 2 s (y j ŷ j ) 2 = (opaldt efter de j p( p) egelse videsabsmad Karl Pearso ( )). 4 Normalfordelige Ma har meget ofte brug for e type sadsylighedsfordeliger der a besrive hvorda måliger varierer tilfældigt omrig et bestemt iveau, år det sal være såda at de fatis observerede værdier lige så godt tilfældigvis a være lidt over som lidt uder det teoretis rigtige iveau. For at ue fide frem til sådae fordeliger må vi præcisere lidt øjere hvad det er der søges: Fordeligere sal beyttes til at besrive de tilfældige variatio af måliger af lægder, masser, ocetratioer osv., altsamme størrelser der måles på e otiuert sala. Første put i problempræciserige er derfor: Der søges e type otiuerte fordeliger. Fordeligere sal besrive de tilfældige variatio omrig et vist iveau. Dette iveau sal idgå som e parameter µ, så modelfutioe sal derfor være e futio af både e observatiosvariabel x og e parametervariabel µ: Modelfutioe er f (x; µ). Parametere µ sal besrive hvor på tallije fordelige er beliggede, og e ædrig af parameterværdie sal svare til e forsydig af sadsylighedsfordelige he ad tallije ude at fordeliges form i øvrigt ædres. Mere præcist vil vi atage at fordelige svarede til parameterværdie µ fås ved at forsyde fordelige svarede til parameterværdie 0 styet µ, dvs. f (x; µ) = f (x µ; 0) hvor µ i pricippet a atage alle mulige værdier. Dee betigelse udtryer ma også på de måde at µ sal være e positiosparameter. Disse tre betigelser er ie o til at fastlægge fordelige, så ma er ødt til at stille ogle flere rav. Vi vil stille e statistis betigelse, e betigelse der hadler om hvorda ma sal aalysere observatioer fra de søgte fordelig: Da parametere µ sal besrive det iveau omrig hvilet observatioere fordeler sig, a ma mee at det må være rimeligt at de uedte parameter µ sal estimeres ved geemsittet af observatioere. Da det tillige er et geemgåede pricip at ma altid sal beytte masimaliserigsestimater, vil vi stille følgede rav: Masimaliserigsestimatet for µ sal være geemsittet af observatioere. 53
28 54 Normalfordelige 4. Udledig af ormalfordelige 55 I æste afsit viser vi at disse betigelser fører frem til de såaldte ormalfordelig med middelværdiparameter µ og variasparameter σ 2, det vil sige fordelige med tæthedsfutio f (x; µ, σ 2 ) = exp( (x µ) 2 2πσ 2 2 σ 2 ), x R. 4. Udledig af ormalfordelige I dette afsit vil vi vise at ormalfordeliger er de eeste type otiuerte fordeliger på de reelle ase således at fordeligere er parametriseret med (bladt adet) e positiosparameter, og således at masimaliserigsestimatet for positiosparametere er geemsittet af observatioere. Afsittet er lidt teis, og hvis læsere ie sulle være så iteresseret i de matematise argumeter, a ha/hu roligt sprige he til put 8 på side 56 med det samme.. Modelfutioe hørede til et forsøg med é observatio beteges f (x; µ). Modelfutioe svarede til et forsøg med observatioer x, x 2,..., x er da f (x i ; µ), så lielihoodfutioe er L(µ) = f (x i ; µ). 2. Da der sal være tale om e positiosparameter, må der gælde at f (x; µ) = f (x µ; 0) = f 0 (x µ), hvor f 0 er brugt som e ort betegelse for f ( ; 0). Lielihoodfutioe a derfor srives som L(µ) = f 0 (x i µ), og log-lielihoodfutioe er tilsvarede l L(µ) = l f 0 (x i µ). 3. Vi har stillet som rav at l L sal atage si masimale værdi i putet µ = x. Hvis vi desude går ud fra at f 0 og dermed også l L er e pæ differetiabel futio, så er de afledede (l L) lig 0 i dette masimumsput, altså 4. Af udtryet for l L fås (l L) (µ) = (l L) (x) = 0. (l f 0 ) (x i µ) = g(x i µ), hvor g er e ort betegelse for (l f 0 ). Kravet om at masimaliserigsestimatet sal være lig geemsittet x, betyder derfor at futioe g sal opfylde betigelse g(x i x) = 0. (4.) 5. Fiduse er u at formel (4.) sal gælde for alle valg af x, x 2,..., x, og ved at idsætte ogle tilpas sedigt valgte x-er a ma få at vide hvorda futioe g ødvedigvis må se ud. a) Ved at vælge = 2 og x 2 = x = y (hvorved x = 0) fås af formel (4.) at g( y) + g(y) = 0, dvs. g( y) = g(y) (4.2) for vilårligt y. Specielt er g(0) = 0. b) Ved at vælge = + og lade de første x-er være es og lade geemsittet være 0, mere præcist ved at vælge x = x 2 = = x = y og x + = y, fås at g( y) + g( y) = 0, der ved brug af formel (4.2) a formuleres som g( y) = g(y) (4.3) gældede for vilårligt y og =, 2, 3,.... Ved at bruge formel (4.2) edu e gag a ma u slutte at formel (4.3) gælder for vilårlige reelle tal y og for vilårlige hele tal. c) I formel (4.3) a vi vælge y = j hvor j og er heltal. Derved fås at g(j) = g( j ), dvs. at g( j ) = g(j). Me vi a også vælge y = og = j i formel (4.3), og derved får vi g(j) = j g(). Alt i alt er dermed g( j ) = j g(), hvilet vi formulerer såda: g(y) = y g() = g() y (4.4) for alle ratioale tal y. Medmidre g sal være e gase overordetlig usædvalig futio, er det såda at år formel (4.4) gælder for alle ratioale tal y, så gælder de også for alle reelle tal y. Vi vil gå ud fra at formel (4.4) gælder for alle y, og vi er altså så ået frem til at futioe g er e almidelig lieær futio: g(x) = c x for e passede valgt ostat c. 6. Da g blot var e ort betegelse for futioe (l f 0 ), a vi deræst fide f 0 : Hvis (l f 0 ) (x) = c x, så er l f 0 (x) = 2 c x2 + ostat,
29 56 Normalfordelige 4.2 Egesaber ved ormalfordelige 57 dvs. f 0 (x) = ostat exp( 2 c x2 ). 7. Dee futio f 0 sal være e sadsylighedstæthed, hvilet vil sige at de sal + være ie-egativ og itegrere til, altså f 0(x)dx =. For at dette sidste sal ue lade sig gøre, må ostate c ødvedigvis være positiv; traditioe tro omdøber vi c til /σ 2 hvorved tæthedsfutioe får udseedet f 0 (x) = ostat exp( x 2 2 σ 2 ). De betigelse at f 0 sal itegrere til, fastlægger ostate; ma a vise at de sal være / 2πσ 2. Det betyder at og dermed f 0 (x) = exp( 2πσ 2 2 σ 2 ) f (x; µ) = f 0 (x µ) = x 2 exp( (x µ) 2 2πσ 2 2 σ 2 ). 8. Det opridelige problem bestod i at fide e type fordeliger hvor der idgi e positiosparameter µ. I de fude løsig optræder imidlertid også størrelse σ 2, der er ommet id i billedet som e itegratiosostat. Dee størrelse udæver vi til e parameter, og samtidig omdøbes f (x; µ) til f (x; µ, σ 2 ): f (x; µ, σ 2 ) = exp( (x µ) 2 2πσ 2 2 σ 2 ). Der gælder at for ethvert valg af µ R og σ 2 > 0 er dette e sadsylighedstæthedsfutio, emlig for ormalfordelige med positiosparameter (eller middelværdiparameter) µ og vadratis salaparameter (eller variasparameter) σ 2. Resultatet af oveståede udlediger er således at hvis vi er på jagt efter e type otiuerte sadsylighedsfordeliger hvor der optræder e positiosparameter, og hvis vi forlager at dee positiosparameter sal estimeres ved geemsittet af observatioere, så er ormalfordeliger de eeste type fordeliger der a omme på tale. (Stregt taget har vi ie vist at ormalfordeligere fatis har de øsede egesab, me det ommer i det følgede.) Normalfordeliger aldes også Gauß-fordeliger. Karl Friedrich Gauß ( ) beyttede ormalfordeliger til at besrive bl.a. astroomise måligers tilfældige afvigelser fra de sade værdi. I været Theoria Motus Corporum Coelestium i Sectioibus Coicus Arbietium (dvs. Teori om de himmelse legemers bevægelser i eglesit omrig sole) argumeterede ha for ormalfordelige på e måde der meget liger de der er beyttet i det foregåede Figur 4. Tæthedsfutioer for ormalfordeliger med middelværdi 0 og varias hhv. 0.5 (de spidseste urve),, 2, 4 og 8 (de fladeste urve). 4.2 Egesaber ved ormalfordelige Her gives e oversigt (ude beviser) over forsellige egesaber ved ormalfordelige: a. Normalfordelige med parametre µ og σ 2, ort N (µ, σ 2 )-fordelige, er de sadsylighedsfordelig på de reelle talase R som har tæthedsfutioe f (x; µ, σ 2 ) = x exp( (x µ) 2 2πσ 2 2 σ 2 ). Her a parametere µ være et vilårligt reelt tal og parametere σ 2 et vilårligt positivt tal. b. Parametere µ er e positiosparameter, dvs. hvis X er N (µ, σ 2 )-fordelt og a e ostat, så vil a + X være N (a + µ, σ 2 )-fordelt. Desude er µ middelværdie i N (µ, σ 2 )-fordelige. Edvidere er µ mediae i N (µ, σ 2 )-fordelige (dvs. de ee halvdel af sadsylighedsmasse ligger til vestre for µ og de ade halvdel til højre for µ). c. Parametere σ 2 er e vadratis salaparameter, hvilet vil sige at hvis X er N (0, σ 2 )- fordelt og b e ostat, så vil bx være N (0, b 2 σ 2 )-fordelt. Desude er σ 2 variase i N (µ, σ 2 )-fordelige, og dermed er σ stadardafvigelse i N (µ, σ 2 )-fordelige. Udertide aldes /σ 2 for præcisioe i fordelige, fordi /σ 2 er et udtry for hvor sævert fordelige er ocetreret om si middelværdi. d. Hvis X er N (µ, σ 2 )-fordelt, så vil a + bx være N (a + bµ, b 2 σ 2 )-fordelt; her beteger a og b ostater.
30 58 Normalfordelige e. N (0, )-fordelige aldes udertide stadardormalfordelige. Des tæthedsfutio beteges ofte φ: φ(x) = 2π exp( 2 x2 ), x R. Des umulerede fordeligsfutio beteges tilsvarede Φ, dvs. Φ(x) er sadsylighede for at e N (0, )-variabel er midre ed eller lig x: x Φ(x) = φ(u) du = 2π x f. E N (µ, σ 2 )-variabel har tæthedsfutio og umuleret fordeligsfutio x σ φ( x µ ) σ x Φ( x µ ). σ exp( 2 u2 ) du. g. Hvis α er et tal mellem 0 og så har ligige Φ(u) = α etop é løsig, emlig α-fratile u α i stadardormalfordelige. Ved at lægge fem til fratilere fås de såaldte probits (dvs. probability uits): probit(α) = u α + 5. I statistise tabelværer fides tabeller over Φ(u) og over fratilere u α eller u α Reg og teg R-futioe dorm udreger værdier af tæthedsfutioe for e ormalfordelig med give middelværdi (mea) og stadardafvigelse (sd). Ved hjælp heraf a tæthedsfutioe for ormalfordelige med parametre µ = 0 og varias σ 2 = 3, dvs. futioe x 3 φ( x 0 3 ), teges såda: x <- seq(-6, 6, by=0.) # talfølge fra 6 til 6 med step på 0. plot(x, dorm(x, mea=0, sd=sqrt(3)), type="l", las=, ylab="") R-futioe porm udreger værdier af de umulerede fordeligsfutio for e ormalfordelig med give middelværdi (mea) og stadardafvigelse (sd). Ved hjælp heraf a de umulerede fordeligsfutio for ormalfordelige med middelværdi 0 og varias 3 teges såda (med det samme x som ovefor): plot(x, porm(x, mea=0, sd=sqrt(3)), type="l", las=, ylab="") 4.4 Opgaver Opgaver Opgave 4. Disutér om det vil være rimeligt at beytte ormalfordeligsmodeller (med uafhægige observatioer) i de situatioer der ort atydes her:. Bredde af raiet på 20 toårige grøladse seharer faget ved Sødre Strømfjord e bestemt sommer. 2. Vidstyre l. 2 på e bestemt loalitet på 50 på hiade følgede dage. 3. Vægte af 00 tilfældigt udvalgte sild ladet i Gilleleje e bestemt dag. 4. Kocetratioe af NO x l ved Nørreport Statio hver dag i ovember måed. 5. Høstudbyttet på hver af 0 forsøgsparceller (à 500 m 2 ) med e y sort viterbyg. 6. Vægte af levere i 27 fem uger gamle forsøgsmus. 7. Atal ye AIDS-tilfælde i Damar i hver af 2 på hiade følgede måeder. 8. Atal ye leuæmi-tilfælde i Damar i hver af 2 på hiade følgede måeder. 9. Levetide af 50 eletrise 40W pærer af samme fabriat. 0. Det årlige atal trafiulyer i Købehav og Frederisberg ommuer hvor cylister er idbladet, for hvert af åree Opgave 4.2 Løs ved hjælp af passede computerprogrammer og/eller tabeller følgede delopgaver:. Fid 25%-fratile i stadardormalfordelige. 2. Fid 75%-fratile i stadardormalfordelige. 3. Fid et iterval af forme [ x, x] som ideholder 50% af sadsylighedsmasse i stadardormalfordelige. 4. Fid et iterval af forme [ x, x] som ideholder 95% af sadsylighedsmasse i stadardormalfordelige. 5. Hvor stor e del af sadsylighedsmasse i stadardormalfordelige er ideholdt i itervallet [, ]? Opgave 4.3 Løs ved hjælp af passede tabeller følgede delopgaver:. Udtry 25%-fratile i ormalfordelige N (µ, σ 2 ) ved µ og σ Udtry 75%-fratile i ormalfordelige N (µ, σ 2 ) ved µ og σ Agiv et iterval af forme [µ x, µ + x] som ideholder 50% af sadsylighedsmasse i ormalfordelige N (µ, σ 2 ). 4. Agiv et iterval af forme [µ x, µ + x] som ideholder 95% af sadsylighedsmasse i ormalfordelige N (µ, σ 2 ).
31 60 Normalfordelige 5. Hvor stor e del af sadsylighedsmasse i ormalfordelige N (µ, σ 2 ) er ideholdt i itervallet [µ σ, µ + σ]? Tip: Udyt evetuelt opgave 4.2 Opgave 4.4 Geerelt er e α-fratil i e fordelig et tal x α med de egesab at brødele α af fordelige ligger til vestre for x α. Fid α-fratile x α i N (µ, σ 2 )-fordelige udtryt ved µ, σ 2 og ved α-fratile u α i de ormerede ormalfordelig. Tip: Værdie af de umulerede fordeligsfutio (for N (µ, σ 2 )) udreget i x α sal være lig α. De umulerede fordeligsfutio a udtryes ved Φ. 5 Estiprøveproblemet i ormalfordelige Normalfordelige fremom i apitel 4 som resultatet af jagte på e fordelig hvor positiosparametere estimeres ved geemsittet af observatioere. Vi magler imidlertid at gøre rede for at ormalfordelige fatis har de øsede egesab, me det vil se i ideværede apitel som led i behadlige af»estiprøveproblemet i ormalfordelige«. Estiprøveproblemet i ormalfordelige hadler om e eelt stiprøve, altså et atal uafhægige observatioer y, y 2,..., y fra e bestemt N (µ, σ 2 )-fordelig. Parametree µ og σ 2 er uedte, og problemet er at bestemme estimater over dem og måse teste hypoteser om dem. E ade side af sage er modelotrolproblemet, dvs. spørgsmålet om hvorda ma vurderer om observatioere u også med rimelighed a besrives som værede ormalfordelte. Esempel 5. (Lysets hastighed) I åree foretog de ameriase fysier Albert Abraham Michelso og de ameriase matematier og astroom Simo Newcomb e ræe efter de tids forhold temmelig øjagtige bestemmelser af lysets hastighed i luft [5]. Deres metoder var baseret på Foucaults idé med at sede e lysstråle fra et hurtigtroterede spejl he på et fjert fast spejl som returerer lysstråle til det roterede, hvor ma måler des vielforsydig i forhold til de opridelige lysstråle. Hvis ma eder rotatioshastighede samt afstade mellem spejlee, a ma derved bestemme lyshastighede. I tabel 5. på side 63 er vist resultatere af de 66 måliger som Newcomb foretog i periode 24. juli til 5. september 882 i Washigto, D.C. I Newcombs opstillig var der 372 m mellem det roterede spejl der var placeret i Fort Myer på vestbredde af Potomac-flode, og det faste spejl der var abragt på George Washigto-moumetets fudamet. De størrelse som Newcomb rapporterer, er lysets passagetid, altså de tid som det er om at tilbagelægge de pågældede afstad. Af de 66 værdier i tabel 5. siller to sig ud, emlig 44 og 2, der syes at være»outliers«, altså tal der tilsyeladede ligger for lagt væ fra flertallet af observatioere. Det er altid et vaseligt spørgsmål at afgøre om det er forsvarligt at se bort fra outliere. I aalyse af tallee i tabel 5. vil vi vælge at se bort fra de to ævte observatioer således at vi u har at gøre med 64 observatioer. I de geerelle situatio foreligger der størrelser y, y 2,..., y der atages at være observerede værdier af stoastise variable Y, Y 2,..., Y som er uafhægige idetis N (µ, σ 2 )- 6
32 62 Estiprøveproblemet i ormalfordelige 5. Estimatio af µ og σ 2 63 fordelte; her er µ og σ 2 uedte parametre. Modelfutioe er f (y, y 2,..., y ; µ, σ 2 ) = exp( (y j µ) 2 2πσ 2 2 σ 2 ) = ( ) exp( 2πσ 2 2σ 2 (y j µ) 2 ). Lielihoodfutioe svarede til observatioere y, y 2,..., y er derfor (5.) Tabel 5. Newcombs bestemmelser af lysets passagetid af e stræig på 7442 m (fra [2]). Tabelværdiere er passagetide i 0 6 se L(µ, σ 2 ) = ostat (σ 2 ) /2 exp( 2σ 2 5. Estimatio af µ og σ 2 (y j µ) 2 ). (5.2) Vi vil bestemme masimaliserigsestimatere for µ og σ 2. Af udtryet for lielihoodfutioe ses at uaset hvile værdi σ 2 måtte have, så er de bedste µ-værdi, altså de µ-værdi som masimaliserer µ L(µ, σ 2 ), de værdi som miimaliserer vadratsumme (y j µ) 2. Ved at beytte formle for vadratet på e toleddet størrelse a vadratsumme omsrives på følgede måde hvor y beteger geemsittet af y-ere: altså (y j µ) 2 = = = = = ((y j y) + (y µ)) 2 ((y j y) 2 + 2(y j y)(y µ) + (y µ) 2 ) (y j y) 2 + 2(y j y)(y µ) + (y µ) 2 (y j y) 2 + 2(y µ) (y j y) + (y µ) 2 (y j y) 2 + (y µ) 2, (y j µ) 2 = (y j y) 2 + (y µ) 2. (5.3) Heraf ses at vadratsumme er midst etop år µ er lig med y. Derfor er masimaliserigsestimatet for µ fatis geemsittet af observatioere, µ = y, således som det jo også var tae at det sulle være. Herefter a ma bestemme masimaliserigsestimatet σ 2 for σ 2 som masimumsputet for futioe σ 2 L(y, σ 2 ), og ma fider at σ 2 = (y j y) 2. Imidlertid beytter ma som regel ie dette estimat over σ 2, me derimod s 2 = (y j y) 2, (5.4) hvor divisore ( ) i dee forbidelse aldes for atallet af frihedsgrader for variasestimatet s 2. Esempel 5.2 (Lysets hastighed, fortsat) Hvis vi går ud fra at de 64 positive værdier i tabel 5. a betragtes som observatioer fra e og samme ormalfordelig, så sal dee ormalfordeligs middelværdi estimeres til y = og des varias til s 2 = 25.8 med 63 frihedsgrader. Det betyder at passagetides middelværdi estimeres til ( ) 0 6 se = se og passagetides varias estimeres til 25.8 ( se) 2 = (0 6 se) 2 med 63 frihedsgrader, dvs. stadardafvigelse estimeres til se = se. Beregigstips og -trics Når ma sal udrege e oret s 2 -værdi, a ma aturligvis bare idsætte talværdiere i formel (5.4), det vil sige først udrege geemsittet y, så træe det fra alle y j -ere og vadrere og summere, og til sidst dividere med. Hvis ma reger med hådraft/lommereger, er det imidlertid ofte e fordel at udytte at summe af de vadratise afvigelser a omsrives på følgede måde: (y j y) 2 = (y 2 j 2y i y + y 2 ) = y 2 j y 2 = y 2 j ( 2 y j ). (5.5)
33 64 Estiprøveproblemet i ormalfordelige 5. Estimatio af µ og σ 2 65 Summe af de vadratise afvigelser a altså udreges ved at ma først fider summe og summe af vadratere af observatioere og så idsætter dem i oveståede forholdsvis simple formel. Mage lommeregere har e»statistiap«(σ+) der gør det let at udrege y og s 2. Lommeregere beytter tre huommelsesregistre hvor de gemmer heholdsvis, y og y 2. Når ma idtaster et tal og tryer på Σ+-taste, opdateres de tre registre; til sidst tryer ma på ogle passede taster, og lommeregere udreger y som y/ og s 2 ved hjælp af formel (5.5). Bemær dog at metode er temmelig følsom over for afrudigsfejl fordi de eder med at ma sal træe to ofte meget store positive tal fra hiade. Vi illustrerer metode med et esempel der samtidig omtaler edu et par smarte trics. Betragt følgede (ostruerede!) talmateriale: y = y 5 = y 2 = y 6 = y 3 = y 7 = y 4 = Når vi her sal udrege geemsittet y af y j -ere, er det smart at idføre et såaldt beregigsulput a, f.es. a = , og så udrege y som a + y a. Med det omtalte valg af a bliver y a = ( )/7 = 23 7 = , og dermed y = Summe af de vadratise afvigelser ædres ie år ma træer det samme tal a fra alle y j -ere (fordi det etop drejer sig om afvigelser). Ved beregige a vi derfor lade som om observatioere er tallee y j a, altså, 3, 2,, 8, 3, 5; summe af disse tal fadt vi ovefor til 23, og summe af deres vadrater er = 3 så summe af de vadratise afvigelser (af y j -ere eller af y j a-ere) er = ; edelig er så s 2 = = Me hvad u hvis observatioere havde været f.es. 0 6 gage midre: y = y 5 = y 2 = y 6 = y 3 = y 7 = y 4 = Så ville geemsittet ligeledes være blevet 0 6 gage midre, og s 2 ville være blevet = 0 2 gage midre, altså y = og s 2 = Hvorfor beyttes s 2? Det a der argumeteres for på forsellige måder. Det lettest hådterlige og forståelige argumet er at s 2 (i modsætig til σ 2 ) er e cetral estimator over σ 2, hvilet vil sige at middelværdie af de stoastise variabel s 2 er lig σ 2, altså E s 2 = σ 2, således at estimatore»i middel«rammer de rigtige værdi. Bevis for at s 2 er cetral: Atag at Y, Y 2,..., Y er uafhægige N (µ, σ 2 )-variable. Der gælder at (Y j Y) 2 = ((Y j µ) 2 + 2(Y j µ)(µ Y) + (µ Y) 2 ) = (Y j µ) 2 (Y µ) 2. Ved at tage middelværdi fås (idet vi udervejs beytter at E(Y) = µ og Var(Y) = σ 2 /): E (Y j Y) 2 = dvs. E s 2 = E( E(Y j µ) 2 E(Y µ) 2 = Var(Y ) Var(Y) = ( )σ 2, (Y j Y) 2 ) = σ 2. Mod dette argumet a ma idvede at det er baseret på et yt pricip (pricippet om cetrale estimatorer) der tilsyeladede blot er hetet id på scee til dee lejlighed. Hvis lielihoodmetode virelig sal være oget der er værd at besæftige sig med, så burde ma ue basere si argumetatio udeluede på de. Det a ma også til e vis grad, og det sal u atydes hvorda. De to parametre µ og σ 2 i ormalfordelige opfattes sædvaligvis ie som værede ligestillede. Ma plejer at tæe på middelværdiparametere µ som de primære, da de jo besriver de systematise variatio, emlig det iveau hvorom observatioere fordeler sig, hvorimod variasparametere σ 2 der»u«besriver de tilfældige variatio, ommer i ade ræe. Som e oseves heraf a ma mee at ma ie sal estimere de to parametre samtidigt, me at ma først sal estimere µ og deræst σ 2. Ma sal derfor til estimatioe af σ 2 u beytte det der er tilbage af (iformatioe i) talmaterialet efter at ma har estimeret µ. Hvis der esempelvis foreligger de fem observatioer 3.2, 5.7, 2., 7.4, 3. som tæes at stamme fra e N (µ, σ 2 )-fordelig, så estimeres først de»væsetlige«parameter µ ved geemsittet ( )/5 = 2.5/5 = 4.3. Deræst sal ma estimere σ 2 der sal besrive de tilfældige variatio omrig iveauet 4.3. Da det u a siges at være givet at de fem værdier sal have geemsit 4.3, dvs. at de fem afvigelser fra geemsittet sal summere til 0, så er der på si vis u fire forsellige afvigelser. Når ma sal estimere variase (der jo er de forvetede vadratise afvigelse af e observatio fra middelværdie), bliver det derfor som summe af de vadratise afvigelser divideret med fire: (( ) 2 + ( ) 2 + (2. 4.3) 2 + ( ) 2 + (3. 4.3) 2 )/4 = ((.) ( 2.2) (.2) 2 )/4 = 9.08/4 = Ma siger at der er fire frihedsgrader, fordi år det er fiseret at de fem observatioer sal have et bestemt geemsit (f.es. 4.3), så a ma frit vælge etop fire af de fem afvigelser fra geemsittet. Oveståede argumet for at dividere summe af de vadratise afvigelser med ( ) i stedet for med a jo roligt siges at være oget løst og upræcist, me det a fatis godt præciseres. Det forhold at variasparametere σ 2 tæes at spille e uderordet rolle i forhold
34 66 Estiprøveproblemet i ormalfordelige 5.2 Test af hypotese om middelværdie 67 til middelværdiparametere µ, og at dette sal afspejles i de måde parametree sal estimeres på, a formaliseres på følgede måde: Ma sal først estimere µ på sædvalig måde, me deræst sal ma estimere σ 2 i de betigede model, hvor ma betiger med µ, altså med y. Estimatet over σ 2 sal være maximum lielihood estimatet, me ma sal vel at mære beytte lielihoodfutioe svarede til de betigede fordelig af Y, Y 2,..., Y givet at Y er lig y. Hvis det sal gå bare ogelude matematis orret til, er det ie oget simpelt problem at bestemme dee betigede fordelig det syldes at der er tale om otiuerte fordeliger. Me hvis ma i al aivitet reger med at der gælder ogelude det samme som for disrete fordeliger, blot med tæthedsfutioer i stedet for sadsylighedsfutioer, så sulle de betigede tæthedsfutio være tæthedsfutioe for Y, Y 2,..., Y tæthedsfutioe for Y Da Y, Y 2,..., Y er uafhægige N (µ, σ 2 )-variable, vil geemsittet Y være N (µ, σ 2 /)-fordelt. Derfor bliver de betigede tæthedsfutio ( ) exp( 2πσ 2 2σ 2 (y j µ) 2 ) 2πσ 2 / exp( (y µ) 2 2 σ 2 / ) = ostat (σ 2 ) ( )/2 exp( 2σ 2. (y j y) 2 ). Opfattet som futio af σ 2 er dette de (betigede) lielihoodfutio der sal beyttes ved estimatio af σ 2. Dee futio atager sit masimum etop år σ 2 = s 2, så i de betigede model er størrelse s 2 = (y j y) 2 altså maximum lielihood estimatet over σ Test af hypotese om middelværdie Ma er udertide iteresseret i at udersøge om de foreliggede data er foreelige med e atagelse om at de teoretise middelværdi µ har e bestemt værdi (f.es. 0). Mere formelt øser ma at teste de statistise hypotese H 0 µ = µ 0, hvor µ 0 er et edt tal. Hypoteser om parametre i ormalfordeliger testes pricipielt på samme måde som alle adre statistise hypoteser, emlig ved brug af et votiettest der sammeliger lielihoodfutioes masimale værdi uder hypotese med de masimale værdi overhovedet uder de give model. Lielihoodfutioe er givet i formel (5.2) på side 62, og des masimale værdi er L(y, σ 2 ). Uder H 0 er lielihoodfutioe L 0 (σ 2 ) = L(µ 0, σ 2 ) og de atager si masimumsværdi år σ 2 er lig med σ 2 = (y j µ 0 ) 2. Kvotietteststørrelse bliver derfor Q = L(µ 0, σ 2 ) L(y, σ 2 ) = ( σ 2 σ 2 ) /2 (y j µ 0 ) 2 = (y j y) 2 /2 (y j µ 0 ) 2 exp 2 σ 2 (y j y) 2 2 σ 2 exp( ( 2 (y j µ 0 ) 2 2 )) = (y j y) 2 Her omsrives vadratsumme i tællere ved hjælp af formel (5.3) på side 62 (med µ erstattet af µ 0 ), og ma får (y j y) 2 + (y µ 0 ) 2 Q = (y j y) 2 /2 = + (y µ 0) 2 (y j y) 2 = ( + (y µ 0) 2 /2 ( )s 2 ) = ( + ( y µ /2 0 s 2 / )2 ). Størrelse (y µ 0 )/ s 2 / plejer ma at betege t, og med dee betegelse har vi at t = y µ 0 s 2 /, Q = ( + t2 /2 ). Små værdier af Q tyder på at hypotese H 0 ie er foreelig med data, og det ses at små Q-værdier er esbetydede med t-værdier lagt fra 0, dvs. med store t -værdier. Ma a derfor beytte t som teststørrelse i stedet for Q, hvilet er pratis da t er lettere at berege ed Q. Udertide aldes t-teststørrelse for Studets t, fordi W.S. Gosset, der srev de første artiel om t-testet, [22], srev uder pseudoymet Studet. Bemær at t-teststørrelse også ud fra e umiddelbar betragtig foreommer at være e foruftig teststørrelse, idet de måler afvigelse y µ 0 mellem de observerede og de teoretise middelværdi i forhold til s 2 / som er de estimerede middelfejl på på y (dvs. stadardafvigelse på y). /2 /2.
35 68 Estiprøveproblemet i ormalfordelige 5.3 Histogrammer og fratildiagrammer 69 Når ma har udreget værdie af teststørrelse t, er æste sridt i testprocedure at bestemme testsadsylighede, altså sadsylighede for at få e mere estrem værdi af teststørrelse ed de fatis opåede, forudsat at hypotese H 0 er rigtig. E matematis sætig fortæller at år H 0 er rigtig, så følger t-størrelse e bestemt fordelig, emlig de såaldte t-fordelig med f = frihedsgrader; frihedsgradsatallet i t-fordelige arves fra frihedsgradsatallet for variasestimatet s 2 i ævere. (Fordelige af t afhæger hvere af µ 0 eller af σ 2 (forudsat at H 0 er er rigtig), og det er bevemt da vi jo ie eder de øjagtige værdier heraf.) I statistise tabelværer a ma fide tabeller over fratiler i t-fordelige, og ved hjælp af sådae tabeller er det let at bestemme testsadsyligheder i t-testet. Ma sal dog være opmærsom på at e»mere estrem t-værdi«i de fleste tilfælde vil sige e t-værdi således at t > t obs, dvs. ete t > t obs eller t < t obs. Ma foraster altså hypotese både år t obs er meget stor og år de er meget lille. Der gælder at t-fordelige er symmetris omrig 0; derfor er P 0 (t > t obs ) = P 0 (t < t obs ) og dermed P 0 ( t > t obs ) = 2 P 0 (t > t obs ). Det etop besreve test er et tosidet test; i modsætig hertil opererer et esidet test med at de»estreme«afvigelser u a være til de ee side, f.es. de positive, så at ma u foraster hvis de observerede t-værdi er meget stor. Esempel 5.3 (Lysets hastighed, fortsat) I vore dage er e meter pr. defiitio de stræig som lyset i vacuum geemløber på / seud, hvoraf følger at lysets hastighed er meter pr. seud. Med dee hastighed vil lyset være τ 0 = seuder om at tilbagelægge stræige på de 7442 meter. Størrelse τ 0 svarer til e tabelværdi på ((τ ) 24.8) 0 3 = 23.8, så det ville være iteressat at udersøge om de foreliggede data er foreelige med hypotese om at de uedte middelværdi µ har værdie µ 0 = Derfor vil vi teste de statistise hypotese H 0 µ = Vi har tidligere fudet at y = og s 2 = 25.8, så t-teststørrelse er t = /64 = 6.2. Da der ie er oge grud til at tro at der u sulle ue foreomme afvigelser i é retig, sal testet være tosidet. Testsadsylighede er derfor sadsylighede for at få t-værdier som ete er større ed 6.2 eller midre ed 6.2. Ved tabelopslag a ma fide at i t-fordelige med 63 frihedsgrader er 99.95%-fratile lidt over 3.4, dvs. der midre ed 0.05% sadsylighed for at få e værdi som er større ed 6.2, og testsadsylighede er dermed midre % = 0.%. E så lille testsadsylighed betyder at ma må foraste hypotese. Newcombs måliger af lysets passagetid stemmer altså ie overes med hvad vi i dag ved om lysets hastighed. 5.3 Histogrammer og fratildiagrammer For at få e idé om ormalfordeligsmodelles rimelighed a ma tege histogrammer og fratildiagrammer. Histogrammer Et histogram over et sæt observatioer y, y 2,..., y fås på følgede måde:. Iddel observatiosase i et atal delitervaller, gere lige store, såda at der ie er oge observatioer i itervaledeputere. 2. Tæl op hvor mage observatioer der er i hvert iterval. 3. Teg retagler hvis grudflader er delitervallere, og hvis arealer er lig med de brødel af observatioere som ligger ide for det pågældede deliterval. (Hvis der er a observatioer i et iterval af lægde l, sal retaglets højde være a/l.) 4. Histogrammet sal lige tæthedsfutioe for de formodede sadsylighedsfordelig (e ormalfordelig). Det er derfor e god idé at idtege de estimerede fordeligs tæthedsfutio i samme figur som histogrammet, se figur 5.. Ved udarbejdelse af et histogram a det være lidt af et uststye at vælge de rigtige itervaliddelig således at flutuatioere bliver passede udglattet ude at tæthedes form bliver alt for udjævet. Hvis itervallere er for orte, bliver flutuatioere ie udglattet o, er de for lage, ser der e for stor udjævig af tæthedes form. Ma a godt give e lidt mere formel opsrift på et histogram over et sæt observatioer y, y 2,..., y :. I det område hvor observatioere falder, vælges deleputer (der som regel bør være ævidistate) x 0 < x < x 2 < < x m hvor x 0 er midre ed de midste og x m større ed de største af y-ere. 2. Bestem atallet j af y-er i det j-te iterval (som er ]x j, x j ]). 3. Defier e styevis ostat futio h ved j / år y ]x j, x j ], h(y) = x j x j 0 år y x 0 eller y > x m. Grafe for dee futio h er histogrammet (svarede til de valgte iddelig) over observatioere y, y 2,..., y. Fratildiagrammer Svarede til et sæt observatioer y, y 2,..., y beytter vi betegelse y (), y (2),..., y () for de ordede observatioer, dvs. y-ere stillet op i vosede ræefølge. Nu er det såda at hvis alle de observerede y-er er forsellige, så er brødele (i )/ af observatioere stregt midre ed tallet y (i), og brødele i/ af dem er midre ed eller lig med tallet y (i). Som et ompromis a ma da sige at brødele (i 0.5)/ af dem er midre ed tallet y (i), med adre ord er y (i) e i 0.5 -fratil i de empirise
36 70 Estiprøveproblemet i ormalfordelige 5.4 Reg og teg y probit Figur 5. Histogram (til vestre) og fratildiagram (til højre) over de 64 målte værdier af lysets passagetid. De idtegede urve i histogrammet er tæthede for ormalfordelige med middelværdi y = og varias s 2 = 25.8; de rette lije i fratildiagrammet har hældig /s = 0.20 og går geem (y, 0), altså (27.75, 0). fordelig. Geerelt defieres e α-fratil i e fordelig som et tal y α med de egesab at brødele α af sadsylighedsmasse ligger til vestre for y α. Et fratildiagram er ort fortalt e tegig hvor ma afsætter teoretise fratiler mod empirise fratiler. Hvis y-ere er observatioer fra N (µ, σ 2 )-fordelige, så er de teoretise fordeligsfutio futioe y Φ( y µ σ ) (jf. side 58). Derfor fider ma de teoretise α-fratil y α ved at løse ligige Φ( yα µ σ ) = α, hvilet giver y α = µ+σ Φ (α). De puter hvis førsteoordiater er de empirise fratiler, og hvis adeoordiater er de tilsvarede teoretise fratiler, altså putere med oordiater (y (i), µ + σ Φ ( i 0.5 )), i =, 2,...,, y bør da ligge ogelude omrig e ret lije geem (0, 0) med hældig. Dette er esbetydede med at putere med oordiater (y (i), Φ ( i 0.5 )), i =, 2,...,, ligger ogelude omrig de rette lije geem (µ, 0) og med hældig /σ. Koret fremstiller ma fratildiagrammet ved at idtege putere (y (i), Φ ( i 0.5 )), i =, 2,...,, i et oordiatsystem hvor ma desude idteger de rette lije geem (y, 0) og med hældig /s; futioe Φ fides tabelleret i statistise tabelværer og er e stadardfutio i statistiprogrammer til computere. Med sadsylighedspapir er det gase let at fremstille fratildiagrammer med hådraft. Sadsylighedspapiret er idrettet på de måde at ordiatase har to salaer: e probit-sala som er ævidistat og går fra ap 2 til godt 8, og e (ie-ævidistat) sadsylighedssala med sadsyligheder i procet, gåede fra 0.05 til Ma afsætter u putere (y (i), i 0.5 ) idet ma beytter sadsylighedssalae på ordiatase; hvis tallee er ormalfordelte, sal putere fordele sig omrig de rette lije der a idteges ved at beytte probit-salae på ordiatase og lade lije gå geem putere (y s, 4), (y, 5), (y + s, 6) osv. I figur 5. ses et fratildiagram over de 64 målte værdier af lysets passagetid. Såvel histogrammet som fratildiagrammet viser at det ie er gase urimeligt at atage at måleresultatere er ormalfordelte. 5.4 Reg og teg Newcombs måliger af lysets passagetid Her vises hvorda ma a aalysere måligere af lysets passagetid (tabel 5.). Først idlæses data (som fides i R-biblioteet MASS); de værdier der er større ed 0, placeres i variable y. require(mass) # idlæs R-biblioteet MASS data(ewcomb) # idlæs ewcomb-dataee y <- ewcomb[ewcomb>0] # brug u værdier som er større ed ul Histogrammet teges lettest med MASS-futioe truehist: truehist(y, las=) # histogram over y # bereg og idteg de estimerede urve: x <- seq(0, 45, by=0.2) # talfølge fra 0 til 45 med step på 0.2 lies(x, dorm(x, mea(y), sd(y)))#dorm udreger tæthed for ormalford. Fratildiagrammet plus lije a teges såda: # Futioe qqorm teger et fratildiagram qqorm(y, datax=true, las=, ylab="y", xlab="probit", mai="") # Idteg de rette lije med særig y/s og hældig /s ablie(-mea(y)/sd(y),/sd(y)) Hypotese µ = 23.8 a testes såda: t.test(y, mu=23.8) # test af hypotese µ = 23.8 Vedr. opgave 5.4 E tabel som tabel 5.3 a fremstilles såda, hvor rorm fremstiller et øset atal tilfældige ormalfordelte tal, matrix arragerer dem i e matrix, rowmeas udreger
37 72 Estiprøveproblemet i ormalfordelige 5.5 Opgaver 73 ræe-geemsit, var udreger ovariasmatrice (variasere står i diagoale), cbid listrer samme lags søjler (colums) og roud afruder til et øset atal cifre: t <- matrix(rorm(200, mea=5, sd=sqrt(3)), row=20) roud(cbid(t, rowmeas(t), diag(var(t))), digits=2) 5.5 Opgaver Opgave 5. Nedeståee 8 tal a opfattes som e stiprøve fra e ormalfordelig Vi beteger tallee y, y 2,..., y ( = 8).. Udreg geemsittet y af observatioere. 2. Udreg summe af vadratise afvigelser (y j y) 2 på to måder, a) dels på de»umiddelbare«måde, dvs. udreg de 8 differeser y j y, vadrér differesere og summér dem, b) dels ved at beytte det sedige tric fra side Udreg variassøet og søet over stadardafvigelse. 4. Stadardafvigelse på geemsittet y er / gage stadardafvigelse på y-ere. Udreg de estimerede stadardafvigelse på geemsittet. (Stadardafvigelse på geemsittet aldes ofte middelfejle på y.) 5. Med hvor mage cifre bør ma agive værdie af y? Opgave 5.2 (Kvisølv i sværdfis) Sværdfis a være e uliaris oplevelse, me de er sudest år de ie ideholder alt for mage tugmetaller. I e udersøgelse af sværdfis på det ameriase mared har ma målt visølvidholdet i 5 tilfældigt udvalgte sværdfis og fået resultatere i tabel 5.2 (fra [2]). Ifølge de ameriase sudhedsmydigheder bør osumfis ie ideholde over ppm visølv. De fis der sælges via de autoriserede salgsaaler, a ma otrollere (med stiprøveotroller), og ma a så assere de partier der ideholder for meget visølv. Imidlertid sælges der også e del fis ude om otrolmydighedere i USA reger ma med ca. 25%. Ma er iteresseret i at vide hvorda ma sal vælge assatiosgræse for de 75% otrollerede fis for at opå at geemsitsidholdet af visølv i de fis der år frem til forbrugere, bliver ppm (eller deruder). Hvis ma sal ue berege dee græse, er ma ødt til at ede fordelige af visølvidhold i sværdfis.. Det ville være bevemt hvis observatioere ue besrives ved e ormalfordelig, så det øser ma at udersøge. a) Udreg estimatere y og s 2 over µ og σ 2. Tabel 5.2 Opgave 5.2: Kvisølvidhold (ppm) i 5 sværdfis, de ordede observatioer b) Teg et histogram over visølvidholdet i de 5 sværdfis. Idteg (sitsemæssigt) de fittede ormalfordeligstæthed (dvs. tæthede for ormalfordelige med parametre y og s 2 ). c) Teg et fratildiagram (f.es. på sadsylighedspapir). Idteg de rette lije der svarer til de fittede ormalfordelig. 2. I de opridelige aalyse af tallee gi ma ud fra at visølvocetratioe i sværdfis var logaritmis ormalfordelt, hvilet betyder at logaritme til ocetratioere er ormalfordelt. Disutér dee formodig. (Summe af observatioere er 26.70, og summe af vadratere er For logaritme (de aturlige logaritme) til observatioere er de tilsvarede tal og ) Opgave 5.3 (fortsættelse af opgave 5.2) Løs det der er det overordede problem i opgave 5.2, emlig: hvorda sal ma fastsætte assatiosgræse for de 75% af fisee der otrolleres, hvis ma vil opå at forbrugere i middel højst udsættes for e visølvbelastig på ppm. Opgave 5.4 I tabel 5.3 er der 20 stiprøver y, y 2,..., y 0 fra e ormalfordelig med µ = 5 og σ 2 = 3.. Hvorda fordeler de eelte stiprøvers estimerede middelværdier y sig omrig de teoretise middelværdi µ = 5? 2. Ma a bevise at geemsittet af N (µ, σ 2 )-fordelte størrelser a opfattes som e observatio fra N (µ, σ 2 /)-fordelige. De 20 geemsit y, y 2,..., y 20 sulle altså være observatioer fra e ormalfordelig med middelværdi 5 og varias 3/0. Ser det ud til at passe? a) Udreg geemsittet y = (y, y 2,..., y 20 )/20 og de empirise varias på y i -ere, 20 dvs. (y 20 i y) 2. Giver det cira 5 og 0.3, som ma sulle tro? b) Teg et fratildiagram over y, y 2,..., y 20.
38 74 Estiprøveproblemet i ormalfordelige Tabel 5.3 Data til opgave 5.4: 20 esempler på udfald af stoastise variable Y, Y 2,..., Y 0 frembragt af e ormalfordeligs-tilfældighedsmeaisme med middelværdi 5 og varias 3. y y 2 y 3 y 4 y 5 y 6 y 7 y 8 y 9 y 0 y s Udreg for hver af de 20 stiprøver t-teststørrelse for hypotese µ = 5. Hvorda fordeler t-værdiere sig? Udreg de 20 testsadsyligheder. Hvor mage af dem er uder 5%? Er tigee som ma sulle forvete og hvad sulle ma egetlig forvete? 4. I realitete foreligger der jo 200 observatioer fra e og samme ormalfordelig. Sitsér hvorda ma ud fra disse 200 observatioer ue teste hypotese om at de teoretise middelværdi er lig 5. 6 Tostiprøveproblemer i ormalfordelige E ofte foreommede situatio er at der foreligger måliger af et bestemt træ eller e bestemt egesab hos et atal idivider der på forhåd vides at tilhøre forsellige grupper. Alt afhægigt af aratere af måligere a ma så beytte de ee eller ade eller tredje statistise model/metode for dels at besrive, dels at sammelige de pågældede grupper. I dette apitel sal vi disutere metoder der a beyttes, år der på hvert idivid er målt é eelt talværdi, talværdie opfattes som værede e værdi på e otiuert målesala, ma vælger at besrive de tilfældige variatio med e ormalfordelig. Når betigelsere er formuleret i vediger som»opfattes som værede«og»vælger at besrive«, syldes det at ormalfordelige ofte beyttes også i situatioer hvor ma ue pege på adre, mere rigtige fordeliger. Tit er der e eller to forholdsvis gode grude til alligevel at beytte ormalfordelige. De ee grud er De Cetrale Græseværdisætig der siger at summer af et større atal stoastise variable uder visse milde omstædigheder med god tilærmelse er ormalfordelte og de størrelser ma laver statistise modeller for, er etop tit sådae summer. De ade grud er ret pragmatis: ormalfordeligsmodeller er fra et matematis-statistis sysput særdeles»pæe«i de forstad at e avedelse af de geerelle statistise pricipper æste altid fører til pæe og simple metoder der er lette at forstå og giver emme og forståelige udregiger osv. Som følge heraf er ormalfordeligsmodeller studeret og besrevet i alle detaljer, og ma a for det meste fide e teoretis geemaalyseret model der passer til es behov. Hvori består problemet? Atag at der er tale om e situatio hvor ma på hvert af et atal»idivider«har målt værdie af e bestemt variabel Y. Idivider sal her forstås i meget bred forstad: det a bl.a. være persoer, forsøgsdyr, jordlodder eller f.es. de eelte realisatioer af forsøget»målig af lysets hastighed«. Idividere er opdelt i grupper ud fra ogle riterier som er edt på forhåd (ide forsøget starter), og som ie afhæger af hvile værdi Y u måtte have. I de statistise model for Y-ere vil ma gå ud fra at de forsel der er 75
39 76 Tostiprøveproblemer i ormalfordelige 6. Tostiprøveproblemet med uparrede observatioer 77 mellem (Y-værdiere hos) idividere ide for e bestemt gruppe, er tilfældig, og at de forsel der er mellem forsellige grupper, er systematis. E ormalfordeligsmodel til dee situatio er da idrettet på de måde at de systematise forsel mellem grupper besrives ved hjælp af middelværdiparametre, og de tilfældige forsel ide for grupper besrives ved hjælp af dels ormalfordelige, dels variasparametre i ormalfordelige. Det statistise problem består tit i at ma øser at sammelige gruppere for at vurdere om de systematise forsel mellem dem er sigifiat, dvs. om de forsel der er mellem gruppere, er stor målt i forhold til de tilfældige variatio ide for de eelte grupper. Ma øser derfor at ue måle forselle mellem gruppere med e målesto der er alibreret efter størrelse af de tilfældige variatio ide for gruppere. Det ma egetlig er iteresseret i, er altså iformatio om middelværdiparametree. Me for at der a være e veldefieret målesto at måle dem med, må ma først sire sig at det har meig at tale om de tilfældige variatio ide for grupper. Derfor ma i må modelle gøre de atagelse, som udertide a testes, at der er variashomogeitet, dvs. at de forsellige grupper har samme variasparameter. (Ma a dog lare sig med e atagelse om at grupperes variasparametre er edte på ær e ostat fator.) Hermed er problemet besrevet i geerelle vediger. I reste af dette apitel og i apitel 7 sal vi se hvorda det a løses. Der er traditio for at ma giver e særlig omtale af de situatio hvor der er to grupper der sal sammeliges, så det gør vi også her. 6. Tostiprøveproblemet med uparrede observatioer Ma har to grupper af»idivider«, og på hvert idivid har ma målt værdie af e bestemt variabel Y. Idividere i de to grupper er uparrede, det vil sige der er ie tale om at hvert idivid i de ee gruppe på e eller ade måde hører samme med et bestemt idivid i de ade gruppe. Der behøver heller ie være lige mage observatioer i de to grupper. Sematis ser situatioe såda ud: gruppe observatioer y y 2... y j... y 2 y 2 y y 2j... y 22 Her beteger y i j observatio r. j i gruppe r. i, i =, 2. Gruppere har heholdsvis og 2 observatioer. Vi vil gå ud fra at forselle mellem observatioer ide for e gruppe er tilfældig, hvorimod der er e systematis forsel på to de grupper det er derfor at observatioere er iddelt i grupper! Edelig atages det at y i j -ere er observerede værdier af uafhægige stoastise variable Y i j som er ormalfordelte med samme varias σ 2 og med middelværdier heholdsvis µ og µ 2, ort Y j N (µ, σ 2 ) Y 2j N (µ 2, σ 2 ). På dee måde besriver de to middelværdiparametre µ og µ 2 de systematise variatio, dvs. de to gruppers iveauer, og variasparametere σ 2 (samt ormalfordelige) besriver de tilfældige variatio der altså er de samme i begge grupper (dee sidste atagelse a ma evetuelt teste, se side 80). Estimatio af middelværdiparametree Estimater over de uedte middelværdiparametre µ og µ 2 fides ved maximum lielihood metode, altså som de værdier der masimaliserer lielihoodfutioe L(µ, µ 2, σ 2 ) = 2πσ 2 exp( 2 (y j µ ) 2 ) σ 2 2 = ( ) exp( 2πσ 2 2σ 2 ( (y j µ ) 2 + exp( (y 2j µ 2 ) 2 2πσ 2 2 σ 2 ) 2 (y 2j µ 2 ) 2 )), hvor = + 2 er det samlede atal observatioer. Det ses at hvis σ 2 er fast, så er det at masimalisere lielihoodfutioe med hesy til µ og µ 2 det samme som det at miimalisere vadratsumme (y j µ ) (y 2j µ 2 ) 2, og de opgave er let at løse, som vi u sal se. Vi lader y i betege geemsittet i gruppe i, y i = i y i j. Det sedige tric er u følgede omsrivig af det j-te led fra gruppe i (vi beytter formle for vadratet på e toleddet størrelse): (y j µ ) 2 = ((y j y ) + (y µ )) 2 = (y j y ) 2 + 2(y j y )(y µ ) + (y µ ) 2. Når vi summerer over j, bliver summe af de dobbelte produter 0 fordi summe af afvigelsere fra y er 0, og vi får (y j µ ) 2 = = (y j y ) 2 + (y µ ) 2 (y j y ) 2 + (y µ ) 2.
40 78 Tostiprøveproblemer i ormalfordelige 6. Tostiprøveproblemet med uparrede observatioer 79 Fra gruppe 2 ommer der et tilsvarede bidrag, så alt i alt a de vadratsum der sal miimaliseres, srives som (y j µ ) 2 + = 2 (y j y ) 2 + (y 2j µ 2 ) 2 2 (y 2j y 2 ) 2 + (y µ ) (y 2 µ 2 ) 2. Det ses at de værdier af µ og µ 2 der gør vadratsumme midst, er µ = y og µ 2 = y 2. Vi har dermed vist at masimaliserigsestimatere for gruppemiddelværdiere µ og µ 2 er gruppegeemsittee y og y 2. Estimatio af variasparametere Masimaliserigsestimatet σ 2 for σ 2 a bestemmes som masimumsputet for futioe σ 2 L(y, y 2, σ 2 ); ma fider at det er σ 2 = ( (y j y ) (y 2j y 2 ) 2 ). E størrelse som y i j y i der er forselle mellem de fatise observatio og det bedst mulige fit med de atuelle model, aldes udertide for et residual. Derfor aldes e størrelse som (y j y ) (y 2j y 2 ) 2 for e residualvadratsum, og ma a sige at masimaliserigsestimatet σ 2 for σ 2 er lig med residualvadratsumme divideret med atallet af observatioer. Som regel beytter ma imidlertid et adet estimat over σ 2, emlig residualvadratsumme divideret med atallet af frihedsgrader 2 (atal observatioer mius atal estimerede middelværdiparametre), dvs. ma estimerer variase ved s0 2 = 2 ( (y j y ) (y 2j y 2 ) 2 ). Ma begruder bruge af s 2 0 frem for σ 2 på ligede måde som i Estiprøveproblemet i ormalfordelige, se side 64. Hypotese µ = µ 2 For at vurdere om der er e sigifiat forsel på de to gruppers middelværdier, testes de statistise hypotese H 0 µ = µ 2. Når hypotese H 0 er rigtig, er der tale om et»estiprøveproblem«med = + 2 observatioer, så vi ved fra apitel 5 at de fælles værdi af middelværdiparametere estimeres ved det totale geemsit y = ( y j + 2 y 2j ), masimaliserigsestimatet over variasparametere σ 2 er 2 i σ 2 = (y i j y) 2, det variasestimat ma som regel beytter, er 2 i s0 2 = (y i j y) 2 = ( (y j y) 2 + med frihedsgrader. Kvotietteststørrelse for H 0 er Q = L(y, y, σ 2 ) L(y, y 2, σ 2 ) 2 (y 2j y) 2 ), hvor L er defieret på side 77. Når ma idsætter udtryee for estimatere i Q, bliver det udtry som exp sal avedes på, simpelthe /2, både i tæller og æver; udtryet for Q a derfor reduceres til Q = σ 2 σ 2 /2 = (y j y) 2 + (y j y ) (y 2j y) 2 (y 2j y 2 ) 2 Nævervadratsumme er lig ( 2)s0 2. Tællervadratsumme a omsrives på følgede måde hvor vi udervejs beytter at y = ( y + 2 y 2 )/( + 2 ): (y j y) 2 + = = 2 (y 2j y) 2 ((y j y ) + (y y)) 2 + (y j y ) 2 + (y y) /2 ((y 2j y 2 ) + (y 2 y)) 2 (y 2j y 2 ) (y 2 y) 2.
41 80 Tostiprøveproblemer i ormalfordelige 6. Tostiprøveproblemet med uparrede observatioer 8 Med betegelse = ( 2)s (y y) (y 2 y) 2 = ( 2)s0 2 + ( 2 2(y y 2 ) ) + 2 ( 2 (y y 2 ) ) = ( 2)s (y y 2 ) y t = y 2 s0 2( + 2 ) a Q derfor udtryes som Q = ( + t2 2 ) /2. Det ses at Q er e aftagede futio af t, dvs. små Q-værdier er esbetydede med store t -værdier, så ma sal foraste H 0 hvis t er stor. Ma plejer at beytte t (Studets t) som teststørrelse fordi de har e umiddelbart forståelig fortolig: de måler differese mellem de to middelværdiestimater (y og y 2 ) i forhold til de estimerede stadardafvigelse på dee differes. * Testsadsylighede, dvs. sadsylighede for at få et sæt observatioer der harmoerer dårligere med H 0 ed de foreliggede observatioer, bestemmes som ε = P 0 ( t > t obs ) = P 0 (t > t obs eller t < t obs ) = P 0 (t > t obs ) + P 0 (t < t obs ). Hvis H 0 er rigtig, følger t de såaldte t-fordelig med 2 frihedsgrader (frihedsgradsatallet arves fra variassøet s 2 0 ); dee fordelig er symmetris om 0. Hvis t f beteger e stoastis variabel som er t-fordelt med f frihedsgrader, a testsadsylighede følgelig udreges som ε = 2 P(t 2 > t obs ). Det etop besreve test er tosidet, fordi de estreme t-værdier er på begge sider af 0, og det er det ma som oftest bruger. Me e sjælde gag a ma være i e situatio hvor ma er aldeles sier på at hvis ie µ = µ 2, så er (lad os sige) µ < µ 2, de modsatte ulighed er utæelig, og i så fald vil ma u foraste H 0 hvis t er lagt fra 0 og egativ. Ma foretager da et esidet test og udreger testsadsylighede som P 0 (t < t obs ). Test for variashomogeitet I det foregåede er vi gået ud fra at observatioere i de ee gruppe har samme varias som observatioere i de ade gruppe. Dee atagelse a ma imidlertid godt * Det var et ræsoemet af dee art der førte W.S. Gosset (alias Studet ) til i 908 i [22] at foreslå e teststørrelse der æste er vore dages Studets t. teste. Det foregår på de måde at ma opstiller e lidt geerellere model der tillader variasere at være forsellige, og i de model tester ma så om variasere a atages at være es. De lidt geerellere model (geerellere ed på side 77) er Y j N (µ, σ 2 ) Y 2j N (µ 2, σ 2 2 ). Nu a ma opsrive lielihoodfutioe, estimere parametree og teste hypotese H σ 2 = σ 2 2. Det viser sig at votietteststørrelse er e futio af i R = s2 s2 2, hvor s 2 i = (y i j y i i ) 2 er variassøet (med i frihedsgrader) i gruppe i, i =, 2. Ma plejer at beytte R som teststørrelse, og ma sal foraste hypotese om es variaser hvis R ete er meget større ed eller meget midre ed, dvs. der er tale om et tosidet test. Som testsadsylighed ε beyttes sadsylighede for at få e R-værdi der ligger ude for itervallet med edeputer R obs og /R obs, det vil sige hvis R obs >, så er ε = P 0 (R > R obs ) + P 0 (R < ) = P 0 (R > R obs ) + P 0 ( R obs R > R obs), hvis R obs <, så er ε = P 0 (R < R obs ) + P 0 (R > ) = P 0 ( R obs R > ) + P 0 (R > ). R obs R obs Der gælder at år hypotese om variashomogeitet er rigtig, så vil R følge de såaldte F-fordelig med ( f, f 2 ) frihedsgrader, hvor f og f 2 er atal frihedsgrader for s 2 og s2 2. Fratiler i F-fordelige a fides ete med et statistiprogram på computere eller i statistise tabelværer, og det er derfor let at udrege testsadsylighedere. Hvis ma desude udytter e særlig egesab ved F-fordeliger, emlig at hvis R er F-fordelt med ( f, f 2 ) frihedsgrader, så vil /R være F-fordelt med ( f 2, f ) frihedsgrader, så a fremgagsmåde forsimples til. Lad s 2 max og s 2 mi betege heholdsvis det største og det midste af tallee s2 og s Lad R = s 2 max/s 2 mi. 3. Så er testsadsylighede lig ε = P(F f, f 2 R obs ) + P(F f 2, f R obs ), hvor F f a, f b beteger e stoastis variabel som er F-fordelt med ( f a, f b ) frihedsgrader.
42 82 Tostiprøveproblemer i ormalfordelige 6. Tostiprøveproblemet med uparrede observatioer 83 Tabel 6. C-vitami-esemplet: ogle beregede størrelser. står for atal observatioer y, S for Sum af y-er, y for geemsit af y-er, f for atal frihedsgrader, SS for Sum af vadratise afvigelser ( Sum of Squared deviatios ), og s 2 for variasestimater (SS/ f ). gruppe S y f SS s 2 appelsisaft ustigt C-vit sum geemsit Esempel 6. (C-vitami) C-vitami (ascorbisyre) er et veldefieret emis stof som ma sagtes a fremstille i laboratoriet (og i idustrie), og ma a jo i si aivitet forestille sig at virige i de meeselige orgaisme af det»ustige«c-vitami er præcis lige så god som virige af det i ature foreommede. For at udersøge om det u også forholder sig såda har ma foretaget et esperimet, ie med meeser me med marsvi (små gavere). Ma delte 20 ogelude es marsvi op i to grupper hvoraf de ee fi appelsisaft, og de ade fi e tilsvarede mægde»ustigt«c-vitami. Efter ses ugers behadlig målte ma lægde af fortæderes odotoblaster (det tadbesdaede væv). Ma fi da disse resultater, hvor observatioere i hver gruppe er ordet efter størrelse: appelsisaft: ustigt C-vitami: Ma a fastslå at der må være tale om e art tostiprøveproblem. Karatere af observatioere gør at det ie er urimeligt at forsøge sig med e ormalfordeligsmodel af e slags, og det er alt i alt ærliggede at sige at der er tale om et»tostiprøveproblem med uparrede ormalfordelte observatioer«. Vi vil aalysere observatioere ved brug af dee model, mere øjagtigt vil vi udersøge om odotoblasteres middelvæst er de samme i de to grupper. I tabel 6.2 er et regesema der viser hvorda ma a foretage udregigere med»hådraft«(se også side 63f). Hvis ma blot vil opsummere resultatere, gør ma det ofte i form af e tabel som de der er vist i tabel 6.. Da metode til sammeligig af middelværdiere i de to grupper forudsætter at de to grupper har samme varias, a ma evetuelt også teste hypotese om variashomogeitet. Dette test er baseret på variasvotiete R = s2 appelsisaft s 2 ustigt = = Værdie 2.57 sal sammeholdes med F-fordelige med (9, 9) frihedsgrader i et tosidet test. Tabelopslag viser at 95%-fratile er 3.8 og 90%-fratile 2.44; der er derfor mellem 0 og 20 procets chace for at få e værre R-værdi selv om hypotese er rigtig, og på dette grudlag vil vi ie afvise atagelse om variashomogeitet. De fælles varias estimeres til s 2 0 = 3.68 med 8 frihedsgrader. y 2 ( y)2 Tabel 6.2 C-vitami-esemplet: regesema. Appelsisaft Kustigt C-vitami y y 2 y y sum y i 3.8/0 = /0 = 8.00 s 2 i s 2 0 t = = = = (0 ) + (0 ) = = ( ) Vi a u gå over til det egetlige, emlig at teste om der er sigifiat forsel på to gruppers iveauer. Til det formål udreges t-teststørrelse t = = 3.68 ( ).65 = 3.3. De fude værdi sal sammeholdes med t-fordelige med 8 frihedsgrader. I dee fordelig er 99.5%-fratile 2.878, hvoraf vi a slutte at der er midre ed % chace for at få e værdi umeris større ed 3.3. Kolusioe bliver derfor at der er e lart sigifiat forsel mellem de to grupper. Som det ses af tallee, består forselle i at de»ustige«gruppe har midre odotoblastvæst ed appelsigruppe. Kustigt C-vitami syes altså ie at vire så godt som det aturlige.
43 84 Tostiprøveproblemer i ormalfordelige 6.2 Tostiprøveproblemet med parrede observatioer Tostiprøveproblemet med parrede observatioer Som title på afsit 6. lader ae, er der også et tostiprøveproblem med parrede observatioer. Situatioe er her at observatioere hører samme på to ledder: dels hører hver observatio til e af to mulige grupper, dels hører observatioere samme to og to, de er parrede. Typise esempler er måliger af e bestemt variabel før og efter e behadlig på ogle forsøgsdyr (eller -persoer); de to grupper består da af heholdsvis måligere før og måligere efter, og observatioere er parrede idet ma véd hvile måliger der stammer fra hvile idivider. Vi viser situatioe sematis: gruppe gruppe 2 par r. y y 2 par r. 2 y 2 y 22 par r. i y i y i2 par r. r y r y r2 Der er r observatiospar, og det i-te par består af y i og y i2. Ved opbygige af e statistis model bør ma aturligvis udytte de iformatio der ligger i at vi véd hvile observatioer der hører samme. Ma ue forestille sig at det forholdt sig på de ele måde at forselle mellem de»sade«værdi af e gruppe 2-målig og de»sade«værdi af de tilsvarede gruppe -målig havde de samme værdi δ for alle parree. Der er altså ie oget i veje for at de eelte par a være voldsomt forsellige, blot forselle mellem de to medlemmer af et par er de samme (på ær tilfældige afvigelser) for alle par. Hvis det forholder sig på dee måde, er der e uhyre simpel måde at aalysere tallee på: ma udreger differesere d i = y i2 y i og udersøger om de fordeler sig tilfældigt omrig 0. Hvis ma er parat til at atage at differesere d, d 2,..., d er observatioer fra e ormalfordelig med middelværdi δ og varias σ 2, så har vi et estiprøveproblem i ormalfordelige, og så er det bare at slå tilbage til apitel 5. Esempel 6.2 (Sovemidler) Det emise stof hyoscyami hydrobromid a avedes som sovemiddel. Stoffet fides imidlertid i to udgaver, d-hyoscyami hydrobromid og l-hyoscyami hydrobromid, der afbøjer polariseret lys til hver si side (l = laevo = mod vestre, d = dextro = mod højre (på lati)). Ma er iteresseret i at fide ud af om de to udgaver virer på samme måde som sovemiddel. Derfor har ma udført e forsøgsræe hvor ma på 0 forsøgspersoer har bestemt stofferes søvforlægede virig. I tabel 6.3 er vist det geemsitlige atal estra søvtimer pr. at for hver perso, dels ved behadlig med d-udgave, dels ved behadlig med l-udgave af stoffet. [22] Da der er tale om at ma på ogle forsøgspersoer har målt effete af først e, så e ade behadlig, vil det være ærliggede at søge at aalysere talmaterialet ved hjælp af e model af Tabel 6.3 Atal estra søvtimer ved behadlig med hyoscyami hydrobromid. perso dextro- laevo Tabel 6.4 Differeser mellem l- og d-hyoscyami hydrobromids søvforlægede virig. perso differes (timer) type»tostiprøveproblem med parrede observatioer«. Derfor bestemmes differesere mellem virigere af laevo- og dextroudgave af stoffet, se tabel 6.4. Vi vil opfatte tallee i tabel 6.4 som et»estiprøveproblem i ormalfordelige«, og spørgsmålet om de to stoffer virer lige godt, a da præciseres til spørgsmålet om tallees middelværdi er sigifiat forsellig fra 0. Dette a testes som e statistis hypotese. Geemsittet af differesere i tabelle er d =.58 timer, og estimatet over variase på differesere er s 2 =.5 timer 2 (med 9 frihedsgrader), svarede til at de estimerede stadardafvigelse er s =.23 timer. De estimerede stadardafvigelse på geemsittet er dermed s 2 / =.5/0 timer = 0.39 timer. Edvidere bliver t-teststørrelse t = d 0.58 timer = s 2 / 0.39 timer = I t-fordelige med 9 frihedsgrader er 99.5%-fratile 3.25 og 99.9%-fratile 4.29, så testsadsylighede ligger et sted mellem 0.2% og %. Der er således gase lart sigifias, dvs. de to stoffer virer sigifiat forselligt (og som ma ser, er l-stoffet det mest virsomme). Dette var altså et esempel på et tostiprøveproblem med parrede observatioer, me hvad var der set hvis ma af vavare var ommet til at aalysere det som om der var tale om uparrede observatioer? De t-størrelse ma så ville udrege, var e ade. Tællere ville være de samme fordi differese mellem geemsittee er lig geemsittet af differesere. Det variasestimat der sulle beyttes i ævere, er estimatet over de fælles varias i de to grupper, og det udreges til s 2 0 = timer 2 med 8 frihedsgrader, og teststørrelse ville derfor blive t =.58 timer.58 = timer 2 ( ) 0.85 =.86. Dee gag ville vi få 8 frihedsgrader i t-fordelige, og det vil sige at 95%-fratile er.73 og 97.5%-fratile 2.0. Der ville altså være et sted mellem 5% og 0% chace for at få e mere
44 86 Tostiprøveproblemer i ormalfordelige 6.4 Opgaver 87 estrem t-størrelse ed.86, og ma vil derfor almideligvis sige at t obs =.86 ie er sigifiat stor. Dette test ville således ie vise oge sigifiat forsel på de to stoffer. Grude til at de to aalyser giver forsellige resultater, er at der er e temmelig stor forsel på forsøgspersoere: I de første model (parrede observatioer) elimieres e stor del af persoforsellee ved at ma går over til at aalysere differesere. Til gegæld får variasestimatet u 9 frihedsgrader. I de ade model (uparrede observatioer) sal al forselle mellem persoer besrives af variasparametere (fordi forselle mellem persoer i dee omgag udeluede ases for tilfældig), og til gegæld får variasestimatet hele 8 frihedsgrader. På de ade side idebærer det at hvis der er stor forsel mellem persoer, så bliver variasestimatet også stort. Datamaterialet til dette esempel er meget berømt fordi det blev beyttet til et illustrativt esempel i de artiel [22] fra 908 hvor t-testet (i estiprøveproblemet) blev itroduceret. Artile er srevet af W.S. Gosset der arbejdede som biometrier ved Guiessbryggeriere, og som beyttede Studet som sit om de plume. 6.3 Reg og teg Vi viser hvorda ma a aalysere Studets data om estra søvtimer (tabel 6.3) med R. Datamaterialet idgår i R-distributioe, og det a idlæses ved at srive data(sleep); derved oprettes e data.frame sleep med de to variable extra og group (se deres idhold ved at srive sleep). For at aalysere data som et»tostiprøveproblem med parrede observatioer«(som jo er de rigtige metode) behøver ma u blot srive t.test(extra ~ group, data=sleep, paired=true) Hvis ma (fejlagtigt) opfattede det som et»tostiprøveproblem med uparrede observatioer«, ue ma teste for es variaser og derefter for es middelværdier såda: var.test(extra ~ group, data=sleep) t.test(extra ~ group, data=sleep, var.equal=true) 6.4 Opgaver Opgave 6. (Ises smeltevarme) Ma øser at sammelige to forsellige metoder (A og B) til bestemmelse af ises smeltevarme. Esperimeter har givet resultatere i tabel 6.5. Udersøg om der er sigifiat forsel på de to metoder. Tip: Udregigere bliver lettere hvis ma idfører et passede beregigsulput. Opgave 6.2 (Rygig og blodpropper) På forsøgspersoer har ma taget blodprøver før og efter de røg e cigaret, og ma har så Tabel 6.5 Opgave 6.: Varmemægde (i alorier) for at smelte g is med e begydelsestemperatur på 0.72 C, bestemt ved to forsellige metoder. Metode A Metode B Tabel 6.6 Opgave 6.2: De masimale procetdel af blodpladere der lumper sig samme før heholdsvis efter e give påvirig. før efter udersøgt blodpladeres tedes til at lumpe sig samme (sådae lumper a udvile sig til regulære blodpropper). Resultatere ses i tabel 6.6. Udersøg om resultatere tyder på at rygig påvirer blodpladeres tedes til at lumpe sig samme. (Der er øjesyligt tale om et tostiprøveproblem af e slags; der a så være tale om parrede eller uparrede observatioer. Det a være illustrativt at forsøge sig med begge slags modeller. Hvad er forselle? Argumetér for at de ee af dem er mere rigtig ed de ade.) Opgave 6.3 Ma har foretaget ogle forsøg med mus for at fide ud af om de to forsellige former for jerioer Fe 2+ og Fe 3+ optages med forsellig hastighed i orgaisme. Dette er af betydig år ma sal sammesætte osttilsud (esempelvis vitamipiller) til meeser. Som led i et større forsøg har ma givet 8 mus Fe 2+ og 8 adre mus Fe 3+, i begge tilfælde i.2 millimolar opløsiger idgivet oralt. Jeratomere var radioativt mærede således at det var muligt at måle hvor meget jer der blev optaget i muse i løbet af et fastsat stye tid. Tabel 6.7 viser hvor stor e procetdel af de tilførte mægde jer der blev optaget af muse.. Ved data af dee type a ma erfarigsmæssigt ofte besrive logaritme til observatioere med e ormalfordelig. Udersøg om det er rimeligt at gøre det i dette tilfælde. 2. Udersøg om data tyder på at Fe 2+ og Fe 3+ optages på samme måde (sammelig for esempel de to stiprøver af logaritmerede måliger). 3. Ma vil plalægge et yt forsøg af samme slags, blot med et adet atal mus. Det ye forsøg sal ue afgøre om der er e reel forsel på 0. (på de logaritmise sala) mellem Fe 2+ - og Fe 3+ -optagelse. I de forbidelse a ma vælge at sige at»e reel forsel på 0.«sal betyde at hvis tællere i t-teststørrelse, altså differese mellem middeltallee,
45 88 Tostiprøveproblemer i ormalfordelige Tabel 6.7 Opgave 6.3: Procetdel optaget jer samt titalslogaritme til procetdel optaget jer, for 8 mus der har fået Fe 2+ og 8 mus der har fået Fe 3+. De eelte søjler ideholder de ordede observatioer. y log 0 y Fe 2+ Fe 3+ Fe 2+ Fe sum sum af vadrater er større ed eller lig 0. (eller midre ed eller lig 0.), så vil testsadsylighede blive midre ed eller lig 5% (»der er sigifias på iveau 5%«). Spørgsmålet er hvor mage mus der sal beyttes: Omsæt oveståede præciserig af»e reel forsel på 0.«til matemati, og få derved e ulighed der a løses med hesy til de ubeedte»atal mus«. Det således plalagte forsøg sulle agiveligt ue afgøre om der er e reel forsel på 0.. Disutér hvile status ma sal tillægge e såda»afgørelse«. 7 Esidet variasaalyse Sammeligig af to ormalfordelte stiprøver er omtalt i apitel 6. Ma ommer dog ofte ud for at sulle sammelige mere ed to stiprøver, og derfor er ma ødt til også at have metoder til det såaldte -stiprøveproblem, dvs. de situatio hvor der foreligger grupper af ormalfordelte observatioer, og hvor ma øser at vurdere om der er e sigifiat forsel på disse grupper. De metode der beyttes for at sammelige middelværdiere i grupper af ormalfordelte observatioer, aldes (måse lidt overrasede) for esidet variasaalyse. Esempel 7. (Dæigsgrad for Fuglegræs) På dyrede marer er urudt jo pr. defiitio e utig, og ladmade a overveje om ha sal sprøjte mod de type urudt ha aser for værst. Me år ma fjerer é slags urudt, a det være at det ie bare er afgrøde der derved får forbedrede væstforhold, me også de resterede urudtsarter! Måse er det e ligefrem fordel at have så mage forsellige urudtsarter som muligt, fordi de så a holde hiade i sa. For at udersøge urudtsplaters idbyrdes ourrece på e ormar har Greefort, Jese og Jeppese [8] udført et større forsøg der består i at på forsellige dele af e stor mar luger ma på et bestemt tidsput forsellige urudtsarter bort, og derefter ser ma hvorledes reste af artere så trives. Mere præcist er mare delt op i 6 jordlodder som er iddelt i fire grupper med hver fire lodder. Gruppe er e otrolgruppe hvor itet luges bort, me i hver af gruppere 2, 3 og 4 luges e bestemt urudtsart bort (emlig heholdsvis Serle pileurt, Fuglegræs og Hvidmelet gåsefod). E gag før og tre gage efter bortlugige registrerer ma hvile plater der er på de forsellige lodder og i hvor stor udstræig. De første registrerig sal tjee til at fastlægge det iveau som de seere udvilig sal måles ud fra. Gruppere er fordelt på mare i et romers vadrat: De fire lodder der udgør e gruppe, er altså placeret fire helt forsellige steder på mare; derved har ma e chace for at ue tage højde for evetuelle variatioer i jordbud og mirolima he over mare. Forsøget har givet et stort talmateriale som a aalyseres på mage måder. Her sal vi u se på e eelt detalje i forbidelse med fastlæggelse af et udgagsiveau på grudlag af de første registrerig. Vi vil studere foreomste af Fuglegræs, Stellaria media, ved de første registrerig, se tabel 7.. Registrerige foregår ved hjælp af et retagulært gitteret med 46 gitterputer med fem cetimeters afstad; gitterettet placeres på jordlodde, hvorefter ma i hvert gitterput 89
46 90 Esidet variasaalyse 7. Estimatio af parametree 9 Tabel 7. Dæigsgrader for Fuglegræs ved første registrerig. gruppe dæigsgrader ser efter om der fides oget af e Fuglegræs-plate eller ej. Som mål for dæigsgrade for arte beyttes atallet af gitterputer hvor arte blev registreret. Dæigsgrade bliver på dee måde et helt tal mellem 0 og 46. Da de første registrerig udførtes ide der blev foretaget oge bortlugig, a der ie på dette tidsput være tale om oge behadligseffet (lugigseffet). De forselle der er på loddere og på gruppere, må alee syldes»startbetigelsere«, dvs. de loale variatioer i jordbud og lima og de forsellige atal plater af de pågældede art som der u tilfældigvis var på de eelte områder af mare. Da ma øser at vurdere hvorda behadligere påvirer gruppere, a det være af iteresse at få e idé om hvor forsellige (eller hvor es) gruppere egetlig er ved forsøgets start. Hvis gruppere emlig er stort set es, a ma bestemme et fælles startiveau hvorudfra de seere udvilig a vurderes, me hvis der er e sigifiat forsel mellem gruppere, så er ma ødt til at vurdere hver gruppes udvilig ud fra des eget startiveau. Derfor vil vi gere sammelige de fire grupper og vurdere om forselle mellem gruppere er stor i forhold til de tilfældige variatio ide for gruppere. De statistise model: Da observatioere er fremommet som e sum af et vist atal 0- størrelser svarede til om plate er fraværede eller til stede i det pågældede gitterput, ue ma mee at det smager lidt af e biomialfordeligssituatio (eller evetuelt e poissofordeligssituatio, da er temmelig stor). Hertil a ma dog idvede at ie alle biomialfordeligsbetigelsere er opfyldt, idet de eelte 0-størrelser æppe er uafhægige med samme sadsylighed for»«, og det a medføre e større tilfældig variatio ide for de eelte grupper ed hvad biomialfordelige a forlare. Ma a derfor, idet ma går let he over at der er tale om disrete observatioer, forsøge sig med e ormalfordeligsmodel, hvor ma jo ved hjælp af variasparametere a modellere de tilfældige variatio særsilt. Vi vil derfor beytte e statistis model der går ud på at observatioer i samme gruppe opfattes som observatioer fra e og samme ormalfordelig, og at de fire grupper har hver deres ormalfordelig. Det statistise problem er da at udersøge om de fire ormalfordeliger a tæes at være es. Det geerelle -stiprøveproblem i ormalfordelige a formuleres på følgede måde: Der foreligger ogle observatioer y som er ordet i grupper med i observatioer i gruppe r. i, i =, 2,..., ; observatio r. j fra gruppe r. i beteges y i j. Sematis ser det ud som i tabel 7.2. Vi går ud fra at forselle mellem observatioere ide for e gruppe er tilfældig, hvorimod der er e systematis forsel mellem gruppere. Vi går edvidere ud fra at y i j -ere er observerede værdier af uafhægige stoastise variable Y i j. De tilfældige variatio sal besrives ved hjælp af e ormalfordelig, og det sal Tabel 7.2 De geerelle -stiprøveproblem gruppe observatioer y y 2... y j... y 2 y 2 y y 2 j... y 22 i y i y i2... y i j... y ii y y 2... y j... y derfor alt i alt være såda at Y i j er ormalfordelt med middelværdi µ i og varias σ 2, ort Y i j N (µ i, σ 2 ). (7.) Herved besriver middelværdiparametree µ, µ 2,..., µ de systematise variatio, emlig de eelte gruppers iveauer, medes variasparametere σ 2 (samt ormalfordelige) besriver de tilfældige variatio ide for gruppere. De tilfældige variatio atages at være de samme i alle gruppere; dee atagelse a ma udertide teste, se afsit Estimatio af parametree Middelværdiparametree De uedte middelværdiparametre µ, µ 2,..., µ i grudmodelle (7.) estimeres ved maximum lielihood metode, altså som de værdier der masimaliserer lielihoodfutioe L(µ, µ 2,..., µ, σ 2 ) = i exp( (y i j µ i ) 2 2πσ 2 2 σ 2 ) = ( ) exp( i 2πσ 2 2σ 2 (y i j µ i ) 2 ) hvor = er det samlede atal observatioer. Det ses at hvis σ 2 er fast, så er det at masimalisere lielihoodfutioe L med hesy til µ, µ 2,..., µ det samme som det at miimalisere vadratsumme (y i j µ i ) 2, og de opgave er let at løse: i Vi lader y i betege geemsittet i gruppe i, y i = i y i j. Ved at beytte formle for i (7.2)
47 92 Esidet variasaalyse 7.2 Hypotese om es grupper 93 Tabel 7.3 Fuglegræsesemplet: ogle beregede størrelser. i i i i y i = y i j y i (y i j y i ) sum geemsit s 2 0 = vadratet på e toleddet størrelse fås = (y i j µ i ) 2 = ((y i j y i ) + (y i µ i )) 2 = (y i j y i ) 2 + 2(y i j y i )(y i µ i ) + (y i µ i ) 2 ; år vi her holder i fast og summerer over j, så bliver summe af de dobbelte produter 0 fordi i over i, får vi (y i j y i ) er lig med 0 ifølge defiitioe af y i ; hvis vi edelig også summerer i (y i j µ i ) 2 = (y i j y i ) 2 + (y i µ i ) 2. (7.3) i i Opgave er at miimalisere vestreside; me de µ i -er der miimaliserer vestreside, er de samme som dem der miimaliserer de ade vadratsum på højreside, og de bliver midst mulig, emlig 0, etop år µ i er lig y i, i =, 2,...,. Vi har dermed fudet at masimaliserigsestimatet for de i-te gruppes middelværdi er lig med geemsittet af observatioere i gruppe, ort µ i = y i. Variasparametere Masimaliserigsestimatet σ 2 for σ 2 a bestemmes som masimumsputet for futioe σ 2 L(y, y 2,..., y, σ 2 ). Ma fider at i σ 2 = (y i j y i ) 2, altså residualvadratsumme divideret med atallet af observatioer. Som regel beytter ma imidlertid et adet estimat over σ 2, emlig residualvadratsumme divideret med atallet af frihedsgrader (atal observatioer mius atal estimerede parametre), dvs. ma beytter variasestimatet i s0 2 = (y i j y i ) 2. Ma begruder bruge af s 2 0 frem for σ 2 på ligede måde som i estiprøveproblemet i ormalfordelige, se side 64. Sammefattede har vi altså at middelværdiparametere µ i i de i-te gruppe estimeres ved geemsittet y i af observatioere i gruppe, grupperes fælles varias σ 2 estimeres ved residualvadratsumme divideret med atallet af frihedsgrader, med frihedsgrader. i s0 2 = (y i j y i ) 2 (7.4) I tabel 7.3 er vist de værdier ma fider i Fuglegræs-esemplet. 7.2 Hypotese om es grupper I dette afsit sal vi besæftige os med spørgsmålet om hvorda ma udersøger om de grupper a atages at have samme middelværdi. Opgave er at teste hypotese H 0 om at der ie er oge sigifiat forsel mellem gruppere, også aldet hypotese om homogeitet mellem grupper: H 0 µ = µ 2 = = µ. Ofte er det ie H 0 ma er iteresseret i, me des egatio: at der er e sigifiat forsel mellem gruppere. Ma har emlig et øse eller et håb om at ue vise at gruppere ie er es; år det alligevel er H 0 ma tester og ie des egatio, så hæger det samme med to geerelle træ ved formulerig og test af statistise hypoteser:. De hypoteser ma a teste, er altid hypoteser der består i e forsimplig af de atuelle grudmodel typis tester ma om ogle parametre er es, hvorimod grudmodelle tillader dem at være forsellige. 2. Det er iformativt at foraste e hypotese: Vi får at vide at der er e sigifiat uoveresstemmelse mellem hypotese og observatioer. Derimod viser det ofte igetig at få accepteret e hypotese: Det a være at ma simpelt he bare har for få observatioer til at ue afsløre oget som helst.
48 94 Esidet variasaalyse 7.2 Hypotese om es grupper 95 Vi sal u se hvorda ma tester hypotese H 0 om es middelværdier. Ma a gå frem efter de sædvalige opsrift, dvs. opstille e votietteststørrelse der sammeliger lielihoodfutioes masimale værdier uder H 0 og uder grudmodelle. Vi ved fra forrige afsit at i grudmodelle masimaliseres lielihoodfutioe af i værdiere y, y 2,..., y og σ 2 = (y i j y i ) 2. Deræst sal vi fide de værdier der masimaliserer lielihoodfutioe uder H 0. Når H 0 er rigtig, er der tale om et estiprøveproblem, og fra apitel 5 ved vi at de fælles middelværdi µ estimeres ved det totale geemsit i y = y i j, masimaliserigsestimatet over de fælles varias σ 2 er vadratafvigelsessumme omrig y divideret med, dvs. i σ 2 = (y i j y) 2, det variassø ma som regel bruger, er med frihedsgrader. Kvotietteststørrelse for H 0 er i s0 2 = (y i j y) 2 Q = L(y, y,..., y, σ 2 ) L(y, y 2,..., y, σ 2 ), hvor L er defieret i formel (7.2) side 9. Når ma idsætter udtryee for estimatere i Q, så bliver det udtry som exp sal avedes på, gase eelt /2 både i tæller og æver, så udtryet for Q a reduceres til Q = σ 2 /2 σ 2 i (y i j y) 2 = i (y i j y i ) 2 /2. For at ue omforme Q yderligere sal vi bruge følgede omsrivig der fås af formel (7.3) på side 92 hvis ma erstatter µ i med y: i (y i j y) 2 = (y i j y i ) 2 + (y i y) 2, (7.5) i i dvs. de totale vadratsum der besriver y i j -eres variatio om det totale geemsit y, spaltes op i e sum af et bidrag der besriver»variatioe ide for gruppere«og et bidrag der besriver»variatioe mellem gruppere«. Parallelt med opspaltige af vadratsumme har vi opspaltige = ( ) + ( ) af frihedsgradere, og ved at dividere vadratsummere med de tilsvarede atal frihedsgrader får vi variasestimater der besriver forsellige variatioer: Variatioe omrig totalgeemsittet, dvs. eeltobservatioeres variatio omrig totalgeemsittet, besrives af i s0 2 = (y i j y) 2 som er variasestimatet uder H 0. Variatioe ide for grupper, dvs. eeltobservatioeres variatio omrig deres respetive gruppegeemsit, besrives af i s0 2 = (y i j y i ) 2 som er variasestimatet i grudmodelle (formel (7.4) på side 93). Variatioe mellem grupper, dvs. gruppegeemsittees variatio omrig det totale geemsit, besrives af i s 2 = (y i y) 2 = i (y i y) 2. Me vi sal videre med omsrivige af udtryet for Q. Ved hjælp af formel (7.5) a vi omsrive Q til i (y i y) 2 Q = + i (y i j y i ) 2 /2 = ( + ( )s2 /2 ( )s0 2 ),
49 96 Esidet variasaalyse Tabel 7.4 Fuglegræs-esemplet: Variasaalysesema. f står for atal frihedsgrader, SS for Sum af vadratise afvigelser, s 2 = SS/ f. variatio f SS s 2 test ide for grupper mellem grupper /34.46=3.9 total hvoraf det fremgår at Q er e mootot aftagede futio af størrelse F = s2 s0 2, således at store værdier af F svarer til små værdier af Q og dermed er teg på at H 0 bør forastes. I prasis beytter ma altid F som teststørrelse for H 0. Ma a forstå F som forholdet mellem variatioe mellem grupper og variatioe ide for grupper. Ma foraster hypotese om homogeitet mellem grupper år variatioe mellem grupper er væsetligt større ed variatioe ide for grupper. Ma a bevise at F-teststørrelse følger de såaldte F-fordelig med frihedsgrader (, ) år hypotese H 0 er rigtig. Derfor a testsadsylighede ε = P 0 (F > F obs ) bestemmes som ε = P(F, > F obs ) hvor F, beteger e F-fordelt stoastis variabel med (, ) frihedsgrader; dermed a ε let fides ved hjælp af et statistiprogram på computere eller e tabel over fratiler i F-fordelige. Vi har hermed løst de opgave der gi ud på at sammelige grupper af ormalfordelte observatioer. Ma a sige at F-teststørrelse sammeliger to variasestimater, og derfor aldes aalysemetode for e variasaalyse; da observatioere er iddelt efter ét riterium (emlig hvile gruppe de tilhører), aldes aalyse for esidet variasaalyse. Det er utyme at give e oversigt over variasaalyse i et såaldt variasaalysesema. Tabel 7.4 er et variasaalysesema for Fuglegræs-esemplet. Esempel 7.2 (Fuglegræs, olusio) Af variasaalysesemaet (tabel 7.4) fremgår at F-teststørrelse for hypotese om es grupper bliver 3.9, og dee værdi sal sammeholdes med fratilere i F-fordelige med frihedsgrader 3 og 2; i dee fordelig er 95%-fratile 3.49 og 97.5%-fratile 4.47, så testsadsylighede er ap 4%. På de baggrud vil ma sædvaligvis være stemt for at foraste hypotese om es middelværdier i gruppere. Ma må altså ostatere at de fire grupper syes at være forsellige allerede ide ma begyder at give dem hver deres behadlig. Det a vire overrasede, me det må hæge samme med at der på forhåd er betydelige forselle på de eelte dele af mare. Når ma sidehe sal udersøge hvorda behadligere virer, er ma ødt til at tage hesy til dee forsellighed. 7.3 Bartletts test for variashomogeitet Bartletts test for variashomogeitet I de her behadlede ormalfordeligsmodeller hvor ma besæftiger sig med hypoteser om middelværdiparametree, er det e grudatagelse at der er tale om variashomogeitet, dvs. at de forsellige grupper har samme varias. I dette afsit omtaler vi et test for variashomogeitet. De geerelle situatio er stadig de der blev præseteret på side 90, me vi øser u at teste atagelse om at de grupper har samme variasparameter σ 2. De måde ma a gribe et sådat problem a på, er at ma idlejrer de statistise model i e større model, og så tester ma på helt sædvalig vis om ma a reducere de større model til de opridelige model. I det atuelle tilfælde idlejrer vi de opridelige model (7.) fra side 9 i e større model der tillader gruppere at have hver deres ege variasparameter, emlig modelle Y i j N (µ i, σ 2 i ). Deræst tester vi (7.) som e hypotese i forhold til de ye grudmodel. De hypotese der sal testes, hadler u om e del af modelles parametre, og for så at sige at slippe af med middelværdiparametree, der jo ie har oget med hypotese at gøre, a ma teste hypotese i de betigede fordelig givet de estimerede middelværdiparametre. (Dette hæger samme med at ma måse også bør estimere variasparametree i dee betigede fordelig, se side 64.) Hvis ma omsriver votietteststørrelse i de ævte betigede fordelig, år ma frem til at ma a beytte følgede teststørrelse, Bartletts teststørrelse, for hypotese om variashomogeitet: B = f i l s2 i s0 2 ; (7.6) her beteger s 2 i estimatet over variase σ i 2 i de i-te gruppe, og f i er atallet af frihedsgrader for s 2 i, dvs. for hvert i er s 2 i = f i i (y i j y i ) 2, f i = i, og s0 2 er det sædvalige estimat over de fælles varias σ 2 (formel (7.4) på side 93). Bemær i øvrigt at s0 2 er et vægtet geemsit af s2 i -ere med frihedsgradere som vægte, s0 2 = f i s 2 i, hvor f = f + f f er atallet af frihedsgrader for s0 2 f. Teststørrelse B, som i virelighede er e 2 l Q-størrelse, er altid et positivt tal, og store værdier af B er sigifiate, dvs. tyder på at hypotese om variashomogeitet er forert. Hvis hypotese er rigtig, er B approsimativt χ 2 -fordelt med frihedsgrader, således at det er let at bestemme de omtretlige testsadsylighed som P(χ 2 B obs),
50 98 Esidet variasaalyse 7.4 Reg og teg 99 Tabel 7.5 Fuglegræsesemplet: ogle beregede størrelser. står for atal observatioer y, S for Sum af y-er, y for geemsit af y-er, f for atal frihedsgrader, SS for Sum af vadratise afvigelser ( Sum of Squared deviatios ), og s 2 for variasestimat (SS/ f ). gruppe S y f SS s sum geemsit hvor χ 2 beteger e χ2 -fordelt stoastis variabel med frihedsgrader; testsadsylighede a derfor let fides ved hjælp af et statistiprogram på computere eller e tabel over fratiler i χ 2 -fordelige. χ 2 -approsimatioe er god år alle f i -ere er store; som tommelfigerregel siger ma at de alle sal være midst 5. Hvis der u er to grupper (dvs. = 2), a ma alterativt teste hypotese om variashomogeitet med et test baseret på forholdet mellem de to variasestimater; dette er omtalt i forbidelse med tostiprøveproblemet i ormalfordelige, se side 80. (Dette tostiprøvetest er ie baseret på oge χ 2 -approsimatioer, så det har ige restritioer på atallee af frihedsgrader.) Esempel 7.3 (Fuglegræs: test for variashomogeitet) Som illustratio udreges Bartletts teststørrelse i Fuglegræs-esemplet. Vi udvider det tidligere regesema i tabel 7.3 og får tabel 7.5. Derefter a vi udrege B obs : B obs = (3 l l + 3 l + 3 l ) = Betigelse om at alle f i -ere sal være midst fem, er ie opfyldt (idet de alle er tre), så det er begræset hvor χ 2 -fordelt B a forvetes at være; me hvis vi ser lidt stort på det, sulle B altså være ca. χ 2 -fordelt med 4 = 3 frihedsgrader år hypotese om variashomogeitet er rigtig. I χ 2 3-fordelige er 80%-fratile 4.64 og 90%-fratile 6.25, således at uder forudsætig af at hypotese er rigtig, er der i størrelsesordee 0% sadsylighed for at få e værre B-værdi ed de opåede; på dette grudlag a vi ie foraste hypotese om variashomogeitet. 7.4 Reg og teg Her vises hvorda ma a udføre esidet variasaalyse og Bartletts test med R. Fuglegræsesemplet Data fides i e fil hvis første lijer ser såda ud (dg-søjle ideholder dæigsgradere og gr-søjle gruppeumre): gr dg Her følger e redigeret og ommeteret udsrift af e R-sessio hvor ma foretager esidet variasaalyse og Bartletts test for variashomogeitet; brugere har srevet de lijer der begyder med teget > og programmet har produceret de øvrige. Først idlæses data fra file; første lije er e»header«som ideholder ave på søjlere. Futioe factor omdaer gr til e e såaldt fator, dvs. des værdier sal opfattes som gruppeave, ie som tal. > fuglegrs <- read.table("fuglegrs.dat", header = TRUE, rows = 20) > fuglegrs$gr <- factor(fuglegrs$gr) Futioe bartlett.test udreger Bartletts teststørrelse B (K-squared) og de tilhørede testsadsylighed ε (p-value). Vestreside af modelformle dg ~ gr er søjle med observatioere, højreside af modelformle fortæller at observatioere sal iddeles i grupper efter gr. > bartlett.test(dg ~ gr, data = fuglegrs) Bartlett test for homogeeity of variaces data: dg by gr Bartlett s K-squared = 5.583, df = 3, p-value = Futioe aov udfører variasaalyse (aalysis of variace) jf. afsit 7.2. Modelformle dg ~ gr har samme futio som ved bartlett.test. > summary(aov(dg ~ gr, data = fuglegrs)) Df Sum Sq Mea Sq F value Pr(>F) gr * Residuals Sigif. codes: 0 *** 0.00 ** 0.0 *
51 00 Esidet variasaalyse 7.5 Opgaver 0 Udsrifte herfra giver de fleste af værdiere til variasaalysesemaet tabel 7.4, bladt adet ses det at F-teststørrelse er med tilhørede testsadsylighed , jf. esempel 7.2. De estimerede varias ide for grupper, altså variassøet i modelle med forsellige middelværdier, fides i søjle med oversrift Mea Sq og ræe Residuals; atallet af frihedsgrader fides i søjle Df (degrees of freedom). Gruppegeemsittee a bereges af futioe lm (der fitter e lieær model); leddet - i modelformle agiver at der ie sal medtages et separat ostatled. > summary(lm(dg ~ gr -, data = fuglegrs)) Call: lm(formula = dg ~ gr -, data = fuglegrs) Coefficiets: Estimate Std.Error t value Pr(> t ) gr e-06 *** gr *** gr e-07 *** gr e-06 *** --- Sigif. codes: 0 *** 0.00 ** 0.0 * Ma fider de fire middelværdiestimater i søjle Estimate; søjle ved side af har oversrifte Std.Error og ideholder middelfejlee ( stadard errors ) på estimatere. Hvis hypotese om es middelværdier var blevet accepteret, ville ma have brug for totalgeemsittet (det fælles middelværdiestimat) og variatioe omrig totalgeemsittet (det ye variassø); her a ma ige beytte lm, dee gag med e ade modelformel: summary(lm(dg ~, data = fuglegrs)) Data til opgave 7. Talmaterialet idlæses med data(platgrowth) hvorved der oprettes e data.frame PlatGrowth ideholdede de to variable weight og group. 7.5 Opgaver Opgave 7. (Sammeligig af gødsigsmetoder) I et dyrigsforsøg vil ma udersøge hvorda to gødsigsmetoder virer. Ma har dyret 0 plater med de ee metode, 0 med de ade, og 0 plater som e otrolgruppe uder»sædvalige«omstædigheder. Efter e bestemt væstperiode er platere høstet, og ma har målt tørstofidhold i hver af dem. De opåede resultater fremgår af tabel 7.6. Aalysér talmaterialet. (Opstil e passede statistis model, estimér parametree, test relevate hypoteser; a ma foretage modelotrol?) Tabel 7.6 Opgave 7.: Tørstofidhold (i g) i plater uder forsellige dyrigsbetigelser. otrol metode A metode B Tabel 7.7 Opgave 7.2: Geemsitlig vægt (i pud) af de fuldvose fugle i hver af de i alt 24 esperimetelle eheder, samt ogle hjælpestørrelser til beregigere. otrol lav dosis høj dosis gruppe atal sum sum af vadrater otrol lav dosis høj dosis sum Opgave 7.2 (Kylligers væst) Ma har foretaget e forsøgsræe med ylliger for at bedømme virige af et formodet væstfremmede hormo. Forsøget a tæes opbygget på følgede måde: De esperimetelle ehed består af et atal ylliger der lever i samme høsehus og får samme ost; måleresultatet er de geemsitlige vægt af de fuldvose fugle. De esperimetelle eheder er iddelt i tre grupper: é gruppe får ormal ost (otrolgruppe), é gruppe får ormal ost plus hormoet i lav dosis, é gruppe får ormal ost plus hormoet i høj dosis. Hver gruppe ideholder otte esperimetelle eheder. Resultatet af forsøget ses i tabel 7.7. Udersøg ved hjælp af esidet variasaalyse om ma a sige at det tilsatte hormo fatis virer væstfremmede. Udersøgelse bør suppleres med forsellige former for modelotrol. Ma a således otrollere atagelse om variashomogeitet ved hjælp af Bartletts test. Hvile muligheder er der for grafise tests af ormalfordeligsatagelse?
52 02 Esidet variasaalyse Tabel 7.8 Opgave 7.3: Etocetricisme-tal for fire grupper af bør.. sorte bør i bladede soler: hvide bør i bladede soler: sorte bør i adsilte soler: hvide bør i adsilte soler: Opgave 7.3 (Etocetricisme) E forser ved Columbia Uiversity ville udersøge om det ameriase solesystems itegratio af bør af forsellig race gav sig udslag i at børee fi forsellige holdiger til deres ege og til adre racer. Ha udsatte derfor fire grupper af bør for e etocetricisme-test der måler i hvile grad det eelte bar foretræer at omgås og respeterer bør af samme etise gruppe som det selv frem for bør af adre etise grupper; et bar får altså et højt etocetricisme-tal hvis det i høj grad foretræer ammerater af si ege race []. De fire grupper af bør er ) sorte bør i bladede soler, 2) hvide bør i bladede soler, 3) sorte bør i adsilte soler, og 4) hvide bør i adsilte soler. Der er udersøgt 50 bør fra hver gruppe. Resultatere fremgår af tabel 7.8 (fra [9]). Aalysér talmaterialet. Bemær at datamaterialets størrelse gør det muligt også at vurdere rimelighede af e atagelse om at observatioere i de eelte grupper er uafhægige ormalfordelte observatioer. Hjælpestørrelser til beregigere: sum sum af vadrater sorte bør i bladede soler hvide bør i bladede soler sorte bør i adsilte soler hvide bør i adsilte soler Simpel lieær regressiosaalyse Regressiosaalyse hadler om at udersøge hvorda e målt størrelse afhæger af e eller flere såaldte baggrudsvariable. Atag at der foreligger et statistis datamateriale som er fremommet ved at ma på hvert af et atal»idivider«, esempelvis forsøgspersoer, forsøgsdyr eller eeltlaboratorieforsøg, har målt værdie af et atal størrelser,»variable«. E af disse størrelser idtager e særstillig, idet ma emlig gere vil»besrive«eller»forlare«dee størrelse ved hjælp af de øvrige. Tit alder ma de variabel der sal besrives, for y, og de variable ved hjælp af hvile ma vil besrive, for x, x 2,..., x p. Adre betegelser fremgår af følgede oversigt: Her sitseres et par esempler: x, x 2,..., x p baggrudsvariable uafhægige variable forlarede variable y modelleret variabel afhægig variabel forlaret variabel resposvariabel. Læge observerer de tid y som patiete overlever efter at være blevet behadlet for sygdomme, me læge har også registreret e mægde baggrudsoplysiger om patiete, så som ø, alder, vægt, detaljer om sygdomme osv. Nogle af baggrudsoplysigere a måse ideholde iformatio om hvor læge patiete a forvetes at overleve. 2. I e ræe ogelude es i-lade har ma fudet tal for lugeræftforeomst, cigaretforbrug og forbrug af fossilt brædstof, altsamme pr. idbygger. Ma a da udæve lugeræftforeomst til y-variabel og søge at»forlare«de ved hjælp af de to adre variable, der så får rolle som forlarede variable. 3. Ma øser at udersøge et bestemt stofs giftighed. Derfor giver ma det i forsellige ocetratioer til ogle grupper af forsøgsdyr og ser hvor mage af dyree der dør. Her er ocetratioe x e uafhægig variabel hvis værdi esperimetator bestemmer, og atallet y af døde er de afhægige variabel. 03
53 04 Simpel lieær regressiosaalyse 8. Præsetatio af modelle 05 E statistis model i de slags situatioer sal bladt adet udtrye middelværdie af y-variable som e simpel og»pæ«futio af de forlarede variable, og agive e sadsylighedsfordelig der sal besrive y-eres tilfældige variatio. I dette og æste apitel besæftiger vi os med modeller hvor de tilfældige variatio besrives af e ormalfordelig, og hvor middelværdie a srives som e liearombiatio af et atal uedte parametre med de forlarede variable som oefficieter. De slags modeller a geerelt formuleres på følgede måde: For hvert idivid i (=, 2..., ) foreligger der dels e værdi af e størrelse y, dels værdier af p baggrudsvariable x, x 2,..., x p. For hvert i har ma dermed p + tal y i, x i, x i2,..., x ip, hvor y i beteger de værdi af y der er målt på det i-te idivid, og x i j beteger værdie af de j-te baggrudsvariabel hos idivid r. i. Modelle siger da at tallee y, y 2,..., y opfattes som observerede værdier af uafhægige ormalfordelte stoastise variable Y, Y 2,..., Y hvor Y i N (β 0 + p x i j β j, σ 2 ) = N (β 0 + x i β + x i2 β x ip β p, σ 2 ). Her er oefficietere β 0, β, β 2,..., β p uedte parametre der fastlægger hvorda de eelte forlarede variable påvirer middelværdie, og variasparametere σ 2 besriver de tilfældige variatio omrig middelværdie. De geerelle model omtales ærmere i apitel 9; foride sal vi fra afsit 8. og apitel 8 ud udersøge det vigtige specialtilfælde simpel lieær regressiosaalyse. Uder alle omstædigheder er der tale om lieær regressiosaalyse, hvilet betyder at baggrudsvariablee idgår lieært i udtryet for middelværdie. Det lægger selvfølgelig e vis begræsig på, hvor geerelle ma a lave dee type modeller, me på de ade side a ma vælge sie baggrudsvariable som ma har lyst til/brug for, specielt a ma dae ye baggrudsvariable ud fra gamle. Hvis ma f.es. har é»aturligt givet«baggrudsvariabel t som er e ærmere fastlagt tidsstørrelse, a ma evt. idføre e y baggrudsvariabel t 2 således at ma alt i alt får de lieære regressiosmodel E Y i = β 0 + β t + β 2 t 2. Regressiosaalyse går ort fortalt ud på at udvile e statistis model hvormed ma a besrive e y-variabel ved hjælp af e edt simpel futio af ogle baggrudsvariable og ogle parametre. Parametree er de samme for alle observatiossæt, hvorimod baggrudsvariablee typis ie er det. Parametrees værdier bestemmes ud fra data således at ma får det bedste fit. Ma må aturligvis ie forvete at de statistise model leverer e perfet besrivelse, et perfet fit, dels fordi de model ma måtte fide frem til, æppe er fuldstædig rigtig, dels fordi e af poitere med statistise modeller etop er at de u besriver hovedtræee i datamaterialet og ser stort på de fiere detaljer. Der vil derfor være e vis forsel mellem de observerede værdi y og de fittede værdi ŷ, dvs. de værdi som ma ifølge regressiosmodelle sulle få med de give værdier af baggrudsvariablee. Dee forsel aldes residualet og beteges ofte e. Vi har altså opspaltige y = ŷ + e observeret værdi = fittet værdi + residual. Residualere er det som modelle ie besriver, og derfor aser ma (eller rettere modelle) dem for tilfældige, tilfældige tal fra e vis sadsylighedsfordelig. :c To væsetlige forudsætiger for at ue beytte regressiosaalyse er. Det er ie x-ere, me u y-ere og residualere, der er behæftede med tilfældig variatio (»usierhed«). 2. De eelte måliger er stoastis uafhægige af hiade, hvilet vil sige at de tilfældigheder der idvirer på é bestemt y-værdi (efter at ma har taget højde for baggrudsvariablee) ie har oge sammehæg med de tilfældigheder der spiller id på de øvrige y-værdier. De simpleste esempler på regressiosaalyse er dem hvor der u er é eelt baggrudsvariabel, som vi så a betege x. Opgave bliver da at besrive y-værdiere ved hjælp af e edt simpel futio af x. Det simpleste ie-trivielle bud på e såda futio må vel være e futio af type x β 0 + xβ hvor β 0 og β er to parametre, dvs. ma formoder at y afhæger lieært af x. Derved får ma de såaldte simple lieære regressiosmodel. I det følgede besæftiger vi os med forsellige væsetlige aspeter af regressiosmodeller og regressiosaalyse: Hvorda vælger ma værdiere af β-ere så ma får det bedste fit? Hvorda afgør ma om e bestemt model er god o? Hvis ma har flere forsellige baggrudsvariable til si rådighed, hvorda afgør ma så hvile af dem der sal med i modelle og hvile ie? 8. Præsetatio af modelle Reste af dette apitel hadler om de situatio hvor der foreligger e ræe talpar (x, y ), (x 2, y 2 ), (x 3, y 3 ),..., (x, y ), og hvor ma søger e statistis model for y-ere; x-ere sal idgå i modelle på de måde at middelværdie af Y a srives som α + βx for passede valg af parametree α og β. Vi vil bruge følgede statistise model: tallee y, y 2,..., y er observerede værdier af stoastise variable Y, Y 2,..., Y ;
54 06 Simpel lieær regressiosaalyse 8. Præsetatio af modelle 07 de stoastise variable Y, Y 2,..., Y er uafhægige og ormalfordelte med samme varias σ 2 ; tallee x, x 2,..., x betragtes som faste tal de er altså ie (i dee model) observerede værdier af stoastise variable; middelværdie af de i-te målig a srives som α + βx i, dvs. som e liearombiatio af to uedte parametre α og β og med oefficietere og x i : Modelle srives ort som E Y i = α + βx i, i =, 2,...,. Y i N (α + βx i, σ 2 ). (8.) Modelle besriver y-eres systematise variatio ved hjælp af parametree α og β og de edte ostater x, x 2,..., x, og de besriver de tilfældige variatio ved hjælp af ormalfordelige og de uedte variasparameter σ 2. Modelle aldes e simpel lieær regressiosaalyse-model, og β aldes regressiosoefficiete. De to størrelser x og y idgår på helt forsellig måde i modelle, og det er derfor ie ligegyldigt hvad ma lader være x og hvad y. I ogle tilfælde er det gase lart hvad der er»observatio«, og hvad der er»baggrudsvariabel«, me i adre tilfælde er det i høj grad et valg ma træffer. Her ommer to esempler der illustrerer de to muligheder. Esempel 8. (Fædre og søer) I slutige af 800-tallet opstod i Eglad faget biometri, et fag i græseområdet mellem (hvad vi i vore dage forstår ved) statisti og biologi. De emer biometriere tog op, var i høj grad emer med forbidelse til de ye og otroversielle arvelighedslære, idet de håbede at ue fide beræftelser på og umerise besrivelser af evolutiosteorie. Desude var ogle af biometriere meget optaget af de almidelige debat om de store sociale problemer i samfudet, og de måtte derfor gøre sig overvejelser over hvad arvelighedslære ue fortælle om samfudets udvilig. Biometriere F. Galto (822-9) speulerede over det tilsyeladede almidelige forfald: hvorda ue det være at fremragede fædre ie fi tilsvarede fremragede søer ( eller var det bare oget ma sytes?). Nu er det vaseligt at fide et mål for»fremragede-hed«, så Galto gav sig til at udersøge højde i stedet. Ha forastaltede e større idsamlig af data om medlemmer af britise familier og registrerede bladt adet øjefarve, gemyt, usterise ever, sygdomme, valg af ægtefælle, frugtbarhed, og altså højde. Galto foretog det vi utildags alder e regressiosaalyse, og ha fadt at høje fædre geemsitligt fi søer der ie var så høje som de selv, me dog lå over geemsittet i befolige. Omvedt fi små fædre geemsitligt søer der var højere ed dem selv, me dog lå uder geemsittet i befolige. Dee tilsyeladede ærme sig det geemsitlige så Galto som e tilbagegag og aldte det derfor e regressio. I tabel 8. er gegivet et talmateriale som to adre biometriere idsamlede, idet de for 078 par af far og sø registrerede faderes højde og søes højde. Tabelle sal læses på de måde at der f.es. var syv tilfælde ud af de 078 hvor fadere var 67 iches og søe 65 iches. Der er tale om e situatio med = 078 talpar (x, y), me det er ie ude videre lart at de ee Tabel 8. Fædre og søer: Fordelige af 078 par af far og sø efter faderes højde og søes højde. Højdere er agivet i iches. Faderes højde S ø e s h ø j d e af de to højder er e»baggrudsvariabel«og de ade e»observatio«, fatis må ma vel sige at de er»observatioer«begge to. Me ma a vælge at opfatte f.es. faderes højde som»baggrudsvariabel«og søes højde som»observatio«og så foretage e såaldt»regressio af søes højde på faderes højde«; det a ma gøre hvis ma er iteresseret i at udersøge hvorda ma a forudsige, præditere, søes højde ud fra faderes. Esempel 8.2 (Kvælig af hude) Ma ved at hypoxi (edsat ilttilførsel til hjere) a bevire at der daes forsellige sadelige stoffer i hjere, og det a i værste fald medføre alvorlige hjeresader. (Hypoxi a bladt adet foreomme ved fødsler.) Ma er derfor iteresseret i at udvile e simpel metode til at afgøre om der har være hypoxi, og i givet fald hvor læge. Ma har udført e ræe forsøg for at udersøge om ocetratioe af hypoxati i cerebrospialvæse a beyttes som hypoxiidiator. Syv hude blev uder bedøvelse udsat for iltmagel ved sammepresig af luftrøret, og hypoxatiocetratioe måltes efter 0, 6, 2 og 8 miutters forløb. Det var af forsellige grude ie muligt at foretage måliger på alle syv hude til alle fire tidsputer, og det a heller ie afgøres hvorda måliger og hude hører samme. Resultatere af forsøget er vist i tabel 8.2. Ma a asue situatioe på de måde at der foreligger = 25 par sammehørede værdier af ocetratio og varighed. Varighedere er edte størrelser de idgår i forsøgsplae hvorimod ocetratioere a betragtes som observerede værdier af stoastise variable:
55 08 Simpel lieær regressiosaalyse 8.2 Estimatio af parametree 09 Tabel 8.2 Kvælig af hude: Måliger af hypoxatiocetratio til de fire forsellige tidsputer. I hver gruppe er observatioere ordet efter størrelse. varighed (mi) ocetratio (µmol/l) tallee er ie es fordi der er e vis biologis variatio og e vis forsøgsusierhed, og det a passede modelleres som tilfældig variatio. Det er derfor ærliggede at søge at modellere tallee ved hjælp af e regressiosmodel med ocetratio som y- og varighed som x-variabel. Ma a aturligvis ie på forhåd vide om varighede i sig selv er e hesigtsmæssig forlarede variabel. Måse viser det sig at ma bedre a besrive ocetratioe som e lieær futio af logaritme til varighede ed som e lieær futio af selve varighede, me det betyder blot at der er tale om e lieær regressiosmodel med logaritme til varighede som forlarede variabel. Der melder sig u forsellige spørgsmål:. Hvorda estimerer ma de idgåede parametre α, β og σ 2? 2. Hvorda vurderer ma om e model af forme (8.) giver e foruftig besrivelse af datamaterialet? 3. Hvorda tester ma hypoteser om parametree? 8.2 Estimatio af parametree Vi estimerer α og β ved maximum lielihood metode, som på grud af ormalfordeligsatagelse er det samme som midste vadraters metode, og vi estimerer σ 2 som residualvadratsumme divideret med atallet af frihedsgrader. Estimatio af α og β Parametree α og β estimeres ved at masimalisere de til grudmodelle (8.) hørede lielihoodfutio L(α, β, σ 2 ) = 2πσ 2 exp 2 = ( ) exp( 2πσ 2 2σ 2 (y i (α + βx i )) 2 σ 2 (y i (α + βx i )) 2 ). Det fremgår heraf at de bedste estimater over α og β er de værdier der miimaliserer vadratsumme (y i (α + βx i )) 2. (8.2) Disse værdier a ma ete bestemme ved hjælp af stadardmetoder til bestemmelse af estremumsputer for futioer af to variable, eller ma a søge at slippe lettere om ved det ved at foretage sedige omsriviger af vadratsumme på ligede måde som ved estimatio i estiprøveproblemet (side 62), i tostiprøveproblemet (side 77) og i esidet variasaalyse (side 92). Vi prøver med de sedige omsrivig: Det er hesigtsmæssigt at operere med x-eres og y-eres afvigelser fra deres geemsit x og y. Derfor omsrives vadratsumme (8.2) således: (y i (α + βx i )) 2 = ((y i y) + (y (α + βx)) β(x i x)) 2 = (y i y) 2 + (y (α + βx)) 2 + β 2 (x i x) 2 2β (x i x)(y i y), (8.3) idet de øvrige to dobbelte produter fra vadrerige af de treleddede størrelse bliver 0. Omsrivige har ført til et udtry hvor α u optræder i det ee led (y (α+βx)) 2, og det udtry atager si midsteværdi 0 etop år α er lig y βx. Deræst sal β bestemmes så det miimaliserer summe af de tre øvrige led, dvs. miimaliserer udtryet eller ort β 2 (x i x) 2 2β (x i x)(y i y) + (y i y) 2 β 2 SS x 2βSP x y + SS y hvor vi har beyttet de ofte avedte betegelser SS x (SS y ) for sum af vadratise afvigelser af x-er (y-er), og SP x y for sum af produter af afvigelser af x-er og y-er. Udtryet β 2 SS x 2βSP x y + SS y er e adegradsfutio af β, og da oefficiete til β 2 er positiv, har futioe ét miimumsput, og det fides ved at differetiere og sætte de afledede lig 0; ma får da at β sal estimeres ved β = SP x y SS x.
56 0 Simpel lieær regressiosaalyse 8.2 Estimatio af parametree Ifølge betragtigere ovefor er det dertil svarede bedste valg af α α = y β x. Hermed har vi løst estimatiosproblemet for så vidt agår α og β. Ma taler udertide om de estimerede regressioslije; det er (de lije hvis ligig er) y = α + βx. Udertide, især år ma sal udføre beregigere mere eller midre med hådraft, a ma have forøjelse af ogle adre udtry for SS x, SS y og SP x y. Ved almidelige og lette formelmaipulatioer fider ma følgede formler, hvor hver gag det første lighedsteg er defiitioslighedsteget og det adet viser det alterative udtry: SS x = SS y = SP x y = Estimatio af σ 2 (x i x) 2 = (y i y) 2 = (x i x)(y i y) = xi 2 ( x i ) 2, y 2 i ( y i ) 2, x i y i ( x i )( y i ). Variasestimatet er som altid residualvadratsumme divideret med atallet af frihedsgrader:. Residualvadratsumme får vi ved at erstatte α og β med α og β i vadratsumme (8.2), så de er (y i ( α + βx i )) 2. Hvis ma i stedet idsætter i formel (8.3) og reducerer, får ma et alterativt udtry for residualvadratsumme, emlig (y i ( α + βx i )) 2 = (y i y) 2 β 2 (x i x) 2 = SS y β 2 SS x = SS y SP2 x y SS x. 2. Atallet af frihedsgrader er 2 fordi der er observatioer og der er estimeret 2 middelværdiparametre. Variase σ 2 estimeres derfor ved s02 2 = 2 (y i ( α + βx i )) 2 = 2 (SS y SP2 x y SS x ). (8.4) Tabel 8.3 Fædre og søer: Hjælpestørrelser til beregigere. Sum af 078 fars højde søs højde 7408 fars højde fars højde søs højde søs højde fars højde søs højde Esempel 8.3 (Fædre og søer, fortsat fra side 07) Vi vil udrege»regressioe af søes højde på faderes højde«, dvs. vi vil bruge søes højde som y og faderes højde som x i e lieær regressio. På grudlag af tallee i tabel 8. udreges først ogle hjælpestørrelser, se tabel 8.3, og ved hjælp af disse udreges SP x y = x i y i ( x i )( y i ) = = , 078 SS x = xi 2 ( x i ) 2 = = , SS y = y 2 i ( y i ) 2 = = De estimerede regressiosoefficiet er β = SP x y /SS x = / = 0.54, og de estimerede særig med ordiatase er α = y β x = = Regressiosmodelle aviser altså følgede relatio: Residualvadratsumme er søs højde = fars højde. SS y SP 2 x y/ss x = / = så de estimerede varias er s 2 02 = /(078 2) = med 076 frihedsgrader. Der er aturligvis også de mulighed at udrege regressioe af faderes højde på søes højde. Ma vil da få fars højde = søs højde og e estimeret varias på s 2 02 = 5.495, ligeledes med 076 frihedsgrader. Som det ses, er det ie ligegyldigt hvile af de to højder ma beytter som x og hvile som y.
57 2 Simpel lieær regressiosaalyse 8.4 E ade formulerig af modelle 3 Afrudigsfejl De forsellige formeludtry for SP x y, SS x, SS y og s02 2 er allesamme lige rigtige set fra et matematis sysput. Me hvis ma tæer på dem som forsrifter for hvorda ma sal rege tigee ud, så har de hver deres fordele og ulemper. Hvis ma f.es. sal udrege s02 2, så er formle s 2 02 = 2 (SS y SP2 x y SS x ) pratis fordi de viser hvorda ma fider s02 2 ud fra tre tal som ma formetlig allerede har reget ud i ade forbidelse; me formle er upratis fordi de idebærer at ma sal træe to ofte æste lige store positive tal (SS y og SP 2 x y/ss x ) fra hiade, og det betyder at det hele let a ede i afrudigsfejl såfremt ma ie har reget med tilstræeligt mage cifre i mellemregigere. Omvedt er formle s02 2 = 2 (y i ( α + βx i )) 2 ie ær så følsom over for afrudigsfejl, me de er til gegæld besværlig at rege ud fordi der sal ma først udrege de præditerede værdier α + βx i, deræst de tilsvarede residualer, og edelig summe af de vadrerede residualer. Computerprogrammer til statisti har e regressiosfutio der i lagt de fleste tilfælde a fide ud af at foretage beregigere på e hesigtsmæssig måde. 8.3 Parameterestimateres middelfejl Regressiosaalyse er i udpræget grad et forsøg på at modellere vatitative sammehæge, og derfor er det ie tilstræeligt blot at udrege parameterestimatere, ma sal også saffe sig e idé om hvor præcise de er. Når ma tester hypoteser, foregår det ved at ma udreger værdie af e passede valgt teststørrelse der fugerer som et mål for hvor godt de foreliggede observatioer stemmer overes med hypotese. Derefter bestemmer ma de såaldte testsadsylighed, der er sadsylighede for at få et sæt observatioer der stemmer dårligere overes med hypotese ed de fatise observatioer gør. Når ma overhovedet a tale om e såda sadsylighed, er det taet være de statistise model; de statistise model fortæller emlig at observatioere a opfattes som observerede værdier af stoastise variable der følger e ærmere agivet sadsylighedsfordelig, og ma a derfor sige at de statistise model sætter os i stad til at sammelige de fatise observatioer med alle de adre sæt observatioer ma også ue have fået idet ma tager hesy til, med hvile sadsyligheder de foreommer. E ade side af dette at»sammelige med hvad ma ellers ue have fået«, er bestemmelse af estimatoreres middelfejl. Et estimat er jo reget ud på grudlag af de fatise observatioer, me ved hjælp af de statistise model a ma få svar på spørgsmålet: hvile adre talværdier af estimatet ue ma også have fået og med hvile sadsyligheder. For da estimatet er e futio af observatioere, og da observatioere opfattes som observerede værdier af stoastise variable, a estimatet opfattes som e observeret værdi af e vis stoastis variabel, estimatore, hvis sadsylighedsfordelig ma i pricippet a fide. Ofte er ma edda u iteresseret i at vide ide for hvile græser størstedele af sadsylighedsmasse er beliggede, og til det brug udreger ma middelfejle, dvs. estimatores stadardafvigelse. Som e tommelfigerregel gælder emlig at itervallet middelværdie plus/mius to gage stadardafvigelse afgræser ca. 95% af sadsylighedsmasse (det er især rigtigt for ormalfordelte estimatorer, så som α og β), og i de forstad er middelfejle et direte mål for hvor uøjagtigt estimatet er. Vi sal ie omme ærmere id på hvorda ma år frem til formeludtry for middelfejl, me her er ogle resultater for de lieære regressiosmodel:. Middelfejle på β er σ 2 /SS x. 2. a) Middelfejle på α er σ 2 ( + x2 SS x ). b) Estimatorere α og β er orrelerede, og orrelatio mellem dem er / + SSx. x 2 3. a) Middelfejle på α + β x er σ 2 /. b) Estimatorere α + β x og β er uorrelerede. Disse udtry er de teoretise middelfejl hvori optræder de teoretise varias σ 2 på Y. Da vi ie eder parametere σ 2, må vi i stedet idsætte et estimat over de, f.es. s 2 02, og derved få de estimerede middelfejl. Af udtryet for middelfejle på β ses at det er e fordel at x-værdiere ligger spredt over et stort iterval, for så bliver SS x stor og middelfejle derved lille. Det a æves at middelfejle på e estimator s 2 over variasparametere σ 2 i e ormalfordeligsmodel er lig σ 2 2/ f, hvor f er atallet af frihedsgrader for s 2. Deraf ses hvorda variasestimatet bliver bedre, jo flere frihedsgrader det har. 8.4 E ade formulerig af modelle De opridelige formulerig af de lieære regressiosmodel hadler om et atal talpar (x i, y i ). Nu er det ofte såda at der for hvert x foreligger flere måliger af y (det er for esempel tilfældet i esemplet med vælig af hude). Det gør ie spor at der er flere talpar med det samme x, me udertide er det hesigtsmæssigt at otatioe a idfage dette forhold, bl.a. år ma vil lave regeopsrifter der er overommelige at
58 4 Simpel lieær regressiosaalyse 8.4 E ade formulerig af modelle 5 beytte med»hådraft«. Vi vil derfor præsetere e ade formulerig af de lieære regressiosmodel. Sematis ser situatioe såda ud: Tabel 8.4 Kvælig af hude: beregigssema. x-værdiere er varighed i miutter, y-værdiere er ocetratio i µmol/l. baggrudsvariabel x x 2 x 3 x observatioer y y 2... y y 2 y y 22 y 3 y y 33 y y 2... y i i x i y i i x i i y i i x i y i i x 2 i i y 2 i j sum hvor værdiere x, x 2,..., x er forsellige; hørede til de i-te x-værdi er der de i observatioer y i, y i2,..., y ii ; det samlede atal observatioer er = Regressiosmodelle (8.) srives u som Y i j N (α + βx i, σ 2 ). De tidligere idførte hjælpestørrelser SS x, SS y og SP x y (side 0) er i de ye otatio i SS x = (x i x) 2 = i xi 2 ( i x i ) 2, i i SS y = (y i j y) 2 = y 2 i j ( i y i ) 2, i SP x y = (x i x)(y i j y) = hvor der er beyttet følgede betegelser: i x i y i ( i x i )( i y i ), y i = i y i j er geemsittet af y-ere hørede til x i, i i y = y i j = i x = x i = i y i i x i Parameterestimatere er stadig s02 2 = 2 er totalgeemsittet af y-ere, er geemsittet af x-ere. β = SP x y SS x, α = y β x, (y i ( α + βx i )) 2 = 2 (SS y SP2 x y SS x ). (8.5) Esempel 8.4 (Kvælig af hude, fortsat fra side 08) Vi vil atage at hypoxatiocetratioe a besrives ved e lieær regressiosmodel med hypoxivarighede som uafhægig variabel. (Dee atagelse vil blive udersøgt ærmere i e seere fortsættelse af esemplet, se side 8.) Vi lader x, x 2, x 3 og x 4 betege de fire tidsputer 0, 6, 2 og 8 mi, og vi lader y i j betege de j-te ocetratiosværdi til tid x i. Med de idførte betegelser a de tidligere foreslåede statistise model for talmaterialet formuleres som Y i j N (α + βx i, σ 2 ). Vi vil udrege værdiere af estimatere α, β og s 2 02 over modelles parametre. Ma a selvfølgelig overlade regearbejdet til computere, me det er på de ade side ie uoverommeligt at gøre det med hådraft. Idledigsvis udreges forsellige hjælpestørrelser mm., se tabel 8.4. Heraf fås de estimerede regressiosoefficiet til β = SP x y SS x = i x i y i ( i x i )( i y i ) i xi 2 ( i x i ) = 25 µmol l mi = 0.6 µmol l mi, og det estimerede særigsput med ordiatase til α = y β x = 70.3 µmol l µmol l mi 222 mi 25 Variase estimeres som s 2 02 = 2 (SS y SP 2 x y/ss x ). Ma får at og i SS y = y 2 i j 2 ( i y i ) = ( /25) µmol 2 l 2 = µmol 2 l 2, SP 2 x y SS x = µmol2 l 2 = µmol 2 l 2, =.4 µmol l.
59 6 Simpel lieær regressiosaalyse 8.5 Modelotrol 7 så residualvadratsumme er ( ) µmol 2 l 2 =.50 µmol 2 l 2 og s 2 02 = µmol 2 l 2 = 4.85 µmol 2 l 2, svarede til e estimeret stadardafvigelse på 2.2 µmol/l. Middelfejle på β er (jf. side 3) og middelfejle på α er s = SS x µmol l mi = 0.06 µmol l mi, ( + x2 SS x )s 2 02 = ( 25 + (222/25) ) 4.85 µmol l = 0.7 µmol l. Størrelse af de to middelfejl viser at det er passede at agive β med to decimaler og α med é, så vi må oludere at de estimerede regressioslije er 8.5 Modelotrol y =.4 µmol l µmol l mi x. Ved simpel lieær regressiosaalyse er de første og vigtigste form for modelotrol de uhyre simple at lave e tegig. I et oordiatsystem afsætter ma putere (x i, y i ), ma idteger de estimerede regressioslije og ser efter om putere fordeler sig passede tilfældigt omrig lije. E tegig a som regel også afsløre hvad der i givet fald måtte være galt med modelle. Tit a ma også foretage et umeris test for om de lieære regressiosmodel er brugbar. Det foregår ort fortalt ved at ma idlejrer regressiosmodelle i e større model, og derefter tester ma på helt sædvalig vis regressiosmodelle som e hypotese i forhold til de større model. E ødvedig forudsætig for at dette a lade sig gøre, er at der er flere y-er til det samme x; for ma bærer sig emlig ad på de måde at ma iddeler y-ere i grupper således at e gruppe ommer til at bestå af alle y-er med samme x, og som de»større model«beytter ma e esidet variasaalysemodel. Vi sal u se hvorda det ærmere går for sig. Regressiosmodelle Y i j N (α +βx i, σ 2 ) idlejres i e større model, emlig de esidede variasaalysemodel med grupper svarede til de iveauer af x: Y i j N (µ i, σ 2 ). Vi beytter så dee model som grudmodel og tester regressiosmodelle som e hypotese i forhold hertil, det vil sige vi tester hypotese H 2 µ i = α + βx i. Teststørrelse for at teste H 2 er i pricippet e votiet Q mellem to lielihoodfutiosværdier, me på samme måde som i forbidelse med esidet variasaalyse a Q omsrives til e votiet F mellem to s 2 -størrelser. Før vi specificerer disse størrelser ærmere, er det hesigtsmæssigt at opsrive e spaltig af regressiosmodelles residualvadratsum: i (y i j ( α + βx i )) 2 = (y i j y i ) 2 + i (y i ( α + βx i )) 2 (8.6) i (dee opspaltig følger af formel (7.3) på side 92 ved at erstatte µ i med α + βx i ); de tilsvarede opspaltig af frihedsgradere er 2 = ( ) + ( 2). Formel (8.6) viser hvorda residualvadratsumme, der a siges at besrive de samlede variatio omrig regressioslije, deles op i e sum af e vadratsum vedrørede variatioe ide for grupper og e vadratsum vedrørede grupperes variatio omrig regressioslije, se også figur 8.. Ved at dividere vadratsummere med deres frihedsgrader fås s 2 -størrelsere: dels de tidligere idførte s 2 02 med 2 frihedsgrader (formel (8.5) side 4) og s2 0 med frihedsgrader (side 93), dels s2 2 = 2 i (y i ( α + βx i )) 2. Teststørrelse for hypotese H 2 om at gruppemiddelværdiere fatis ligger på e ret lije, er F = s2 2/s2 0, det vil sige grupperes variatio omrig lije målt i forhold til variatioe ide for gruppere. Store værdier af F er sigifiate, og hvis H 2 er rigtig, vil F følge F-fordelige med frihedsgrader 2 og, så testsadsylighede ε er givet som ε = P(F 2, > F obs ) der bestemmes ved hjælp af e tabel over F-fordelige. Hvis ε er meget lille (og F dermed er sigifiat stor), så må vi foraste liearitetshypotese H 2. Så står vi tilbage med de esidede variasaalysemodel Y i j N (µ i, σ 2 ) hvor parametree µ, µ 2,..., µ estimeres ved y, y 2,..., y, og σ 2 estimeres ved s0 2 med frihedsgrader. Hvis ε ie er meget lille (og F dermed ie er sigifiat stor), a vi godtage de lieære regressiosmodel Y i j N (α + βx i, σ 2 ) hvor parametree α og β estimeres ved α og β, og σ 2 estimeres ved s02 2 med 2 frihedsgrader (jf. side 4). Bemær i øvrigt, at vadratsumme vedrørede grupperes variatio omrig lije ifølge formel (8.6) a srives som i i (y i ( α + βx i )) 2 = (y i j ( α + βx i )) 2 (y i j y i ) 2. i
60 8 Simpel lieær regressiosaalyse 8.5 Modelotrol 9 samlet variatio omrig regressioslije: i (y i j ( α + βx 2 i)) 2 frihedsgrader variatio ide for grupper: i (y i j y i ) 2 frihedsgrader grupperes variatio omrig regressioslije: Tabel 8.5 Kvælig af hude: Nogle hjælpestørrelser til beregigere. i i i i y i j y i f i (y i j y i ) 2 s 2 i sum geemsit i(y i ( α + βx i)) 2 variatio mellem grupper: 5 2 frihedsgrader regressioslijes variatio: i(y i y) 2 frihedsgrader oc 0 5 i(( α + βx i) y) 2 frihedsgrad tid de totale variatio: i (y i j y) 2 frihedsgrader Figur 8. Sematis oversigt over ogle af de i apitlet foreommede vadratsummer med tilhørede frihedsgrader. Esempel 8.5 (Kvælig af hude, fortsat) Vi vil udersøge om det a atages at hypoxatiocetratioe afhæger lieært af hypoxies varighed. Da vi er i e situatio hvor der er e del y-er til hvert x, er det muligt at udføre det umerise test for modelle. Vi har tidligere (side 5 ff) bestemt de talværdier der i givet fald er de bedste estimater over parametree, og derved fudet de estimerede regressioslije til y =.4 µmol l µmol l mi x. I figur 8.2 er idteget dels sammehørede værdier af varighed og ocetratio, dels de Figur 8.2 Kvælig af hude: Sammehørede værdier af hypoxatiocetratio og hypoxivarighed, samt de estimerede regressioslije. estimerede regressioslije. Efter tegige at dømme er de lieære regressiosmodel ie helt he i vejret. I håbet om at ue bestyre troe på modelle vil vi udføre det umerise test for de lieære model. Som midlertidig grudmodel vil vi beytte e esidet variasaalysemodel baseret på de fire grupper bestemt af x-ere. Idledigsvis udreges forsellige hjælpestørrelser mm., se tabel 8.5. Det fremgår bladt adet at de vadratsum der besriver variatioe mellem grupper, er 0.32 med 2 frihedsgrader. På side 6 fadt vi regressiosmodelles residualvadratsum til.50 med 23 frihedsgrader, så vadratsumme hørede til grupperes variatio omrig regressioslije er = 0.8 med 23 2 = 2 frihedsgrader. Teststørrelse for hypotese om at gruppemiddelværdiere ligger på e ret lije, er da F = 0.8/2 0.32/2 = =.06 der sal sammeliges med F-fordelige med 2 og 2 frihedsgrader, og i dee fordelig er der mere ed 30% sadsylighed for at få e værdi som er større ed de observerede, der altså på ige måde er sigifiat. Vi har således fået beræftet liearitetshypotese.
61 20 Simpel lieær regressiosaalyse 8.6 Test af hypoteser om lijes parametre 2 Tabel 8.6 Kvælig af hude: Variasaalysesema vedrørede test af liearitetshypotese. I semaet står f for atal frihedsgrader, SS for sum af vadratise afvigelser, og s 2 = SS/ f. variatio f SS s 2 test ide for grupper grupperes var. omrig regr.lije /4.82=.06 samlet variatio omrig regr.lije Traditioelt opsummerer ma udregiger og testresultater i et variasaalysesema, se tabel 8.6. Variasaalysemodelle såvel som de lieære regressiosmodel forudsætter at der er variashomogeitet, så det a ma jo også teste. Vi idsætter s 2 -værdiere fra tabel 8.5 i Bartletts teststørrelse og får B = (6 l l l + 6 l ) = 5.5 der sal sammeliges med χ 2 -fordelige med = 3 frihedsgrader. Tabelopslag viser at der er over 0% chace for at få e større B-værdi ed værdie 5.5 som derfor ie er sigifiat stor. Med adre ord a vi opretholde atagelse om variashomogeitet. Alt i alt er der således ie oget der taler imod at vi besriver hypoxidataee med e lieær regressiosmodel med hypoxivarighed som uafhægig variabel og hypoxatiocetratio som afhægig variabel. 8.6 Test af hypoteser om lijes parametre Ma a aturligvis teste hypoteser om regressioslijes parametre. Fremgagsmåde er de samme som altid: først estimeres parametree i grudmodelle og uder hypotese, deræst udreges votiete Q mellem de to masimale lielihoodfutiosværdier, og edelig bestemmes sadsylighede for at få et værre sæt observatioer, dvs. et sæt observatioer der giver et midre Q. Som ved alle adre tests af hypoteser der har med middelværdier i ormalfordelige at gøre, a Q omsrives til e F-størrelse der er lettere at have med at gøre, og år der er tale om hypoteser om e eelt parameter, a ma som e yderligere forsimplig beytte e t-teststørrelse der måse er mere forståelig. Vi sal ie her omme id på de ærmere detaljer, me blot forlare hvorda teststørrelsere ommer til at se ud i disse specielle tilfælde. Hypotese β = 0 Hvis ma vil teste hypotese H 3 β = 0 om at regressiosoefficiete er 0, dvs. at y ie afhæger (lieært) af x, så bliver F-teststørrelse F = s3 2/s2 02, hvor s2 02 er det bedste variasestimat uder de atuelle model, se side 0, og hvor s 2 3 = i (( α + βx i ) y) 2 = β 2 SS x = SP 2 x y/ss x er de såaldte regressioslijes variatio. Store værdier af F er sigifiate. Der gælder at F = t 2 hvor β t = s 2 02 /SS x er estimatet β divideret med de estimerede stadardafvigelse (dvs. de estimerede middelfejl) på β, jf. side 3. Ma a sige at t-størrelse måler hvor lagt β ligger fra de formodede værdi 0 år ma beytter middelfejle som målesto. Store værdier af t er sigifiate. Ma a bevise at uder H 3 vil t være t-fordelt med det atal frihedsgrader som s 2 02 har, dvs. med 2 frihedsgrader. Det betyder at testsadsylighede a fides ved hjælp af tabeller over t-fordelige som ε = P( t 2 > t obs ) = 2 P(t 2 > t obs ). (Hvis ma vil beytte F som teststørrelse, er ε = P(F, 2 > F obs ).) Hvis hypotese H 3 a godedes, sal ma udrege et revideret estimat over α og et forbedret estimat over variase σ 2. Hypotese H 3 betyder at de forlarede variabel x ie er ødvedig, me at alle Y-er har samme middelværdi α, dvs. der er tale om et estiprøveproblem. Uder H 3 er estimatet over α derfor totalgeemsittet y, og estimatet over σ 2 er s03 2 i = (y i j y) 2. Hypotese α = 0 Udertide følger det af de faglige problemstillig at lije sal gå geem (0, 0), dvs. at α = 0, i adre situatioer a ma være iteresseret i at teste hypoteser om α blot for at å til e så simpel besrivelse af data som muligt. Hvis ma øser at teste hypotese H 4 α = 0 om at lije går geem (0, 0), a det gøres med F-teststørrelse F = s 2 4 /s2 02, hvor s 2 4 er»vadratsumme«ss x α 2 SS x + x 2 divideret med sit frihedsgradsatal, og s2 02
62 22 Simpel lieær regressiosaalyse 8.7 Reg og teg 23 er variasestimatet uder liearitetshypotese. Store værdier af F er sigifiate. Der gælder at F = t 2 hvor α t = s02 2 ( + x2 SS x ) er forholdet mellem estimatet α over α og de estimerede middelfejl på α. Store værdier af t er sigifiate. Ma a bevise at uder H 4 vil t følge t-fordelige med samme atal frihedsgrader som variasestimatet i ævere, dvs. 2 frihedsgrader. Det betyder at testsadsylighede a fides ved hjælp af tabeller over t-fordelige som ε = P( t 2 > t obs ) = 2 P(t 2 > t obs ). Hvis hypotese H 4 a godedes, sal ma udrege et revideret estimat over regressiosoefficiete β og et forbedret estimat over σ 2. Det ye estimat over β bliver og estimatet over σ 2 bliver i β = s04 2 = (y i j βxi ) 2 = 8.7 Reg og teg Hypoxi-esemplet i x i y i, i x 2 i ( i y 2 i j β2 i x 2 i ). Data fides i e separat fil som i edeståede ode-esempel hedder hypoxi.dat, og hvis første lijer ser såda ud: tid oc Her er oget R-ode der viser hvorda ma a få udført tegiger og beregiger: # Tallee idlæses til datastruture hypoxi som får to søjler # som får avee hypoxi$tid og hypoxi$oc : hypoxi <- read.table("hypoxi.dat", header=true, rows=50) # plot værdiere: plot(hypoxi, las=) # Herefter fitter lm e ret lije; modelformle oc~tid fortæller # at oc sal være y og tid sal være x. # Resultatere gemmes i M og udsrives (taet være være summary): summary(m <- lm(oc ~ tid, data=hypoxi)) # Idteg lije. Så har vi figur 8.2. ablie(coef(m)) # Derefter sammeliger vi med modelle hvor de fire grupper (defieret ved x) # har samme middelværdi. # Futioe as.factor sørger for at tid bliver brugt til at defiere # grupper med, og leddet - fortæller at der ie sal være et separat ostatled. # Putummet på vestre side af modelformle.~as.factor(tid)- # i update-aldet betyder»idsæt vestreside af Ms modelformel«. M0 <- update(m,. ~ as.factor(tid)-) # aova tester M i forhold til M0; herved fås tallee til tabel 8.6: aova(m, M0) Vedr. opgavere E del af datasættee idgår i R-distributioe. Det gælder: Ascombes data (opgave 8.): Sriv data(ascombe). Derved idlæses tallee i e data.frame ascombe med de variable x, x2, x3, x4, y, y2, y3 og y4, og f.es. datasæt består så af ascombe$x og ascombe$y. Forbes data (opgave 8.2): Sriv require(mass) og derefter data(forbes). Derved idlæses tallee i e data.frame forbes med de to variable bp ( boilig poit ) og pres ( pressure ). Herefter a ma srive f.es. plot(forbes) og lm(pres ~ bp, data=forbes) Legemsvægt og hjerevægt (opgave 8.4): Der fides et datasæt af samme art i R-distributioe. Sriv require(mass) og deræst data(aimals), derved idlæses e data.frame Aimals. Herefter a ma f.es. afprøve R s iterative grafi: sriv plot(log(aimals)) for at få et plot af logaritme til hjerevægt mod logaritme til legemsvægt. Sriv så idetify(log(aimals), labels=row.ames(aimals)) og gå id på grafividuet og vestreli på et af dataputere.
63 24 Simpel lieær regressiosaalyse 8.8 Opgaver 25 Tabel 8.7 Ascombes data (opgave 8.). datasæt datasæt 2 datasæt 3 datasæt 4 x y x y x y x y Opgaver Opgave 8. (Ascombes data) I tabel 8.7 er vist fire forsellige sæt af talpar (x, y) der a uderastes e lieær regressiosaalyse. (Tallee er ostrueret til formålet af Ascombe [3].) Hvis ma ie tæte ærmere over det, ue ma måse fide på at bære sig ad som om tallee y, y 2,..., y i et givet datasæt var observerede værdier af uafhægige stoastise variable Y, Y 2,..., Y hvor Y i var ormalfordelt med middelværdi α + βx i og varias σ 2.. Udreg for hvert datasæt estimatere α, β og s 2 02 over parametree α, β og σ Lav for hvert datasæt et såaldt scatterplot, dvs. e tegig med putere (x i, y i ). Idteg de estimerede regressioslije. 3. Hvad a ma lære heraf? Opgave 8.2 (Forbes barometrise måliger) Som beedt aftager lufttryet med højde over havets overflade, og derfor a et barometer beyttes som højdemåler. Imidlertid a ma også bestemme højde ved at oge vad, fordi vads ogeput aftager med lufttryet. I 840ere og 850ere foretog de sotse fysier Forbes [6] måliger på 7 forsellige loaliteter i Alpere og i Sotlad. Hvert sted bestemte ha dels vads ogeput, dels luftes try (omreget til lufttryet ved e stadardlufttemperatur). Resultatere er vist i tabel 8.8 (fra [23]).. Lufttryet er agivet i iches Hg. Nutildags måles lufttry i hpa (hetopascal = millibar). Hvorda omreger ma lufttryee til hpa? Kogeputere er agivet i F. Hvorda omreger ma dem til C? Tip: Der gælder at ich = 2.54 cm og 760 mm Hg = hpa. Edvidere svarer 0 C til 32 F og 00 C til 22 F. 2. Meige med esperimetet er at udersøge om og hvorda ma a forudsige lufttryet (og dermed højde over havet) på grudlag af e bestemmelse af vads ogeput. Lav et scatterplot for at se om det sulle være muligt. Tabel 8.8 Forbes barometrise måliger (opgave 8.2). Kogeputet er agivet i F, lufttryet i iches Kvisølv. Kogeput Lufttry Bestem de rette lije der fitter putere bedst. Idteg de estimerede lije i figure. Hvorda passer lije til putere? 4. Fysiere a fortælle os at det måse ie er lufttryet selv der afhæger lieært af ogeputet, me sarere logaritme til lufttryet. (Der er med god tilærmelse e lieær sammehæg mellem logaritme til tryet og de reciproe af de absolutte temperatur T. For tal i de størrelsesorde som vi her har med at gøre, er T imidlertid stort set e lieær futio af T.) Derfor a ma forsøge sig med logaritme til lufttryet i stedet for. Bliver det bedre af det? Hvis ma sal have oge pratis forøjelse af sådae ogeputsbestemmelser, er ma ødt til at ede de rigtige sammehæg mellem højde og lufttry. Sålæge vi holder os til bjerghøjder, aftager lufttryet espoetielt med højde, og der gælder at hvis lufttryet ved havets overflade er p 0 (f.es hpa) og lufttryet i højde h er p h, så er h 850 m l p0 ph. Opgave 8.3 (Hydrolyserig af urea i sedimeter) Talmaterialet til dee opgave stammer fra e udersøgelse af sedimeter fra Norsmide Fjord, foretaget af Bete Lómstei, Istitut for geeti og øologi, Århus Uiversitet. Formålet med udersøgelse var at bestemme de rate hvormed urea (CO(NH 2 ) 2 ) hydrolyseres til NH + 4 og CO 2 i sedimetet fra fjorde. E del af udersøgelse bestod i at ma idsprøjtede e spormægde af radioativt mæret urea, 4 CO(NH 2 ) 2, i et atal sedimeterer, og derefter målte ma hvor meget 4 CO 2 der udsiltes på forsellige tidsputer.
64 26 Simpel lieær regressiosaalyse 8.8 Opgaver 27 Tabel 8.9 Opgave 8.3: De specifie ativitet i sedimetprøver efter forsellige atal miutters forløb. tid x specifi ativitet y Tabel 8.0 Opgave 8.3: Nogle hjælpestørrelser. i i x i i y i i x i y i i xi 2 y 2 i j j (y i j y i ) 2 j sum Der blev idsprøjtet 4 CO(NH 2 ) 2 i 20 sedimeterer, og efter heholdsvis 28.5, 72, 09 og 4 miutters forløb udtog ma fem af disse erer og målte de specifie ativitet af 4 CO 2. Måleresultatere ses i tabel 8.9, hvor 4 CO 2 -ativitete agives i dpm (disitegratios per miute) pr. µl porevadsprøve.. Lav e tegig der viser de fatise måleresultater efter de forsellige atal miutters forløb. 2. Udersøg ved hjælp af e esidet variasaalyse om der er sigifiat forsel på de specifie ativitet efter de forsellige atal miutters forløb. 3. Ma har e formodig om at de specifie ativitet afhæger lieært af tide. Estimér regressioslije og idteg de i figure. 4. Da der er flere måliger til hvert tidsput, a ma udføre et umeris test for om de specifie ativitet afhæger lieært af tide. Gør det. 5. Hvor stor er middelfejle på de estimerede parametre? I tabel 8.0 er opgivet forsellige hjælpestørrelser, og tabel 8. viser (dele af) et variasaalysesema; idholdet af disse tabeller a måse være til hjælp ved besvarelse af de oveståede spørgsmål. Opgave 8.4 (Pattedyrs legemsvægt og hjerevægt) Ma ue umiddelbart forestille sig at store dyr har e større hjere ed små dyr eller er det måse de mere itelligete dyr der har de store hjerer? I tabel 8.2 på æste side vises de geemsitlige legemsvægt og de geemsitlige hjerevægt for et atal pattedyr (fra [], jf. Tabel 8. Opgave 8.3: Dele af et variasaalysesema. Variatio f SS s 2 ide for grupper mellem grupper total ide for grupper grupperes variatio omrig regressioslije omrig regressioslije regressioslije total også [23]). Dyree er ordet efter legemsvægt. Opgave er u at udersøge hvorda hjeres vægt afhæger af legemsvægte.. Hvorda vil et scatterplot af hjerevægt mod legemsvægt (dvs. med legemsvægt som x og hjerevægt som y) se ud? Ma vil få e mere oversuelig fremstillig af tallee ved at afsætte logaritme til hjerevægt mod logaritme til legemsvægt, se figur 8.3 side Nogle biologer meer at der ue tæes at gælde e relatio af type hjerevægt = ostat legemsvægt 2/3 (8.7) Begrudelse sulle være at hjeres størrelse og dermed vægt er proportioal med dyrets overflade (der sal være erveforbidelser ud til alle puter på overflade), hvorimod legemets vægt er proportioal med dyrets rumfag. Da overflade er proportioal med rumfag 2/3, år ma alt i alt til formel (8.7). a) Præcisér dette argumet. Tip: Hvis ma havde et matematis model-dyr som var ugleformet eller terigeformet, så ue ma let fide både dets overflade og dets rumfag. Hvad med rigtige dyr? b) Hvis formel (8.7) gælder, hvile sammehæg er der da mellem logaritme til hjerevægt og logaritme til legemsvægt? Hvorda harmoerer formodige (8.7) med de observerede data? (Det har æppe meig at udrege e teststørrelse for hvad er de statistise model? Me til orieterig a det oplyses at hypotese H β = β 0 i de sædvalige β β0 regressiosmodel testes med t = der er t-fordelt med 2 frihedsgrader.) s 2 02 /SSx 3. Hvorda a ma geerelt fide de bedste rette lije med e give hældig β 0? Tip: y = α + β 0 x y β 0 x = α. 4. Fid i det orete esempel de bedste rette lije (i log-log figure) med hældig 2/3 og idteg de. (Geemsittet af værdiere af l(legemsvægt) er.338 og geemsittet af værdiere af l(hjerevægt) er 3.40.)
65 28 Simpel lieær regressiosaalyse 8.8 Opgaver 29 Tabel 8.2 Legemsvægt og hjerevægt for 62 pattedyrearter. art legemsvægt (g) hjerevægt (g) afrias elefat asiatis elefat giraf hest o oapi gorilla svi æsel brasilias tapir jaguar gråsæl meese æmpebæltedyr får chimpase gråulv æguru ged rådyr bavia husarabe rhesusabe vasebjør rød ræv grø mareat gulbuget murmeldyr lippegrævlig a ibæltet bæltedyr pugodder polarræv at myrepidsvi ai trægrævlig b ordamerias opossum usus geette plump-lori a Procavia habessiica b Dedrohyrax (fortsættes) (tabel 8.2 fortsat) art legemsvægt (g) hjerevægt (g) bævereger marsvi afrias æmpepugrotte artis jordeger a børstesvi pidsvi lippegrævlig b ørepidsvi atabe chichilla rotte galago muldvarpegaver guldhamster træspidsmus eger østamerias muldvarp stjeremuldvarp bisamrotte stor bru flagermus mus lille bru flagermus lille orthalet spidsmus a Citellus (Spermophilus) udulatus ablusus b Heterohyrax brucci
66 30 Simpel lieær regressiosaalyse 8 logaritme til hjerevægt logaritme til legemsvægt Figur 8.3 Opgave 8.4: Logaritme til hjerevægt afsat mod logaritme til legemsvægt. 9 Multipel lieær regressiosaalyse Ofte øser ma at opbygge e regressiosmodel der iddrager mere ed é forlarede variabel. Vi vil i dette apitel betragte de situatio hvor der for hvert af et atal»idivider«foreligger dels e observatio y, dels værdier x, x 2,..., x p af p baggrudsvariable: Til idivid r. i hører observatioe y i og værdiere x i, x i2,..., x i p af de forlarede variable. Sematis ser det såda ud: baggrudsvariable observatio x x 2... x p y x 2 x x 2p y 2 x x 2... x p y De statistise model for y-ere idrettes på følgede måde: Tallee y, y 2,..., y er observerede værdier af stoastise variable Y, Y 2,..., Y. De stoastise variable Y, Y 2,..., Y er uafhægige og ormalfordelte med samme varias σ 2. x-ere betragtes som faste tal de er altså ie observerede værdier af stoastise variable. Middelværdie af de i-te målig a srives som α + x i β + x i2 β x ip β p, dvs. som e liearombiatio af p + uedte parametre α, β, β 2,..., β p med oefficietere x i, x i2,..., x ip : E Y i = α + p x i j β j, i =, 2,...,. Af æstetise grude idfører ma gere e estra baggrudsvariabel x 0 der er lig med for alle i, og samtidig alder ma α for β 0. Så a ma emlig srive α + p j=0 x i j β j, og modelle a ort formuleres som E Y i = p p j=0 x i j β j eller bedre p x i j β j som Y i N ( x i j β j, σ 2 ). (9.) j=0 3
67 32 Multipel lieær regressiosaalyse 9.2 Modelotrol 33 Dee model er e såaldt multipel lieær regressiosmodel. De besriver y-eres systematise variatio ved hjælp af de p + parametre β 0, β, β 2,..., β p plus de edte ostater x i j, og de besriver de tilfældige variatio ved hjælp af ormalfordelige og variasparametere σ Estimatio af parametree Som altid estimeres modelles parametre ved at masimalisere lielihoodfutioe der i dette tilfælde er L(β 0, β, β 2,..., β p, σ 2 ) = exp( 2πσ 2 = ( 2πσ 2 ) exp( 2σ 2 p 2σ 2 (y i x i j β j ) 2 ) j=0 p (y i x i j β j ) 2 ). Heraf ses at de bedste estimater over β-ere er dem der miimaliserer vadratsumme p (y i x i j β j ) 2. j=0 De geerelle metoder til miimaliserig af futioer af flere variable fortæller at miimumsputet fides som det put hvor alle de p + partielle afledede mht. de p + β-er er lig 0. Hvis ma sriver op hvad det betyder og omsriver e smule, år ma frem til p + ligiger med de p + ubeedte β 0, β, β 2,..., β p. De j-te af disse såaldte estimatiosligiger er a j0 β 0 + a j β + a j2 β a jp β p = x i j y i hvor a j = x i j x i, j = 0,, 2,..., p; = 0,, 2,..., p. Ved at løse de p + ligiger får ma estimatere β 0, β, β 2,..., β p. (I matrix-otatio a estimatiosligigere srives ort som (X X)β = X y med løsig β = (X X) X y.) Estimatiosligigere har»som oftest«etop é løsig. Udertide er der uedelig mage løsiger; det er tilfældet hvis e af de forlarede variable er overflødig i de forstad at de ie ideholder ade iformatio ed hvad der allerede er ideholdt i de øvrige. Mere præcist gælder at ligigere har e etydig løsig hvis og u hvis det ie er muligt at udtrye oge af de forlarede variable som e liearombiatio af de øvrige. I sådae situatioer plejer ma at fjere de eller de overflødige variable. j=0 Sluttelig a ma udrege residualvadratsumme (y i x i j β j ) 2 og variasestimatet der har (p + ) frihedsgrader. 9.2 Modelotrol s0 2 = (p + ) p p j=0 (y i x i j β j ) 2 (9.2) I tilfældet p =, dvs. simpel lieær regressio, a ma otrollere modelle ved hjælp af ele tegiger. Det lader sig ie gøre år p er større ed, så der må ma fide på adre metoder. É tig der er foruftig at foretage sig, er at udrege residualere j=0 e i = y i x i j β j og se hvorda de fordeler sig. Hvis modelle (9.) er rigtig, er de teoretise residualer y i p j=0 p j=0 x i j β j uafhægige N (0, σ 2 )-fordelte. Vi eder u de empirise residualer e, e 2,..., e ; det a vises at hvis modelle er rigtig, så vil de empirise residualer være N (0, σ 2 )-fordelte og æste uafhægige jo flere frihedsgrader der er, jo mere uafhægige er de. Ma a derfor udføre forsellige residualplot der måse a afsløre om residualere er ogelude uafhægige og ormalfordelte. I afsit 8.5 omtaltes et umeris test for liearitetshypotese. Dette test ue udføres år der var flere y-værdier til hvert eelt x, idet ma så ue idføre ogle grupper og bestemme e variatio ide for grupper. Når der er tale om multipel regressiosaalyse a ma gøre oget tilsvarede, forudsat at der er flere y-værdier for hvert eelt sæt værdier (x, x 2,..., x p ) af de forlarede variable. Dee forudsætig er sædvaligvis u opfyldt hvis ma har sørget for det ved plalægige af forsøget. Variassøet s 2 0 Størrelse af variassøet s0 2 fortæller ie oget om hvor godt modelle passer, u oget om hvor meget putere varierer omrig regressiosflade; e stor værdi af s0 2 a meget vel syldes at der simpelthe er stor tilfældig variatio på de slags y-måliger som ma u har med at gøre, modelles øvrige valiteter ufortalte. Derimod a det udertide være foruftigt at beytte størrelse af s0 2 som riterium år ma sal udvælge baggrudsvariable. Hvis der esempelvis er 20 baggrudsvariable at vælge imellem, og ma har besluttet sig for højst at ville have tre med i si model, så a det være foruftigt at vælge de tre der giver de midste s0 2. Ma bør dog også sele
68 34 Multipel lieær regressiosaalyse 9.3 Udvælgelse af baggrudsvariable 35 til om de tre der derved bliver udvalgt, virer som foruftige baggrudsvariable i de give sammehæg. Determiatiosoefficiete R 2 Nogle brugere af regressiosaalyse er meget begejstrede for de såaldte determiatiosoefficiet R 2 eller vadratet på de multiple orrelatiosoefficiet, der i e vis forstad udtaler sig om grade af overesstemmelse mellem de observerede værdier y, y 2,..., y og de fittede værdier ŷ i = p j=0 x i j β j. Ma a udrege R 2 efter e af følgede to formler: ( (y i y)(ŷ i y)) 2 R 2 =, (9.3) (y i y) 2 (ŷ i y) 2 (ŷ i y) 2 R 2 =. (9.4) (y i y) 2 Formel (9.3) viser at R 2 er vadratet på orrelatiosoefficiete mellem de observerede og de fittede værdier. Formel (9.4) viser at R 2 er et udtry for hvor stor e del af de samlede variatio omrig totalgeemsittet der besrives af modelle. Der er dem der meer at R 2 derfor også er et udtry for hvor godt modelle passer, me prøv så at udrege R 2 for de fire datasæt i opgave 8.! Bemær at R 2 u a beyttes år der er et ostatled med i regressioe. 9.3 Udvælgelse af baggrudsvariable Udertide foreligger der et større sortimet af baggrudsvariable, og i første omgag ue ma måse fristes til at tro at jo flere baggrudsvariable ma iddrager, jo bedre. Det er selvfølgelig rigtigt at jo flere baggrudsvariable ma medtager, jo øjagtigere et fit a ma få, me det er ie ødvedigvis det der er meige med at beytte e statistis model. Formålet med at beytte statistise modeller er at få e redutio af data, og det vil bladt adet sige at ma sal stræbe efter e statistis model med væsetligt færre baggrudsvariable (og dermed parametre) ed atallet af observatioer. I det hele taget sal ma holde sig det pricip efterretteligt som går uder avet Ochams rageiv, og som siger at ma ie sal atage esistese af flere tig ed ødvedigt. Det a foreomme at ma har mage flere baggrudsvariable ed ma med rimelighed a have med i modelle, og så er ma stillet over for de opgave at udvælge e passede delmægde af dem. Det første riterium må da være at ma u bør medtage variable der a tæes at have oget at gøre med de y-variabel der er tale om. Derudover sal ma have fat i et sæt baggrudsvariable der gør s0 2 forholdsvis lille. Bemær i dee forbidelse at ma i udtryet for s0 2 tager hesy til atallet af baggrudsvariable (formel (9.2)). Når ma sal afgøre hvile baggrudsvariable der måse a udværes, a ma beytte sig af at ma for hver eelt variabel med et t-test a vurdere om de tilsvarede parameter er sigifiat forsellig fra 0, dvs. om variable har e sigifiat virig. Atag f.es. at ma har e model med p baggrudsvariable samt e ostat, og at ma øser at udersøge om variabel r. behøver være med i modelle. Så udreger ma β t = estimeret middelfejl på β og sammeholder resultatet med t-fordelige med (p + ) frihedsgrader (t-teststørrelse arver sit frihedsgradsatal fra s0 2 ). Hvis t er tæt på ul, vil ma acceptere hypotese om at β er ul, og det betyder at ma a se bort fra baggrudsvariabel r. og altså gå videre med e reduceret model med u p baggrudsvariable; hvis t er lagt fra ul, er β sigifiat forsellig fra 0, dvs. baggrudsvariabel r. har e sigifiat virig og sal derfor forblive i modelle. Esempel 9. (Idiaere i Peru) Ædriger i meesers livsbetigelser a give sig udslag i fysiologise ædriger, esempelvis i ædret blodtry. E gruppe atropologer har udersøgt hvorda blodtryet ædrer sig hos peruviase idiaere der flyttes fra deres opridelige primitive samfud i de høje Adesbjerge til de såaldte civilisatio, dvs. storbye, der i øvrigt ligger i lagt midre højde over havets overflade ed deres opridelig bopæl ([5], her citeret efter [9]). Atropologere udvalgte e stiprøve på 39 mæd over 2 år der havde udergået e såda flytig. På hver af disse måltes blodtryet (både det systolise og det diastolise) samt e ræe baggrudsvariable, heribladt alder, atal år side flytige, højde, vægt og puls. Dertil ommer e bereget baggrudsvariabel, emlig»brødel af livet levet i de ye omgivelser«, dvs. atal år side flytig divideret med uværede alder. Ma forestillede sig at dee baggrudsvariabel ue have stor»forlarigseve«. Her vil vi ie se på hele talmaterialet, me u på blodtryet (det systolise) der sal optræde som y-variabel, og på de to x-variable brødel af livet i de ye omgivelser og vægt. Disse er agivet i tabel 9. (fra [9]). Atropologere meer at x (brødel levet i de ye omgivelser) er et godt mål for hvor læge persoere har levet i de civiliserede omgivelser, og at det derfor må være iteressat at se hvor godt x a forlare blodtryet y. Første sridt er derfor at fitte e simpel lieær regressiosmodel med x som forlarede variabel. Ma fider de estimerede regressioslije til y = 34 6x ; det tilhørede variasestimat er 63 med 37 frihedsgrader.
69 36 Multipel lieær regressiosaalyse 9.4 Reg og teg 37 Tabel 9. Idiaere i Peru: Sammehørede værdier af y: systolis blodtry (mm Hg), x : brødel af livet i de ye omgivelser, og x 2 : vægt (g). y x x 2 y x x Hvis ma i et oordiatsystem afsætter y mod x, viser det sig imidlertid, se figur 9., at det bestemt ie virer særlig rimeligt at hævde at (middelværdie af) y afhæger lieært af x. Derfor må ma give sig til at overveje om adre af de målte baggrudsvariable med fordel a iddrages. Nu ved ma at e persos vægt har betydig for de pågældedes blodtry, så æste modelforslag er e multipel regressiosmodel med både x og x 2 som forlarede variable. Estimatere over parametree β 0, β og β 2 i regressiosligige y = β 0 + x β + x 2 β 2 bestemmes som løsig til estimatiosligigere (jf. side 32) 39 β β β 2 = β β β 2 = β β β 2 = Ma fider at β 0 = , β = og β 2 =.2726, så de estimerede regressiosligig er y = 6 27x +.2x 2, og variasestimatet bliver dee gag 96 med 36 frihedsgrader. Det ses at ved at iddrage x 2 er variase gået drastis ed, fra 63 til 96. Deraf a ma dog ie slutte at de ye regressiosligig giver e god besrivelse af data, u at de er bedre ed de forrige. Ma bør udersøge residualere for at ue vurdere modelles valitet det vil vi u ie gøre her. Når ma lader et statistiprogram foretage udregigere, vil ma også få oplyst parameterestimateres middelfejl (eg.: stadard error ) og få at vide om parametree hver især er blodtry brødel Figur 9. Idiaere i Peru: Scatterplot-matrix over de tre variable systolis blodtry, brødel af livet i de ye omgivelser, og vægt. sigifiat forsellige fra 0. I det orete tilfælde får ma at vide at år ma u bruger x, så er oefficiete til x ie sigifiat forsellig fra 0, me år ma beytter både x og x 2, så er alle oefficieter sigifiat forsellige fra 0. Det a ma udlægge på de måde at blodtryet afhæger sigifiat af både x og x 2 således at jo lægere ma har levet i de ye omgivelser, jo lavere blodtry, og jo større vægt ma har, jo højere blodtry; me da det o også er såda at jo lægere tid ma har boet i»civilisatioe«, desto mere vejer ma, så vil de to viriger udjæve hiade hvis ma ie sørger for at iddrage begge forlarede variable. 9.4 Reg og teg Peru-esemplet Her er e udsrift af e R-sessio hvor Peru-tallee (esempel 9.) aalyseres. Datamaterialet idlæses fra e fil ved av peru.dat; de første lijer i dee fil er blodtry del vaegt vægt
70 38 Multipel lieær regressiosaalyse 9.5 Opgaver 39 Her er R-ørsle (brugere har srevet de lijer der begyder med >, scatterplotmatrice fremstilles med futioe pairs, regressiosmodellere fittes med lm): > peru <- read.table("peru.dat", rows = 50, header = TRUE) > pairs(peru, labels = c("blodtry", "brødel", "vægt")) > summary(m <- lm(blodtry ~ del, data = peru)) Call: lm(formula = blodtry ~ del, data = peru) Residuals: Mi Q Media 3Q Max Coefficiets: Estimate Std. Error t value Pr(> t ) (Itercept) <2e-6 *** del Sigif. codes: 0 *** 0.00 ** 0.0 * Residual stadard error: 2.77 o 37 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: o ad 37 DF, p-value: > summary(m2 <- update(m,. ~ del + vaegt)) Call: lm(formula = blodtry ~ del + vaegt, data = peru) Residuals: Mi Q Media 3Q Max Coefficiets: Estimate Std. Error t value Pr(> t ) (Itercept) *** del *** vaegt e-06 *** --- Sigif. codes: 0 *** 0.00 ** 0.0 * Residual stadard error: o 36 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: 6.8 o 2 ad 36 DF, p-value: 9.725e-06 > aova(m, M2) Aalysis of Variace Table Tabel 9.2 Opgave 9.: Flowrate i forsellige vaddybder. dybde flowrate Model : blodtry ~ del Model 2: blodtry ~ del + vaegt Res.Df RSS Df Sum of Sq F Pr(>F) e-06 *** --- Sigif. codes: 0 *** 0.00 ** 0.0 * Vedr. opgave 9.2 Data til opgave 9.2 følger med R-programmet. Sriv data(trees) for at hete dem id i arbejdsområdet, og sriv trees for at se tallee. Ma a få hjælp med?trees. 9.5 Opgaver Opgave 9. (Vads strømigsforhold i e flod) I forbidelse med e udersøgelse af vads strømigsforhold i e flod har ma på et bestemt sted målt flowrate i forsellige dybder. Flowrate er de mægde vad der passerer et givet tværsit af flode i et givet tidsrum (så de måles altså i f.es. m 3 pr. m 2 pr. seud). Måleresultatere ses i tabel 9.2. Opgave er at give e simpel besrivelse af sammehæge mellem flowrate og vaddybde. (Hydrologer a siert opstille foremme differetialligigsmodeller der besriver dee sammehæg, forudsat at flodes sider og bud ie er alt for uregelmæssige. Det er slet ie det vi er ude efter her. Statistiere søger blot efter e simpel besrivelse af de empirise data.). Lav et scatterplot af flowrate mod dybde. Ser putere ud til at ligge på e ret lije? 2. Bereg de bedste rette lije og idteg de (det er altid lettere at vurdere om puter ligger omrig e bestemt urve år ma har urve og puter i samme tegig).
71 40 Multipel lieær regressiosaalyse Tabel 9.3 Opgave 9.2: Diameter d (i iches), højde h (i feet) og rumfag v (i ubifeet) for 3 sortirsebærtræer. d h v d h v Ma ue forestille sig at e adegradsurve ville give e bedre besrivelse af putere. Opstil og løs de estimatiosligiger der bestemmer de bedste adegradsurve. Tip: Dvs. foretag e multipel regressio med de to forlarede variable x = dybde og x 2 = dybde 2. Er adegradsurve bedre ed de rette lije? Hvorfor? 4. Hvad er olusioe mht. sammehæge mellem flowrate og vaddybde? Opgave 9.2 (Træers rumfag) Ide for sovbruget er ma iteresseret i at ue vurdere et træs idhold af tømmer, dvs. dets rumfag, ude alt for stort besvær. Nogle størrelser der er emme at bestemme, er diameter og højde, og det ville være pratis hvis ma ue forudsige et træs rumfag så ogelude ud fra disse to størrelser. Ma har derfor målt diametere d (i e højde af 4.5 feet over jorde), højde h og rumfaget (volumeet) v for 3 træer af e bestemt slags (sortirsebærtræer i Alleghey Natioal Forest, Pesylvaia). Resultatere er vist i tabel 9.3 (fra [9], opridelig fra [4]). Opgave er u at udersøge, om ma med e simpel statistis model a bestemme v ud fra edsab til d og h, og i givet fald hvorda og hvor godt. Tip: Der er mulighed for forsellige regressiosaalyser. Ma a også prøve at udytte at rumfag er oget med højde gage tværsitsareal. 0 Logistis regressio I apitel 3 besæftigede vi os med sammeligig af biomialfordeliger og så hvorda ma vurderer om der er e sigifiat forsel på dem. I ogle situatioer er ma imidlertid ie udeluede iteresseret i at vurdere om der er e forsel eller ej, ma vil også gere ue give e ærmere besrivelse af forselle. Vi sal i det følgede vise hvorda ma a idbygge baggrudsvariable i modelle for derved måse at blive i stad til at besrive forselle mellem de pågældede biomialfordeliger. Kapitlet a desude ses som et lidt større esempel på statistis modelbygigsarbejde. Som geemgåede esempel beytter vi edu egag rismelsbille-esemplet, u e større del: I e udersøgelse (jf. [6]) af iseters reatio over for isetgifte pyrethrum har ma udsat ogle rismelsbiller (Tribolium castaeum) for forsellige mægder gift og derpå set hvor mage der var døde efter 3 dages forløb. Der er fire forsellige giftocetratioer, og forsøget er udført dels på ha-biller, dels på hu-biller. Resultatere (i reduceret form) ses i tabel Grudmodelle Der idgår = 64 biller i forsøget. Hver bille har et bestemt ø (to muligheder) og bliver udsat for e bestemt giftdosis (fire muligheder), og i løbet af forsøget er bille ete død eller har overlevet. Første sridt i modellerigsprocesse består i at gøre sig lart hvile status de forsellige størrelser sal have i modelle: Størrelsere dosis og ø er baggrudsvariable der er beyttet til at iddele billere i 2 4 = 8 grupper, idet ma forestiller sig at dosis og ø a have betydig for billes overlevelse; måse edda selve talværdiere af dosis har betydig. Totalatallee (44, 69, 54, 50, 52, 8, 44, 47) er edte ostater, emlig atal biller i de eelte grupper. Atal døde (43, 50, 47, 48, 26, 34, 27, 43) er observerede værdier af stoastise variable. For at få e idé om talmaterialets besaffehed a ma lave ogle simple udregiger (tabel 0.2) og tegiger (figur 0.). 4
72 42 Logistis regressio 0.2 E dosis-respos model 43 Tabel 0. Rismelsbillers overlevelse: Tabelle viser atal døde / totalatal for hvert ø og for fire forsellige doser (mg/cm 2 ). Tabel 0.2 Rismelsbillers overlevelse: Observeret dødssadsylighed (relativ hyppighed) i hver af de otte grupper M M M F M M M F dosis M F /44 26/ / 69 34/ / 54 27/ / 50 43/ 47 dosis M F relhyp M F F F relhyp M F F F For hver af de otte grupper er det ærliggede at foreslå at besrive»atal døde«som e observatio fra e biomialfordelig med e atalsparameter der er det samlede atal biller i de pågældede gruppe, og med e (uedt) sadsylighedsparameter der sal fortoles som sadsylighede for at e bille af det pågældede ø dør af gifte doseret i de pågældede ocetratio. Her er det ie så iteressat blot at få at vide om der er e sigifiat forsel på gruppere eller ej, det ville være lagt mere spædede hvis ma ue give e ærmere besrivelse af hvorda sadsylighede for at dø afhæger af giftocetratioe, og hvis ma ue udtale sig om hvorvidt gifte virer es på haer og huer. Vi idfører oget otatio og præciserer modelle:. I de gruppe der svarer til dosis d og ø, er der d biller hvoraf y d døde; her geemløber d mægde {0.20, 0.32, 0.50, 0.80} og mægde {M, F}. 2. Det atages at y d er e observatio af e stoastis variabel Y d som er biomialfordelt med edt atalsparameter d og med sadsylighedsparameter p d. 3. Det atages desude at de eelte Y d -er er stoastis uafhægige. Opgave er at fide e model der fortæller hvorda p d afhæger af d og. Først vil vi se på hvorda ma modellerer dosisafhægighede. 0.2 E dosis-respos model Hvorda er sammehæge mellem giftocetratioe (dosis) d og sadsylighede p d for at e bille dør ved dee dosis? Hvis ma vidste e hel masse om hvorda etop dette giftstof virer i billeorgaisme, ue ma formetlig give et velbegrudet forslag til hvorda sadsylighede afhæger af dosis. Me de statistise modelbyggers tilgag til problemet er af e lagt mere jordbude og pragmatis arater, som vi u sal se. I esemplet har esperimetator valgt ogle tilsyeladede mærværdige dosisværdier (0.20, 0.32, 0.50 og 0.80). Hvis ma ser ærmere efter, opdager ma dog at der æste er tale om e votietræe, idet votiete mellem hvert tal og det æste er æste de samme, emlig.6. Det tager de statistise modelbygger som et figerpeg om at dosis atagelig sal måles på e logaritmis sala, dvs. ma sal iteressere sig for dosis log(dosis) Figur 0. Rismelsbillers overlevelse: Observeret dødssadsylighed (relativ hyppighed) som futio af dosis (vestre delfigur) og logaritme til dosis (højre delfigur), for hvert ø. hvorda sadsylighede for at dø afhæger af logaritme til dosis. Dette er grude til at figur 0. også viser de relative hyppigheder afsat mod logaritme til dosis. Vi sal modellere sadsylighederes afhægighed af baggrudsvariable l d. E af de simpleste former for afhægighed er lieær afhægighed. Imidlertid ville det være e dårlig idé at foreslå at p d sulle afhæge lieært af l d, altså at p d = α + β l d for passede valgte ostater α og β, fordi dette ville være uforeeligt med ravet om at sadsylighedere sal ligge mellem 0 og. Ofte gør ma så det at ma omreger p d til e y sala og postulerer at»p d på de y sala«afhæger lieært af l d. Omregige foregår ved hjælp af e særlig futio ved av logit. Defiitio 0.: logit-futioe Futioe logit er givet ved forsrifte logit(p) = l p og afbilder itervallet ]0, [ på p de reelle ase R. Hvis z = logit(p), så er p = exp(z) + exp(z). Figur 0.2 viser grafe for logit-futioe og des omvedte futio. Bemærig: Når p er sadsylighede for e bestemt hædelse (f.es. at dø), så er p/( p) forholdet mellem sadsylighede for hædelse og sadsylighede for de modsatte hædelse; dette tal aldes med et udtry hetet fra spillebrache for odds for de pågældede hædelse. Logit-futioe udreger altså logaritme til odds. Vi vil u foreslå/postulere følgede ofte avedte model for sammehæge mellem dosis og sadsylighede for at dø: For hvert af de to ø afhæger logit(p d ) lieært af x = l d, eller mere udførligt:
73 44 Logistis regressio 0.3 Estimatio M z p logit(relhyp) 2 0 M F M F M F F p Figur 0.2 Vestre del: grafe for logit-futioe. Højre del: grafe for de omvedte futio til logit-futioe. Der gælder at for p vil logit(p) +, og for p 0 vil logit(p). z log(dosis) Figur 0.3 Rismelsbillers overlevelse: Logit til estimeret dødssadsylighed (relativ hyppighed) som futio af logaritme til dosis, for hvert ø. Der fides ostater α M, β M og α F, β F således at for hver dosis d er logit(p dm ) = α M + β M l d og logit(p df ) = α F + β F l d. I figur 0.3 er logit til de observerede relative hyppigheder afsat mod logaritme til dosis; hvis modelle er rigtig, sal hvert af de to putsæt fordele sig tilfældigt omrig e ret lije, og det ser jo ie helt urimeligt ud; det ræver dog e ærmere udersøgelse for at afgøre om modelle giver e tilstræeligt god besrivelse af datamaterialet. I de følgede afsit sal vi se hvorda ma estimerer de uedte parametre, hvorda ma udersøger om modelle er god o, og hvorda ma sammeliger giftes virige på ha- og hubiller. 0.3 Estimatio I dette afsit disuteres hvorda ma estimerer de uedte parametre α og β i e model der ort srives logit(p) = α + βx og mere udførligt såda: Der foreligger observatioere y, y 2,..., y s af uafhægige biomialfordelte stoastise variable Y, Y 2,..., Y s, hvor Y j er biomialfordelt med atalsparameter j (edt) og sadsylighedsparameter p j af forme p j = exp(α + βx j) + exp(α + βx j ), således at logit(p j ) = α + βx j. Her er x, x 2,..., x s edte tal, og α og β er uedte parametre. (I bille-esemplet har vi e såda model for hvert af de to ø; som x j bruges logaritme til ocetratioe i gruppe j.) Lielihoodfutioe er L(α, β) = = s s ( j y j ) p y j j ( p j ) j y j ( j ) y j = ostat og log-lielihoodfutioe er dermed l L(α, β) = ostat + = ostat + = ostat + = ostat + α s s s s s ( p j ) p j ( p j ) p j p j y j l + p j y j logit(p j ) + y j (α + βx j ) + s s s s y j s y j s s y j + β x j y j ( p j ) j ( p j ) j, j l( p j ) j l( p j ) j l( p j ) s j l( + exp(α + βx j )). Som altid er det bedste bud på værdiere af de uedte parametre dem der masimaliserer lielihoodfutioe eller log-lielihoodfutioe. Hermed er vi ået til det delproblem
74 46 Logistis regressio 0.4 Modelotrol 47 der består i at fide masimumsput(er) for futioe l L af de to variable α og β. De geerelle fremgagsmåde går ud på at ma søger masimumsputere bladt de statioære puter for futioe, dvs. puter hvor de partielle afledede α l L og l L er ul. Ma fider at β s α l L(α, β) = (y j j p j ), s β l L(α, β) = x j (y j j p j ), og da disse som ævt sal være 0, får vi de to ligiger s (y j j p j ) = 0 og s x j (y j j p j ) = 0, med de to ubeedte α og β (der idgår»sjult«i p j ). For habilleres vedommede ser disse ligiger såda ud: og exp(α + β l(0.20)) exp(α + β l(0.32)) (43 44 ) + ( exp(α + β l(0.20)) + exp(α + β l(0.32)) ) + exp(α + β l(0.50)) exp(α + β l(0.80)) (47 54 ) + ( exp(α + β l(0.50)) + exp(α + β l(0.80)) ) = 0 exp(α + β l(0.20)) exp(α + β l(0.32)) l(0.20)(43 44 ) + l(0.32)( exp(α + β l(0.20)) + exp(α + β l(0.32)) ) + exp(α + β l(0.50)) exp(α + β l(0.80)) l(0.50)(47 54 ) + l(0.80)( exp(α + β l(0.50)) + exp(α + β l(0.80)) ) = 0. Det ser ie rart ud! Fatis a ma ie løse disse ligiger, hvis ma dermed meer flytte rudt på symbolere så ma eder med et resultat af forme»α = oget der a reges ud«og»β = oget der a reges ud«. I stedet må ma hevede sig i de afdelig af matematie der hedder umeris aalyse, for at få at vide hvorda ma fider e umeris approsimatio til e løsig, hvis der altså overhovedet er e løsig (og ma ue jo også frygte at der var flere løsiger). Eller ma a beytte et passede statistiprogram på computere; det vil have idbygget ogle umerise metoder så det a udrege værdiere af masimaliserigsestimatere α og β. Her er oget af e udsrift fra statistiprogrammet R (ode a ses i afsit 0.6 side 52ff): Call: glm(formula = Ymat ~ sex/( + log(dosis)) -, family = biomial, data = biller) Deviace Residuals: Coefficiets: Estimate Std. Error z value Pr(> z ) sexf e- *** sexm e-5 *** sexf:log(dosis) < 2e-6 *** sexm:log(dosis) e-6 *** --- Sigif. codes: 0 *** 0.00 ** 0.0 * Null deviace: o 8 degrees of freedom Residual deviace: o 4 degrees of freedom Det fremgår bladt adet at for habillere er estimatere α M = (med e middelfejl på ) og β M = 3.38 (middelfejl ), og for hubillere er de α F = (middelfejl ) og β F = (middelfejl ). 0.4 Modelotrol Vi har u estimeret parametree i de model der siger at logit(p d ) = α + β x eller p d = exp(α + β x) + exp(α + β x) hvor x = l d. E ærliggede form for modelotrol er at idtege grafere for de to futioer x α M + β M x og x α F + β F x i figur 0.3 og at idtege grafere for de to futioer x exp( α M + β M x) + exp( α M + β M x) og x exp( α F + β F x) + exp( α F + β F x) i de højre delfigur af figur 0.; derved får ma heholdsvis højre og vestre del af figur 0.4. De viser at modelle ie er helt he i vejret. Ma a desude ved hjælp af lielihoodmetode ostruere et umeris test baseret på Q = L( α M, α F, β M, β F ) L max (0.)
75 48 Logistis regressio 0.5 Hypoteser om parametree 49 relhyp M F M F M F M F log(dosis) M F M F log(dosis) Figur 0.4 Rismelsbillers overlevelse: To forsellige urver, samt de observerede relative hyppigheder. logit(relhyp) hvor L max er lielihoodfutioes masimale værdi i de»fulde«model (grudmodelle) hvor p d estimeres ved de relative hyppighed y d / d. Med betegelsere p d = logit ( α + β l d) og ŷ d = d p d bliver og Q = ( d d y d ) ( p d ) y d ( p d ) d y d ( d )( y d ) d y d d 2 l Q = 2 y d ( y d ) d d y d = ( ŷd y d ) ( d ŷ d y d d ) d y d d y d (y d l y d + ( d y d ) l d y d ). d ŷ d d ŷ d Store værdier af 2 l Q (svarede til små værdier af Q) er teg på at der er for stor uoveresstemmelse mellem de observerede atal (y d og d y d ) og de forudsagte atal (ŷ d og d ŷ d ) til at modelle a siges at være god o. E observeret værdi 2 l Q obs er»stor«hvis der u er lille sadsylighed for at få e større værdi; dee sadsylighed, testsadsylighede, a bestemmes omtretligt som sadsylighede for i χ 2 -fordelige med 4 frihedsgrader at få e værdi større ed 2 l Q obs. I R-udsrifte side 46 ses at 2 l Q obs = ; de tilhørede testsadsylighed er Atallet af frihedsgrader er bestemt på følgede måde: I de»fulde«model (der leverer ævere i formel (0.)) er der 8 parametre, é for hver gruppe; i de testede model (der leverer tællere i (0.)) er der 4 parametre, emlig α M, β M, α F og β F ; atal frihedsgrader er ædrige i atal parametre, dvs. 8 4 = 4. Da der er heved 50% chace for at få et sæt observatioer der harmoerer dårligere med de postulerede model, må vi oludere at modelle ser ud til at være avedelig. M F M F 0.5 Hypoteser om parametree Efter at vi har fået opstillet e model som ideholder fire parametre, og som ser ud til at give e gase god besrivelse af observatioere, er æste put på dagsordee at udersøge om modelle a forsimples. Esempelvis a ma udersøge om de to urver er parallelle, og hvis det a accepteres, a ma derefter udersøge om urvere er sammefaldede. Vi formulerer derfor to statistise hypoteser:. Hypotese om parallelle urver: H β M = β F, eller mere udførligt: Der fides ostater α M, α F og β således at for hver dosis d er logit(p dm ) = α M + β l d og logit(p df ) = α F + β l d. 2. Hypotese om sammefaldede urver: H 2 α M = α F og β M = β F, eller mere udførligt: Der fides ostater α og β således at for hver dosis d er logit(p dm ) = α + β l d og logit(p df ) = α + β l d. Vi udersøger først hypotese H om parallelle urver. De tre parametre estimeres ved maximum lielihood metode, og det er et problem af samme sværhedsgrad som i grudmodelle (afsit 0.). Her ses dele af R-programmets svar: Call: glm(formula = Ymat ~ sex + log(dosis) -, family = biomial, data = biller) Deviace Residuals: Coefficiets: Estimate Std. Error z value Pr(> z ) sexf <2e-6 *** sexm <2e-6 *** log(dosis) <2e-6 *** --- Sigif. codes: 0 *** 0.00 ** 0.0 * Null deviace: o 8 degrees of freedom Residual deviace: o 5 degrees of freedom > aova(model, grudmodel)
76 50 Logistis regressio 0.5 Hypoteser om parametree M M M F 3 2 M M F Call: glm(formula = Ymat ~ log(dosis), family = biomial, data = biller) relhyp M F F F logit(relhyp) 0 M F M F F Coefficiets: Estimate Std. Error z value Pr(> z ) (Itercept) <2e-6 *** log(dosis) <2e-6 *** --- Sigif. codes: 0 *** 0.00 ** 0.0 * log(dosis) log(dosis) Figur 0.5 Rismelsbillers overlevelse: To parallelle urver, samt de observerede relative hyppigheder. Aalysis of Deviace Table Model : Ymat ~ sex + log(dosis) - Model 2: Ymat ~ sex/( + log(dosis)) - Resid. Df Resid. Dev Df Deviace Det ses at parameterestimatere er α M = (med e middelfejl på ), α F = (middelfejl 0.305) og β = (middelfejl ). Hypotese om parallelle urver testes med det sædvalige votiettest hvor ma sammeliger de masimale lielihoodfutio uder atagelse af H med de masimale lielihoodfutio i de seest accepterede model: 2 l Q = 2 l L( α M, α F, β, β) L( α M, α F, β M, β F ) = 2 (y d l ŷd + ( d y d ) l d ŷ d ) d ŷ d d ŷ d hvor ŷ d = d logit ( α + β l d). Ma får at 2 l Qobs =.3067, hvilet også fremgår af oveståede udsrift fra futioe aova. Værdie sal sammeliges med χ 2 -fordelige med 4 3 = frihedsgrader (ædrig i atal parametre). Testsadsylighede er ca. 25%, så værdie.3067 er ie usædvaligt stor. Modelle med parallelle urver giver således ie e sigifiat dårligere besrivelse af observatioere ed de hidtidige model gør, se også figur 0.5. Efter således at have accepteret hypotese H a vi gå videre med hypotese H 2 om sammefaldede urver. (Hvis H var blevet forastet, ville ma ie gå videre til H 2.) Ma får følgede resultater med R: Null deviace: o 7 degrees of freedom Residual deviace: o 6 degrees of freedom > aova(model2, model) Aalysis of Deviace Table Model : Ymat ~ log(dosis) Model 2: Ymat ~ sex + log(dosis) - Resid. Df Resid. Dev Df Deviace Det fremgår at år ma tester H 2 i forhold til H, får ma 2 l Q obs = der sal sammeliges med χ 2 -fordelige med et atal frihedsgrader på 3 2 = ; sadsylighede for at få værdier større ed er ul med adsillige betydede cifre, hvilet viser at modelle med sammefaldede urver giver e væsetligt dårligere besrivelse af observatioere ed de forrige model gør. Vi må derfor foraste hypotese om sammefaldede urver. Kolusioe på det hele er således at vi a besrive sammehæge mellem dosis d og sadsylighede p for at dø af gifte i dosis d på de måde at for hvert ø afhæger logit p lieært af l d; de to urver er parallelle, me ie sammefaldede. De estimerede urver er svarede til at logit(p dm ) = l d logit(p df ) = l d, exp( l d) p dm = + exp( l d) exp( l d) p df = + exp( l d).
77 52 Logistis regressio 0.6 Reg og teg Reg og teg Her vises hvorda dette apitels udregiger og tegiger er foretaget med R. Data er på forhåd lagt i e fil som her hedder biller.dat, og som har følgede idhold: sex dosis dead total M M M M F F F F Her følger de ommeterede R-ode: # Idlæs data til datastruture biller biller <- read.table("biller.dat", rows=0, header=true) # udreg atal overlevede samt brødel døde for hver ombiatio af ø og dosis: biller$overlev <- biller$total - biller$dead biller$relhyp <- biller$dead / biller$total # og sriv idholdet af datastruture biller som de u er: biller # glm-futioe (se seere) har brug for e Ymat-matrix # som ideholder atal døde og atal levede: biller$ymat <- cbid(biller$dead, biller$overlev) biller # Figur 0.: # Først plottes relhyp mod dosis, for hvert ø. # ( ylim=c(0,) tviger y-ase til at gå fra 0 til ) plot(relhyp ~ dosis, pch=as.character(sex), data=biller, ylim=c(0,),las=) # samme, me med log(dosis) ud ad x-ase: plot(relhyp ~ log(dosis), pch=as.character(sex), data=biller, ylim=c(0,),las=) # Figur 0.2: # Såda a ma i R defiere e futio logit (jf. side 43): logit <- fuctio(p){ log(p/(-p)) } # teg grafe for logit-futioe: p <- c(0.00, :99/00, 0.999) logitp <- logit(p) plot(p, logitp, type="l", lwd=2, las=, ylab="z") # de omvedte futio får vi ved at bytte om på x- og y-argumetere: plot(logitp, p, type="l", lwd=2, las=, xlab="z", ylab="p") # Figur 0.3 # Plot logit(relhyp) som futio af log(dosis), for hvert ø: plot(logit(relhyp) ~ log(dosis), pch=as.character(sex), data=biller, las=) # Estimatio i grudmodelle: # Grudmodelle specificeres ved formle Ymat ~ sex/(+log(dosis))- # Det der står til vestre for ~ er de afhægige variabel. # På højreside betyder +log(dosis) regressio med log(dosis) # som uafhægig variabel og med esplicit ostatled; # sex/ betyder så at dette gøres for hvert iveau af sex, # og - betyder at de samlede regressio ie sal have et ostatled. grudmodel <- glm(ymat ~ sex/(+log(dosis))-, family=biomial, data=biller) summary(grudmodel) # se resultatet heraf på side 46 # grudmodelles oefficieter er grudmodel$coef # grudmodelles 2 l Q hedder deviace: grudmodel$deviace # og des atal frihedsgrader er grudmodel$df.residual # testsadsylighede udreges som -pchisq(grudmodel$deviace, df=grudmodel$df.res) # eller i dette esempel -pchisq(3.3637, df=4) # Figur 0.4: # Vi a lave de forrige tegig med de estimerede regressioslijer idteget, dvs. # logit(relhyp) som futio af log(dosis) samt estimeret lije, for hvert ø: plot(logit(relhyp) ~ log(dosis), pch=as.character(sex), data=biller, las=) # ablie idteger e lije med give særig og hældig: ablie(grudmodel$coef[c(,3)], lwd=2) # oeff. r. og 3 hører til habillere ablie(grudmodel$coef[c(2,4)], lwd=2) # oeff. r. 2 og 4 hører til hubillere # Det er lidt sværere at få idteget de estimerede urver i figure med # relhyp ud ad ordiatase. plot(relhyp ~ log(dosis), pch=as.character(sex), ylim=c(0,), data=biller, las=) # Vi udreger futiosværdiere i e masse puter p: p <- seq(0., 0.98, by=0.0) logitp <- logit(p) # og idteger urvere lies((logitp-grudmodel$coef[])/grudmodel$coef[3], p, lwd=2)
78 54 Logistis regressio lies((logitp-grudmodel$coef[2])/grudmodel$coef[4], p, lwd=2) # To parallelle lijer: # Vi opdaterer modelle så de giver to parallelle lijer; se resultatet på side 49 summary(model <- update(grudmodel,. ~ sex + log(dosis) -)) # derefter testes de i forhold til grudmodelle aova(model, grudmodel) # Figur 0.5: # tegiger med de estimerede parallelle regressioslijer: plot(logit(relhyp) ~ log(dosis), pch=as.character(sex), data=biller,las=) ablie(model$coef[c(,3)], lwd=2) ablie(model$coef[c(2,3)], lwd=2) plot(relhyp ~ log(dosis), pch=as.character(sex), ylim=c(0,), data=biller, las=) p <- seq(0., 0.98, by=0.0) logitp <- logit(p) lies((logitp-model$coef[])/model$coef[3], p, lwd=2) lies((logitp-model$coef[2])/model$coef[3], p, lwd=2) # Ige forsel på de to ø: summary(model2 <- update(model,. ~ log(dosis)))# (resultat side 5) aova(model2, model) # test af model2 i forhold til model 0.7 Opgaver Opgave 0. Vis at logit( 2 ) = 0. Vis at logit( p) = logit(p). Opgave 0.2 Eftervis at logit(p) = z hvis og u hvis p = exp(z)/( + exp(z)), således som det postuleres i defiitio 0. på side 43. Opgave 0.3 Idfør e futio p(x) ved p(x) = exp(a + bx)/( + exp(a + bx)), dvs. logit(p(x)) = a + bx. (Her er a og b to ostater.). Sitsér grafe for p(x) år a = 3 og b = Sitsér grafe for p(x) år a = 3 og b = Løs ligige p(x) = 0.5 (for geerelle a og b). Lad os sige at x = l d, hvor d er e dosis af et giftstof, og lad os sige at p(x) = p(l d) betyder sadsylighede for at dø år gifte gives i dosis d. Ma er udertide iteresseret i at fide de dosis for hvile sadsylighede for at dø etop er 50% (de såaldte LD50), dvs. fide det d for hvilet p(l d) = 0.5. Poissofordelige Poissofordeligsmodeller a bladt adet omme på tale år ma har at gøre med atalsobservatioer der agiver hvor mage gage et bestemt fæome optræder i et vist tidsrum eller et vist geografis område eller ligede, esempelvis trafiulyer på et år på e bestemt vejstræig. Poissofordelige er opaldt efter de frase matematier og fysier Siméo-Deis Poisso (78-840). Det geemgåede esempel i dette apitel hidrører fra [4] og a måse i første omgag foreomme lidt uriøst, me optræder i æste alle lærebøger i statisti: Esempel. (Hestespar) For hvert af de 20 år fra 875 til 894 har ma for hvert af de prøjsise armés 0 regimeter registreret hvor mage soldater der døde fordi de blev sparet af e hest. Det vil sige at ma for hvert af de 200»regimet-år«eder atal dødsfald som følge af hestespar. Ma a give e oversigt over disse tal ved at agive i hvor mage regimet-år der var 0 dødsfald, i hvor mage der var dødsfald, i hvor mage der var 2, osv., dvs. ma lassificerer regimet-åree efter atal dødsfald. Det viser sig at det største atal dødsfald pr. regimet-år var fire. Ved lassificerige bliver der derfor fem lasser svarede til 0,, 2, 3 og 4 døde pr. år. Tabel. viser hvorda de fatise tal blev. Ma a formode at det i høj grad var tilfældigheder der bestemte om e give soldat blev sparet til døde af e hest eller ej. Derfor er det også i høj grad tilfældigheder der har afgjort om et givet regimet i et givet år u fi 0 eller eller 2 osv. døde som følge af hestespar. Der a således være foruft i at besæftige sig med dee modelbygigsopgave: Fid et forslag til e matematis model der a levere sadsyligheder for at et regimet har etop y døde på et år, y = 0,, 2,..... Udledig E væsetlig del af problemløsigsprocesse består i at oversætte problemet til matemati i e passede geerel formulerig. Vi går frem i e ræe puter der dels leder frem til e såda passede formulerig, dels leverer e løsig.. Hestesparesemplet hadler om at ma 200 gage har foretaget sig oget bestemt, emlig fulgt et regimet geem et år og set hvor mage dødsfald der var som følge af hestespar. 55
79 56 Poissofordelige. Udledig 57 Tabel. Atal dødsfald som følge af hestespar i de prøjsise armé. atal dødsfald y atal regimet-år med y dødsfald 2. Lad os atage at der for hvert regimet og hvert år er e tilfældighedsmeaisme der geererer et atal, emlig atal døde i det pågældede regimet i det pågældede år. De eelte tilfældighedsmeaismer atages at operere uafhægigt af hiade. 3. Hvis tidsitervallet fra t 0 til t deles op i lige lage delitervaller, får hvert deliterval lægde t = (t t 0 )/. (.) I hestesparesemplet a ma for esempel dele et tidsiterval af lægde år op i 365 delitervaller af lægde t = dag. Atallet af begiveheder i det store iterval er (selvfølgelig) lig med summe af atal begiveheder i de eelte delitervaller. 4. Poite ved at dele op i delitervaller er at hvis t er tilstræelig lille, så er det meget usadsyligt at der idtræffer to eller flere begiveheder i samme deliterval. Sagt på e ade måde, hvis t er meget lille, så er det samlede atal begiveheder i det store iterval stort set lig med atallet af delitervaller hvori der foreommer midst é begivehed. 5. Vi har u fået lavet problemet om til oget der a formuleres med 0-variable, emlig 0-variablee I, I 2, I 3,..., defieret ved hvis der er midst é begivehed i deliterval r. j I j = 0 hvis der ige begivehed er i deliterval r. j j =, 2,...,. Hvis t er meget lille, så er det samlede atal Y af begiveheder mellem t 0 og t ifølge betragtigere i put 4 cira lig med I + I I. 6. Atag at der i hvert af de = ( t) delitervaller er de samme sadsylighed p = p( t) for at der ser e begivehed. (Der bliver altså ie i løbet af periode idført ye sierhedsforastaltiger der edsætter chace for at blive sparet til døde af e hest. Og atallet af soldater og atallet af heste i regimetet er stort set ostat året igeem.) Atag også at det der ser i ét iterval, er stoastis uafhægigt af det der ser i adre itervaller. (Selv om der tilfældigvis er to soldater der i begydelse af året blev sparet til døde af heste, så tager de øvrige soldater i regimetet ie estra forholdsregler i reste af året i de aledig.) 7. Da I, I 2,..., I således er uafhægige og idetis fordelte 0-variable, er I j biomialfordelt med parametre = ( t) og p = p( t), og da totalatallet Y af begiveheder mellem t 0 og t cira er lig med I j, er Y således cira biomialfordelt med parametre og p. Forbeholdet»cira«bortfalder år t bliver tilstræelig lille, dvs. vi sal på et seere stadium lade t gå mod ul. 8. De måde hvorpå afhæger af t, er simpel, idet vi af (.) får at = ( t) = t t 0. t Derimod magler vi at overveje hvorda p afhæger af t. 9. Det må være rimeligt at formode at p er e forholdsvis pæ futio af t, bl.a. med de egesab at p( t) 0 år t 0, og at p( t) år t +, så p( t) må have et udseede i retig af p t Vi vil gå ud fra at p( t) er differetiabel fra højre i t = 0, mere præcist at der esisterer et tal λ > 0 således at p( t) lim = λ. t 0 t Der gælder altså at p( t) λ t for små værdier af t.
80 58 Poissofordelige.2 Defiitio og egesaber I put 7 åede vi frem til at Y er cira biomialfordelt, dvs. at P(Y = y) ( y ) py ( p) y (.2) hvor» «bliver til»=«år t 0. Derfor må det æste sridt være at bestemme græseværdie ( y ) py ( p) y uder de græseovergag hvor t 0 og dermed = (t t 0 )/ t. I put 9 fadt vi at der uder dee græseovergag må gælde at p t = p( t) t overgerer mod λ, og derfor vil p = (t t 0 ) p t. Vi omsriver biomialsadsylighede på følgede måde: ( y )py ( p) y = 2... = ( y )... ( ) (a) λ(t t 0 ). (.3) y + p y ( p) y ( p) y (p)y y! (b) ( p) y ( p). (c) (d) 2. Uder græseovergage opfører de forsellige fatorer sig på forsellige måder: a) ( y )... ( ) y =. y fatorer b) (p)y (λ(t t 0 )) y, taet være (.3). y! y! c) ( p) y ( 0) y =. d) ( p) exp( λ(t t 0 )), hvilet idses således: i. Da futioe x l x er differetiabel i x = med differetialvotiet, vil for h 0 l( + h) h = l( + h) l h ii. Ved at beytte dette samt formel (.3) fås. l( p) l( p) = p λ(t t 0 ). p iii. Ved at tage exp på begge sider heraf fås som øset at ( p) exp( λ(t t 0 )) Alt i alt vil biomialsadsylighede i formel (.2) overgere mod (λ(t t 0 )) y exp( λ(t t 0 )). y! Vi er hermed ået frem til følgede forslag til e statistis model: Sadsylighede for at der i et bestemt regimet er etop y dødsfald i periode fra t 0 til t, må være P(Y = y) = (λ(t t 0 )) y y! exp( λ(t t 0 )), (.4) hvor λ er e positiv ostat og y = 0,, 2, 3,... Bemær at de hjælpestørrelser og t som vi idførte i put 3, helt er forsvudet. I formel (.4) optræder de uedte parameter λ der i put 9 blev idført som værede cira sadsylighede for e begivehed i et meget ort tidsiterval divideret med tidsitervallets lægde. Størrelse λ har derfor dimesioe tid, dvs. λ agives i f.es. dag eller år. Jo større λ er, jo tilbøjeligere er begivehedere til at idtræffe; λ er e såaldt itesitet, der i hestesparesemplet specielt ue aldes for e ulyesitesitet eller e dødsitesitet..2 Defiitio og egesaber Ma defierer poissofordelige således: Defiitio.: Poissofordelig Poissofordelige med parameter µ 0 er de sadsylighedsfordelig som har sadsylighedsfutio f (y; µ) = µy exp( µ), y = 0,, 2,... y! I figur. ses ogle poissofordeliger. Resultatet fra forrige afsit a udtryes på de måde at atallet af dødsfald i et bestemt regimet i periode fra t 0 til t er poissofordelt med parameter µ = λ(t t 0 ), hvor λ beteger dødsitesitete. Bemærig Stregt taget bør defiitioe af poissofordelige følges op af e redegørelse for at f (y; µ) fatis er e sadsylighedsfutio, dvs. at der er tale om ie-egative tal der summerer til. Det er lart at f -værdiere er ie-egative; at de summerer til følger af espoetialfutioes ræeudvilig. E egesab ved poissofordelige er at des middelværdi er lig des varias: Hvis de stoastise variabel Y er poissofordelt med parameter µ, så er E Y = µ og Var Y = µ.
81 60 Poissofordelige.4 Opgaver 6 ssh ssh µ = µ = 3.6 y y ssh ssh µ = µ = 0 y Figur. Poissofordeliger med middelværdier.33,.78, 3.6 og 0..3 Afrudig Vi æver ogle flere esempler på situatioer der a give poissofordelte atal: Atal tilfælde af e bestemt ie-smittede sygdom i et bestemt tidsrum. Atal ulyestilfælde af e bestemt art i et bestemt tidsrum. Atal omdaelser af atomer i et radioativt stof i et bestemt tidsrum, der er forsvidede i forhold til stoffets halverigstid. Atal tryfejl i e bog. Her er»tidsase«simpelthe teste forstået som e følge af teg. Der er altså tale om e disret tidsase, og ræsoemetere der førte frem til poissofordelige, beror i høj grad på at tidsase er otiuert. Me hvis der u er få tryfejl i forhold til atallet af bogstaver og teg, så a ma»æste ie«se at tidsase fatis er disret. Derfor fider ma på alligevel at avede poissofordelige. Atal bombeedfald i Lodo uder det tyse bombardemet uder ade verdesrig her er»tidsase«det todimesioale geografise område Lodo. y.4 Opgaver Opgave. I æste apitel vil det vise sig at det i hestesparesemplet er foruftigt at estimere λ ved λ = 0.6 dødsfald pr. år. Lav e tegig, f.es. i stil med dem der er fire af i figur., der viser hvorda poissofordelige med parameter 0.6 ser ud. Tip: Når ma sal udrege f (y; µ) = µ y exp( µ) for e hel masse y-værdier, a det være y! hesigtsmæssigt at gøre det reursivt: f (0; µ) = exp( µ) f (y; µ) = µ f (y ; µ), y =, 2, 3,... y Opgave.2 (Rauiær-cirliger) Ide for plateøologi bestemmer ma (i Damar) ofte platers sudtæthed ved hjælp af e metode der aldes Rauiær-cirliger. I si simpleste form er metode som følger, hvor ma sal forestille sig at det hadler om at udersøge plater på e mar: Et tilfældigt sted på prøvearealet abriger ma e cirel med areal a og ser efter om de plateart ma udersøger, fides ide for cirle eller ej; dette getages gage, idet ma sørger for at de cirler ie overlapper. Typis er a = 0. m 2 og = 0. Atag for esempel at ma i 0 cirliger med e 0. m 2 cirel fi etop 7 tilfælde hvor plate blev fudet ide for cirle. Ma øser som ævt at bestemme sudtæthede λ (der måles i atal/m 2 ). Ma må derfor gøre e atagelse om at e bestemt slags sadsylighedsmodel har placeret suddee ud over mare. De simpleste atagelse er at suddee er placeret efter e poisso-proces, hvilet betyder at atal sud i et delområde med areal a er poissofordelt med parameter λa, og at atal sud i disjute delområder er stoastis uafhægige.. Hvad er sadsylighede for at ma ved é cirlig oplever at der er etop sud ide i cirle? 2. Hvad er sadsylighede for at ma ved é cirlig oplever at der er midst et sud ide i cirle? Tip:»midst et«er det modsatte af»ige«. 3. Hvis ma udfører = 0 cirliger, hvad er da sadsylighede for at der i etop y = 7 tilfælde fides midst et sud ide i cirle? (Rauiær-cirliger geoptages i opgave 2.4.)
82 2 E- og flerstiprøveproblemer i poissofordelige De teoretise overvejelser i apitel viste at atallet af dødsfald pr. regimet pr. år i de prøjsise armé måtte være poissofordelt med parameter µ = λ år, me stemmer det overhovedet med virelighede, og hvorda estimerer ma itesitete λ? Vi sal i dette apitel besæftige os med estimatio af parametre og test af hypoteser om parametre i poissofordeliger, og med spørgsmålet om otrol af modelle. 2. Estiprøveproblemet I hestespar-esemplet fra apitel er situatioe de at der er = 200 uafhægige observatioer y, y 2,..., y fra poissofordelige med parameter µ = λ år. Det er et esempel på et estiprøveproblem eftersom der er tale om et atal observatioer, e stiprøve, fra e og samme fordelig. De geerelle formulerig af problemet er at ma har uafhægige observatioer y, y 2,..., y fra e poissofordelig med parameter µ. Modelfutioe er f (y, y 2,..., y ; µ) = µ y j y j! exp( µ) = µ y y! y 2!... y! exp( µ), hvor y er statistieres sædvalige orte srivemåde for y + y y. Estimatio af parametere Poissoparametere µ estimeres ved lielihoodmetode. Lielihoodfutioe svarede til observatioere y, y 2,..., y er så at L(µ) = µ y y! y 2!... y! exp( µ), l L(µ) = ostat + y l µ µ. Ifølge de sædvalige pricipper er det bedste estimat over µ de værdi µ der masimaliserer L eller l L. Vi løser derfor ligige d dµ l L = 0: Hvis y > 0, er d y dµ l L(µ) = µ 62 63
83 64 E- og flerstiprøveproblemer i poissofordelige 2.2 Sammeligig af to poissofordeliger 65 som er lig 0 etop år µ er lig y = y. Futioe l L har altså statioært put i µ = y, og da des ade afledede d2 l L(µ) = y altid er egativ, er y et masimumsput. dµ 2 µ 2 Alt dette var uder forudsætig af at y > 0. Hvis y = 0, er log-lielihoodfutioe µ+ostat, og de atager sit masimum år µ = 0. Der gælder således i alle tilfælde at masimaliserigsestimatet for µ er geemsittet af observatioere: µ = y = 200 I esemplet er y j = = 22, så µ = 22/200 = 0.6 og dermed λ = µ/ år = 0.6 år, dvs. dødsitesitete er 0.6 dødsfald pr. år for hvert regimet. Det ses at λ fremommer som atal dødsfald divideret med atal regimet-år. Modelotrol Ide for lasse af poissofordeligsmodeller får vi de bedste besrivelse af hestesparobservatioere ved at beytte itesitete λ = 0.6 dødsfald pr. regimet pr. år. For at få et figerpeg om hvor god dee de bedste besrivelse er, udreger vi de»forvetede«atal uder forudsætig af at modelle er rigtig: Ifølge modelle er sadsylighede for at der i et bestemt regimet-år er etop y dødsfald, y j. f (y; λ) = ( λ år) y exp( λ år). y! Ud af de 200 regimet-år sulle ma derfor forvete ca. 200 f (0; λ) tilfælde med 0 dødsfald, ca. 200 f (; λ) tilfælde med dødsfald, ca. 200 f (2; λ) tilfælde med 2 dødsfald, osv. Disse forvetede atal udreges, og ma får tabel 2.. Det ses at de»forvetede«atal stemmer fit overes med de observerede, og det må vi tage som teg på at poissomodelle ie er helt he i vejret. Dispersiostestet Udertide vil ma gere udføre et umeris test for rimelighede af at atage at et sæt observatioer y, y 2,..., y er e stiprøve fra e poissofordelig. Vi vil omtale e em metode hertil. Som ævt side 59 har poissofordelige de egesab at middelværdi og varias er es. Ma ue derfor udrege de empirise middelværdi og de empirise varias, altså y = y i og s 2 = (y i y) 2, Tabel 2. Hestespar-esemplet: De observerede atal år med y dødsfald sammeliget med de»forvetede«atal år med y dødsfald bereget ud fra poissomodelle. atal dødsfald y observeret atal år»forvetet«atal år og se efter om de to er ogelude es. Det viser sig hesigtsmæssigt at gøre dette på de måde at ma udreger størrelse d = s2 y. Hvis modelatagelse er rigtig, sal d være tæt på, så ma vil foraste modelle hvis ete d obs er så meget større ed at der u er lille sadsylighed (for esempel 0.025) for at få e større værdi, eller d obs er så meget midre ed at der u er lille sadsylighed (for esempel 0.025) for at få e midre værdi. Ma a bevise at år modelle er rigtig (og poissoparametere ie er alt for lille), så vil d med god tilærmelse følge e χ 2 / f -fordelig med f = frihedsgrader (eller esbetydede hermed: f d vil være χ 2 -fordelt med f = frihedsgrader). I hestespar-esemplet fadt vi tidligere at y = 0.6. Videre er (y i y) 2 = 09(0 0.6) ( 0.6) (2 0.6) 2 + 3(3 0.6) 2 + (4 0.6) 2 = 2.58, så s 2 = 2.58/99 = 0.6 og dermed d obs = 0.6/0.6 =.002. De fude d obs -værdi ligger meget tæt på, også målt i forhold til χ 2 / f -fordelige med 99 frihedsgrader, og det umerise test beræfter dermed idtryet af at poissofordelige giver e god besrivelse af tallee. 2.2 Sammeligig af to poissofordeliger Vi vil disutere spørgsmålet om sammeligig af to poissofordeliger ud fra følgede esempel.
84 66 E- og flerstiprøveproblemer i poissofordelige 2.2 Sammeligig af to poissofordeliger 67 Mus r. 2 3 Tabel 2.2 Resultater af miroeretælliger. Behadligsgruppe Atal optalte celler r Atal miroereceller y Mus r. 2 3 Kotrolgruppe Atal optalte celler r Atal miroereceller y Esempel 2. (Ultralydsscaig) Det er meget udbredt at foretage ultralydsscaig af gravide vider. Det mees/frygtes imidlertid at fostree a lide sade derved, idet der måse ser romosomforadriger. For at udersøge dette ærmere har Meillier og Toldbod [3] udført e ræe laboratorieforsøg med mus. Et atal drægtige mus udsættes for ultralydsbestrålig i et vist stye tid, hvorefter ma udersøger leverceller fra fostree for at se om der er daet såaldte miroereceller. Miroerer i e celle opstår som følge af romosomforadriger og/eller -ødelæggelser. I dette esempel, der u behadler e del af forsøgets talmateriale, optræder to grupper à tre mus: e behadligsgruppe og e otrolgruppe. Behadligsgruppe har fået ultralyd, hvorefter ma har ladet gå 8 timer ide musee blev dræbt og prøvere udtaget. Kotrolgruppe er behadlet på samme måde, på ær at der dee gag ie blev tædt for ultralydapparatet. Fra hver mus udtog ma otte prøver; i alt udersøgte ma for hver mus ca celler og afgjorde om det var e miroerecelle eller ej. Derved fremom resultatere i tabel 2.2. Spørgsmålet er om disse tal tyder på at ultralyd har e sadelig virig. Modelopstillig For hver mus er der øjesylig to størrelser der er uforudsigelige, emlig atal optalte celler r og atal miroereceller y. Når vi sal formulere de statistise model, sal vi tage stillig til om både r og y eller u de ee af dem sal opfattes som observatio af e stoastis variabel. Gestade for de grudlæggede iteresse i de foreliggede problemstillig er sadsylighede for at e celle omdaes til e miroerecelle. I de forbidelse er det uiteressat at søge at opstille e model der a påtage sig at besrive variatioe i atal optalte celler pr. mus. De idgåede tider er de samme for alle forsøgsdyr; derfor behøver vi ie idbygge tidsafhægigheder i modelle. Derimod sal vi søge at formulere e model der a besrive variatioe i atallet af miroereceller i e prøve af e give størrelse, udtaget fra e mus der har fået e give behadlig. I modelle sal r-ere derfor idgå som give ostater og y-ere som udfald af stoastise variable. Da der for e eelt mus optælles et meget stort atal celler der hver især har e meget lille chace for at være blevet omdaet til e miroerecelle, a vi atage (jf. tryfejlsesemplet side 60) at atal miroereceller i e prøve med r celler er poissofordelt med parameter µ = λr, hvor λ er e»omdaelsesitesitet«, emlig sadsylighede for at e optalt celle er e miroerecelle. De systematise forsel mellem behadligsgruppere sal besrives ved hjælp af modelles parametre, så derfor sal mus med samme behadlig have samme itesitet λ, hvorimod behadligsgruppe og otrolgruppe sal have hver sit λ. Vi idfører lidt otatio for at ue formulere modelle præcist: r i j = atal optalte celler fra mus r. j i gruppe i, y i j = atal miroereceller fra mus r. j i gruppe i, hvor i = svarer til behadligsgruppe og i = 2 til otrolgruppe. Det vil sige at tabel 2.2 sematis ser således ud: gruppe r y 2 r 2 y 2 3 r 3 y 3 r y gruppe 2 r 2 y 2 2 r 22 y 22 3 r 23 y 23 Modelle er da at tallee y, y 2, y 3, y 2, y 22, y 23 sal opfattes som observerede værdier af stoastis uafhægige poissofordelte stoastise variable Y, Y 2, Y 3, Y 2, Y 22, Y 23 hvor Y i j har parameter µ i j = λ i r i j. Her er λ og λ 2 uedte parametre der besriver heholdsvis behadligsgruppe og otrolgruppe, og r i j -ere er edte ostater. Modelfutioe bliver 2 3 r 2 y 2 (λ i r i j ) yi j exp( λ i r i j ). (2.) y i j! Det opridelige spørgsmål om observatioere tyder på at ultralyd er sadeligt, a u oversættes til modelles sprog. Da de systematise forsel mellem gruppere besrives ved hjælp af parametree λ og λ 2, bliver det relevate spørgsmål om observatioere tyder på at λ og λ 2 er sigifiat forsellige; med adre ord sal vi teste de statistise hypotese H 0 λ = λ 2. Estimatio af parametree Masimaliserigsestimatere over λ og λ 2 sal bestemmes på grudlag af lielihoodfutioe. Ud fra modelfutioe (2.) får vi
85 68 E- og flerstiprøveproblemer i poissofordelige 2.2 Sammeligig af to poissofordeliger 69 2 L(λ, λ 2 ) = 3 = ostat (λ i r i j ) yi j exp( λ i r i j ) y i j! 2 3 λ yi j i exp( λ i r i j ) = ostat 2 λ yi i exp( λ i r i ) hvor ostate afhæger af r-ere og y-ere, me ie af λ og λ 2. Vi ser at lielihoodfutioe er de samme som ma ville have fået hvis ma udeluede havde set på totalatallee y og y 2 for hver mus og havde sagt at det var Y og Y 2 der var poissofordelte med parametre λ r og λ 2 r 2. Derfor bliver estimatet over λ i λi = y i r i, altså det totale atal observerede miroereceller i gruppe i divideret med det totale atal optalte celler i gruppe i, hvilet også er et estimat der virer umiddelbart rimeligt. For at estimere det fælles λ uder H 0 betragtes lielihoodfutioe L 0 (λ) = L(λ, λ) der med betegelsere y = y + y 2 og r = r + r 2 a srives som L 0 (λ) = ostat 2 λ yi exp( λr i ) = ostat λ y exp( λr ) Masimumsputet er λ = y /r, og det er også hvad ma umiddelbart sulle vete, thi år H 0 er rigtig, er der ige forsel på de to grupper, dvs. der er i realitete u tale om é eelt gruppe beståede af r celler hvoraf y er miroereceller. I esemplet bliver estimatere λbehadlig = 8/6320 = miroereceller pr. 000 celler λotrol = 0/6288 = miroereceller pr. 000 celler λfælles = 28/2608 = miroereceller pr. 000 celler. Ma a spørge hvor stor tiltro ma u a have til disse tal. Det er ie i statistieres magt at udtale oget foruftigt om diverse estere fejlilder der evetuelt måtte have været i spil (det véd esperimetator bedre). Statistiere a udtale sig om dé tilfældige variatio der besrives af de statistise model, for esempel oretiseret til middelfejlee på estimatorere. Lad os derfor bestemme middelfejle ( stadardafvigelse) på λ i i det foreliggede esempel: Da λ i = Y i /r i, er de søgte størrelse Var λ i = Var(Yi /r i ). Ifølge regereglere for variaser er Var(Y i /r i ) = Var(Y i )/r 2 i ; edvidere er Var(Y i ) = λ i r i fordi Y i er poissofordelt med parameter λ i r i (jf. side 59), så alt i alt har vi at middelfejle på λ i er Var(Y i /r i ) = λ i /r i. Da vi ie eder λ i me :c u et estimat λ i = y i /r i, a vi u udrege e estimeret middelfejl på λ i, og de bliver λi /r i = y i /r i. Ma fider de estimerede middelfejl på λ behadlig, λ otrol og λ fælles til , og miroereceller pr. 000 celler. Som læsere o vil have bemæret, beytter vi ved beregige af de forsellige estimater slet ie de idividuelle værdier af r og y for de eelte mus, vi beytter u totalere for hver gruppe. Er det da lige meget hvad værdiere for de eelte mus er? Ja, det er det fatis, så læge der ie er tvivl om poissomodelles brugbarhed. Me hvis vi er på udig efter idicier for (eller imod) avedelighede af poissomodelle, så er det i høj grad pårævet at ede de eelte værdier. For de statistise model sal jo besrive eeltobservatioeres tilfældige variatio omrig et bestemt iveau, og hvis ma vil vurdere atagelse om at de tilfældige variatio a besrives ved etop e poissofordelig, så sal ma udersøge eeltobservatioeres fatise variatio og vurdere om de liger de fittede poissofordelig. Hypoteseprøvig Som ævt sal vi teste de statistise hypotese H 0 λ = λ 2. Det gøres som sædvaligt med et votiettest. Kvotietteststørrelse er L( λ, λ) Q = L( λ, λ 2 ) = λ y λy2 exp( λr λr 2 ) 2 λy λy 2 exp( λ r λ 2 r 2 ) = ( λ y ) ( λ y 2 exp( y y 2 ) ) λ λ2 exp( y y 2 ) = ( λr y 2 ) ( λr ) y y 2 = ( ŷ y ) ( ŷ2 y 2 ), y y 2 hvor ŷ i = λr i er det»forvetede«atal miroereceller i gruppe i, forudsat at H 0 er rigtig. Derfor er 2 l Q = 2(y l y + y 2 l y 2 ). ŷ ŷ 2 Små værdier af Q, dvs. store værdier af 2 l Q, er sigifiate, altså teg på at hypotese H 0 ie er foreelig med de foreliggede data. For at vurdere om 2 l Q obs er sigifiat stor, sal ma bestemme testsadsylighede ε = P 0 ( 2 l Q 2 l Q obs ), altså sadsylighede uder H 0 for at få et observatiossæt der er midst lige så afvigede som det foreliggede. Da de forvetede atal ŷ i afgjort er større ed 5, a ma ved beregige af ε udytte at år H 0 er rigtig, så er 2 l Q med god tilærmelse χ 2 -fordelt med f = 2 frihedsgrader (emlig atal parametre i grudmodelle mius atal parametre uder H 0 ), således at ε med god tilærmelse a udreges som y 2
86 70 E- og flerstiprøveproblemer i poissofordelige 2.3 Et sværere esempel 7 Tabel 2.3 Fordelige af = 647 vider efter atallet y af ulyestilfælde i e fem ugers periode. y f y = atal vider med y ulyer sadsylighede for at få e værdi større ed eller lig med 2 l Q obs i χ 2 -fordelige med frihedsgrad: ε = P(χ 2 2 l Q obs). I talesemplet er ŷ = 4.0 og ŷ 2 = 4.0, så 2 l Q = 2(8 l l 4.0 ) = I χ2 -fordelige med frihedsgrad er 80%- fratile.64 og 90%-fratile 2.7, så de fude 2 l Q-værdi svarer til et ε på mellem 0% og 20%. Ma vil almideligvis sige at e såda ε-værdi ie er lille o til at ma vil foraste H 0. Vi a dermed oludere at de foreliggede tal ie giver statistis belæg for at mee at ultralyd er sadeligt. (På de ade side giver de æppe heller belæg for at mee at ultralyd ie er sadeligt.) 2.3 Et sværere esempel I dette afsit geemgås et esempel hvor i første omgag poissofordelige søges avedt; det viser sig imidlertid poissofordeligsmodelle ie passer særlig godt, og ma må derfor fide på e ade model. Præsetatio af esemplet Ma har udersøgt hvor mage ulyestilfælde hver eelt arbejder på e graatfabri i Eglad om ud for i løbet af e fem ugers periode. Det hele foregi uder første verdesrig, og de pågældede arbejdere var vider (mes mædee var soldater). I tabel 2.3 ses fordelige af = 647 vider efter atallet y af ulyestilfælde i e fem ugers periode. Ma søger e statistis model der a besrive dette talmateriale. Esemplet stammer fra [9], og er her i ladet især edt via si foreomst i Hald [0] der i mere ed e meesealder har været e toeagivede das lærebog i statisti. Lad y i betege atal ulyer som vide r. i ommer ud for. Vi beytter betegelse f y for atallet af vider der har været ude for etop y ulyer, dvs. i det foreliggede tilfæl- 647 y f y fy Figur 2. Model : Observerede atal f y (sorte søjler) og forvetede atal f y (lyse søjler). de er f 0 = 447, f = 32 osv. Det samlede atal ulyer er 0 f 0 + f +2 f = y f y = 30. Vi går ud fra at y i er e observatio af e stoastis variabel Y i, i =, 2,...,, og vi vil atage at de stoastise variable Y, Y 2,..., Y er idbyrdes uafhægige hvad der måse er e lidt disutabel atagelse. Model I første omgag a ma forsøge sig med e model hvor Y, Y 2,..., Y er uafhægige og idetis poissofordelte med parameter µ, dvs. P(Y i = y) = µ y y! exp( µ). Poissofordelige ommer id i billedet ud fra e forestillig om at ulyere ser»helt tilfældigt«, og ma a sige at parametere µ besriver videres»ulyestilbøjelighed«. I dee model estimeres µ ved µ = y = 30/647 = 0.465, der ser ulyer pr. vide pr. fem uger. Det forvetede atal vider med y ulyer er f y = µ y y! exp( µ); værdiere heraf ses i figur 2.. Det fremgår at der ie er oge særlig god overesstemmelse mellem de observerede og de forvetede atal. Ma a udrege variase til s 2 = 0.692, og det er æste halvade gage middelværdie, hvilet er edu et teg på at poissomodelle er dårlig. Ma sal derfor o overveje e ade model. Model 2 Ma a udvide model på følgede måde: Det atages stadig at Y, Y 2,..., Y er uafhægige og poissofordelte, me u tillader vi at de har hver si middelværdi, dvs. Y i er poissofordelt med parameter µ i, i =, 2,...,. Hvis modelopstillige gjorde holdt her, ville der være e parameter for hver perso, og ma ville få et perfet fit idet µ i = y i for i =, 2,...,. Me der edu et tri i modelopbygige: :c y=0
87 72 E- og flerstiprøveproblemer i poissofordelige 2.3 Et sværere esempel 73 Vi vil atage at µ, µ 2,..., µ er uafhægige observatioer fra e bestemt sadsylighedsfordelig. Dee sadsylighedsfordelig sal være e otiuert fordelig på de positive halvase, og det viser sig bevemt at beytte e fordelig med e tæthedsfutio af forme g(µ) = Γ(κ)β κ µκ exp( µ/β), µ > 0. [Symbolet Γ(κ) beteger de såaldte Gammafutio, udreget i κ. Pr. defiitio + er Γ(κ) = t κ exp( t) dt. Hvis m er et aturligt tal, så er Γ(m + ) = m!. 0 Gammafutioe ommer id i billedet fordi tæthedsfutioe g sal itegrere til, og det gør de da også, hvilet ses ved at foretage substitutioe t = µ/β.] Fordelige med dee tæthedsfutio g er e gammafordelig med formparameter κ > 0 og salaparameter β > 0. Sadsylighede for at e vide ommer ud for y ulyer, ville u være lig med µ y exp( µ), forudsat at vi edte værdie af µ for de pågældede vide. Me y! da vi u véd at µ følger fordelige med tæthedsfutio g, bliver de fatise sadsylighed for y ulyer et vægtet middeltal af værdiere µy exp( µ) med y! g(µ)-værdiere som vægte, og det betyder at sadsylighede for at e vide ommer ud for etop y ulyer, alt i alt bliver µ y + P(Y = y) = exp( µ) g(µ) dµ 0 y! = + 0 = = µ y y! exp( µ) Γ(κ)β κ µκ exp( µ/β) dµ Γ(y + κ) y! Γ(κ) ( κ β + ) ( β y β + ) Γ(y + κ) y! Γ(κ) pκ ( p) y, hvor p = /(β + ). Med betegelse ( y + κ Γ(y + κ) ) = (som hvis κ er et y y! Γ(κ) aturligt tal, blot er de sædvalige defiitio af biomialoefficiet) er sadsylighede for y ulyer P(Y = y) = ( y + κ ) p κ ( p) y, y = 0,, 2,.... y Dee fordelig af Y er de såaldte egative biomialfordelig med formparameter κ og sadsylighedsparameter p. Her a κ være et vilårligt positivt tal og p et vilårligt tal mellem 0 og (fordi p = /( + β) hvor β > 0). y f y fy Figur 2.2 Model 2: Observerede atal f y (sorte søjler) og forvetede atal fy (hvide søjler). De egative biomialfordelig har to parametre ma a»srue på«, og ma a håbe at det derved er muligt at få de ye model til at passe bedre til observatioere ed Model gjorde. I de ye model a middelværdie vises at være E(Y) = κ( p)/p som vi alder µ, og variase a vises at være Var(Y) = κ( p)/p 2 = µ/p = µ + µ 2 /κ; det ses at variase altid er større ed middelværdie. I det foreliggede talmateriale fadt vi etop at variase var større ed middelværdie, så foreløbig a det ie udelues at de egative biomialfordeligsmodel er brugbar. Udertide bruger ma e ade parametriserig af fordelige: i stedet for at bruge κ og p som parametre bruger ma κ og µ. Estimatio af parametree i Model 2 Vi beytter som altid lielihoodmetode til estimatio af de uedte parametre. Lielihoodfutioe er L(κ, p) = ( y i + κ )p κ ( p) yi y i = p κ ( p) y+y2+ +y ( y i + κ ) y i = ostat p κ ( p) y (κ + ) j= f j, hvor f stadig beteger atal observatioer som har værdie. Logaritme til lielihoodfutioe bliver derfor (på ær e ostat) l L(κ, p) = κ l p + y l( p) + f j ) l(κ + ) = = ( j=
88 74 E- og flerstiprøveproblemer i poissofordelige 2.4 Reg og teg 75 der i det orete esempel atager det mere usyldige udseede l L(κ, p) = 647κ l p + 30 l( p) l κ + 68 l(κ + ) + 26 l(κ + 2) + 5 l(κ + 3) + 2 l(κ + 4). Vi overlader til computere at bestemme masimumsputet for dee futio. Ma får at κ = og µ = (så p = κ/( µ + κ) = 0.650). De tilsvarede forvetede atal fy = ( y + κ ) p κ ( p) y y ses i figur 2.2. På baggrud heraf tillader vi os at oludere at de egative biomialfordeligsmodel besriver observatioere godt o. 2.4 Reg og teg Her vises hvorda ma a udføre de forsellige beregiger og tegiger med R. Hestespar-esemplet Udgagsputet er de fem observerede atal i tabel 2. side 65. # Vi gesaber de opridelige 200 obs. med»getagelsesfutioe«rep y <- rep( 0:4, c(09, 65, 22, 3, )) y # udsriv de 200 værdier mea(y) # udsriv geemsittet # dpois udreger poissosadsyligheder som derefter bruges til at # fide de forvetede atal til tabel 2.. Værdiere afrudes til é decimal: roud(200 * dpois(0:4, mea(y)), digits=) var(y) # udsriv de estimerede varias d <- var(y)/mea(y) # udreg dispersiosteststørrelse f <- legth(y)- # atal frihedsgrader (200-=99) # de tosidede testsadsylighed: pchisq(f*mi(d,/d), f) + - pchisq(f*max(d,/d), f) Ultralyd-esemplet Data (tabel 2.2 side 66) idlæses fra e datafil ultralyd.dat hvis idhold er Gruppe Optalte Atal Behadlig 2096 Behadlig Behadlig Kotrol Kotrol 28 6 Kotrol Selve R-ode a se såda ud: # idlæs data til datastruture ulyd Ulyd <- read.table("ultralyd.dat", rows=0, header=true) # Modelle estimeres med glm. Når ma alder glm med family=poisso, # estimeres e såaldt log-lieær model hvor ma # parametriserer modelle med l(µ) i stedet for med µ. # Da µ i j = λ i r i j (jf. side 67), bliver l µ i j = l λ i + l r i j # hvor l r i j er e edt ostat, e offset-værdi, og l λ i er de parameter # som glm sal estimere. Det gøres på følgede måde (hvor 0+ i modelformle sørger for # at der estimeres separate gruppeparametre i stedet for et fælles iveau og afvigelser herfra): G <- glm(atal ~ 0 + Gruppe, offset=log(optalte), family=poisso, data=ulyd) # Da glm estimerer l λ i, får vi λ-ere ved at tage exp af de estimerede oefficieter: roud(exp(g$coef), digits=4) # (resultatet afrudes til 4 cifre) # Hypotese om es λ-er svarer til e model med e ostat (f.es. ) # som de eeste forlarede variabel: H0 <- update(g,. ~ ) roud(exp(h0$coef), digits=4) # det fælles λ # test af hypotese H0 i forhold til grudmodelle G: aova(h0, G) # i udsrifte fra aova aflæser ma at Deviace, dvs. 2lQ, # er lig med frihedsgrad, så testsadsylighede a fides som: - pchisq(2.2774, ) # alterativt a ma gøre såda: - pchisq(h0$deviace-g$deviace, H0$df.residual-G$df.residual) Graat-esemplet De første model (jf. side 7) behadles på samme måde som hestesparesemplet. Til estimatio i de egative biomialfordeligsmodel (jf. side 7f) beyttes e særlig glm-variat glm.b der fides i R-biblioteet MASS. f <- c(447, 32, 42, 2, 3, 2, 0) # frevesere f y y <- rep(0:6, f) # gesaber de 647 observatioer. mea(y); var(y) # empiris middelværdi og varias # udreg og udsriv de forvetede atal f y i poissomodelle f.hat <- roud(647 * dpois(0:6, mea(y)), digits=) f.hat # Så teges et pidediagram med to forsellige slags pide svarede til hhv. # observerede og forvetede atal (figur 2.). (Futioe rbid listrer # samme lags ræer, dvs. rbid(f,f.hat) bliver e 2 7-matrix.)
89 76 E- og flerstiprøveproblemer i poissofordelige 2.5 Opgaver 77 barplot(rbid(f,f.hat), beside=t, las=, ames.arg=0:6, space=c(0,3), col=gray(c(0, 0.95))) # Vi sal bruge futioe glm.b fra biblioteet MASS: require(mass) # idlæs MASS hvis det ie allerede er idlæst. # Da vi u har é stiprøve, sal højreside i modelformle være (svarede # til e forlarede variabel som er ostat). NB <- glm.b(y ~, li=idetity) mu.hat <- NB$coef # µ appa.hat <- NB$theta # κ p.hat <- appa.hat/(appa.hat+mu.hat) # p = κ/( κ + µ) mu.hat ; appa.hat ; p.hat # sriv værdiere # udreg og udsriv de forvetede atal fy : f.hathat <- roud(647 * dbiom(0:6, mu = mu.hat, size=appa.hat), digits=) f.hathat # Teg figur 2.2 barplot(rbid(f,f.hathat), beside=t, las=, ames.arg=0:6, space=c(0,3), col=gray( c(0, 0.95))) Vedr. opgave 2. Ma a fremstille idholdet af e tabel svarede til tabel 2.4 såda her: # Vi beytter rpois til at fremstille tilfældige poissofordelte tal med e give middelværdi, # og matrix til at arragere dem i e matrix: y <- matrix(rpois(200, 3.4), row=20) y # udsriv de 20 ræer med hver 0 tilfældige Poissofordelte tal. # Når ma sriver apply(y,,ft), bliver futioe ft avedt på hver ræe af y. apply(y,, sum) # de 20 ræesummer apply(y,, mea) # de 20 ræegeemsit apply(y,, var) # de 20 ræevariaser # såda a ma udrege d-værdiere og de tosidede testsadsyligheder: d <- apply(y,,(fuctio(x){var(x)/mea(x)})) d pchisq(9*pmi(d,/d), 9)+ -pchisq(9*pmax(d,/d), 9) 2.5 Opgaver Opgave 2. Tabel 2.4 ideholder 20 stiprøver y, y 2,..., y 0 fra e poissofordelig med µ = Udreg µ for hver stiprøve. Hvorda fordeler µ sig omrig µ? Tabel esempler på udfald af stoastise variable Y, Y 2,..., Y 0 frembragt af e poissofordeligs-tilfældighedsmeaisme med µ = 3.4. y y 2 y 3 y 4 y 5 y 6 y 7 y 8 y 9 y 0 y y s Udreg dispersiosteststørrelse d for hver stiprøve. Hvorda ligger værdiere i forhold til χ 2 / f -fordelige? 3. Ma a bevise at e sum af uafhægige poissofordelte størrelser er poissofordelt med e parameter der er lig summe af parametree. Derfor a ma opfatte de 20 værdier i y -søjle som 20 observatioer fra e poissofordelig med parameter 0µ (= 3.4). Udreg parameterestimatet og dispersiosteststørrelse for disse 20 observatioer. Opgave 2.2 (Udsedelse af α-partiler) I et berømt esperimet har Rutherford og Geiger [8, 7] for hvert af i alt 2608 tidsitervaller af lægde 7.5 seud talt op hvor mage α-partiler der udsedes fra e bestemt portio af det radioative stof Poloium. Resultatet fremgår af tabel 2.5. Det formodes at atal α-partiler udsedt i et tidsiterval af lægde t (som er meget midre ed stoffets halverigstid) a opfattes som e observatio af e poissofordelt stoastis variabel med parameter λt, hvor λ er e slags stråligsitesitet.. Gør rede for rimelighede af poissofordeligsatagelse, og præcisér de statistise model. 2. Estimér λ ud fra de give observatioer. 3. Hvad a dispersiostestet fortælle om rimelighede af de foreslåede model?
90 78 E- og flerstiprøveproblemer i poissofordelige Tabel 2.5 Opgave 2.2: Atal tidsitervaller f y hvor der udsedes etop y α-partiler. Tabel 2.6 Opgave 2.3: Fordelige af drege fra to vadværsdistriter efter atal dmf-tæder. y f y y f y y atal med y dmf-tæder gamle vv. hjælpe-vv. Opgave 2.3 (Fluor i drievadet) Det mees at fluor i drievadet a modvire huller i tædere. I 960-ere foretog ma e udersøgelse af børs»tadstatus«og sammeholdt de med ocetratioe af fluor-ioer i drievadet fra det loale vadvær. Tabel 2.6 viser data fra to vadværsdistriter i Næstved. Ma har bestemt atal dmf-tæder, dvs. tæder med huller efter caries samt udtrue og plomberede tæder, hos de 2-årige drege i de to distriter. (Det a i øvrigt æves at F -ocetratioe ved det gamle vadvær var.9 ppm og ved hjælpevadværet.2 ppm.) Udersøg ved hjælp af e poissofordeligsmodel om der er e sigifiat forsel på foreomste af dmf-tæder i de to vadværsdistriter. Opgave 2.4 Fortsættelse af opgave.2:. Atag at der er udført cirliger, og at i etop y tilfælde fadtes der et sud ide i cirle. Hvorda sal ma på dee baggrud estimere λ? 2. Hvis ma sal ue opdage sjælde platearter med dee metode, sal ma o bruge mere ed 0 cirliger. Atag at ma stadig bruger cirler med areal a = 0. m 2. Hvis e art voser med e tæthed på ca. et idivid pr. 5 m 2 (dvs. λ = 0.2 m 2 ), hvor mage cirliger sal ma da foretage for at være 90% sier på at opdage plate? Multipliative poissomodeller I dette apitel geemgås et esempel på e såaldt multipliativ poissomodel. Modelle er måse e smule mere idvilet ed hvad der hidtil er blevet præseteret, me på de ade side er det e type modeller der beyttes e del. Derudover er esemplet iteressat på de måde at ma tilsyeladede a å frem til modstridede olusioer blot ved at ædre e smule på fremgagsmåde ved aalyse af modelle. 3. Præsetatio af esemplet: Lugeræft i Fredericia I midte af 970-ere var der e større debat om hvorvidt der var særlig stor risio for at få lugeræft år ma boede i bye Fredericia. Grude til at der ue være e større risio, var at der i Fredericia var e betydelig mægde luftforureede idustri som tilmed lå midt ide i bye. For at ue afgøre spørgsmålet idsamlede ma data om lugeræfthyppighede i periode 968-7, dels i Fredericia, dels i byere Horses, Koldig og Vejle. De tre sidste byer sulle tjee som sammeligigsgrudlag, idet det var byer af ogelude samme art som Fredericia, på ær de mistæte idustri. Lugeræft opstår tit som et resultat af daglige påviriger af sadelige stoffer geem mage år. E evetuel større risio i Fredericia ue måse derfor vise sig ved at lugeræftpatietere fra Fredericia var ygre ed dem fra otrolbyere, og det er uder alle omstædigheder tilfældet at lugeræft optræder med meget forsellig hyppighed i forsellige alderslasser. Det er derfor ie o at se på de totale atal lugeræfttilfælde, ma sal se på atal tilfælde i forsellige alderslasser. De foreliggede tal er vist i tabel 3.. Da atallee af lugeræfttilfælde i sig selv ie siger oget så læge ma ie eder risiogrupperes størrelse, må ma også rapportere atal idbyggere i de forsellige alderslasser og byer, se tabel 3.2. Det der u er statistieres opgave, er at besrive tallee i tabel 3. ved hjælp af e statistis model hvori der idgår ogle parametre der i e passede forstad besriver risioe for at få lugeræft år ma tilhører e bestemt aldersgruppe og bor i e bestemt by. Edvidere ville det være formålstjeligt hvis ma ue udsille ogle parametre der besrev»byviriger«(dvs. forselle mellem byer) efter at ma på e eller ade måde havde taget højde for forsellee mellem aldersgruppere. 79
91 80 Multipliative poissomodeller 3.2 Modelopstillig 8 Tabel 3. Lugeræfttilfælde i fire byer fordelt på alderslasser (fra Aderse [2]). alderslasse Fredericia Horses Koldig Vejle i alt i alt Tabel 3.2 Atal idbyggere i de forsellige alderslasser i de fire byer (fra Aderse [2]). alderslasse Fredericia Horses Koldig Vejle i alt i alt Modelopstillig De statistise model sal ie modellere variatioe i atallet af idbyggere i de forsellige byer og alderslasser, så derfor vil vi ase disse atal for give ostater. Det er atallee af lugeræfttilfælde der sal opfattes som observerede værdier af stoastise variable, og det er fordelige af disse stoastise variable der sal specificeres af de statistise model. Vi idfører oget otatio: y i j = atal tilfælde i aldersgruppe i i by j, r i j = atal persoer i aldersgruppe i i by j, hvor i =, 2, 3, 4, 5, 6 ummererer aldersgruppere, og j =, 2, 3, 4 ummererer byere. Observatioere y i j opfattes som observerede værdier af stoastise variable Y i j. Ispireret af apitel ue ma foreslå at Y i j sulle være poissofordelt med e parameter µ i j der afhæger af aldersgruppe og by (modelle sal ie ideholde observatiosperiodes lægde da dee er ostat lig 4 år). Hvis vi sriver µ i j som µ i j = λ i j r i j, så a itesitete λ i j fortoles som atal lugeræfttilfælde pr. perso i aldersgruppe i i by j i de betragtede fireårsperiode, dvs. λ er de alders- og byspecifie cacer-icides. Edvidere vil vi gå ud fra at de eelte Y i j -er er stoastis uafhægige. Grudmodelle er altså at de stoastise variable Y i j er stoastis uafhægige og poissofordelte, og Y i j har parameter λ i j r i j hvor λ i j -ere er uedte positive parametre. Det er let o at estimere parametree i grudmodelle. Esempelvis estimeres itesitete λ 2 for årige i Fredericia til /800 = 0.04 (dvs tilfælde pr. perso pr. 4 år). De geerelle opsrift er λ i j = y i j /r i j. Nu var det jo tae at vi gere ville ue omme til at sammelige byere efter at vi havde taget højde for deres forsellige aldersfordeliger, og det a ie ude videre lade sig gøre i grudmodelle. Derfor vil vi udersøge om det lader sig gøre at besrive data med e model hvor λ i j er spaltet op i et produt α i β j af e aldersvirig α i og e byvirig β j. Hvis dette lader sig gøre, er vi heldigt stillede, for så a vi sammelige byere ved at sammelige byparametree β j. Vi vil derfor i første omgag teste de statistise hypotese H 0 λ i j = α i β j hvor α, α 2, α 3, α 4, α 5, α 6, β, β 2, β 3, β 4 er uedte parametre. (Mere udførligt lyder hypotese: Der fides parametre α, α 2, α 3, α 4, α 5, α 6, β, β 2, β 3, β 4 således at der for by j og aldersgruppe i gælder at lugeræftrisioe λ i j fås som λ i j = α i β j.) Hypotese H 0 specificerer e såaldt multipliativ model fordi aldersparametre og byparametre idgår multipliativt. E detalje vedrørede parametriserige Der er det særlige ved parametriserige af modelle uder H 0 at de ie er ijetiv. At e parametriserig er ijetiv betyder at forsellige parametersæt giver forsellige udgaver af modelle. De 0 parametre α, α 2, α 3, α 4, α 5, α 6, β, β 2, β 3, β 4 idgår udeluede i modelle via produtere α i β j. Atag u at to parametersæt (α, α 2, α 3, α 4, α 5, α 6, β, β 2, β 3, β 4 ) og (α, α 2, α 3, α 4, α 5, α 6, β, β 2, β 3, β 4 ) giver aledig til de samme produter, dvs. atag at α i β j = α i β j (3.) for alle i og j. Så gælder også α i /α i = β j /β j (3.2) for alle i og j. Da højreside af formel (3.2) ie ivolverer i, så a vestreside heller ie afhæge af i, det vil sige der fides e ostat c således at α i /α i = c og dermed α i = α i /c for alle i. Videre er β j /β j = α i /α i = c, det vil sige β j = cβ j for alle j.
92 82 Multipliative poissomodeller 3.3 De multipliative model 83 Parametersættet (α, α 2, α 3, α 4, α 5, α 6, β, β 2, β 3, β 4 ) må altså ødvedigvis være af forme (α,α2, α3, α4, α5, α6, β, β2, β3, β4) = ( α c, α 2 c, α 3 c, α 4 c, α 5 c, α 6 c, cβ (3.3), cβ 2, cβ 3, cβ 4 ) hvor c er e positiv ostat. Omvedt gælder også at hvis det stjerede parametersæt er defieret ved formel (3.3), så vil formel (3.) være opfyldt. Hermed har vi fået larlagt dels at parametriserige ie er ijetiv, dels hvile parametersæt der giver de samme model. De 0 parametre sal pålægges ét båd for at få e ijetiv parametriserig. Et sådat båd a være at α =, eller at α + α α 6 =, eller at α α 2... α 6 =, eller det tilsvarede for β, osv. I det atuelle esempel vil vi beytte betigelse β =, dvs. vi defierer at parametere for Fredericia sal være lig. Med dee betigelse er parametriserige ijetiv, for hvis både β og β = cβ sal være, så må c ødvedigvis være lig. Samtidig oterer vi at der er 0 = 9 forsellige parametre at estimere. 3.3 De multipliative model I de multipliative model lader det sig ie gøre at opsrive simple udtry for estimatere, ma er hevist til at beytte umerise metoder for at bestemme talværdiere i de orete tilfælde. E computer med oget ordetligt statistiprogrammel vil ude videre ue levere de øsede værdier. Parametersættet (α, α 2, α 3, α 4, α 5, α 6, β, β 2, β 3, β 4 ) (hvor β = ) sal ifølge de sædvalige pricipper bestemmes så det masimaliserer lielihoodfutioe. I grudmodelle er lielihoodfutioe 6 L = 4 (λ i j r i j ) yi j 6 exp( λ i j r i j ) = ostat y i j! 4 λ yi j i j exp( λ i j r i j ). Når vi her erstatter λ i j med α i β j, får vi lielihoodfutioe L 0 uder H 0 : L 0 = ostat α yi = ostat ( i )( α yi j i β yi j j exp( α i β j r i j ) 4 β y j j De tilsvarede log-lielihoodfutio l L 0 er 6 6 ) exp( α i β j r i j ). 4 l L 0 = ostat + ( y i l α i ) + ( y j l β j ) α i β j r i j Opgave er u at bestemme det parametersæt ( α, α 2, α 3, α 4, α 5, α 6,, β 2, β 3, β 4 ) der masimaliserer L 0. Dee opgave lader sig ie løse såda lige ude videre; i prasis vil statistiere beytte sig af et computerprogram der a aalysere geeraliserede lieære modeller, idet de multipliative poissomodel er et specialtilfælde heraf. Med programmet R får ma (jf. afsit 3.8) α = β = α 2 = 0.0 β2 = 0.79 α 3 = 0.06 β3 = α 4 = 0.02 β4 = α 5 = α 6 = 0.05 Efter at have bestemt de bedste estimater over α-ere og β-ere sal vi besæftige os med hvor god e besrivelse de fatis giver af datamaterialet. Formelt består opgave i at teste multipliativitetshypotese H 0, og dette gøres som sædvalig med et votiettest: Ma udreger 2 l Q hvor Q = L 0( α, α 2, α 3, α 4, α 5, α 6,, β 2, β 3, β 4 ) L( λ, λ 2,..., λ 63, λ. 64 ) Små værdier af Q eller store værdier af 2 l Q er sigifiate, dvs. de tyder på at H 0 ie giver e tilstræelig god besrivelse af data. For at afgøre om 2 l Q obs er sigifiat stor, sal vi se på testsadsylighede ε, altså sadsylighede for at få e værre 2 l Q- værdi forudsat at H 0 er rigtig: ε = P 0 ( 2 l Q 2 l Q obs ). Når H 0 er rigtig, er 2 l Q med god tilærmelse χ 2 -fordelt med f = 24 9 = 5 frihedsgrader (forudsat at de forvetede atal alle er midst fem). Det betyder at testsadsylighede a bestemmes som ε = P(χ5 2 2 l Q obs). Efter e del omsriviger fider ma at l Q = 2 y i j l y i j. ŷ i j Ma a udrege de forvetede atal lugeræfttilfælde ŷ i j = α i β j r i j i hver eelt by og alderslasse (tabel 3.3). Det a måse også være iteressat at udrege de estimerede alders- og by-specifie lugeræftitesiteter α i β j (tabel 3.4). Idsættes tallee fra tabel 3. og tabel 3.3 i udtryet for 2 l Q, får ma at 2 l Q obs = I χ 2 -fordelige med f = 24 9 = 5 frihedsgrader er 90%-fratile
93 84 Multipliative poissomodeller 3.4 Es byer? 85 Tabel 3.3 De forvetede atal ŷ i j af lugeræfttilfælde uder de multipliative poissomodel. alderslasse Fredericia Horses Koldig Vejle i alt i alt og 95%-fratile De opåede værdi 2 l Q obs = svarer altså til e testsadsylighed ε på mellem 5% og 0%, og der er dermed ie alvorlig evides imod modelles brugbarhed. Vi tillader os at gå ud fra at modelle fatis er avedelig, dvs. lugeræftrisioe afhæger multipliativt af by og alder. Hermed er vi ået frem til e statistis model der besriver data ved hjælp af ogle byparametre og ogle alders-parametre, me ude parametre svarede til e veselvirig mellem by og alder. Det betyder at de forsel der er mellem byere, er de samme for alle alderslasser, og at de forsel der er mellem alderslassere, er de samme i alle byer. Når vi sal sammelige byere, a vi derfor gøre det ved udeluede at betragte β-ere. 3.4 Es byer? Det hele går ud på at vurdere om der er sigifiat forsel på byere. Hvis der ie er oge forsel, så må byparametree være es, dvs. β = β 2 = β 3 = β 4, og da β =, må de fælles værdi være. Derfor vil vi teste de statistise hypotese H β = β 2 = β 3 = β 4 =. Hypotese sal testes i forhold til de atuelle grudmodel H 0, så teststørrelse bliver L ( α, α 2, α 3, α 4, α 5, α 6 ) Q = L 0 ( α, α 2, α 3, α 4, α 5, α 6,, β 2, β 3, β 4 ) hvor L (α, α 2,..., α 6 ) = L 0 (α, α 2,..., α 6,,,, ) er lielihoodfutioe uder H, og α, α 2,..., α 6 er estimatere over α, α 2,..., α 6 uder H, dvs. α, α 2,..., α 6 masimaliserer L. Futioe L a omsrives til et produt af ses futioer, hver med sit α: L (α, α 2,..., α 6 ) = ostat 6 4 α yi j i exp( α i r i j ) = ostat 6 α yi i exp( α i r i ). Tabel 3.4 Estimerede alders- og byspecifie lugeræftitesiteter i periode uder de multipliative poissomodel. Værdiere er atal pr. 000 idbyggere pr. 4 år. alderslasse Fredericia Horses Koldig Vejle Masimaliserigsestimatet fides derfor til α i Kvotietteststørrelse er α = 33/600 = α 2 = 32/38 = α 3 = 43/3367 = α 4 = 45/2748 = α 5 = 40/227 = α 6 = 3/2665 = = y i r i. Talværdiere bliver L ( α, α 2, α 3, α 4, α 5, α 6 ) Q = L 0 ( α, α 2, α 3, α 4, α 5, α 6,, β 2, β 3, β 4 ) = = 4 4 α yi j i exp( α i r i j ) ( α i β j ) yi j exp( α i β j r i j ) ŷ i j hvor ŷ i j = α i β j r i j (som hidtil), og ŷ i j = α i r i j. 6 4 Da ŷ i j = ŷ i j = y i j, er Q = ( ) yi j exp( ŷ i j + ŷ i j ) ŷ i j l Q = ŷ i j 6 4 ( ) yi j og dermed ŷ i j y i j l ŷi j ŷ i j. Store værdier af 2 l Q er sigifiate. Ma sal sammeholde 2 l Q med χ 2 -fordelige med f = 9 6 = 3 frihedsgrader.
94 86 Multipliative poissomodeller 3.5 E ade mulighed 87 Tabel 3.5 De forvetede atal ŷ i j af lugeræfttilfælde uder atagelse om at der ie er forsel på byere. alderslasse Fredericia Horses Koldig Vejle i alt i alt De forvetede tal er vist i tabel 3.5. Idsættes værdiere fra tabel 3., tabel 3.3 og tabel 3.5 i udtryet for 2 l Q, fås 2 l Q obs = I χ 2 -fordelige med f = 9 6 = 3 frihedsgrader er 80%-fratile 4.64 og 90%-fratile 6.25, således at testsadsylighede ε er æste 20%. De foreliggede observatioer er altså fit foreelige med hypotese H om at der ie er oge forsel på byere. Sagt på e ade måde, der er ie oge sigifiat forsel på byere. 3.5 E ade mulighed Det er sjældet tilfældet at der er é bestemt måde at udersøge e pratis problemstillig på ved hjælp af e statistis model og e statistis hypotese. Det atuelle spørgsmål om der er e øget risio for lugeræft ved at bo i Fredericia, blev i forrige afsit belyst ved at vi testede hypotese H om es byparametre. Det viste sig at H ue accepteres, og ma a således sige at der ie er oge sigifiat forsel på de fire byer. Nu a ma imidlertid agribe problemet på e ade måde. Ma a sige at det hele drejer sig om at vurdere om det er farligere at bo i Fredericia ed i e af de tre øvrige byer. Dermed er det idirete forudsat at de tre øvrige byer er stort set es, hvilet ma måse burde teste. Ma ue derfor alægge følgede strategi for formulerig og test af hypoteser:. Vi går stadig ud fra de multipliative poissomodel H 0 som grudmodel. 2. Først udersøges om det a atages at de tre byer Horses, Koldig og Vejle er es, dvs. vi vil teste hypotese H 2 β 2 = β 3 = β Hvis H 2 bliver accepteret, er der et fælles iveau β for de tre»otrolbyer«. Vi a derefter sammelige Fredericia med dette fælles iveau ved at teste om β = β. Da β pr. defiitio er lig, er de hypotese der sal testes, H 3 β =. Vi sal altså først teste hypotese H 2 β 2 = β 3 = β 4 om es otrolbyer i forhold til de multipliative model H 0. Det gøres ved at udrege 2 l Q, hvor Q = L 2 ( α, α 2,..., α 6, β) L 0 ( α, α 2,..., α 6,, β 2, β 3, β 4 ), L 2 (α, α 2,..., α 6, β) = L 0 (α, α 2,..., α 6,, β, β, β) er lielihoodfutioe uder H 2, og α, α 2,..., α 6, β er masimaliserigsestimatere uder H 2. Når H 2 er rigtig, er 2 l Q med god tilærmelse χ 2 -fordelt med f = 9 7 = 2 frihedsgrader. Modelle H 2 svarer til e multipliativ poissomodel med to byer (emlig Fredericia og reste) og ses alderslasser, og der er derfor ige pricipielt ye problemer forbudet med at estimere parametree uder H 2. Ma fider Edvidere bliver hvor ŷ i j = α i β j r i j, se tabel 3.3, og α = β = α 2 = 0.0 β = α 3 = 0.06 α 4 = 0.02 α 5 = α 6 = l Q = 2 ỹ i = α i r i 6 4 y i j l ŷi j ỹ i j ỹ i j = α i β ri j, j = 2, 3, 4. De forvetede atal ỹ i j ses i tabel 3.6. Når ma idsætter værdiere fra tabel 3., tabel 3.3 og tabel 3.6 i det etop fude udtry for 2 l Q, fås 2 l Q obs = der sal sammeholdes med χ 2 -fordelige med f = 9 7 = 2 frihedsgrader. I χ 2 -fordelige med f = 2 frihedsgrader er 20%-fratile 0.446, så testsadsylighede er altså godt 80%, og det betyder at H 2 er udmæret foreelig med de foreliggede data. Vi a altså udmæret tillade os at gå ud fra at der ie sigifiat forsel på de tre byer. Herefter a vi gå over til at teste H 3 om at de fire byer er es, hvorimod de ses aldersgrupper tillades at være forsellige. Uder forudsætig af H 2 er H 3 idetis med
95 88 Multipliative poissomodeller 3.6 Sammeligig af de to fremgagsmåder 89 Tabel 3.6 De forvetede atal ỹ i j af lugeræfttilfælde uder H 2. alderslasse Fredericia Horses Koldig Vejle i alt i alt hypotese H fra tidligere, så estimatere over aldersparametree er α, α 2,..., α 6 fra side 85. I dee omgag sal vi teste H 3 (= H ) i forhold til de u gældede grudmodel H 2. Teststørrelse er 2 l Q hvor der let omformes til så at Q = L ( α, α 2,..., α 6 ) L 2 ( α, α 2,..., α 6, β) = L 0( α, α 2,..., α 6,,,, ) L 0 ( α, α 2,..., α 6,, β, β, β) 6 Q = 4 ŷ i j 2 l Q = 2 6 ( ) yi j ỹ i j 4 y i j l ỹi j ŷ i j. Store værdier af 2 l Q er sigifiate. Når H 3 er rigtig, er 2 l Q med god tilærmelse χ 2 -fordelt med f = 7 6 = frihedsgrad (forudsat at de idgåede forvetede atal er midst fem). Ved at idsætte værdiere fra tabel 3., tabel 3.5 og tabel 3.6 i det seeste udtry for 2 l Q fås 2 l Q obs = 4.6 der med frihedsgrad svarer til e testsadsylighed på lidt over 3%. På det grudlag vil ma almideligvis foraste hypotese H 3 (= H ). Kolusioe bliver altså at der ie er sigifiat forsel på lugeræfthyppighede i de tre byer Horses, Koldig og Vejle, hvorimod Fredericia har e sigifiat aderledes lugeræfthyppighed. De relative lugeræfthyppighed i de tre es byer i forhold til Fredericia estimeres til β = 0.7, så lugeræfthyppighede i Fredericia er altså sigifiat større. Se det var jo e pæ og lar olusio, der blot er sti modsat de vi åede frem til på side 86! Tabel 3.7 Oversigt over de to fremgagsmåder. Første fremgagsmåde Model/Hypotese 2 l Q f ε M: vilårlige parametre H: multipliativitet M: multipliativitet H: fire es byer Ade fremgagsmåde = 5 ca. 7.5% = 3 ca. 8% Model/Hypotese 2 l Q f ε M: vilårlige parametre H: multipliativitet M: multipliativitet H: de tre byer es M: de tre byer es H: de fire byer es = 5 ca. 7.5% = 2 ca. 88% = ca. 3% 3.6 Sammeligig af de to fremgagsmåder Vi har beyttet to forsellige fremgagsmåder der u var e smule forsellige, me gav helt forsellige resultater. De to fremgagsmåder er begge opbygget over følgede sema:. Fid e passede grudmodel. 2. Formuler e hypotese der giver e forsimplig af de atuelle grudmodel. 3. Test hypotese i forhold til de atuelle grudmodel. 4. a) Hvis hypotese accepteres, så har vi derved fået e y atuel grudmodel (emlig de gamle med de simplifiatioer som de accepterede hypotese giver). Fortsæt da med put 2 b) Hvis hypotese forastes, så slut. Data besrives da ved de seest avedte grudmodel. Begge fremgagsmåder tog udgagsput i de samme poissomodel, de adsiller sig udeluede ved valgee af hypoteser i put 2; tabel 3.7 giver e oversigt over de to fremgagsmåder. I de første fremgagsmåde tages sridtet fra de multipliative model til»fire es«på é gag, hvilet giver e teststørrelse på 4.86, som, da de a fordeles på 3 frihedsgrader, ie er sigifiat. I de ade fremgagsmåde spalter vi op i. multipliativitet»tre es«, og 2.»tre esfire es«,
96 90 Multipliative poissomodeller 3.8 Reg og teg 9 og det viser sig så at de 4.86 med 3 frihedsgrader spaltes op i 0.25 med 2 frihedsgrader og 4.6 med frihedsgrad, og her er det sidste bidrag sigifiat. Det a udertide være hesigtsmæssigt at foretage e såda trivis testig. Ma bør dog ie stræbe efter at spalte op i så mage tests som muligt, me u teste hypoteser der er rimelige i de foreliggede faglige sammehæg. 3.7 Om teststørrelser Læsere vil måse have bemæret visse fælles træ ved de 2 l Q-udtry der foreommer i dette apitel. De er alle af forme 2 l Q = 2 obs.atal l Modelles forvetede atal Hypoteses forvetede atal og er (tilærmelsesvis) χ 2 -fordelt med et atal frihedsgrader som er»det reelle atal parametre uder modelle«mius»det reelle atal parametre uder hypotese«. Dette gælder fatis helt geerelt år ma tester hypoteser om poissofordelte observatioer (forudsat at summe af de forvetede atal er lig summe af de observerede atal, og forudsat at de forvetede atal alle er midst 5). 3.8 Reg og teg Her vises hvorda ma a foretage de forsellige beregiger med computerprogrammet R, især futioe glm der beyttes til geeraliserede lieære modeller. Af forsellige pratise grude er det hesigtsmæssigt at omparametrisere de multipliative poissomodel til e såaldt log-lieær model idet ma sriver l E Y i j = l(α i β j r i j ) = l α i + l β j + l r i j og beytter l α i -ere og l β j -ere som parametre. Futioe glm udreger l α i -ere og l β j -ere. Data idlæses fra e fil frcia.dat. De første 0 lijer af file ser såda ud: y r Alder By Fredericia Fredericia Fredericia Fredericia Fredericia Fredericia Horses Horses Horses Her ommer selve R-ommadoere: # Idlæs data til datastruture Frcia: Frcia <- read.table("frcia.dat", rows=25, header=true) # Tallee til tabel 3. # Futioe xtabs (rydstabulerig) fremstiller e otigestabel ved at # rydslassificere efter forsellige fatorer. Ma bruger e modelformel til # at agive hvorda det sal foregå. Her får vi værdiere af y stillet op # i et tosidet sema hvor ræere svarer til de forsellige værdier af Alder, # og søjlere svarer til de forsellige værdier af By: obs <- xtabs( y ~ Alder + By, data=frcia) obs # idmade af tabelle rowsums(obs) # ræesummere colsums(obs) # søjlesummere sum(obs) # totalsumme # det samme med tabel 3.2 atal <- xtabs( r ~ Alder + By, data=frcia) atal; rowsums(atal); colsums(atal); sum(atal) # Vedr. afsit 3.3, De multipliative model # Ma estimerer i e log-lieær model med glm med family=poisso, # så vi sal parametrisere modelle med l(µ) i stedet for med µ. # Da µ i j = α i β j r i j, bliver l µ i j = l α i + l β j + l r i j hvor l r i j er e edt ostat, # e offset-værdi, og l α i og l β j er de parametre der sal estimeres. # Det gøres på følgede måde (hvor 0+ i modelformle sørger for at der estimeres # separate gruppeparametre i stedet for et fælles iveau og afvigelser herfra); # bemær at parametere hørede til første iveau af sidste forlarede variabel # automatis bliver sat til 0, dvs. parametere hørede til Fredericia bliver sat til 0 # (på de logaritmise sala): H0 <- glm( y ~ 0+Alder+By,offset=log(r),family=poisso,data=Frcia) H0 # resumé af resultatet af glm H0$deviace # 2lQ H0$df.res # atal frihedsgrader - pchisq(h0$deviace, H0$df.res) # de tilsv. testsadsylighed # Koefficietere (dvs. α-ere og β-ere): roud(exp(h0$coef), digits=3) # srives med 3 cifre efter ommaet # glm returerer de forvetede værdier (tabel 3.3) ŷ i j i H0$fitted. # Vi stiller dem op i et sema af samme slags som de obs. atal og afruder til é decimal: T0 <- roud(xtabs(h0$fitted ~ Alder+By, data=frcia), digits=) # udsriv semaet samt ræesummer, søjlesummer og totalsum: T0; rowsums(t0); colsums(t0); sum(t0)
97 92 Multipliative poissomodeller # de estimerede itesiteter (tabel 3.4) roud(xtabs(h0$fitted*000/r ~ Alder+By, data=frcia), digits=) # Vedr. afsit 3.4, Es byer? # vi opdaterer modelle H0 så de u ideholder variable Alder: H <- update(h0,. ~ 0 + Alder) # og udsriver de estimerede alders-parametre: roud(exp(h$coef), digits=3) # Så a vi udrege 2lQ for H mod H0: aova(h, H0) # i udsrifte aflæses at 2lQ (aldet Deviace) er med 3 frihedsgr, # så testsadsylighede er - pchisq(4.859, 3) # de forvetede værdier (tabel 3.5) T <- roud(xtabs(h$fitted ~ Alder+By, data=frcia), digits=) T; rowsums(t); colsums(t); sum(t) # Vedr. afsit 3.5, E ade mulighed # Nu ser vi på de model hvor de tre byer slås samme til e otrolby. # Vi defierer e y fator isfr der fortæller om bye er Fredericia eller Kotrol: Frcia$isFr <- factor(ifelse(frcia$by == "Fredericia", "Fredericia", "Kotrol")) # så a vi estimere i de ye model (som er e delmodel af H0) H2 <- update(h0,. ~ 0 + Alder + isfr) # de estimerede oefficieter er roud(exp(h2$coef), digits=3) # udreg 2lQ for H2 mod H0: aova(h2, H0) # i udsrifte aflæses at 2lQ er med 2 frihedsgr, så testsadsylighede er - pchisq(0.2526, 2) # de forvetede værdier (tabel 3.6) T2 <- roud(xtabs(h2$fitted ~ Alder+By, data=frcia), digits=) T2; rowsums(t2); colsums(t2); sum(t2) # edelig testes hypotese om es byer i forhold til H2: H3 <- update(h2,. ~ 0 + Alder) roud(exp(h3$coef), digits=3) # estimatere aova(h3, H2) # giver e 2lQ på med frihedsgr. - pchisq(4.6065, ) 4 Multiomialfordelige Multiomialfordelige er e geeralisatio af biomialfordelige: I situatioer hvor ma har et atal getagelser af et elemetarforsøg der a resultere i et af to mulige udfald, vil atallet af gage ma får de ee slags udfald, blive biomialfordelt; i situatioer hvor ma har et atal getagelser af et elemetarforsøg der a resultere i et af r mulige udfald, vil ma et vist atal gage, y, få det første udfald, et vist atal gage, y 2, det adet udfald,..., og et vist atal gage, y r, det r-te udfald; talsættet (y, y 2,..., y r ) bliver multiomialfordelt. Esempel 4. E simpel form for politis meigsmåligsudersøgelse ue bestå i at ma tilfældigt udvælger persoer og spørger dem hvilet af de r politise partier de ville stemme på hvis der var foletigsvalg i morge. Her består elemetarforsøget i at spørge é perso og otere de pågældedes svar ed. De samlede udersøgelse resulterer i at et vist atal y svarer det første parti, et vist atal y 2 svarer det adet parti,..., og et vist atal y r svarer det r-te parti. Da der i alt er spurgt persoer, vil der gælde at y + y y r =, forudsat at alle de adspurgte fatis svarer. Lad os sige at der er fire partier, P, P 2, P 3 og P 4. Hvis ma spørger 5 persoer vil det måse vise sig at de 4 vil stemme på det første parti, 45 på det adet, 32 på det tredje og 24 på det fjerde. I de situatio er r = 4, = 5, y = 4, y 2 = 45, y 3 = 32 og y 4 = 24. De multiomialfordeligsmodel vi i det følgede disuterer, svarer til at år ma vælger e tilfældig perso, så vil dee med e vis sadsylighed p svare parti r., med e vis sadsylighed p 2 svare parti r. 2,..., og med e vis sadsylighed p r svare parti r. r. Da vi forudsætter at alle adspurgte giver et af de r mulige svar, er p + p p r =. 4. De grudlæggede multiomialfordeligsmodel Atag at vi har lassificeret idivider i r lasser; i de geerelle disussio aldes lassere A, A 2,..., A r, i e oret modelsituatio har de ofte ogle mere sigede betegelser. Sematis er situatioe som vist i figur 4.. Vi går ud fra at de idivider stammer fra e og samme»populatio«, således at hver gag ma tilfældigt udvælger et idivid, er der sadsylighede p for at idividet tilhører lasse A, sadsylighede p 2 for at idividet tilhører lasse A 2, osv. Sadsylighedere p, p 2,..., p r (der summerer til ) er uedte parametre der er arateristise for populatioe. 93
98 94 Multiomialfordelige 4. De grudlæggede multiomialfordeligsmodel 95 lasse- lasse- observeret ummer av atal A y 2 A 2 y 2 3 A 3 y 3 r A r y r atal i alt Figur 4. Multiomialfordeligssituatioe, sematis. Hermed har vi besrevet de statistise model for ét idivid. Når der er et større atal idivider, plejer ma ie at agive hvile lasse hvert eelt idivid viser sig at tilhøre, ma øjes med at agive hvor mage idivider der er i hver lasse, dvs. ma agiver de observerede værdier af de stoastise variable Y, Y 2,..., Y r defieret som Y i = atal idivider der viser sig at tilhøre lasse A i, i =, 2,..., r. De statistise model vi sal å frem til, sal specificere sadsylighedsfordelige for sættet (Y, Y 2,..., Y r ) af stoastise variable, eller sagt på e ade måde, modelle sal agive P(Y = y, Y 2 = y 2,..., Y r = y r ) som futio af (y, y 2,..., y r ). Hvis der u er to lasser, er der tale om et biomialfordeligsproblem. For at løse det geerelle problem med r lasser går vi frem på e måde der er stært ispireret af udledige af biomialfordelige i begydelse af apitel. Vi idfører ogle hjælpevariable X, X 2,..., X således at X d beteger avet på de lasse som idivid r. d tilhører, dvs. X d = A i hvis og u hvis idivid r. d tilhører lasse A i. Der gælder så at P(X d = A i ) = p i. Da idividere tæes valgt uafhægigt af hveradre, må de forsellige X d -er være stoastis uafhægige, således at f.es. P(X d = A i, X d2 = A i2 ) = p i p i2 hvis d d 2. Hvis vi har lasseave x, x 2,..., x, og hvis det er såda at y af x-ere er et A, y 2 af x-ere er et A 2, y 3 af x-ere er et A 3,... og y r af x-ere er et A r, så er P(X = x, X 2 = x 2,..., X = x ) = P(X = x ) P(X 2 = x 2 )... P(X = x ) = p y p y pyr r. Ved at summere disse sadsyligheder over alle mulige -tupler (x, x 2,..., x ) beståede af y A -er, y 2 A 2 -er,..., y r A r -er, får vi P(Y = y, Y 2 = y 2,..., Y r = y r ) = P(X = x, X 2 = x 2,..., X = x ) = p y p y pyr r = ( ) p y p y pyr r hvor summatiosteget hver gag betyder summatio over de -tupler (x, x 2,..., x ) som består af y A -er, y 2 A 2 -er osv. Summe er derfor atallet af forsellige sådae -tupler (x, x 2,..., x ); dette atal plejer ma at betege med symbolet ( y y 2... y r ) der aldes e multiomialoefficiet (eller polyomialoefficiet). De fude sadsylighedsfutio P(Y = y, Y 2 = y 2,..., Y r = y r ) = ( ) p y p y2 2 y y 2... y... pyr r r er sadsylighedsfutioe for e multiomialfordelig (eller polyomialfordelig) med p parametre og p = p 2. p r Multiomialoefficieter Defiitio 4.: Multiomialoefficiet Multiomialoefficiete ( y y 2... y r ) beteger atallet af forsellige måder hvorpå ma a placere r symboler A, A 2,..., A r på pladser således at symbolet A ommer på y af pladsere, symbolet A 2 ommer på y 2 af pladsere,..., symbolet A r ommer på y r af pladsere. Ma a let udlede formler der gør det muligt at udrege multiomialoefficieter. Vi illustrerer fremgagsmåde med et esempel hvor vi udreger ( ):. Det søgte tal er pr. defiitio atallet af placeriger af symbolere A, A 2 og A 3 på syv pladser således at to af pladsere får et A, tre af pladsere et A 2 og to af pladsere et A 3. E mulig placerig er A, A 3, A, A 2, A 2, A 2, A Vi a bestemme e placerig ved først at bestemme hvile to pladser der sal have et A, deræst hvile tre pladser der sal have et A 2, og så edelig placere et A 3 på de to tiloversbleve pladser. a) Der er ( 7 2 ) = 2 forsellige placeriger af de to A -er (jf. defiitioe af biomialoefficieter på side 2). b) Hver gag vi har placeret de to A -er, er der fem pladser tilbage, og på de fem pladser sal vi fordele tre A 2 -er og to A 3 -er; dette a gøres på ( 5 3 ) = 0 forsellige måder. Hver gag vi har e af de ( 7 2 ) placeriger af A, er der altså ( 5 3 ) placeriger af A 2 og A I alt er der derfor ( 7 2 ) (5 ) 3 forsellige placeriger af A-ere så ( ) = (7 2 ) (5 ) = 2 0 = 20. 3
99 96 Multiomialfordelige 4. De grudlæggede multiomialfordeligsmodel Ved at beytte formle ( ) =!! ( )! (jf. (.5) side 5) får vi ( ) = (7 2 ) (5 3 ) = 7! 2! 5! 5! 3! 2! = 7! 2! 3! 2!. Et geerelt udtry for multiomialoefficieter fås på gase tilsvarede måde: Ma sal placere y A -er, y 2 A 2 -er,..., og y r A r -er på pladser ( = y + y y r ). Først a A -ere placeres på ( y ) forsellige måder; deræst a A 2 -ere placeres på de resterede y pladser på ( y y 2 ) forsellige måder; deræst a A 3 -ere placeres på de resterede y y 2 pladser på ( y y2 y 3 ) måder, osv. Slutresultatet bliver at år y + y y r =.! ( ) = y y 2... y r y! y 2!... y r! Defiitio 4.2: Multiomialfordelig At de r-dimesioale stoastise variabel (Y, Y 2,..., Y r ) er multiomialfordelt med p atalsparameter og sadsylighedsparameter p = p 2, betyder at P(Y = y, Y 2 = y 2,..., Y r = y r ) = ( ) p y p y2 2 y y 2... y... pyr r (4.) r år y, y 2,..., y r er ie-egative heltal med sum. Estimatio af parametree Modelfutioe er givet ved formel (4.), og lielihoodfutioe er dermed L(p) = ostat p y p y pyr r. Spørgsmålet er hvorda ma estimerer parametere p. De almee pricipper for aalyse af statistise modeller påbyder at estimere p ved det r-dimesioale talsæt p der masimaliserer lielihoodfutioe. Lielihoodfutioe er e futio af p, dvs. af de r variable p, p 2,..., p r ; disse a ie variere frit, me opfylder bibetigelsere p 0, p 2 0,..., p r 0, og p + p p r =. I specialtilfældet r = 3 a vi asueliggøre mulighedsområdet, dvs. mægde af p-er der opfylder bibetigelsere, som et treatet område, det såaldte sadsylighedssimplex, i det tredimesioale rum, se figur 4.2. p Opgave er at bestemme det put p = p 2 som ligger i mulighedsområdet, og hvor p r lielihoodfutioe L atager si største værdi. I matematie disuteres geerelle p r p 2 p 3 Figur 4.2 Sadsylighedssimplexet i det tredimesioale rum. metode til bestemmelse af masimumsputer for futioer af mage variable, me disse metoder sal vi ie omme id på her. Derimod vil vi løse det specielle problem der vedrører multiomialfordelige. Dertil sal vi bruge følgede Sætig 4. Lad a, a 2,..., a r være give ie-egative tal, og betragt futioe p f (p, p 2,..., p r ) p a p a pr ar defieret på mægde af ie-egative talsæt (p, p 2,..., p r ) der summerer til. Dee futio har et etydigt masimumsput, emlig ( p, p 2,..., p r ) hvor p i = a i /a, i =, 2,..., r, og a = a + a a r. Bevis Vi vil sammelige futiosværdiere f (p, p 2,..., p r ) og f ( p, p 2,..., p r ) ved at se på størrelse l f (p,p2,...,pr) f ( p, p 2,..., p r) som er egativ hvis og u hvis f (p, p 2,..., p r ) < f ( p, p 2,..., p r ). Almidelige omsriviger giver at l f (p,p2,...,pr) f ( p = r, p 2,..., p r) a i l pi p i. Deræst beyttes e egesab ved logaritmefutioe, emlig at l t t for alle t > 0, og med lighedsteg hvis og u hvis t =. Derfor er r a i l p i p i r a i ( p i ) = p i r ( a i p i a i ) = a i /a r r p i a a i = a a = 0,
100 98 Multiomialfordelige 4.2 Sammeligig af multiomialfordeliger 99 Tabel 4. Geotypefordelig af tors fra tre loaliteter i Østersøe. loalitet geotype Lollad Borholm Åladsøere AA Aa aa i alt med lighedsteg hvis og u hvis alle tallee p i / p i er lig, dvs. hvis og u hvis p i = p i for alle i. Avedt på futioe (p, p 2,..., p r ) p y p y pr yr fortæller sætige at lielihoodfutioe L atager sit masimum i det etydigt bestemte put ( y, y2,..., yr ). Derfor er masimaliserigsestimatet p for p givet ved p y / p = p 2 = y 2 /. p r y r / Parametere p i, der jo er sadsylighede for at et idivid tilhører lasse A i, sal altså estimeres ved de relative hyppighed y i / af A i -idivider i stiprøve. 4.2 Sammeligig af multiomialfordeliger Ma har udertide brug for at ue sammelige forsellige multiomialfordeliger for at afgøre om de har samme sadsylighedsparameter. Her er et esempel; det vil blive aalyseret mere idgåede i apitel 6: Esempel 4.2 (Tors i Østersøe) De 6. marts 96 fagede ogle havbiologer 69 tors ved Lollad og udersøgte arte af blodets hæmoglobi i hver eelt tors. Seere på året fagede ma også ogle tors ved Borholm og ved Åladsøere og bestemte deres geotype. (Sic [20]) Ma meer at hæmoglobi-arte bestemmes af ét eelt ge, og det som biologere bestemte, var torsees geotype for så vidt agår dette ge. Geet a optræde i to udgaver som vi alder A og a, og de mulige geotyper er da AA, Aa og aa. De fude geotypefordelig på hver loalitet ses i tabel 4.. I dette afsit vil vi udeluede opfatte symbolere AA, Aa og aa som ave på lasser ma lassificerer torsee i. I apitel 6 vil vi smugle lidt geeti id i e mere udbygget statistis model for tallee. På hver geografis loalitet er der set det at ma har lassificeret et atal tors i tre mulige lasser, så derfor a ma sige at der på hver loalitet er tale om e multiomialfordeligssituatio gruppe r. lasse s A y y 2 y 3... y s A 2 y 2 y 22 y y 2s A r y r y r2 y r3... y rs i alt s Figur 4.3 Sammeligig af multiomialfordeliger. y i j beteger atallet af idivider fra gruppe j der tilhører lasse A i. år der er tre lasser, taler ma også om e triomialfordelig. Det ue måse være af iteresse at udersøge om geotypefordelige er de samme på de tre loaliteter, altså om sadsylighede for at e tors har e bestemt geotype, er de samme for alle tre loaliteters vedommede. (Søt år ma ser på tallee, virer dee formodig lidet plausibel.) De geerelle model I de geerelle model atages det at vi har lassificeret ogle idivider i r forsellige lasser A, A 2,..., A r. Idividere er på forhåd delt op i s forsellige grupper med hhv., 2,..., s idivider. Det har vist sig at i gruppe j hører y j af idividere til gruppe A, y 2j af idividere til gruppe A 2, y 3j af idividere til gruppe A 3, osv. Sematis ser situatioe ud som vist i figur 4.3. I torseesemplet er der s = 3 grupper svarede til de tre geografise loaliteter og r = 3 lasser svarede til de tre forsellige geotyper. De statistise model der beyttes til at besrive dee situatio, er: for hvert j (dvs. for hver gruppe) opfattes det r-dimesioale talsæt y j Y j y j = y 2j som e værdi af e r-dimesioal stoastis variabel Y j = Y 2j ; y r j Y r j de stoastise variable Y, Y 2,..., Y s er stoastis uafhægige (dvs. de forsellige grupper er stoastis uafhægige); de stoastise variabel Y j er multiomialfordelt med atalsparameter j og med uedt sadsylighedsparameter p j = p 2j, hvor p i j -ere er ie-egative tal p j p r j
101 200 Multiomialfordelige 4.2 Sammeligig af multiomialfordeliger 20 med p j + p 2j p r j = for hvert j. Modelle tager altså udgagsput i at gruppere er systematis forsellige (mht. de foretage lassificerig), og de besriver de systematise forsel mellem gruppere ved hjælp af de s sadsylighedsparametre p, p 2,..., p s. De tilfældige variatio ide for grupper besrives ved sadsylighedsfordeligere (multiomialfordeligere). Opgave er u at udersøge om gruppere a ases for es, dvs. de er at teste de statistise hypotese eller mere udførligt H 0 p = p 2 = = p s p p r p 2 p r2 p s H 0 p 2 = p 22 =... = p 2s. De geerelle retigslijer for hvorda ma aalyserer e give statistis model, siger at vi sal begyde med at opsrive modelfutioe og lielihoodfutioe. Da de eelte grupper er stoastis uafhægige, er de samlede modelfutio lig med et produt af del-modelfutioere for de eelte grupper, dvs. de samlede modelfutio er f (y, y 2,..., y s ; p, p 2,..., p s ) = Lielihoodfutioe er dermed s L(p, p 2,..., p s ) = ostat j p rs ( ) p y j j p y2 j 2j... p yr j y j y 2j... y r j s r j. p y j j p y2 j 2j... p yr j r j (4.2) hvor ostate er produtet af de s multiomialoefficieter. I torseesemplet er lielihoodfutioe L(p L, p B, p Å ) = ostat p 27 L p 30 2L p 2 3L p 4 B p 20 2B p 52 3B p 0 Å p5 2Å p75 3Å. Som sædvalig aser vi de værdier der masimaliserer lielihoodfutioe (eller loglielihoodfutioe), for at være de bedste estimater over de uedte parametre. I de foreliggede model er lielihoodfutioe et produt af s del-lielihoodfutioer der hver især vedrører é eelt gruppe og ét eelt p j. Når vi sal masimalisere L mht. p, p 2,..., p s, a det derfor se ved at masimalisere hver del-lielihoodfutio for sig. Det j-te delproblem er e simpel multiomialfordeligsmodel, så derfor følger det ude videre af resultatet på side 98 at p i j = y i j / j for alle i og j. I talesemplet er specielt Hypoteseprøvig p L = p B = p Å = p L p 2L p 3L p B p 2B p 3B p Å p 2Å p 3Å = = 0.43, = = 0.23, = 580 = Vi sal herefter udersøge om det er rimeligt at atage at hypotese H 0 p = p 2 = = p s om es sadsylighedsparametre holder. Uder H 0 er der ige forsel på de s grupper, så da a vi lige så godt slå dem samme til é stor gruppe beståede af = s idivider der fordeler sig med y = y + y y s = y i j i lasse A y 2 = y 2 + y y 2s = s s y i = y i + y i y is = s y i j y r = y r + y r y rs = s y r j y 2j i lasse A 2 i lasse A i i lasse A r Ma må derfor formode at de fælles værdi p i af sadsylighede for at tilhøre lasse A i sal estimeres ved y i /, me lad os prøve at gå frem efter lielihoodmetode. De p fælles værdi (uder H 0 ) af p, p 2,..., p s aldes p = p 2. I lielihoodfutioe (4.2) p r
102 202 Multiomialfordelige 4.2 Sammeligig af multiomialfordeliger 203 Tabel 4.2 Geotypefordelig hos tors fra tre loaliteter i Østersøe: forvetede atal uder atagelse af es fordeliger på de tre loaliteter. loalitet geotype Lollad Borholm Åladsøere AA Aa aa i alt erstatter vi alle p j -ere med p og får derved lielihoodfutioe uder H 0 : L 0 (p) = L(p, p,..., p) = ostat s p y j p y2 j 2... p yr r j = ostat p y p y p yr r. Det valg af p, p 2,..., p r der masimaliserer dee lielihoodfutio, er ifølge sætige på side 97 etop p i = y i / som formodet I talesemplet bliver p = = Når ma vil vurdere hvor godt det fatis observerede besrives uder H 0 i forhold til de atuelle grudmodels besrivelse, sal ma udrege votietteststørrelse Q = L( p, p,..., p) L( p, p 2,..., p s ) eller mere hesigtsmæssigt 2 l Q. E Q-værdi tæt på, dvs. e 2 l Q-værdi tæt på 0, betyder at H 0 besriver data æste lige så godt som grudmodelle gør, hvorimod e Q-værdi ær 0, dvs. e stor 2 l Q-værdi, betyder at H 0 giver e væsetligt dårligere besrivelse ed grudmodelle gør. Ma plejer at udrege 2 l Q (og ie Q). Når ma idsætter udtryee for L i Q, får ma let at s 2 l Q = 2 (y j l y j + y 2j l y 2j y r j l y r j ) ŷ j ŷ 2j ŷ r j s r = 2 y i j l y i j ŷ i j, hvor ŷ i j = p i j = y i j / er det»forvetede«atal idivider fra gruppe j der lassificeres som A i. For at bestemme 2 l Q i talesemplet udreges først de forvetede atal, se tabel 4.2. Deræst er 2 l Q obs = 2(27 l l l l l l l l + 75 l ) = 07.8 For at afgøre om e opået 2 l Q obs -værdi (som f.es. 07.8) u er tæt på 0 eller ej, sal ma sammelige de med alle de adre 2 l Q-værdier ma også ue have fået ifølge de atuelle model, år H 0 er rigtig. Vi sal derfor udrege testsadsylighede ε, dvs. sadsylighede for at få e større 2 l Q-værdi ed de observerede, uder forudsætig af at H 0 er rigtig: ε = P 0 ( 2 l Q 2 l Q obs ). Ifølge et geerelt resultat gælder at år H 0 er rigtig, så er 2 l Q med god tilærmelse χ 2 -fordelt med (r )(s ) frihedsgrader; det betyder at ε med god tilærmelse a bestemmes som sadsylighede for at få e værdi større ed 2 l Q obs i e χ 2 -fordelig med (r )(s ) frihedsgrader, ort ε = P(χ 2 (r )(s ) 2 l Q obs), og dee sadsylighed er let at bestemme ved hjælp af tabeller over fratiler i χ 2 - fordelige. Atallet af frihedsgrader for 2 l Q fides som ædrige i atallet af frie parametre: i grudmodelle er der for hver af de s grupper (r ) parametre (fordi der er r lasser og dermed r sadsyligheder der sal summere til ), altså i alt s(r ) parametre; uder H 0 er der i realitete u é gruppe og dermed (r ) frie parametre; atallet af frihedsgrader for teststørrelse er derfor s(r ) (r ) = (r )(s ). Bemær at χ 2 -fordelige u er e approsimatio; for at ma sal ue bruge de, sal alle de»forvetede«atal ŷ i j = p i j = y i j / være midst fem. Hvis dee betigelse ie er opfyldt, a ma måse opå at de bliver opfyldt ved at ma udelader ogle grupper eller lasser eller slår ogle grupper eller lasser samme. I det geemgåede talesempel er der ige problemer med at de»forvetede«atal er for små. Vi a derfor ude videre sammelige 2 l Q obs = 07.8 med χ 2 -fordelige med (3 )(3 ) = 4 frihedsgrader. Da 99.9%-fratile i dee fordelig er 8.47, er testsadsylighede midre ed 0.%. Da det således er temmelig usadsyligt at få e større værdi af teststørrelse 2 l Q ed 07.8, er teststørrelse sigifiat stor, og vi foraster H 0. Ma må altså sige at der er e sigifiat forsel på geotype af tors på de tre geografise loaliteter. Dee olusio er ie overrasede hvis ma sammeliger tabel 4. og 4.2.
103 204 Multiomialfordelige 4.4 Opgaver Reg og teg Her demostreres ved at geemrege torseesemplet hvorda ma med R a foretage beregigere til sammeligig af multiomialfordeliger. Data idlæses fra file tors.dat som har følgede idhold: Loalitet Geotype Atal Lollad AA 27 Lollad Aa 30 Lollad aa 2 Borholm AA 4 Borholm Aa 20 Borholm aa 52 Åladsøere AA 0 Åladsøere Aa 5 Åladsøere aa 75 Ma a u lare sig med ogle få R-ommadoer (det er ie oge fejl at der i aldet af glm bladt adet står family=poisso): # Idlæsig af data: Tors <- read.table("tors.dat", rows=0, header=true) # Såda a tabel 4. fremstilles: obs <- xtabs(atal ~ Geotype + Loalitet, data=tors) rbid(obs, "i alt" = colsums(obs)) # Så ser vi på hypotese H 0 om ige forsel på loaliteter: # i udsrifte svarer Residual deviace til 2lQ H0 <- glm(atal ~ Geotype + Loalitet, family=poisso, data=tors) H0 H0$deviace # 2lQ H0$df.res # atal frihedsgrader -pchisq(h0$deviace, H0$df.res) # testsadsylighede Tabel 4.3 Opgave 4.: respodeteres fordelig på motiv og medarbejderategori. arbejdere futioærer mellemledere topledere for at bevare jobbet som e ivesterig tror på idée medarbejdere omme til at føle større medasvar og forpligtelse over for deres arbejdsplads. Det er dog ie altid at firmaets opfordrig til medarbejdere om at blive atioærer opfattes på samme måde af alle medarbejdergrupper. For at dae sig et idtry af medarbejderes motiver til at erhverve sig atier har ma foretaget et rudspørge bladt medarbejdere på e bestemt virsomhed som har e medarbejderatie-ordig, og bedt dem æve deres motiver for at gå med i atieordige. Svarmulighedere var»for at bevare jobbet«,»som e ivesterig«og»tror på idée med medarbejderatier«. Hvad a ma på baggrud af svarfordelige i tabel 4.3 sige om e evetuel sammehæg mellem medarbejderes motiver for at deltage i ordige og arte af deres arbejde? Opgave 4.2 (Test af simpel hypotese) Atag at (Y, Y 2,..., Y r ) er multiomialfordelt med parametre og p, og lad p 0 p p 0 = 02 være et sæt edte ie-egative tal der summerer til. Ma øser at teste hypotese H 0 p = p 0 (eller altså p i = p 0i for alle i). p 0r. Udled 2 l Q-størrelse for dee hypotese. 2. Der gælder at år H 0 er rigtig, så er 2 l Q asymptotis χ 2 -fordelt med et atal frihedsgrader der a udreges som ædrige i atal frie parametre. Hvad er atallet af frihedsgrader for 2 l Q? # Tabelle over forvetede værdier (tabel 4.2): forv <- xtabs(h0$fitted ~ Geotype + Loalitet, data=tors) roud(forv, digits=) # de estimerede sadsyligheder a f.es. udreges såda: roud(rowsums(forv)/sum(forv), digits=2) 4.4 Opgaver Opgave 4. (Medarbejderatier) Det er blevet almideligt at firmaer idfører ordiger med medarbejderatier; derved sulle
104 5 Tosidede otigestabeller E af poitere i apitel 4 er at år ma lassificerer et atal idivider (fra e bestemt populatio) efter ét riterium med r lasser A, A 2,..., A r, så a det være foruftigt at forsøge sig med e model der siger at hvis Y i beteger atallet af A i -idivider i stiprøve, i =, 2,..., r, så er de r-dimesioale stoastise variabel (Y, Y 2,..., Y r ) multiomialfordelt. I dette apitel sal vi se hvorledes e bestemt art strutur i iddeligsriteriet, emlig de at ma ret fatis iddeler efter to riterier på e gag, a afspejle sig i de statistise model. Her er først e præsetatio af det geemgåede esempel. Esempel 5. (Hjeresvulstpatieter) Ma har lassificeret 4 hjeresvulstpatieter efter svulstes art (»godartet«,»odartet«og»adet«) og placerig i hjerevævet (»ved pade«,»ved tidige«og»adre steder«). Resultatere heraf fremgår af tabel 5. på æste side. Ma er iteresseret i at fide ud af om disse tal tyder på at der er e sammehæg mellem svulstes art og des placerig. Ma a sige at ma har lassificeret = 4 patieter som hørede til é af i forsellige lasser, og at ma derfor ifølge overvejelsere i apitel 4 a betragte det observerede talsæt (23, 2,..., 7) som e observatio af e multiomialfordelt stoastis variabel. Imidlertid a ma også tæe på situatioe på de måde at patietere er lassificeret efter to riterier på é gag, hvor hvert riterium har tre iveauer. 5. Grudmodelle Atag at vi har lassificeret idivider efter to riterier. Det første riterium har r iveauer og lassere A, A 2,..., A r, og det adet riterium har s iveauer og lassere B, B 2,..., B s. Sematis ser det ud som i figur 5. på side 209. Da der er tale om at et atal idivider er lassificeret i et atal lasser, beytter vi som grudmodel e multiomialfordeligsmodel: De rs-dimesioale observatio y Y y = y 2 er e observeret værdi af e rs-dimesioal stoastis variabel Y = Y 2 som y rs Y rs
105 208 Tosidede otigestabeller 5.2 Uafhægighedshypotese 209 Tabel 5. 4 hjeresvulstpatieter fordelt efter svulstes art og placerig. placerig pade tidig adet sum godartet art odartet adet sum er multiomialfordelt med atalsparameter og sadsylighedsparameter p = p 2. p rs Størrelse p i j er sadsylighede for at et idivid udvalgt tilfældigt fra»populatioe«vil tilhøre lasse A i B j, og de estimeres ved p i j = y i j /. 5.2 Uafhægighedshypotese De strutur der er i iddeligsriteriet (emlig at der iddeles efter to riterier på e gag), har foreløbig u givet sig udslag i de måde de variable og parametree er avgivet på (med ides i j). Vi vil u formulere e model der svarer til at der ie er oge sammehæg mellem de to iddeligsriterier. De»sammehæg«der a være tale om, er ie e årsagssammehæg, me e statistis sammehæg. At der ie er oge sammehæg mellem riterium A og riterium B, sal betyde at A og B i e vis forstad»virer«uafhægigt af hiade, således at forstå at e oplysig om hvile B-lasse et idivid tilhører, ie ideholder oge iformatio om hvile A-lasse idividet tilhører, og omvedt. Det sal u formaliseres i e matematis model. Vi idfører ogle hjælpevariable X d = (X da, X db ), således at X da er avet på de A-lasse som idivid r. d tilhører, og X db er avet på de B-lasse som idivid r. d tilhører, med adre ord X d = (A i, B j ) betyder: idivid r. d tilhører A-lasse A i og B-lasse B j. At der ie er oge sammehæg mellem A og B, betyder hermed at e oplysig om værdie af X db ie ideholder oge iformatio om værdie af X da (og omvedt), og det betyder at de stoastise variable X da og X db er stoastis uafhægige, dvs. P(X da = A i og X db = B j ) = P(X da = A i ) P(X db = B j ). p riterium 2 lasse B B 2... B s sum A y y 2... y s y riterium A 2 y 2 y y 2s y 2 A r y r y r2... y rs y r sum y y 2... y s y i j = atal idivider i lasse A i B j (= A i B j ), s y i = y i j = atal idivider i lasse A i, r y j = y i j = atal idivider i lasse B j. Figur 5. Tosidet otigestabel og tilhørede otatio Nu er pr. defiitio P(X da = A i, X db = B j ) = p i j, så at der ie er oge sammehæg mellem A og B, betyder altså at p i j = α i β j, hvor vi har sat α i = P(X da = A i ) og β j = P(X db = B j ). Sammefattede a vi derfor sige at de matematise formulerig af atagelse om at der ie er oge (statistis) sammehæg mellem riteriere A og B, bliver at p i j = α i β j for alle i og j, hvor α, α 2,..., α r er ie-egative tal der summerer til, og β, β 2,..., β s er ie-egative tal der summerer til. Udtryt i ord går atagelse ud på at sadsylighede p i j for på é gag at tilhøre både A i og B j er lig produtet af sadsylighede α i for at tilhøre A i og sadsylighede β j for at tilhøre B j. I stedet for at tale om at der ie er oge sammehæg mellem A og B, taler ma ofte om at der er uafhægighed mellem A og B, og de statistise hypotese H 0 p i j = α i β j for alle i og j, hvor de uedte parametre (α, α 2,..., α r ) og (β, β 2,..., β s ) er ie-egative talsæt der hver især summerer til, hedder da uafhægighedshypotese. At der er uafhægighed mellem A og B, udtryer ma udertide på de måde at der ie er oge (sigifiat) veselvirig mellem A og B. Når der ie er oge veselvirig mellem A og B, besrives hele de systematise variatio i talmaterialet af de såaldte ræeviriger (A-viriger) α, α 2,..., α r der besriver de systematise forsel mellem ræer, og af de såaldte søjleviriger (B-viriger) β, β 2,..., β s der besriver de systematise forsel mellem søjler.
106 20 Tosidede otigestabeller 5.2 Uafhægighedshypotese 2 Tabel 5.2 Estimatere over grudmodelles parametre p i j og uafhægighedsmodelles parametre α i og β j i hjeresvulstesemplet. Tallee er sadsyligheder i procet. Estimatio af parametree placerig sum = pade tidig adet α i godartet art odartet adet sum = β j Lielihoodfutioe i grudmodelle er e almidelig multiomial-lielihoodfutio: L(p) = ostat r s hvor ostate er e multiomialoefficiet. Estimatere over α-ere og β-ere i uafhægighedsmodelle er de værdier der masimaliserer L(p) år ma for p i j idsætter p i j = α i β j, dvs. de værdier der masimaliserer L 0 (α, α 2,..., α r, β, β 2,..., β s ) = ostat = ostat r s r α yi i p yi j i j (α i β j ) yi j = ostat s β y j j. r s α yi j i r s Det ses at L 0 er et produt af e futio af α-ere og e futio af β-ere. Ifølge sætig 4. atager disse to futioer deres masimumsværdier i hhv. ( α, α 2,..., α r ) = ( y, y 2,..., y r ) og ( β, β 2,..., β s ) = ( y, y 2,..., y s ). Dette er så masimaliserigsestimatere for parametree. Resultatet er i øvrigt hvad ma umiddelbart sulle forvete, idet f.es. sadsylighede α i for at tilhøre A-lasse A i estimeres ved de observerede relative hyppighed y i / af A i. I talesemplet bliver L = ostat p 23 p2 2 p34 3 p9 2 p4 22 p24 23 p6 3 p3 32 p7 33. Ved at idsætte de atuelle talværdier i udtryee for α i, β j og p i j fås estimatere over de uedte parametre, se tabel 5.2. β yi j j Test for uafhægighed Teststørrelse for uafhægighedshypotese H 0 er lielihoodvotietstørrelse Q eller 2 l Q. Når ma idsætter de fude estimater i udtryet for Q, får ma Q = L 0( α, α 2,..., α r, β, β 2,..., β s ) L( p, p 2,..., p rs ) = r r s s ( α i β j ) yi j = ( p i j ) yi j r s ( ŷi j hvor ŷ i j = α i β j = y i y j / er det»forvetede«atal idivider i lasse A i B j uder uafhægighedshypotese. Dermed bliver 2 l Q = 2 r s y i j l y i j ŷ i j. Værdier af 2 l Q tæt på 0 tyder på at H 0 giver e æste lige så god besrivelse af data som grudmodelle gør, hvorimod store 2 l Q-værdier betyder at H 0 giver e væsetlig dårligere besrivelse ed grudmodelle gør, og i så fald vil ma foraste hypotese om uafhægighed mellem ræer og søjler. De»forvetede«atal i hjeresvulstesemplet er vist i tabel 5.3; herudfra fås 2 l Q obs = 2(23 l l + 34 l l l l l l l ) = 8. For at afgøre om e opået 2 l Q obs -værdi (som f.es. 8.) er sigifiat stor, sal vi sammelige de med alle de adre 2 l Q-værdier ma også ue have fået såfremt uafhægighedshypotese H 0 var rigtig. Vi sal derfor bestemme testsadsylighede ε = P 0 ( 2 l Q 2 l Q obs ), dvs. sadsylighede for at få e større 2 l Q-værdi ed de observerede, uder forudsætig af at H 0 er rigtig. Når ma sal bestemme ε, a ma udytte e geerel matematis sætig der fortæller at år H 0 er rigtig, så er 2 l Q med god tilærmelse χ 2 -fordelt med (r )(s ) frihedsgrader, således at ε med god tilærmelse a bestemmes som sadsylighede for at få e værdi større ed 2 l Q obs i e χ 2 -fordelig med (r )(s ) frihedsgrader, ort ε P(χ 2 (r )(s ) 2 l Q obs). Dee sadsylighed er let at bestemme ved hjælp af tabeller over fratiler i χ 2 -fordelige. y i j ) y i j,
107 22 Tosidede otigestabeller 5.4 Reg og teg 23 Tabel 5.3 De»forvetede«fordelig af 4 hjeresvulstpatieter uder forudsætig af uafhægighed mellem svulstes art og placerig. placerig pade tidig adet sum godartet art odartet adet sum Atallet af frihedsgrader for 2 l Q fides som ædrige i atallet af frie parametre: i grudmodelle er der rs sadsylighedsparametre der summerer til, dvs. der er (rs ) frie parametre; uder H 0 er der r ræeparametre der summerer til, samt s søjleparametre der summerer til, dvs. (r ) + (s ) frie parametre; atallet af frihedsgrader for teststørrelse er dermed (rs ) ((r ) + (s )) = (r )(s ). Bemær at χ 2 -fordelige u er e approsimatio; for at de sal ue avedes, ræves det at alle de»forvetede«atal være midst fem. Hvis dee betigelse ie er opfyldt, a ma evetuelt slå ogle ræer eller ogle søjler samme. I hjeresvulstesemplet er de»forvetede«atal over fem, så vi a roligt avede χ 2 - approsimatioe. Tabelopslag viser at i χ 2 -fordelige med (3 )(3 ) = 4 frihedsgrader er 90%-fratile 7.78 og 95%-fratile 9.49, således at teststørrelse 2 l Q obs = 8. svarer til e testsadsylighed på mellem 5% og 0%. På det grudlag vil ma sædvaligvis ie foraste H 0. Det a altså oluderes at der tilsyeladede ie er oge sammehæg mellem svulstes art og des placerig. Det vil bladt adet sige at ma ie ud fra edsab til placerige af e svulst a sige oget om hvorvidt de vil være godartet eller ej. 5.3 Jævførig med adre tilsvarede modeller De læser der har studeret afsit 4.2 om sammeligig af multiomialfordeliger, vil måse have bemæret, at de dér præseterede metoder har store ligheder med dem i ideværede apitel. Vi a oprege ogle af lighedere:. Der foreligger ogle observerede atal y i j stillet op i et tosidet sema. 2. Ma udreger ogle»forvetede«atal ŷ i j efter opsrifte ræesum gage søjlesum divideret med totalsum. 3. Ma udreger e teststørrelse 2 l Q obs = y l(y/ŷ). 4. Ma sammeliger 2 l Q obs med χ 2 -fordelige med (r )(s ) frihedsgrader. Selv om ma foretager sig det samme i de to tilfælde, er det imidlertid på grudlag af to forsellige modeller: I det ee tilfælde (dette apitel) lassificerer ma ogle idivider efter to riterier, og opgave er at udersøge om der er e sammehæg mellem disse to riterier. I det adet tilfælde (afsit 4.2) er idividere på forhåd delt id i ogle grupper ide de lassificeres efter et riterium. Opgave er at udersøge om der er forsel på gruppere (med hesy til hvorda grupperes idivider fordeles på lassere). Om ma sal beytte de ee eller de ade model, er således et spørgsmål om hvorledes ma har desiget det forsøg der har leveret talmaterialet. I esemplet i dette apitel sagde vi at det hadlede om at ma havde taget 4 hjeresvulstpatieter og lassificeret dem efter to riterier; derved blev det et esempel der illustrerede dette apitels model og metoder. Hvis det derimod havde hadlet om at ma havde taget 38 patieter med svulst i pade, 28 med svulst i tidige og 75 hvor svulste ie var loaliseret til pade eller tidig, og deræst lassificeret disse patieter efter svulstes art, så havde det været et afsit 4.2-esempel. De to modeller er ært beslægtede; hvis ma i dette apitels model betiger med søjlesummere, dvs. betiger med at Y =, Y 2 = 2,..., Y s = s, så får ma modelle i afsit 4.2, og uafhægighedshypotese overføres til afsit 4.2 s H Reg og teg Som ævt i afsit 5.3 er udregigere i forbidelse med test for uafhægighed i e otigestabel de samme som udregigere i forbidelse med sammeligig af multiomialfordeliger, så vi ue øjes med at hevise til afsit 4.3. For god ordes syld viser vi dog et esempel også her, emlig hjeresvulstesemplet. Datafile svulst.dat har følgede idhold: art placerig atal godartet pade 23 odartet pade 9 adet pade 6 godartet tidig 2 odartet tidig 4 adet tidig 3 godartet adet 34 odartet adet 24 adet adet 7
108 24 Tosidede otigestabeller Selve R-ode ommer her: # Data idlæses til datastruture Hjsvulst Hjsvulst <- read.table("svulst.dat", rows=5, header = TRUE) # Dette ald af xtabs arragerer værdiere af atal i et # tosidet sema hvor art bestemmer ræer og placerig søjler. obs <- xtabs(atal ~ art + placerig, data=hjsvulst) obs # otigestabelle (jf. tabel 5.) # Udreg Pearsos X 2 (som er e approsimatio til 2 l Q): chisq.test(obs) # Vi a få de rigtige 2 l Q-værdi f.es. på følgede måde (hvor ma beytter sig af at # udregigere for at teste uafhægighed i e tosidet otigestabel er de samme som # udregigere for at teste additivitet i e log-lieær poisso-model) H0 <- glm(atal ~ 0 + art + placerig, family=poisso,data=hjsvulst) H0$deviace # 2 l Q -pchisq(h0$deviace, H0$df.res) # testsadsylighede # Tabelle over forvetede atal (tabel 5.3): forv <- xtabs(h0$fitted ~ art + placerig, data=hjsvulst) roud( forv, digits=) # afrud til ét ciffer efter ommaet 5.5 Opgaver Opgave 5. (Øje- og hårfarve) Ved e sudhedsudersøgelse af 283 piger i St. Clemet Street sole i Aberdee blev hår- og øjefarve observeret med et resultat som vist i edeståede tabel. Viser dette materiale e sammehæg mellem hårfarve og øjefarve? Øjefarve blå lys eutral mør Hårfarve lys rød eutral mør Et større esempel: Tors i Østersøe Det tidligere avedte esempel om tors i Østersøe bliver i dette apitel taget op til ærmere behadlig. Esemplet er bladt adet et esempel på at ma a idbygge oget teori i de statistise model, og et esempel der viser ytte af maximum lielihood metode til parameterestimatio. 6. Præsetatio af esemplet De 6. marts 96 fagede ogle havbiologer 69 tors ved Lollad og udersøgte arte af blodets hæmoglobi i hver eelt tors. Seere på året fagede ma desude ogle tors ved Borholm og ved Åladsøere og bestemte deres geotype. (Sic [20]) Ma meer at hæmoglobi-arte bestemmes af ét eelt ge, og det som biologere bestemte, var torsees geotype for så vidt agår dette ge. Geet optræder i to udgaver som vi alder alder A og a, og de mulige geotyper er da AA, Aa og aa. I tabel 6. på æste side ses de fude geotypefordelig for hver af de tre loaliteter. På hver geografis loalitet er der set det at ma har lassificeret et atal tors i tre mulige lasser, så på hver loalitet er der tale om e multiomialfordeligssituatio, eller mere præcist om e triomialfordeligssituatio. Som grudmodel beytter vi derfor de model der siger at de tre observatios»vetorer«y L = y L y 2L y 3L 27 = 30, y B = 2 y B y 2B y 3B 4 = og y Å = y Å y 2Å y 3Å 0 = 5 75 stammer fra hver si multiomialfordelig med atalsparametre heholdsvis L = 69, B = 86 og Å = 80 og med sadsylighedsparametre heholdsvis p L = p L p 2L p 3L, p B = p B p 2B p 3B og p Å = p Å p 2Å p 3Å. 25
109 26 Et større esempel: Tors i Østersøe 6.3 Hypotese om Hardy-Weiberg ligevægt 27 Tabel 6. (= tabel 4.) Geotypefordelig af tors fra tre loaliteter i Østersøe. geotype Lollad Borholm Åladsøere AA Aa aa i alt p Hardy-Weiberg ligevægt Grudmodelle er at hver geografis loalitet har si ege multiomialfordelig, og at hver multiomialfordelig har e sadsylighedsparameter p = hvor tallee p, p 2 og p 3 a være hvile som helst tre ie-egative tal der summerer til. Imidlertid a ma argumetere for at der uder visse omstædigheder må være e bestemt sammehæg mellem de tre p-er. Lad os atage at i e bestemt torsegeeratio optræder geotypere AA, Aa og aa med hyppighedere p, p 2 og p 3, hvor p + p 2 + p 3 =. Lad os desude atage at æste geeratio fremstilles ved»tilfældig parrig«således at hvert af e torseuges to hæmoglobi-geer vælges uafhægigt af hiade på følgede måde: først vælges et tilfældigt forældre-idivid, deræst vælges et tilfældigt af dette idivids hæmoglobigeer. Sadsylighede for ved dee proces at vælge et A er da p + 2 p 2 hvilet vi alder β, og sadsylighede for at vælge et a er 2 p 2 + p 3 = β. I de ye geeratio bliver geotypefordelige derfor AA: β 2 p p 2 p 3 Aa: 2β( β) aa: ( β) 2. (De tre sadsyligheder summerer til, såda som de også sal: β 2 +2β( β)+( β) 2 = (β + ( β)) 2 = ). Geotypefordelige i de ye geeratio a altså ie være hvad som helst, me der er e vis sammehæg mellem de tre sadsyligheder, styret af størrelse β. Lad os se hvad der ser hvis der i forældregeeratioe er e tilsvarede sammehæg mellem sadsylighedere, emlig AA: p = α 2 Aa: p 2 = 2α( α) aa: p 3 = ( α) 2. p 3 Figur 6. Det toede område er sadsylighedssimplexet, dvs. mægde af tripler p = (p, p 2, p 3 ) af ie-egative tal der summerer til. Kurve består af de p-er der a optræde hvis der er Hardy-Weiberg ligevægt. Så bliver β = p + 2 p 2 = α α( α) = α, dvs. sadsylighedere er uforadrede fra de ee geeratio til de ade. Ma siger at populatioe er i Hardy-Weiberg ligevægt hvis det er såda at de tre geotyper optræder i forholdet AA: p = β 2 Aa: p 2 = 2β( β) aa: p 3 = ( β) 2 for e eller ade værdi af β [0, ]. Hvis der er Hardy-Weiberg ligevægt, er det altså u visse sadsylighedstripler (p, p 2, p 3 ) der a omme på tale, se figur Hypotese om Hardy-Weiberg ligevægt Vi vil udersøge om der er Hardy-Weiberg ligevægt på hver af de tre loaliteter. Vi begyder med Lollad. At der er Hardy-Weiberg ligevægt ved Lollad, a formuleres som de statistise hypotese p L βl 2 H L p 2L = 2β L ( β L ). ( β L ) 2 p 3L p
110 28 Et større esempel: Tors i Østersøe Tabel 6.2 Forvetede atal ŷ uder forudsætig af Hardy-Weiberg ligevægt på hver loalitet. geotype Lollad Borholm Åladsøere AA Aa aa i alt I grudmodelle er lielihoodfutioe L(p L, p 2L, p 3L ) = ostat p de har masimum i p L = Uder H L er lielihoodfutioe 2 69 L L (β L ) = L(β 2 L, 2β L ( β L ), ( β L ) 2 ) = ostat (β 2 L )27 (2β L ( β L )) 30 (( β L ) 2 ) 2 = ostat β L ( β L ) , L p30 2L p2 3L, og som har masimum i β L = = 0.609, dvs. β L er det observerede atal A divideret med det samlede atal geer = 84 Ma tester hypotese ved brug af de sædvalige teststørrelse 2 l Q, hvor Q er votiete L( β 2 L, 2 β L ( β L ), ( β L ) 2 ) / L( p L, p 2L, p 3L ). Almidelige omsriviger giver at 2 l Q = 2 y i l y i ŷ i hvor (ŷ, ŷ 2, ŷ 3 ) = ( L β 2 L, L 2 β L ( β L ), L ( β L ) 2 ) er de»forvetede«atal uder hypotese om Hardy-Weiberg ligevægt. Ma fider at 2 l Q = 0.52 med (3 ) = frihedgrader, svarede til e testsadsylighed på ca. 47%, så ma a sagtes atage at torsebestade ved Lollad er i Hardy-Weiberg ligevægt. Noget tilsvarede a gøres med de to adre loaliteter. Ma får masimaliserigsestimatere β B = og β Å = De forvetede atal ŷ ses i tabel 6.2. Ved Åladsøere a ma oplagt atage Hardy-Weiberg ligevægt. (Ma a ie beytte χ 2 -approsimatioe til 2 l Q fordi et af de forvetede atal er alt for lille. Me ma må sige at modelle reproducerer observatioere særdeles fit.) Ved Borholm er der større uoveresstemmelse mellem de observerede og de forvetede atal, og teststørrelse er her 2 l Q = 4.4, svarede til e testsadsylighed af størrelsesorde 0 4. r 6.4 E samlet model E samlet model Hypotese om Hardy-Weiberg ligevægt er såda e»pæ«hypotese fordi ma a»forstå«(dvs. levere e simpel forlarig på) de. Derfor er det ærgerligt at Borholm tilsyeladede falder ude for det pæe billede. For at reparere på tigee ue ma forsøge sig med e modificeret hypotese H gåede ud på at ved Lollad er der Hardy-Weiberg ligevægt med parameter β L, ved Åladsøere er der Hardy-Weiberg ligevægt med parameter β Å, ved Borholm er populatioe e bladig af Lolladstors og Åladstors i forholdet α ( α) hvor α ]0, [ er e uedt parameter. Mere præcist går H altså ud på at der fides værdier af β L, β Å og α således at β 2 L p L = 2β L ( β L ), ( β L ) 2 β 2 Å p Å = 2β Å ( β Å ), ( β Å ) 2 αβl 2 + ( α)β2 Å p B = αp L + ( α)p Å = α2β L ( β L ) + ( α)2β Å ( β Å ). α( β L ) 2 + ( α)( β Å ) 2 Bemær at der u er tale om é samlet model for alle tre loaliteter. De samlede lielihoodfutio bliver produtet af de tre del-lielihoodfutioer for de tre loaliteter. Det er bevemt at operere med logaritme til lielihoodfutioe, så de sriver vi op: l L(β L, β Å, α) = 27 l p L + 30 l p 2L + 2 l p 3L + 4 l p B + 20 l p 2B + 52 l p 3B + 0 l p Å + 5 l p 2Å + 75 l p 3Å = ostat + 84 l β L + 54 l( β L ) + 4 l(αβ 2 L + ( α)β 2 Å ) + 20 l(αβ L ( β L ) + ( α)β Å ( β Å )) + 52 l(α( β L ) 2 + ( α)( β Å ) 2 ) + 5 l β Å + 55 l( β Å ). Der syes ie at være oge pratis avedelig aalytis måde at masimalisere dee futio på, så ma må beytte e iteratiosmetode. Som startværdier til e såda a
111 220 Et større esempel: Tors i Østersøe 6.5 Reg og teg 22 Tabel 6.3 Forvetede atal ŷ i bladigsmodelle. geotype Lollad Borholm Åladsøere AA Aa aa i alt vi beytte de tidligere fude estimater β L = og β Å = 0.03 og vælge α så det forvetede atal Aa ved Borholm er lig det observerede, dvs. ved at løse ligige α 2 β L ( β L ) + ( α) 2 β Å ( β Å ) = 20 86, hvilet giver α Ma fider at l L atager sit masimum i ( βl, βå, α) = (0.6, 0.03, 0.425). Herefter a vi udrege de forvetede geotypefordelig de tre steder, se tabel 6.3. Det ses at der er lagt bedre overesstemmelse mellem de observerede og de»forvetede«værdier i dee model. Hvis ma tester modelle i forhold til grudmodelle med e vilårlig triomialfordelig hvert sted, får ma e 2 l Q-størrelse på 0.7, og selv om de forvetede atal ie alle er midst 5, a ma jo alligevel godt sæve til χ 2 -fordelige med 3 (3 ) 3 = 3 frihedsgrader. Alt i alt må ma oludere, at modelle med Hardy-Weiberg ligevægt ved Lollad og ved Åladsøere og med e bladigspopulatio ved Borholm giver e god besrivelse af de foreliggede observatioer. 6.5 Reg og teg Her ses hvorda ma a udføre beregigere til dette apitel. # De separate simple modeller. # de observerede atal for hver loalitet: yl <- c(27, 30, 2) yb <- c(4, 20, 52) ya <- c(0, 5, 75) # vi listrer dem samme lags søjler (colums): yobs <- cbid(yl, yb, ya) # Vi defierer u e futio betahat der ud fra e observatio y udreger # β = 2y + y 2 2y (det forudsættes at y er e vetor af lægde 3). betahat <- fuctio(y){ (2*y[] + y[2])/(2*sum(y)) } # Desude defierer vi e futio p.beta der udreger p som # futio af β, dvs. p = (β 2, 2β( β), ( β) 2 ): p.beta <- fuctio(b) { c(b^2, 2*b*(-b), (-b)^2) } # Ved hjælp af disse futioer udreges de eelte β-er og de tilsvarede # vetorer (ŷ, ŷ 2, ŷ 3 ) af observerede atal (jf. tabel 6.2): betal <- betahat(yl) betab <- betahat(yb) betaa <- betahat(ya) yhatl <- p.beta(betal) * sum(yl) yhatb <- p.beta(betab) * sum(yb) yhata <- p.beta(betaa) * sum(ya) # Så defieres e futio mius2lq der udreger 2 l Q # (i summe sal ma se bort fra led hvor det observerede atal er 0, # idet 0 l 0 er lig med 0). mius2lq <- fuctio(obs.atal, hyp.atal){ 2*sum(ifelse( obs.atal>0, obs.atal*log(obs.atal/hyp.atal), 0)) } # Futioe bruges til at udrege 2 l Q på hver af de tre loaliteter: mius2lq(yl, yhatl) mius2lq(yb, yhatb) mius2lq(ya, yhata) # De store model: # Vi defierer e futio ft som (på ær et ostatled) er l L(β L, β Å, α). # Dee futio sal miimaliseres. Bemær at futioe sal defieres som e # futio af é tredimesioal variabel (her aldt b). ft <- fuctio(b){ -( 84*log( b[]) + 54*log(-b[]) +4*log( b[3]*b[]^2 + (-b[3])*b[2]^2 ) +20*log( b[3]*b[]*(-b[]) + (-b[3])*b[2]*(-b[2])) +52*log( b[3]*(-b[])^2 + (-b[3])*(-b[2])^2 ) + 5*log( b[2]) + 55*log(-b[2])) } # Vi prøver u to forsellige R-futioer til optimerig, emlig lm og optim; # de sulle gere give det samme! # (Bemær at lm sal have ft som første argumet og vetore af startværdier # som adet argumet, og optim sal have dem i modsat ræefølge...) metode <- lm(ft, c(0.609, 0.03, 0.44)) metode2 <- optim(c(0.609, 0.03, 0.44), ft)
112 222 Et større esempel: Tors i Østersøe # (sriv metode hhv. metode2 for at se resultatere) # Vi vælger at bruge estimatere fra metode 2. # De estimerede sadsylighedsvetorer er phathatl <- p.beta(metode2$par[]) phathata <- p.beta(metode2$par[2]) phathatb <- metode2$par[3]*phathatl + (-metode2$par[3])*phathata # De forvetede atal for hver loalitet yhathatl <- phathatl*sum(yl) yhathatb <- phathatb*sum(yb) yhathata <- phathata*sum(ya) # og samlet, jf. tabel 6.3 yhathat <- cbid(yhathatl, yhathatb, yhathata) yhathat # E 2lQ-størrelse for de samlede model; atal frihedsgrader er 3 (3 ) 3 = 3 mius2lq(yobs, yhathat) Referecer [] Truett Alliso og Domeic V. Cicchetti. Sleep i mammals: ecological ad costitutioal correlates. Sciece, 94:732 34, 976. [2] Erlig B. Aderse. Multiplicative poisso models with uequal cell rates. Scadiavia Joural of Statistics, 4:53 8, 977. [3] F. J. Ascombe. Graphs i statistical aalysis. The America Statisticia, 27:7 2, 973. [4] Ladislaus vo Bortiewicz. Das Gesetz der leie Zahle. Teuber, Leipzig, 898. [5] Edward Patric Davi. Blood pressure amog residets of the Tambo Valley. Master s thesis, The Pesylvaia State Uiversity, 975. [6] James D. Forbes. Further experimets ad remars o the measuremet of heights by the boilig poit of water. Trasactios of the Royal Society of Ediburgh, 2: 35 43, 857. [7] Karl Friedrich Gauß. Theoria motus corporum coelestium i sectioibus coicis solem ambietum. F. Perthes ud I.H. Besser, Hamburg, 809. [8] Aette Greefort, Christia S. F. Jese og Susae Jeppese. Plater og plater imellem. Biologispeciale, Rosilde Uiversitetsceter, 987. [9] Major Greewood og George Udy Yule. A iquiry ito the ature of frequecy distributios represetative of multiple happeigs with particular referece to the occurrece of multiple attacs of disease or of repeated accidets. Joural of the Royal Statistical Society, 83:255 79, 920. [0] Aders Hald. Statistise Metoder. Aademis Forlag, Købehav, 948, 968. [] Milto Hito. Doctoral thesis, Teachers College, Columbia Uiversity, 968. [2] Larry Lee og Richard G. Krutchoff. Mea ad variace of partially-trucated distributios. Biometrics, 36:53 6, 980. [3] Lucette Meillier og Ida Toldbod. På særme står et lille hjerte og baer... ultralyd og biologise sadeviriger afprøvet for romosombrud i miroereteste. Biologispeciale, Rosilde Uiversitetsceter, 985. [4] H. Arthur Meyer. Forest Mesuratio. Pes Valley Publishers, Ic., State College, Pesylvaia, 953. [5] Simo Newcomb. Measures of the velocity of light made uder the directio of the Secretary of the Navy durig the years Astroomical Papers, 2:07 230,
113 224 Referecer [6] Simo E. Pac og Byro J. T. Morga. A mixture model for iterval-cesored time-to-respose quatal assay data. Biometrics, 46:749 57, 990. [7] Erest Rutherford og Has Geiger. The probability variatios i the distributio of α particles. I James Chadwic, red., The Collected Papers of Lord Rutherford of Nelso, bid 2, side 203. George Alle ad Uwi, Lodo, 963. [8] Erest Rutherford og Has Geiger. The probability variatios i the distributio of α particles. Philosophical Magazie, xx: , 90. [9] Thomas A. Rya, Bria L. Joier og Barbara F. Rya. MINITAB Studet Hadboo. Duxbury Press, North Scituate, Massachusetts, 976. [20] Kud Sic. Haemoglobi polymorphism of cod i the Baltic ad the Daish Belt Sea. Hereditas, 54:9 48, 965. [2] Stephe M. Stigler. Do robust estimators wor with real data? The Aals of Statistics, 5:055 98, 977. [22] Studet. The probable error of a mea. Biometria, 6: 25, 908. [23] Saford Weisberg. Applied Liear Regressio. Wiley series i Probability ad Mathematical Statistics. Joh Wiley & Sos, 980. Kort om statistiprogrammet R I R opereres på datastruturer som bladt adet a være vetorer og matricer. Det der opererer, er forsellige futioer. Hvis ma f.es. har oprettet e datastrutur tal som ideholder e masse tal, så a ma få udreget summe af alle disse tal ved at avede futioe sum på tal, dvs. ma sriver sum(tal). Hvis ma vil have de aturlige logaritme til alle tallee, sriver ma log(tal). R er primært tæt som et iterativt system, dvs. brugere idtaster e ommado som R så udfører, deræst idtaster brugere e y ommado osv. Kommadoer a være istrutioer om at udføre gase ele regestyer, f.es. at lægge tallee 5 og 7 samme (det gøres ved at srive 5+7), eller de a udføre omplicerede beregiger og tegiger. Her er ogle tig der er værd at vide fra starte: R sriver prompte > år det er parat til at modtage e ommado. Ma afslutter R ved at alde futioe q, dvs. ma sriver q() Der er forsel på store og små bogstaver. Decimaltal srives med teget. (putum) som»omma«, f.es. 3.75»Sættes lig med«-operatore er <- (dvs. teget < umiddelbart efterfulgt af teget -). Esempel: Hvis ma sriver a <- 8.5 så bliver der oprettet e datastrutur a som ideholder det ee tal 8.5 Futioe c sammeæder til e vetor. Esempel: hvis ma sriver b <- c(2, 4.5, 5) så bliver der oprettet e vetor b som ideholder de tre værdier 2, 4.5 og 5. Ma får de atuelle værdi af b at se ved at srive b ved R-prompte. Futioe ls sriver e liste over hvile datastruturer der atuelt er defieret; ma sriver ls() Der er (aturligvis) almidelige operatorer som + (additio), - (subtratio), * (multipliatio), / (divisio), ^ (potesopløftig). E ade yttig operator er : der leverer e vetor af på hiade følgede heltal, f.es. giver 5:2 resultatet Hjælp fås med e af futioere? og help. Esempler: Ma a få hjælp om futioe si ved ete at srive?si eller help(si) Ma a få hjælp om futioe : ved at srive?":" eller help(":") 225
114 226 Kort om statistiprogrammet R Med R-distributioe følger udmærede hjælpetester i html-format; i Widowsudgave af R a ma åbe disse hjælpetester fra R-osolles Help-meu. Symbolet # er et ommetarteg, dvs. reste af lije (fra og med #) bliver igoreret. Her er et lille udvalg af R-futioer til udregig af fratiler og fordeligsfutioer for fordeliger. Tabeller Biomialfordelig: dbiom( x, size=, prob= p ) pbiom( x, size=,prob= p ) qbiom( ssh, size=, prob= p ) rbiom( atal, size=,prob= p ) Negativ biomialfordelig: dbiom( x, size= κ, prob= p ) pbiom( x, size= κ,prob= p ) qbiom( ssh, size= κ, prob= p ) rbiom( atal, size= κ,prob= p ) Poissofordelig: dpois( x, lambda= middelværdi ) ppois( x, lambda= middelværdi ) qpois( ssh, lambda= middelværdi ) rpois( atal, lambda= middelværdi ) Normalfordelig: dorm( x, mea= middelværdi, sd= std.afv ) porm( x, mea= middelværdi,sd= std.afv ) qorm( ssh, mea= middelværdi, sd= std.afv ) rorm( atal, mea= middelværdi, sd= std.afv ) χ 2 -fordelig: dchisq( x, df= frihedsgrader ) pchisq( x, df= frihedsgrader ) qchisq( ssh, df= frihedsgrader ) rchisq( atal, df= frihedsgrader ) t-fordelig: dt( x, df= frihedsgrader ) pt( x, df= frihedsgrader ) qt( ssh, df= frihedsgrader ) rt( atal, df= frihedsgrader ) F-fordelig: df( x, df= tællerfrihedsgr, df2= æverfrihedsgr ) pf( x, df= tællerfrihedsgr, df2= æverfrihedsgr ) qf( ssh, df= tællerfrihedsgr, df2= æverfrihedsgr ) rf( atal, df= tællerfrihedsgr, df2= æverfrihedsgr ) sadsylighedsfutio fordeligsfutio fratiler tilfældige tal sadsylighedsfutio fordeligsfutio fratiler tilfældige tal sadsylighedsfutio fordeligsfutio fratiler tilfældige tal tæthedsfutio fordeligsfutio fratiler tilfældige tal tæthedsfutio fordeligsfutio fratiler tilfældige tal tæthedsfutio fordeligsfutio fratiler tilfældige tal tæthedsfutio fordeligsfutio fratiler tilfældige tal Det gælder for de allerfleste af de fordeliger som de pratis arbejdede statistier beytter, at hvere fordeligsfutioe eller de iverse fordeligsfutio (der leverer fratilere i fordelige) er lette at berege år hjælpemidlere er papir og blyat og»almidelige«matematise futioer (så som additio, multipliatio, divisio, vadratrod, vadrerig, logaritmefutio, espoetialfutio osv.). I tidligere tider var det et betydeligt regearbejde at udrege pålidelige umerise approsimatioer til de almidelige fordeliger og deres fratiler, og ma øjedes derfor med at udrege futiosværdiere for udvalgte værdier af argumetere (her er e af forlarigere på de magise fem procet!), og statistise tabeller var oget meget dyrebart (og copyrightbelagt). I vore dage er det aderledes. Ehver a u på e almidelig pc er på ige tid udrege de almideligt brugte fordeligsfutioer og fratiler med stor præcisio. Tabellere på side 234 og fremefter er udreget ved brug af Tue Tjurs Turbo Pascal-uit distr (fra Vi mider om at e fratil i e fordelig er et tal x med de egesab at der er e vis foresreve sadsylighed for at få værdier x. Esempelvis er 90%-fratile et tal x således at der er sadsylighed 90% for at få værdier x. 227
115 Fratiler i χ 2 -fordelige med f frihedsgrader Sadsylighed i procet f Fratiler i χ 2 -fordelige med f frihedsgrader Sadsylighed i procet f
116 90% fratiler i F-fordelige. f er atal frihedsgrader for tællere, f 2 er atal frihedsgrader for ævere. f f % fratiler i F-fordelige. f er atal frihedsgrader for tællere, f 2 er atal frihedsgrader for ævere. f f
117 97.5% fratiler i F-fordelige. f er atal frihedsgrader for tællere, f 2 er atal frihedsgrader for ævere. f f % fratiler i F-fordelige. f er atal frihedsgrader for tællere, f 2 er atal frihedsgrader for ævere. f f
118 Fratiler i t-fordelige med f frihedsgrader Sadsylighed i procet f f Stiord Stiord srevet med srivemasiesrifte er ave på R-futioer. # 226 : 8, 225 <- 225? 225 ablie 7, 23, 53 afhægig variabel 03 afrudigsfejl 2 aova 23, 38, 50, 54, 75, 92 atalsparameter, 5, 96 aov 99 apply 76 as.character 53 as.factor 23 baggrudsvariabel 03, 3, 4 barplot 8, 75 bartlett.test 99 Bartletts test 97 beregigsulput 64 biom.test 33 biomialfordelig 9,, 5, 8, 4, 226 biomialformle 5 biomialforsøg 9 biomialoefficiet, 2, 5, 7 c 225 cbid 8, 72, 52, 220 cetral estimator 27, 64 Cetral Græseværdisætig 75 chisq.test 24 choose 7 colsums 9, 204 data 7, 86, 23 dbiom 8, 226 dchisq 226 determiatiosoefficiet 34 df 226 diag 72 dispersiostest 64, 74, 77 dbiom 76, 226 dorm 58, 7, 226 dosis-respos model 42 dpois 74, 226 dt 226 esat test 43, 48 elemetarforsøg 9, 93 empiris fordelig 9 esidet test 68, 80 esidet variasaalyse 89, 96, 98 estimat, geerelt 23 estimatio, geerelt 23 estimatiosligiger 32 estimator 27, 3 Φ 58, 70 φ 58 F-fordelig 226, 230 F-test 96, 7 factor 99, 92 fator 99 fisher.test 50 Fishers esate test 48 fittet værdi 05 forlarede variabel 03, 3 forlaret variabel 03 fratil 32, 58, 60, 70, 227 fratildiagram 69, 7 fratiler 226 i F-fordelige 226, 230 i t-fordelige 226,
119 i χ 2 -fordelige 226, 228 frihedsgrader 32, 42, 63, 65, 93, 203 fuctio 52, 76, 220, 22 gammafordelig 72 Gauß-fordelig Se ormalfordelig geeraliseret lieær model 83, 90 glm 53, 75, 90, 9, 204, 24 glm.b 75, 76 Hardy-Weiberg ligevægt 26 help 225 histogram 69, 7 homogeitet mellem grupper 93 hypergeometris fordelig 2, 48 hypotese, geerelt 27, 44 ifelse 92, 22 idiatorvariabel 9 itesitet 59 otigestabel 207 orrelatiosoefficiet 34 vadratis salaparameter 57 votietteststørrelse 28, 29, 4 lielihoodfutioe 25 lielihoodmetode 23 lies 7, 53 lieær regressio 03 lm 00, 23, 38 log 225 logaritmis ormalfordelt 73 logistis regressio 4 logit 43, 44 ls 225 masimaliserigsestimat 26 masimaliserigsestimator 27 matrix 8, 7, 76 max 74 mea 7, 74 media 57 middelfejl 27, 72, 2, 35, 36, 68 mi 74 midste vadraters metode 08 modelfutioe 24 modelotrol 6, 47, 64 multiomialfordelig 93, 96, 207, 25 multiomialoefficiet 95 multipel lieær regressio 3 multipliativ poissomodel 79 N (µ, σ 2 ) 57 egativ biomialfordelig 72, 226 lm 22 ormalfordelig 54, variabel, 6, 56 Ochams rageiv 34 odds 43 optim 22 ordede observatioer 69 outlier 6 pairs 38 parameter, geerelt 23 Pascals treat 3, 4 pbiom 226 pchisq 33, 50, 53, 74, 9, 204, 24, 226 Pearsos X 2 50, 52, 24 pf 226 pidediagram 8, 20 plot 58, 23, 52, 53 pmax 76 pmi 76 pbiom 226 porm 58, 226 poissofordelig 55, 59, 226 polyomial... Se multiomial... positiosparameter 53, 57 ppois 226 probit 58, 7 prop.test 49 præcisio (i fordelig) 57 pt 226 q 225 qbiom 226 qchisq 33, 226 qf 226 qbiom 226 qorm 226 qpois 226 qqorm 7 qt 226 R 225 R 2 34 Rauiær-cirliger 6, 78 rbid 75, 204 rbiom 8, 226 rchisq 226 read.table 99, 23, 52, 75, 9, 204, 24 regressio 03 logistis 4 multipel lieær 3 simpel lieær 05 regressiosoefficiet 06 rep 74, 75 require 7, 23, 24 residual 78, 05, 0, 33 resposvariabel 03 rf 226 rbiom 226 rorm 7, 226 roud 8, 72, 74, 204 rowmeas 7 rowsums 8, 9, 204 rpois 76, 226 rt 226 ræevirig 209 sammesat hypotese 45 sadsylighedsfutio 0 sadsylighedspapir 7 sadsylighedsparameter, 5, 96 sadsylighedssimplex 96, 97, 27 sadsylighedstæthed 56 scatterplot 24, 37, 38 sd 7 seq 58, 7, 53 sigifias 30 sigifiat forsel 28 sigifiat teststørrelse 30 simpel hypotese 44 simpel lieær regressio 03 simulta sadsylighedsfutio 0 stadardafvigelse 7 stadardormalfordelige 58 statistis hypotese Se hypotese stiprøve 6 stoastis uafhægighed 0 stoastis variabel 0 Studets t 67, 80 sum 9, 204, 225 summary 99, 23, 53, 54 systematis variatio 77, 9, 06 søjlevirig 209 t-fordelig 226, 234 t-test estiprøveproblem 67, 7 lieær regressio 2, 22 multipel regressio 35 tostiprøveproblemer 80, 85 t.test 7, 86 test, geerelt 28 testsadsylighed 30, 68, 96 tilfældig variatio 77, 9, 06 tosidet test 68, 80 triomialfordelig 99, 25 truehist 7 uafhægig variabel 03 uafhægighed i otigestabel 208 update 23, 38, 54, 75, 92 var 72, 74 var.test 86 varias 6 variasaalyse 96 esidet 89, 96, 98 variasaalysesema 96, 20 variashomogeitet 76, 97 variatio ide for grupper 95, 7, 8 mellem grupper 95, 8 omrig regressioslije 7, 8 omrig totalgeemsittet 95 regressioslijes 8 total 8 veselvirig 209 X 2 50, 52 χ 2 -approsimatio 32, 42, 69, 203, 22 χ 2 -fordelig 32, 226, 228 xtabs 9, 204,
Noter om kombinatorik, Kirsten Rosenkilde, februar 2008 1. Kombinatorik
Noter om ombiatori, Kirste Roseilde, februar 008 Kombiatori Disse oter er e itrodutio til ombiatori og starter helt fra bude, så e del af det idledede er siert edt for dig allerede, me der ommer også hurtigt
Vejledende besvarelser til opgaver i kapitel 15
Vejledede besvarelser til opgaver i apitel 5 Opgave a) De teststatistier, ma aveder til at teste om to middelværdier er es, består af et estimat på forselle mellem middelværdiere,, divideret med et udtry
Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik
Noter om ombiatori, Kirste Roseilde, februar 008 Kombiatori Disse oter er e itrodutio til ombiatori og starter helt fra bude, så e del af det idledede er siert edt for dig allerede, me der ommer også hurtigt
hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i
Normalfordeliger For at e stokastisk variabel X ka være ormalfordelt, skal X agive værdie af e eller ade målig, f.eks. tid, lægde, vægt, beløb osv. Notatioe er: Xi ~ N( μ, σ hvor i er observatiosummeret,
Motivation. En tegning
Motivatio Scatter-plot at det mådelige salg mod det måedlige reklamebudget. R: plot(salg ~ budget, data = salg) Økoometri Lektio Simpel Lieær Regressio salg 400 450 500 550 20 25 30 35 40 45 50 budget
6 Populære fordelinger
6 Populære fordeliger I apitel 4 itroducerede vi stoastise variabler so e åde at repræsetere udfald af et esperiet på. De stoastise variabler ue være både disrete (fx terigslag) og otiuerte (fx vareægder).
9. Binomialfordelingen
9. Biomialfordelige 9.. Gekedelse Hvert forsøg ka ku resultere i to mulige udfald; succes og fiasko. I modsætig til poissofordelige er atallet af forsøg edeligt. 9.. Model X : Stokastisk variabel, der
Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017
Meigsmåliger KLADDE Thomas Heide-Jørgese, Rosborg Gymasium & HF, 2017 Idhold 1 Meigsmåliger 2 1.1 Idledig................................. 2 1.2 Hvorda skal usikkerhede forstås?................... 3 1.3
Elementær Matematik. Polynomier
Elemetær Matematik Polyomier Ole Witt-Hase 2008 Køge Gymasium Idhold 1. Geerelle polyomier...1 2. Divisio med hele tal....1 3. Polyomiers divisio...2 4. Polyomiers rødder....4 5. Bestemmelse af røddere
Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner
Projekter: Kapitel 4 Projekt 48 De reelle tal og hovedsætig om kotiuerte fuktioer Projekt 48 De reelle tal og hovedsætig om kotiuerte fuktioer Kotiuitet og kotiuerte fuktioer Ord som kotiuert og kotiuerlig
STATISTIKNOTER Simple normalfordelingsmodeller
STATISTIKNOTER Simple ormalfordeligsmodeller Jørge Larse IMFUFA Roskilde Uiversitetsceter Februar 1999 IMFUFA, Roskilde Uiversitetsceter, Postboks 260, DK-4000 Roskilde. Jørge Larse: STATISTIKNOTER: Simple
Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!
Statistik Lektio 8 Parrede test Test for forskel i adele Test for es varias Gesy med flyskræk! Afhægige og uafhægige stikprøver Ved e uafhægig stikprøve udtages e stikprøve fra hver gruppe.. Mæd og kviders
Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.
Praktisk ifo Liste med rettelser og meigsforstyrrede trykfejl i DS på Absalo. Statistisk aalyse af e ekelt stikprøve: kedt eller ukedt varias Sadsylighedsregig og Statistik (SaSt) Helle Sørese Projekt
Formelskrivning i Word 2. Sådan kommer du i gang 4. Eksempel med skrivning af brøker 5. Brøker skrevet med småt 6. Hævet og sænket skrift 6
Dee udgave er til geemkig på ettet. Boge ka købes for kr. 5 hos EH-Mat. E y og udvidet udgave med title»symbol- og formelskrivig«er udkommet september 00. Se mere om de her. Idholdsfortegelse Formelskrivig
Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)
Løsigsforslag til skriftlig eksame i Kombiatorik, sadsylighed og radomiserede algoritmer (DM58) Istitut for Matematik & Datalogi Syddask Uiversitet Madag de 3 Jauar 011, kl. 9 13 Alle sædvalige hjælpemidler
Estimation ved momentmetoden. Estimation af middelværdiparameter
Statistik og Sadsylighedsregig 1 STAT kapitel 4.2 4.3 Susae Ditlevse Istitut for Matematiske Fag Email: [email protected] http://math.ku.dk/ susae Estimatio ved mometmetode Idimellem ka det være svært (eller
Matematik A. Studentereksamen. Forberedelsesmateriale. Forsøg med digitale eksamensopgaver med adgang til internettet.
Matematik A Studetereksame Forsøg med digitale eksamesopgaver med adgag til iterettet Forberedelsesmateriale Vejledede opgave Forår 0 til stx-a-net MATEMATIK Der skal afsættes 6 timer af holdets sædvalige
Renteformlen. Erik Vestergaard
Reteformle Erik Vestergaard 2 Erik Vestergaard www.matematikfysik.dk Erik Vestergaard, 2010. Billeder: Forside: istock.com/ilbusca Side 4: istock.com/adresrimagig Desude ege illustratioer. Erik Vestergaard
og Fermats lille sætning
Projekter: Kaitel 0. Projekt 0. Modulo-regig, restklassegruer og Fermats lille sætig Projekt 0. Modulo-regig, restklassegruere ( { 0 }, ) og Fermats lille sætig Vi aveder moduloregig og restklasser mage
Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol
Simpel Lieær Regressio Opsplitig af variatioe Determiatios koefficiet Variasaalse F-test Model-kotrol Opbgig af statistisk model Specificer model Ligiger og atagelser Estimer parametre Modelkotrol Er modelle
Projekt 1.3 Brydningsloven
Projekt 1.3 Brydigslove Når e bølge, fx e lysbølge, rammer e græseflade mellem to stoffer, vil bølge ormalt blive spaltet i to: Noget af bølge kastes tilbage (spejlig), hvor udfaldsvikle u er de samme
Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.
Repetitio: Normalfordelige Ladmåliges fejlteori Lektio Trasformatio af stokastiske variable - [email protected] http://people.math.aau.dk/ kkb/udervisig/lf13 Istitut for Matematiske Fag Aalborg Uiversitet
Den flerdimensionale normalfordeling
De flerdimesioale ormalfordelig Stokastiske vektorer Ved e stokastisk vektor skal vi forstå e vektor, hvor de ekelte kompoeter er sædvalige stokastiske variable. For de stokastiske vektor Y = Y,..., Y
Maja Tarp AARHUS UNIVERSITET
AARHUS UNIVERSITET Maja Tarp AARHUS UNIVERSITET HVEM ER JEG? Maja Tarp, 4 år Folkeskole i Ulsted i Nordjyllad Studet år 005 fra Droiglud Gymasium Efter gymasiet: Militæret Australie Startede på matematik
Vejledende opgavebesvarelser
Vejledede opgavebesvarelser 1. Atal hæder er lig med K(52,5), altså 2598960. Ved brug af multiplikatiospricippet ka atal hæder med 3 ruder og 2 spar udreges som K(13, 3) K(13, 2), hvilket giver 22308.
Matematikkens mysterier - på et obligatorisk niveau. 7. Ligninger, polynomier og asymptoter
Matematikkes mysterier - på et obligatorisk iveau af Keeth Hase 7. Ligiger, polyomier og asymptoter Hvad er e asymotote? Og hvorda fides de? 7. Ligiger, polyomier og asymptoter Idhold 7.0 Idledig 7.1 Udsag
og Fermats lille Projekt 0.4 Modulo-regning, restklassegrupperne sætning ..., 44, 20,4,28,52,... Hvad er matematik? 3 ISBN
Projekt 0.4 Modulo-regig, restklassegruppere sætig ( p 0, ) og Fermats lille Vi aveder moduloregig og restklasser mage gage om dage, emlig år vi taler om tid, om hvad klokke er, om hvor lag tid der er
DATV: Introduktion til optimering og operationsanalyse, 2007. Bin Packing Problemet
DATV: Itroduktio til optimerig og operatiosaalyse, 2007 Bi Packig Problemet David Pisiger, Projektopgave 2 Dette er de ade obligatoriske projektopgave på kurset DATV: Itroduktio til optimerig og operatiosaalyse.
Stikprøvefordelinger og konfidensintervaller
Stikprøvefordeliger og kofidesitervaller Stikprøvefordelige for middelværdi De Cetrale Græseværdi Sætig Egeskaber Ved Estimatore Kofidesitervaller t-fordelige Estimator og estimat E stikprøve statistik
Sammenligning af to grupper
Sammeligig af to gruer Reetitio, heruder om kritiske værdier Sammeligig af to gruer Sammeligig af to middelværdier Sammeligig af to adele Sammeligig af to variaser yoteser og hyotesetest. E hyotese er
Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning
Hvad er matematik? Projekter: Kaitel 9 Projekt 9 Regeregler for stokastiske variable middelværdi, varias og sredig Projekt 9 Regeregler for stokastiske variable middelværdi, varias og sredig Sætig : Regeregler
Modul 14: Goodness-of-fit test og krydstabelanalyse
Forskigsehede for Statistik ST01: Elemetær Statistik Bet Jørgese Modul 14: Goodess-of-fit test og krydstabelaalyse 14.1 Idledig....................................... 1 14.2 χ 2 -test i e r c krydstabel.............................
Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n
Ladmåliges fejlteori Lektio 3 Estimatio af σ Dobbeltmåliger Geometrisk ivellemet Lieariserig - [email protected] Istitut for Matematiske Fag Aalborg Uiversitet Repetitio: Middelværdi og Varias Sætig: Middelværdi
Sandsynlighedsregning i biologi
Om begrebet sadsylighed Sadsylighedsregig i biologi Hvis vi kaster e almidelig, symmetrisk terig, er det klart for de fleste af os, hvad vi meer, år vi siger, at sadsylighede for at få e femmer er 1/6.
Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse
Avedt Statistik Lektio 3 Pukt- og itervalestimater Kofidesitervaller Valg af stikprøvestørrelse Pukt- og itervalestimater: Motivatio Motiverede eksempel: I e udersøgelse er adele af rygere 0.27. Det aslås
Løsninger til kapitel 7
Løsiger til kapitel 7 Opgave 7.1 a) HpoStat giver resultatet: Pop. varias er ukedt, me 30, så Normalf. bruges approksimativt = 54,400 s 1.069,90 = 00,000 0,95 49,868 58,93 Dette betder, at med 95% sikkerhed
Gamle eksamensopgaver. Diskret Matematik med Anvendelser (DM72) & Diskrete Strukturer(DM504)
Gamle eksamesopgaver Diskret Matematik med Avedelser (DM72) & Diskrete Strukturer(DM504) Istitut for Matematik& Datalogi Syddask Uiversitet, Odese Alle sædvalige hjælpemidler(lærebøger, otater etc.), samt
Projekt 9.10 St. Petersborg paradokset
Hvad er matematik? ISBN 978877066879 Projekt 9.0 St. Petersborg paradokset. De store tals lov & viderchacer I grudboges kapitel 9 omtales de store tals lov, som ka formuleres således: Hvis e spiller i
Matematisk Modellering 1 Hjælpeark
Matematisk Modellerig Hjælpeark Kaare B. Mikkelse 2005090 3. september 2007 Idhold Formler 2 2 Aalyse af k ormalfordelte prøver 2 2. Modelcheck............................................ 2 2.2 Test af
Lys og gitterligningen
Fysik rapport: Lys og gitterligige Forfatter: Bastia Emil Jørgese.z Øvelse blev udført osdag de 25. jauar 202 samme med Lise Kjærgaard Paulse 2 - Bastia Emil Jørgese Fysik rapport (4 elevtimer), februar
Bjørn Grøn. Analysens grundlag
Bjør Grø Aalyses grudlag Aalyses grudlag Side af 4 Idholdsfortegelse Kotiuerte og differetiable fuktioer 3 Differetial- og itegralregiges udviklig 5 3 Hovedsætiger om differetiable fuktioer 8 Opgaver til
Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave 14. 20. december 2007
Mikroøkoomi, matematik og statistik Eksameshjemmeopgave 14. 20. december 2007 Helle Buzel, Tom Egsted og Michael H.J. Stæhr 14. december 2007 R E T N I N G S L I N I E R F O R E K S A M E N S H J E M M
Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger
Faculty of Life Scieces Program Esidet variasaalyse Normalfordelige Claus Ekstrøm E-mail: [email protected] Esidet variasaalyse (oe-way ANOVA) Hvilke type data? Hvad er problemstillige? Variatio mellem
Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.
STATISTIK Skriftlig evaluerig, 3. semester, madag de 30. auar 006 kl. 9.00-3.00. Alle hælpemidler er tilladt. Opgaveløsige forsyes med av og CPR-r. OPGAVE Ved e produktio af viduer er der mulighed for,
1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2
Idhold 1 Pukt- og itervalestimatio 2 1.1 Puktestimatorer: Cetralitet(bias) og efficies.................... 2 2 Kofidesiterval 3 2.1 Kofidesiterval for adel................................ 4 2.2 Kofidesiterval
Estimation og test i normalfordelingen
af Birger Stjerholm Made Samfudlitteratur 07 Etimatio og tet i ormalfordelige Dee tekt ideholder et overblik over ogle grudlæggede pricipper for etimatio og tet i ormalfordelige i hyppigt forekommede ituatioer:
Noter om polynomier, Kirsten Rosenkilde, Marts Polynomier
Noter om polyomier, Kirste Rosekilde, Marts 2006 1 Polyomier Disse oter giver e kort itroduktio til polyomier, og de fleste sætiger æves ude bevis. Udervejs er der forholdsvis emme opgaver, mes der til
Introduktion til uligheder
Itroduktio til uligheder, marts 0, Kirste Rosekilde Itroduktio til uligheder Dette er e itroduktio til ogle basale uligheder om det aritmetiske geemsit, det geometriske geemsit, det harmoiske geemsit og
DATV: Introduktion til optimering og operationsanalyse, 2007. Følsomhed af Knapsack Problemet
DATV: Itroduktio til optimerig og operatiosaalyse, 2007 Følsomhed af Kapsack Problemet David Pisiger, Projektopgave 1 Dette er de første obligatoriske projektopgave på kurset DATV: Itroduktio til optimerig
Introduktion til uligheder
Itroduktio til uligheder Dette er e itroduktio til ogle basale uligheder om det aritmetiske geemsit, det geometriske geemsit, det harmoiske geemsit og det kvadratiske geemsit. Først skal vi ved fælles
Dagens forelæsning. Claus Munk. kap. 1-3. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro
Dages forelæsig Grudlæggede itroduktio til obligatioer Claus Muk kap. - 3 Betaligsrækker og låeformer Det daske obligatiosmarked Effektive reter 2 Obligatioer Grudlæggede Itro Obligatioer Grudlæggede Itro
Claus Munk. kap. 1-3
Claus Muk kap. 1-3 1 Dages forelæsig Grudlæggede itroduktio til obligatioer Betaligsrækker og låeformer Det daske obligatiosmarked Pris og kurs Effektive reter 2 1 Obligatioer Grudlæggede Itro Debitor
Talfølger og -rækker
Da Beltoft og Klaus Thomse Aarhus Uiversitet 2009 Talfølger og -rækker Itroduktio til Matematisk Aalyse Zeos paradoks om Achilleus og skildpadde Achilleus løber om kap med e skildpadde. Achilleus løber
Facilitering ITU 15. maj 2012
Faciliterig ITU 15. maj 2012 Facilitatio is like movig with the elemets ad sailig the sea Vejvisere Velkomst de gode idflyvig Hvad er faciliterig? Kedeteg ved rolle som facilitator Facilitatores drejebog
GENEREL INTRODUKTION.
Study Guide til Matematik C. OVERSIGT. Dee study guide ideholder følgede afsit - Geerel itroduktio. - Emeliste. - Eksame. - Bilag. Udervisigsmiisteriets bekedtgørelse for matematik C. GENEREL INTRODUKTION.
Branchevejledning. ulykker indenfor. lager. området. Branchearbejdsmiljørådet for transport og engros
Brachevejledig ulykker idefor lager området Brachearbejdsmiljørådet for trasport og egros Baggrud Udersøgelser på lager- og trasportområdet har vist, at beskrivelse af hædelsesforløbet ved udfyldelse
StudyGuide til Matematik B.
StudyGuide til Matematik B. OVERSIGT. Dee study guide ideholder følgede afsit Geerel itroduktio. Emeliste. Eksame. Bilag 1: Udervisigsmiisteriets bekedtgørelse for matematik B. Bilag 2: Bilag 3: Uddrag
De reelle tal. Morten Grud Rasmussen 5. november Se Sætning 3.6 og 3.7 for forskellige formuleringer af egenskaben og dens negation.
De reelle tal Morte Grud Rasmusse 5. ovember 2015 Ordede mægder Defiitio 3.1 (Ordet mægde). pm, ăq kaldes e ordet mægde såfremt: For alle x, y P M gælder etop ét af følgede: x ă y, x y, y ă x @x, y, z
Teoretisk Statistik, 9. februar Beskrivende statistik
Uge 7 I Teoretisk Statistik, 9 februar 004 Beskrivede statistik Kategoriserede variable 3 Kvatitative variable 4 Fraktiler for ugrupperede observatioer 5 Fraktiler for grupperede observatioer 6 Beliggeheds-
Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1
Økoometri 1 Iferes i de lieære regressiosmodel 9. september 006 Økoometri 1: F7 1 Dages program Opsamlig af hemmeopgave om Mote Carlo eksperimeter Mere om hypotesetest: Ekelt lieær restriktio på koefficieter
Sandsynlighedsregning
Sadsylighedsregig E ote om sadsylighedsregig. Via basal sadsylighedsregig gøres læsere klar til forstå biomialfordelige. Herik S. Hase, Sct. Kud Versio 5.0 Opgaver til hæftet ka hetes her. PDF Facit til
- et værktøj til fejlrettende QR-koder. Projekt 0.3 Galois-legemerne. Indhold. Hvad er matematik? A, i-bog
Projekt 0.3 Galois-legemere GF é ëp û - et værktøj til fejlrettede QR-koder Idhold De karakteristiske egeskaber ved de tre mest almidelige talsystemer, og... De kommutative, associative og distributive
Projekt 3.2 Anlægsøkonomien i Storebæltsforbindelsen. Indhold. Hvad er matematik? 1 ISBN
Projekt 3.2 Alægsøkoomie i Storebæltsforbidelse Dette projekt hadler, hvorda økoomie var skruet samme, da ma byggede storebæltsforbidelse. Store alægsprojekter er æste altid helt eller delvist låefiasieret.
FUNKTIONER del 1 Funktionsbegrebet Lineære funktioner Eksponentialfunktioner Logaritmefunktioner Rentesregning Indekstal
FUNKTIONER del Fuktiosbegrebet Lieære fuktioer Ekspoetialfuktioer Logaritmefuktioer Retesregig Idekstal -klassere Gammel Hellerup Gymasium November 08 ; Michael Szymaski ; [email protected] Idholdsfortegelse FUNKTIONSBEGREBET...
Forslag til besvarelser af opgaver m.m. i ε-bogen, Matematik for lærerstuderende
Forslag til besvarelser af opgaver m.m. i ε-boge, Matematik for lærerstuderede Dette er førsteudgave af opgavebesvarelser udarbejdet i sommere 008. Dokumetet ideholder forslag til besvarelser af de fleste
Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion
Statistik 8. gag 1 KONIDENSINTERVALLER Kofidesitervaller: kapitel 11 Valg og test af fordeligsfuktio Statistik 8. gag 11. KONIDENS INTERVALLER Et kofides iterval udtrykker itervallet hvori de rigtige værdi
STATISTIK x-klasserne Gammel Hellerup Gymnasium
STATISTIK x-klassere Gammel Hellerup Gymasium Jui 209 ; Michael Szymaski ; [email protected] Idholdsfortegelse INDLEDNING...3 DESKRIPTIV STATISTIK...4 Skemaer...5 Diagrammer...8 Statistiske deskriptorer... 0 Typetal
STATISTISKE GRUNDBEGREBER
MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER med avedelse af TI 89 og Excel 8 5 9 6 3 0 Histogram for ph 6,9 7, 7,3 7,5 7,7 7,9 ph. udgave 0 FORORD Der er i dee bog søgt at give letlæst og askuelig
Matematik A. Højere handelseksamen. Tirsdag den 26. maj 2015 kl hhx151-mat/a
Matematik A Højere hadelseksame hhx151-mat/a-26052015 Tirsdag de 26. maj 2015 kl. 9.00-14.00 Matematik A Prøve består af to delprøver. Delprøve ude hjælpemidler består af opgave 1 til 5 med i alt 5 spørgsmål.
Konfidens intervaller
Kofides itervaller Kofides itervaller for: Kofides iterval for middelværdi, varias kedt Kofides iterval for middelværdi, varias ukedt Kofides iterval for adel Kofides iterval for varias Bestemmelse af
Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable
Idholdsfortegelse Geerelt:...3 Stokastisk variabel:...3 Tæthedsfuktio/sadsylighedsfuktio for stokastisk variabel:...3 Fordeligsfuktio/sumfuktio for stokastisk variabel:...3 Middelværdi:...4 Geemsit:...4
