STATISTISK MODELLERING OG ANALYSE 19. DECEMBER 2008 ET MAT3-PROJEKT I BAYESIANSK INFERENS VEJLEDER: JAKOB G. RASMUSSEN GRUPPE: G4-115

Relaterede dokumenter
Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Den flerdimensionale normalfordeling

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Program. Middelværdi af Y = t(x ) Transformationssætningen

Asymptotisk optimalitet af MLE

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

Velkommen. Program. Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R. Praktiske ting og sager

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

Sandsynlighedsteori 1.2 og 2 Uge 5.

Estimation ved momentmetoden. Estimation af middelværdiparameter

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

antal gange krone sker i første n kast = n

Motivation. En tegning

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

Hovedpointer fra SaSt

9. Binomialfordelingen

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Elementær Matematik. Polynomier

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

Nogle Asymptotiske Resultater. Jens Ledet Jensen Matematisk Institut, Aarhus Universitet. 1 Indledning 1

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Statistiske Modeller 1: Notat 1

Løsninger til kapitel 7

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

cos(t), v(t) = , w(t) = e t, z(t) = e t.

Matematik A. Studentereksamen. Forberedelsesmateriale. Forsøg med digitale eksamensopgaver med adgang til internettet.

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Maja Tarp AARHUS UNIVERSITET

Diskrete og kontinuerte stokastiske variable

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave december 2007

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

Skitse til notat om hvor de forskellige sandsynlighedsfordelinger kan tænkes at komme fra

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner

Analyse 1, Prøve maj 2009

Kvantitative metoder 2

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

Vejledende besvarelser til opgaver i kapitel 15

Stikprøvefordelinger og konfidensintervaller

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

Generelle lineære modeller

Introduktion til Statistik

Talfølger og -rækker

Deskriptiv teori: momenter

Tankegangskompetence. Kapitel 9 Algebraiske strukturer i skolen 353

Sandsynlighedsteori 1.2

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Regularitetsbetingelserne i simple modeller

Asymptotisk estimationsteori

Matematikkens mysterier - på et obligatorisk niveau. 7. Ligninger, polynomier og asymptoter

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Eksempel 10.1 En autoregressiv proces af orden 1 (ofte blot kaldet en AR(1)- proces) pårhar et opdateringsskema (10.1) med funktionen. for y R.

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

Introduktion til uligheder

STATISTIKNOTER Simple normalfordelingsmodeller

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Modul 14: Goodness-of-fit test og krydstabelanalyse

Introduktion til uligheder

Supplement til Kreyszig

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Undersøgelse af numeriske modeller

Renteformlen. Erik Vestergaard

Supplerende noter II til MM04

og Fermats lille sætning

Dagens forelæsning. Claus Munk. kap Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro

Claus Munk. kap. 1-3

Georg Mohr Konkurrencen Noter om uligheder. Søren Galatius Smith

x-klasserne Gammel Hellerup Gymnasium

Matematisk Modellering 1 Hjælpeark

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Formelskrivning i Word 2. Sådan kommer du i gang 4. Eksempel med skrivning af brøker 5. Brøker skrevet med småt 6. Hævet og sænket skrift 6

IMFUFA TEKST NR TEKSTER fra ROSKILDE UNIVERSITETSCENTER. Jørgen Larsen

Vejledende opgavebesvarelser

Baggrundsnote til sandsynlighedsregning

Projekt 1.3 Brydningsloven

De reelle tal. Morten Grud Rasmussen 5. november Se Sætning 3.6 og 3.7 for forskellige formuleringer af egenskaben og dens negation.

DATV: Introduktion til optimering og operationsanalyse, Bin Packing Problemet

og Fermats lille Projekt 0.4 Modulo-regning, restklassegrupperne sætning ..., 44, 20,4,28,52,... Hvad er matematik? 3 ISBN

Uge 37 opgaver. Opgave 1. Svar : Starter med at definere sup (M) og inf (M) :

StudyGuide til Matematik B.

Projekt 9.10 St. Petersborg paradokset

Estimation og test i normalfordelingen

Gamle eksamensopgaver. Diskret Matematik med Anvendelser (DM72) & Diskrete Strukturer(DM504)

Morten Frydenberg version dato:

r n E[ X n ]/n! for alle r > 0 ifølge monoton konvergens, giver potensrækketeori, at ( ) er ækvivalent med, at ρ n E[ X n ]/n!

Projekt 3.2 Anlægsøkonomien i Storebæltsforbindelsen. Indhold. Hvad er matematik? 1 ISBN

STATISTISKE GRUNDBEGREBER

Noter om polynomier, Kirsten Rosenkilde, Marts Polynomier

Branchevejledning. ulykker indenfor. lager. området. Branchearbejdsmiljørådet for transport og engros

Bjørn Grøn. Analysens grundlag

Sammenligning af to grupper

Transkript:

STATISTISK MODELLERING OG ANALYSE ET MAT3-PROJEKT I BAYESIANSK INFERENS 19. DECEMBER 2008 θ x VEJLEDER: JAKOB G. RASMUSSEN GRUPPE: G4-115 INSTITUT FOR MATEMATISKE FAG

Istitut for Matematiske Fag Fredrik Bajers Vej 7G 9220 Aalborg Øst Telefo 99 40 88 04 Fax 98 15 81 29 http://www.math.aau.dk Titel: Statistisk modellerig og aalyse Projektperiode: MAT3, efterårssemestret 2008 Projektgruppe: G4-115 Deltagere: Bodil Krogaard Kristese Claus Jesby Madse Mikkel Meyer Aderse Nicola Marchetti Sabria Much Hase Vejleder: Jakob G. Rasmusse Oplagstal: 8 Sidetal: 117 Bilagsatal og art: Ige Afsluttet: 19. december 2008. Syopsis: Dette projekt er e bayesiask aalyse af et datasæt udleveret af Novo Nordisk, der har sammeliget et af deres ege isulipræparater med et kokurrede på markedet. Rapporte er opdelt i to dele teori og dataaalyse. I de første del præseteres de ødvedige teori for at kue a- alysere datasættet. Emer som ormalfordelte stikprøver, lieær regressio og Markovkæde Mote Carlo-metoder bliver behadlet i dee del. I de ade del aalyseres HbA1c-iveauet for forsøgspersoere i løbet af de periode, hvor forsøget har stået på. Der avedes lieær regressio for at udersøge, om eksempelvis BMI e eller vægte har oge idflydelse. Derudover udføres bayesiask iferes vedrørede atallet af hypoglykæmier, som forsøgspersoere oplevede. Hertil er hierakiske modeller blevet beyttet. Ud fra de bayesiaske aalyse har det ikke været muligt at afgøre, hvilke medici der er bedst. På baggrud af metodere sammeligig af to stikprøver og lieær regressio har det vist sig, at der ikke er oge sigifikat forskel i HbA1c-differese mellem start- og slutværdier på de to medikameter. Ved hjælp af metode med hierakiske modeller sluttes, at der stort set ikke er oge forskel på de to medikameter i forhold til atallet af hypoglykæmier, som patietere oplevede. Projektrapportes idhold er frit tilgægeligt, offetliggørelse er tilladt med kildeagivelse. 3

Forord Dette projekt er udarbejdet i forbidelse med MAT3-semestret af gruppe G4-115 ved Istitut for Matematiske Fag på Aalborg Uiversitet i periode 2. september til 19. december 2008. Projektets eme er Statistisk modellerig og aalyse. Rapporte er delt op i e teoridel og e dataaalysedel. I teoridele behadles teori om Bayesiask statistik, og i dataaalysedele bruges teorie til aalyse af forsøgsdata, som er leveret af Novo Nordisk. Det forudsættes, at læsere har kedskab til basale begreber fra sadsylighedsteorie samt grudlæggede kedskab til R. Al R-kode ka fides på hjemmeside http://people. math.aau.dk/~mikl/mat3/source.zip. Nogle dele af rapporte er skrevet på egelsk, da e del af gruppe foretrækker at udtrykke sig på egelsk frem for på dask. Vi står aturligvis alle samme ide for hele rapporte. I rapporte vil kildehevisiger blive agivet ved afsit og sætiger, hvor vi i høj grad har været ispireret af de pågældede kilde. De dele af rapporte, hvor der ikke er agivet kilde avlig dataaalyse er det primært ege idéer eller vejlederes idéer, som er domierede. Vi vil gere takke Novo Nordisk for at måtte beytte deres data. Notatio og begreber Vi påpeger, at følgede otatio og begreber bliver beyttet i rapporte: Vi beytter geerisk otatio, dvs. pθ) og pϕ) er ikke de samme tæthedsfuktio p, me to forskellige tæthedsfuktioer p θ og p ϕ, hvor det fremgår af sammehæge, hvilke tæthedsfuktio der er tale om. Dee otatio avedes for at lette læselighede, da eksplicit betegelse af alle tæthedsfuktioer hurtigt vil blive uoverskueligt og krævede at læse. I forbidelse med ormalfordeliger opgives variase frem for stadardafvigelse. Det bemærkes, at præcisioe er de reciprokke værdi af variase. Når stikprøver omtales, er det uderforstået, at observatioere i stikprøve er uafhægige og esfordelte, med midre adet er agivet. Det aritmetiske geemsit for x = x 1, x 2,..., x ) er defieret som x := 1 x i.

Idhold 1 Idledig 9 I Teori 11 2 Bayesiask statistik 13 2.1 Sadsylighedsteori................................. 13 2.2 Bayesiask iferes.................................. 14 3 Normalfordelte stikprøver 17 3.1 Posterior for ormalfordelte stikprøver...................... 17 3.2 Sammeligig af to stikprøver........................... 24 3.3 Sufficiet observator................................. 28 4 Priors 31 4.1 Typer af prior..................................... 31 4.2 Maximum likelihood................................. 35 4.3 Fisher-iformatioe og Jeffreys prior....................... 36 4.4 Valg af prior...................................... 42 5 Regressiosaalyse af ormalfordelt data 45 5.1 Lieær regressio med é regressiosvariabel.................. 46 6 Markovkæder og MCMC-metoder 57 6.1 Markovkæder..................................... 57 6.2 Mote Carlo statistical methods........................... 61 II Dataaalyse 67 7 Itroduktio 69 7.1 Aalysebeskrivelser.................................. 70 7.2 Modelkotrol..................................... 74 8 Aalyse af HbA1c-differes 81 8.1 Normalfordelt stikprøve............................... 81 8.2 Sammeligig af to stikprøver........................... 86 8.3 Lieær regressio med é variabel......................... 91 9 Aalyse af atal hypoglykæmier 97 9.1 Poisso-fordelige som likelihood........................ 100 9.2 Koklusio....................................... 114 10 Koklusio 115 Litteratur 117 7

1 Idledig Diabetes er e alvorlig stofskiftesygdom, hvor kroppes celler har svært ved at optage ærig fra blodet i form af glukose sukker). Kroppe producerer hormoet isuli, som spiller e cetral rolle for celleres eve til at optage glukose. For diabetespatieter gælder det, at ete producerer de for lidt isuli, eller også virker isulie ikke godt ok. For raske persoer regulerer kroppe automatisk mægde af glukose i blodet via isuliproduktioe, me diabetes-patieter bliver ødt til at regulere mauelt med isulitilskud. Hvis blodsukkeret er for højt hyperglykæmi) eller for lavt hypoglykæmi), ka ma få ildebefidede og i værste tilfælde dø af det. Der fides to former for diabetes: type 1 og type 2. Type 1 diabetes er medfødt og arveligt. Disse patieter magler eve til at producere isuli. Type 2 diabetes er typisk et resultat af usud livsstil, hvor isuliproduktioe og/eller isulies effekt er svækket. I dette projekt laves e statistisk aalyse af et eksperimet udført af Novo Nordisk, hvor et af deres præparater sammeliges med et kokurrerede præparat. Eksperimetet omfatter ku type 2 diabetes-patieter. 9

Del I Teori 11

Idholdsfortegelse 2 Bayesiask statistik 13 2.1 Sadsylighedsteori................................. 13 2.2 Bayesiask iferes.................................. 14 3 Normalfordelte stikprøver 17 3.1 Posterior for ormalfordelte stikprøver...................... 17 3.2 Sammeligig af to stikprøver........................... 24 3.3 Sufficiet observator................................. 28 4 Priors 31 4.1 Typer af prior..................................... 31 4.2 Maximum likelihood................................. 35 4.3 Fisher-iformatioe og Jeffreys prior....................... 36 4.4 Valg af prior...................................... 42 5 Regressiosaalyse af ormalfordelt data 45 5.1 Lieær regressio med é regressiosvariabel.................. 46 6 Markovkæder og MCMC-metoder 57 6.1 Markovkæder..................................... 57 6.2 Mote Carlo statistical methods........................... 61

2 Bayesiask statistik I dette kapitel vil teorie for bayesiask iferes blive præseteret. Først vil der komme cetrale elemeter fra sadsylighedsteorie, hvorefter de bayesiaske tilgag vil blive præseteret. 2.1 Sadsylighedsteori Dette afsit, der bygger på [Olofsso, 2005], idledes med ogle basale omed vigtige resultater fra sadsylighedsteorie. Til at starte med præseteres love om total sadsylighed i e diskret og deræst i e kotiuert udgave. Derefter følger Bayes sætig. Sætig 2.1 De diskrete udgave af love om total sadsylighed). Lad X og Y være sammehørede diskrete stokastiske variable, hvor py k ) > 0 for alle k. Da gælder, at px) = px y k )py k ). k=1 Bevis. Ved at udytte defiitioe af de margiale sadsylighedstæthed og betiget sadsylighed, der kræver, at py k ) > 0 for alle k, fås, at px) = px, y k ) = px y k )py k ). k=1 k=1 Udtrykket k=1 px y k)py k ) vil af og til i stedet blive oteret som y px y)py). Sætig 2.2 De kotiuerte udgave af love om total sadsylighed). Lad X og Y være sammehørede kotiuerte stokastiske variable, hvor py) > 0 for alle y. Da gælder, at px) = px y)py)dy. Beviset for sætige forløber på samme måde som beviset for sætig 2.1. 13

Sætig 2.3 Bayes sætig). Lad X og Y være to diskrete, stokastiske variable. Da gælder for px) > 0 og py) > 0 for alle y, at py x) = py)px y) y py)px y). Bevis. Defiitioe af betiget sadsylighed giver, at der for px) > 0 og py) > 0 for alle y gælder, at py x) = px, y) px) = py)px y). 2.1) px) Ved brug af love om total sadsylighed sætig 2.1) fås, at px) = py)px y). y Dermed er py x) = py)px y) y py)px y). E direkte kosekves af Bayes sætig er det følgede korollar, som daer grudlaget for bayesiask statistik. Korollar 2.4 Proportioalitetsudgave af Bayes sætig). Lad X og Y være to stokastiske variable. Da gælder for px) > 0 og py) > 0 for alle y, at py x) py)px y). Bevis. Eftersom X = x er givet, er px) kostat, så fra 2.1) fås, at py x) py)px y). Bemærkig 2.5. Til ehver uormeret tæthed fides ku é ormeret tæthed. 2.2 Bayesiask iferes Fremgagsmåde for bayesiask iferes vil u blive præseteret. De geerelle idé vil blive geemgået, og herefter behadles de prædiktive fordelig kort. De teoretiske resultater i dette afsit bygger på [Lee, 2004, kap. 2]. 2.2.1 Fremgagsmåde De typiske fremgagsmåde for beyttelse af bayesiask iferes til at bestemme e ukedt kvatitet θ = θ 1,..., θ k ), k N ved hjælp af forhådsvide og ved hjælp af empiriske data x = x 1,..., x ), N er: 14

1. Først kostrueres e prior pθ), som er e tæthedsfuktio, der repræseterer a priorivide om θ, ide vi observerer vores data x. E prior udtrykker forhådsvide eller magel på samme dvs. usikkerhed) om de parameter, ma øsker vide om. Dee vide ka f.eks. være i form af atagelser, tidligere eksperimeter og ekspertudsag. 2. Deræst kostrueres e observatiosmodel px θ), som fortæller, hvorda de observerede data er fordelt i forhold til et fast θ. Hvis ma betragter px θ), hvor x er fast, så kaldes fuktioe for likelihood-fuktioe og beæves ofte lθ x) := px θ). I praksis agiver ma ofte observatiosmodelle/likelihood-fuktioe før priore. 3. Til sidst udledes posteriore pθ x) ud fra priore pθ) og likelihood-fuktioe px θ). De repræseterer a posteriori-vide efter eksperimetet. Korollar 2.4 giver, at pθ x) pθ)px θ), hvor x er fast. Posteriore ormeres derefter for at få e tæthed. Det er et vurderigsspørgsmål, hvilke prior og obervatiosmodel ma skal vælge. Vi vil seere i rapporte komme id på, hvor følsom modelle er over for specifikatioe af priore. 2.2.2 De prædiktive fordelig Ofte vil ma også være iteresseret i på baggrud af ogle observatioer at forudse, hvilke værdi ma vil få ud ved at getage eksperimetet. Defiitio 2.6 De prædiktive fordelig for é observatio). De prædiktive fordelig baseret på e ekelt observatio x er givet ved dees margiale tæthed, dvs. hvis θ er kotiuert, og px) = px θ)pθ)dθ, 2.2) px) = px θ)pθ), 2.3) θ hvis θ er diskret. Da de prædiktive fordelig er de margiale tæthedsfuktio for et datum x, siger de, hvilke værdi vi ifølge modelle ka forvete at få, år vi udfører et eksperimet. Dette ka beyttes til modelkotrol. Lad x være e værdi fra et udført eksperimet. H- vis px) er lille, betyder det, at de opåede værdi, ifølge de prædiktive fordelig var usadsylig. Da de prædiktive fordelig udelukkede afhæger af priore og observatiosmodelle, ka dette være e idikatio på, at modelle er dårlig, dvs. at modelle stemmer dårligt overes med virkelighede. For flere observatioer fås dee defiitio. Defiitio 2.7 De prædiktive fordelig for flere observatioer). Lad x +1 være e ekstra observatio baseret på stikprøve x = x 1, x 2,..., x ), så der givet θ gælder, at x +1 og x i følger samme fordelig, og x +1 og x er uafhægige. Da er de prædiktive fordelig for x +1 givet ved px +1 x) = px +1 θ)pθ x)dθ. 15

Dee defiitio er foruftig, eftersom p x +1 x) = = = p x +1, θ x) dθ p θ x) p x +1 θ, x) dθ p θ x) p x +1 θ) dθ. 16

3 Normalfordelte stikprøver 3.1 Posterior for ormalfordelte stikprøver I dette afsit, der er baseret på [Lee, 2004, kap. 2], arbejdes der med data fra ormalfordelte stikprøver. Først ses to typer af iferes, hvor ma keder heholdsvis varias og middelværdi. Set fra et praktisk syspukt er disse ikke så iteressate. Derefter afsluttes afsittet med e sætig, hvor både middelværdi og varias er ukedte. Der idledes med e stikprøve med é observatio, hvorefter stikprøver med observatioer betragtes. 3.1.1 Ukedt middelværdi og kedt varias Stikprøve med é observatio Sætig 3.1. Lad θ R være ukedt, hvor θ Nµ 0, σ 0 ) med µ 0 R og σ 0 > 0 givet. Lad σ > 0 være givet og atag, at x er data, hvor x θ Nθ, σ). Da gælder, at posterior er θ x Nµ 1, σ 1 ), hvor σ 1 = 1 + 1 ) 1 og µ σ 0 σ 1 = σ 1 µ 0 + σ 1 σ 0 σ x. Bevis. Først idføres 1 σ 1 := 1 σ 0 + 1 σ µ 1 := σ 1 σ 0 µ 0 + σ 1 σ x. 17

Deræst betragtes posterior, således at pθ x) pθ)px θ) exp 1 ) θ µ 0 ) 2 exp 1 ) x θ)2 2σ 0 2σ = exp 1 θ 2 2θµ 0 + µ 2 0 2σ ) 1 ) 0 2σ x2 2xθ + θ 2 ) exp 1 θ 2 2θµ 0 ) 1 ) 2σ 0 2σ 2xθ + θ2 ) = exp 1 { θ 2 2θµ 0 2xθ }) 2 σ 0 σ 0 σ + θ2 σ = exp 1 { 1 θ 2 + 1 ) µ0 2θ + x )}) 2 σ 0 σ σ 0 σ = exp 1 { θ 2 1 µ0 2θ + x )}) 2 σ 1 σ 0 σ = exp 1 { θ 2 σ1 2θ µ 0 + σ )}) 1 2σ 1 σ 0 σ x = exp 1 { } ) θ 2 2θµ 2σ 1 1 exp 1 { } ) θ 2 2θµ 2σ 1 + µ 2 1 1 = exp 1 ) θ µ 2σ 1 ) 2. 1 Dermed er det vist, at posteriorfordelige er θ x Nµ 1, σ 1 ). Dermed gælder, at posteriorpræcisioe er summe af priorpræcisioe og datapræcisioe, samt at posteriormiddelværdie er et vægtet geemsit af priormiddelværdie og data, hvor vægtige sker efter prior- og datapræcisioe. Sidstævte skyldes, at µ 1 = σ 1 µ 0 + σ 1 1 σ 0 σ x = σ0 µ 1 0 + σ 1 1 σ 1 σ 1 x, hvor 1 σ 0 1 σ 1 + 1 σ 1 σ 1 = 1 σ 0 + 1 σ 1 σ 1 = 1 σ 1 1 σ 1 = 1. Som prædiktiv fordelig i dette tilfælde ka det udyttes, at x = x θ) + θ, da 2.2) og 2.3) ka være besværlige at udrege i praksis. Betragt x θ) θ. Differese af ormalfordelte variable er ormalfordelt med parametree E [x θ) θ] = E [x θ] E [θ θ] = θ θ = 0, Var [x θ) θ] = Var [x θ] Var [θ θ] = ϕ 0 = ϕ. Summe af de ormalfordelte udtryk x θ) θ og θ giver også e ormalfordelig med parametree Dermed er x Nµ 0, ϕ + ϕ 0 ). E [x θ) θ + θ] = E [x θ) θ] + E [θ] = 0 + µ 0 = µ 0, Var [x θ) θ + θ] = Var [x θ) θ] + Var [θ] = ϕ + ϕ 0. 18

Stikprøve med observatioer Sætig 3.1 ka udvides til uafhægige, esfordelte observatioer i stedet. Sætig 3.2. Lad θ R være ukedt, hvor θ Nµ 0, σ 0 ) med µ 0 R og σ 0 > 0 givet. Lad σ > 0 være givet. Lad x = x 1, x 2,..., x ). Hvis x i θ Nθ, σ) for i = 1, 2,..., og x i ere er uafhægige, så gælder, at posterior er hvor Ydermere gælder, at σ 1 = θ x Nµ 1, σ 1 ), 1 + ) 1 og µ σ 0 σ 1 = σ 1 µ 0 + σ 1 σ 0 σ x. x θ N θ, σ ) Bevis. Først idføres 1 σ 1 := 1 σ 0 + σ, µ 1 := σ 1 σ 0 µ 0 + σ 1 σ x. Grudet uafhægighed gælder, at posterior er pθ x) pθ)px θ) = pθ)px 1 θ)px 2 θ) px θ) = pθ) 2πσ) 1 2 exp 1 ) 2σ x i θ) 2 pθ) exp 1 ) 2σ x i θ) 2 exp 1 ) θ µ 0 ) 2 2σ 0 = exp 1 θ µ 0 ) 2 1 2σ 0 2σ = exp 1 θ 2 2θµ 0 + µ 2 0 2σ 0 exp 1 ) 2σ x i θ) 2 ) x i θ) 2 ) 1 2σ exp 1 ) θ 2 2θµ 0 1 2σ 0 2σ { = exp 1 θ 2 2θµ 0 2xi θ + 2 σ 0 σ 0 σ xi 2 2x i θ + θ 2)) 2x i θ + θ 2)) ) }) + θ2 σ 19

{ = exp 1 θ 2 + θ2 2 σ 0 σ 2θµ 0 + σ 0 { ) = exp 2θ 1 1 θ 2 + 2 σ 0 σ = exp 1 { } ) θ 2 2θµ 2σ 1 1 exp 1 { } ) θ 2 2θµ 2σ 1 + µ 2 1 1 = exp 1 ) θ µ 2σ 1 ) 2 1 µ 0 σ 0 + }) 2x i θ σ )}) x i σ Dermed er det vist, at θ x Nµ 1, σ 1 ). Omskrivig af σ 1 og µ 1 giver slutteligt det øskede. Da x θ er e liearkombiatio af x i θ, som er ormalfordelte, så er x θ også ormalfordelt. Det ses, at E [x θ] = E Var [x θ] = Var [ 1 [ 1 x i θ ] x i θ = 1 ] E [x i θ] = 1 θ = θ, = 1 2 Var [x i θ] = 1 2 σ = σ. Ergo er x θ Nθ, ϕ ). 3.1.2 Kedt middelværdi og ukedt varias Sætig 3.3. Lad µ R være givet, og lad ϕ > 0 være ukedt, hvor priore ϕ S 0 χκ 2 med S 0 > 0 og κ > 0 givet. Lad x = x 1, x 2,..., x ). Hvis x i ϕ Nµ, ϕ) for i = 1, 2,..., og x i ere er uafhægige, så gælder, at posterior er ϕ x S + S 0 )χ 2 +κ hvor S = x i µ) 2. Bevis. Lad S := x i µ) 2. Først betragtes observatiosmodelle uder udyttelse af uafhægighed, hvorved der fås, 20

at px ϕ) = 2πϕ) 1 2 exp 1 = 2πϕ) 2 exp ϕ 2 exp 1 2ϕ 1 2ϕ = ϕ 2 exp S ). 2ϕ ) 2ϕ x i µ) 2 x i µ) 2 ) x i µ) 2 ) Da ϕ S 0 χ 2 κ og dermed fås a posteriori, at fås fra [Lee, 2004, A.5, s. 288], at pϕ) ϕ κ 2 1 exp pϕ x) pϕ)px ϕ) hvoraf det følger, at ϕ x S + S 0 )χ 2 +κ. ϕ +κ 2 1 exp S ) 0 2ϕ S 0 + S 2ϕ ), 3.1.3 Ukedt middelværdi og ukedt varias I de følgede sætig atages, at både middelværdi og varias er ukedte, hvormed de er mere avedelig i praksis ed de foregåede. Sætige atager, at θ og ϕ er uafhægige, således at priore er pθ, ϕ) = pθ)pϕ). Der atages ydermere, at der itet vides om middelværdie, dvs. der bruges e uegetlig prior, således at pθ) 1 for θ R. Tilsvarede beyttes pϕ) ϕ 1 for ϕ > 0, hvilket fås af at atage, at log ϕ) er ligefordelt, som beskrevet i [Lee, 2004, s. 50]. Der er ydermere et krav om midst to observatioer dvs. at 2. Ituitivt set giver kravet meig, da der er to ukedte, der skal estimeres både middelværdie og variase). Før selve sætige kommer, er der brug for følgede udsag, der vil blive brugt flere steder i rapporte. Udsag 3.4. Lad x = x 1, x 2,..., x ) være e stikprøve. Da gælder for a R, at x i a) 2 = x i x) 2 + x a) 2. Bevis. Ved direkte udregig fås, at x i a) 2 = = = = x i x) + x a)) 2 ) x i x) 2 + x a) 2 + 2 x i x) x a) x i x) 2 + x i x) 2 + x a) 2, x a) 2 + 2 x a) x i x) 21

da hvilket afslutter beviset. x i x) = x i x = x i x i = 0, Sætig 3.5. Atag, at x i θ, ϕ Nθ, ϕ) for i = 1, 2,..., er uafhægige. Hvis 2 og pθ, ϕ) = 1, hvor θ R og ϕ > 0, ϕ så er og ydermere er ϕ x Sχ 2 1 og θ x, ϕ N x, ϕ ), θ x s x t ν for ν = 1, S = s 2 = S ν. x i x) 2 og Bevis. Idfør idledigsvist S := Udreges likelihood fås vha. udsag 3.4, at x i x) 2 og x = x 1, x 2,..., x ). lθ, ϕ x) = px θ, ϕ) = px 1 θ, ϕ)px 2 θ, ϕ) px θ, ϕ) ϕ 1 2 exp 1 ) 2ϕ x i θ) 2 ) = ϕ 2 exp 1 2ϕ x i θ) 2 )) = ϕ 2 exp 1 x 2ϕ i x) 2 + x θ) 2 = ϕ 2 exp 1 S + x θ) 2)) 2ϕ = ϕ 2 exp S ) ) x θ)2 exp. 2ϕ 2 ϕ Pr. atagelse er pθ, ϕ) ϕ 1, hvor θ R og ϕ > 0. Dermed er posterior givet ved pθ, ϕ x) pθ, ϕ)lθ, ϕ x 1, x 2,..., x ) = ϕ 2 1 exp S ) ) x θ)2 exp. 2ϕ 2 ϕ 22

Da pθ, ϕ x) = pθ x, ϕ)pϕ x), betragtes de to faktorer u hver for sig. Først atages, at ϕ er givet, hvorved der fås, at pθ x, ϕ) ϕ 2 1 exp S ) ) x θ)2 exp 2ϕ 2 ϕ ) θ x)2 exp, 2 ϕ og dermed fås, at θ x, ϕ N x, ϕ ), 3.1) hvilket er veldefieret for θ R og ϕ > 0. Det atages u, at θ er givet, hvorved der fås, at pϕ x, θ) ϕ 2 1 exp S ) ) x θ)2 exp. 2ϕ 2 ϕ De margiale tæthed pϕ x) ka fås ved at itegrere θ ud. Derved fås, at pϕ x) = = pϕ x, θ)dθ ϕ 2 1 exp S 2ϕ = ϕ 2 + 1 2 1 exp S 2ϕ ϕ 2 + 1 2 1 exp S 2ϕ = ϕ 1 2 1 exp S ) 2ϕ = ϕ 1 2 1 exp S 2ϕ ) exp ) ) ), ) x θ)2 dθ 2 ϕ ) ϕ 1 x θ)2 2 exp dθ 2 ϕ ) 2π) 1 2 1 2 ϕ 1 x θ)2 2 exp dθ 2π ϕ ) 1 2 exp 2 ϕ ) x θ)2 dθ hvor det sidste lighedsteg fås af, at itegrade er tæthede for e ormalfordelig og derfor itegrerer til é. Dermed fås, at ϕ x Sχ 2 1, 3.2) hvilket er veldefieret, år 2 som ataget), så 1 2 1, hvilket er kravet til χ 2 - fordelige. Disse resultater ka omskrives til e mere stadardiseret form. Fordelige for θ givet x og ϕ ka ud fra 3.1) trasformeres til stadardormalfordelige, således at θ x ϕ x, ϕ N0, 1). Det ses, at dee trasformatio er uafhægig af både ϕ og x, og dermed fås a posteriori, at θ x ϕ x N0, 1). 2 ϕ 23

Idfør u ν := 1, s 2 := S ν, 3.3) := θ x, ϕ Λ := s 2 ϕ og t := θ x s. Bemærk, at t = θ x s ϕ = θ x s 2 ϕ ϕ ϕ = θ x ϕ s 2 ϕ = Λ. Fra før haves, at x N0, 1) og dermed uafhægig af Λ x. Fra 3.2) haves, at Λ x s 2 Sχ 2 ν = Sν Sχ 2 ν 1 = νχ 2 = ν χ 2 ν ν. Samlet giver dette, at t følger t ν -fordelige også kaldet Studets t-fordelig ) med ν frihedsgrader se [Lee, 2004, A.8, s. 291] hvilket oteres som t x t ν. 3.2 Sammeligig af to stikprøver Ofte har ma to stikprøver, som ma øsker at sammelige. Dette afsit hadler om, hvorda ma ka sammelige to ormalfordelte stikprøver. Det er baseret på [Lee, 2004, kap. 5.]. I hele dette afsit lader vi x i λ, ϕ Nλ, ϕ) for i = 1, 2,..., m og y j µ, ψ Nµ, ψ) for j = 1, 2,..., være to uafhægige ormalfordelte stikprøver. Normalt vil det være ma øsker at udersøge værdie af. δ := λ µ, Hvis ma har parrede data, er m =, og ved at sætte w i := x i y i for alle i = 1, 2,..., fås jf. [Olofsso, 2005, prop. 3.9.4, s. 219], at w i δ, ω Nδ, ω), hvor ω = ϕ + ψ og i = 1, 2,...,, og dermed er ma tilbage i det velkedte tilfælde, der blev behadlet i afsit 3.1.3. Bemærk også, at ma ikke behøver at atage, at de to stikprøver er uafhægige, me blot behøver 24

at kræve, at de parvist er uafhægige: med adre ord skal x i, y i ) λ, µ, ϕ, ψ N 2, ) være uafhægige for i = 1, 2,...,. Såfremt ma ikke har parrede data, er det muligt, at m =, me ma har dog stadig mulighed for at aalysere δ, hvilket u vil blive gjort. Først idføres e fælles otatio, som vil blive brugt i reste af afsittet. Lad S x := ν x := m 1 og ν y := 1, m x i x) 2 og S y := s 2 x := S x v x og s 2 y := S y ν y. y i y) 2, 3.2.1 Kedte variaser Hvis variasere er kedte, og λ og µ har uafhægige priors, så pλ) 1 og pµ) 1, så følger det fra afsit 3.1.3, at a posteriori, er λ x N x, ϕ ) og m µ y N y, ψ ), og altså er λ og µ uafhægige a posteriori. Da δ dermed er fordelt som e lieær trasformatio af ormalfordeliger, giver dette slutteligt jf. [Olofsso, 2005, s. 219], at δ x, y N x y, ϕ m + ψ ). 3.2.2 Ukedte variaser Når variasere er ukedte, er det mere kompliceret ed år de er kedte. Der er to tilfælde: ete ved vi, at ϕ = ψ, eller også ved vi itet om deres idbyrdes forhold. Først behadles tilfældet, hvor ϕ = ψ. Es variaser Atag, at ϕ = ψ. Valget af prior er lavet aalogt til beskrivelse i afsit 3.1.3 og giver følgede situatio. Sætig 3.6. Hvis der a priori haves, at for ukedte λ, µ R og ϕ > 0, så er hvor pλ, µ, ϕ) 1 ϕ δ x y) s 2 m 1 + 1 ) ν := ν x + ν y, S := S x + S y, s 2 := S ν. x, y t ν, 25

Bevis. A posteriori fås grudet uafhægighed, vha. udsag 3.4, og da ν = ν x + ν y = m + 2, at pλ, µ, ϕ x, y) = pλ, µ, ϕ)px, y λ, µ, ϕ) = pλ, µ, ϕ)px λ, ϕ)py µ, ϕ) )] [ )] [ϕ 1 m2 exp 1 m ϕ 2ϕ x i λ) 2 ϕ 2 exp 1 2ϕ y i µ) 2 [ m ]) = ϕ m+ 2 1 exp 1 x 2ϕ i x) 2 + mx λ) 2 + y i y) 2 + y µ) 2 = ϕ ν+2 2 1 exp 1 [S x + mx λ) 2 + S y + y µ) 2]) 2ϕ = ϕ 2 ν 1 exp 1 ) ) ) 2ϕ S ϕ 12 mx λ)2 exp ϕ 12 y µ)2 exp 2ϕ 2ϕ ϕ ν 2 1 exp 1 ) ) ) ϕ ) 1 2ϕ S 2 x λ)2 ϕ ) 1 2 y µ)2 exp m 2 ϕ exp }{{} m 2 ϕ, }{{}}{{} ϕ S Sχ 2 ν λ ϕ,x Nx, ϕ m ) µ ϕ,y Ny, ϕ ) så givet ϕ, er λ og µ uafhægige. Dermed er δ x, y, ϕ N x y, ϕ m + ϕ ) = N x y, ϕ m 1 + 1) ). Lad u t := δ x y) s 2 m 1 + 1 ). Da t = δ x y) ϕm 1 + 1 ) s 2 ϕ, fås at t er e brøk, hvor tællere givet ϕ, x, y er stadardormalfordelt, og dermed uafhægig af ϕ givet x og y. Da er så ϕ x, y Sχ 2 ν = νs 2 χ 2 ν, ϕ 1 x, y 1 νs 2 χ2 ν, s 2 ϕ x, y 1 ν χ2 ν, og dermed er t x, y t ν. Forskellige variaser Tilfældet, hvor variasere både er ukedte og evt. forskellige, kaldes Behres-Fisherproblemet. Valget af prior er lavet aalogt til beskrivelse i afsit 3.1.3. 26

Sætig 3.7. Hvis der a priori haves, at pλ, µ, ϕ, ψ) 1 ϕ for ukedte λ, µ R, ϕ > 0 og ψ > 0, så er δ x y) T := s 2 x/m + s 2 x, y BFν x, ν y, θ), y/ 1 ψ hvor θ er bestemt således, at taθ) = s 2 x/m s 2 y/ og 0 < θ < π 2. Bevis. A posteriori fås grudet uafhægighed og vha. udsag 3.4, at pλ, µ, ϕ, ψ x, y) 1 ϕ px λ, ϕ) 1 py µ, ψ) ψ [ϕ 1 m2 exp 1 m ϕ 2ϕ x i λ) 2 )] 1 [ψ 2 exp 1 ψ 2ψ ) = ϕ m 2 1 exp 1 m 2ϕ x i λ) 2 ψ 2 1 exp 1 2ψ [ m ]) = ϕ m 2 1 exp 1 2ϕ i x) x 2 + mx λ) 2 [ ]) ψ 2 1 exp 1 2ψ i y) y 2 + y µ) 2 = ϕ m 2 1 exp 1 2ϕ = ϕ νx 2 1 exp } {{ } ϕ S x S x χ 2 νx [ S x + mx λ) 2]) ψ 2 1 exp 1 ) ) 2ϕ S x ϕ 1 x λ)2 2 exp 2 ϕ m }{{} λ ϕ,x Nx, ϕ m ) ψ νy 2 1 exp 1 ) ) 2ψ S y ψ 1 y µ)2 2 exp }{{} 2 ψ, }{{} ψ S y S y χ 2 ) νy µ ψ,y N y, ψ 1 2ψ y i µ) 2 )] y i µ) 2 ) [S y + y µ) 2]) hvilket giver, at T x := λ x s 2 x /m = λ x ϕ/m s 2 x ϕ x t ν x og T y := µ y s 2 y/ = µ y ψ/ s 2 y ψ y t νy. Da taθ) = s 2 x/m lader vi s 2 y/ s siθ) = 2 x/m s 2 x/m + s 2 y/ og cosθ) = s 2 y / s 2 x/m + s 2 y/. 27

Dermed er T = λ µ) x y) s 2 x/m + s 2 y/ = λ x s 2 x/m + s 2 y/ µ y s 2 x/m + s 2 y/ = λ x s 2 x /m siθ) µ y cosθ) s 2 y/ = T x siθ) T y cosθ), og dermed er T x, y BFν x, ν y, θ). 3.3 Sufficiet observator Dette afsit itroducerer begrebet sufficiet observator og er baseret på [Lee, 2004, afsit 2.9]. Defiitio 3.8 Observator). Lad x = x 1,..., x ) være data, f : R R k være e fuktio og t = f x). Så kaldes t e observator. Ifølge defiitioe er e obervator e vektor, som er bereget ud fra data, og som ka bruges til at observere dvs. få iformatioer om) data. Eksempler på observatorer er middelværdi, varias og fraktiler. I praksis er obervatorer oftest skalarer, me de ka pricipielt godt være vektorer. Betragt e situatio, hvor ma øsker at udersøge de stokastiske variabel θ, hvor ma har data x og observatore t. Da t ku afhæger af x, gælder px θ) = px, t θ). Jævfør defiitioe af betiget sadsylighed fås, at px θ) = px, t θ) = pt θ)px t, θ) 3.4) Somme tider har e observator de særlige egeskab, at px t, θ) ikke afhæger af θ. Defiitio 3.9 Sufficiet observator). Lad θ være e stokastisk vektor, x være data og t e observator. Hvis px t, θ) = px t), så kaldes t e sufficiet observator for θ. Dermed gælder, at hvis t i oveståede situatio er e sufficiet observator, så er px θ) = pt θ)px t). 3.5) Eksempel 3.10. Fra sætig 3.5 omhadlede e ormalfordelt stikprøve med ukedt middelværdi og ukedt varias fås, at de empiriske middelværdi x og de empiriske varias s 2 er sufficiete for θ og ϕ. Det skyldes, at Heraf fremgår det, at θ x, ϕ N x, ϕ ) og px x, S, θ, ϕ) = px x, S), ϕ x Sχ 2 1. eftersom θ og ϕ ka udreges ud fra x og S. Det ses i 3.1) og 3.2), at x og S er sufficiete til θ og ϕ, og da der fides e bijektiv afbildig mellem S og s 2 ligig 3.3)), fås at x og s 2 er sufficiete. 28

Sætig 3.11 Neymas faktoriserigssætig). Lad θ R være e stokastisk variabel, x R være data og t R k e observator. Der gælder, at t er sufficiet for θ, hvis og ku hvis der fides fuktioer f : R k+1 R og g : R R, således at px θ) = f t, θ)gx). 3.6) Bevis. I beviset atages, at der er tale om kotiuerte fordeliger. Beviset for diskrete fordeliger er tilsvarede. Atag, at t er sufficiet for θ. Lad f t, θ) = pt θ) og gx) = px t). Så gælder ifølge 3.5), at px θ) = pt θ)px t) = f t, θ)gx). Atag deræst, at der fides fuktioer f og g, således at ligig 3.6) er opfyldt og itegrer over {x R tx) = t}, dvs. tx)=t px θ)dx = tx)=t pt θ) = f t, θ)gt), f t, θ)gx)dx hvor Gt) = tx)=t gx)dx. Itegralet til vestre fås ved at idse, at hvis ma itegrerer over alle x, hvor tx) = t, så får ma sadsylighedsmasse, som svarer til sadsylighede for at få t. Det medfører edvidere, at Idsat i ligig 3.6) fås Da t er e observator, fås fra ligig 3.4), at og edvidere fra ligig 3.7), at f t, θ) = pt θ) Gt). px θ) = pt θ) gx) Gt). 3.7) px t, θ) = px θ) pt θ), px t, θ) = gx) Gt). Da højre side af lighedsteget ikke afhæger af θ, gør vestre side heller ikke. Dermed er px t, θ) = px t), og så er t sufficiet for θ jf. defiitio 3.9. 29

4 Priors 4.1 Typer af prior I dette afsit, der bygger på [Lee, 2004, kap. 2], vil vi gå i dybde med forskellige måder at vælge si prior. Hvilke metode, ma skal gå ud fra, afhæger af situatioe. 4.1.1 Uegetlig prior Fra sætig 3.2 omhadlede e stikprøve med ormalfordelte observatioer med ukedt middelværdi og kedt varias vides, at posterior er ormalfordelt, dvs. θ x Nθ 1, ϕ 1 ). Hvis prior-variase ϕ 0 er stor i forhold til ϕ/, så vil ϕ 1 = 1 + ) 1 ϕ ϕ 0 ϕ og θ 1 = ϕ 1 ϕ x + ϕ 1 θ 0 x. 4.1) ϕ 0 Det betyder, at posterior ærmer sig Nx, ϕ ). Dette gælder ku approksimativt påær i det tilfælde, hvor ma lader ϕ 0 gå mod uedelig, hvormed der gælder lighed i begge ligiger i 4.1). Dette ville dog betyde, at fordelige for priore er Nθ 0, ), som er e ligefordelig over hele de reelle akse, eftersom pθ) = lim ϕ 0 1 2πϕ0 exp 1 ) θ θ 0 ) 2 = 0, θ R. 2ϕ 0 E ligefordelt prior på hele de reelle akse er ikke e egetlig tæthedsfuktio, eftersom de ikke ka ormeres. Alligevel ka det være yttigt at avede uegetlige priors, dvs. priors hvor pθ)dθ =, eftersom det stadig ka resultere i e veldefieret posterior. Dette ses i oveståede eksempel, hvor posteriorfordelige for e stikprøve med ukedt middelværdi og kedt varias bliver Nx, ϕ ), år der vælges e uegetlig prior. Ma skal blot huske at tjekke, hvorvidt posterior er veldefieret, år ma aveder e uegetlig prior. 4.1.2 Lokalt ligefordelt prior E lokalt ligefordelt prior pθ) er e prior, som er tilærmelsesvist kostat på det iterval, hvor likelihoode er væsetlig, og som ikke tager særligt store værdier ude for dette 31

iterval. Dermed fås, at pθ x) pθ)lθ x) lθ x), hvor det sidste proportioalitetsteg gælder approksimativt. E lokalt ligefordelt prior gør det muligt at have e prior, der afspejler maglede forhådsvide samtidig med, at de er egetlig. Bayes postulerede [Lee, 2004, s. 43-44], at i de situatio, hvor vi har e ukedt sadsylighed θ 0, 1) og ige forhådsvide, skal e lokalt ligefordelt prior beyttes for at afspejle, at vi itet ved. Dette er dog ikke kosistet, hvilket fremgår ved at betragte pθ) = 1, θ 0, 1). Lad ϕ = 1 θ, hvormed der ved brug af trasformatiossætige [Olofsso, 2005, prop. 2.3.7, s. 96] fås, at pϕ) = pθ) dθ dϕ = pθ) 1 ϕ 2 = 1 ϕ 2, ϕ 1, ), hvor itervallet for ϕ kommer fra trasformatioe af θ, og at θ 0, 1). Dette er e tæthed, idet 1 d [ 1 dϕ = lim dϕ = lim 1 ] d = lim 1 1 ) = 1. 1 ϕ2 d 1 ϕ2 d ϕ 1 d d Me hvis vi itet ved om θ, ved vi heller ikke oget om ϕ, hvorfor priore burde være ligefordelt, hvilket ikke er tilfældet. 4.1.3 Kojugeret prior Til at starte med beskrives idée bag kojugerede priors og deræst følger et eksempel. I sætig 3.2, der hadler om e stikprøve med ukedt middelværdi og kedt varias, er e af atagelsere, at priore er ormalfordelt. Dee atagelse medfører, at posterior bliver ormalfordelt, hvilket er e fordelig, der er bekvem at rege med eksempelvis er det let at fide 95% CPI i e ormalfordelig. Muligvis vil es forhådsvide om dataee ikke være beskrevet fuldstædig præcist af e ormalfordelt prior, me hvis ormalfordelige er e god approksimatio, ka det være foruftigt at vælge dee for dermed at få e pæ posteriorfordelig. Dette er etop ræsoemetet bag kojugerede priors. Defiitio 4.1 Kojugeret familie). Lad Π betege e klasse af veldefierede tætheder. Hvis der for alle priortætheder pθ) Π gælder, at pθ x) Π for alle x, så er Π e kojugeret familie. Dee defiitio er imidlertid ikke etydigt. Atag, at Π er e kojugeret familie, pθ) Π, og qθ) er e ikke-egativ fuktio, således qθ)pθ) er itegrabel. Da er Ψ = {tætheder qθ)pθ) p Π} 4.2) også e kojugeret familie, hvilket skyldes, at for e prior pθ) Ψ gælder der om posterior, at pθ x) pθ) lθ x) qθ)pθ) lθ x). Ifølge 4.2) er pθ) Π, så fra defiitio 4.1 fås, at pθ) lθ x) Π. Dermed gælder, at pθ x) Ψ. Eftersom defiitioe ikke er etydig, betyder det, at der ikke er et etydigt valg af prior, så det er ikke et ordetligt geerelt pricip at vælge prior ud fra. 32

Eksempel 4.2. Fra sætig 3.2 ved vi, at hvis θ Nµ 0, σ 0 ), så er θ x Nµ 1, σ 1 ). Ud fra det ka vi kokludere, at Π = {Nµ, σ) µ R, σ > 0} er e kojugeret familie. Eksempel 4.3. Fra sætig 3.3 vedrørede e stikprøve med kedt middelværdi og ukedt varias vides, at såfremt ϕ S 0 χκ 2, er ϕ x S + S 0 )χ 2. Dermed fås, at +κ Π = {Tχ 2 κ T > 0, κ > 0} er e kojugeret familie. Bemærk, at det ikke altid er muligt at vælge e kojugeret prior, som på tilfredsstillede vis approksimerer de pågældede forhådsvide. I sådae tilfælde er der ikke oge let udvej. Ekspoetiel familie Ekspoetielle familier gør det muligt at defiere e etydig kojugeret familie. Defiitio 4.4 d-dimesioel ekspoetiel familie). E tæthed er fra de d-dimesioelle ekspoetielle familie, såfremt de ka skrives på forme px θ) = gx)hθ) exp {tx) ψθ)}, 4.3) hvor tx), ψθ) R d. Dette er ækvivalet med, at likelihoode for x = x 1, x 2,..., x ), hvor x i for i = 1, 2,..., er uafhægige og har tæthed 4.3), er på forme lθ x) hθ) exp tx i ) ψθ) ). Af Neymas faktoriserigssætig sætig 3.11) fås, at tx) er sufficiet for θ givet x, mes tx i) er sufficiet for θ givet x. Ækvivalese i defiitio 4.4 følger af, at hvis x = x 1, x 2,..., x ) givet θ er e stikprøve med tæthed 4.3), så er lθ x) = px 1, x 2,..., x θ) = = i=i gx i )hθ) exp tx i ) ψθ)) gx i ) hθ) exp ) ) hθ) exp tx i ) ψθ) ) tx i ) ψθ). I dette tilfælde er der e etydig defiitio af e kojugeret familie: { } Π = pθ) hθ) ν exp τ ψθ)) ν > 0, τ R d valgt, så pθ) er e tæthed. 4.4) 33

Det ses, at dette er e kojugeret familie ved at tage e prior fra Π og vise, at posterior også ligger i Π. Lad pθ) Π, så er pθ x) pθ)lθ x) hθ) ν exp τ ψθ)) hθ) exp = hθ) ν+ exp = hθ) ν+ exp τ ψθ) + τ + tx i ) tx i ) ψθ) ) tx i ) ψθ) ) ψθ) hvoraf det fremgår, at pθ x) er på de øskede form. Derudover er det e tæthed, eftersom pθ) er e tæthed. Heraf ka det kokluderes, at pθ x) Π. Eksempel 4.5. Vi tager i dette eksempel udgagspukt i sætig 3.5 og lader x θ, ϕ Nθ, ϕ), hvor både θ og ϕ er ukedte. Da fås, at px θ, ϕ) = 1 exp 1 ) x θ)2 2πϕ 2ϕ = 1 exp 1 ) 2πϕ 2ϕ x2 2xθ + θ 2 ) } = exp 2ϕ θ2 exp x2 2πϕ 2ϕ + θ ) ϕ x = hθ, ϕ) exp x, x 2) θ ϕ, 1 )) 2ϕ ) = hθ, ϕ) exp tx) ψθ, ϕ)), hvor hθ ϕ) = exp 2ϕ θ2, tx) = x, x 2) og ψθ, ϕ) = 2πϕ ) ) θϕ, 2ϕ 1., ) Det betyder, at px θ, ϕ) tilhører de 2-dimesioelle ekspoetielle familie. Eksempel 4.6. Dette eksempel viser, at 4.4) leder til samme kojugerede familie for e stikprøve med ukedt middelværdi og kedt varias, som de vi fik i eksempel 4.2, hvor defiitio 4.1 blev avedt. Atag, at x i θ Nθ, σ). Først udreges likelihoode, hvor x = x 1, x 2,..., x ): lθ x) = px 1 θ)px 2 θ) px θ) 1 = exp x i θ) 2 ) 2πσ 2σ ) 1 ) ) = exp θ2 exp x2 i 2x i θ 2πσ 2σ 2σ ) exp 2σ θ2 2πσ = hθ) exp exp tx i )ψθ) θ x i σ ), ) for ) hθ) = exp 2σ θ2, tx i ) = x i og ψθ) = θ 2πσ σ. 34

Dermed fremgår af defiitio 4.4, at lθ x) tilhører de 1-dimesioelle ekspoetielle familie. Således giver 4.4), at de etydige kojugerede familie er ) Π = pθ) exp ν 2σ θ2 exp τ θ ) ν > 0, τ R valgt, så pθ) er e tæthed 2πσ σ. Dee mægde ka udtrykkes på e ade måde ved at omskrive pθ). Bemærk, at variase σ er kedt, så ved at sætte τ = µν fås, at ) pθ) exp ν 2σ θ2 2πσ exp θ2 2 σ + τ θ ) ν σ = exp θ2 2 σ ν exp θ2 2 σ ν = exp 1 2 σ ν exp 1 2 σ ν + µθ σ ν ) + µ2 2 σ ν exp τ θ ) σ µθ σ ν ) θ 2 + µ 2 2θµ θ µ) 2 ) ) ) Dvs. pθ) Nθ, σ ν ), hvormed Π er mægde af alle ormalfordeliger, eftersom der ka reguleres på θ og σ. Dermed haves de samme kojugerede familie som i eksempel 4.2. 4.2 Maximum likelihood Dette afsit bygger på [Lee, 2004, kap. 3], og heri behadles begrebere maximum likelihood og maximum a posteriori. Defiitio 4.7 Maximum likelihood estimat). Lad x være e stokastisk vektor og θ e stokastisk variabel. Maximum likelihood estimatet MLE) beteges ˆθ og er de værdi af θ, som maksimerer likelihood-fuktioe lθ x) forudsat at et sådat maksimum eksisterer og er etydigt. På tilsvarede vis defieres maximum af posterior-fuktioe. Defiitio 4.8 Maximum a posteriori). Lad x være e stokastisk vektor og θ e stokastisk variabel. Maximum a posteriori estimatet MAP) er de θ-værdi, der maksimerer posteriorfuktioe pθ x) forudsat at et sådat maksimum eksisterer og er etydigt. Bemærk, at såfremt priore er ligefordelt, er MAP = MLE, eftersom der i dette tilfælde gælder, at pθ x) 1 lθ x) lθ x). Hvis likelihood-fuktioe domierer priore, er MAP MLE, da maksimum for posteriorfuktioe så vil ligge tæt på maksimum for likelihood, idet priores idflydelse på posteriorfuktioe er lille. 35

Sætig 4.9 MLE for e trasformatio af θ). Lad θ være e stokastisk variabel og lad ψ = gθ), hvor g er ijektiv. Da er ˆψ = g ˆθ). Bevis. Idet g er ijektiv, så θ og ψ ideholder lige mege vide om x, gælder der, at px θ) = px ψ). Så lθ x) = lψ x). Dermed gælder om maksimum ˆψ for lψ x), at det svarer til maksimum ˆθ for lθ x), så ˆψ = g ˆθ). 4.3 Fisher-iformatioe og Jeffreys prior Dette afsit er baseret på [Lee, 2004, kap. 3], og heri itroduceres forskellige størrelser, som seere skal bruges til at defiere Fisher-iformatioe. Defiitio 4.10 Log-likelihood-fuktio). Lad θ og x være stokastiske vektorer. Da kaldes Lθ x) := log lθ x) for log-likelihood-fuktioe. Vi vil u argumetere for, hvorfor det i ogle situatioer ka være e fordel at betragte loglikelihood-fuktioe frem for likelihood-fuktioe. Betragt e stikprøve x = x 1, x 2,..., x ). Da ka likelihood-fuktioe omskrives til følgede: lθ x) = px θ) = px 1,..., x θ) = px i θ). Foretages omskriviger af log-likelihood-fuktioe fås, at Divideres igeem med fås, at Lθ x) = log lθ x) Lθ x) = log = = 1 px i θ) log px i θ). log px i θ), hvilket er det aritmetiske geemsit af uafhægige, esfordelte stokastiske variable. Dette gør det emt at avede de store tals lov og de cetrale græseværdisætig på log-likelihood-fuktioe. 36

4.3.1 Det édimesioale tilfælde Vi idsævrer os heruder til at betragte det tilfælde, hvor θ er e stokastisk variabel i stedet for e stokastisk vektor. Defiitio 4.11 Score-fuktio). Lad θ være e stokastisk variabel og x være e stokastisk vektor. Hvis Lθ x) er differetiabel, kaldes sθ x) := d dθ Lθ x) for score-fuktioe. Score-fuktioe ka udtrykkes på forskellige måder, som vi vil få brug for i det følgede, så derfor itroducerer vi dem her: Det sidste lighedsteg fås ved at beytte kæderegle. sθ x) = d Lθ x) 4.5) dθ = d log px θ) 4.6) dθ d dθ = px θ) px θ). 4.7) Det bemærkes, at maximum likelihood estimatet ˆθ ikke ku maksimerer likelihood-fuktioe, me også log-likelihood-fuktioe, eftersom logaritme er e stregt voksede fuktio. Dermed er ˆθ e løsig til likelihood-ligige, der er sθ x) = 0. Så score-fuktioe ka bruges til at fide ˆθ. Det gøres ved at løse likelihood-ligige, hvorefter det udersøges, om de fude θ-værdi er et maksimum for log-likelihoodfuktioe. Eksempel 4.12. Betragt e Poisso-fordelt stikprøve x = x 1,..., x ), hvor x i λ Poiλ) for i = 1, 2,...,. Dermed er hvor T = x i. Så Således fås, at lλ x) = λ x ) i x i! e λ λ T e λ, Lλ x) = log λ T e λ) = log λ T) + log e λ) = T log λ) λ. sλ x) = T λ. Løsige til likelihood-ligige bliver dermed λ = T. 4.8) 37

Differetieres yderligere e gag fås, at d dλ sλ x) = T λ 2 < 0, da T > 0, fordi T = x i, samt x i λ Poiλ) og dermed altid stregt positiv. Altså er Lλ x) stregt kokav, hvilket betyder, at løsige fudet i 4.8) er maksimum, så ˆλ = T. Det viser sig, at middelværdie af score-fuktioe er ul uder passede atagelser. Lemma 4.13 Middelværdi af score-fuktioe). Lad θ, x være stokastiske variable. Såfremt tæthedsfuktioe px θ) er C 1 gælder, at E x θ [sθ x)] = 0. Bevis. Lemmaet bevises i det kotiuerte tilfælde. Af propositio 2.4.4 i [Olofsso, 2005] omhadlede middelværdie af e trasformatio af x og 4.7) fås, at d E x θ [sθ x)] = dθ px θ) px θ) px θ)dx = d px θ)dx dθ = d dθ 1 = 0. For at kue ombytte itegralet og de afledte kræves, at px θ) er C 1 jf. Theorem 11.5 [Wade, 2004]. I det diskrete tilfælde beyttes, at differetiatio er e lieær operatio. Defiitio 4.14 Fisher-iformatioe for θ). Lad θ være e stokastisk variabel og x e stokastisk vektor. Fisher-iformatioe beteges Iθ) og defieres ved Iθ) := E x θ [ d dθ sθ x) ]. Heruder følger et lemma, der illustrerer e ade sammehæg mellem Fisher-iformatioe og score-fuktioe, ed defiitio 4.14 giver. Lemma 4.15. Lad θ, x være stokastiske variable. Hvis tæthedsfuktioe px θ) er C 1, gælder der, at Iθ) = E x θ [sθ x) 2] = Var x θ [sθ x)]. Bevis. Lemmaet bevises i det kotiuerte tilfælde. Til at starte med bevises det første lig- 38

hedsteg, hvortil omskrivig 4.7) af score-fuktioe udyttes. Dermed fås, at Iθ) = E x θ [ d dθ sθ x) ] = = px θ) d dθ ) ddθ px θ) dx px θ) d2 px θ) px θ) d dθ px θ) 2 dθ px θ) dθ d px θ) px θ) 2 d 2 = dθ 2 px θ)dx + d 2 = dθ 2 px θ)dx + = d2 dθ 2 = d2 dθ 2 1 + px θ)dx + = E x θ [ d dθ Lθ x) ) 2 ] = E x θ [sθ x) 2]. ddθ px θ)) 2 dx px θ) ) 2 px θ) dθ d log px θ) d px θ) dθ d px θ) dθ Lθ x) dx dx 4.9) px θ) ) 2 log px θ) dx 4.10) ) 2 dx 4.11) For at få 4.9) avedes omskrivige af score-fuktioe fra 4.6) til 4.7). Ved 4.10) er atagelse om, at px θ) er C 1, beyttet for at kue bytte om på rækkefølge af differetiatio og itegratio jf. Theorem 11.5 i [Wade, 2004]. For deræst at få 4.11) er lighede fra 4.5) til 4.6) avedt. For at bevise det adet lighedsteg avedes defiitioe på varias samt lemma 4.13, så der fås, at E x θ [ sθ x) 2] = E x θ [ sθ x) 0) 2] [ ) ] 2 = E x θ sθ x) E x θ [sθ x)] = Var x θ [sθ x)]. Her følger e sætig omhadlede sammehæge mellem Fisher-iformatioe for alle observatioer i e stikprøve og Fisher-iformatioe for e ekelt af observatioere. Sætig 4.16 Fisher-iformatioe og stikprøve). Lad θ betege e stokastisk variabel, og lad x = x 1, x 2,..., x ) være e stikprøve. Lad I θ) betege Fisher-iformatioe baseret på x, mes Iθ) er baseret på e ekelt af observatioere. Da gælder, at I θ) = Iθ). 39

Bevis. Defiitio 4.14 og omskrivig 4.6) af score-fuktioe beyttes til at få, at [ d 2 ] I θ) = E x θ log px θ) dθ2 [ d 2 ] = E x θ dθ 2 log px 1,..., x θ) [ d 2 ] = E x θ dθ 2 log px 1 θ) px θ)) [ d 2 ] = E x θ dθ 2 log px 1 θ) + + log px θ)) [ d 2 ] = E x θ dθ 2 log px 1 θ) + + d2 dθ 2 log px θ) [ d 2 ] [ d 2 ] = E x1 θ dθ 2 log px 1 θ) E x θ dθ 2 log px θ) = Iθ). Udervejs er brugt, at x 1,..., x er uafhægige og ved det sidste lighedsteg udyttes, at x 1,..., x er esfordelte. Resultatet i sætig 4.16 virker ituitivt, eftersom det syes forståeligt, at iformatioe bliver gage større, år vi har gage så mage observatioer. Heruder idføres Jeffreys prior i det édimesioale tilfælde. Defiitio 4.17 Jeffreys prior i det édimesioale tilfælde). Lad θ være e stokastisk variabel. Da defieres Jeffreys prior til at være pθ) Iθ). Det er muligt at tage kvadratrode af Iθ), eftersom de ifølge lemma 4.15 ikke ka være egativ, da Fisher-iformatioe ka skrives som middelværdie af e ikke-egativ størrelse. Bemærk, at Jeffreys prior forudsætter eksistese af Iθ), hvilket betyder, at middelværdie skal eksistere. Derudover er det ødvedigt at tjekke, om posterior er veldefieret, såfremt Jeffreys prior i det give tilfælde er uegetlig. Jeffrey har også formuleret e regel vedrørede priors. Defiitio 4.18 Jeffreys regel i det édimesioale tilfælde). Lad θ være e stokastisk vektor. Jeffreys regel er, at e prior pθ) skal være ivariat uder reparametriserig af θ i de forstad, at hvis ψ = gθ), hvor g er ijektiv og ideholdt i C 2, så er pθ) og pψ) på samme form. Jeffreys prior har de egeskab, at de opfylder Jeffreys regel. Sætig 4.19 Jeffreys prior og regel i det édimesioale tilfælde). Lad θ være e stokastisk variabel, og lad ψ = gθ), hvor g er ijektiv og C 2. Jeffreys prior pθ) Iθ) opfylder Jeffreys regel, dvs. pθ) og pψ) er på samme form. 40

Bevis. Grudet atagelsere har g e ivers fuktio, så θ = g 1 ψ). Ved brug af kæderegle fås dermed, at d dψ log px ψ) = d dθ log px ψ) dθ dψ = d dθ log px θ) dθ dψ hvor det sidste lighedsteg fås af, at g er ijektiv, så θ er e variabel, der fortæller lige så meget om x, som ψ gør. Dermed fås fra omskrivig 4.6) og lemma 4.15, at [ ) ] d 2 Iψ) = E x θ log px ψ) dψ [ ) ] d 2 dθ = E x θ dθ log px θ) dψ ) dθ 2 = Iθ). dψ ) 2 Nu bruges trasformatiossætige [Olofsso, 2005, prop. 2.3.7, s. 96], hvilket er muligt, idet g 1 eksisterer. Derudover udyttes, at pθ) = Iθ): pψ) pθ) dθ dψ Iθ) dθ dψ = = ) dθ 2 Iθ) dψ Iψ). Det vil sige, at ψ også er e Jeffreys prior, så pψ) og pθ) er på samme form, hvormed sætige er bevist. Derimod vil e prior, der er ormalfordelt, ku opfylde Jeffreys regel, såfremt trasformatioe af θ er lieær. Det skyldes, at pψ) i dette tilfælde også vil blive ormalfordelt jf. korollar 2.7.5 i [Olofsso, 2005]. 4.3.2 Det flerdimesioale tilfælde I dette afsit betragter vi det tilfælde, hvor θ er e stokastisk vektor af lægde k og x e stokastisk vektor af lægde. Det kræver, at defiitioe af Fisher-iformatioe udvides. Defiitio 4.20 Fisher-iformatioe i det flerdimesioale tilfælde). Lad θ og x være stokastiske vektorer. Fisher-iformatioe Iθ) defieres som e matrix givet ved hvor i, j {1, 2,..., k}. Iθ) i,j := E x θ [ 2 θ i θ j Lθ x) ], Bemærk, at Iθ) er symmetrisk, såfremt rækkefølge af de bladede 2. ordes partielle afledte er uderordet. Dette er tilfældet, såfremt Lθ x) er C 2 jf. Theorem 11.2 i [Wade, 2004]. 41

Hvis vi har e stikprøve x = x 1, x 2,..., x ), gælder der ligesom i sætig 4.16, at I θ) = Iθ). Dette resultat opås ved at geemføre de samme udregiger som i beviset for de pågældede sætig. Heruder defieres Jeffreys prior for de stokastiske vektor θ. Defiitio 4.21 Jeffreys prior i det flerdimesioale tilfælde). Lad θ være e stokastisk vektor, da defieres Jeffreys prior til at være pθ) det Iθ). Det ka vises, at Fisher-iformatioe er e positiv semi-defiit matrix, hvilket gør, at determiate af de er ikke-egativ. Sætig 4.22 Jeffreys prior og regel i det flerdimesioale tilfælde). Lad θ og x være stokastiske vektorer, og lad ψ = ψ 1, ψ 2,..., ψ k ), hvor ψ = gθ), hvor g er ijektiv og C 2. Jeffreys prior pθ) det Iθ) opfylder Jeffreys regel, dvs. pθ) og pψ) er på samme form. 4.4 Valg af prior Dette afsit er ispireret af [Youg & Smith, 2005]. Valget af obervatiosmodelle er forholdsvist simpelt, da det er et spørgsmål om at vælge e fordelig, der stemmer tilstrækkeligt overes med dataee. Hvorda ma vælger priore er derimod væsetligt mere kompliceret. Betragt for eksempel e situatio, hvor der ikke er forhådsvide om de ukedte kvatitet θ. Hvilke fordelig skal ma så vælge priore til at have? Ma kue lade priore være ligefordelt, da ma ige grud har til at tro, at e værdi af θ skulle være mere sadsylig ed e ade. Dette giver imidlertidig problemer som beskrevet i afsit 4.1.1 og afsit 4.1.2. Geerelt fides der to overordeede retiger i Bayesiask statistik for, hvorda e prior bør vælges: de objektive bayesiaere og de subjektive bayesiaere. De objektive bayesiaere meer, at ma bør have klare pricipper for, hvilke priors ma vælger i hvilke situatioer. Problemet er, at år ma vælger e prior efter faste pricipper, så risikerer ma at afskære sig fra adre potetielt velegede priors, der kue være mere hesigtsmæssige at bruge. De subjektive bayesiaere meer derimod, at ma ikke skal låse sig fast på bestemte pricipper for valg af prior, me tæke sig om og vælge e foruftig prior til situatioe fra gag til gag. Til gegæld risikerer ma, at valget bliver for arbitrært, år e prior vælges ad hoc fra gag til gag. Der fides forskellige typer af priors med hver deres fordele og ulemper: Ligefordelte priors: Dette er e af de mest almidelige fremgagsmåder i praksis, me giver stadig aledig til debat og kræver, at statistikere tæker sig grudigt om, da dee type prior er uegetlig og ikke ivariat uder reparametriserig. 42

Kojugerede priors: Hvis ma vælger e kojugeret prior, letter det matematikke e del. Ulempe er risikoe for, at statistikere ka fristes til at vælge e prior af bekvemmelighed fremfor e prior, som er e mere præcis repræsetetatio af es forhådsvide. Jeffreys prior: Jeffreys prior har ogle bekvemme egeskaber, me de afhæger fuldstædig af observatiosmodelle, hvilket ka kritiseres, da priors bør vælges til at repræsetere es forhådsvide og ikke være fuldstædig dikteret af es data. Ma skal altid sikre sig, at posteriore er veldefieret. Hvis priore er veldefieret, vil posteriore også altid være det jf. Bayes sætig sætig 2.3). 43

5 Regressiosaalyse af ormalfordelt data Dette kapitel er baseret på [Lee, 2004, kap. 6] og omhadler, hvorda ma ka sammelige to -dimesioale stikprøver. Vi vil ku behadle ormalfordelt data. Atag i hele dette kapitel, at x i, y i ) for i = 1, 2,..., er e stikprøve fra de todimesioale ormalfordelig, hvor λ, µ R, ϕ, ψ > 0 og ρ < 1, således at ) λ ϕ ρ )) ϕψ x i, y i ) λ, µ, ϕ, ψ, ρ N 2, µ ρ for i = 1, 2,...,. ϕψ ψ Heraf aflæses, at Lad E xi [x i ] = λ R, Var xi [x i ] = ϕ > 0, E yi [y i ] = µ R, Var yi [y i ] = ψ > 0, ρ := ρx i, y i ) = Cov [x i, y i ]. Var xi [x i ] Var yi [y i ] x := x 1, x 2,..., x ) og y := y 1, y 2,..., y ). Det gælder geerelt, at hvis data er uafhægige, er ρ = 0. Specielt for de d-dimesioale ormalfordelige gælder også, at hvis ρ = 0, er data uafhægige [Olofsso, 2005, s. 208]. Så hvis ρ = 0 for alle i = 1, 2,...,, er x og y uafhægige, så data ka aalyseres som gjort i afsit 3.2. I reste af kapitlet bruges følgede otatio: S xx := S yy := S xy := r := x i x) 2, 5.1) y i y) 2, x i x)y i y) = S yx, S xy Sxx S yy, S ee := S yy S2 xy = S yy 1 r 2 ), S xx s 2 := S ee 2, 45

hvor r er de empiriske korrelatioskoefficiet, da der pr. defiitio gælder, at Cov [x, y] = E [x E [x]) y E [y])]. Det er muligt at lave iteressate sammeligiger af x og y. Atag ude tab af geeralitet, at det skal udersøges, hvorda y afhæger af x. Dermed kaldes x regressiosvariablee og y kaldes de afhægige variable. 5.1 Lieær regressio med é regressiosvariabel Ret praktisk får ma sjældet opgivet e empirisk korrelatioskoefficiet, me derimod data, som måske er idbyrdes afhægig, og som ma derfor gere vil fide korrelatioskoefficiete for. Når ma har de, ka ma ud fra é variabel regressiosvariable her x i ) sige oget om, hvorda e ade variabel de afhægige variabel her y i ) opfører sig. 5.1.1 Geerel model Først behadles et geerelt tilfælde. Lad θ 1 være parametre for x og θ 2 være parametre for y. Atag u a priori, at pθ 1, θ 2 ) pθ 1 )pθ 2 ), og at observatiosmodelle er således, at px, y θ 1, θ 2 ) px θ 1 )py x, θ 2 ). Atagelse retfærdiggøres af, at y er de afhægige variabel. Så fås a posteriori, at pθ 1, θ 2 x, y) pθ 1 )px θ 1 )pθ 2 )py x, θ 2 ). Margialtæthede a posteriori for θ 2 ka så fås ved at itegrere θ 1 ud, hvorved pθ 2 x, y) = pθ 1, θ 2 x, y)dθ 1 5.2) pθ 1 )px θ 1 )pθ 2 )py x, θ 2 )dθ 1 = pθ 2 )py x, θ 2 ) pθ 1 )px θ 1 )dθ 1 = pθ 2 )py x, θ 2 )px) pθ 2 )py x, θ 2 ). Herved ses, at hvad agår iferes af θ 2, ka x askues som e kostat vektor i observatiosmodelle py x, θ 2 ). 5.1.2 Niveauet og hældige for regressiosliie Det tilfælde, hvor y i ere afhæger lieært af x i ere, kaldes lieær regressio og er det tilfælde, vi vil behadle ærmere. Det er muligt at have adre typer af afhægighed, me dem vil vi ikke komme ærmere id på. Hvis x, y) er 2-dimesioalt ormalfordelt, har vi følgede geerelle resultat omkrig de margiale fordeliger af x og y x. Lemma 5.1. Atag for λ, µ R, ϕ, ψ > 0 og ρ < 1, at ) λ ϕ x, y) λ, µ, ϕ, ψ, ρ N 2, µ ρ ϕψ ρ ϕψ ψ )). 46

Hvis x λ, ϕ N λ, ϕ), så gælder der, at ψ y x, λ, µ, ϕ, ψ, ρ N µ + ρ ϕ x λ), ψ 1 ρ 2)). Bevis. De simultae tæthedsfuktio for x og y er px, y) = 1 2π ϕψ1 ρ 2 ) [ 1 x λ) 2 exp 21 ρ 2 ) ϕ Ekspoete ka u omskrives til [ 1 x λ) 2 21 ρ 2 ) ϕ = 1 [ 1 ψx λ) 2 2 1 ρ 2 )ψ ϕ = 1 [ 1 ρ 2 ψx λ) 2 2 1 ρ 2 )ψ ϕ ) ) x λ y µ 2ρ + ϕ ψ ) ) x λ y µ 2ρ + ϕ ψ ] y µ)2 ψ 2ρ ) ]) x λ ψ y µ) + y µ) 2 ϕ 2ρ ) ] x λ ψ y µ) + y µ) 2 + ϕ ]) y µ)2. 5.3) ψ ) x λ)2 5.4) ϕ hvor det sidste lighedsteg opstår ved at dele det første udtryk op på følgede måde 1 ψx λ) 2 1 ρ 2 )ψ ϕ Der gælder, at = ρ 2 + 1 ρ 2)) 1 ψx λ) 2 1 ρ 2 )ψ ϕ = ρ 2 1 ψx λ) 2 1 ρ 2 )ψ ϕ = y µ) ρ ψx λ) ϕ 1 ρ 2 ψx λ) 2 1 ρ 2 + )ψ ϕ + 1 ρ 2 1 ψx λ) ) 2 1 ρ 2 )ψ ϕ x λ)2. ϕ ) 2 = y µ) 2 2ρ ) x λ ψ ϕ hvilket beyttes i 5.4), så der fås, at 1 [ 1 ρ 2 ψx λ) 2 2 1 ρ 2 2ρ ψ )ψ ϕ = 1 [ 1 2 1 ρ 2 y µ) ρ ] ψx λ) 2 + )ψ ϕ = 1 [ )] 1 ψ 2 2 1 ρ 2 y µ + ρ x λ) + )ψ ϕ y µ) + ρ2 ψx λ) 2, ϕ ) ] x λ y µ) + y µ) 2 + ϕ ) x λ)2 ϕ x λ)2 ϕ ). ) x λ)2 ϕ Idsættes dette i 5.3), fås et yt udtryk for de simultae tæthedsfuktio for x og y 1 px, y) = 2π ϕψ1 ρ 2 ) exp 1 [ )] 1 ψ 2 2 1 ρ 2 y µ + ρ x λ) + )ψ ϕ = 1 exp 1 ) x λ)2 2πϕ 2ϕ 1 exp 21 ρ 2 )ψ [ y 1 2πψ1 ρ 2 ) )] ) ψ 2 µ + ρ x λ), ϕ x λ)2 ϕ )) 47

hvoraf det ses, at x λ, ϕ Nλ, ϕ) og ψ y x, λ, µ, ϕ, ψ, ρ N µ + ρ ϕ x λ), ψ 1 ρ 2)), hvorved sætige er bevist. Lad u ψ η 0 := µ ρ ϕ λ, ψ η 1 := ρ ϕ, ϕ := ψ 1 ρ 2). Fra lemma 5.1 fås da, at år x i, y i ) er ormalfordelt, og x i λ, ϕ N λ, ϕ), så er y i x i, η 0, η 1, ϕ N η 0 + η 1 x i, ϕ), hvor det ses, at der er lieær afhægighed mellem x og y. Dermed er θ 1 = λ, ϕ) og θ 2 = η 0, η 1, ϕ), hvor θ 1 er de ukedte parametre med hesy til x i, og θ 2 er parametree med hesy til y i. Det ses, at λ, µ, ϕ, ψ, ρ) er i 1 1-korrespodace med θ 1, θ 2 ). Vi vil u forsøge at komme frem til resultater omkrig, hvorda y i ere afhæger af x i ere. Specielt er vi iteresseret i η 1, som har oget med afhægighede at gøre, da det er hældige for liie η 0 + η 1 x i. Tilsvarede ka η 0 tolkes som værede iveauet for liie. For α := η 0 + η 1 x β := η 1, og ses, at η 0 + η 1 x i = η 0 + η 1 x i + η 1 x η 1 x = η 0 + η 1 x + η 1 x i x) = α + βx i x). Det vil altså sige, at hvilket u behadles ærmere. y i x, α, β, ϕ N α + βx i x), ϕ), 48

Sætig 5.2. Hvis og der a priori haves, at y i x, α, β, ϕ N α + βx i x), ϕ) for i = 1, 2,...,, pα, β, ϕ) 1 ϕ, så fås a posteriori for at a := y og b := S xy S xx, ϕ x, y S ee χ 2 α a s/ x, y t 2, β b s/ S x, y t 2, xx 2, der alle er idbyrdes uafhægige givet data. Bevis. Først betragtes observatiosmodelle givet ved py x, α, β, ϕ) = Ved at rege på summe fås følgede [y i α β x i x)] 2 = = = = = ) ) 1 2 exp 1 2π ϕ 2 ϕ [y i α β x i x)] 2. [y i y) + y α) β x i x)] 2 [ ] [y i y) + y α)] 2 + [β x i x)] 2 2β x i x) [y i y) + y α)] [y i y) + y α)] 2 + [β x i x)] 2 2β x i x) [y i y) + y α)] [ y i y) 2 + y α) 2 + 2 y i y) y α) [ β 2 x i x) 2] hvor vi i de sidste udregig udytter, at 2β x i x) y i y) + ] + y i y) 2 + α y) 2 + β 2 x i x) 2 2β y i y) = 0 og 2βx i x)y α) = 2βy α) x i x) = 0. 2βx i x)y α) x i x)y i y), 49

Ved at beytte otatioe i 5.1) fås dermed, at [y i α β x i x)] 2 = y i y) 2 + α y) 2 + β 2 x i x) 2 2β S xx =S yy + α y) 2 + β 2 S xx 2βS xy =α y) 2 + S xx β S ) 2 xy S 2 xy S xx + S yy =α y) 2 + S xx β S xy S xx =α y) 2 + S xx β S xy S xx S 2 xx ) 2 S2 xy + S yy S xx ) 2 + S yy1 r 2 ) x i x)y i y) =α y) 2 + S xx β S ) 2 xy + S ee. 5.5) S xx Derved fås, at observatiosmodelle er givet ved py x, α, β, ϕ) = ) 1 2 exp 1 [α y) 2 + S xx β S ) 2 xy + S ee]). 5.6) 2π ϕ 2 ϕ S xx Dermed fås a posteriori jf. 5.2), at pα, β, ϕ x, y) pα, β, ϕ)py x, α, β, ϕ) ϕ 2 1 exp 1 [α y) 2 + S xx β S ) 2 xy + S ee]), 2 ϕ S xx = ϕ 2 2 1 exp 1 ) 2 ϕ S ee ϕ 1 2 exp 1 ) α y)2 ϕ 1 2 exp 2 ϕ 1 2 ϕ S xx β S ) ) 2 xy. S xx Givet ϕ fås a posteriori, at pα β, ϕ, x, y) exp 1 2 ϕ pβ α, ϕ, x, y) exp ) ) α y)2 = exp 1 α y) 2, 1 2 ϕ S xx 2 ϕ β S ) ) 2 xy = exp S xx 1 2 ϕ S xx β S ) ) 2 xy, S xx hvilket dermed fastlægger fordeligere for α og β, således at ) ϕ α x, y, ϕ N a, og β x, y, ϕ N b, ϕ S xx ), 5.7) og derved er α og β uafhægige givet ϕ. 50

Desude gælder, at p ϕ x, y) = = hvor det ses, at ϕ x, y S ee χ 2 2. p ϕ, α, β x, y)dαdβ ϕ 2 2 1 exp 1 ) 2 ϕ S ee 1 β S ) ) 2 xy ϕ 1 2 exp 2 ϕ S xx S xx = ϕ 2 2 1 exp 1 ) 2 ϕ S ee ϕ 2 1 exp 1 2 ϕ S xx ϕ 2 2 1 exp 1 ) 2 ϕ S ee For at vise det sidste bemærkes, at ϕ 2 1 exp 1 ) α y)2 2 ϕ dαdβ ϕ 1 2 exp 1 2 ϕ ) ) 2 β S xy S xx dβ α y)2 ) dα s 2 ϕ = S ee/ 2) ϕ = S ee ϕ 1 2 og S ee ϕ 1 χ 2 2. Da α a ϕ/ N0, 1) og β b ϕ/sxx N0, 1) fås dermed slutteligt, at α a s/ = β b s/ S xx = α a ϕ/ s 2 ϕ β b ϕ/sxx s 2 ϕ t 2 t 2, og og dermed er sætige vist. Det bemærkes, at a er iveauet, og b er hældige for regressiosliie. Sætig 5.3. Med samme betigelser som i sætig 5.2 haves, at a, b) er MLE for α, β) og er det estimat, som ma vil opå ved avedelse af midste kvadraters metode på dataee. Bevis. MLE for α, β) fides direkte ved at maksimere likelihood-fuktioe fra 5.6) ) 1 2 exp 1 [α y) 2 + S xx β S ) 2 xy + S ee]) 2π ϕ 2 ϕ S xx med hesy til α og β. Det ses, at fuktioe maksimeres, år potese i ekspoetialleddet er størst, dvs. år leddet α y) 2 + S xx β S ) 2 xy + S ee S xx 51

er midst. Dette led miimeres med hesy til α ved at miimere α y) 2 og med hesy ) til β ved at miimere S xx β S xy 2. S xx Heraf ses det, at maximum likelihood estimatere ˆα og ˆβ er givet ved ˆα = y = a og ˆβ = S xy S xx = b. Ved midste kvadraters metode er målet at midske afstade fra puktere y i til middelværdie givet ved lije α + βx i x). Dette sker ved at miimere summe y i α + β x i x))) 2, som ifølge 5.5) er α y) 2 + S xx β S ) 2 xy + S ee. S xx Heraf fås, som før, at udtrykket miimeres for α = a og β = b, hvorved lije y = a + bx i x) er de bedste rette lije ved midste kvadraters metode. 5.1.3 Forvetigsværdi Hvis ma har x og y, hvor y er de afhægige variabel med fordelig som i sætig 5.2, så er det muligt at udtale sig om forvetigsværdie af de for et givet x 0. Dette etableres i følgede sætig. Sætig 5.4. Med samme betigelser som i sætig 5.2 haves, at hvis ma på grudlag af data øsker de forvetede værdi γ for et givet x 0 fås a posteriori for γ := α + βx 0 x), at γ a bx 0 x) s 2 1 + x 0 x) 2 /S xx ) x, y t 2. Bevis. Lad γ := α + βx 0 x), så er γ middelværdie for y 0 x, α, β, ϕ jf. betigelsere i sætig 5.2, og y 0 x, γ, ϕ Nγ, ϕ). Nu beyttes 5.7) fra beviset for 5.2, der siger, at α x, y, ϕ N a, ϕ ) og β x, y, ϕ N b, Da γ afhæger lieært af α og β, fås at γ er ormalfordelt med γ x, y, ϕ N a + bx 0 x), ϕ + ϕ ) x 0 x) 2. 5.8) S xx ϕ S xx ). Herved fås, at γ a bx 0 x) ϕ 1 + x 0 x) 2 S xx ) N0, 1). 52

Brøke ka omskrives til γ a bx 0 x) ϕ 1 + x 0 x) 2 S xx ) / s 2 ϕ, hvor tællere er stadardormalfordelt, og ævere er s 2 ϕ = 5.2 er ϕ x, y S ee χ 2 2, så S ee ϕ χ2 2. Dermed er γ a bx 0 x) ) s 2 1 + x 0 x) 2 S xx x, y t 2. See ϕ 2). Jævfør sætig 5.1.4 De prædiktive fordelig De følgede sætig omhadler det tilfælde, hvor ma i stedet for de forvetede værdi øsker at fide de prædiktive fordelig for e y observatio af y 0, hvor y 0 er de afhægige variabel, som svarer til x 0. Sætig 5.5. Givet de samme betigelser som i sætig 5.2 er de prædiktive fordelig for y 0 a posteriori givet ved y 0 a bx 0 x) s 2 1 + 1 + x 0 x) 2 /S xx ) x, y t 2. Bevis. Lad y 0 svare til x 0, og lad γ := α + βx 0 x). Da gælder a posteriori ifølge sætig 5.2, at y 0 x, γ, ϕ Nγ, ϕ), så y 0 γ x, y, ϕ N0, ϕ). Fra 5.8) har vi, at γ x, y, ϕ N a + bx 0 x), ϕ + ϕ ) x 0 x) 2, S xx og dermed er y 0 γ og γ uafhægige givet x, y, ϕ. Dette leder frem til, at givet x, y, ϕ, så er y 0 = y 0 γ) + γ N a + bx 0 x), ϕ + ϕ + =N a + bx 0 x), ϕ ϕ ) x 0 x) 2 S xx 1 + 1 + x 0 x) 2 S xx )). Som i beviset for de forvetede værdi sætig 5.4) ka dette udtryk omskrives, så det ikke afhæger af ϕ, hvorved vi får, at de prædiktive fordelig for y 0 er y 0 a bx 0 x) s 2 1 + 1 + x 0 x) 2 S xx ) x, y t 2. De ituitive forskel på forvetigsværdie og de prædiktive værdi er, at forvetigsværdie bygger på det eksisterede data og siger oget om, hvor regressiosliie bør ligge. Derimod er de prædiktive fordelig baseret på det eksisterede data samt et yt datum x 0 og siger oget om, hvor observatioe y 0 hørede til x 0 bør ligge. Det bemærkes, at variase for de prædiktive fordelig er steget med ϕ, da der udover det eksisterede data fides edu e observatio x 0. Disse pricipper ka illustreres med et eksempel. 53

Eksempel 5.6. Dette eksempel bygger på [Lee, 2004, opg. 6.10, s. 190]. Tolv fostre er blevet vejet vægte er i gram) efter et vist atal uger efter påbegydt graviditet, hvilket har givet aledig til følgede datasæt: Alder: 40 36 40 38 42 39 40 37 36 38 39 40 Vægt: 3317 2729 2935 2754 3210 2817 3126 2539 2412 2991 2875 3231 Opgave går ud på at fide et 90% CPI for middelværdie for aldere af fostre, hvis vægt er 3000 gram og et 90% CPI for aldere af et foster, der vejer 3000 gram. For at fide et 90% CPI for middelværdie for aldere af fostre, hvis vægt er 3000 gram, beyttes sætig 5.4, da det er e forvetigsværdi, vi skal fide. For at fide et 90% CPI for aldere af et foster, der vejer 3000 gram, beyttes sætig 5.5, da det er e prædiktiv fordelig, vi her skal fide. Ifølge opgave skal vægte opfattes som regressiosvariablee, dvs. x, og aldere opfattes som de afhægige variable, dvs. y. Opgave er løst vha. følgede R-kode: 1 x < c3317, 2729, 2935, 2754, 3210, 2817, 3126, 2539, 2412, 2991, 2875, 3231) 2 y < c40, 36, 40, 38, 42, 39, 40, 37, 36, 38, 39, 40) 3 4 if legthx)!= legthy)) 5 { 6 stop"lægde af x og y er forskellig!") 7 } 8 10 9 < legthx) 11 xstreg < meax) 12 ystreg < meay) 13 14 Sxx < sumx - xstreg)^2) 15 Syy < sumy - ystreg)^2) 16 Sxy < sumx - xstreg) y - ystreg)) 17 See < Syy - Sxy^2 / Sxx) 18 19 s2 < See / -2) 20 21 a < ystreg 22 b < Sxy / Sxx 23 24 # t-fordelige er symmetrisk, me dette er mere overskueligt: 25 qt05 < qt0.05, -2) 26 qt95 < qt0.95, -2) 27 28 x0 < 3000 29 30 faktor_mea_vaegt < sqrts2) sqrt1/) + x0 - xstreg)^2/sxx) 31 faktor_1foster < sqrts2) sqrt1 + 1/) + x0 - xstreg)^2/sxx) 32 33 qy05_mea_vaegt < qt05 faktor_mea_vaegt + a + b x0 - xstreg) 34 qy95_mea_vaegt < qt95 faktor_mea_vaegt + a + b x0 - xstreg) 35 36 qy05_1foster < qt05 faktor_1foster + a + b x0 - xstreg) 37 qy95_1foster < qt95 faktor_1foster + a + b x0 - xstreg) 38 39 cat"90% CPI for alderes middelværdi for alle fostre med vægte x0 = 3000 er [", qy05_mea_vaegt, ",", qy95_mea_vaegt, "]\") 40 cat"90% CPI for aldere af et foster med vægte x0 = 3000 er [", qy05_1foster, ",", qy95_1foster, "]\") 54

Dette giver aledig til følgede output: 90% CPI for alderes middelværdi for alle fostre med vægte x0 = 3000 er [38.67196, 39.79698] 90% CPI for aldere af et foster med vægte x0 = 3000 er [37.30055, 41.16839] Det bemærkes, at 90% CPI et for aldere af et foster med vægte 3000 gram er større ed 90% CPI et for alderes middelværdi for alle fostre med vægte 3000 gram. Ituitivt er dette resultat korrekt, da usikkerhede for etop ét foster er større ed ved at arbejde med e gruppe fostre hvis vægt er 3000 gram). 55

6 Markovkæder og MCMC-metoder 6.1 Markovkæder I dette afsit, som er skrevet på baggrud af [Berthelse & Møller, 2004], præseteres ogle grudlæggede begreber omkrig Markovkæder, som er relevate for forståelse af Markovkæde Mote Carlo-teori. Heruder defieres ivarias, irreducibilitet, reversibilitet og periodicitet. Vi vil her afvige fra vores kovetio om at skrive vektorer med fede typer, eftersom det ikke ka give aledig til forvirrig. Til brug i de følgede afsit omkrig Markovkæder defieres sadsylighedsmålet Px, ), hvor Px, A) er sadsylighede for, at Markovkæde spriger fra e givet tilstad x til e hædelse A. Defiitio 6.1 Markovkæde og overgagskere). E stokastisk proces X 0, X 1,...) med tilstadsrum Ω R d er e homoge Markovkæde, hvis der gælder, at for alle heltal 0, for alle hædelser A Ω og for alle tilstade x 0, x 1,..., x Ω, så er PX +1 A X 0 = x 0, X 1 = x 1,..., X = x ) = PX +1 A X = x ) med overgagskere Px, A) := PX +1 A X = x ). Defiitio 6.2 Begydelsesfordelig og -tris overgagskere). Begydelsesfordelige af e Markovkæde X 0, X 1,...) er fordelige af X 0. De betigede fordelig af X givet X 0 = x oteres P x, A) := PX A X 0 = x), x Ω, A Ω og kaldes -tris overgagskere. Det fremgår, at -tris overgagskere P udtrykkes ved overgagskere P, me de er ofte kompliceret at fide frem til. Et iteressat resultat, som vi dog ikke vil bevise her, er, at fordelige af e Markovkæde X 0, X 1,...) altid er givet ved begydelsesfordelige og overgagskere. Lad u π være e tæthed defieret på Ω, og lad ΠA) := πx)dx, A Ω, A hvilket er sadsylighede for, at A idtræffer. For at kue bruge Markovkæder til simulerig øsker vi at kostruere e kæde såda, at tæthede π er e græsefordelig. Til det har vi brug for begrebere ivarias og irreducibilitet. 57

Defiitio 6.3 Ivarias). E Markovkæde med overgagskere P har π som ivariat tæthed, hvis πx)px, A)dx = ΠA) A Ω. Ω Dermed gælder, at hvis π er e ivariat tæthed, og X π, så vil X +1 π. Dette ses ved at bruge love om total sadsylighed, da PX +1 A) = PX +1 A X = x)px = x)dx Ω = Px, A)πx)dx 6.1) Ω = ΠA), 6.2) hvor 6.1) følger af, at X π, og 6.2) følger af, at π er ivariat. Defiitio 6.4 Reversibel). Markovkæde er reversibel med hesy til π, hvis X 0 π X 0, X 1 ) X 1, X 0 ), dvs. simultafordelige for X 0, X 1 ) er de samme som for X 1, X 0 ). I det følgede itroduceres ogle begreber, som relaterer til Mote Carlo-metoder. Dette vil vi seere gå dybere id i, me idtil videre bruges disse atagelser i de følgede defiitioer. For x Ω, atag at qx, ) er e tæthedsfuktio på Ω. Så kaldes qx, ) for e forslagstæthed, og Qx, A) := qx, y)dy, A Ω, A kaldes for e forslagsfordelig, hvor Qx, A) er sadsylighede for, at der bliver foreslået oget, der ligger i A, givet at Markovkæde er i tilstad x. Derudover kaldes 0 ax, y) 1 for acceptsadsylighede, dvs. sadsylighede for at acceptere forslaget y A fra forslagsfordelige Qx, A). Dermed fås, at det samlede udtryk A ax, y)qx, y)dy er sadsylighede for at hoppe til et vilkårligt y A. På baggrud af dette udledes formle for forkastelsessadsylighede rx) givet ved rx) = 1 ax, y)qx, y)dy, Ω som er sadsylighede for, at forslaget ikke accepteres, hvorved Markovkæde bliver i tilstad x. Tilsamme leder dette os frem til overgagskere Px, A) = rx)1[x A] + ax, y)qx, y)dy, som er de betigede sadsylighed for at ede i A, givet at Markovkæde kommer fra tilstad x. Dee sadsylighed fremkommer ved at addere de to muligheder for at ede i A ete ved at hoppe fra et vilkårligt x til et y A, eller ved at Markovkæde allerede befider sig i e tilstad x A og bliver i de tilstad, fordi forslaget y forkastes. Defiitio 6.5 Detailed Balace Coditio). E Markovkæde opfylder Detailed Balace Coditio DBC), hvis der for alle x, y Ω gælder, at hvor πx)px, y) = πy)py, x) for x = y, A px, y) = ax, y)qx, y). 58

I sig selv siger DBC ikke så meget om Markovkæde, me i det følgede skal vi se, at de er yttig, fordi de medfører flere adre vigtige egeskaber. Det viser sig emlig, at hvis e Markovkæde opfylder DBC, så er π e ivariat tæthed, kæde er reversibel og X 0,..., X ) X,..., X 0 ), år X 0 π. Sætig 6.6. Givet e Markovkæde som opfylder DBC, da gælder: 1. π er e ivariat tæthed for Markovkæde, 2. kæde er reversibel, 3. for ethvert heltal 1 gælder, at X 0,..., X ) og X,..., X 0 ) er esfordelte, år X 0 er fordelt med hesy til π. Bevis. I pukt 1 ses på px, y) = ax, y)qx, y). Da qx, ) er e tæthed, og ax, y) 1, så er y Ω px, y) 1 og derfor ikke ødvedigvis e tæthed. For at dae e tæthed, defieres fuktioe { px, y) for x = y px, y) = 1 z Ω\{x} px, z) for x = y. Det fremgår af edeståede udregig, at px, ) er e tæthed: px, y) = y Ω y Ω\{x} px, y) + 1 z Ω\{x} px, z) = 1 Atag, at DBC er opfyldt for p. Det betyder, at DBC er opfyldt for p, idet πx) px, y) = πx) 1[x = y]px, y) + 1[x = y] 1 = πy)1[x = y]py, x) + πx)1[x = y] 1 = πy) 1[x = y]py, x) + 1[x = y] 1 = πy) py, x) z Ω\{x} z Ω\{x} z Ω\{y} px, z) px, z) 6.3) py, z) 6.4) For at få 6.3) har vi på det første led brugt, at DBC er opfyldt for p. Deræst udytter vi, at x = y for at få 6.4). Vi viser u, at π er e ivariat tæthed. Til dette beyttes, at px, ) er tæthede for Px, ), hvilket giver, at πx)px, A) = x Ω y A = x Ω y A x Ω πx) px, y) πy) py, x) = πy) py, x) y A x Ω = πy) 6.5) y A = ΠA). 59

Ved 6.5) har vi beyttet, at p er e tæthed og derfor summer til é. Dermed er pukt 1 bevist. For at bevise pukt 2, at kæde er reversibel, skal vises, at DBC medfører X 0, X 1 ) X 1, X 0 ). Bemærk, at πx 0 )px 0, x 1 ) er sadsylighede for at være i x 0 og derfra hoppe til x 1, dvs. tæthede for kæde X 0, X 1 ). DBC giver, at πx 0 )px 0, x 1 ) = πx 1 )px 1, x 0 ), og dermed er X 0, X 1 ) X 1, X 0 ). For at bevise pukt 3 skal vi bevise, at px 0, x 1,..., x ) = px,..., x 1, x 0 ), dvs. at PX 0 = x 0, X 1 = x 1,..., X = x ) = PX 0 = x,..., X 1 = x 1, X = x 0 ). Dette ses ved følgede udregiger: PX 0 = x 0, X 1 = x 1,..., X = x ) =PX 0 = x 0 )PX 1 = x 1 X 0 = x 0 )PX 2 = x 2 X 1 = x 1, X 0 = x 0 ) PX = x X 1 = x 1,..., X 1 = x 1, X 0 = x 0 ) 6.6) =PX 0 = x 0 )PX 1 = x 1 X 0 = x 0 )PX 2 = x 2 X 1 = x 1 ) PX = x X 1 = x 1 )6.7) =πx 0 = x 0 )PX 1 = x 1 X 0 = x 0 )PX 2 = x 2 X 1 = x 1 ) PX = x X 1 = x 1 )6.8) =PX 1 = x 0 X 0 = x 1 )πx 1 = x 1 )PX 2 = x 2 X 1 = x 1 ) PX = x X 1 = x 1 )6.9) =PX 1 = x 0 X 0 = x 1 )PX 2 = x 1 X 1 = x 2 )πx 2 = x 2 ) PX = x X 1 = x 1 6.10) ) =PX 1 = x 0 X 0 = x 1 )PX 2 = x 1 X 1 = x 2 ) PX = x 1 X 1 = x )πx = x 6.11) ) =PX 1 = x 0 X 0 = x 1 )PX 2 = x 1 X 1 = x 2 ) PX = x 1 X 1 = x )πx 0 = x 6.12) ) =PX = x 0 X 1 = x 1 ) PX 1 = x 1 X 0 = x )PX 0 = x ) 6.13) =PX = x 0 X 1 = x 1,..., X 0 = x ) PX 1 = x 1 X 0 = x )PX 0 = x ) 6.14) =PX 0 = x )PX 1 = x 1 X 0 = x ) PX = x 0 X 1 = x 1,..., X 0 = x ) =PX 0 = x, X 1 = x 1,..., X 1 = x 1, X = x 0 ), hvor der i 6.6) beyttes love om total sadsylighed, og 6.7) kommer af markovegeskabe. Pr. atagelse haves at X 0 π, som bruges i 6.8). I 6.9), 6.10) og 6.11) bruges, at DBC er opfyldt. I 6.12) beyttes, at π er e ivariat tæthed jf. pukt 1, hvorved πx = x ) = πx o = x ). Omskrivige i 6.13) ka laves, fordi Markovkæde er tidshomoge, dvs. sadsylighede for at hoppe fra e tilstad til e ade, er de samme, ligegyldigt i hvilket skridt ma befider sig. Markovegeskabe beyttes ige i 6.14), hvorefter reversibilitete er vist. 6.1.1 Irreducibilitet og periodicitet Herefter følger et par adre vigtige begreber omkrig Markovkæder. Defiitio 6.7 Irreducibelitet og Harris-rekurres). Atag, at Π er ivariat fordelig for e Markovkæde. Da gælder der om kæde, at de er π-irreducibel, hvis der for alle x Ω og for alle A Ω med ΠA) > 0, eksisterer et N, så P x, A) > 0. Harris-rekurret, hvis der gælder, at x Ω, A Ω, ΠA) > 0 : PX A for uedeligt mage X 0 = x) = 1. Dee defiitio leder frem til Store Tals Stærke Lov, der viser, at π-irreducibilitet medfører, at det aritmetiske geemsit fugerer som kosistet estimator for middelværdie, hvilket betyder, at det aritmetiske geemsit her ˆθ ) går mod middelværdie. Dee sætige medtages ude bevis. 60

Sætig 6.8 Store Tals Stærke Lov for Markovkæder). Fra [Berthelse & Møller, 2004, Theorem 1, s.7]. Lad X 0, X 1,...) være e π-irreducibel Markovkæde med ivariat tæthed π, og lad h : Ω R være e fuktio, såda at middelværdie θ = E x [hx)] = Ω hx)πx)dx eksisterer. For m 0, lad være det aritmetiske geemsit. ˆθ := 1 m+ + 1 i=m hx i ) Da eksisterer der et C Ω, såda at ΠC) = 1, og for alle x C gælder P ˆθ θ for X 0 = x) = 1. Hvis kæde er Harris-rekurret, ka beyttes C = Ω. Valget af m afhæger af, om der øskes et bur-i, som er det tidspukt, hvor fordelige af X m er tilstrækkelig tæt på de ivariate fordelig π. Dette kræver, at der eksisterer e græsefordelig, hvilket vi vil komme ærmere id på efter e defiitio af periodicitet. Defiitio 6.9 Periodicitet). E Π-irreducibel Markovkæde er periodisk med periode, hvis tilstadsrummet ka deles op i + 1 parvist disjukte mægder A 0, A 1,..., A, så såda at ΠA ) = 0, og Ω = A 0 A 1 A, x A i 1 Px, A i ) = 1 for i = 1,..., 1 x A 1 Px, A 0 ) = 1. og Selvom sadsylighede for at komme til A er ul, så er mægde medtaget, fordi det er muligt at starte deri. Sker det, spriges æste gag ud fra A, og Markovkæde kommer aldrig tilbage ige. Sætig 6.10 Koverges af Markovkæder). Givet e π-irreducibel og aperiodisk Markovkæde med ivariat fordelig π. Så eksisterer der e mægde C Ω, såda at ΠC) = 1 og for alle x C og for alle A Ω gælder, at PX A X 0 = x) d ΠA) for. Hvis kæde er Harris-rekurret, ka ma lade C = Ω. 6.2 Mote Carlo statistical methods This sectio is based o [Berthelse & Møller, 2004]. The basic priciple uderlyig the methods described i this sectio is to use a ergodic Markov chai with ivariat distributio π ergodic chais, also called irreducible, are those chais for which it is possible to go from every state to every state [Elizalde, 2006]). 61

For a arbitrary startig value X 0, a Markov chai X 0, X 1,...) is geerated usig a trasitio kerel with ivariat distributio π, which esures the covergece i distributio of X to π. Note that, sice the chai is ergodic, the startig value X 0 is i priciple uimportat as by defiitio, ergodic chais ca reach every state startig from ay state). Defiitio 6.11 Markov Chai Mote Carlo MCMC) method). A MCMC method is a- y method for the simulatio of a distributio π producig a ergodic Markov chai X whose ivariat distributio is π. The re)discovery of MCMC methods i the 1990s has lead to sigificat progress i simulatiobased iferece particularly i Bayesia iferece), by allowig the aalysis of models too complex to be processed by previous schemes. I this sectio we will first discuss a very geeral MCMC method, the Metropolis-Hastigs algorithm, ad afterwards we will focus o a specific case of this algorithm, amely the Gibbs sampler. Oe ca propose a ifiite umber of practical implemetatios; the special iterest of the Metropolis-Hastigs is that this algorithm has the advatage of imposig miimal requiremets o the target desity π ad allows for a wide choice of possible implemetatios. 6.2.1 Metropolis-Hastigs algorithm The Metropolis-Hastigs algorithm is due to Metropolis et al., 1953, ad Hastigs, 1970. T- he mai idea is to create a irreducible Markov chai with ivariat distributio π that ca be used to geerate a sequece of samples from a probability distributio that is difficult to sample from directly. Oe ca prove that π is ivariat by costructio ad uder a further assumptio the Metropolis-Hastigs chai is irreducible [Berthelse & Møller, 2004, s. 11]. The Metropolis-Hastigs algorithm is very geerally applicable, as it ca draw samples from ay probability distributio πx). Aother appealig feature of the Metropolis-Hastigs algorithm is that to geerate a sample of π we eed oly to kow π up to proportioality, ad this is particularly useful, as i Bayesia applicatios the ormalizatio factor is ofte extremely difficult to compute [Wikipedia] ad [Berthelse & Møller, 2004]. Let us cosider the followig problem: give a target desity π ad a proposal desity qx, y), how to specify the acceptace probability ax, y)? Recall the DBC give by defiitio 6.5 x = y : πx)qx, y)ax, y) = πy)qy, x)ay, x). 6.15) If πx)qx, y) > 0, the latter ca be rewritte as where ax, y) = Hx, y)ay, x) Hx, y) = πy)qy, x) πx)qx, y). This fractio is called the Hastigs ratio. Wheever it occurs that πx)qx, y) = 0, we set Hx, y) =. By settig ax, y) = mi{1, Hx, y)} 6.16) the 6.15) is satisfied [Berthelse & Møller, 2004, s. 12]. Oe ca prove that if 6.15) should be satisfied, the the highest acceptace probabilities are obtaied by the choice 6.16). This motivates that it is a good choice of ax, y), because whe we propose somethig, we have the greatest possible probability of acceptig. The Metropolis-Hastigs algorithm uses this choice ad will be described below. Metropolis-Hastigs algorithm. Let the iitial state X 0 = x be such that πx) > 0. For = 0, 1,... give X we 62

geerate U +1 uif0, 1) ad Y +1 from the desity y qx, y) the we set { Y+1 if U X +1 = +1 HX, Y +1 ) otherwise. X Sice the Metropolis-Hastigs algorithm oly depeds o π through the ratio πy +1 )/πx ) from the Hastigs ratio), we eed oly to kow π up to proportioality, because costat factors cacel each other. This meas, that we ca work with o-ormalized desities. Oe ca prove that if qx, y) > 0 x, y Ω the the Metropolis-Hastigs chai is irreducible also called ergodic) [Berthelse & Møller, 2004, s. 11]. 6.2.2 Gibbs sampler The Gibbs sampler itroduced i the cotext of image processig by Gema ad Gema i 1984), is a special case of Metropolis-Hastigs algorithm wherei the radom value is always accepted i.e. ax, y i ) = 1). The task of the Gibbs sampler is oce agai to costruct a Markov Chai whose values coverge to the target distributio. The Gibbs sampler oly cosiders uivariate coditioal distributios, i.e. the distributio whe all of the radom variables but oe are fixed: the advatage is that these coditioal distributios are easier to simulate tha complex joit distributios ad usually have simple forms ofte beig ormals, iverse χ 2, or other commo prior distributios). Thus, the trick is to simulate k radom variables sequetially from the k uivariate coditioals rather tha geeratig a sigle k-dimesioal vector i a sigle pass usig the full joit distributio [Paiski, 2004]. Suppose that the state space Ω R d is a product space Ω = Ω 1 Ω 2 Ω k where Ω i R d i ad k d i = d. Let X be a radom vector with the desity π ad let us write X = X 1, X 2,..., X k ) where the i th compoet X i for i = 1, 2,..., k is the projectio of X o Ω i. It is possible that these compoets are vectors, but to avoid cofusio we will ot follow i this specific case the covetio of writig vectors i bold. Let X i = X 1,..., X i 1, X i+1,..., X k ), so the state space of X i is Ω i = Ω 1 Ω i 1 Ω i+1 Ω k. Gibbs samplig cosists i simulatig from the coditioal distributios of X i give X i for i = 1, 2,..., k. For simplicity, let us assume that x Ω : πx) > 0. 6.17) The desity of X i is give by π i x i ) = πx 1,..., x i 1, y i, x i+1,..., x k )dy i > 0, x i Ω i, Ω i 63

where we get from 6.17) that it is greater tha zero. The coditioal desity of X i give X i = x i is give by π i x i x i ) = πx) π i x i ), x i Ω i with x specified i accordace with x i ad x i, i.e. x = x 1,..., x i 1, x i, x i+1,..., x k ). The, if P i x i ) deotes the coditioal distributio of X i give X i = x i, we have P i A x i ) = PX i A X i = x i ) = π i x i x i )dx i, A Ω i. A The desities π i x i x i ) are called full coditioals. A feature of the Gibbs sampler is that the oly desities used for simulatio are the full coditioals. The advatage is therefore that eve i high-dimesioal problems all of the simulatios may be low-dimesioal if all the d i s are small, because x i Ω i R d i with d i < d. Let us deote the Markov chai i Gibbs samplig with X[] = X 1 [], X 2 [],..., X k []), = 0, 1,... The for the Gibbs samplig usig a cyclic updatig scheme, give X[] we geerate X[ + 1] by updatig first X 1 [ + 1], the X 2 [ + 1],..., ad fially X k [ + 1] as follows: Sice X 1 [ + 1] draw from P 1 X 2 [],..., X k []) X 2 [ + 1] draw from P 2 X 1 [ + 1], X 3 [],..., X k []). X k [ + 1] draw from P 1 X 1 [ + 1],..., X k 1 [ + 1]) X i [ + 1] X 1 [0], X 2 [0],..., X i 1 [ + 1]) X i [ + 1] X 1 [ + 1],..., X i 1 [ + 1], X i+1 [],..., X k []) we have that X[0], X[1],...) is a homogeeous Markov chai. A Gibbs sampler usig a cyclic updatig scheme is ot reversible, but each update is reversible, as for ay x Ω ad y i Ω i, ad lettig y = x 1,..., x i 1, y i, x i+1,..., x k ), we have the detailed balace πx)π i y i x i ) = πx) πy) π i x i ) = πy)π ix i x i ) ad from [Berthelse & Møller, 2004, s. 6] we kow that the DBC implies that a chai is reversible. 6.2.3 Metropolis-withi-Gibbs algorithms If oly the distributios of some of the parameters are simple eough to be sampled directly, the Gibbs sampler is used together with the Metropolis-Hastigs algorithm. The Gibbs sampler is used to sample from the simple distributios, whereas the Metropolis-Hastigs algorithm is used to sample from the complex distributios. We ca the sample them from π i by a Metropolis-Hastigs sub-chai iside a Gibbs samplig cycle this meas that these particular compoets are sampled from a proposal q i with acceptace probabilities accordig to 6.16)). This samplig scheme is kow as Metropolis-withi-Gibbs. 64

6.2.4 Output aalysis Whe MCMC samples are used, at least two problems arise: assessmet of covergece of Markov chais ad subsamplig of Markov chais. Assessmet of covergece. The bur-i time is defied as the time j N 0 at which the margial distributio of a Markov chai state X j is close eough to its limit distributio Π for all practical purposes provided theorem 6.10 is applicable). A simple graphical method to determie the bur-i time is to check out the so-called trace plots kx m ), m = 0, 1,..., for various real fuctios k, to see whether the chai has reached the equilibrium or ot. Subsamplig. Whe oes uses oly the subchai X j, X j+s, X j+2s,... for a give j N 0, we say that a subsamplig with spacig s 2 is used. Reasos to use samplig could be e.g. whe plottig or to reduce samples storage problems, whe we have a certai limited amout of memory, ad we wat to sample for a certai time, i which case we have to lower the resolutio of the samplig. 65

Del II Dataaalyse 67

Idholdsfortegelse 7 Itroduktio 69 7.1 Aalysebeskrivelser.................................. 70 7.2 Modelkotrol..................................... 74 8 Aalyse af HbA1c-differes 81 8.1 Normalfordelt stikprøve............................... 81 8.2 Sammeligig af to stikprøver........................... 86 8.3 Lieær regressio med é variabel......................... 91 9 Aalyse af atal hypoglykæmier 97 9.1 Poisso-fordelige som likelihood........................ 100 9.2 Koklusio....................................... 114 10 Koklusio 115 Litteratur 117

7 Itroduktio I dee del af rapporte vil selve dataaalyse blive behadlet. Det vil ske ved avedelse af de teori, der tidligere er blevet idført. Da det primære formål er at aalysere, hvilke medici der er de bedste, vil vi hovedsageligt kigge på to faktorer: 1. HbA1c-differese mellem start og slut dermed er e positiv differes esbetydede med at HbA1c-iveauet er faldet) og 2. atal hypoglykæmier, da vi aser dem som de primære idikatorer for, hvor gode medikametere er. Sekudære aalysemål er at fide frem til, hvorda visse parametre har idflydelse på virkige af medicie. Derfor vil der også blive lavet e lieær regressio på visse ormalfordelte parametre for at aalysere e evetuel sammehæg. Udover selve aalyse vil der blive foretaget sesitivitetsaalyse og modelkotrol. Måde, vi vil aalysere de to faktorer på, er ved at beytte det øvrige data, der er til rådighed, samt teorie itroduceret tidligere. Om datasættet Ide vi går ærmere id på kokrete aalyser, er der et par bemærkiger til dataee: BMI Da de registrerede BMI afveg fra de, ma får, år ma udreger BMIe på baggrud af de registrerede højde og vægt se figur 7.1), er de registrerede BMI forkastet, og i stedet er der udreget e y på baggrud af de registrerede højde og vægt. Datagrudlag for lille Når data opdeles på diverse leder og kater, er det ikke altid, at datagrudlaget er stort ok til at drage koklusioer ud fra. Det er aturligvis subjektivt, hvor dee græse sættes. Til at bearbejde data med er programpakke R beyttet. Der er lavet e del bearbejdig af dataee for at forberede aalyse. Bl.a. er datoer parset til datotype i R. Ydermere er visse oplysiger hetet ud af det ee datasæt og id i det adet. Eksempelvis er datasættet baselie kopieret til baselie_hba1c_diff, hvor der er tilføjet data; eksempelvis HbA1c-differese mellem start og slut dee værdi fås ved at trække de sidste målig 69

Figur 7.1: Her ses at de registrerede BMI afviger fra de, ma får, år ma udreger BMIe på baggrud af de registrerede højde og vægt. De registrerede BMI er derfor udskiftet med de udregede. fra de første). Dermed bliver det muligt at aalysere på dette i sammehæg med data fra baselie. Al kode ka fides på hjemmeside http://people.math.aau.dk/~mikl/mat3/source.zip. For at gøre klar til at foretage aalysere skal ma idledigsvist køre kode i start.r. 7.1 Aalysebeskrivelser I dette afsit beskrives, hvilke af de registrerede parametre vi har valgt at kigge ærmere på. Afsittet er delt op efter hvilke teoretiske metoder, vi tidligere har beskrevet. Først bemærkes, hvorda ogle af de registrerede data er fordelt. Følgede data ser på baggrud af QQ-plots ud til at være ormalfordelt: BMI se figur 7.2 WC waist-circumferece, dvs. livvidde/taljemål) se figur 7.3 Højde se figur 7.4 Vægt se figur 7.5 HbA1c-differese mellem start og slut dee værdi fås ved at trække de sidste målig fra de første) se figur 7.6 I datasættet hypos er der ige data, som umiddelbart ser ormalfordelt ud, så her ka QQplots ikke bruges til at afgøre fordeligere. For at lave aalyse på baggrud af atallet af hypoglykæmier, er det derfor ødvedigt at fide e diskret fordelig, der svarer til dataee. 70

Figur 7.2: QQ-plot af BMI. Data ser ud til at være ormalfordelt. Figur 7.3: QQ-plot af WC taljemål). Data ser ud til at være ormalfordelt. Figur 7.4: QQ-plot af højde. Data ser ud til at være ormalfordelt. 71

Figur 7.5: QQ-plot af vægte. Data ser ud til at være ormalfordelt. Figur 7.6: QQ-plot af HbA1c-differese mellem start- og slutværdiere udreget som start- mius slutværdie således at et fald HbA1c-værdie resulterer i e positiv værdi). Data ser ud til at være ormalfordelt. 72

7.1.1 Normalfordelt stikprøve Som ævt idikerer figur 7.6, at HbA1c-differese er ormalfordelt. Derfor laves der e bayesiask dataaalyse med HbA1c-differese som ormalfordelt stikprøve med ukedt middelværdi og ukedt varias. Aalyse laves på baggrud af teorie i afsit 3.1.3, og der laves separate aalyser for de to medikameter samt aalyser af deres virkig i forhold til forskellige racer. 7.1.2 Sammeligig af to stikprøver Metode med sammeligig af to stikprøver giver mulighed for at sammelige to stikprøvers middelværdi. På grudlag af de registrerede parametre ka metode avedes til at kigge ærmere på: Hvilket medikamet forårsager de største HbA1c-differes? Ude at betige med adre oplysiger viser der sig så i almidelighed e tedes til, hvilket medikamet der forårsager de største HbA1c-differes? Er der forskel på HbA1c-differese, år ma betiger med race? Virker ét medikamet bedst på é race og et adet bedre på e ade race? Eller er der e geerel tedes til, at é race bare i almidelighed har større HbA1c-differes? Derfor bliver der både lavet aalyse for Sammeligig af HbA1c-differese mellem to forskellige racer Sammeligig af HbA1c-differese mellem to forskellige racer, år der ku ses på patieter på BIAsp30 Sammeligig af HbA1c-differese mellem to forskellige racer, år der ku ses på patieter på Glargie Sammeligig af HbA1c-differese mellem BIAsp30 og Glargie, år der betiges med e bestemt race Er der forskel på HbA1c-differese, år ma betiger med evt. sygdom? Ka det være, at patieter med diabetes ephropathy yrepåvirkiger) har e aderledes HbA1c-differes ed folk ude? I datasættet er sygdomme udelukkede registreret som værede til stede Y) eller ej værede til stede N). Derfor skal der laves tilsvarede aalyser som i foregåede pukt, blot med Y/N i stedet for at sammeholde to racer. Det drejer sig om følgede symptomer: DIAB_MAC macroagiopathy / dårligt blodomløb) DIAB_NEP diabetes ephropathy / yrepåvirkiger) DIAB_NEU diabetes europathy / ervepåvirkiger) DIAB_RET diabetes retiopathy / øjeproblemer) 7.1.3 Lieær regressio Med metode lieær regressio er det muligt at aalysere e evetuel sammehæg mellem dataee. I dee aalyse vil vi ku avede é regressiosvariabel. I forbidelse med dette forsøg vil det være iteressat at kigge ærmere på: HbA1c-differes vs. BMI Hvorda afhæger HbA1c-differese af BMIe? HbA1c-differes vs. WC Hvorda afhæger HbA1c-differese af taljemålet? 73

HbA1c-differes vs. højde Hvorda afhæger HbA1c-differese af højde? HbA1c-differes vs. vægt Hvorda afhæger HbA1c-differese af vægte? Som i afsit 7.1.2 bliver disse pukter aalyseret på flere måder; bl.a. for hvert medikamet. 7.1.4 Samplig For at udersøge hvilke medici der har de bedste virkig på atallet af hypoglykæmier, kræver det brug af adre metoder ed de ævte, som alle bygger på ormalfordelt data. Dette er bekvemt, eftersom vi i teoriafsittet har geemgået e række metoder, der forudsætter, at dataee er ormalfordelt. Da atallet af hypoglykæmier ikke er ormalfordelt, ka det blive ødvedigt at sample fra fordelige. Dette gøres vha. hierarkiske modeller og Markovkæde Mote Carlo-teorie, hvor sidstævte er geemgået i afsit 6.1. 7.2 Modelkotrol Dette afsit er baseret på [Gelma et al., 2003, kap. 6], der bl.a. på s. 157 skriver Checkig the model is crucial to statistical aalysis. Herefter argumeteres for, at det ikke er ok at lave sesitivitetsaalyse af priore, me at modelkotrol af likelihood er midst lige så væsetligt. E vigtig poite er også, at e model ikke ka siges at være rigtig eller forkert, me at ma i stedet ærmere skal udersøge, om e models svagheder har e markat betydig for de statistiske iferes. Vi vil ikke diskutere ødvedighede af modelkotrol og ej heller pricippere for e såda ærmere, me i stedet blot følge retigsliiere i kilde til at foretage modelkotrol. E diskussio af det ævte ka fides i kilde. Hvis modelle er god, skal data simuleret fra de lige det observerede data. De ye data baseret på de prædiktive fordelig svarer til e slags geskabelse af dataee. Det observerede data skal altså være sadsyligt i de prædiktive fordelig. Uoveresstemmelser ka dermed ete skyldes tilfældighed, eller at modelle har magler. Lad y være e stikprøve, og lad θ være parametre. Data simuleret fra de prædiktive fordelig kaldes ỹ. Dermed er ỹ data, vi uder de aktuelle model kue have fået ved de æste observatioer af det eksperimet med parametree θ, der gav y. Dermed atages y og ỹ at være uafhægige givet θ, så de prædiktive fordelig er p ỹ y) = p ỹ, θ y) dθ = p θ y) p ỹ θ, y) dθ = p θ y) p ỹ θ) dθ. Vi ka dermed sample fra fordelige p ỹ y) ved at gøre følgede: 1. θ y simuleres fra posterior p θ y), og deræst skal 2. ỹ θ simuleres fra observatiosmodelle for y θ med θ fudet i tri 1. Hvad ma så skal kigge efter i de simulerede værdier, afhæger af modelle, data osv. Det ka eksempelvis være de midste værdi eller helt adre tig. Derfor ka ma ikke umiddelbart sige, hvad ma geerelt skal kigge efter. 74

Eksempel 7.1 Modelkotrol af HbA1c-differese mellem start og slut). I flere tilfælde atager vi, at HbA1c-differese mellem start og slut er ormalfordelt med ukedt middelværdi θ R og ukedt varias ϕ > 0. Lad y = y 1, y 2,..., y ) være HbA1c-differese. Så er observatiosmodelle y i θ, ϕ Nθ, ϕ) for i = 1, 2,...,. Ved brug af sætig 3.5 med prior pθ, ϕ) = ϕ 1 fås dermed a posteriori, at ϕ y Sχ 2 ν og θ y, ϕ N y, ϕ ) for ν = 1 og S = y i y) 2. Vi foretager u modelkotrol ved at lave 15 simuleriger af ỹ ved at gøre følgede for i = 1, 2,..., 15: 1. ϕ i y simuleres fra posterior p ϕ i y), der her er ϕ i y Sχ 2 ν 2. θ i y, ϕ i simuleres fra posterior p θ i y, ϕ i ), der i dette tilfælde er θ i y, ϕ i N y, ϕ i 3. ỹ θ i, ϕ i simuleres fra observatiosmodelle for y θ i, ϕ i med θ i og ϕ i fudet i tri 1 og 2. Dette gøres ved at simulere gage fra Nθ i, ϕ i ). Dette ka implemeteres i R således: 1 # Specify breaks iterval of histograms 2 breaks_it < seq-10, 10, 0.5) 3 4 # How may rows ad colums 5 a < 4 6 b < 4 7 parmfrow = ca, b)) 8 parcex = 1.2) 9 10 N < a b 11 12 modelkotrol < fuctioy) 13 { 14 if legthy) == 0) 15 { 16 stop"legthy) == 0") 17 } 18 19 y < y[!is.ay)] 20 21 ystreg < meay) 22 < legthy) 23 u < - 1 24 S < sumy - ystreg)^2) 25 26 phi < NULL 27 theta < NULL 28 y.tilde < NULL 29 30 histy, xlab = paste"mea = ", roudmeay), 2), ", var = ", roudvary), 2), sep = ""), 31 prob = T, xlim = c-4, 6), ylim = c0, 0.5), breaks = 20) 32 33 for i i 1:N-1)) 34 { 35 phi < rivchisq1, df = u, scale = S) 36 theta < rorm1, mea = ystreg, sd = sqrtphi / )) 37 y.tilde < rorm, mea = theta, sd = sqrtphi)) 38 39 histy.tilde, xlab = paste 40 "theta = ", roudtheta, 2), ", phi = ", roudphi, 2), ) 75

41 "\mea = ", roudmeay.tilde), 2), ", var = ", roudvary.tilde), 2), sep = ""), 42 prob = T, xlim = c-4, 6), ylim = c0, 0.5), breaks = 20) 43 } 44 } 45 46 modelkotrolbaselie_hba1c_diff$hba1c_start_ed_diff) Listig 7.1: Uddrag fra modelkotrol-hba1c.r Resultatet af dette er vist vha. histogrammer i figur 7.7. Tilsvarede ka gøres for heholdsvis BIAsp30 og Glargie ved at køre é af følgede: 1 modelkotrolbaselie_hba1c_diff$hba1c_start_ed_diff[whichbaselie_hba1c_diff$trtseq_lb == "BIAsp30")]) 2 modelkotrolbaselie_hba1c_diff$hba1c_start_ed_diff[whichbaselie_hba1c_diff$trtseq_lb == "Glargie")]) Dermed fås figur 7.8 for patieter på BIAsp30 og figur 7.9 for patieter på Glargie. Es for alle tre modelkotroller er, at alle histogrammere, der fås af de 15 simulatioer, liger ormalfordeliger svarede til de for y forstået på de måde, at middelværdie og variase er omtret de samme. Dermed ka vi gå ud fra, at valget af modelle er tilfredsstillede. Ma er aturligvis ødt til at foretage e modelkotrol af alle de måder, ma vælger at kigge på datae på, da der er tale om forskellige modeller. Her er data opdelt efter medikamet, me det ka også opdeles efter eksempelvis kø, og dermed skal disse modeller også kotrolleres. 76

Figur 7.7: Modelkotrol af HbA1c-differese mellem start og slut med 15 simulatioer. 77

Figur 7.8: Modelkotrol af HbA1c-differese mellem start og slut for patieter på BIAsp30 med 15 simulatioer. 78

Figur 7.9: Modelkotrol af HbA1c-differese mellem start og slut for patieter på Glargie med 15 simulatioer. 79

8 Aalyse af HbA1c-differes Da målet med at tage diabetesmedici er at edbrige blodsukkeret i håb om at det grudet isulie bliver optaget i kroppe), er e oplagt parameter at måle på etop differese i blodsukkeret. I forsøget er blodsukkeret målt som HbA1c, og i dette afsit aalyseres differese i HbA1c-iveau for patieter med heholdsvis BIAsp30 eller Glargie medici. Udover at se på forskelle mellem de to medikameter, vil der også blive aalyseret på adre parametre, heruder hvorda race, kø og type af evetuelle symptomer har idflydelse på differese i HbA1c-iveauet. 8.1 Normalfordelt stikprøve I figur 8.1 ses et plot af HbA1c-differese mellem start- og slutværdiere uder forløbet. Som det ses i QQ-plottet ser data ud til at være ormalfordelt, og derfor er der lagt e ormalfordeligstæthed id i histogrammet med de empiriske værdier for middelværdi og varias som parametre. Der er ikke de store forskel på de to medikameter, me det fremgår dog, at BIAsp30 har e lidt højere empirisk middelværdi og lavere varias ed Glargie. Da differese i HbA1c-iveauet ser ud til at være ormalfordelt, bliver der i dette afsit opstillet e model for hver af de to medikameter, hvor dataee atages at være ormalfordelte med ukedt middelværdi og varias. Vi har ige forhådsvide om, hvorda middelværdie og variase er fordelt. Derfor beyttes priore pθ, ϕ) 1 ϕ. Først laves e model for BIAsp30. Da dataee givet θ og ϕ er ormalfordelte, og vi beytter e uegetlig prior, ka vi avede sætig 3.5. Fra dataee fås, at hvorefter vi udreger S = s = = 221, ν = 1 = 220, x = 1.786, 221 x i x) 2 = 243.27, S 1 = S 1) = 243.27 221 220 = 0.07073. 81

Figur 8.1: HbA1c-differese mellem start- og slutværdiere udreget som start- mius slutværdie således at et fald i HbA1c-værdie resulterer i e positiv værdi). Data ser ud til at være ormalfordelt. 82

HbA1c-differes BIAsp30 Glargie Middelværdi Varias Middelværdi Varias Empirisk værdi 1.786 1.0515 1.7298 1.2448 95% CPI for posterior [1.647, 1.925] [1.300, 1.879] [1.567, 1.892] [1.230, 1.879] Tabel 8.1: Opsummerig af middelværdi og varias Fra sætig 3.5 fås, at θ x s x t ν. Altså er θ fordelt såda, at hvoraf det ses, at θ 1.786 0.07073 x t 220, θ x 1.786 + 0.07073 t 220. For at udersøge fordelige ærmere vil vi fide 95% CPI for θ, hvilket gøres ved at fide fraktiler for t-fordelige. Dette gøres i R vha. fuktioe qt. Det viser sig, at 2.5% og 97.5% fraktilere er ±0.1394. Dette betyder, at 95% CPI for θ er itervallet [1.786 0.07073 0.1394, 1.786 + 0.07073 0.1394] = [1.647, 1.925]. Variase er ifølge sætig 3.5 fordelt som ϕ x Sχ 2 1, så i dette tilfælde fås, at Heraf fås 95% CPI til at være [1.300, 1.879]. ϕ x 0.07073χ 2 220. For Glargie laves e tilsvarede model. Her er = 228 og x = 1.730. På baggrud af de samme udregiger som ved BIAsp30 ka det vises, at θ x 1.730 + 0.08244 t 227, hvor 2.5% og 97.5% fraktilere for t-fordelige er ±1.970. Derved bliver 95% CPI for θ itervallet [1.567, 1.892]. Som 95% CPI for ϕ får vi itervallet [1.230, 1.879]. Modelle uderstøtter altså vores forvetiger fra de deskriptive aalyse, om at middelværdie ligger lidt højere for BIAsp30 ed for Glargie, dvs. BIAsp30-medicie vil geemsitligt give et lidt større fald i HbA1c-iveauet. Det er dog meget små forskelle, så det er begræset hvor meget vi ka kokludere ud fra dette. I tabel 8.1 ses middelværdier, variaser og 95% CPI for de to medikameter. Opdelt efter racer Tidligere er HbA1c-differese mellem start- og slutværdiere blevet aalyseret udelukkede opdelt efter medikamet. Nu opdeles data yderligere efter patietes race, for at se om visse racers geer har idflydelse på virkige af medikametere. Racere Black, Native og Other er ikke medtaget, da Asia og White er de to største grupper, hvorfor vi har valgt udelukkede at fokusere på dem i dee del af aalyse. Vi vil seere medtage Black og Native. På figur 8.2 og 8.3 er dataee for hhv. Asia og White plottet. Det ses, at dataee er ormalfordelte. Der er derfor avedt samme fremgagsmåde til at fide 95% CPI for både middelværdie og variase. Disse resultater ses for middelværdie i tabel 8.2 og for variase i tabel 8.3. Det fremgår af aalyse, at hvide geerelt har mere gav af både Glargie og BIAsp30 ed asiatere. Derudover viser aalyse, at BIAsp30 virker bedre på asiatere ed Glargie hvorimod det omvedte gør sig gældede for hvide. 83

Figur 8.2: HbA1c-differes for asiater mellem start- og slutværdiere udreget som startmius slutværdie således at et fald HbA1c-værdie resulterer i e positiv værdi). Data ser ud til at være ormalfordelt. BIAsp30 Glargie Race Middelværdi 95% CPI Middelværdi 95% CPI Asia 1.6562 [ 1.4246, 1.8877 ] 1.4474 [ 1.1476, 1.7471 ] White 1.7328 [ 1.5479, 1.9177 ] 1.9047 [ 1.7229, 2.0865 ] Tabel 8.2: Middelværdie for HbA1c-differese før og efter forsøget fordelt på racer BIAsp30 Glargie Race Varias 95% CPI Varias 95% CPI Asia 0.99247 [ 0.72848, 1.4064 ] 1.3116 [ 1.2796, 2.4372 ] White 1.0186 [ 0.81638, 1.3629 ] 1.0394 [ 0.85715, 1.4045 ] Tabel 8.3: Variase for HbA1c-differese før og efter forsøget fordelt på racer 84

Figur 8.3: HbA1c-differes for hvide mellem start- og slutværdiere udreget som startmius slutværdie således at et fald HbA1c-værdie resulterer i e positiv værdi). Data ser ud til at være ormalfordelt. 85

8.2 Sammeligig af to stikprøver I dette afsit aalyseres HbA1c-differese mellem to stikprøver, der er geereret ved at dele datasættet op efter forskellige faktorer. 8.2.1 Opstillig af model I afsit 7.1.2 blev der beskrevet ogle mulige faktorer. I aalyse opdeler vi dataee efter følgede faktorer: Medikamet BIAsp30 og Glargie) Kø Racer hvid, asiat, sort og idiaer) DIAB_MAC macroagiopathy / dårligt blodomløb) DIAB_NEP diabetes ephropathy / yrepåvirkiger) DIAB_NEU diabetes europathy / ervepåvirkiger) DIAB_RET diabetes retiopathy / øjeproblemer) Aalyse er foretaget vha. sætig 3.7 Behres-Fisher-problemet). Heri fås, at T = δ x y) s 2 x/m + s 2 y/ x, y BFν x, ν y, θ). Da R ikke ka fide fraktiler i BF-fordelige direkte, bemærkes det, at vi fra beviset for sætig 3.7 har, at defiitioe for BF-fordelige er T = T x siθ) T y cosθ), hvor T x = siθ) = λ x s 2 x /m x t ν x og T y = µ y s 2 y t ν y, y/ s 2 y / og cosθ) = s 2 x/m + s 2 y/. s 2 x/m s 2 x/m + s 2 y/ Da fås dermed, at δ = T = δ x y) = T x siθ) T y cosθ), s 2 x/m + s 2 y/ s 2 x/m + s 2 y/ T x siθ) T y cosθ) ) + x y), hvilket ka beyttes til at fide fraktiler i BF-fordelige vha. simulerig af T x og T y fra t-fordelige ved at bruge fuktioe rt. Vi har valgt at foretage 1.000.000 simulatioer af både T x og T y for at få e forholdsvis præcis fraktil. Faktorere kombieres på forskellige leder og kater. Et udsit af disse kombiatioer er BIAsp30 vs. Glargie 86

For BIAsp30 sammeliges bl.a. kvider vs. mæd asiatere vs. hvide persoer med og ude ervepåvirkiger De samme faktorer sammeliges for Glargie Tilsvarede kombiatioer laves for de resterede faktorer. Dette giver e række kombiatiosmuligheder for sammeligiger med og ude fastholdelse af forskellige faktorer. Disse kombiatioer er lavet vha. matrice factors, der ideholder e række for hver perso i forsøget, og faktorere optræder som koloere. Sidstævte er struktureret således, at to faktorer, der skal sammeliges, står i tilstødede koloer. Derfor vil der eksempelvis være flere koloer ideholdede datae for asiatere, eftersom dee race skal sammeliges med både hvide, sorte og idiaere. Realiserige af dette ka ses i R-implemeterige i listig 8.1. 1 cpi < 95 2 output.file < paste"hba1c-differes-start-slut-to-stikprover-", cpi, "CPI.txt", sep="") 3 4 hba1c.differece.start.slut.to_stikprover < fuctioidex1, idex2, cpi) 5 { 6 idex_x < whichidex1) 7 idex_y < whichidex2) 8 9 if legthidex_x) < 3 legthidex_y) < 3) 10 { 11 cat"compare ot doe because legthx) =", legthidex_x), "ad legthy) =", legthidex_y), "\", file=output.file, apped=t) 12 retur) 13 } 14 15 x < baselie_hba1c_diff$hba1c_start_ed_diff[idex_x] 16 x < x[!is.ax)] 17 m < legthx) 18 xstreg < meax) 19 20 y < baselie_hba1c_diff$hba1c_start_ed_diff[idex_y] 21 y < y[!is.ay)] 22 < legthy) 23 ystreg < meay) 24 25 cat"m = legthx) =", m, "og = legthy) =",, "\", file=output.file, apped=t) 26 27 v_x < m-1 28 v_y < -1 29 30 S_x < sumx-xstreg)^2) 31 S_y < sumy-ystreg)^2) 32 33 s2_x < S_x/v_x 34 s2_y < S_y/v_y 35 36 si_theta < sqrts2_x/m)/s2_x/m+s2_y/)) 37 cos_theta < sqrts2_y/)/s2_x/m+s2_y/)) 38 39 simulatio_tx < rt1000000, v_x) 40 simulatio_ty < rt1000000, v_y) 41 T_simuleret < simulatio_tx si_theta - simulatio_ty cos_theta 42 43 T_fraktil < quatilet_simuleret, c 100-cpi)/200, 100+cpi)/200 )) 44 45 delta_fraktil < T_fraktil sqrts2_x/m + s2_y/) + xstreg-ystreg) 46 47 catcpi, "% CPI for delta er [", delta_fraktil[1], ", ", delta_fraktil[2], "]\", sep="", file=output.file, apped=t) 48 } 49 50 cat"det er x - y, så et\", file=output.file, apped=t) 87

51 cat"iterval med værdier > 0 => middelværdie for x er større ed for y, og\", file=output.file, apped=t) 52 cat"iterval med værdier < 0 => middelværdie for y er større ed for x.\\", file=output.file, apped=t) 53 54 # Create a idex-matrix to be used to make all combiatios afterwards: 55 factors < matrixrow = rowbaselie_hba1c_diff), 56 dimames = listc), 57 c"trtseq_lb == BIAsp30", "trtseq_lb == Glargie", 58 "sex_id == F", "sex_id == M", 59 60 # Because of symmetri, this is eough: 61 "race == Asia", "race == Black", 62 "race == Asia", "race == Native", 63 "race == Asia", "race == White", 64 65 "race == Black", "race == Native", 66 "race == Black", "race == White", 67 68 "race == Native", "race == White", 69 70 "diab_eu == Y", "diab_eu == N", 71 "diab_ep == Y", "diab_ep == N", 72 "diab_mac == Y", "diab_mac == N", 73 "diab_ret == Y", "diab_ret == N")), 74 data = 75 c 76 baselie_hba1c_diff$trtseq_lb == "BIAsp30", baselie_hba1c_diff$trtseq_lb == "Glargie", 77 baselie_hba1c_diff$sex_id == "F", baselie_hba1c_diff$sex_id == "M", 78 79 baselie_hba1c_diff$race == "Asia", baselie_hba1c_diff$race == "Black", 80 baselie_hba1c_diff$race == "Asia", baselie_hba1c_diff$race == "Native", 81 baselie_hba1c_diff$race == "Asia", baselie_hba1c_diff$race == "White", 82 83 baselie_hba1c_diff$race == "Black", baselie_hba1c_diff$race == "Native", 84 baselie_hba1c_diff$race == "Black", baselie_hba1c_diff$race == "White", 85 86 baselie_hba1c_diff$race == "Native", baselie_hba1c_diff$race == "White", 87 88 baselie_hba1c_diff$diab_eu == "Y", baselie_hba1c_diff$diab_eu == "N", 89 baselie_hba1c_diff$diab_ep == "Y", baselie_hba1c_diff$diab_ep == "N", 90 baselie_hba1c_diff$diab_mac == "Y", baselie_hba1c_diff$diab_mac == "N", 91 baselie_hba1c_diff$diab_ret == "Y", baselie_hba1c_diff$diab_ret == "N" 92 )) 93 94 colidexes < seq1, colfactors) - 1, 2) 95 96 # This fuctio is used later o to compare a fixed value of the two possible) 97 # to all the other factors 98 compare.two.factors < fuctioi) 99 { 100 catrep"-", 20), "\", file=output.file, apped=t) 101 102 # This is to check whether i % 2 == 0 or 1 i order 103 # to figure out which idexes to remove because both 104 # i ad i+1 is iput to this fuctio 105 value.to.remove < ifelsei/2 == roudi/2, 0), i-1, i) 106 107 for j i colidexes[-whichcolidexes == value.to.remove)]) 108 { 109 catcolamesfactors)[i], "\", sep="", file=output.file, apped=t) 110 cat"x: ", colamesfactors)[j], ")\", sep="", file=output.file, apped=t) 111 cat"y: ", colamesfactors)[j+1], ")\", sep="", file=output.file, apped=t) 112 113 hba1c.differece.start.slut.to_stikprover 114 factors[,i] & factors[,j], 115 factors[,i] & factors[,j+1], 116 cpi) 117 118 cat"\", file=output.file, apped=t) 119 } 120 } 121 88

122 for i i colidexes) 123 { 124 catrep"=", 20), "\", file=output.file, apped=t) 125 126 ame < colamesfactors)[i] 127 128 cat"x: ", colamesfactors)[i], ")\", sep="", file=output.file, apped=t) 129 cat"y: ", colamesfactors)[i+1], ")\", sep="", file=output.file, apped=t) 130 131 hba1c.differece.start.slut.to_stikproverfactors[,i], factors[,i+1], cpi) 132 cat"\", file=output.file, apped=t) 133 134 compare.two.factorsi) 135 compare.two.factorsi+1) 136 } Listig 8.1: Uddrag af hba1c-differes-start-slut-to-stikprover.r Af listig 8.1 fremgår det, at outputtet af kode omdirigeres til e tekstfil. Det skyldes, at kode således ku behøver at blive kørt é gag, da vi derefter blot ka fremfide resultatere af eksekverige i file. Dette er praktisk, eftersom der foretages é millio simulatioer af både T x og T y, hver gag fuktioe hba1c.differece.start.slut.to_stikprover kaldes, så det tager forholdsvist lag tid at eksekvere kode. 8.2.2 Resultater Resultatet af eksekverige af kode i listig 8.1 er for hver kombiatio af faktorere et 95% CPI for δ = λ µ, hvor λ og µ er middelværdie for hhv. x i ere og y i ere. Eftersom vi trækker µ fra λ betyder et positivt iterval, at middelværdie for x i ere er størst, hvormed faldet i HbA1c-iveauet i geemsit er størst herfor. Det omvedte gør sig gældede for et egativt iterval. Hvis det ee af disse scearier idtræffer, siges der at være e sigifikat forskel på de faktorer, der sammeliges. Ideholder itervallet ul er det ikke til at udtale sig om oge sigifikat forskel. I det følgede geemgår vi de mest relevate resultater af aalyse. BIAsp30 vs. Glargie: E sammeligig af BIAsp30 og Glargie resulterer i, at 95% CPI for δ er [ 0.1577423, 0.2700542], hvoraf det fremgår, at der ikke er oge sigifikat forskel på de to medikameter, hvis de blot sammeholdes, ude at der betiges med adre faktorer. Ved at betragte køet fremgår det, at der ikke er oge sigifikat forskel på de to medikameter, år der betiges med køet. For mæd bliver 95% CPI et [ 0.1853131, 0.4215245], år vi sammeliger BIAsp30 med Glargie. For kvider bliver det [ 0.2729695, 0.3202500]. Betragter vi de symptomer, der er registreret i datasættet, ka vi geerelt kokludere, at der heller ikke her er oge sigifikat forskel på BIAsp30 og Glargie, uaset hvilket symptom vi betiger med. Race: Når vi sammeliger racere og ikke betiger med adet ed medikametere, er der ku sigifikate resultater for asiatere og hvide, hvorfor det ku er dem, der er medtaget. Aalyseres asiatere og hvide ude at betige med et specifikt medikamet bliver 95% CPI for δ itervallet [ 0.5006377, 0.04379354], hvilket viser, at effekte af behadlige geerelt er større bladt hvide ed asiatere. Hvis vi sammeliger asiatere med hvide, hvor vi betiger med, at begge grupper skal have brugt Glargie, fås at 95% CPI for δ er [ 0.807867, 0.1065229]. Heraf ka 89

sluttes, at gruppe af hvide meesker i forsøget oplevede et større fald i HbA1civeauet ed asiatere, selvom begge grupper brugte Glargie. Dermed virker Glargie bedre på hvide ed på asiatere. Vi har også udersøgt, om der er e tilsvarede tedes for BIAsp30 ved sammeligig af asiatere og hvide, me her bliver 95% CPI for δ itervallet [ 0.3724247, 0.2197402]. Dermed er vi ikke i stad til at slutte, at de ee befolkigsgruppe er bedre til at udytte BIAsp30 ed de ade. Kø: Betragter vi mæd, fremgår det, at HbA1c-iveauet geerelt falder midre hos asiatiske mæd, år de sammeliges med hhv. sorte, hvide og idiaske mæd. Her bliver 95% CPI hhv. [ 1.920800, 0.08286017], [ 0.7754144, 0.0758314] og [ 1.824854, 0.2397232]. Disse aalyser er baseret på, at der bladt alle mædee i udersøgelse er 118 hvide, 59 asiatiske, 10 sorte samt 10 idiaere. Holder vi i stedet kvideres fald i HbA1c-iveauet op mod mædees, år vi betiger med, at de skal være asiatere, fider vi frem til 95% CPI for δ er [0.01758111, 0.7872976], så asiatiske kvider har mere gav af medicie ed asiatiske mæd. Sammeholder vi derimod kvider og mæd ude hesytage til deres race, får vi itervallet [ 0.02808167, 0.3973545], hvormed det fremgår, at der ikke er e sigifikat forskel på de to kø geerelt set. Symptom: Vi vil u fremhæve ogle resultater, hvor vi betiger med et symptom. Derved har vi fudet frem til, at hvis vi sammeliger de asiatere, der lider af ervepåvirkiger 34 persoer), med de hvide, som har samme symptom 62 persoer), så er de hvide geerelt bedre til at udytte medicie. Det fremgår af 95% CPI et [ 1.401298, 0.3477610] for δ. Derimod er der ikke oge sigifikat forskel, hvis vi holder de to racer op mod hiade og betiger med, at de ikke har ervepåvirkiger. Her bliver 95% CPI et [ 0.3386423, 0.1632896]. Betiger vi med, at persoere ikke har yrepåvirkiger, så fremgår det af to separate aalyser, at både idiaere og hvide oplever et større fald i HbA1c-iveauet ed asiatere. Ved disse to sammeligiger bliver 95% CPI et hhv. [ 1.412691, 0.152553] og [ 0.4715246, 0.0001478186]. Præcis samme billede teger sig, hvis vi betiger med, at persoere ikke har dårligt blodomløb og sammeholder racere. Her bliver 95% CPI for asiatere mod idiaere itervallet [ 1.392969, 0.1992535], mes det ved sammeligig af asiatere og hvide bliver [ 0.4891764, 0.00695318]. Betiget med øjeproblemer er der dog ku e sigifikat forskel på asiatere og idiaere ige falder det ud til idiaeres side med itervallet [ 1.591488, 0.2448912]. Derimod er der eksempelvis ikke oge sigifikat forskel, hvis vi holder alle persoer med yrepåvirkiger op mod alle dem, der ikke har yrepåvirkiger. Dee aalyse resulterer i 95% CPI for δ på [ 0.2845141, 0.5956251]. Geerelt ses der ige forskel på BIAsp30 og Glargie, heller ikke år der betiges med kø, race eller symptomer. Til gegæld er der adre resultater, bl.a. at effekte af Glargie er større hos hvide ed asiatere, mes der ikke ses oge forskel for BIAsp30. Specielt ser det ud til, at det er de asiatiske mæd, der ikke har så stor gav af medicie, da de asiatiske kvider har større differes i HbA1c-iveauet ed mædee. Der er mage forskellige tedeser, som afhæger af, hvad ma betiger med, me aalyse viser, at der stort set ikke er oge forskel på de to præparater, hvad agår HbA1cdifferese. 90

8.2.3 Sammeligig med é stikprøve I afsit 8.1 geemgik vi, hvorda vi kue aalysere é stikprøve og bl.a. å frem til de empiriske middelværdi for faldet i HbA1c-iveauet for persoer, der brugte hhv. BIAsp30 og Glargie. Derudover udersøgte vi også asiatere og hvide, me ige ku é race ad gage. I dette afsit sammeliger vi resultatere opået ud fra é stikprøve med de resultater, vi er ået frem til i oveståede, hvor vi har taget udgagspukt i to stikprøver. Ved brug af metode beskrevet ovefor med to stikprøver kue vi kokludere, at der er e sigifikat forskel på faldet i HbA1c-iveauet for asiatere og hvide, hvis vi betragter de persoer, der har brugt Glargie. De hvide oplevede et større fald i iveauet ed asiatere. Dette er i tråd med resultatere opsummeret i tabel 8.2. Her aalyserede vi hvide og asiatere hver for sig og fadt frem til, at middelværdie i HbA1c-differese er større for førstævte. Af tabelle fremgår det også, at middelværdie for hvide, der brugte BIAsp30, er større ed for de tilsvarede asiatere, me her er forskelle på middelværdiere ikke så stor som ved Glargie. Fra aalyse med to stikprøver blev det da heller ikke muligt at kokludere e sigifikat forskel for asiatere og hvide på BIAsp30. Af oveståede ka vi slutte, at resultatere fra afsit 8.1 er i tråd med resultatere fudet ved hjælp af metode, der ivolverer to stikprøver. 8.3 Lieær regressio med é variabel 8.3.1 Opstillig af model I dette afsit laves e aalyse vha. lieær regressio for at udersøge, om der er e lieær sammehæg mellem HbA1c-differese og forskellige adre parametre fra dataee. I teorie kapitel 5) er regressio geemgået med udgagspukt i data, hvor regressiosvariable er ormalfordelt. Derfor vil vi i dette afsit begræse aalyse til ormalfordelt data, hvilket i forbidelse med baggrudsoplysigere vil sige parametree højde, vægt, taljemål og BMI. Som udgagspukt gætter vi på, at faldet i blodsukkeret for e patiet afhæger af patietes BMI. Vi lader altså HbA1c-differese være de afhægige variabel y i, mes BMI er regressiosvariable x i. Vi atager u, at y i x i Nα + βx i x), ϕ), altså at HbA1c-differese afhæger lieært af BMI e. Vi har ige forhådsvide om hverke hældige eller iveauet for regressioslije eller om variase, så derfor beytter vi priore pα, β, ϕ) 1 ϕ. Dermed ka vi beytte sætig 5.2, hvoraf vi får, at ϕ x, y S ee χ 2 2, α a s/ x, y t 2, β b s/ S x, y t 2, 8.1) xx 91

hvor a := y og b := S xy S xx. Vi er iteresserede i β, da de siger oget om hældige af lije, dvs. om y afhæger lieært af x. Fra 8.1) fås, at β s t 2 + b, Sxx så for at fide et 95% CPI for β, fider vi først 95% CPI for t-fordelige med frihedsgrad 2 vha. fuktioe qt i R, hvorefter kofidesitervallet for β ka udreges. I listig 8.2 ses kode for de lieære regressio med é regressiosvariabel. 1 # Fra icludes/regressio.r: 2 3 regressio < fuctiox, y) 4 { 5 if legthx)!= legthy)) 6 { 7 stop"legthx)!= legthy)") 8 } 9 10 # I kode tjekkes her efter NA s i x og y, hvorefter de fjeres. 11 12 < legthx) 13 14 x.mea < meax) 15 y.mea < meay) 16 17 Sxx < sumx - x.mea)^2) 18 Syy < sumy - y.mea)^2) 19 Sxy < sumx - x.mea) y - y.mea)) 20 See < Syy - Sxy^2 / Sxx) 21 s < sqrtsee / -2)) 22 23 a < y.mea 24 b < Sxy/Sxx 25 26 qt025 < qt0.025, -2) 27 qt975 < qt0.975, -2) 28 29 q025.alpha < qt025 s / sqrt)) + a 30 q975.alpha < qt975 s / sqrt)) + a 31 32 q025.beta < qt025 s / sqrtsxx)) + b 33 q975.beta < qt975 s / sqrtsxx)) + b 34 35 q025.phi < qivchisq0.025, -2, See) 36 q975.phi < qivchisq0.975, -2, See) 37 38 cat"95% CPI for beta = [", q025.beta, ", ", q975.beta, "]\", sep = "") 39 } 40 41 42 # Fra regressio-hba1c.r: 43 44 cat"hba1c vs. BMI: ") 45 regressiobaselie_hba1c_diff$bmi, baselie_hba1c_diff$hba1c_start_ed_diff) 46 47 cat"hba1c vs. taljemål: ") 48 regressiobaselie_hba1c_diff$waist_circumferece, baselie_hba1c_diff$hba1c_start_ed_diff) 49 50 cat"hba1c vs. højde: ") 51 regressiobaselie_hba1c_diff$height, baselie_hba1c_diff$hba1c_start_ed_diff) 52 53 cat"hba1c vs. vægt: ") 54 regressiobaselie_hba1c_diff$body_weight, baselie_hba1c_diff$hba1c_start_ed_diff) Listig 8.2: Uddrag af icludes/regressio.r og regressio-hba1c.r 92

8.3.2 Resultater Ved at køre R-fuktioe regressio fås resultatet HbA1c vs. BMI: 95% CPI for beta = [-0.01869244, 0.02818659]. Itervallet ligger tæt omkrig ul, hvilket betyder, at der i dette tilfælde med stor sadsylighed ikke er oge lieær afhægighed mellem x og y. Ved at beytte samme fremgagsmåde udersøges om HbA1c-differese afhæger af ogle af de adre parametre, hvor resultatet ses i følgede output, år fuktioe regressio køres med forskellige parametre som iput: HbA1c vs. taljemål: 95% CPI for beta = [-0.01075941, 0.008662406] HbA1c vs. højde: 95% CPI for beta = [-2.451731, -0.3497831] HbA1c vs. vægt: 95% CPI for beta = [-0.01162897, 0.002736872] Resultatet bliver det samme for de fleste af parametree, emlig at itervallere ligger tæt omkrig ul. Dog er itervallet for højde egativt, dvs. at med 95% sadsylighed afhæger HbA1c-differese egativt af højde. Det er et lidt overraskede resultat, at HbA1c-differese ikke ser ud til at afhæge af BMI e, me derimod af højde. 8.3.3 Videre aalyse Regressiosaalyse med hesy til é variabel gav som resultat, at HbA1c-differese afhæger egativt af højde. Vi har i dette afsit udvidet regressiosaalyse ved at betige med de forskellige parametre: medikamet, kø, race og sygdom. I listig 8.3 ses kode for dee regressio, hvor vi først skaber e matrix factors med patietere som rækker, og hvor søjlere agiver, hvilke patieter der opfylder bestemte parametre. Der ses her på medikametere BIAsp30 og Glargie, mæd og kvider, racere asiatere og ikke asiatere, hvide og ikke hvide, sorte og ikke sorte samt idiaere og ikke idiaere, og om et af symptomere ervepåvirkiger, yrepåvirkiger, dårligt blodomløb eller øjeproblemer er til stede. Herefter laves e matrix, data, ideholdede dataee, hvor de fem søjler består af data for hhv. HbA1c-differes, taljemål, BMI, højde og vægt. data-matrice bruges til at bestemme, hvilke parametre der laves regressio over, mes factors-matrice bruges til at udvælge, hvilke ekstra parametre der skal betiges med ved regressioe. Herefter køres regressio-fuktioe listig 8.2) med HbA1c-differese som de afhægige variabel det er også muligt at vælge adre parametre som de afhægige variabel, me det har vi udladt at gøre i dee aalyse) med regressio over hver af de fire adre parametre i datamatrice. Derefter betiges med faktorere fra factors-matrice med ye regressiosresultater til følge. 1 # Create a idex-matrix to be used to make all combiatios afterwards: 2 factors < matrixrow = rowbaselie_hba1c_diff), 3 dimames = listc), 4 c"trtseq_lb == BIAsp30", "trtseq_lb == Glargie", 5 "sex_id == F", "sex_id == M", 6 7 "race == Asia", "race!= Asia", 8 "race == Black", "race!= Black", 9 "race == Native", "race!= Native", 10 "race == White", "race!= White", 11 12 "diab_eu == Y", "diab_eu == N", 13 "diab_ep == Y", "diab_ep == N", 93

14 "diab_mac == Y", "diab_mac == N", 15 "diab_ret == Y", "diab_ret == N")), 16 data = 17 c 18 baselie_hba1c_diff$trtseq_lb == "BIAsp30", baselie_hba1c_diff$trtseq_lb == "Glargie", 19 baselie_hba1c_diff$sex_id == "F", baselie_hba1c_diff$sex_id == "M", 20 21 baselie_hba1c_diff$race == "Asia", baselie_hba1c_diff$race!= "Asia", 22 baselie_hba1c_diff$race == "Black", baselie_hba1c_diff$race!= "Black", 23 baselie_hba1c_diff$race == "Native", baselie_hba1c_diff$race!= "Native", 24 baselie_hba1c_diff$race == "White", baselie_hba1c_diff$race!= "White", 25 26 baselie_hba1c_diff$diab_eu == "Y", baselie_hba1c_diff$diab_eu == "N", 27 baselie_hba1c_diff$diab_ep == "Y", baselie_hba1c_diff$diab_ep == "N", 28 baselie_hba1c_diff$diab_mac == "Y", baselie_hba1c_diff$diab_mac == "N", 29 baselie_hba1c_diff$diab_ret == "Y", baselie_hba1c_diff$diab_ret == "N" 30 )) 31 32 data < matrixrow = rowbaselie_hba1c_diff), 33 dimames = listc), 34 c"hba1c-differes", "WC", "BMI", "Højde", "Vægt")), 35 data = 36 c 37 baselie_hba1c_diff$hba1c_start_ed_diff, 38 baselie_hba1c_diff$waist_circumferece, 39 baselie_hba1c_diff$bmi, 40 baselie_hba1c_diff$height, 41 baselie_hba1c_diff$body_weight 42 )) 43 44 # This ca be used to exclude certai variables as depedet ad oly 45 # use them as regressio variables. 46 # Now we oly wat to use HbA1c as the depedet 47 exclude.as.depedet < c2, 3, 4, 5) 48 49 colidexes.data < seq1, coldata)) 50 51 # This is due to the structure of the matrix 52 colidexes.factors < seq1, colfactors) - 1, 2) 53 54 x < NULL 55 y < NULL 56 57 for i i colidexes.data[-exclude.as.depedet]) 58 { 59 for j i colidexes.data[-i]) 60 { 61 catcolamesdata)[i], "= alpha + beta ", colamesdata)[j], "\") 62 regressiodata[,j], data[,i]) 63 cat"\") 64 65 for k i colidexes.factors) 66 { 67 for m i 0:1) 68 { 69 catcolamesdata)[i], " = alpha + beta ", 70 colamesdata)[j], " && ", 71 colamesfactors)[k+m], "\", sep="") 72 73 x < data[ whichfactors[,k+m]), j ] 74 y < data[ whichfactors[,k+m]), i ] 75 regressiox, y) 76 cat"\") 77 } 78 } 79 80 cat"\") 81 } 82 83 cat"\\") 84 } Listig 8.3: Uddrag af regressio.r 94

8.3.4 Resultater af de videre aalyse I listig 8.4 ses de mest iteressate resultater af regressioe betiget med faktorer. Først ses resultatet fra tidligere, om at HbA1c-differese med stor sadsylighed afhæger af højde. Dette har vi så betiget med forskellige adre faktorer, hvor det ses, at der ikke er oge sigifikat sammehæg mellem HbA1c-differese og højde for patieter på BIAsp30, mes der ses e egativ lieær sammehæg for Glargie-patieter. Det samme sigifikate resultat ses for racer, hvis der betiges med hvide eller asiatere, mes der for sorte og idiaere ikke ser ud til at være oge sammehæg mellem højde og HbA1c-differese. Her skal dog bemærkes, at datastørrelse er betydeligt midre for disse to racer, hvorved e ekelt observatio ka have større betydig for kofidesitervallet. Betiges der med sygdomme, fås ige e egativ sammehæg for patieter med dårligt blodomløb, mes der ikke er ogle sigifikate resultater for de adre sygdomme. 1 HbA1c-differes = alpha + beta Højde 2 = 449 3 95\% CPI for beta = [-2.451731, -0.3497831] 4 5 HbA1c-differes = alpha + beta Højde && trtseq_lb == BIAsp30 6 = 221 7 95\% CPI for beta = [-2.012801, 0.7803911] 8 9 HbA1c-differes = alpha + beta Højde && trtseq_lb == Glargie 10 = 228 11 95\% CPI for beta = [-3.708022, -0.5711267] 12 13 14 15 HbA1c-differes = alpha + beta Højde && race == White 16 = 247 17 95\% CPI for beta = [-3.022645, -0.3564624] 18 19 HbA1c-differes = alpha + beta Højde && race == Asia 20 = 149 21 95\% CPI for beta = [-4.984619, -0.9814413] 22 23 24 HbA1c-differes = alpha + beta Højde && race == Black 25 = 15 26 95\% CPI for beta = [-4.909274, 8.007778] 27 28 HbA1c-differes = alpha + beta Højde && race == Native 29 = 24 30 95\% CPI for beta = [-6.083216, 6.994577] 31 32 33 34 HbA1c-differes = alpha + beta Højde && diab_mac == Y 35 = 50 36 95\% CPI for beta = [-7.320561, -1.288421] Listig 8.4: Udvalgte resultater for betiget regressio 95

8.3.5 Koklusio Regressiosaalyse har vist, at faldet i blodsukkeret ikke afhæger af BMI, vægt og taljemål, så medicie virker altså lige godt på både tykke og tyde. Derimod er der e lille egativ korrelatio mellem HbA1c-differese og højde så medicie virker altså bedre, jo lavere patiete er. Dermed vil det være ærliggede at tro, at asiatere geerelt har mere gav af medicie grudet deres lavere geemsitshøjde sammeliget med de adre racer i eksperimetet 1. Resultatere fra aalyse i afsit 8.2 viser dog, at dette ikke er tilfældet. Efter at have lavet flere regressioer betiget med medikamet, kø, race og sygdom, fås de mest tydelige resultater stadig ved regressio med hesy til højde, hvor det viser sig, at der er e sigifikat sammehæg for patieter på Glargie og patieter med dårligt blodomløb. Vi vil ikke gise omkrig, hvad disse resultater skyldes, da der ka være mage faktorer idbladet, me vi ka blot kokludere på baggrud af regressiosaalyse, at der er e lille sammehæg mellem patietes højde og faldet i HbA1c-iveauet. 1 Dette er tjekket i R med kommadoe summarybaselie$height[whichbaselie$race == "Asia")]). 96

9 Aalyse af atal hypoglykæmier Som ævt tidligere aser vi atallet af hypoglykæmier som e parameter, der fortæller om, hvor god e medici er. Vi har valgt ikke at skele mellem de forskellige typer hypoglykæmier, og i stedet udelukkede fokusere på atallet. Dette er gjort, da der æste udelukkede var mior hypoglykæmier og altså ikke så mage af de adre typer. I figur 9.1 ses histogrammer over atallet af hypoglykæmier for alle patietere, patieter på BIAsp30 og patieter på Glargie. Forskelle på histogrammere i vestre og højre koloe er udelukkede iddelige på de lodrette akse sadsylighede for et atal hypoglykæmier). Da dataee er diskrete, lever på de positive akse og der er størst sadsylighed for små værdier, vil følgede to typer observatiosmodeller umiddelbart være mest ærliggede at avede: 1. De geometriske fordelig 2. Poisso-fordelig Vi har først forsøgt at beytte e model beståede af observatiosmodelle samt e prior for fordeligeres parameter, me har ikke været i stad til at få oge af modellere til at passe. I stedet for at medtage dette, har vi valgt at gribe problemet a ved hjælp af hierarkiske modeller. Hierarkiske modeller ka uformelt beskrives som e geeraliserig af idée med at have e prior: I hierarkiske modeller ka priore også afhæge af e ade stokastisk variabel, som kaldes e hyper-prior. Ige ka dee hyper-prior have e prior, som så kaldes e hyper-hyper-prior; og såda ka fortsættes. Vi vil ikke komme id på så meget teori om hierarkiske modeller, me blot avede dem. Vi har beyttet [Berthelse & Møller, 2004, eks. 9 og eks. 10] som ispiratioskilde til udfærdigelse af de hierarkiske strukturer. For at sample fra posterior-fordelige beyttes MCMC-metodere Gibbs-samplig og Metropolis i Gibbs, som beskrevet i afsit 6.2. Lad i reste af dette afsit y i betege atallet af hypoglykæmier for patiet ummer i for i = 1, 2,...,. Lad ydermere y := y 1, y 2,..., y ) være e stikprøve. Vi startede med at avede de geometriske fordelig som likelihood i de hierarkiske model vist i figur 9.2. Modelle viste sig dog at være yderst problematisk i flere heseeder de full coditioals, der skulle samples fra, ideholdte l 1 π i) som parameter, og da π i ville ærme sig 1 grudet dataee, forårsagede det umeriske problemer i samplig fra de pågældede fordeliger). Derfor gik vi væk fra de og over til udelukkede at avede Poisso-fordelige som likelihood. 97

Figur 9.1: Histogram over atallet af hypoglykæmier. Forskelle på histogrammere i vestre og højre koloe er udelukkede iddelige på de lodrette akse sadsylighede for et atal hypoglykæmier). a b k a, b, k > 0 α β π π 1 π 2 α Gammaa, b), β Expk) π i β Betaα, β) y 1 y 2 y yi λ i geomπ i ) Figur 9.2: Hierarkisk struktur for atallet af hypoglykæmier med de geometriske fordelig som likelihood. 98

k k > 0 β λ λ 1 λ 2 β Expk) λ i β Expβ) y 1 y 2 y yi λ i Poiλ i ) Figur 9.3: Hierarkisk struktur for atallet af hypoglykæmier med Poisso-fordelige som likelihood og ekspoetialfordelige som prior. k l m α β λ λ 1 λ 2 k, l, m > 0 α Expk), β Gammal, m) λ i α, β Gammaα, β) y 1 y 2 y yi λ i Poiλ i ) Figur 9.4: Hierarkisk struktur for atallet af hypoglykæmier med Poisso-fordelige som likelihood og gammafordelige som prior. 99

9.1 Poisso-fordelige som likelihood I dette afsit vil vi beytte Poisso-fordelige som likelihood. Vi vil først beytte ekspoetialfordelige som prior til dee, og herefter vil vi avede gammafordelige som prior. Det bemærkes, at Poiλ i ) har middelværdie λ i. 9.1.1 Ekspoetialfordelige som prior I dette tilfælde beyttes ekspoetialfordelige som prior. Afhægighedsstrukture ka ses i figur 9.3, hvor det ses, at y i λ i Poiλ i ), λ i β Expβ) og β Expk) for e fast parameter k > 0. Lad λ := λ 1, λ 2,..., λ ). Ud fra disse oplysiger haves observatiosmodelle py λ) = λ y i i y i! exp λ i). Det bemærkes, at grudet specifikatioe, er py λ, β) = py λ). Priore er hvor k > 0 vælges seere. pβ) = k exp kβ), Ydermere er observatiosmodelle for λ givet ved pλ β) = pλ i β) = og pr. defiitio er pλ, β) = pβ)pλ β). Dermed ka posterior fides, således at β exp βλ i ) = β exp β ) ) λ i = β exp βλ, pλ, β y) pλ, β)py λ, β) = pβ)pλ β)py λ, β) = pβ)pλ β)py λ) ) = k exp kβ) β λ y i exp βλ i y i! exp λ i) ) exp kβ) β exp βλ λ y i i exp λ i ) 9.1) = exp kβ) β exp β λ i) λ y i i exp λ i ) = exp kβ) β λ y i i exp λ i ) exp βλ i ) = exp kβ) β λ y i i exp λ i βλ i ) = exp kβ) β λ y i i exp λ i β + 1)). 9.2) 100

For at sample fra posterior beyttes Gibbs-samplig. Dermed skal de full coditioals fides. De første full coditioal, der kigges på, er p i λi λ i, β, y ). Fra 9.2) fås, at pλ β, y) λ y i i exp λ i β + 1)), hvor det ses, at da det er et produkt af de ekelte λ i er, er λ i og λ j uafhægige for alle i = j. Dermed fås, at de full coditioal er givet ved ) p i λ i λ i, β, y = p i λ i β, y) λ y i i exp λ i β + 1)), der gekedes som de uormerede tæthed for gammafordelige med formparameter y i + 1 og rateparameter β + 1. Med adre ord fås, at λ i λ i, β, y λ i β, y Gamma y i + 1, β + 1). På samme måde følger det fra 9.1), at ) p β λ, y) exp kβ) β exp βλ ) ) = β exp βλ kβ = β exp βλ + k), hvoraf det følger, at ) β λ, y Gamma + 1, λ + k. For at sample fra posterior-fordelige vha. Gibbs-samplig ka et cyklisk opdaterigsskema beyttes. For at sample N skridt, gøres dermed således husk at y er data og dermed kedt): 1. Vælg startværdiere k og β[0]. 2. For m = 1, 2,..., N, opdatér således: a) Geerér λ[m]: For i = 1, 2,..., geereres λ i [m] fra Gamma y i + 1, β[m 1] + 1). ) b) Geerér β[m] med data fra skridt a) ved at sample fra Gamma + 1, λ[m] + k = Gamma + 1, λ i[m] + k). Dermed er det muligt at fide fraktiler i posteriorfordelige, lave plots mm. Vi har avedt de etop geemgåede teori og fremgagsmåde til at implemetere metode i R for vores kokrete eksempel med atallet af hypoglykæmier. Parametere k er blevet bestemt ved at prøve forskellige værdier og tage de, der ser ud til at passe bedst. Vi har sat β[0] = 1.5 og λ[0] = 1, 1,..., 1) i alle simulatioere, og jitter-fuktioe i R er blevet brugt for at lette aflæsige. Implemetatioe er lavet således: 1 Gibbs < fuction, y, k, lambda0, beta0) 2 { 3 # We wat col = legthy) + 1, i.e. rooms for a lambda_i for each y_i plus a coloum for beta 4 < legthy) 5 data < matrixdata = NA, row = N+1, col = +1) 6 7 data[1, 1:] < lambda0 8 data[1, +1] < beta0 9 10 for m i seq2, N+1, 1)) 11 { 12 for i i 1:) 13 { 14 # beta is i data[m-1, +1] 15 data[m, i] < rgamma1, shape = y[i] + 1, rate = data[m-1, +1] + 1) 16 } 17 18 data[m, +1] < rgamma1, shape = +1, rate = sumdata[m, 1:]) + k) 101

19 } 20 21 # We throw away the first row with iitial values 22 data < data[-1,] 23 24 returdata) 25 } 26 27 # The data 28 y < baselie_hba1c_diff$hypos_cout 29 # Or theese for specific medicies: 30 #y < baselie_hba1c_diff$hypos_cout[whichbaselie_hba1c_diff$trtseq_lb == "BIAsp30")] 31 #y < baselie_hba1c_diff$hypos_cout[whichbaselie_hba1c_diff$trtseq_lb == "Glargie")] 32 33 < legthy) 34 35 # Number of samples 36 N < 5000 37 bur.i < 500 38 39 # Startig values 40 k < 10000 41 42 X < GibbsN, y, k, 1, 1.5) 43 X2 < X[-seq1, bur.i),] 44 45 traceplot < fuctioj) 46 { 47 plotseq1, N), X[,j], xlab = "N", ylab = "Atal hypoglykæmier", mai = paste"patiet r.", j, "fik", y[j], "hypos"), cex = 0) 48 abliea = y[j], b = 0) 49 50 liesc0, 1), c1.5, X[1,j])) 51 52 fori i 2:N) 53 { 54 liesci-1, i), cx[i-1,j], X[i,j])) 55 } 56 } 57 58 posterior.summary < fuctio) 59 { 60 y.values < umeric) 61 fori i 1:) 62 { 63 y.values[i] < meax2[,i]) 64 } 65 66 y.jitter < jittery) 67 68 ploty, y.values, cex = 0, ylim = c0, 50), 69 mai = paste"k = ", k, ", N = ", N, " og bur-i = ", bur.i, sep=""), 70 ylab = "95% posterior itervaller") 71 72 abliea = 0, b = 1) 73 74 fori i 1:) 75 { 76 liesrepy.jitter[i], 2), quatilex2[,i], c0.025, 0.975))) 77 } 78 79 fori i 1:) 80 { 81 liescy.jitter[i]-0.5, y.jitter[i]+0.5), repy.values[i], 2)) 82 } 83 } 84 85 parcex=1.4) 86 87 # Either {: 88 # posterior.summary) 89 # } or {: 90 parmfrow=c2,2)) 102

91 92 p < c5, 77, 12, 1) 93 94 for j i p) 95 { 96 traceplotj) 97 } 98 # } Listig 9.1: Uddrag af hypos-poisso-exp-exp.r For at lave plots er der skruet på parametree i oveståede kode. I figur 9.5 ses traceplots for fire forskellige patieter. For de valgte værdier ser det ikke ud til, at et bur-i er ødvedigt, da kæde ser ud til at kovergere hurtigt. I hvert plot er det reelle atal hypoglykæmier, patiete har fået, markeret med e vadret lije. Ud fra de fire plots ser det ud til, at modelle er e rimelig god tilærmelse til dataee, selvom de simulerede værdier ligger e smule for højt eller for lavt ved ogle af patietere. I figur 9.6 er der lavet 95 % CPI med og ude bur-i. Her ser kæde også ud til at kovergere hurtigt, da der ikke er oge sylig forskel mellem de to plots. Derudover giver figure et godt idtryk af hvor godt modelle passer på dataee. Ved e perfekt model vil mediaere af posterioritervallere følge idetitetslije, me i dette tilfælde ligger mediaere lidt lavere, jo større værdiere er. Dette ka dog forbedres ved at ædre på de faste parameter k, hvilket ses på figur 9.7, som viser resultatet af e simpel sesitivitetsaalyse af k. Det ses, at det har e effekt, me i forhold til hvor meget, der skrues på k, er modelle ikke sesitiv. Valget k = 10000 ser ud til at passe godt for de høje værdier, mes det til gegæld ligger lidt for højt i forhold til de lave værdier, som det ses på figur 9.8. For k = 10000 har vi lavet 95% CPI for de to medikameter. Det er gjort med 5000 iteratioer og et bur-i på 500. CPI ere er deræst lavet på grudlag af alle de 5000 500) = 4500 λ i er, hvor er lægde af y for BIAsp30 er = 225 og for Glargie er = 232). CPI ere er fudet således: 1 quatilex2[,1:], c0.025, 0.975)) Det har resulteret i, at for BIAsp30 er et 95% CPI for middelværdie af atal hypoglykæmier givet ved [0.06197876, 18.47344892], og for Glargie er det [0.0536271, 18.2254413]. Det er e aelse lavere for Glargie, me geerelt ligger de to itervaller meget tæt, så på baggrud af dee model, ses der ige forskel på virkige af de to præparater. 9.1.2 Gammafordelige som prior E Poisso-fordelig med ekspoetialfordelt prior ser altså ud til at passe rimelig godt som model for atallet af hypoglykæmier, me måske ka det gøres bedre. I et forsøg på at forbedre modelle lidt edu, har vi valgt at medtage e model, hvor fordelige stadig er Poisso-fordelige, me dee gag med gammafordelt prior. På figur 9.4 ses afhægighedsstrukture for dee model, hvor y i, i = 1,...,, er atallet af hypoglykæmier, der er fordelt således, at y i λ i Poiλ i ), λ i α, β Gammaα, β), α Expk) for e fast parameter k > 0 og 103

Figur 9.5: Traceplots med modelle på figur 9.3 Poisso-fordelige som likelihood og ekspoetialfordelige som prior) for fire tilfældige patieter. Her for k = 1500, N = 1000 og itet bur-i. 104

Figur 9.6: 95% CPI med modelle på figur 9.3 Poisso-fordelige som likelihood og ekspoetialfordelige som prior) med og ude bur-i for forskellige N. Her for k = 1500. R-fuktioe jitter er blevet brugt. Figur 9.7: 95% CPI med modelle på figur 9.3 Poisso-fordelige som likelihood og ekspoetialfordelige som prior) for forskellige k. R-fuktioe jitter er blevet brugt. 105

Figur 9.8: 95% CPI med modelle på figur 9.3 Poisso-fordelige som likelihood og ekspoetialfordelige som prior) for k = 10000. Der er zoomet id på de lave y-værdier for at tydeliggøre afvigelse. R-fuktioe jitter er blevet brugt. β Gammal, m) for faste parametre l, m > 0. Lad y = y 1,..., y ) og λ = λ 1,..., λ ). Bemærk, at y λ er uafhægig af α og β, hvorved observatiosmodelle bliver py λ, α, β) = py λ) = py i λ i ) = λ y i i y i! exp λ i). Som prior avedes pλ, α, β) = pα, β)pλ α, β), hvor λ i α, β Gammaα, β) med α som formparameter og β som rateparameter, så pλ α, β) = og hvor hyperpriore er pλ i α, β) = 1 Γα) βα λ α 1 i exp βλ i ). pα, β) = pα)pβ) = k exp kα) ml Γl) βl 1 exp mβ), da α og β er uafhægige, α Expk) og β Gammal, m) med l som formparameter og m som rateparameter. På baggrud af disse oplysiger ka posterior udreges, hvorved vi får pλ, α, β y) pλ, α, β)py λ, α, β) = pα, β)pλ α, β)py λ) = k exp kα) ml Γl) βl 1 exp mβ) 1 Γα)) βα+l 1 exp kα mβ) 1 Γα) βα λ α 1 i exp βλ i ) λ y i i y i! exp λ i) λ α 1+y i i exp β + 1)λ i ). 9.3) De første full coditioal, der kigges på, er p i λi λ i, α, β, y ). Fra 9.3) fås, at pλ α, β, y) λ α 1+y i i exp β + 1)λ i ), 106

hvor det ses, at da det er et produkt af de ekelte λ i er, er λ i og λ j uafhægige for alle i = j. Dermed fås, at de full coditioal er givet ved ) p i λ i λ i, α, β, y = p i λ i α, β, y) λ α 1+y i i exp β + 1)λ i )), hvoraf det ses, at λ i α, β, y Gammaα + y i, β + 1). På samme måde fides full coditioals for α, så 1 pα λ, β, y) Γα)) βα exp kα) 1 = Γα)) β exp k) λi α λ i ) α, hvilket ikke umiddelbart er e fordelig, vi keder, så her ka det blive ødvedigt at sample ved hjælp af Metropolis i Gibbs. De sidste parameter β ka derimod godt gekedes som e fordelig, da pβ λ, α, y) β α+l 1 exp mβ) = β α+l 1 exp mβ) exp β = β α+l 1 exp mβ βλ) exp βλ i ) = β α+l) 1 exp βm + λ)), λ i ) hvilket betyder, at ) β λ, α, y Gamma α + l, m + λ, med α som formparameter og β som rateparameter. Normalt ville ma implemetere dette således: 1. Vælg startværdiere k, l, m, σ α, α[0] og β[0] 2. For m = 1, 2,..., N, opdatér således: a) Geerér λ[m]: For i = 1, 2,..., geereres λ i [m] fra Gamma α[m 1] + y i, β[m 1] + 1), hvor α[m 1] + y i er formparameter og β[m 1] + 1 er rateparameter b) Geerér α[m] med data fra skridt a): i. Geerér forslaget α[m] Nα[m 1], σ 2 α) ii. Geerér U[m] uif0, 1) iii. Sæt α[m] α[m] hvis α[m] > 0 og U[m] < p ) λ[m],β[m 1],y α[m] := p α[m 1] α[m 1] ellers λ[m],β[m 1],y ) c) Geerér β[m] med data fra skridt ) a) og b) ved at sample fra Gamma α[m] + l, m + λ[m], hvor α[m] + l er formparameter og m + λ[m] = m + λ i[m] er rateparameter 107

Problemet med overståede er, at pα λ, β, y) bliver store tal, som R i praksis har svært ved at rege ud af tekiske årsager. Derfor laves skridt 2.b.iii) i algoritme om til logaritmisk skala, så der fås midre tal, og i stedet laves sammeligige p α[m] λ[m], β[m 1], y ) ) hvor l U[m]) < l p α[m 1] λ[m], β[m 1], y ) = l p α[m] λ[m], β[m 1], y )) l p α[m 1] λ[m], β[m 1], y )) = q α[m] λ[m], β[m 1], y ) q α[m 1] λ[m], β[m 1], y ) qα λ, β, y) := l pα λ, β, y)) ) 1 l Γα)) β α ) exp k) λ i ) 1 = l Γα)) β α ) exp k) λ i ) ) 1 = l Γα)) + α l β exp k) λ i )) λ i = α = α l β ) k + l l β k + l Γα) l λ i ) l Γα). Dermed ka det implemeteres således traceplots og plots med 95% CPI er lavet på samme måde som tidligere): 1 p.alpha < fuctiok,, alpha, beta, lambda) 2 { 3 retur 4 alpha logbeta) - k + sumloglambda))) - loggammaalpha)) 5 ) 6 } 7 8 GibbsHybrid < fuction, y, k, l, m, sigma.alpha, alpha0, beta0) 9 { 10 # We wat col = legthy) + 1, i.e. rooms for a lambda_i for 11 # each y_i plus a coloum for both alpha ad beta 12 < legthy) 13 14 alpha.pos < +1 15 beta.pos < +2 16 data < matrixdata = NA, row = N+1, col = +2) 17 18 data[1, alpha.pos] < alpha0 19 data[1, beta.pos] < beta0 20 21 alpha.proposal < NULL 22 logu < NULL 23 logratio < NULL 24 25 for m i seq2, N+1, 1)) 26 { 27 # Geerate lambda[m] 28 for i i 1:) 29 { 30 data[m, i] < rgamma1, shape = data[m-1, alpha.pos] + y[i], rate = data[m-1, beta.pos] + 1) 31 } 32 108

33 # Geerate alpha[m] 34 alpha.proposal < rorm1, mea = data[m-1, alpha.pos], sd = sigma.alpha) 35 36 # If the proposed alpha is t strictly positive, we reject 37 if alpha.proposal <= 0) 38 { 39 data[m, alpha.pos] < data[m-1, alpha.pos] 40 } 41 42 else 43 { 44 logu < logruif1)) 45 46 logratio < p.alphak,, alpha.proposal, data[m-1, beta.pos], data[m, 1:]) - 47 p.alphak,, data[m-1, alpha.pos], data[m-1, beta.pos], data[m, 1:]) 48 49 data[m, alpha.pos] < ifelselogu < logratio, alpha.proposal, data[m-1, alpha.pos]) 50 } 51 52 # Geerate beta[m] 53 data[m, beta.pos] < rgamma1, shape = data[m, alpha.pos] + l, rate = m + sumdata[m, 1:])) 54 } 55 56 # We throw away the first row with iitial values 57 data < data[-1,] 58 59 returdata) 60 } 61 62 # The data 63 y < baselie_hba1c_diff$hypos_cout 64 # Or theese for specific medicies: 65 #y < baselie_hba1c_diff$hypos_cout[whichbaselie_hba1c_diff$trtseq_lb == "BIAsp30")] 66 #y < baselie_hba1c_diff$hypos_cout[whichbaselie_hba1c_diff$trtseq_lb == "Glargie")] 67 68 < legthy) 69 70 # Number of samples 71 N < 5000 72 bur.i < 200 73 74 # Startig values 75 k < 0.000001 76 l < 1 77 m < 0.5 78 sigma.alpha < 0.5 79 alpha0 < 2 80 beta0 < 0.5 81 82 X < GibbsHybridN, y, k, l, m, sigma.alpha, alpha0, beta0) 83 X2 < X[-seq1, bur.i),] Listig 9.2: Uddrag af hypos-poisso-gamma.r I figur 9.9 og figur 9.10 er der lavet traceplots, hvor der samtidig er foretaget e meget simpel sesitivitetsaalyse på α[0]. Her ses det, at startværdie af α[0] er afgørede for, hvor hurtigt Markovkæde kovergerer. Begge de to startværdier α[0] = 2 og α[0] = 100 fugerer fit, me for α[0] = 100 er det tydeligt at se, at det er vigtigt at beytte et bur-i. I figur 9.11 er der lavet sesitivitetsaalyse af k og l ved hjælp af 95% CPI. Umiddelbart ses ige forskel for de forskellige værdier. Til gegæld ses det, at modelle passer rigtig godt, da alle mediaere ligger meget tæt på lije. I figur 9.12 er de to medikameter sammeliget. På grudlag af samme datasæt, som figure er lavet over, er det samlede 95 % CPI fudet på samme måde som med ekspoetialfordelige som prior. Det har resulteret i, at for BIAsp30 er et 95% CPI for middelværdie af atal hypoglykæmier givet ved [2.429597 10 8, 17.62427], 109

Figur 9.9: Traceplots med modelle på figur 9.4 Poisso-fordelige som likelihood og gammafordelige som prior) for fire tilfældige patieter. Her for N = 1000, startværdiere k = 0.000001, l = 1, m = 0.5, σ α = 0.5, α[0] = 2, β[0] = 0.5 og itet bur-i. I forhold til figur 9.10, er det ku α[0], der adskiller sig. 110