Frailty-modeller i overlevelsesanalyse

Størrelse: px
Starte visningen fra side:

Download "Frailty-modeller i overlevelsesanalyse"

Transkript

1 Frailty-modeller i overlevelsesanalyse Specialeprojekt - Forår 218 Mikkel Findinge Aalborg Universitet Institut for Matematiske Fag

2 I Titel: Frailty-modeller i overlevelsesanalyse Tema: Frailty-modeller Projektperiode: Speciale 218 Deltagere: Mikkel Findinge Vejleder: Rasmus Waagepetersen Oplagstal: 2 Sidetal: 6 Afleveringsdato: 8. juni 218 Abstract: Dette projekt omhandler frailty-modeller i overlevelsesanalyse. Formålet er at opstille den grundlæggende teori inden for overlevelsesanalyse. Denne teori udvides dernæst til den en-dimensionelle og slutteligt den delte frailty-model. Frailtyvariable er latente variable, hvorfor disse kun observeres indirekte gennem data. Dette motiverer brugen af EMalgoritmen til at estimere parametrene i en delt frailty-model. Foruden EMalgoritmen betragtes også PPL-metoden. Disse estimationsmetoder sammenlignes i et mindre simulationsstudie. I denne sammenligning betragtes også den parametriske likelihood-funktion samt den partielle likelihood-funktion, der anvendes til at tilpasse proportional hazardmodeller med og uden specificerede baseline hazard-funktioner. Slutteligt gives et eksempel på anvendelse af frailtymodeller. Dette sker ved brug af datasættet i R kaldet rats. Rapportens indhold er fortroligt.

3 Indhold Forord 1 1 Indledning 3 2 Overlevelsesanalyse Grundlæggende funktioner Censorering Proportional hazard-modellen Fordelinger Weibull-fordelingen Log-normal-fordelingen Gamma-fordelingen Frailty-modeller Den en-dimensionelle frailty-model Den delte frailty-model Estimationsmetoder EM-algoritmen E-trinet Penalised partial likelihood Log-normal-fordelte frailty-variable Sammenligning af metoderne Yderligere bemærkninger Anvendelse af frailty-modeller Afrunding 37 Litteratur 39 A Afledede 41 A.1 Proportional hazard-model B Simulation af event-tider 43 C R-kode 45 C.1 R-koden for simulering af event-tider C.2 R-koden for estimation af (Cox) proportional hazard-model C.3 R-koden for model- og metode-sammenligning C.4 R-koden for dataanalyse af rottedata D EM-algoritmen 55 D.1 Den grundlæggende teori D.2 Den partielle likelihood-funktion med offset D.3 Middelværdi for logaritmen af en gamma-fordelt variabel iii

4

5 Forord Aalborg Universitet, 218 Der refereres til figurer, tabeller, sætninger, definitioner osv. med tre tegn uden parentes: det første for kapitel, det næste for afsnittet og det sidste for hvilket nummer i afsnittet, der er tale om. Ydermere henvises til ligninger med to tal i parentes. Det første tal angiver kapitlet, og det andet tal angiver det nummer, som ligningen har i kapitlet. Kilder henvises til med forfatter(-ens/-nes) efternavn komma året for udgivelsen omkranset af kantede parenteser. Eventuelle sidetal angives til sidst i henvisningen, hvis der citeres direkte fra kilden. I litteraturlisten står kilderne i alfabetisk rækkefølge efter efternavn. Mikkel Findinge <mfindi13@student.aau.dk> 1

6

7 1. Indledning Overlevelsesanalyse er et statistisk område, der søger at undersøge, hvornår en eller flere begivenheder af interesse indtræffer. Herudover ønskes også forståelse af, hvorfor en begivenhed hænder, når den gør. Til dette kan parametriske modeller hjælpe. Nærværende projekt beskæftiger sig med proportional hazard-modellen og udvidelser af denne. Den udvidelse, der betragtes er frailty-modellen, som indeholder en stokastisk variabel, der skal tage højde eventuel uobserverede variable. Ved introduktion af latente variable bliver estimationsprocessen mindre ligetil. Derfor præsenteres også nogle metoder til at estimere parametrene i en frailty-model. I Kapitel 2 opbygges den generelle teori bag overlevelsesanalyse. Herunder præsenteres overlevelsesfunktionen, hazard- og den kumulative hazard-funktion samt begrebet censorering. I samme kapitel introduceres proportional hazard-modellen, som er den type parametriske model, der arbejdes med i projektet. Endvidere betragtes Cox proportional hazard-modellen, som ingen antagelser gør om formen af baseline hazard-funktionen i en proportional hazard-model. Derfor udledes den partielle likelihood-funktion, som anvendes til at estimere parametrene i en Cox proportional hazard-model. Kapitel 3 beskæftiger sig med frailty-modeller, som indeholder stokastiske variable kaldet frailty eller frailty-variable. For disse frailty-variable antages en gamma-fordeling, da denne har nogle pæne egenskaber. I kapitlet behandles også teoretiske eksempler for at vise nogle af disse egenskaber. Introduktionen af frailty-variable betyder, at de kendte likelihood-funktioner ikke er tilstrækkelige. Derfor har Kapitel 4 til formål at præsentere og behandle metoder, der kan tage højde for frailty. Metoderne, der betragtes, er EM-algoritmen og penalised partial likelihood-metoden (PPL-metoden). EM-algoritmen sættes op til at estimere parametrene i en frailty-model, hvor frailty-variablene er gamma-fordelte. Dette er også tilfældet for PPL-metoden, dog betragtes denne også i forhold til log-normal-fordelte frailty-variable. Metoderne sammenlignes i et mindre simulationsstudie, hvor både en parametrisk proportional hazard-model og en Cox proportional hazard-model også inkluderes. Rapporten afrundes i Kapitel 5 ved at diskutere nogle af resultaterne i projektet. Derudover gives nogle afsluttende forslag til, hvad der kan arbejdes videre på. 3

8

9 2. Overlevelsesanalyse I nærværende kapitel vil grundlæggende begreber, definitioner og sætninger inden for overlevelsesanalyse blive præsenteret. Dette kapitel er primært baseret på [Klein og Moeschberger, 25]. 2.1 Grundlæggende funktioner Lad X være en ikke-negativ stokastisk variabel med tæthedsfunktionen f. Lad ydermere F være den kumulative fordelingsfunktion. Det er nu muligt at definere nogle af de grundlæggende funktioner i overlevelsesanalyse. Definition (Overlevelsesfunktionen) Funktionen, S : R + [, 1], givet ved kaldes overlevelsesfunktionen. S(x) = P (X > x) Det bemærkes, at S(x) = 1 F (x). Betragt et kontinuert X, da gælder Af 2.1 fremgår det, at S(x) = 1 F (x) = x f(u) du. (2.1) d S(x) = f(x). (2.2) dx Definition (Hazard-funktionen) Hazard-funktionen, h(x), er defineret ved h(x) = lim dx P [x X < x + dx X x]. (2.3) dx Bemærk, at X kan anses som værende tiden, hvor en begivenhed af interesse indtræffer. Dermed kan h(x)dx tolkes som sandsynligheden for, at en sådan begivenhed indtræffer i intervallet [x, x + dx[ givet, at X x. Følgende lemma knytter hazard-, tætheds- og overlevelsesfunktionen. Lemma Lad X være kontinuert. Da gælder h(x) = f(x) S(x) = d ln S(x). (2.4) dx 5

10 6 2. Overlevelsesanalyse Bevis Første lighed i (2.4) vises ved at anvende Bayes formel på (2.3). Følgende omskrivning fås: h(x) = lim dx P [x X < x + dx] dx ( P (X > x) + P (X = x) ) = 1 S(x) lim F (x + dx) F (x) = f(x) dx dx S(x). Dermed kan anden lighed bevises ved at vise, at d dx ln S(x) = f(x)/s(x). Dette fremgår af d 1 d f(x) ln S(x) = S(x) = dx S(x) dx S(x), hvor (2.1) er anvendt. Definition (Den kumulative hazard-funktion) Den kumulative hazard-funktion, H(x), er defineret ved H(x) = x h(u) du. Det følger af Lemma 2.1.3, at S(x) = exp ( x ) h(u) du = exp( H(x)). (2.5) Overlevelsesanalyse adskiller sig fra andre grene af statistik ved at tillade brugen af data, hvor en begivenhed af interesse ikke er indtruffet. Teorien bag dette introduceres i følgende afsnit. 2.2 Censorering Lad X 1, X 2,..., X n være ikke-negative i.i.d. stokastiske variable. Disse benævnes fremadrettet som event-tider. Lad ligeledes C 1, C 2,... C n være ikke-negative uafhængige og identisk fordelte stokastiske variable. Fremadrettet kaldes disse censoreringstider. Event-tid indikerer tiden, hvor en begivenhed af interesse indtræffer. Censoreringstider indikerer derimod tiden, hvor overvågningen af begivenheden af interesse indstilles. Lad T i = min(x i, C i ) for i = 1,..., n. Det er kun parret (T i, i ), der observeres, hvor 1, hvis X i C i i =, hvis X i > C i. Hvis i =, siges T i at være censoreret. Lad F X og F C være kumulative fordelingsfunktioner for henholdsvis event- og censoreringstider. Det antages gennem projektet, at disse er absolut kontinuerte. Ydermere betegnes de tilhørende tæthedsfunktioner for F X og F C ved f X og f C respektivt. Sætning Lad X og C være henholdsvis en event- og en censoreringstid. Lad ydermere X og C være uafhængige. Da er den simultane tæthed for (T, ) givet ved f(t, δ) = (f X (t)(1 F c (t))) δ (f C (t)(1 F X (t))) 1 δ. (2.6)

11 2.3. Proportional hazard-modellen 7 Bevis Lad F (t, δ) = P (T t, = δ) = t f(u, δ) du. Da {, 1} kan den simultane tæthed skrives på følgende måde: f(t, δ) = d F (t, δ) dt = d ( ) δp (T t, = 1) + (1 δ)p (T t, = ) dt = δ d dt P (T t, = 1) + (1 δ) d P (T t, = ) dt ( ) δ ( ) 1 δ d d = P (T t, = 1) P (T t, = ). dt dt Betragt nu P (T t, = 1). Denne kan omskrives på følgende vis P (T t, = 1) = P (X t, X C) = f X (x)f C (c) dc dx x t x c = f X (x) f C (c) dc dx x t x c = f X (x)(1 F C (x)) dx. x t Dermed er d dt P (T t, = 1) = f X(t)(1 F C (t)). På tilsvarende vis kan det vises, at d dt P (T t, = ) = f C(t)(1 F X (t)), hvilket beviser sætningen. Betragt en endelig-dimensionel parametervektor θ og antag, at fordelingsfunktionen for event-tiderne afhænger af denne. Hvis det antages, at fordelingen af censoreringstider ikke afhænger af θ, kan f C (t) og F C (t) i (2.6) betragtes som værende konstanter i likelihoodfunktionen. Af antagelsen og (2.6) fås den i te faktor i likelihood-funktionen L i (θ) = f X (t i ; θ) δ i (1 F X (t i ; θ)) 1 δ i = f X (t i ; θ) δ i S X (t i ; θ) 1 δ i. (2.7) Ved at anvende Lemma kan (2.7) omskrives til L i (θ) = h X (t i ; θ) δ i S X (t i ; θ). Likelihood-funktionen bliver da ( n n L(θ) = h X (t i ; θ) δ i S X (t i ; θ) = h X (t i ; θ) δ i exp i=1 i=1 2.3 Proportional hazard-modellen ti h X (u; θ) du ). (2.8) En nyttig model inden for overlevelsesanalyse er proportional hazard-modellen, hvilken tillader indførelsen af kovariater. Lad p være antallet af kovariater. Da benævnes realiseringen af disse ved vektoren z R p.

12 8 2. Overlevelsesanalyse Definition (Proportional hazard-modellen) Lad β R p være en parametervektor. Da er proportional hazard-modellen givet ved ( ) h(t z) = h (t) exp z β, hvor baseline hazard-funktionen, h (t), er en vilkårlig ikke-negativ funktion. Betragtes overlevelsesfunktionen for proportional hazard-modellen giver (2.5) hvor H (t) = t h (u) du. ( ) S(t z) = exp H (t) exp(β z), (2.9) Proportional hazard-modellen, der ikke laver antagelser om den eksplicitte form for h ( ), kaldes Cox proportional hazard-modellen. I praksis kendes baseline hazard-funktionen sjældent, hvorfor Cox proportional hazard-modellen har en fordel. Dog kræver likelihoodfunktionen normalvis en antagelse om den eksplicitte form af h ( ) ved anvendelse i parameterestimation. I det følgende introduceres intuitionen bag den partielle likelihoodfunktion, hvilken benyttes til at estimere parametre i Cox proportional hazard-modellen. Lad (t i, δ i, z i ) for i = 1,..., n være realiseringer. Antag, at t i t j for i j. Benyttes en profil likelihood tilgang kan den partielle likelihood udledes. Dette gøres ved at betragte hazard-funktionen som en uendelig dimensional nuisance parameter og udtrykke denne som en funktion af parameteren af interesse, β. Anvendes proportional hazard-modellen til data kan likelihood-funktionen i (2.8) omskrives til L(β, h ( )) = n i=1 ( h (t i ) dt i exp(β δi ( ) z i )) exp H (t i ) exp(β z i ). (2.1) Lad D = {i δ i = 1} være indeksmængden af event-tider. Lad ydermere h (t i )dt i = a i > i et lille interval [t i, t i + dt i [ for i D, samt h (t)dt = andetsteds. Dermed bidrager kun event-tider til en øget kumuleret hazard-funktion. For at lette notationen lad a i = for i / D. Den kumulative baseline hazard-funktion er integralet af hazard-funktionen, hvilken kun er ikke-nul på meget små intervaller. Dermed kan integralet approksimeres ved summen H (t) = t i t a i. Denne approksimation kan indsættes i (2.1), hvorved der fås L(β) = = n ( a i exp(β δi z i )) exp a j exp(β z i ) i=1 t j t i n a i exp(β z i ) exp a i exp(β z j ) δi, (2.11) i=1 j R(t i )

13 2.4. Fordelinger 9 hvor R(t) = {t i t t i }. Det bemærkes, at likelihood-funktionen ikke direkte afhænger af værdierne af de realiserede tider, men derimod ordenen af disse. Tages logaritmen af (2.11) fås log-likelihood-funktionen n l(β) = δ i log(a i ) + β z i a i exp(β z i ). (2.12) i=1 j R(t i ) Differentieres (2.12) i forhold til a i fås udtrykket δ i a i δ i Sættes dette lig med nul, kan a i isoleres â i = j R(t i ) exp(β z i ). 1 j R(t i ) exp(β z i ). (2.13) Dette giver et estimat for den kumulative hazard-funktion. Indsættes â i i (2.11), opnås den partielle likelihood-funktion n exp(β L(β) = i z i ) δ. (2.14) i=1 j R(t i ) exp(β z i ) Den partielle likelihood-funktion kan altså ses som en profil likelihood-funktion, hvilken gør det muligt at lave parameterestimationer uden at antage en eksplicit form af h ( ). 2.4 Fordelinger I dette afsnit betragtes fordelinger, der gennem projektet anvendes i eksempler, for at give et anvendt perspektiv Weibull-fordelingen I overlevelsesanalyse bliver Weilbull-fordelingen ofte betragtet, da denne er mere fleksibel end fordelinger som eksponential-fordelingen. En stokastisk variabel X følger Weibullfordelingen, hvis den tilhørende tæthedsfunktion, f X, er givet ved f X (x) = αλx α 1 exp ( λx α ), x >, (2.15) hvor α og λ er positive konstanter. Den kumulative fordelingsfunktion er da F X (x) = x αλu α 1 exp ( λu α ) du = 1 exp ( λx α ). (2.16) Dermed giver 2.16 og 2.1 den tilhørende overlevelsesfunktion, Af (2.5) fås den kumulative hazard-funktion S X (x) = 1 F X (x) = exp ( λx α ). (2.17) H X (x) = λx α. (2.18)

14 1 2. Overlevelsesanalyse Dermed er hazard-funktionen givet ved h X (x) = αλx α 1. (2.19) Weibull-fordelingen er fleksibel grundet α-parameteren. Hazard-funktionen er aftagende, når < α < 1, konstant, når α = 1, samt voksende, når α > 1. Denne fleksibilitet kombineret med de pæne lukkede udtryk for Weibull-funktionerne gør, at denne fordeling er meget anvendt inden for overlevelsesanalyse. Eksempel Lad (t i, δ i, z i ) være realiseringer for i = 1,..., n. Betragt proportional hazard-modellen, h(t z) = h (t) exp(z β), hvor h (t) er givet som i (2.19) og z, β R p. Af (2.8) følger den tilhørende likelihoodfunktion ( n ( ) L(α, λ, β) = h (t i ) exp(z δi ti i β)) exp h (u) exp(z i β) du i=1 n ( = h (t i ) ) ( δ i exp(z δi ( ) i β)) exp H (t i ) exp(z i β) = i=1 n ( i=1 αλt α 1 i Log-likelihood-funktionen kan da skrives som l(α, λ, β) = D(log λ + log α) + ) δi ( exp(z δi ( ) i β)) exp λt α i exp(z i β). n i=1 [ ( ) ] δ i (α 1) log(t i ) λt α i exp z i β + δ i z i β, hvor D = n i=1 δ i. Differentieres denne i forhold til parametrene α, λ og β j for j = 1,..., p fås α l(α, λ, β) = D n α + [ ] δ i log(t i ) λ log(t i )t α i exp(z i β), i=1 λ l(α, λ, β) = D n λ t α i exp(z i β), og β j l(α, λ, β) = i=1 i=1 n [ ] δ i z ij λz ij t α i exp(z i β), hvor z ij indikerer den j te indgang i z i. Ovenstående funktioner sættes lig nul for at estimere parametrene. Løsningen herfor kræver numeriske metoder som Newton-Raphson. De dobbelt afledede til, der anvendes til denne metode, kan findes i Appendiks A.1. I Appendiks C.1 defineres funktionen WeibDataSim, hvilken simulerer binære kovariater og dertilhørende event-tider, som følger proportional hazard-modellen med en specificeret Weibull-hazard-funktion som h (t). Teorien bag simuleringen af event-tider, kan findes i Appendiks B. Endvidere kan funktionerne survreg og coxph i R-pakken Survival anvendes til at tilpasse henholdsvis en proportional hazard-model og en Cox proportional hazard-model på data. I Appendiks C.2 ses en R-kode, der anvender WeibDataSim til at simulerere data. Dette sker 2 gange med 2 observationer hver. Data simuleres med Weibull-parametrene alpha =

15 2.4. Fordelinger 11 3 og lambda = 2. Endvidere benyttes parameterværdierne beta1 = 2 og beta2 = -.6 som koefficienterne til kovariaterne. Fordelingen, hvorfra censoreringstiderne genereres, er en eksponentialfordeling med censoreringsraten, ratec, som sættes til Antal simulationer Antal ikke censorerede tider Figur 2.4.1: Antallet af simulationer, der har et givent antal event-tider. I Figur ses antallet simulationer, der har et givent antal observerede event-tider. Fordelingen af event-tider (ligeledes fordelingen af censoreringstider) betragtes som værende plausible scenarier for virkeligt data. Derfor vil fremtidige simulationer også benytte disse fordelinger. 3 Antal Estimater Figur 2.4.2: Estimaterne er for α (rød) og λ (blå). Stiplede linjer indikerer gennemsnitlige estimater. De sorte stiplede linjer indikerer de sande parametre, alpha=3 og lambda=2. Figur viser, at en parametrisk likelihood-funktion 2 er forholdsvist god til at estimere α-parameteren i tilfældet med en Weibull-hazard-funktion som baseline hazard-funktion. Variansen for λ lader til at være en smule større, men det lader til, at det er fornuftige estimater, der opnås. De gennemsnitlige værdier for α og λ er begge forholdsvist tæt på deres respektive sande værdi. 1 Dette svarer til en Weibull-fordeling med α = 1 og λ =.1. 2 Parametrisk anvendes om likelihood-funktionen, når der er tale om en specificeret baseline hazardfunktion.

16 12 2. Overlevelsesanalyse 2 15 Antal Estimater Figur 2.4.3: Estimaterne er for β 1 fundet ved parametrisk likelihood-funktion (rød) og partiel likelihoodfunktion (blå). Stiplede linjer indikerer gennemsnitlige estimater. Den sorte stiplede linje indikerer den sande parameter, Beta1= Antal Estimater Figur 2.4.4: Estimaterne er for β 2 fundet ved parametrisk likelihood-funktion (rød) og partiel likelihoodfunktion (blå). Stiplede linjer indikerer gennemsnitlige estimater. Den sorte stiplede linje indikerer den sande parameter, Beta2=-.6. Det fremgår af Figur og Figur 2.4.4, at estimaterne fra den parametriske og den partielle likelihood-funktion er nogenlunde tilsvarende. Estimaterne fra den partielle likelihoodfunktion giver gennemsnitligt et estimat, der er tættere på den sande paramter. MSE β 1 β 2 Parametrisk.3.2 Partiel.4.3 I Tabel ses Mean Square Error (MSE) for hver af estimaterne fra de to likelihoodfunktioner. Det bemærkes, at vurderingen på baggrund af MSE er, at estimaterne fra den parametriske likelihood-funktion passer (lidt) bedre end dem fra den partielle likelihoodfunktion. Fordelingen af estimaterne samt den lille forskel i MSE en tyder dog på, at det principielt er ligegyldigt, hvilken af likelihood-funktionerne, der vælges til at estimere. Dette giver et større incitament til at anvende den partielle likelihood-funktion, da denne ingen kendskab kræver til den eksplicitte form af baseline hazard-funktionen.

17 2.4. Fordelinger Log-normal-fordelingen En anden fordeling, der er værd at betragte, er log-normal-fordelingen. Lad X logn(µ, σ 2 ). Da er tæthedsfunktionen, f X, givet ved ( ) 1 (log(x) µ)2 f(x) = exp 2πσx 2σ 2. Lad Φ( ) være den kumulative fordelingsfunktion for standard normalfordelingen. Hermed er overlevelsesfunktionen for X givet ved ( ) log(x) µ S X (x) = 1 Φ σ Af (2.4) fås hazard-funktionen ( ) 1 2πσx exp (log(x) µ)2 2σ 2 h X (x) = ( ) 1 Φ log(x) µ = σ 1 log(x) µ σxφ( σ ) 1 Φ( log(x) µ σ ), ) hvor φ(x) = 1 2π exp ( x2 2 er tæthedsfunktionen for standard normalfordelingen. Ved brug af L Hôpitals regel kan grænseværdien for hazard-funktionen, når x går med uendelig, udregnes. lim h X(x) = lim x x = lim x 1 log(x) µ σxφ( σ ) 1 Φ( log(x) µ σ ) = lim x 1 σx σx log(x) µ 1 σ x =. ( 1 φ( log(x) µ σx 2 σ ) + 1 log(x) µ σxφ( σ ) φ( log(x) µ σ ) log(x) µ σ Hazard-funktionen er gående mod, hvorfor denne er uhensigtsmæssig at betragte i forhold til menneskers overlevelse. Dette ville betyde, at stigningen i sandsynligheden for at dø bliver mindre des ældre, en person bliver. Log-normal-fordelingen vil senere blive betragtet i en anden sammenhæng Gamma-fordelingen Lad X følge en gamma-fordeling. Dette noteres X Γ(k, λ) for k, λ >. Tæthedsfunktionen, f X, er givet ved f X (x) = λk x k 1 e λx. Γ(k) Overlevelsesfunktionen bliver da x S X (x) = 1 λk u k 1 e λu du. Γ(k) Dermed følger hazard-funktionen h X (x) = λ k x k 1 e λx Γ(k) x λk u k 1 e λu du. Det bemærkes, at der ikke er en lukket form for integralerne i funktionerne, hvorfor likelihood-funktionen for gamma-fordelte event-tider ikke har en simpel form. Lige som log-normal-fordelingen betragtes denne senere. ) 1 x

18

19 3. Frailty-modeller I Kapitel 2 blev proportional hazard-modellen introduceret. Denne model er baseret på en antagelse om homogenitet op til nogle kendte kovariater i populationen. I nærværende kapitel introduceres udvidelser af proportional hazard-modellen, som indeholder en eller flere uobserverede variable, der redegør for en inhomogenitet i en population eller grupper i populationen. Dette kapitel er primært baseret på Wienke [211]. 3.1 Den en-dimensionelle frailty-model Den første udvidelse af proportional hazard-modellen, der introduceres, er den univariate frailty-model. Definition (Den en-dimensionelle frailty-model) Lad h (t z) være en hazard-funktion, der tillader kovariater. Da er den en-dimensionelle frailty-model givet ved h(t z, W ) = W h (t z), (3.1) hvor W er en ikke-negativ stokastisk variabel. Variablen W kaldes for frailty-variablen eller blot frailty. Bemærk, at W kan skaleres således, at E[W ] = 1, da en eventuel skalar kan absorberes i baseline hazard-funktionen. 1 Af (3.1) samt (2.5) er S(t z, W ) = exp ( W H (t z) ), (3.2) hvor H (t z) = h (u z) du. Populationens overlevelsesfunktion S(t z) kan opnås ved at integrere frailty-variablen ud i (3.2). Dermed er S(t z) = S(t z, w)f W (w) dw = E W [S(t z, W )] = L W [H (t z)], (3.3) hvor f W ( ) er tæthedsfunktionen for W og L[ ] er Laplacetransformationen givet ved L W [u] = e uw f W (w) dw. Laplacetransformen nævnes af praktiske årsager, denne er kendt for visse sandsynlighedsfordelinger. Laplacetransformen er derfor bekvem ved udregning af middelværdier, da der under passende regularitetsbetingelser gælder, at L W [u] = d du L d W [u] = du e uw f W (w) dw. = we uw f W (w) dw. Sættes u = opnås følgende relation 1 Dette er under antagelsen, at middelværdien af W er endelig. L W [] = E W [W ]. (3.4) 15

20 16 3. Frailty-modeller Eksempel Betragt den stokastiske variabel W Γ(k, λ). Den tilhørende tæthedsfunktion er givet i Afsnit Laplace-transformationen bliver da L W [u] = λ k (λ + u) k 1 Γ(k) λk w k 1 e λw e uw dw (λ + u) k 1 Γ(k) wk 1 e (λ+u)w dw. Funktionen, der integreres over, svarer til en gamma-fordeling med parametrene k og λ+u, hvorfor integralet bliver 1. Dermed er L W [u] = λ k (λ + u) k = ( λ + u λ ) k = ( 1 + u λ) k. (3.5) Dette betyder, at der for populationens overlevelsesfunktion for den en-dimensionelle frailty-model med frailty W Γ(1, 1) gælder S(t z) = L W [H (t z)] = (1 + H (t z)) 1. (3.6) I følgende sætning kobles hazard-funktionen for populationen, h(t z), sammen med det gennemsnitlige individ i populationen til tid T > t. Sætning Betragt den univariate frailty-model som i (3.1). Da er h(t z) = h (t z)e W [W T > t]. Bevis Af (2.4) og (3.1) fås Dette kan omskrives til h(t z, W = w) = f(t z, W = w) S(t z, W = w) = wh (t z). f(t z, W = w) = wh (t z)s(t z, W = w). Den simultane tæthed for T og W (betinget med z) kan da udtrykkes ved f(t, w z) = wh (t z)s(t z, W = w)f W (w) (3.7) hvormed frailty-variablen kan integreres ud, f(t z) = h (t z) ws(t z, w)f W (w) dw. (3.8) Dette samt (2.4) giver, at h(t z) = h (t z) ws(t z, W = w)f W (w) dw. (3.9) S(t z)

21 3.1. Den en-dimensionelle frailty-model 17 Integralet i (3.9) forsøges nu omskrevet. Betragtes E W [W T > t] = wf W (w T > t) dw, søges et udtryk for f W (w T > t). Denne tæthed er defineret ud fra relationen P (W w, T > t z) = w Ydermere gælder for simultane tætheder, at P (W w, T > t z) = Af (3.1) og (3.11) følger f W (v T > t)p (T > t z) dv = = = = w t w w w t w f (T,W ) (u, v z) du dv f T W (u z, W = v)f W (v) du dv S(t z, W = v)f W (v) dv f W (v T > t)s(t z) dv. (3.1) S(t z, W = v)f W (v) S(t z) dv. (3.11) S(t z) f W (w T > t) = S(t z, W = w)f W (w). S(t z) Hermed bliver h(t z) = h (t z) hvilket var, hvad der skulle vises. wf W (w T > t) dw = h (t z)e W [W T > t], Sætning giver anledning til at betragte monotoniforholdene for E W [W T > t]. Proposition Under passende regularitetsbetingelser er d dt E W [W T > t]. Bevis Beviset tager udgangspunkt i, at E W [W T > t] = ws(t z, w)f W (w) dw S(t z) = E W [W S(t z, W )]. S(t z) Under passende regularitetsbetingelser er d dt E W [W S(t z, W )] = E W [W ddt ] S(t z, W ) = h (t z)e W [W 2 S(t z, W )]. (3.12)

22 18 3. Frailty-modeller Det ses desuden ved brug af (3.3), at d dt S(t z) = d dt = S(t z, w)f W (w) dw wh (t z)s(t z, w)f W (w) dw = h (t z)e W [W S(t z, W )]. Ved differentiering af E W [W T > t] giver kvotientreglen d dt E W [W T > t] = h (t z) E W [W 2 S(t z, W )]S(t z) E W [W S(t z, W )] 2 S(t z) 2 [ ] [ ] 2 = h 2 S(t z, W ) S(t z, W ) (t z) E W W E W W. S(t z) S(t z) Fra beviset af Sætning er f W (w T > t) = S(t z, W = w)f W (w). S(t z) Dermed bliver d [ ] ) dt E W [W T > t] = h (t z) (E W W 2 [ ] 2 T > t E W W T > t = h (t z)var[w T > t], da både h (t z) og variansen er ikke-negative. Proposition betyder, at des større t bliver, jo stærkere bliver populationen med T > t. Betragt forholdet mellem hazard-funktionerne for populationen, h(t z) og et individ, h(t z, w), hvor E[W ] = w. Da gælder h(t z) E[W T > t] = = h(t z, w) E[W ] E[W T > t] E[W T > ] < 1. Altså er det gennemsnitlige individ svagere end det gennemsnitlige individ i populationen til tid t, hvilket bør medtages i overvejelser, inden der drages konklusioner for individer på baggrund af populationens hazard- eller overlevelsesfunktion. I det følgende eksempel undersøges forskellen mellem hazard-funktionen for populationen og for individerne yderligere. Eksemplet er baseret på Martinussen [217]. Eksempel Betragt et studie med syge patienter. Lad z være en observeret kovariat, der er 1, hvis en patient har modtaget behandling, og, hvis ingen behandling er modtaget. Lad populationens hazard-funktion, h(t z), være givet som en proportional hazard-model med en tidsvarierende effekt for z. Mere præcist er h(t z) = exp(βz1 [t v]), hvor v er et positivt tal. Hvis β < kan tiden v tolkes som grænsen mellem, at behandlingen har en effekt og ikke har en effekt. Her er baseline-hazard-funktionen konstant 1. Betragt endvidere frailty-modellen h(t z, W ) = W h (t z),

23 3.1. Den en-dimensionelle frailty-model 19 hvor W Γ(1, 1). Hazard-funktionen, h (t z), kobler hazard-funktionerne for populationen, h(t z), og individet h(t z, W ). Målet er at finde et udtryk for individets hazard-funktion ud fra populationens, hvilket gør det muligt at sammenligne disse. Af Eksempel er Heri kan H (t z) isoleres. Dette giver S(t z) = L W [H (t z)] = (1 + H (t z)) 1. H (t z) = S(t z) 1 1 = exp(h(t z)) 1. Definitionen af den kumulative hazard-funktion medfører da h (t z) = d dt H (t z) = h(t z) exp(h(t z)). Udtrykket H(t z) afhænger af, om t v eller t > v. For t v er ( ) t h (t z) = exp(βz 1) exp exp(βz1 [u v]) du = exp(βz) exp ( exp(βz)t ). Endvidere gælder for t > v, at ( t ) h (t z) = exp(βz ) exp exp(βz1 [u v]) du ( v t ) = exp exp(βz) du + exp(βz ) du v = exp ( exp(βz)t + t v ). Dermed er den hazard-funktionen for individerne i en gruppe kendt. Antag, at β < og betragt forholdet mellem de betingede hazard-funktioner for et individ, h(t z = 1, W = w) h(t z =, W = w) = h (t z = 1) h (t z = ) < 1. Dette gælder for alle (tilladte) værdier af w og t. Betragtes derimod det tilsvarende forhold for populationen, er h(t z = 1) = exp(β1 [t v]). h(t z = ) Det ses, at forholdet er mindre end 1, når t v. Derimod er værdien lig med 1, hvis t > v. Det betyder altså, at konklusioner taget på baggrund af populationen, muligvis ikke holder i det individuelle tilfælde. I dette eksempel ville det være muligt at konkludere, at en behandling ingen effekt har efter et tidspunkt v, hvis populationen betragtes. Konklusionen for individet er dog, at behandling altid har en effekt. Eksempel viser, at der er forskel på at konklusionerne kan være forskellige for populationen kontra individet. Ingen af konklusionerne er forkerte, de kan blot varierere fra marginale til betingede fordelinger.

24 2 3. Frailty-modeller 3.2 Den delte frailty-model I forrige afsnit blev den en-dimensionelle frailty-model præsenteret. Denne type model bygger på, at individerne i et studie er uafhængige. Dette vil ikke nødvendigvis være tilfældet. Eksempelvis kunne et studie betragte individer med en dødelig sygdom. Endvidere kan nogle individer være fra samme familie. Nogle af disse familier da have større risici for at dø end andre, da individerne i en familie har samme genpulje, hvilken måske ikke er inddraget i kovariaterne. I nærværende afsnit introduceres en multi-dimensionel frailty-model, som betragter grupper i data og knytter en frailty til hver af disse. Lad i dette afsnit n være antallet af grupper, og lad den i te gruppe have n i observationer og en tilknyttet frailty W i for i = 1,..., n. Lad ydermere T ij, δ ij og z ij være henholdsvis tid, status samt kovariaterne for den j te observation i den i te gruppe for i = 1,..., n og j = 1,..., n i. Endvidere antages der fremadrettet for event-tiderne X ij for grupperne i = 1,... n og observationerne j = 1,..., n i, at X ij erne er uafhængige givet W 1,... W n. Definition (Den delte frailty-model) Lad h ( ) > være en vilkårlig hazard-funktion. Da er den delte frailty-model givet ved h(t z ij, W i ) = W i h(t z ij ). I nærværende projekt betragtes h(t z ij ) som en proportional hazard-model, hvorfor den delte frailty-model kan skrives som h(t z ij, W i ) = W i h (t) exp(z ijβ), (3.13) hvor h ( ) = h (, ξ) i dette afsnit betragtes som værende specificeret med parametervektoren ξ. Bemærkning Grundet den betingede uafhængighed i en gruppe kan den simultane betingede overlevelsesfunktion for den i te gruppe skrives S(t i1,..., t ini z i, W i = w i ) = n i j=1 n i S(t ij z ij, W i = w i ) = exp W i H (t ij ) exp(z ijβ). Her er z i = {z i1,..., z ini }. Som ved den en-dimensionelle frailty-model kan den marginale overlevelsesfunktion for den i te gruppe opnås ved at midle over frailty-variablen. [ S(t i1,..., t ini z i ) = E Wi S(ti1,..., t ini z i, W i ) ] n i = E Wi exp W i H (t ij ) exp(z ijβ). Dette svarer endvidere til Laplace-transformationen n i S(t i1,..., t ini z i ) = L Wi H (t ij ) exp(z ijβ). j=1 Betragtes tilfældet, hvor W i Γ(1/θ, 1/θ), opnås n i S(t i1,..., t ini z i ) = 1 + θ H (t ij ) exp(z ijβ) j=1 j=1 j=1 1 θ.

25 3.2. Den delte frailty-model 21 Denne kan ikke faktoriseres. Dette betyder, at gruppens frailty medfører, at observationerne ikke er uafhængige i den marginale simultane fordeling. Betragt de observerede realiseringer (t ij, δ ij, z ij ) for i = 1,..., n og j = 1,..., n i samt de uobserverede frailty-variable w = {w 1,..., w n }. Den frailty-betingede likelihood-funktion for den delte frailty-model på formen (3.13) kan opskrives ved brug af (2.8). For den i te gruppe er den betingede likelihood-funktion givet ved L i (ξ, β W i = w i ) = n i j=1 = w d i i ( w i h (t ij ) exp(zijβ)) δij ( ) exp w i H (t ij ) exp(z ijβ) n i exp w i H (t ij ) exp(z ijβ) j=1 n i j=1 (3.14) ( h (t ij ) exp(z ijβ)) δij, (3.15) hvor d i = n i j=1 δ ij, og ξ blot er en pladsholder for eventuelle parametre i eksempelvis baseline hazard-funktionen, h ( ). I det følgende eksempel betragtes den marginale likelihood-funktion, hvor frailty-variablen integreres ud. Eksempel Betragt den betingede likelihood-funktion givet i (3.15). Lad W i Γ(1/θ, 1/θ). Den marginale likelihood-funktion kan opstilles ud fra følgende midling af den betingede. L i (β, ξ) = E Wi [L i (θ, β W i = w i )] = L i (θ, β W i = w i )f Wi (w i ) dw i. De faktorer, hvor w i ikke indgår i (3.15), kan betragtes som værende konstanter. Dermed fås L i (θ, β) = w d n i i i exp w i H (t ij ) exp(z ijβ) w1/θ 1 i exp( w i θ ) θ 1/θ dw i Γ(1/θ) = n i j=1 j=1 ) δij ( h (t ij ) exp(z ijβ) w d i+1/θ 1 i 1 θ 1/θ Γ(1/θ) n i j=1 n i exp w i θ 1 + H (t ij ) exp(z ijβ) dw i j=1 ( h (t ij ) exp(z ijβ)) δij. Sættes k = d i + 1/θ og λ = θ 1 + n i j=1 H (t ij ) exp(z ijβ) samt forlænges brøken med Γ(k)λ k opnås L i (θ, β) = = λ k wi k 1 exp ( λw i ) dw i Γ(k) Γ(k) λ k θ 1/θ Γ(1/θ) n i j=1 ( ) h (t ij ) exp(z δij ijβ) (h (t ij ) exp(z ij β) ) δij Γ(d i + 1/θ) n i j=1 ( θ 1 + ) n i j=1 H (t ij ) exp(z ij β) di. (3.16) +1/θ θ 1/θ Γ(1/θ)

26 22 3. Frailty-modeller Dermed er det vist, at en Γ(1/θ, 1/θ)-fordelt frailty kan integreres ud i den betingede likelihood-funktion. Hvis baseline hazard-funktionen er kendt, det vil sige, at der arbejdes med en parametrisk model, kan parametrene i denne samt β og θ estimeres. Eksempel kræver kendskab til formen af h ( ). Dette er imidlertid en stor antagelse at lave, da denne sjældent er kendt. Dette blev også berørt ved Cox proportional hazard-modellen, hvor problemet blev løst med den partielle likelihood-funktion. Tilsvarende metoder vil blive undersøgt i det følgende kapitel.

27 4. Estimationsmetoder I nærværende kapitel præsenteres to metoder til at estimere parametre i en delt frailtymodel med uspecificeret baseline hazard-funktion. Den ene metode er en tilpasset version af EM-algoritmen. Den generelle teori bag EM-algoritmen kan findes i Appendiks D.1. Den anden metode er kendt som penalised partial likelihood-metoden og forkortes PPL. Disse metoder tages i brug, når baseline hazard-funktionen er uspecificeret, hvorfor likelihoodfunktionen ikke kan anvendes. Dette kapitel er primært baseret på Duchateau og Janssen [28]. 4.1 EM-algoritmen I dette afsnit opstilles teorien for at anvende EM-algoritmen på en delt frailty-model med gamma-fordelte frailty-variable. Betragt derfor den delte frailty-model h(t z ij, W i ) = W i h (t) exp(z ijβ), hvor h ( ) er uspecificeret, og W i Γ(1/θ, 1/θ) for i = 1,..., n. I praksis er W i latente variable, hvilket vil sige, at disse ikke observeres. Dette kan dog omgås ved at bruge EM-algoritmen. I denne vælges begyndelsesværdier for parametrene, der ønskes estimeret, ud fra hvilke de latente variable kan estimeres ved den forventede værdi betinget med parametrene. Antag derfor, at W i er observeret med værdien w i for i = 1,..., n. Dette giver ( ) h(t z ij, W i = w i ) = w i h (t) exp(z ijβ) = h (t) exp z ijβ + log(w i ) (4.1) Dette er en Cox proportional hazard-model med et offset-led, da h ( ) er uspecificeret. For fuldstændighedens skyld udledes i Appendiks D.2 den partielle likelihood for Cox proportional hazard-modellen med et offset-led. Lad T = (T, ), hvor T = (T 1 1,..., T n ni ), og = ( 1 1,..., n ni ). Lad ydermere w være realiseringen af W = (W 1,..., W n ). Genkald, at w antages observeret. Betragt da relationen f T,W (t, w h ( ), β, θ) = f T W (t h ( ), β)f W (w θ), (4.2) hvor t er en realisering af T. Kovariaterne z ij er udeladt for at lette notationen. Den fulde log-likelihood-funktion, l f (h ( ), β, θ) = log(f T,W (t, w h ( ), β, θ)), kan da skrives som en sum af to log-likelihood-funktioner, l f1 (h ( ), β) = log(f T W (t h ( ), β)) og l f2 (θ) = log(f W (w θ)). Dette giver Af (3.14) gælder l f1 (h ( ), β) = i=1 j=1 Endvidere er n l f2 (θ) = log f W (w i θ) = i=1 l f (h ( ), β, θ) = l f1 (h ( ), β) + l f2 (θ). n n i [ ( ) ] δ ij log w i h (t ij ) exp(z ijβ) w i H (t ij ) exp(z ijβ). (4.3) n i=1 ( ) ( ) 1 1 log Γ log(θ 1/θ ) + θ θ 1 log(w i ) 1 θ w i. (4.4) Lad estimaterne for parametrene til det k te trin i EM-algoritmen, ξ (k) = (h (k) ( ), β(k), θ (k) ), være givet. I de følgende afsnit betragtes henholdsvis E- og M-trinet i EM-algoritmen. 23

28 24 4. Estimationsmetoder E-trinet I dette underafsnit betragtes det k + 1 te trin. Det vil sige, at parametrene er blevet maksimeret for det k te trin. Definitionen af EM-algoritmen i Appendiks D.1 kræver, at middelværdien af den fulde log-likelihood-funktion 1 betinget med det observerede data og parameterestimaterne til det k te trin for k =, 1,... skal udregnes. Dette betyder helt konkret, at E [l f (h ( ), β, θ; W) t, ξ (k)] skal bestemmes. Relationen mellem l f, l f1 og l f2 gør, at den betingede middelværdi af l f1 og l f2 kan betragtes. Det ses, at [ E l f1 (h ( ), β) t, ξ (k)] n n i ( [ = [δ ij E log(w i ) t, ξ (k)] ) + log h (t ij ) exp(z ijβ) samt, at [ E l f2 (θ) t, ξ (k)] = i=1 j=1 ( n ( ) ) 1 log Γ θ 1/θ θ i=1 [ E W i t, ξ (k)] ] H (t ij ) exp(z ijβ) ( ) 1 + θ 1 E [log(w i ) t, ξ (k)] 1 [ θ E W i t, ξ (k)]. Det ses, at de eneste [ udtryk, der mangler at bestemmes i forhold til den betingede middelværdi, er E W i t, ξ (k)] [ og E log(w i ) t, ξ (k)]. Disse værdier er baseret på de k te estimater, hvilke er kendte jævnfør a. Derfor giver det k + 1 te trin, at [ E (k+1) [W i ] = E W i t, ξ (k)] = w i f W T (w i t, ξ (k) ) dw i. Anvendes Bayes Sætning kan den betingede tæthedsfunktion omskrives til f W T (w i t, ξ (k) ) = f T W (t W i = w i, h (k) ( ), β(k) )f W (w i θ (k) ) f T (t ξ (k) ) Af (3.15), (3.16) samt f W (w i ) = 1 f W T (w i t, ξ (k) ) = = L i(h (k) ( ), β(k) W i = w i )f W (w i θ (k) ) L i (ξ (k). (4.5) ) w 1/θ 1 Γ(1/θ)θ 1/θ i 1 ( Γ d i + 1 i exp w i 1 ni θ (k) + θ (k) )w di+1/θ(k) 1 exp( w i /θ) kan (4.5) skrives 1 ni θ (k) + H (k) j=1 H (k) j=1 (t ij) exp(z ijβ (k) (t ij) exp(z ijβ (k). (4.6) Sættes α = d i + 1 og λ = 1 + n i θ (k) θ (k) j=1 H(k) (t ij) exp(z ij β(k) ) er (4.6) tæthedsfunktionen for Γ(α, λ). Middelværdien for en Γ(α, λ)-fordelt variabel er α λ.2 Dette giver E (k+1) [W i ] = d i + 1 θ (k) 1 + n i θ (k) j=1 H(k) (t ij) exp(z ij β(k) ). (4.7) 1 Dette er i forhold til de latente variable, hvilket vil sige W i dette afsnit. 2 Dette ses også af (3.4) og (3.5)

29 4.1. EM-algoritmen 25 I Appendiks D.3 betragtes E[log(W )], hvor W er en gamma-fordelt variabel. Da f W T (w i t, ξ (k) ) er tætheden for gamma-fordelingen Γ(α, λ), hvor α = d i + 1 og λ = 1 + θ (k) θ (k) ni j=1 H(k) (t ij) exp(z ij β(k), gælder resultatet i Appendiks D.3. Dermed fås ( E (k+1) [log W i ] = ψ d i + 1 ) θ (k) log 1 ni θ (k) + H (k) j=1 (t ij) exp(z ijβ). (4.8) Dermed anses disse forventede værdier som de observerede værdier for frailty-variablene i det k + 1 te trin. E-trinet er derfor afsluttet, hvorfor M-trinet nu kan betragtes. M-trinet Da E-trinet er fundet for det k + 1 te trin, kan M-trinet nu udledes. I dette trin skal den fulde likelihood-funktion maksimeres med hensyn til β og θ betinget med de observerede værdier samt de forventede værdier, der blev fundet i E-trinet. Ligeledes skal h ( ) maksimeres, da denne er krævet i E-trinet. Eftersom baseline hazard-funktionen er uspecificeret, betragtes denne dog som en nuisance parameter. Fra tidligere blev det vist, at l f (h ( ), β, θ) = l f1 (h ( ), β) + l f2 (θ). Dette betyder, at β kan estimeres ved at udelukkende at maksimere l f1 (h ( ), β). I Appendiks D.2 anses h ( ) også som værende en nuisance parameter. Dette anvendes i et profil likelihood-scenarie, hvilket giver den partielle likelihood-funktion med et offset-led. Denne ses i (D.1), hvilken anvendes til at estimere β. Heri anses frailty-variablene som værende kendte. Dette overkommes ved at bruge resultaterne fra E-trinet. Fremadrettet benævnes denne log-likelihood-funktion ved l f1p. Endvidere kan h ( ) og H ( ) estimeres ved henholdsvis (D.9) og (D.6), da disse estimater skal bruges i E-trinet. Ligeledes kan θ estimeres ved at maksimere l f2 (θ). Differentieres (D.1) og (4.4) i forhold til henholdsvis den o te komponent i β, β o og θ fås: samt β o l f1p (β) = θ l f2(θ) = n n i δ ij i=1 j=1 n i=1 = 1 θ 2 (ψ kl R(t ij ) z kl,ow k exp(z kl β) kl R(t ij ) w k exp(z kl β) + z ij,o ( ) Γ 1 θ ( ) + log(θ) θ 2 Γ 1 θ 2 1 θ 2 log(w i) θ 2 + w i θ 2 θ ( ) ) 1 + log(θ) 1 log(w i ) + w i θ., For at løse β o l f1p (β) = og θ l f2 = kræves numeriske metoder. Newton-Raphsonmetoden kan eventuelt anvendes til førstnævnte ligning, og bisektionsmetoden kan anvendes til anden ligning på et interval ], a], da θ skal være positiv. Startværdier for parametrene, β og h ( ), i EM-algoritmen kan findes ved at bruge den partielle likelihood-funktion. Det vil sige lade være med at tage højde for frailty-variablene. Endvidere foreslår Duchateau og Janssen [28], at startværdien for θ skal være 1. Det medfører, at start-fordelingen for frailty-variablene er en gamma-fordeling med middelværdi og varians 1. Ud fra disse kan E-trinet da udregnes, hvorefter dette kan bruges i

30 26 4. Estimationsmetoder M-trinet. Det er ikke garanteret, at parametrene konvergerer, da der principielt kan være flere stationære punkter. Derimod vides det, at likelihood-funktionen stiger jævnfør Appendiks D.1. Dermed kan (3.16) udregnes for hvert trin. Endvidere kan forskellen mellem likelihood-funktionen med de nuværende parametre og de forrige parametre udregnes. Hvis denne forskel er mindre end en given tolerance, kan EM-algoritmen afsluttes.

31 4.2. Penalised partial likelihood Penalised partial likelihood I næværende afsnit bliver penalised partial likelihood-metoden (PPL-metoden) præsenteret. Denne metode betrager frailty-variablene som parametre (noteres W i ), der skal estimeres. PPL-metoden minder om coordinate ascend. Først betragtes variansen, 1/θ, som værende kendt, hvormed β og W i kan estimeres. Anden del søger at estimere θ ud fra estimaterne for β og W i. PPL-metoden stopper, når estimatet for θ ændrer sig mindre end en givet tolerance. I det følgende opstilles funktionerne, der bruges i denne metode, i et tilfælde med gamma-fordelte frailty-variable. Betragt først den delte frailty-model med opskrivningen h(t z ij, W i ) = W i h (t) exp(z ijβ) = h (t) exp(z ijβ + log(w i ) = h (t) exp(z ijβ + V i ), hvor W i er en gamma-fordelt frailty med Γ(1/θ, 1/θ), og V i = log(w i ) kaldes en tilfældig effekt for i = 1,..., n. Likelihood-funktionen, der anvendes under M-trinet i EM-algoritmen, kunne udtrykkes ved følgende sum: l f (h ( ), β, θ) = l f1 (h ( ), β) + l f2 (θ). Hvis h ( ) udprofileres i en profil-likelihood, kan denne skrives l fp (β, θ) = l f1p (β) + l f2 (θ), hvor l f1p er givet som i (D.1). I PPL-metoden betragtes de tilfældige effekter, V = (V 1,..., V n ), som værende ukendte parametre, der skal estimeres. Dette leder til den penalised partielle likelihood-funktion, forkortes blot PPL: l P P L (β, V θ) = l f1p (β, V) + l f2 (V θ). (4.9) Heri kan l f2 (V θ) = n i=1 log f V (V i, θ) betragtes som et straf-led, da der (ofte) gælder, at des længere tilfældige effekter er fra deres middelværdi, jo mindre værdi har den resulterende tæthedsfunktion for denne værdi. Eftersom W i er gamma-fordelt kan tætheden for V i udregnes til f V (v) = (exp(v))1/θ exp [ exp(v)/θ ] ( ), θ 1/θ Γ 1 θ Da θ er konstant, kan l f2 (V θ) reduceres til en ækvivalent likelihood-funktion. l f2 (V θ) = = 1 θ n i=1 n i=1 n ( ) 1 log Γ log(θ 1/θ ) + 1 θ θ V i 1 θ exp(v i) 1 θ V i 1 θ exp(v i) i=1 V i exp(v i ). Parametrene β og V kan nu estimeres på normal vis. Som i EM-algoritmen kræver dette en iterativ metode som Newton-Raphson-metoden til at finde løsningerne. Hermed fås estimater for β og V. Dernæst foreslår Duchateau og Janssen [28], at anvende β og V

32 28 4. Estimationsmetoder til at opnå estimater for henholdsvis H ( ) og h ( ) ved at bruge (D.6) og en omskrivning af (D.9) respektivt. Omskrivningen af (D.9) er blot â ij = 1 kl R(t ij ) exp(z kl β + V k). Næste trin består i at estimere θ ud fra den marginale likelihood-funktion, (3.16), hvor estimaterne for β, h ( ) og H ( ) anvendes. En fordel ved PPL-metoden er, at den også kan udvides til at finde estimater i tilfælde af en delt frailty-model med log-normal-fordelte frailty-variable Log-normal-fordelte frailty-variable Gamma-fordelingen er den primært anvendte fordeling for frailty-variablene i nærværende projekt, da denne har forholdsvist pæne egenskaber. Dette betyder dog ikke, at andre fordelinger ikke er tilgængelige. Et alternativ til gamma-fordelingen er log-normal-fordelte frailty-variable. Lad W i logn(µ W, σw 2 ) og betragt igen h(t z ij, W i ) = W i h (t) exp(z ijβ) = h (t) exp(z ijβ + V i ), hvor V i = log(w i ). Da er V i N(µ V, σv 2 ). I det følgende betragtes det simple tilfælde, hvor µ V =. Ligesom for tilfældet med gamma-fordelte frailty-variable betragtes PPL fra (4.9). Her er l f1p uændret ved skift af fordelingen for frailty-variablene. Derimod er l f2 forskellig fra fordeling til fordeling. Da ( ) f V (v σ 2 1 ) = exp v2 2πσV 2 2σV 2, er l f2 givet ved [ n l f2 (V σv 2 ) = 1 2 i=1 ( ) log(2π) + log(σ 2 ) V i 2 ] 2σV [ n log(σv 2 ) + V i 2 σv 2 Estimater for β og V kan som ved gamma-fordelte frailty-variable opnås ved Newton- Raphson metoden. Til at estimere σ 2 foreslår Duchateau og Janssen [28] et REMLestimat. i=1 ].

33 4.3. Sammenligning af metoderne Sammenligning af metoderne I dette afsnit simuleres data med WeibDataSim fra Appendiks C.1. Data sættes til at have Weibull-fordelingen med α = 2 og λ = 3 som baseline hazard-funktion. Endvidere betragtes to binære kovariater med henholdsvis 2 og.6 som sande parametre. Ydermere tilføjes en frailty-variabel til den sande model, hvor frailty-variablen følger gamma-fordelingen Γ(1/θ, 1/θ), hvor θ = 3. Med andre ord følger den en gamma-fordeling med middelværdi 1 og varians 3. Slutteligt sættes antallet af grupper til 5 samt antallet af individer pr. gruppe til 4, således der simuleres 2 observationer. Censoreringsraten, ratec, sættes til.1. Sådanne datasæt simuleres 2 gange. På hvert datasæt tilpasses en proportional hazardmodel med Weibull baseline hazard-funktion, en Cox proportional hazard-model og en delt frailty-model med gamma-fordelte frailty-variable tilpasset med både EM-algoritmen og PPL-metoden. Derudover tilpasses også en delt frailty-model med log-normal-fordelte frailty-variable med PPL-metoden. Sidstnævnte model er taget med for at se, hvordan en misspecificeret frailty-model klarer sig. R-pakkerne survival og frailtyem indeholder funktioner, der kan anvende disse metoder. I Appendiks C.3 ses R-koden til at generere outputtet i nærværende afsnit. 4 Antal 3 2 Metode EM Gamma Parametrisk Partiel PPL Gamma PPL Gaussisk Estimater Figur 4.3.1: Fordeling af estimater for Beta1=2. De farvede stiplede linjer indikerer det gennemsnitlige estimat for hver metode. Den sorte stiplede linje indikerer den sande parameter. I Figur ses estimaterne for Beta1 fra hver af de fem forskellige metoder. De stiplede linjer indikerer det gennemsnitlige estimat for hver metode, undtagen den sorte stiplede linje, som markerer den sande parameter. Det ses, at den parametriske model, som har en Weibull-hazard som baseline hazard-funktion, samt Cox proportional hazardmodellen (angivet med henholdsvis Parametrisk og Partiel i Figur 4.3.1) underestimerer Beta1. Ydermere bemærkes det, at de to metoder for den delte frailty-model med gamma-fordelte frailty-variable giver stort set identiske estimatfordelinger. EM-algoritmen og PPL-metoden for gamma-fordelte frailty-variable ligger gennemsnitligt oven i den sande parameter Beta1=2. Det noteres endvidere, at modellen med log-normal-fordelte frailtyvariable gennemsnitligt præsterer estimater i nærheden af den sande parameter. Dette er på trods af, at datasættene er simuleret med gamma-fordelte frailty-variable.

34 3 4. Estimationsmetoder 3 Antal 2 1 Metode EM Gamma Parametrisk Partiel PPL Gamma PPL Gaussisk Estimater Figur 4.3.2: Fordeling af estimater for Beta2=-.6. De farvede stiplede linjer indikerer det gennemsnitlige estimat for hver metode. Den sorte stiplede linje indikerer den sande parameter. I Figur ses ligeledes for Beta2 en underestimation (numerisk set) i forhold til den sande parameter Beta2=-.6 ved antagelse af en proportional hazard-model med Weibullhazard-funktionen som baseline hazard-funktion samt en cox proportional hazard-model. Derimod rammer den delte frailty-model, uafhængig af estimationsmetode, relativt tæt på den sande parameter gennemsnitligt set. For modellen med log-normal-fordelte frailty er det gennemsnitlige estimat for Beta2 bedre. Betragtes MSE (Mean Square Error) for de 3 metoder på hver af de to parametre, så giver R-koden i Appendiks C.3 følgende: Tabel 4.3.1: MSE for de 5 forskellige metoder. MSE Beta1 Beta2 Parametrisk Partiel EM-Gamma.6.5 PPL-Gamma.6.5 PPL-Gaussisk.8.4 Af Tabel fremgår det, at den kvadratiske fejl er mere end 3 gange så stor for estimaterne i de to proportional hazard-modeller for Beta1 i forhold til den delte frailty-model med både EM-algoritmen og PPL-metoden for gamma-fordelte frailty-variable. Dette forhold er dog reduceret til lidt over 4 for Beta2, hvilket formentligt skyldes, at effekten af Beta2 ikke er lige så stor som den for Beta1. Log-normal-fordelte frailty-variable lader til at give et bedre estimat for sande parametre med (relativt) numerisk lave værdier. Umiddelbart tyder disse få simuleringer på, at frailty-modellen ikke er irrelevant. Ydermere kunne det tyde på, at den eksakte fordeling for frailty-variablene er ligegyldig i den forstand, at estimaterne for både gamma- og log-normal-fordelte frailty giver tilsvarende estimater.

35 4.3. Sammenligning af metoderne Antal 1 Metode EM Gamma PPL Gamma Estimater Figur 4.3.3: Fordeling af estimater for theta=3. De farvede stiplede linjer indikerer det gennemsnitlige estimat for metoderne. Den sorte stiplede linje indikerer den sande parameter. Figur viser, hvorledes estimaterne for theta=3 fordeler sig for henholdsvis EMalgoritmen og PPL-metoden ved en delt frailty-model med gamma-fordelte frailty-variable. Fordelingerne af disse estimater er forholdsvist ens. R-funktionen emfrail anvender en modificeret version af EM-algoritmen. Denne modificerede version giver estimater (teoretisk), der er lig dem for PPL-metoden. I det følgende afsnit bevises disse egenskaber.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl Landmålingens fejlteori Lektion 4 Vægtet gennemsnit Fordeling af slutfejl - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/36 Estimation af varians/spredning Antag X 1,...,X n stokastiske

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Kursus 242 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 35/324 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail:

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Afsnit 6.1. Ligefordelinger, fra sidst Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20. Foldning af sandsnlighedsmål Lad µ og ν være to sandsnlighedsmål på (R, B). Fortolkning Lad φ : R R være φ(, ) = + for (, ) R. Lad X og Y være to reelle stokastiske variable defineret på (Ω, F, P). Definition

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner: Afsnit 4.2, 4.3 og 4.4 Poissonprocessen/eksponentialfordelingen

Læs mere

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Karakteristiske funktioner og Den Centrale Grænseværdisætning E6 efterår 1999 Notat 10 Jørgen Larsen 20. oktober 1999 Karakteristiske funktioner og Den Centrale Grænseværdisætning Karakteristiske funktioner som er nære slægtninge til Fourier-transformationen) er

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfn@dtu.dk Dagens emner: Afsnit 4.2, 4.3 og 4.4 Poissonprocessen/eksponentialfordelingen

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m. 1 Uge 11 Teoretisk Statistik 8. marts 2004 Kapitel 3: Fordeling af en stokastisk variabel, X Kapitel 4: Fordeling af flere stokastiske variable, X 1,,X m (på en gang). NB: X 1,,X m kan være gentagne observationer

Læs mere

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

µ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005

µ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005 Hierarkiske generaliserede lineære modeller Lee og Nelder, Biometrika (21) 88, pp 987-16 Dagens program: Mandag den 2. maj Hierarkiske generaliserede lineære modeller - Afslutning Hierarkisk generaliseret

Læs mere

Teoretisk Statistik, 16. februar Generel teori,repetition

Teoretisk Statistik, 16. februar Generel teori,repetition 1 Uge 8 Teoretisk Statistik, 16. februar 2004 1. Generel teori, repetition 2. Diskret udfaldsrum punktssh. 3. Fordelingsfunktionen 4. Tæthed 5. Transformationer 6. Diskrete vs. Kontinuerte stokastiske

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Rune Haubo B Christensen (based on slides by Per Bruun Brockhoff) DTU Compute, Statistik og Dataanalyse Bygning

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Introduktion til Laplace transformen (Noter skrevet af Nikolaj Hess-Nielsen sidst revideret marts 2013)

Introduktion til Laplace transformen (Noter skrevet af Nikolaj Hess-Nielsen sidst revideret marts 2013) Introduktion til Laplace transformen (oter skrevet af ikolaj Hess-ielsen sidst revideret marts 23) Integration handler ikke kun om arealer. Tværtimod er integration basis for mange af de vigtigste værktøjer

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. Estimation Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. En estimator er en gætteregel.. p.1/22 Estimation X acements

Læs mere

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3 Landmålingens fejlteori Repetition - Kontinuerte stokastiske variable Lektion 4 - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf10 Institut for Matematiske Fag Aalborg Universitet 29. april

Læs mere

Betingning med en uafhængig variabel

Betingning med en uafhængig variabel Betingning med en uafhængig variabel Sætning Hvis X er en reel stokastisk variabel med første moment og Y er en stokastisk variabel uafhængig af X, så er E(X Y ) = EX. Bevis: Observer at D σ(y ) har formen

Læs mere

Løsning til prøveeksamen 1

Løsning til prøveeksamen 1 IMM - DTU 020 Probability 2006-2-8 BFN/bfn Løsning til prøveeksamen Spørgsmål ) For en indikatorvariabel I A for hændelsen A gælder E(I A ) = P(A) (se for eksemepl side 68). Således er E(X) = P(N ) = =

Læs mere

Reeksamen 2014/2015 Mål- og integralteori

Reeksamen 2014/2015 Mål- og integralteori Reeksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål. Ved bedømmelsen indgår de spørgsmål med samme vægt.

Læs mere

INSTITUT FOR MATEMATISKE FAG c

INSTITUT FOR MATEMATISKE FAG c INSTITUT FOR MATEMATISKE FAG c AALBORG UNIVERSITET FREDRIK BAJERS VEJ 7 G 9220 AALBORG ØST Tlf.: 96 35 89 27 URL: www.math.aau.dk Fax: 98 15 81 29 E-mail: bjh@math.aau.dk Dataanalyse Sandsynlighed og stokastiske

Læs mere

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k Dagens program: Likelihoodfunktion, begreber : Mandag den 4. februar Den generelle lineære model score-funktion: første afledede af log-likelihood har middelværdien nul observeret information: anden afledede

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Eksamen 2014/2015 Mål- og integralteori

Eksamen 2014/2015 Mål- og integralteori Eksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål Ved bedømmelsen indgår de spørgsmål med samme vægt

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Vægte motiverende eksempel. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægtet model. Vægtrelationen

Vægte motiverende eksempel. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægtet model. Vægtrelationen Vægte motiverende eksempel Landmålingens fejlteori Lektion 4 Vægtet gennemsnit Fordeling af slutfejl - kkb@mathaaudk Institut for Matematiske Fag Aalborg Universitet Højdeforskellen mellem punkterne P

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kontinuerte fordelinger Simultane fordelinger Kovarians og korrelation Uafhængighed Betingede fordelinger - Middelværdi og varians - Sammenhæng med uafhængighed 1 Figur 1: En tæthedsfunktion

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kontinuerte fordelinger Ventetider i en Poissonproces Beskrivelse af kontinuerte fordelinger: - Median og kvartiler - Middelværdi - Varians Simultane fordelinger 1 Ventetider i en Poissonproces

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Appendiks- og bilagssamling

Appendiks- og bilagssamling Appendiks- og bilagssamling Appendiks A Udledning af IPAF... I Appendiks B Hvordan findes gammaværdien i Excel?... IV Appendiks C Når risikoaversionen er 1... VI Appendiks D Udledning af IPAF med transformation

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8 Landmålingens fejlteori Repetition - Fordeling af slutfejl Lektion 8 - tvede@math.aau.dk http://www.math.aau.dk/ tvede/teaching/l4 Institut for Matematiske Fag Aalborg Universitet 15. maj 2008 1/13 Fordeling

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kapitel 8.1-8.3 Tilfældig stikprøve (Random Sampling) Likelihood Eksempler på likelihood funktioner Sufficiente statistikker Eksempler på sufficiente statistikker 1 Tilfældig stikprøve Kvantitative

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte

Læs mere

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner afsnit 4.5 og 4.6 (Kumulerede)

Læs mere

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 28 Kgs. Lyngby Danmark Email: bfn@dtu.dk Dagens emner afsnit 4.5 og 4.6 (Kumulerede) fordelingsfunktion

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Uge 10 Teoretisk Statistik 1. marts 2004

Uge 10 Teoretisk Statistik 1. marts 2004 1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt

Læs mere

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner afsnit 4.5 og 4.6 (Kumulerede)

Læs mere

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr) DANMARKS TEKNISKE UNIVERSITET Side af 7 sider Skriftlig prøve, den: 0. maj 206 Kursus nr : 02405 Kursus navn: Sandsynlighedsregning Varighed : 4 timer Tilladte hjælpemidler: Alle Dette sæt er besvaret

Læs mere

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/41 Landmålingens fejlteori - lidt om kurset

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 33B, Rum 9 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail: pbac@dtu.dk Efterår

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

Besvarelser til Calculus Ordinær Eksamen Juni 2018

Besvarelser til Calculus Ordinær Eksamen Juni 2018 Besvarelser til Calculus Ordinær Eksamen - 5. Juni 08 Mikkel Findinge Bemærk, at der kan være sneget sig fejl ind. Kontakt mig endelig, hvis du skulle falde over en sådan. Dette dokument har udelukkende

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Wigner s semi-cirkel lov

Wigner s semi-cirkel lov Wigner s semi-cirkel lov 12. december 2009 Eulers Venner Steen Thorbjørnsen Institut for Matematiske Fag Århus Universitet Diagonalisering af selvadjungeret matrix Lad H være en n n matrix med komplekse

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen. 1 Levetidsanalyse Overlevelsesfunktionen Censurering Kaplan-Meier estimatoren Hazard funktionen Proportionale hazards Multipel regression PSE (I17) FSV1 Statistik - 5. lektion 1 / 19 Overlevelsesfunktionen

Læs mere

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med Repetition: Varians af linear kombination Landmålingens fejlteori Lektion 5 Fejlforplantning - rw@math.aau.dk Antag X 1, X,..., X n er uafhængige stokastiske variable, og Y er en linearkombination af X

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag SaSt2 (Uge 6, onsdag) Middelværdi og varians 1 / 18 Program I formiddag: Tætheder og fordelingsfunktioner kort resume

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl Landmålingens fejlteori Lektion 4 Vægtet gennemsnit Fordeling af slutfejl - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf13 Institut for Matematiske Fag Aalborg Universitet 1/1 Vægtet

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

DANMARKS TEKNISKE UNIVERSITET Side 1 af 18 sider. Skriftlig prøve, den: 16. december 2003 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 18 sider. Skriftlig prøve, den: 16. december 2003 Kursus nr : (navn) (underskrift) (bord nr) DANMARKS TEKNISKE UNIVERSITET Side 1 af 18 sider Skriftlig prøve, den: 16. december 2003 Kursus nr : 02405 Kursus navn: Sandsynlighedsregning Varighed : 4 timer Tilladte hjælpemidler: Alle Dette sæt er

Læs mere

Teoretisk Statistik, 13 april, 2005

Teoretisk Statistik, 13 april, 2005 Poissonprocessen Teoretisk Statistik, 13 april, 2005 Setup og antagelser Fordelingen af X(t) og et eksempel Ventetider i poissonprocessen Fordeling af ventetiden T 1 til første ankomst Fortolkning af λ

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition

Læs mere

Matematisk modellering og numeriske metoder. Lektion 17

Matematisk modellering og numeriske metoder. Lektion 17 Matematisk modellering og numeriske metoder Lektion 1 Morten Grud Rasmussen. december 16 1 Numerisk integration og differentiation 1.1 Simpsons regel Antag, at vi har en funktion f på intervallet I = [a,

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

MM501 forelæsningsslides

MM501 forelæsningsslides MM501 forelæsningsslides uge 40, 2010 Produceret af Hans J. Munkholm bearbejdet af JC 1 Separabel 1. ordens differentialligning En generel 1. ordens differentialligning har formen s.445-8 dx Eksempler

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Uafhængighed og reelle transformationer Helle Sørensen Uge 8, mandag SaSt2 (Uge 8, mandag) Uafh. og relle transf. 1 / 16 Program I dag: Uafhængighed af kontinuerte

Læs mere

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen Statistik Lektion etinget sandsynlighed ayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV inomialfordelingen Repetition Udfaldsrum S Hændelse S Simpel hændelse O i 1, 3 4,

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Estimation: Kapitel 9.1-9.3 Estimation Estimationsfejlen Bias Eksempler Bestemmelse af stikprøvens størrelse Konsistens De nitioner påkonsistens Eksempler på konsistente og middelrette estimatorer

Læs mere

Matematisk Modellering 1 Cheat Sheet

Matematisk Modellering 1 Cheat Sheet By a team of brave computer scientists: Mads P. Buch, Tobias Brixen, Troels Thorsen, Peder Detlefsen, Mark Gottenborg, Peter Krogshede - 1 Contents 1 Basalt 3 1.1 Varianser...............................

Læs mere

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag. Hvad vi mangler fra onsdag Vi starter med at gennemgå slides 34-38 fra onsdag. Slide 1/17 Niels Richard Hansen MI forelæsninger 6. December, 2013 Momenter som deskriptive størrelser Sandsynlighedsmål er

Læs mere