µ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005



Relaterede dokumenter
Noter til Specialkursus i videregående statistik

Poul Thyregod, 2. maj Specialkursus vid.stat. foraar exp µ β/(1 + β), som netop er kernen i en Gammafordeling med formparameteren

Dagens program: Andel døde musefostre som fkt af indgivet konc.: Eksponentielle familier af fordelinger: Toxitetsvurdering for kølevæske:

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

Generelle lineære mixede modeller

Overdispersion, dispersionsparameter: Dagens program, Mandag den 4. april :

Introduktion til GLIMMIX

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Lidt om fordelinger, afledt af normalfordelingen

Poul Thyregod, 14. marts Specialkursus vid.stat. foraar side 182

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Løsning til prøveeksamen 1

Statistiske modeller

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Introduktion til generaliserede lineære modeller

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Kvantitative Metoder 1 - Forår 2007

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Løsning til eksamen 16/

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Kvantitative Metoder 1 - Forår 2007

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Simpel Lineær Regression: Model

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Statistik og Sandsynlighedsregning 2

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Simpel Lineær Regression

Tema. Dagens tema: Indfør centrale statistiske begreber.

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Den todimensionale normalfordeling

Kvantitative Metoder 1 - Forår Dagens program

Normalfordelingen og Stikprøvefordelinger

Logistisk regression

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Kvantitative Metoder 1 - Forår Dagens program

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Lineære normale modeller (4) udkast

Kvantitative metoder 2

Uge 10 Teoretisk Statistik 1. marts 2004

Elementær sandsynlighedsregning

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Kvantitative Metoder 1 - Efterår Dagens program

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Fagplan for statistik, efteråret 2015

Kvantitative Metoder 1 - Efterår Dagens program

4 Oversigt over kapitel 4

Frailty-modeller i overlevelsesanalyse

Kvantitative Metoder 1 - Efterår Dagens program

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kvantitative Metoder 1 - Forår Dagens program

Produkt og marked - matematiske og statistiske metoder

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

DANMARKS TEKNISKE UNIVERSITET Side 1 af 18 sider. Skriftlig prøve, den: 16. december 2003 Kursus nr : (navn) (underskrift) (bord nr)

Statistik for ankomstprocesser

Teoretisk Statistik, 16. februar Generel teori,repetition

Bayesiansk statistik. Tom Engsted. DSS Aarhus, 28 november 2017

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Dagens program. Praktisk information:

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Statistik og Sandsynlighedsregning 2

Skriftlig eksamen Science statistik- ST501

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Morten Frydenberg Biostatistik version dato:

Statistik og Sandsynlighedsregning 2

Kvantitative Metoder 1 - Forår 2007

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Transkript:

Hierarkiske generaliserede lineære modeller Lee og Nelder, Biometrika (21) 88, pp 987-16 Dagens program: Mandag den 2. maj Hierarkiske generaliserede lineære modeller - Afslutning Hierarkisk generaliseret lineær model Lidt mere om andre likelihood er og censurerede observationer Lidt om repræsentatitivitet Slut Ingredienser: Betinget fordeling af Y for givet θ følger en exponentiel dispersionsparameterfamilie på grundform f Y (y; θ, λ) =c(y, λ)exp[λ{θy κ(θ)}] for θ Ω Middelværdirum M (for µ) - kanonisk parameterrum Ω (for θ) µ = κ (θ); Kanonisk link, θ = g(µ) konjugeret fordeling af kanonisk parameter, θ 1 g θ (θ; m, γ) = exp{[θm κ(θ)]/γ} C(m, γ) og tilsvarende konjugeret fordeling af middelværdiparameter, µ Eks: f Y (y) Poisson, g µ (µ) Gamma, link= log, dvs g(µ) = log(µ) 1 3 ɛ N(, R) og U N(, D) Vi husker en Generel lineær mixed model Y = Xβ + ZU + ɛ Hierarkiske generaliserede lineære modeller Vi har responser y 1,y 2,...,y k ( M)oguobserverede tilstandsvariable u 1,u 2,...,u q ( M) med de tilsvarende uobserverede kanoniske variable v i = g(u i ). ( Ω) Fixed effects β (designmatrix X ) Random effects U (designmatrix Z ) E[Y u] =µ=xβ+zu Mixed effect ligningerne ( X R 1 X X R 1 Z Z R 1 X Z R 1 Z+D 1 )( ) β = u løses ved iteration - og iterativ bestemmelse af parametre i R og D ( ) X R 1 y Z R 1 y Lineær prædiktor θ = g(µ v) =Xβ+Zv Fordeling af v Ω er konjugeret fordeling til kanonisk parameter θ. Fordeling af U Mer den tilsvarende konjugerede fordeling til middelværdiparameter µ. E[U] =ψ og så bliver fordelingen af Y den tilsvarende marginale fordeling. For Y µ Poisson vælges fordeling af v så u =ln(v)er gamma med middelværdi ψ =1,også bliver fordelingen af Y en negativ binomialfordeling med parametre bestemt af Xβ og af Zv. Estimaterne for u er BLUP-estimater. Varianser estimeres sævanligvis ved REML Estimation ved en udvidet generaliseret lineær model for y, ψ, se Lee og Nelder. 2 4

Indskud: Lidt mere om likelihood er Estimation i hierarkisk generaliseret lineær model Estimation af middelværdiparametre β og v ( X Σ 1 X X Σ 1 Z Z Σ 1 X Z Σ 1 Z+Σ 1 1 )( ) ( β = v X Σ 1 z Z Σ 1 z +Σ 1 1 z 1 hvor z = η +(y µ )( η / µ ) og z 1 = v 1 +(ψ 1 ) u)(dv 1 /du) er de justerede afhængige variable hhv for fordelingen af y givet v og og af v. ) Likelihoodfunktion defineret ved simultan tæthed af observationerne som funktion af parametre. Udtrykker grad af overensstemmelse mellem parameter og data. Der kan vises en række gode egenskaber for maksimum-likelihood estimat. Vi opfandt quasi-likelihood til situationer, hvor vi minimerede devians (defineret ved en variansfunktion), og så bort fra normeringskonstanten og når vi havde overdispersion (udtrykt ved en dispersionsparameter) Løses ved iteration Når man opfinder en variant af likelihoodbegrebet skal man principielt eftervise at en række gode egenskaber (konvergens mod sand værdi for voksende stikprøvestørrelse) stadig gælder 5 7 Generaliseret lineær mixed model Indskud: nok en likelihoodvariant En hybrid Eksempel tælleprocesser (levetider) θ = g(µ v) =Xβ+Zv Fordeling af v Ω modelleres som en normalfordeling. 91 komponenter under test. Efter et år er 8 af komponenterne fejlede, mens de resterende 83 stadig virker. dvs vi har 8 levetider, t 1,t 2,...,t 8 og viden om at de resterende 83 levetider er større end et år. Censurerede observationer. Giver anledning til en anden udvidelse af likelihoodbegrebet, partial likelihood Vi vil ikke diskutere dette begreb, men vi vil lige se nogle begreber, der optræder i forbindelse med levetidsmodeller Fordelingen af den mindste blandt 91 er anderledes end fordelingen af en tilfældig af de 91. 6 8

Tælleprocesser, hazardfunktion Positiv stokastisk variabel, T. Tæthedsfunktion f T (t), kumuleret fordeling F T (t) =P[T t]= t f T (x)dx Overlevelsesfunktion (survival function) R T (t) =1 F T (t)=p[t>t] Hazardfunktion λ T (t) = f T(t) 1 F T (t) = dlog R T(t) dt ssh for at dø netop til tid t, når man har overlevet op til t ( t ) ( ) R T (t) =exp λ T (u)du =exp Λ(t) hvor Λ(t) angiver den kumulerede hazard Λ(t) = t λ T (u)du log-lineære modeller, modeller med proportionale hazards 9 11 1 12

Der udvælges en stikprøve tilfældigt blandt personer i Danmark, og man spørger, hvor mange personer, der bor i deres husstand. Man får et gennemsnit på 3.8 personer. Er dette udtryk for at den gennemsnitlige husstandsstørrelse er på ca. 3.8 personer?? 13 15 Konkurrerende risici Eksempel: opholdstid på DTU 14 16

Oversigt Udgangspunkt generel lineær model (normalfordeling, konstant varians) µ = Xβ Likelihood metode svarer til mindste kvadraters metode, projektioner i vektorrum (pga linearitet) Udvidelse, generalisering i to retninger: til andre responsfordelinger, generaliserede lineære modeller varians afhænger af middelværdi. Ved estimation vægtes observationer med deres præcision til hierarkiske modeller, generel lineær mixed model Observationer korrelerede, BLUP-estimation, empirisk Bayes, krympning mod fælles gennemsnit 17 19 Analoge situationer Rejsehyppighed/længde for buspassagerer liggedage på hospitaler Fiberlængde i garn 18