Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

Relaterede dokumenter
Overdispersion, dispersionsparameter: Dagens program, Mandag den 4. april :

2 Opgave i hierarkiske normalfordelingsmodeller

Normalfordelingsmodeller med hierarkisk variation

Generelle lineære mixede modeller

Noter til Specialkursus i videregående statistik

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Introduktion til GLIMMIX

µ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005

Hvorfor bøvle med MIXED

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Module 12: Mere om variansanalyse

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Statistik og Sandsynlighedsregning 2

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Module 4: Ensidig variansanalyse

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Ganganalyse. Modellering og estimation. Klaus Kähler Holst. 5. Januar 2006

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Module 9: Residualanalyse

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Lidt om fordelinger, afledt af normalfordelingen

Poul Thyregod, 2. maj Specialkursus vid.stat. foraar exp µ β/(1 + β), som netop er kernen i en Gammafordeling med formparameteren

Sandsynlighed og Statistik

Simpel Lineær Regression: Model

1 Hb SS Hb Sβ Hb SC = , (s = )

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Modul 6: Regression og kalibrering

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

standard normalfordelingen på R 2.

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Lineære normale modeller (4) udkast

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning

Eksamen i Statistik for biokemikere. Blok

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Tema. Dagens tema: Indfør centrale statistiske begreber.

Kapitel 12 Variansanalyse

Kvantitative Metoder 1 - Forår 2007

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Kvantitative Metoder 1 - Forår 2007

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Kapitel 12 Variansanalyse

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Dagens program: Andel døde musefostre som fkt af indgivet konc.: Eksponentielle familier af fordelinger: Toxitetsvurdering for kølevæske:

Nanostatistik: Test af hypotese

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Statistik og Sandsynlighedsregning 2

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Elementær sandsynlighedsregning

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Module 1: Lineære modeller og lineær algebra

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Kvantitative metoder 2

Statistiske principper

StatDataN: Test af hypotese

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Modul 12: Regression og korrelation

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Den lineære normale model

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Uge 10 Teoretisk Statistik 1. marts 2004

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Kvantitative Metoder 1 - Forår Dagens program

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Landmålingens fejlteori - Lektion 5 - Fejlforplantning

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Anvendt Lineær Algebra

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

Vægte motiverende eksempel. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægtet model. Vægtrelationen

Transkript:

Modellens parametre Mandag den 25 april Hierarkiske normalfordelingsmodeller Dagens program: Resume af ensidet variansanalysemodel med tilfældig effekt estimation af tilfældige effekter, fortolkning som BLUP estimation, empirisk Bayes-estimation, Steins sætning Tilfældige regressionslinier Hierarkiske flerdimensionale observationer Generelle lineære mixed models SAS PROC Mixed Begyndelse af hierarkiske modeller for eksponentielle familier Modellen har parametrene µ 0,σ 2,σ 2 b Vi sætter (Signal støj- forhold) γ = σ 2 b/σ 2 3 Hierarkisk model, normalfordeling Først udtages en balle tilfældigt Derefter udtages fire prøver tilfældigt fra denne balle Fordeling af i te sæt Lad Y i angiver observationer fra i te udtagne balle Y ij j te prøve fra i te balle For fastholdt balle, uafhængige gentagelser Y, Y 2,,Y q er uafhængige observationssæt Y i N ni (µ 0,σ 2 I ni +σbj 2 ni ) hvor J n angiver en n n matrix med ettaller Y ij µ i N(µ i,σ 2 ), Y i µ i N(µ i,σ 2 I 4 ) Ballerenheden µ i varierer fra balle til balle: µ i N(µ 0,σb 2 ) indbyrdes uafhængige Dispersionsmatricen for Y i er V i = D [Y i ]=E[(Y i µ 0 )(Y i µ 0 ) T ] σb 2 + σ2 σb 2 σb 2 σb = σb 2 σb 2 σb 2 σb 2 σb 2 +σ2 2 4

Fordeling af hele observationssættet Y består af q uafhængige gentagelser med fordeling som Y i D [Y] =V= Blok diag{v i } Estimation (prædiktion) af enkelte ballemiddelværdier Det hierarkiske maximum likelihood estimat er BLUP-estimat (best linear unbiased predictor), et vejet gennemsnit mellem stikprøveresultat og fælles middelværdi Shrinkage (krympning) mod fælles gennemsnit Empirisk Bayes fortolkning (estimeret apriorifordeling) 5 7 Estimation (prædiktion) af enkelte ballemiddelværdier Løsningen tilfredsstiller µ i =( w i ( γ))y i + w i ( γ) µ 0 et vejet gennemsnit mellem de individuelle gennemsnit y i og det fælles gennemsnit µ 0 med vægtene ( w i ( γ)) og w i (γ), hvor w = V[E[ θ θ]] E[V[ θ θ]] + V[E[ θ θ]] E[V[ θ θ]] w = E[V[ θ θ]] + V[E[ θ θ]] netop er de to bidrag (variationen indenfor balle, og variationen mellem baller) fra opspaltningen af den totale varians V[ θ] =E[V[ θ θ]] + V[E[ θ θ]] Empirisk Bayes estimat har mindre estimationsfejl end ML-estimat i systematisk model Stein s sætning vedrørende simultan estimation: (Bemærkning, side 246) Ved en systematisk (fixed effects) model for de enkelte balleniveauer estimeres hver balle ved sit gennemsnit, y i, med varians σ 2 /n Betragt den gennemsnitlige estimationsfejl R(µ,d()) = [ k E ( ) ] 2 di (y) µ i hvor d i (y) angiver estimatoren µ i for det i te balleniveau 6 8

Stein s sætning Betragt opspaltningen af den gennemsnitlige estimationsfejl i varians og bias: R(µ,d()) = [ k E ( ) ] 2 di (y) µ i = [ { }] k E (d i (y) E[d i ]) 2 +(E[d i ] µ i ) 2 = ( ) V[d i ]+δi 2 k hvor δ i = E[d i ] µ i angiver bias for estimatoren d i (y) Såfremt man vælger maximum-likelihood estimatoren d ML i (y)=y i, finder man R(µ,d ML ()) = V[yi ]=σ 2 /n k idet estimatoren er central (ikke har nogen bias) Man kan vise (Stein 955), at såfremt man benytter empirisk Bayes estimatoren d EB i (y)=w(y)y+( w(y))y i gælder for et vilkårligt parametersæt µ, at R(µ,d EB ()) <R(µ,d ML ()) Empirisk Bayes estimat som shrinkage estimat (vejet gennemsnit mellem fælles middelværdi og individuelle gennemsnit) Ballegennemsnit xi 6 Balle 7 60 Balle 5 59 Balle 6 Fælles 58 Balle 2 gennemsnit Balle 4 Balle 3 57 56 Balle 55 000 020 040 060 080 00 ŵ Krympningsfaktor w 9 Intuitivt For w<vil E[wy i ]=wµ i <µ i og V[wy i ]=w 2 V[y i ]<σ 2 /n Ved brug af empirisk Bayes-estimatet får vi altså reduceret variansen på bekostning af en lille bias δ i =( w)µ i R(µ,d EB ()) k [w 2 σ 2 /n +( w 2 )µ 2 i ]< k σ 2 /n Andre eksempler på hierarkiske modeller, og bestemmelse af aposteriorifordelinger Tilfældige regressionslinier 2 Todimensionale målinger 0 2

Varierende regressionslinier Ramushøjder for 5 drenge ved fire forskellige aldre Aposteriorifordeling af regressionskoefficienter Y en n dimensional vektor af observationer, og X en n p dimensional matrix af kendte koefficienter Lad Y β N n (Xβ,σ 2 V) og lad apriorifordelingen af β være β N p (β 0,σ 2 Λ) Systematiske modeller: Vi kunne lave én fælles regressionslinie for alle 5 drenge, eller vi kunne estimere 5 individuelle regressionslinier (en for hver dreng), Aposteriorifordelingen af β efter observation af Y = y er β Y = y N p (β,σ 2 Γ ) hvor β = Wβ 0 +(I W) β med W =(I+Γ) og β er den sædvanlige mindste kvadraters estimator 3 5 Flerdimensional normalfordeling Varierende regressionslinier, tilfældig (hierarkisk) model 3 gentagne kalibreringer af 6 flowmålere, der er udtaget af en større målerpopulation De 6 målere blev hver kalibreret ved de samme to flow, henholdsvis 0 [m 3 /h] og 05 [m 3 /h] Data opfattes som en stikprøve af drenge Y i = Xβ i + ɛ i,i=,2,,k hvor β i N 2 (β 0,σ 2 Γ), ɛ i N n (0,σ 2 I n ), β i,β j er indbyrdes uafhængige for i j, Kovariansmatricen Γ angiver kovariansmatricen i populationsfordelingen af intercepter og hældninger (med målestøjen σ 2 trukket ud som en faktor) 4 6

Flerdimensional normalfordeling, hierarkisk model Flerdimensional normalfordeling, variation indenfor målere X ij = µ 0 + α i + ɛ ij,i=4,42,, 46; j =,2,3 hvor α i er uafhængige, α i N 2 (0, Σ 0 ) 7 9 Flerdimensional normalfordeling, variation mellem målere Flerdimensional normalfordeling, aposteriorifordeling Lad X µ N p (µ, Σ), ogladµ N p (µ 0,Σ 0 ), Da er aposteriorifordelingen af µ efter observation af X = x givet ved µ X = x N p (Wµ 0 +(I W)x,(I W)Σ) med W = Σ(Σ 0 + Σ) og I W = Σ 0 (Σ 0 + Σ) Lad Γ = Σ 0 Σ betegne den generaliserede kvotient mellem variansen mellem grupper og variansen inden for grupper, da kan matricerne W og I W udtrykkes ved W =(I+Γ) og I W =(I+Γ) Γ 8 20

Generel lineær mixed model Fixed effects β (designmatrix X ) Random effects U ( designmatrix Z ) ɛ N n (0, R) og U N m (0, D) uafhængige Y n, = X n,k β k, + Z n,m U m, + ɛ n, D [ u E ɛ [ u ɛ ] = ] = ( ) 0 0 ( ) D 0 0 R R og D kendt struktur, men eventuelt med ukendte parametre De hierarkiske modeller som generelle lineære mixede modeller Uldballer: idet nemlig X 28, = 0 0 0, Z 0 0 0 28,7 = 0 0 0 0 0 0 R=σ 2 I 28, D = σ0i 2 7 u u u = 2 angiver det tilfældige bidrag fra hvert af de syv balleniveauer u 7 2 23 Marginal fordeling Ramushøjder: Marginal fordeling af Y E[Y] = Xβ D [Y] = V = R+ZDZ 80 80 0 0 0 85 85 0 0 0 90 90 0 0 0 X 20,2 = 95, Z 20,5 = 95 0 0 0 80 0 0 80 0 95 0 0 0 0 95 idet nemlig R=σ 2 I 20, D = Λ 2,2 I 5 = Blok diagλ 2,2 u u u = 2 angiver det tilfældige bidrag til intercept, u 2ν, og hældning, u 2ν, fra hver af de fem drenge, ν =,2,,5 u 0 22 24

Generel lineær mixed model Er en meget rig klasse af lineære normalfordelingsmodeller Forstyrrende tilfældige effekter (blokke i forsøgsplanlægning) Interessante tilfældige effekter (variation mellem personer) Kan også løses i ubalancerede situationer PROC MIXED Eksempel tilfældige regressionslinier PROC MIXED DATA=ramus ; CLASS DRENG; MODEL ramus = ald /solution OUTP= pred ; RANDOM int ald /subject = dreng solution type=un; run; Udfører estimation af varians-kovarians matrix for intercept og hældning, samt BLUP-estimation af de tilfældige effekter 25 27 PROC MIXED Generel lineær mixed model, estimation af effekter Mixed effect ligningerne ( X R X X R Z Z R X Z R Z+D )( ) β = u løses ved iteration - og iterativ bestemmelse af parametre i R og D ( ) X R y Z R y SUBJECT = specificerer de uafhængige blokke TYPE = specificerer strukturen af R og D Mange muligheder for matricerne R og D Estimaterne for u er BLUP-estimater 26 28