Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12



Relaterede dokumenter
Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

To-sidet variansanalyse

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Program. 1. Flersidet variansanalyse 1/11

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Kapitel 12 Variansanalyse

1 Hb SS Hb Sβ Hb SC = , (s = )

Kapitel 12 Variansanalyse

Modelkontrol i Faktor Modeller

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

To-sidet varians analyse

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Generelle lineære modeller

MPH specialmodul Epidemiologi og Biostatistik

Module 4: Ensidig variansanalyse

Eksamen i Statistik for biokemikere. Blok

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Simpel Lineær Regression

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Statistik Lektion 4. Variansanalyse Modelkontrol

Demo af PROC GLIMMIX: Analyse af gentagne observationer

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Modul 12: Regression og korrelation

Forelæsning 11: Envejs variansanalyse, ANOVA

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Modul 11: Simpel lineær regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kvantitative metoder 2

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Anvendt Statistik Lektion 8. Multipel Lineær Regression

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

Normalfordelingen og Stikprøvefordelinger

Klasseøvelser dag 2 Opgave 1

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

1 Regressionsproblemet 2

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Seniorkursus i Biostatistik og Stata, Dag 2

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Kvantitative metoder 2

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Statistik II 4. Lektion. Logistisk regression

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Opgavebesvarelse, korrelerede målinger

Module 12: Mere om variansanalyse

Simpel Lineær Regression: Model

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Module 9: Residualanalyse

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Tema. Dagens tema: Indfør centrale statistiske begreber.

Konfidensintervaller og Hypotesetest

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Løsning eksamen d. 15. december 2008

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Kvantitative metoder 2

Transkript:

Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: ensidet variansanalyse Y ij = µ + α i + ǫ ij. Problem: tager ikke hensyn til variation mellem biler/chauffører parret t-test: test for middelværdi nul af differenser D j = Y 2j Y 1j blocking. Y ij = µ + α i + β j + ǫ ij hvor β j effekt af bil/chauffør. NB: test for µ 1 = µ 2 i en model med blocking er ækvivalent med parret t-test! Ulempe ved blocking: indfører 12 parametre β j for effekter som vi vil korrigere for, men som ikke i sig selv er interessante. 2/12

Tilfældige effekter Obs. og blok-effekter QQ-plot for estimater af block-effekter β j : Normal Q Q Plot gas 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 Sample Quantiles 4.5 5.0 5.5 6.0 6.5 7.0 2 4 6 8 10 12 block 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles Idé: Anskue β j (eller evt. α i ) som stikprøve fra normalfordeling. Model: Y ij = µ + α i + B j + ǫ ij hvor B j N(0, σ 2 B ) og ǫ ij N(0, σ 2 ) og uafhængige. Så undgåes de 12 β j. 3/12

Dekomposition af varians Var(Y ij ) = Var(µ + α i + B j + ǫ ij ) = Var(B j ) + Var(ǫ ij ) = σ 2 B + σ2 σ 2 B og σ2 : varianskomponenter. Estimation af varianskomponenter (table 13.14 og side 557 øverst samt table 13.17, alt sammen afsnit 13.13 samt side 540-541): ˆσ 2 = s 2 = SSE (k 1)(b 1), ˆσ2 B = s2 2 s2, s2 2 = SSB k b 1 I eksemplet er b = 12 og k = 2. Her fås estimaterne: σ 2 = 0, 0195, σ 2 B = 1, 0286. Bemærk: langt den største del af variansen kommer fra blokkene! 4/12

Random factor vs. fixed factor Fixed factor: en faktor vælges til at være fast, når vi er interesserede i om der er forskel mellem lige præcis de grupper vi vælger. Eksempel: to typer af dæk. Random factor: en faktor vælges til at være tilfældig, hvis grupperne udgør en stikprøve af en større population, og vi bare er interesseret i om grupperne generelt er ens. Eksempel: 12 biler vælges tilfældigt ud af vilkårligt mange - her er vi ikke interesseret i at sammenligne bil 1 og 2, men vi kunne godt være interesseret i om der generelt er forskel. Konklusioner omkring en tilfældig faktor gælder for hele populationen, ikke kun stikprøven. Bemærk: parvis sammenligning (Tukey s test) kun giver mening for en fixed factor. 5/12

Transformation af data For både lineær regression og variansanalyse gælder: normalfordelte fejl varianshomogenitet respons lineær funktion af forklarende variable Hvis en eller flere af disse ikke er opfyldt for et datasæt, kan det ofte hjælpe at transformere data. Eksempler på transformationer: y = log(y) eller y = exp(y) - de kan anvendes på y eller x. Lige præcis hvilke transformationer der skal bruges afhænger af data, men der kan gives nogle guidelines, MEN det er altid vigtigt at tænke sig om når en transformation vælges. 6/12

Transformation ved variansheterogenitet Stigende varians forekommer ofte ved stigende y, dvs et plot af prediktioner vs residualer får en trompetform. Dette kan ofte forbedres ved at se på y = log(y) (x beholdes utransformeret). Andre fordele: Sommetider forbedres en skæv normalfordeling for residualerne. Det kan være mere passende at arbejde på log-skala hvis y kun kan være positiv, da normalfordeling kan give både positive of negative værdier. 7/12

Tælle-data For Poisson-fordeling er EX = VarX = λ. Her vil Y approximativt have konstant varians. Faktisk er (approx.) Y N( λ, 1 4 ) når λ er stor. Dvs. for tælledata kan y = y (x beholdes utransformeret) ofte give Approksimativ varianshomogenitet Approksimativ normalfordeling 8/12

Prediktions- og konfidensintervaller Når prediktions- eller konfidensintervaller er fundet for transformeret y kan de transformeres tilbage til y. Tilbagetransformering efter log-tranformationen: P(L < log Y < U) = 95% P(exp(L) < Y < exp(u)) = 95% Generelt: hvis man har tranformeret y = g(y) skal man bruge den inverse transformation y = g 1 (y ) for at kunne sige noget om det originale data. 9/12

Fra ikke-lineære til lineære sammenhænge Hvis man fra teori kender en funktionel sammenhæng kan denne viden benyttes til at finde passende transformationer: Exponentialfunktion: y = α exp(βx) log y = log α + βx Dvs. brug transformationen y = log(y) og behold x. Potensfunktion: y = αx β log y = log α + β log x Dvs. brug transformationen y = log(y) og x = log(x). Flere eksempler på side 426. Et scatterplot af x mod y kan også bruges til at identificere en passende funktion - sammenlign evt. med tegningerne på 427 for at finde en passende funktion. 10/12

Opsummering Vi vælger en transformation alt efter hvad der passer bedst på data, mht. linearitet, varianshomogenitet, og normalfordeling af residualer. Vi arbejder derefter med den transformerede model - estimation, model checking, osv. Men vi skal transformere tilbage for at få meningsfyldte konklusioner. 11/12

Næste gang Næste gang skal I selv gennemgå variansanalyse med flere faktorer - flersidet variansanalyse. I har allerede set et special tilfælde: Variansanalyse med blocking. Generelt kan vi dog have et hvilket som helst antal faktorer og vi kan være interesserede i dem alle, samt alle deres vekselvirkninger. 12/12