Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Relaterede dokumenter
Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Forelæsning 11: Envejs variansanalyse, ANOVA

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Løsning eksamen d. 15. december 2008

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Modul 11: Simpel lineær regression

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Kursus 02402/02323 Introducerende Statistik

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

(studienummer) (underskrift) (bord nr)

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Klasseøvelser dag 2 Opgave 1

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Forelæsning 11: Tovejs variansanalyse, ANOVA

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

To-sidet variansanalyse

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Module 12: Mere om variansanalyse

Modul 6: Regression og kalibrering

(studienummer) (underskrift) (bord nr)

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Opgavebesvarelse, korrelerede målinger

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Opgaver til kapitel 3

Forsøgsplanlægning Stikprøvestørrelse

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Løsning til eksaminen d. 14. december 2009

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Anvendt Statistik Lektion 7. Simpel Lineær Regression

1 Hb SS Hb Sβ Hb SC = , (s = )

Statistik Lektion 4. Variansanalyse Modelkontrol

En Introduktion til SAS. Kapitel 5.

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Eksamen i Statistik for biokemikere. Blok

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

(studienummer) (underskrift) (bord nr)

Generelle lineære modeller

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Reeksamen i Statistik for Biokemikere 6. april 2009

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Multipel Lineær Regression

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Uge 10 Teoretisk Statistik 1. marts 2004

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Eksempel , opg. 2

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Reeksamen i Statistik for biokemikere. Blok

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

(studienummer) (underskrift) (bord nr)

Kapitel 12 Variansanalyse

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Lineær regression i SAS. Lineær regression i SAS p.1/20

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Module 4: Ensidig variansanalyse

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Løsning til eksaminen d. 29. maj 2009

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Kapitel 12 Variansanalyse

Transkript:

Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side 471. 2. nyt: varianskomponent-modeller (random effects) og transformation af data. ensidet variansanalyse Y ij = µ i + ǫ 2 ij. Problem: tager ikke hensyn til variation mellem biler/chauffører parret t-test: test for middelværdi nul af differenser D j = Y 2j Y 1j blocking. Y ij = µ i + β j + ǫ 2 ij hvor β j effekt af bil/chauffør. NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! 1 Ulempe ved blocking: indfører 12 parametre β j for effekter som vi vil korrigere for, men som ikke i sig selv er interessante. 3 Tilfældige effekter Obs. og blok-effekter qq-plot for estimater af block-effekter β j : Normal Q Q Plot Vedr. forsøgsplanlægning Antag vi har 4 blokke hver med 4 delplots og ialt 4 behandlinger. Er det en god eller dårlig ide at have behandling 1 på delplots indenfor blok 1, behandling 2 på delplots indenfor blok 2 etc.? gas 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 Sample Quantiles 4.5 5.0 5.5 6.0 6.5 7.0 Denne strategi vil minimere variation mellem målinger for samme behandling... 2 4 6 8 10 12 1.5 1.0 0.5 0.0 0.5 1.0 1.5 block Theoretical Quantiles Ide: anskue β j som stikprøve fra normalfordeling. Model: 2 Y ij = µ i + B j + ǫ ij hvor B j N(0,σ 2 B ) og ǫ ij N(0,σ 2 ) og uafhængige. 4

Alternativ beregning vha lme() (lineær mixed effects model): Dekomposition af varians: V ar(y ij ) = V ar(µ i + B j + ǫ ij ) = V ar(b j ) + V ar(ǫ ij ) = σ 2 B + σ 2 σ 2 B og σ2 : varianskomponenter. Beregningsformler for varianskomponenter (table 13.19, afsnit 13.12 og side 489-490 i WMMY henh. table 13.17, afsnit 13.13 samt 540-541): ˆσ 2 = s 2 = SSE (k 1)(b 1) I det konkrete tilfælde er b = 12 og k = 2. 5 ˆσ 2 B = s2 2 s 2 k s 2 2 = SSB b 1 > library(nlme) > mixedfit=lme(gas~beltind,random=~1 factor(block)) > summary(mixedfit) Linear mixed-effects model fit by REML... Random effects: Formula: ~1 factor(block) (Intercept) Residual StdDev: 1.014216 0.1396697 Fixed effects: gas ~ beltind Value Std.Error DF t-value p-value (Intercept) 5.750000 0.2955421 11 19.455772 0.0000 beltind -0.141667 0.0570199 11-2.484513 0.0303... NB: ~1 factor(block) specificerer de tilfældige effekter. Formlen læses tilfældigt intercept (1) indenfor ( ) hver blok. Det tilfældige intercept er altså B j. 7 Beregning i R vha variansanalyse tabel: > aov.fit=aov(gas~beltind+factor(block)) > summary(aov.fit) Df Sum Sq Mean Sq F value Pr(>F) beltind 1 0.1204 0.1204 6.1728 0.03033 * #SSA factor(block) 11 22.8446 2.0768 106.4602 1.565e-09 *** #SSB Residuals 11 0.2146 0.0195 #SSE --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 σ 2 = 0.0195 σ 2 B = (2.0768 0.0195)/2 = 1.0286 Forsøgsplanlægning Output fra maskine med 4 forskellige operatører (opg 1 side 513) operat. 1 1 1 1 2 2 2 2 3 3 output 175.4 171.7 173.0 170.5 168.5 162.7 165.0 164.1 170.1 173 Model Y ij = µ + B j + ǫ ij hvor B j tilfældig operatør effekt og ǫ ij støj. Ȳ estimat af µ. Bemærk: langt den største del af variansen kommer fra blokkene! Antag vi kan lave 100 målinger. Hvordan skal vi vælge antal operatører og antal gentagelser pr. operatør for at få mest præcise estimat? 6 8

> library(nlme) > op.fit=lme(output~1,random=~1 operator) > op.fit Linear mixed-effects model fit by REML Data: NULL Log-restricted-likelihood: -42.6094 Fixed: output ~ 1 (Intercept) 172.2188 Random effects: Formula: ~1 operator (Intercept) Residual StdDev: 5.376831 2.883755 Number of Observations: 16 Number of Groups: 4 Støj varians: 2.88 2 = 8.32. Operatør varians 5.38 2 = 28.91. 9 Lad b angive antal operatører og m = 100/b antal gentagelser pr. operatør. V arȳ = V ar 1 bm b m i=1 j=1 Y ij = 1 b 2 m 2 b b m V ar[ mb j ] + V ar[ ǫ ij ] i=1 = 1 b 2 m 2 (bm2 σ 2 B + bmσ 2 ) = σ2 B b + σ2 bm = σ2 B b + σ2 100 Dvs. skal vælge b så stor som mulig. i=1 j=1 Antag pris pr. operatør er 100 og pris pr. gentagelse er 50 og vi har 1000 (kr.) til rådighed. Pris for b operatører og m gentagelser b100 + bm50. Med b operatører har vi dermed råd til m = (1000/b 100)/50 gentagelser. 11 Vha. variansanalysetabel (se WMMY afsnit 13.12 henh. afsnit 13.13) ˆσ 2 = SSE k(n 1) ˆσ 2 α = s2 1 s 2 n > fit=aov(output~factor(operator)) > summary(fit) Df Sum Sq Mean Sq F value Pr(>F) factor(operator) 3 371.87 123.96 14.906 0.000238 *** # SSA s_1^2 Residuals 12 99.79 8.32 # SSE s^2 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 > (123.96-8.32)/4 [1] 28.91 V arȳ som funktion af b (antal operatører): varians 5 10 15 20 25 30 2 4 6 8 b Optimalt antal operatører =7 når 1000 kr. til rådighed. 10 12

0 200 400 0 40000 0 100 300 0 10000 0 5000 15000 4 6 8 10 Transformation af data Plots Normal Q Q Plot Grundlæggende antagelser for lineær model: respons lineær funktion af forklarende variable varianshomogenitet normalfordelte fejl 0 100 300 0 40000 Patient.Load X.Rays Bed.Days Population Days 0 200 400 0 5000 15000 4 6 8 10 rstudent(fit)[order(fitted(fit))] 2 1 0 1 2 3 4 Sample Quantiles 2 1 0 1 2 3 4 Hvis disse ikke er opfyldt for et givet data sæt kan det ofte være en ide at transformere (anvende den lineære model på en anden skala). 0 10000 Manhours 2 1 0 1 2 5 10 15 Index Theoretical Quantiles Kolineariatet Var. het. ej normal 13 15 Eksempel: hospitalsdata (manhours) plot(hosp)#parvis plot af alle variable fit=lm(manhours~patient.load+x.rays+bed.days+population+days) plot(rstudent(fit)[order(fitted(fit))]) qqnorm(rstudent(fit)) qqline(rstudent(fit)) Model for log Manhours plot(hosp)#parvis plot af alle variable logfit=lm(log(manhours)~patient.load+x.rays+bed.days+population+days) plot(rstudent(logfit)[order(fitted(logfit))]) qqnorm(rstudent(logfit)) qqline(rstudent(logfit)) 14 16

Prediktion vha. model for log Manhours Plots rstudent(logfit)[order(fitted(logfit))] 2 1 0 1 5 10 15 Index Sample Quantiles 2 1 0 1 Normal Q Q Plot 2 1 0 1 2 Theoretical Quantiles Transformation reduceret variansheterogenitet og afvigelse fra normalitet mindre. 17 #efter backward selection > logfit=lm(log(manhours)~patient.load) > #prediktion af log Manhours med Patient.Load=30 > predict30=predict(logfit,newdata=data.frame(patient.load=30),interval= > predict30 [1,] 7.295715 6.333668 8.257763 > exp(predict30) [1,] 1473.971 563.2187 3857.455 Tilbagetransformering: (Y angiver Manhours når Patient.Load=30): P(L < log Y < U) = 95% P(exp(L) < Y < exp(u)) = 95% Dvs. 95 % prediktionsinterval [exp(6.33),exp(8.26)] = [563.22,3857.46]. NB: prediktionsintervaller kun positive værdier! 19 Prediktionsintervaller baseret på model uden transformation > predict(fit,interval="prediction") 1 775.0251-734.64937 2284.700 2 740.6702-849.42746 2330.768 3 1103.9234-436.52443 2644.371 4 1240.4956-291.00277 2771.994 5 1564.4217 76.68165 3052.162 6 2151.2717 609.57957 3692.964 NB: Prediktionsintervaller indeholder negative værdier af Manhours! Konfidensintervaller Konfidensinterval for µ 30 (forventet værdi af log Manhours når Patient.Load=30): > confid30 [1,] 7.295715 7.015729 7.575702 NB: exp(µ 30 ) er median for Manhours. Konfidensinterval for median: > exp(confid30) [1,] 1473.971 1114.018 1950.229 18 20

Fra ikke-lineære til lineære sammenhænge Hvis man kender funktionel sammenhæng kan denne viden benyttes til at finde passende transformationer: Opsummering: vi skal bruge den lineære model på den skala, hvor den giver bedst mening. Ved tilbagetransformering opnås da en model for data på den oprindelige skala. y = α exp(βx) log y = log α + βx y = αx β log y = log α + β log x y = α x x + β 1 y = 1 α + β 1 α x (Michaelis-Menten) 21 23 Eksempel: Michaelis-Menten vha linearisering Tælle-data For Poisson-fordeling er EX = V arx = λ. Her vil X approximativt have konstant varians. Dvs. for tælledata kan kvadratrodstransformation være relevant. x=c(1:10) #simulerer data y=0.1*x/(x+2)+rnorm(10,sd=0.01) plot(x,y) plot(1/x,1/y) recy=1/y recx=1/x fit=lm(recy~recx) abline(fit) 22 24

Resultater y 0.03 0.04 0.05 0.06 0.07 0.08 0.09 2 4 6 8 10 x y 1/y 10 15 20 25 30 35 40 0.2 0.4 0.6 0.8 1.0 var. het. (stiplet linie: rigtige parameter-værdier) #estimerede koefficenter ab=coef(fit) alpha=1/ab[1] 0.1176429 beta=ab[2]/ab[1] 3.780816 25 1/x Observationer og tilpasset MM-model 0.03 0.04 0.05 0.06 0.07 0.08 0.09 2 4 6 8 10 x 27 Eksempel: Michaelis-Menten vha ikke-lineær least squares > nonlinfit=nls(y~alpha*x/(x+beta),start=list(alpha=0.1,beta=3.78)) > summary(nonlinfit) Formula: y ~ alpha * x/(x + beta) Parameters: Estimate Std. Error t value Pr(> t ) alpha 0.10591 0.01542 6.868 0.000129 *** beta 2.85270 1.21313 2.352 0.046571 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.009763 on 8 degrees of freedom Mere præcise resultater! 26