Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Program Indhold af kursus i overskrifter 1. overblik over kursus (opgaver fra sidst samt huspriser som eksempler). 2. p-værdi 3. uformel evaluering 1. sandsynlighedsregning sandsynlighedsfordelinger (normal, t, χ 2, Poisson, binomial) middelværdi, varians og standardafvigelse 2. estimation: estimater og konfidensintervaller 3. testteori: signifikansniveau, styrke, type I og type II fejl, p-værdi. 4. lineære modeller (multipel regression): lineær regression ensidet variansanalyse tosidet variansanalyse kombinationer heraf 5. transformation af data og varianskomponentmodeller Farlighed af GM-majs? (Ingeniøren 23.03.07 Greenpeace og fødevareinstituttet strides om hvorvidt datamateriale fra Monsanto (forsøg på rotter) giver anledning til at tvivl om hvorvidt GM-majs er sundhedsskadelig. Udgangspunkt: i rotteførsøg konstateres ændringer i kropsvægt, fedt-indhold i blodet o.a. Fødevareinstituttet: indenfor den statistiske metodologi er man nødt til at acceptere at der vil være afvigelser der skyldes tilfældigheder, og som netop er signifikante det vil være sådan, at der altid vil være parametre eller målinger, der vil afvige signifikant der er tale om såkaldt falsk-positive statistiske fejl og naturlig variation Greenpeace: for få rotter - dvs. observerede afvigelser kan forklares som tilfældigheder. Ingeniørens opsummering: hvornår er statistisk signifikant forskel biologisk relevant. Hvor dukker styrke, type I fejl og type II fejl op i diskussionen? Generel lineær model/multipel regression Respons-variabel/afhængig variabel: y Forklarende variable/kovariater (kvantitative eller faktorer): x 1, x 2,...,x p Model: y = α + β 1 x 1 + β 2 x 2 + + β p x p + ǫ hvor ǫ N(0, σ 2 ) NB: en indikator variabel x i svarer til en faktor (grupperingsvariabel). Specialtilfælde: 1. lineær regression: p = 1 (kun en forklarende variabel) 2. ensidet variansanalyse med p grupper: en faktor som kodes som p indikator variable 3. to- og tre-sidet variansanalyse: to (tre) faktorer, der kodes som indikatorvariable for primære effekter og vekselvirkninger

Lineære modeller: en opskrift Lineære modeller: en opskrift (fortsat) Ting at gøre Hvordan (i R) Undersøg data: tegn y mod x i, boxplot plot(x,y), boxplot(y~f) for faktorer, interaktionsplot for to faktorer interaction.plot(f1,f2,y) Tilpas lineær model lm.fit=lm(y~x+f+x*f+) summary(lm.fit) Udregn studentiserede residualer Rstud=rstudent(lm.fit) og forventede værdier yhat=fitted(lm.fit) Ting at gøre Hvordan (i R) Test for diverse variable i model, anova(lm.fit)drop1(,test= F ) konfidensintervaller confint(lm.fit) Prediktion predict(lm.fit,newdata=, interval=) Modelkontrol: histogram, qq-plot og residualer mod forventede værdier og kovariater Bartlett-test for varianshomogenitet mellem grupper givet ved faktor hist(rstud), qqnorm(rstud) plot(yhat,rstud) plot(rstud[order(yhat)]) plot(x,rstud) bartlett.test(y~f) NB: samme fremgangsmåde for alle typer af lineære modeller! Multipel regression Final weight i forhold til feed og initial weight. Indledende plot: Final 70 80 50 60 90 100 Final 70 80 50 60 90 100 Initial 32 34 36 38 40 42 44 180 200 220 240 260 280 300 32 34 36 38 40 42 44 Feed Initial 180 200 220 240 260 280 300 Feed Test: > weightfit=lm(final~feed+initial+feed:initial) > summary(weightfit) Estimate Std. Error t value Pr(> t ) (Intercept) -214.61114 101.97616-2.105 0.0800. Feed 0.98781 0.40832 2.419 0.0519. Initial 6.65957 2.81450 2.366 0.0558. Feed:Initial -0.02095 0.01102-1.900 0.1061 Residual standard error: 5.164 on 6 degrees of freedom Multiple R-Squared: 0.9208, Adjusted R-squared: 0.8812 F-statistic: 23.26 on 3 and 6 DF, p-value: 0.001053 > anova(weightfit) Df Sum Sq Mean Sq F value Pr(>F) Feed 1 1554.06 1554.06 58.2770 0.0002636 *** Initial 1 210.15 210.15 7.8807 0.0308672 * Feed:Initial 1 96.28 96.28 3.6106 0.1061464 Residuals 6 160.00 26.67 Interaktion Feed:Initial ej signifikant. Bemærk: F-test fra anova() svarer til sekventiel test - dvs. p-værdi for Initial udregnet i model uden vekselvirkning.

Modelkontrol baseret på residualer: > drop1(weightfit,test="f") Df Sum of Sq RSS AIC F value Pr(F) <none> 160.001 35.726 Feed:Initial 1 96.283 256.284 38.437 3.6106 0.1061 > res=rstudent(weightfit) > yhat=predict(weightfit) > > qqnorm(res) > qqline(res) > plot(res[order(yhat)]) drop1() håndhæver hierarkisk princip. 3 2 1 0 1 res[order(yhat)] 3 2 1 0 1 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2 4 6 8 10 Index En enkelt afvigende observation? Eksempel: opgave 5 side 533 // 14.5 Boxplot og interaktionsplot y: muskelstyrke Muscle Subject Vekselvirkning Forklarende variable: subject og muscle (muskel type) (begge kategoriske/faktorer) boxplot(measurement~muscle) boxplot(measurement~subject) interaction.plot(muscle,subject,measurement) 0 20 40 60 80 0 20 40 60 80 1 2 3 mean of Measurement 0 20 40 60 80 Subject 3 2 1 Muscle

> meas.fit=lm(measurement~factor(muscle)*factor(subject)) > meas.res=rstudent(meas.fit) > yhat=predict(meas.fit) > hist(meas.res) > qqnorm(meas.res) > qqline(meas.res) > plot(meas.res[order(yhat)]) Log transformering (kvadratrod også mulighed) > meas.fit=lm(log(measurement)~factor(muscle)*factor(subject)) > meas.res=rstudent(meas.fit) > yhat=predict(meas.fit) > hist(meas.res) > qqnorm(meas.res) > qqline(meas.res) > plot(meas.res[order(yhat)]) Histogram of meas.res Histogram of meas.res 3 2 1 0 1 2 Frequency 0 5 10 15 meas.res[order(yhat)] 2 1 0 1 3 2 2 1 0 1 2 4 3 2 1 0 1 2 3 0 10 20 30 40 meas.res Index Tunge haler variansheterogenitet! 2 0 2 4 2 1 0 1 2 Outlier?? Frequency 0 5 10 15 2 0 2 4 meas.res meas.res[order(yhat)] 2 0 2 4 0 10 20 30 40 Index > anova(meas.fit) Analysis of Variance Table Response: log(measurement) Df Sum Sq Mean Sq F value Pr(>F) factor(muscle) 4 16.9329 4.2332 78.306 1.950e-15 *** factor(subject) 2 8.7660 4.3830 81.077 7.982e-13 *** factor(muscle):factor(subject) 8 13.3315 1.6664 30.826 2.000e-12 *** Residuals 30 1.6218 0.0541 Signifikant vekselvirkning. Interaktionsplot for log(measurement): Eksempel: huspriser Afhængig variabel: log huspris. Forklarende variable: sqft, bedrooms, zip, baths, garage log price mod forklarende variable: log(price) 12.0 12.5 11.0 11.5 13.0 13.5 2000 4000 6000 8000 1 4 5 6 9 sqft mean of log(measurement) 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 Subject 3 2 1 1 1.5 2 2.5 3 3.5 4 4.5 6.5 0 1 2 3 Muscle Udelader observationer med sqft>6000 og zip=1.

NB model med alle interaktioner meget kompleks: 1 femvejs interaktion, 5 firevejs, 10 trevejs, 10 tovejs, 5 primære effekter. Automatisk forward selection (garage og zip som faktorer, resten som kvantitative variable): > homes2=homes[zip!=1 & sqft<6000,] > attach(homes2) > model.select.forward=step(lm(log(price)~sqft+bedrooms+baths+factor(garage) +factor(zip)),~sqft*bedrooms*baths*factor(garage)*factor(zip), direction="forward") > anova(model.select.forward) Df Sum Sq Mean Sq F value Pr(>F) sqft 1 77.270 77.270 2757.9788 < 2.2e-16 *** bedrooms 1 0.040 0.040 1.4238 0.233389 baths 1 4.077 4.077 145.5238 < 2.2e-16 *** factor(garage) 3 2.223 0.741 26.4477 8.384e-16 *** sqft:bedrooms:factor(garage) 3 0.478 0.159 5.6921 0.000782 *** sqft:bedrooms:factor(zip) 3 0.260 0.087 3.0936 0.026764 * Residuals 462 12.944 0.028 > drop1(model.select.forward,test="f") Df Sum of Sq F value Pr(F) <none> sqft:baths 1 0.72 25.7264 5.707e-07 bedrooms:baths 1 0.12 4.4566 0.0353026 factor(garage):factor(zip) 9 0.48 1.8870 0.0518707 sqft:bedrooms:factor(garage) 3 0.47 5.5842 0.0009066 sqft:bedrooms:factor(zip) 3 0.26 3.0936 0.0267636 Pas på: forskellig fortolkning af interaktioner afhængigt af, om kvantitative eller kategoriske variable der indgår i interaktion! Bemærk: F-test for anova sekventielle Modelkontrol Alternativ til transformation Histogram of resi Frequency 0 50 100 150 4 2 0 2 4 resi 4 2 0 2 4 3 2 1 0 1 2 3 resi 4 2 0 2 4 Prediktion af pris for hus med areal 1500 sqft, 2 bedrooms, 2 baths, 2 garage og postnr. 4: > logprice.predicted=predict(model.select.forward,newdata= data.frame(sqft=1500,bedrooms=2,baths=2,garage=2,zip=4), interval="prediction") > exp(logprice.predicted) fit lwr upr [1,] 123938.7 87197.36 176161.3 yhat I visse tilfælde kan man ikke transformere til normalitet: binære observationer, små tælle-data. Da bør man benytte logistisk regression eller Poisson regression (generaliserede lineære modeller) - se afsnit 12.12 i WMMY.

Eksempel vedr. varianskomponenter K4 projekt fra sidste semester: måling af celleaktivitet under et vækstforløb. 4 tidspunkter - 3 prøver/slides pr. tidspunkt - 5 billeder pr. slide Afhængig variabel: celleareal indenfor billeder. Uafhængig variabel: tidspunkt. Total varians = σ 2 S +σ2 B +σ2 = varians mellem slides + varians mellem billeder indenfor slide + varians indenfor billede indenfor slide = 0.53 + 1.82 + 6.34 Varianskomponentmodel: kvantificere hvor variationen kommer fra og tage hensyn til afhængighed mellem observationer fra samme prøve og billede. p-værdi Grundlæggende tankegang: en antagelse er forkert hvis konsekvenser af antagelse er i modstrid med fakta. Ex: Hr. Jensen ringer til konen og meddeler, at han har overarbejde på kontoret (der kun har mandlige ansatte). Aktuelle data: i baggrunden høres hyggemusik og en kvindestemme og en veninde observerer senere Hr. Jensen forlade en café på strøget. Hvis Hr. Jensen har overarbejde er det meget usandsynligt at observere disse data. Fru Jensen kan derfor fristes til tvivle på ægtemandens påstand. I statistik måler vi en afvigelse mellem konsekvenserne af en hypotese H 0 og data vha. en teststørrelse som eksempelvis t eller F. Antag, at der i et gentaget (hypotetisk) eksperiment er meget lille sandsynlighed (under H 0 ) (p-værdi) for at der forekommer en ligeså stor (eller større) afvigelse som den observerede. Da er vi skeptiske overfor hypotesen. Sammenligning med Bayesiansk tilgangsvinkel (som I ofte implicit bruger): Lad p = P( kvindestemme overarbj ) = 0.01 være p-værdien. I Bayesiansk statistik ser man på (posterior) sandsynligheden P( overarbj kvindestemme ). Antag (à priori) P( overarbj ) = 0.10 og P( kvindestemme ikke overarbj) = 0.50. Vi kan nu beregne P( overarbj kvindestemme ) = 0.01 0.1 0.01 0.1 + 0.50 0.90 = 0.002 Fordel: tager eksplicit alternativ (ikke overarbejde) i betragtning. Ulempe/Fordel: afhænger af specifikation af prior sandsynlighed P(overarbj) og P( kvindestemme ikke overarbj).