Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Relaterede dokumenter
(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Multipel Lineær Regression

Modul 11: Simpel lineær regression

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Generelle lineære modeller

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Logistisk Regression - fortsat

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

1 Hb SS Hb Sβ Hb SC = , (s = )

Forelæsning 11: Kapitel 11: Regressionsanalyse

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Tema. Dagens tema: Indfør centrale statistiske begreber.

Klasseøvelser dag 2 Opgave 1

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Lineær regression i SAS. Lineær regression i SAS p.1/20

MPH specialmodul Epidemiologi og Biostatistik

Statistik II 4. Lektion. Logistisk regression

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Eksempel , opg. 2

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Statistik Lektion 4. Variansanalyse Modelkontrol

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Løsning eksamen d. 15. december 2008

Module 3: Statistiske modeller

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Eksamen i Statistik for biokemikere. Blok

To-sidet variansanalyse

To-sidet varians analyse

Løsning til eksaminen d. 14. december 2009

(studienummer) (underskrift) (bord nr)

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Module 12: Mere om variansanalyse

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Statistik Lektion 16 Multipel Lineær Regression

β 2 : forskel i skæring polymer 1 og 2. β 3 forskel i skæring polymer 1 og 3.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Program. 1. Flersidet variansanalyse 1/11

Forelæsning 11: Envejs variansanalyse, ANOVA

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Reeksamen i Statistik for Biokemikere 6. april 2009

Modelkontrol i Faktor Modeller

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

(studienummer) (underskrift) (bord nr)

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Statistik II 1. Lektion. Analyse af kontingenstabeller

(studienummer) (underskrift) (bord nr)

1 Regressionsproblemet 2

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Kapitel 11 Lineær regression

Estimation og konfidensintervaller

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Løsning til eksaminen d. 29. maj 2009

Kursus 02402/02323 Introducerende Statistik

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Produkt og marked - matematiske og statistiske metoder

Transkript:

Program Indhold af kursus i overskrifter 1. overblik over kursus (opgaver fra sidst samt huspriser som eksempler). 2. p-værdi 3. uformel evaluering 1. sandsynlighedsregning sandsynlighedsfordelinger (normal, t, χ 2, Poisson, binomial) middelværdi, varians og standardafvigelse 2. estimation: estimater og konfidensintervaller 3. testteori: signifikansniveau, styrke, type I og type II fejl, p-værdi. 4. lineære modeller (multipel regression): lineær regression ensidet variansanalyse tosidet variansanalyse kombinationer heraf 5. transformation af data og varianskomponentmodeller Farlighed af GM-majs? (Ingeniøren 23.03.07 Greenpeace og fødevareinstituttet strides om hvorvidt datamateriale fra Monsanto (forsøg på rotter) giver anledning til at tvivl om hvorvidt GM-majs er sundhedsskadelig. Udgangspunkt: i rotteførsøg konstateres ændringer i kropsvægt, fedt-indhold i blodet o.a. Fødevareinstituttet: indenfor den statistiske metodologi er man nødt til at acceptere at der vil være afvigelser der skyldes tilfældigheder, og som netop er signifikante det vil være sådan, at der altid vil være parametre eller målinger, der vil afvige signifikant der er tale om såkaldt falsk-positive statistiske fejl og naturlig variation Greenpeace: for få rotter - dvs. observerede afvigelser kan forklares som tilfældigheder. Ingeniørens opsummering: hvornår er statistisk signifikant forskel biologisk relevant. Hvor dukker styrke, type I fejl og type II fejl op i diskussionen? Generel lineær model/multipel regression Respons-variabel/afhængig variabel: y Forklarende variable/kovariater (kvantitative eller faktorer): x 1, x 2,...,x p Model: y = α + β 1 x 1 + β 2 x 2 + + β p x p + ǫ hvor ǫ N(0, σ 2 ) NB: en indikator variabel x i svarer til en faktor (grupperingsvariabel). Specialtilfælde: 1. lineær regression: p = 1 (kun en forklarende variabel) 2. ensidet variansanalyse med p grupper: en faktor som kodes som p indikator variable 3. to- og tre-sidet variansanalyse: to (tre) faktorer, der kodes som indikatorvariable for primære effekter og vekselvirkninger

Lineære modeller: en opskrift Lineære modeller: en opskrift (fortsat) Ting at gøre Hvordan (i R) Undersøg data: tegn y mod x i, boxplot plot(x,y), boxplot(y~f) for faktorer, interaktionsplot for to faktorer interaction.plot(f1,f2,y) Tilpas lineær model lm.fit=lm(y~x+f+x*f+) summary(lm.fit) Udregn studentiserede residualer Rstud=rstudent(lm.fit) og forventede værdier yhat=fitted(lm.fit) Ting at gøre Hvordan (i R) Test for diverse variable i model, anova(lm.fit)drop1(,test= F ) konfidensintervaller confint(lm.fit) Prediktion predict(lm.fit,newdata=, interval=) Modelkontrol: histogram, qq-plot og residualer mod forventede værdier og kovariater Bartlett-test for varianshomogenitet mellem grupper givet ved faktor hist(rstud), qqnorm(rstud) plot(yhat,rstud) plot(rstud[order(yhat)]) plot(x,rstud) bartlett.test(y~f) NB: samme fremgangsmåde for alle typer af lineære modeller! Multipel regression Final weight i forhold til feed og initial weight. Indledende plot: Final 70 80 50 60 90 100 Final 70 80 50 60 90 100 Initial 32 34 36 38 40 42 44 180 200 220 240 260 280 300 32 34 36 38 40 42 44 Feed Initial 180 200 220 240 260 280 300 Feed Test: > weightfit=lm(final~feed+initial+feed:initial) > summary(weightfit) Estimate Std. Error t value Pr(> t ) (Intercept) -214.61114 101.97616-2.105 0.0800. Feed 0.98781 0.40832 2.419 0.0519. Initial 6.65957 2.81450 2.366 0.0558. Feed:Initial -0.02095 0.01102-1.900 0.1061 Residual standard error: 5.164 on 6 degrees of freedom Multiple R-Squared: 0.9208, Adjusted R-squared: 0.8812 F-statistic: 23.26 on 3 and 6 DF, p-value: 0.001053 > anova(weightfit) Df Sum Sq Mean Sq F value Pr(>F) Feed 1 1554.06 1554.06 58.2770 0.0002636 *** Initial 1 210.15 210.15 7.8807 0.0308672 * Feed:Initial 1 96.28 96.28 3.6106 0.1061464 Residuals 6 160.00 26.67 Interaktion Feed:Initial ej signifikant. Bemærk: F-test fra anova() svarer til sekventiel test - dvs. p-værdi for Initial udregnet i model uden vekselvirkning.

Modelkontrol baseret på residualer: > drop1(weightfit,test="f") Df Sum of Sq RSS AIC F value Pr(F) <none> 160.001 35.726 Feed:Initial 1 96.283 256.284 38.437 3.6106 0.1061 > res=rstudent(weightfit) > yhat=predict(weightfit) > > qqnorm(res) > qqline(res) > plot(res[order(yhat)]) drop1() håndhæver hierarkisk princip. 3 2 1 0 1 res[order(yhat)] 3 2 1 0 1 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2 4 6 8 10 Index En enkelt afvigende observation? Eksempel: opgave 5 side 533 // 14.5 Boxplot og interaktionsplot y: muskelstyrke Muscle Subject Vekselvirkning Forklarende variable: subject og muscle (muskel type) (begge kategoriske/faktorer) boxplot(measurement~muscle) boxplot(measurement~subject) interaction.plot(muscle,subject,measurement) 0 20 40 60 80 0 20 40 60 80 1 2 3 mean of Measurement 0 20 40 60 80 Subject 3 2 1 Muscle

> meas.fit=lm(measurement~factor(muscle)*factor(subject)) > meas.res=rstudent(meas.fit) > yhat=predict(meas.fit) > hist(meas.res) > qqnorm(meas.res) > qqline(meas.res) > plot(meas.res[order(yhat)]) Log transformering (kvadratrod også mulighed) > meas.fit=lm(log(measurement)~factor(muscle)*factor(subject)) > meas.res=rstudent(meas.fit) > yhat=predict(meas.fit) > hist(meas.res) > qqnorm(meas.res) > qqline(meas.res) > plot(meas.res[order(yhat)]) Histogram of meas.res Histogram of meas.res 3 2 1 0 1 2 Frequency 0 5 10 15 meas.res[order(yhat)] 2 1 0 1 3 2 2 1 0 1 2 4 3 2 1 0 1 2 3 0 10 20 30 40 meas.res Index Tunge haler variansheterogenitet! 2 0 2 4 2 1 0 1 2 Outlier?? Frequency 0 5 10 15 2 0 2 4 meas.res meas.res[order(yhat)] 2 0 2 4 0 10 20 30 40 Index > anova(meas.fit) Analysis of Variance Table Response: log(measurement) Df Sum Sq Mean Sq F value Pr(>F) factor(muscle) 4 16.9329 4.2332 78.306 1.950e-15 *** factor(subject) 2 8.7660 4.3830 81.077 7.982e-13 *** factor(muscle):factor(subject) 8 13.3315 1.6664 30.826 2.000e-12 *** Residuals 30 1.6218 0.0541 Signifikant vekselvirkning. Interaktionsplot for log(measurement): Eksempel: huspriser Afhængig variabel: log huspris. Forklarende variable: sqft, bedrooms, zip, baths, garage log price mod forklarende variable: log(price) 12.0 12.5 11.0 11.5 13.0 13.5 2000 4000 6000 8000 1 4 5 6 9 sqft mean of log(measurement) 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 Subject 3 2 1 1 1.5 2 2.5 3 3.5 4 4.5 6.5 0 1 2 3 Muscle Udelader observationer med sqft>6000 og zip=1.

NB model med alle interaktioner meget kompleks: 1 femvejs interaktion, 5 firevejs, 10 trevejs, 10 tovejs, 5 primære effekter. Automatisk forward selection (garage og zip som faktorer, resten som kvantitative variable): > homes2=homes[zip!=1 & sqft<6000,] > attach(homes2) > model.select.forward=step(lm(log(price)~sqft+bedrooms+baths+factor(garage) +factor(zip)),~sqft*bedrooms*baths*factor(garage)*factor(zip), direction="forward") > anova(model.select.forward) Df Sum Sq Mean Sq F value Pr(>F) sqft 1 77.270 77.270 2757.9788 < 2.2e-16 *** bedrooms 1 0.040 0.040 1.4238 0.233389 baths 1 4.077 4.077 145.5238 < 2.2e-16 *** factor(garage) 3 2.223 0.741 26.4477 8.384e-16 *** sqft:bedrooms:factor(garage) 3 0.478 0.159 5.6921 0.000782 *** sqft:bedrooms:factor(zip) 3 0.260 0.087 3.0936 0.026764 * Residuals 462 12.944 0.028 > drop1(model.select.forward,test="f") Df Sum of Sq F value Pr(F) <none> sqft:baths 1 0.72 25.7264 5.707e-07 bedrooms:baths 1 0.12 4.4566 0.0353026 factor(garage):factor(zip) 9 0.48 1.8870 0.0518707 sqft:bedrooms:factor(garage) 3 0.47 5.5842 0.0009066 sqft:bedrooms:factor(zip) 3 0.26 3.0936 0.0267636 Pas på: forskellig fortolkning af interaktioner afhængigt af, om kvantitative eller kategoriske variable der indgår i interaktion! Bemærk: F-test for anova sekventielle Modelkontrol Alternativ til transformation Histogram of resi Frequency 0 50 100 150 4 2 0 2 4 resi 4 2 0 2 4 3 2 1 0 1 2 3 resi 4 2 0 2 4 Prediktion af pris for hus med areal 1500 sqft, 2 bedrooms, 2 baths, 2 garage og postnr. 4: > logprice.predicted=predict(model.select.forward,newdata= data.frame(sqft=1500,bedrooms=2,baths=2,garage=2,zip=4), interval="prediction") > exp(logprice.predicted) fit lwr upr [1,] 123938.7 87197.36 176161.3 yhat I visse tilfælde kan man ikke transformere til normalitet: binære observationer, små tælle-data. Da bør man benytte logistisk regression eller Poisson regression (generaliserede lineære modeller) - se afsnit 12.12 i WMMY.

Eksempel vedr. varianskomponenter K4 projekt fra sidste semester: måling af celleaktivitet under et vækstforløb. 4 tidspunkter - 3 prøver/slides pr. tidspunkt - 5 billeder pr. slide Afhængig variabel: celleareal indenfor billeder. Uafhængig variabel: tidspunkt. Total varians = σ 2 S +σ2 B +σ2 = varians mellem slides + varians mellem billeder indenfor slide + varians indenfor billede indenfor slide = 0.53 + 1.82 + 6.34 Varianskomponentmodel: kvantificere hvor variationen kommer fra og tage hensyn til afhængighed mellem observationer fra samme prøve og billede. p-værdi Grundlæggende tankegang: en antagelse er forkert hvis konsekvenser af antagelse er i modstrid med fakta. Ex: Hr. Jensen ringer til konen og meddeler, at han har overarbejde på kontoret (der kun har mandlige ansatte). Aktuelle data: i baggrunden høres hyggemusik og en kvindestemme og en veninde observerer senere Hr. Jensen forlade en café på strøget. Hvis Hr. Jensen har overarbejde er det meget usandsynligt at observere disse data. Fru Jensen kan derfor fristes til tvivle på ægtemandens påstand. I statistik måler vi en afvigelse mellem konsekvenserne af en hypotese H 0 og data vha. en teststørrelse som eksempelvis t eller F. Antag, at der i et gentaget (hypotetisk) eksperiment er meget lille sandsynlighed (under H 0 ) (p-værdi) for at der forekommer en ligeså stor (eller større) afvigelse som den observerede. Da er vi skeptiske overfor hypotesen. Sammenligning med Bayesiansk tilgangsvinkel (som I ofte implicit bruger): Lad p = P( kvindestemme overarbj ) = 0.01 være p-værdien. I Bayesiansk statistik ser man på (posterior) sandsynligheden P( overarbj kvindestemme ). Antag (à priori) P( overarbj ) = 0.10 og P( kvindestemme ikke overarbj) = 0.50. Vi kan nu beregne P( overarbj kvindestemme ) = 0.01 0.1 0.01 0.1 + 0.50 0.90 = 0.002 Fordel: tager eksplicit alternativ (ikke overarbejde) i betragtning. Ulempe/Fordel: afhænger af specifikation af prior sandsynlighed P(overarbj) og P( kvindestemme ikke overarbj).