Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer



Relaterede dokumenter
Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Ensidet variansanalyse

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

To samhørende variable

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

En Introduktion til SAS. Kapitel 6.

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Konfidensinterval for µ (σ kendt)

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Module 12: Mere om variansanalyse

Kapitel 11 Lineær regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Multipel Lineær Regression

Lineær regression i SAS. Lineær regression i SAS p.1/20

Statistik Lektion 17 Multipel Lineær Regression

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Reeksamen i Statistik for Biokemikere 6. april 2009

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Modul 6: Regression og kalibrering

Modul 5: Test for én stikprøve

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Anvendt Statistik Lektion 7. Simpel Lineær Regression

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Besvarelse af juul2 -opgaven

Modul 11: Simpel lineær regression

Løsning til øvelsesopgaver dag 4 spg 5-9

To-sidet variansanalyse

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik II 4. Lektion. Logistisk regression

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (

Rygtespredning: Et logistisk eksperiment

Epidemiologi og Biostatistik

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Lineær og logistisk regression

Privatansatte mænd bliver desuden noget hurtigere chef end kvinderne og forholdsvis flere ender i en chefstilling.

02402 Løsning til testquiz02402f (Test VI)

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Eksamen i Statistik for Biokemikere, Blok januar 2009

Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Trivsel og fravær i folkeskolen

Statistik Lektion 16 Multipel Lineær Regression

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Oversigt: De næste forelæsninger

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Basal statistik. 30. januar 2007

Note til styrkefunktionen

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Simpel Lineær Regression: Model

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004

Multipel regression 22. Maj, 2012

Module 3: Statistiske modeller

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Regressionsanalyse i SAS

Ligninger med reelle løsninger

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Besvarelse af vitcap -opgaven

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Transkript:

Program Simpel og multipel lineær regression Helle Sørensen E-mail: helle@math.ku.dk Simpel LR: repetition, konfidensintervaller, test, prædiktionsintervaller, mm. Multipel LR: estimation, valg af model, multikollinearitet. Eksempel hvor transformation af data er nyttigt (eller...): Michaelis-Menten ligning. StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 1 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 2 / 26 I tirsdags: model og estimation I tirsdags: Prædikterede værdier og residualer Set-up: responsvariabel og én forklarende kvantitativ variabel. Statistisk model: y i = β 0 + β 1 x i + ε i hvor ε erne antages at være uafhængige og N(0, σ)-fordelte. Estimation: ˆβ 0 og ˆβ 1 findes ved least squares, nemlig således at er så lille som muligt. n i=1 (y i β 0 β 1 x i ) 2 Minimerer summen af kvadraterne af lodrette afstande mellem observationer og forventede/prædikterede værdier. Regressionslinie: y = ˆβ 0 + ˆβ 1 x Prædikteret værdi for vilkårlig x-værdi: ŷ = ˆβ 0 + ˆβ 1 x. Specielt for værdierne x i i datasættet: ŷ i = ˆβ 0 + ˆβ 1 x i. Residualer: r i = y i ŷ i Estimat for spredning af ε i : Aflæses i SAS som Root MSE. 1 ˆσ = s Y X = n 2 n i=1 r 2 i StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 3 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 4 / 26

I tirsdags: Modelkontrol Standardiserede residualer: r i = r i sd(r i ) Hvis modelantagelserne er ok, så er r i erne normalfordelte med middelværdi 0 og spredning 1 uanset i. Modelkontrol: Residualplot: Plot (x i, r i ) eller (ŷ i, r i ). Checker antagelserne om at ε erne har middelværdi 0 og samme spredning. QQ-plot over r i erne. Checker normalfordelingsantagelsen. Cook-afstande: Plot (i,d i ) hvor D i måler afstanden måler effekten på de prædikterede værdier af at udelade observation i. Checker for særligt indflydelsesrige observationer. Problemer med modellen? Sommetider nyttigt at transformere responsen og/eller den forklarende variabel. Konfidensintervaller Især interesseret i konfidensintervaller for Husk: β 1 forventet ændring i y ved ændring i x på en enhed µ Y X = β 0 + β 1 x forventet værdi for y når forklarende variabel er x. 95% KI : estimat ± t n 2,0.975 SE(estimat) hvor SE som sædvanlig betyder standard error (estimeret spredning). SE( ˆβ 1 ) = s Y X (xi x) 2, Hvad sker der når n vokser? Hvad sker der for x langt fra/tæt på x? SE( ˆβ 0 + ˆβ 1 (x x)2 1 x) = s Y X + n (x i x) 2 Hvad sker hvis spredningen omkring linien er stor hhv. lille? Hvordan får vi SE( ˆβ 0 ) og dermed KI for β 0? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 5 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 6 / 26 Konfidensintervaller i SAS Test af hypoteser Konfidensintervaller for β 0 + β 1 x i fås med optionen clm Konfidensintervaller for β 0 og β 1 : SE givet, men jeg kan ikke finde ud af at få proc reg til at beregne konfidensintervallerne direkte... Blodtryksdata: 95% KI for β 1? 95% KI for β 0? 95% KI for β 0 + β 1 50? Se figur side 365. Ofte interesseret i hypotesen H 0 : β 1 = 0. Hvorfor? Testes som sædvanlig på T obs = ˆβ 1 SE( ˆβ 1 ) ; p = 2P(T T obs) hvor T t n 2. Hvor ekstremt ligger den observerede værdi af T i t n 2 -fordelingen? Det er præcis dette test SAS laver i outputtet med parameterestimater. Hvordan skal testet ændres hvis hypotesen er H 0 : β 1 = β 10 for et kendt tal β 10? Hvordan tester vi mon hypotesen µ Y X = µ 0 for et kendt tal µ 0? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 7 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 8 / 26

Test for ingen effekt af den forklarende variabel Forklaringsgrad R 2 Tilbage til hypotesen H 0 : β 1 = 0. Svarer til at vi kan fjerne variablen x fra modelbeskrivelsen. Som i variansanalysen: F -test. Til variationskilder: variation der kan forklares ved ret linie samt variation omkring ret linie: (y i ȳ) 2 = (ŷ i ȳ) 2 + (y i ŷ i ) 2 Variansanalyseskema side 363 og 364. F -test: F obs = (ŷ i ȳ) 2 /1 (y i ŷ i ) 2 /(n 2), p = P(F F obs), F F (1,n 2) R 2 -værdien er andelen af den totale variation som kan forklares med den rette linie: R 2 = (ŷ i ȳ) 2 (y i ȳ) 2 R 2 er netop kvadratet på Peason korrelationskoefficienten mellem x og y. R 2 rapporteres ofte som et mål for modellens egnethed, men er stærkt overvurderet: Hvad er det egentlig R 2 måler? Hvad hvis der er en stor naturlig variation? Hvad er risikoen ved at tilføje ekstra forklarende variable for at booste sin R 2? Sammenhæng mellem t-test og F -test: T 2 = F, samme p-værdi. StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 9 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 10 / 26 Prædiktionsintervaller Regression af y på x eller omvendt? Husk konfidensintervallet for µ Y X = β 0 + β 1 x: ˆβ 0 + ˆβ 1 (x x)2 1 x ± t n 1,0.975 s Y X + n (x i x) 2 Hvad udtaler konfidensintervallet sig om? Ønsker nu at angive et prædiktionsinterval, dvs. et interval hvor en ny observation vil havne med ssh. 95%. Hvad mangler vi at tage højde for? Hvordan? Skal det være smallere eller bredere end konfidensintervallet? Se figurer side 365 og 366. Hvad sker der hvis n vokser? Prædiktionsintervaller fås med optionen cli i SAS. For hvilke værdier af x er prædiktionen og PI troværdige? Model for sammenhæng mellem x og y samt tilhørende estimater: y i = β 0 + β 1 x i + ε i ( ˆβ 0, ˆβ 1 ) Alternativ model og tilhørende estimater: x i = α 0 + α 1 y i + e i (ˆα 0, ˆα 1 ) Hvis vi ser bort fra restleddet svarer dette til y i = α 0 α 1 + 1 α 1 x i. Der gælder ikke ˆβ 0 = ˆα 0 /ˆα 1 og ˆβ 1 = 1/ˆα 1. Hvorfor ikke? Men testene for H 0 : β 1 = 0 og α 1 = 0 faktisk identiske. Hvornår er det rimeligt at bruge hvilken model? Hvad hvis ingen af modellerne er mere rimelig end den anden? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 11 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 12 / 26

Multipel lineær regression Eksempel: blodtryk for voksne Simpel lineær regression: én kvantitativ forklarende variabel (prædiktor) Multipel lineær regression: flere kvantitative forklarende variable (prædiktorer) Model: y i = β 0 + β 1 x 1,i + β 1 x 2,i + + β p 1 x p 1,i + ε i hvor ε i erne er uafhængige og N(0,σ)-fordelte. Hvad er fortolkningen af β 1,β 2,...,β p 1? β 0? σ? FLH side 370: blodtryksmålinger for 50 voksne. Variable: Response: sbp Kvantitative forklarende: age, education, weight, height, bmi Kategoriske forklarende: race, sex, smoke FLH foreslår at bruge (delmængde af) variablene: age, height, weight. Sammenhænge mellem forklarende variable: scatter plots og parvise korrelationer. Se side 371. Begge dele beskriver kun parvise sammenhænge. Vi kan evt. forsøge at inddrage education og bmi, også (senere). StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 13 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 14 / 26 Eksempel: blodtryk for voksne Valg af model Hvor mange variable kan data bære? FLH-tommelfingerregel: n mindst 10 gange antal variable. For en given multipel regressionsmodel kan vi estimere β 0,β 1,...,β p 1 ved LS samt estimere σ. Lave modelkontrol vha. residualanalyse beregne SE( ˆβ j ) og dermed konfidensintervaller for β j. Bemærk: DF = n p; n minus antallet af parametre i middelværdibeskrivelsen. Men hvordan finder vi ud af hvilke variable vi skal inkludere i modellen? FLH beskriver to metoder til valg af model: Forward stepwise selection All possible regressions procedure Begge dele er ret automatiske /objektive procedurer. Måske for automatiske... Alternativ: backward stepwise selection. Overvej hvilke variable det giver mening at inddrage fra et fagligt synspunkt. Pas på med at inddrage for mange. Reducer modellen, dvs. test for effekt af variable indtil alle er signifikante. Hypotesen H 0 : β j = 0 testes med t-test. I hvilken rækkefølge skal vi teste for variablene? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 15 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 16 / 26

Eksempel: blodtryk for voksne Multikollinearitet Startmodel: sbp i = β 0 + β 1 age i + β 2 weight i + β 3 height i + ε i hvor ε i erne er uafhængige og N(0,σ)-fordelte. Modelkontrol giver ikke umiddelbart anledning til bekymringer. Modelreduktion: Ikke signifikant effekt af højde når vægt og alder er med i modellen (p = 0.057) Alder har signifikant effekt (p = 0.0013). ˆβ 1 = 0.177 (SE 0.044) Vægt har signifikant effekt (p = 0.0002). ˆβ 2 = 0.406 (SE 0.119) Når frem til samme model som i FLH ved forward stepwise selection. Multikollinearitet betyder at der er forklarende variable der er tæt på at være lineært afhængige. En forklarende variabel kan næsten skrives som linearkombination af nogle af de øvrige. Eksempler: Stærkt korrelerede variable. To variable udtrykker stort det samme, fx. højde/skostørrelse(?) eller bmi/fedtprocent. Ikke svært at finde... Flere variable indblandet, fx. alder, uddannelse målt i år, antal år på arbejdsmarkedet. Sværere at finde... Hvad er problemet? Ikke problemer med at fitte modellen, men... parameterestimater er ikke troværdige da forskellige effekter blandes sammen. fortolkningen af parametrene ikke rimelige: ændring i x j når alle andre variable holdes fast. Hvorfor ikke? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 17 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 18 / 26 Multikollinearitet Eksempel: blodtryk for voksne Symptomer på multikollinearitet: Fortegn på estimater får et andet fortegn end det man ville forvente Store p-værdier for variable som man ellers ville tro havde en effekt Store p-værdier for alle/næsten alle forklarende variable Store ændringer i parameterestimater hvis en/flere forklarende variable udelades Hvad sker hvis vi også inkluderer bmi og education i modellen? Pas ekstra meget på med ekstrapolation udover områder med observationer! StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 19 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 20 / 26

Eksempel: puromycin Eksempel: puromycin Eksperiment med enzymet puromycin. Hastigheden af en bestemt kemisk reaktion blev målt for seks forskellige koncentrationer af enzymet Andre forhold i forsøget var uændrede To gentagelser per koncentration. 12 sammenhørende værdier af puromycinkoncentration og hastighed. Koncentration Hastighed 0.02 76 47 0.06 97 107 0.11 123 139 0.22 159 152 0.56 191 201 1.10 207 200 Hastighed 50 100 150 200 Oprindelige værdier 0.0 0.2 0.4 0.6 0.8 1.0 Koncentration y=1/hastighed 0.005 0.010 0.015 0.020 Reciprokke værdier 0 10 20 30 40 50 x=1/koncentration StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 21 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 22 / 26 Michaelis Menten model Analyse af den reciprokke model Michaelis-Menton ligning: Her er C koncentration, V hastighed V = θ C ρ + C Parameteren θ angiver den maksimale hastighed (for en meget stor koncentration) Parameteren ρ er den koncentration hvor reaktionshastigheden er halvdelen af den maksimale, dvs. θ/2. Hvorfor passer denne model ikke ind i den lineære regressionsmodel? Hvad sker der hvis ser på den reciprokke af V, dvs. 1/V? Lineær regressionsmodel: eller Estimater for α og β? 1 = 1 V i θ + ρ θ 1 + ε i C i y i = α + β x i + ε i Afhænger reaktionshastigheden af koncentrationen? Estimater for θ og ρ? Estimat for forventet reaktionshastighed ved koncentration på 0.5? Ved hvilken koncentration er den forventede reaktionshastighed 175? Mon modelantagelserne er rimelige? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 23 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 24 / 26

Ikke-lineær regressionsmodel Resumé Alternativ model: med de sædvanlige antagelser på ε erne. V i = θ C i ρ + C i + ε i Modellen kan fittes med proc nlin. Estimater for θ og ρ? Estimat for forventet reaktionshastighed ved koncentration på 0.5? Ved hvilken koncentration er den forventede reaktionshastighed 175? Sammenlign med den anden model. Også SE er. Er modelantagelserne mon ok? Simpel/multipel: en eller flere forklarende variabel. Fortolkning af parametre er essentiel Konfidensintervaller vs. prædiktionsintervaller Fortolkningsproblemer ved multikollinearitet i multipel LR StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 25 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 26 / 26