Program Simpel og multipel lineær regression Helle Sørensen E-mail: helle@math.ku.dk Simpel LR: repetition, konfidensintervaller, test, prædiktionsintervaller, mm. Multipel LR: estimation, valg af model, multikollinearitet. Eksempel hvor transformation af data er nyttigt (eller...): Michaelis-Menten ligning. StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 1 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 2 / 26 I tirsdags: model og estimation I tirsdags: Prædikterede værdier og residualer Set-up: responsvariabel og én forklarende kvantitativ variabel. Statistisk model: y i = β 0 + β 1 x i + ε i hvor ε erne antages at være uafhængige og N(0, σ)-fordelte. Estimation: ˆβ 0 og ˆβ 1 findes ved least squares, nemlig således at er så lille som muligt. n i=1 (y i β 0 β 1 x i ) 2 Minimerer summen af kvadraterne af lodrette afstande mellem observationer og forventede/prædikterede værdier. Regressionslinie: y = ˆβ 0 + ˆβ 1 x Prædikteret værdi for vilkårlig x-værdi: ŷ = ˆβ 0 + ˆβ 1 x. Specielt for værdierne x i i datasættet: ŷ i = ˆβ 0 + ˆβ 1 x i. Residualer: r i = y i ŷ i Estimat for spredning af ε i : Aflæses i SAS som Root MSE. 1 ˆσ = s Y X = n 2 n i=1 r 2 i StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 3 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 4 / 26
I tirsdags: Modelkontrol Standardiserede residualer: r i = r i sd(r i ) Hvis modelantagelserne er ok, så er r i erne normalfordelte med middelværdi 0 og spredning 1 uanset i. Modelkontrol: Residualplot: Plot (x i, r i ) eller (ŷ i, r i ). Checker antagelserne om at ε erne har middelværdi 0 og samme spredning. QQ-plot over r i erne. Checker normalfordelingsantagelsen. Cook-afstande: Plot (i,d i ) hvor D i måler afstanden måler effekten på de prædikterede værdier af at udelade observation i. Checker for særligt indflydelsesrige observationer. Problemer med modellen? Sommetider nyttigt at transformere responsen og/eller den forklarende variabel. Konfidensintervaller Især interesseret i konfidensintervaller for Husk: β 1 forventet ændring i y ved ændring i x på en enhed µ Y X = β 0 + β 1 x forventet værdi for y når forklarende variabel er x. 95% KI : estimat ± t n 2,0.975 SE(estimat) hvor SE som sædvanlig betyder standard error (estimeret spredning). SE( ˆβ 1 ) = s Y X (xi x) 2, Hvad sker der når n vokser? Hvad sker der for x langt fra/tæt på x? SE( ˆβ 0 + ˆβ 1 (x x)2 1 x) = s Y X + n (x i x) 2 Hvad sker hvis spredningen omkring linien er stor hhv. lille? Hvordan får vi SE( ˆβ 0 ) og dermed KI for β 0? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 5 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 6 / 26 Konfidensintervaller i SAS Test af hypoteser Konfidensintervaller for β 0 + β 1 x i fås med optionen clm Konfidensintervaller for β 0 og β 1 : SE givet, men jeg kan ikke finde ud af at få proc reg til at beregne konfidensintervallerne direkte... Blodtryksdata: 95% KI for β 1? 95% KI for β 0? 95% KI for β 0 + β 1 50? Se figur side 365. Ofte interesseret i hypotesen H 0 : β 1 = 0. Hvorfor? Testes som sædvanlig på T obs = ˆβ 1 SE( ˆβ 1 ) ; p = 2P(T T obs) hvor T t n 2. Hvor ekstremt ligger den observerede værdi af T i t n 2 -fordelingen? Det er præcis dette test SAS laver i outputtet med parameterestimater. Hvordan skal testet ændres hvis hypotesen er H 0 : β 1 = β 10 for et kendt tal β 10? Hvordan tester vi mon hypotesen µ Y X = µ 0 for et kendt tal µ 0? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 7 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 8 / 26
Test for ingen effekt af den forklarende variabel Forklaringsgrad R 2 Tilbage til hypotesen H 0 : β 1 = 0. Svarer til at vi kan fjerne variablen x fra modelbeskrivelsen. Som i variansanalysen: F -test. Til variationskilder: variation der kan forklares ved ret linie samt variation omkring ret linie: (y i ȳ) 2 = (ŷ i ȳ) 2 + (y i ŷ i ) 2 Variansanalyseskema side 363 og 364. F -test: F obs = (ŷ i ȳ) 2 /1 (y i ŷ i ) 2 /(n 2), p = P(F F obs), F F (1,n 2) R 2 -værdien er andelen af den totale variation som kan forklares med den rette linie: R 2 = (ŷ i ȳ) 2 (y i ȳ) 2 R 2 er netop kvadratet på Peason korrelationskoefficienten mellem x og y. R 2 rapporteres ofte som et mål for modellens egnethed, men er stærkt overvurderet: Hvad er det egentlig R 2 måler? Hvad hvis der er en stor naturlig variation? Hvad er risikoen ved at tilføje ekstra forklarende variable for at booste sin R 2? Sammenhæng mellem t-test og F -test: T 2 = F, samme p-værdi. StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 9 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 10 / 26 Prædiktionsintervaller Regression af y på x eller omvendt? Husk konfidensintervallet for µ Y X = β 0 + β 1 x: ˆβ 0 + ˆβ 1 (x x)2 1 x ± t n 1,0.975 s Y X + n (x i x) 2 Hvad udtaler konfidensintervallet sig om? Ønsker nu at angive et prædiktionsinterval, dvs. et interval hvor en ny observation vil havne med ssh. 95%. Hvad mangler vi at tage højde for? Hvordan? Skal det være smallere eller bredere end konfidensintervallet? Se figurer side 365 og 366. Hvad sker der hvis n vokser? Prædiktionsintervaller fås med optionen cli i SAS. For hvilke værdier af x er prædiktionen og PI troværdige? Model for sammenhæng mellem x og y samt tilhørende estimater: y i = β 0 + β 1 x i + ε i ( ˆβ 0, ˆβ 1 ) Alternativ model og tilhørende estimater: x i = α 0 + α 1 y i + e i (ˆα 0, ˆα 1 ) Hvis vi ser bort fra restleddet svarer dette til y i = α 0 α 1 + 1 α 1 x i. Der gælder ikke ˆβ 0 = ˆα 0 /ˆα 1 og ˆβ 1 = 1/ˆα 1. Hvorfor ikke? Men testene for H 0 : β 1 = 0 og α 1 = 0 faktisk identiske. Hvornår er det rimeligt at bruge hvilken model? Hvad hvis ingen af modellerne er mere rimelig end den anden? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 11 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 12 / 26
Multipel lineær regression Eksempel: blodtryk for voksne Simpel lineær regression: én kvantitativ forklarende variabel (prædiktor) Multipel lineær regression: flere kvantitative forklarende variable (prædiktorer) Model: y i = β 0 + β 1 x 1,i + β 1 x 2,i + + β p 1 x p 1,i + ε i hvor ε i erne er uafhængige og N(0,σ)-fordelte. Hvad er fortolkningen af β 1,β 2,...,β p 1? β 0? σ? FLH side 370: blodtryksmålinger for 50 voksne. Variable: Response: sbp Kvantitative forklarende: age, education, weight, height, bmi Kategoriske forklarende: race, sex, smoke FLH foreslår at bruge (delmængde af) variablene: age, height, weight. Sammenhænge mellem forklarende variable: scatter plots og parvise korrelationer. Se side 371. Begge dele beskriver kun parvise sammenhænge. Vi kan evt. forsøge at inddrage education og bmi, også (senere). StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 13 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 14 / 26 Eksempel: blodtryk for voksne Valg af model Hvor mange variable kan data bære? FLH-tommelfingerregel: n mindst 10 gange antal variable. For en given multipel regressionsmodel kan vi estimere β 0,β 1,...,β p 1 ved LS samt estimere σ. Lave modelkontrol vha. residualanalyse beregne SE( ˆβ j ) og dermed konfidensintervaller for β j. Bemærk: DF = n p; n minus antallet af parametre i middelværdibeskrivelsen. Men hvordan finder vi ud af hvilke variable vi skal inkludere i modellen? FLH beskriver to metoder til valg af model: Forward stepwise selection All possible regressions procedure Begge dele er ret automatiske /objektive procedurer. Måske for automatiske... Alternativ: backward stepwise selection. Overvej hvilke variable det giver mening at inddrage fra et fagligt synspunkt. Pas på med at inddrage for mange. Reducer modellen, dvs. test for effekt af variable indtil alle er signifikante. Hypotesen H 0 : β j = 0 testes med t-test. I hvilken rækkefølge skal vi teste for variablene? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 15 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 16 / 26
Eksempel: blodtryk for voksne Multikollinearitet Startmodel: sbp i = β 0 + β 1 age i + β 2 weight i + β 3 height i + ε i hvor ε i erne er uafhængige og N(0,σ)-fordelte. Modelkontrol giver ikke umiddelbart anledning til bekymringer. Modelreduktion: Ikke signifikant effekt af højde når vægt og alder er med i modellen (p = 0.057) Alder har signifikant effekt (p = 0.0013). ˆβ 1 = 0.177 (SE 0.044) Vægt har signifikant effekt (p = 0.0002). ˆβ 2 = 0.406 (SE 0.119) Når frem til samme model som i FLH ved forward stepwise selection. Multikollinearitet betyder at der er forklarende variable der er tæt på at være lineært afhængige. En forklarende variabel kan næsten skrives som linearkombination af nogle af de øvrige. Eksempler: Stærkt korrelerede variable. To variable udtrykker stort det samme, fx. højde/skostørrelse(?) eller bmi/fedtprocent. Ikke svært at finde... Flere variable indblandet, fx. alder, uddannelse målt i år, antal år på arbejdsmarkedet. Sværere at finde... Hvad er problemet? Ikke problemer med at fitte modellen, men... parameterestimater er ikke troværdige da forskellige effekter blandes sammen. fortolkningen af parametrene ikke rimelige: ændring i x j når alle andre variable holdes fast. Hvorfor ikke? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 17 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 18 / 26 Multikollinearitet Eksempel: blodtryk for voksne Symptomer på multikollinearitet: Fortegn på estimater får et andet fortegn end det man ville forvente Store p-værdier for variable som man ellers ville tro havde en effekt Store p-værdier for alle/næsten alle forklarende variable Store ændringer i parameterestimater hvis en/flere forklarende variable udelades Hvad sker hvis vi også inkluderer bmi og education i modellen? Pas ekstra meget på med ekstrapolation udover områder med observationer! StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 19 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 20 / 26
Eksempel: puromycin Eksempel: puromycin Eksperiment med enzymet puromycin. Hastigheden af en bestemt kemisk reaktion blev målt for seks forskellige koncentrationer af enzymet Andre forhold i forsøget var uændrede To gentagelser per koncentration. 12 sammenhørende værdier af puromycinkoncentration og hastighed. Koncentration Hastighed 0.02 76 47 0.06 97 107 0.11 123 139 0.22 159 152 0.56 191 201 1.10 207 200 Hastighed 50 100 150 200 Oprindelige værdier 0.0 0.2 0.4 0.6 0.8 1.0 Koncentration y=1/hastighed 0.005 0.010 0.015 0.020 Reciprokke værdier 0 10 20 30 40 50 x=1/koncentration StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 21 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 22 / 26 Michaelis Menten model Analyse af den reciprokke model Michaelis-Menton ligning: Her er C koncentration, V hastighed V = θ C ρ + C Parameteren θ angiver den maksimale hastighed (for en meget stor koncentration) Parameteren ρ er den koncentration hvor reaktionshastigheden er halvdelen af den maksimale, dvs. θ/2. Hvorfor passer denne model ikke ind i den lineære regressionsmodel? Hvad sker der hvis ser på den reciprokke af V, dvs. 1/V? Lineær regressionsmodel: eller Estimater for α og β? 1 = 1 V i θ + ρ θ 1 + ε i C i y i = α + β x i + ε i Afhænger reaktionshastigheden af koncentrationen? Estimater for θ og ρ? Estimat for forventet reaktionshastighed ved koncentration på 0.5? Ved hvilken koncentration er den forventede reaktionshastighed 175? Mon modelantagelserne er rimelige? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 23 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 24 / 26
Ikke-lineær regressionsmodel Resumé Alternativ model: med de sædvanlige antagelser på ε erne. V i = θ C i ρ + C i + ε i Modellen kan fittes med proc nlin. Estimater for θ og ρ? Estimat for forventet reaktionshastighed ved koncentration på 0.5? Ved hvilken koncentration er den forventede reaktionshastighed 175? Sammenlign med den anden model. Også SE er. Er modelantagelserne mon ok? Simpel/multipel: en eller flere forklarende variabel. Fortolkning af parametre er essentiel Konfidensintervaller vs. prædiktionsintervaller Fortolkningsproblemer ved multikollinearitet i multipel LR StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 25 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 26 / 26