Multipel regression. Birthe Lykke Thomsen H. Lundbeck A/S

Relaterede dokumenter
Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden)

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden)

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse. Lene Theil Skovgaard. 8. oktober 2018

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression i SAS. Lineær regression i SAS p.1/20

Kursus i basal statistik: Multipel regression. Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Kursus i basal statistik: Multipel regression

Opgavebesvarelse, brain weight

Modul 11: Simpel lineær regression

Basal statistik. 25. september 2007

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik - SPSS

Reeksamen i Statistik for Biokemikere 6. april 2009

Basal Statistik - SPSS

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse i R. Lene Theil Skovgaard. 11. marts 2019

Basal Statistik. Multipel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017

Besvarelse af juul2 -opgaven

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Opgavebesvarelse, brain weight

Løsning til øvelsesopgaver dag 4 spg 5-9

Regressionsanalyse i SAS

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Besvarelse af vitcap -opgaven

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Generelle lineære modeller

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Multipel regression 22. Maj, 2012

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Opgavebesvarelse, brain weight

Multipel Lineær Regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Statistik Lektion 17 Multipel Lineær Regression

Kapitel 11 Lineær regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Eksamen i Statistik for Biokemikere, Blok januar 2009

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

k normalfordelte observationsrækker (ensidet variansanalyse)

1 Hb SS Hb Sβ Hb SC = , (s = )

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Modul 6: Regression og kalibrering

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

To samhørende variable

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

En Introduktion til SAS. Kapitel 6.

Basal Statistik - SPSS

Basal Statistik - SPSS

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Module 3: Statistiske modeller

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse i R. Lene Theil Skovgaard. 25. februar 2019

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Basal statistik. 21. oktober 2008

Basal statistik. 23. september 2008

Reeksamen i Statistik for biokemikere. Blok

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

1 Regressionsproblemet 2

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Bilag 12 Regressionsanalysens tabeller og forklaringer

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Løsning eksamen d. 15. december 2008

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Reeksamen i Statistik for biokemikere. Blok

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Vejledende besvarelse af hjemmeopgave, forår 2019

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opgavebesvarelse, brain weight

Statistik Lektion 16 Multipel Lineær Regression

Transkript:

Multipel regression Birthe Lykke Thomsen H. Lundbeck A/S 1

Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) OBS VAEGT BPD AD 1 2350 88 92 2 2450 91 98 3 3300 94 110............ 105 3550 92 116 106 1173 72 73 107 2900 92 104 Problemstillingen kan eksempelvis være: Prediktion, konstruktion af normalområde til diagnostisk brug (som her) Ønske om at justere for forstyrrende variable (confoundere) Flere forklarende variable af interesse: Hvilke er vigtige? Fanger de det samme aspekt? Har de selvstændig betydning? 2

Repetition af simpel lineær regression Først ser vi på en enkelt kovariat, BPD 3

Modelkontrol i simpel lineær regression Statistisk model: Y i = a + bx i + e i, e i N(0, σ 2 ) uafh. Hvad skal vi checke her? 1. linearitet tegne 2. varianshomogenitet tegne 3. normalfordelte afvigelser (afstande til linien) tegne OBS: Intet krav om normalfordeling på X i 'erne eller Y i 'erne!! 4. uafhængighed mellem afvigelserne tænke! Er der ere observationer på samme individ? Indgår der personer fra samme familie? Tvillinger? 4

Modelkontrol består af grak, typisk med residualer=forskellen på den observerede værdi og den forventede (prædikterede, ttede) værdi evt. formelle tests Residualplots: Residualerne plottes mod 1. den (eller de) forklarende variable x i for at checke linearitet 2. de ttede værdier ŷ i for at checke varianshomogenitet 3. 'normal scores' dvs. fraktildiagram (probability plot) for at checke normalfordelingsantagelsen De to første skal give indtryk af uorden dvs. der må ikke være nogen systematik som f.eks. U-form (for den første) eller trompet-facon (for den anden) Fraktildiagrammet skal ligne en ret linie 5

Modelkontroltegninger: 6

En stor del af plottene kan konstrueres direkte ved i regressionsopsætningen at klikke Plots/Residual hvor der f.eks. vælges Ordinary Residual mod Predicted 7

Der er 4 typer residualer at vælge imellem: 1. ordinary: afstand fra observation lodret ned til 'linie' = observeret - ttet værdi: ê i = y i ŷ i 2. standardized (student): ordinary, normeret med spredning 3. press: observeret minus predikteret, men i en model, hvor den aktuelle observation har været udeladt i estimationsprocessen 4. rstudent (studentized, rstudent): normerede Press-residualer Fordele og ulemper: Rart med residualer, der bevarer enhederne (type 1 og 3); men nemmere at vurdere graden af outlier med standardiserede (type 2 og 4) Lettest at nde outliers, når observationerne udelades en ad gangen (type 3 og 4) 8

De viste typer af plots kan produceres (i en ikke særligt pæn version) ved hjælp af programkoden PROC REG DATA=secher; MODEL vaegt = bpd; VAR ad; * AD bruges i et af plottene; PLOT RESIDUAL.*(bpd PRED.) PRESS.*ad RUN; STUDENT.*NQQ.; Pæne plots kræver, at residualerne gemmes på et datasæt ved hjælp af PROC REG DATA=secher; MODEL vaegt = bpd; OUTPUT OUT=med_resid P=predict RUN; R=resid STUDENT=stdized PRESS=without_curr RSTUDENT=stdized_without_curr; og tegnes med diverse specikke tegneprocedurer (f.eks. GPLOT, BOXPLOT, PROBPLOT under UNIVARIATE,... ) 9

Hvorfor standardisere? Problemer med de sædvanlige residualer Vi har antaget, at e i N(0, σ 2 ) uafh. så vi ville forvente, at det samme galdt for residualerne ê i = y i ŷ i. Det gør det ikke! De er ikke uafhængige (de summerer til 0) betyder ikke meget, når der er tilstrækkelig mange De har ikke helt samme varians hvor Var(ê i ) = σ 2 (1 h ii ) h ii = 1 n + (x i x) 2 S xx betegnes leverage for den i'te observation Standardiserede residualer (standardized) (normerede residualer, student residualer): ê r i = i, Var(r i) 1 s 1 h ii 10

Modelkontroltegninger linearitet? 11

Linearitet Hvis lineariteten ikke holder, bliver modellen misvisende og ufortolkelig Afhjælpning: tilføj ere kovariater, f.eks. ad kvadratleddet BPD 2 vaegt=a+b 1 bpd+b 2 bpd 2 Test af linearitet: b 2 =0 transformer variablene med logaritmer kvadratrod invers Lad være med at gøre noget ikke-lineær regression 12

Modelkontroltegningerne fra den simple lineære regression varianshomogenitet? 13

Varianshomogenitet (konstant varians / konstant spredning) Var(e i )=σ 2, i=1,,n Hvis der ikke er rimelig varianshomogenitet, bliver estimationen inecient (unødigt stor usikkerhed på parameterestimaterne) Hvilke alternativer kan der typisk være? konstant relativ spredning = konstant variationskoecient Variationskoecient = middelværdi spredning ofte konstant, når man ser på størrelser, der (evt. skjult) involverer division (f.eks. koncentrationer, BMI, andel positive celler, visse laboratorie assays, observationer beregnet ud fra lys- eller farveintensiteter... ) vil give anledning til trompetfacon på plottet af residualerne mod de prædikterede værdier afhjælpes ved at transformere outcome (Y i ) med logaritme Forskellige grupper, f.eks. ere instrumenter eller laboratorier, mænd/kvinder, forskellige patienttyper 14

Modelkontroltegninger normalitet? 15

Normalfordelingsantagelsen Husk: Det er kun modelafvigelserne, der antages at være normalfordelte, hverken outcome eller kovariater! Normalfordelingsantagelsen er ikke kritisk for selve ttet: Mindste kvadraters metode giver under alle omstændigheder 'de bedste' estimater er formelt en forudsætning for t-fordelingen af teststørrelsen, men reelt behøves kun en normalfordelingsantagelse for estimatet ˆb, og dette passer ofte, når der er rimeligt mange observationer, på grund af: Den centrale grænseværdisætning, der siger, at summer og andre funktioner af mange observationer bliver 'mere og mere' normalfordelte. Tunge haler i den høje ende kan ofte afhjælpes ved at logaritmetransformere outcome. 16

Transformation logaritmer, kvadratrod, invers Hvorfor tage logaritmer? af de forklarende variable for at opnå linearitet, hvis det er %-vise forskelle, der har konstant eekt. Brug gerne 2-tals logaritmer (eekt af fordobling) eller XX=log(X)/log(1.1); (eekt af 10% stigning i X) for at se på multiplikative sammensætninger af to variable (f.eks. vægt og højde, jf. BMI) af respons / outcome for at opnå linearitet for at opnå varianshomogenitet Var(ln(y)) Var(y) y 2 dvs. en konstant variationskoecient på Y betyder konstant varians på log(y ) (gælder for alle logaritmetransformationer) for at opnå normalitet 17

Utransformeret 18

Efter log2-transformation af vaegt: 19

Efter log2-transformation af både vaegt og bpd: logaritme-transformationer ikke nok, AD skal med! 20

Multipel regression DATA: n personer, dvs. n sæt af sammenhørende observationer: person x 1...x p y 1 x 11...x 1p y 1 2 x 21...x 2p y 2 3 x 31...x 3p y 3........ n x n1...x np y n Den lineære regressionsmodel med p forklarende variable skrives: y = b 0 + b 1 x 1 + + b p x p + e i respons middelværdi biologisk regressionsfunktionen variation Parametre: b 0 b 1,, b p afskæring, intercept regressionskoecienter 21

Graphs/Scatter Plot/Three-Dimensional, under Display vælges Needles/Pillar PROC G3D; SCATTER bpd*ad=vaegt / SHAPE='PILLAR' SIZE=0.5; RUN; 22

Regressionsmodel: y i = b 0 +b 1 x i1 + +b p x ip +e ij, i = 1,, n Traditionelle antagelser: e i N(0, σ 2 ), uafhængige Mindste kvadraters metode: S(b 0, b 1,, b p ) = (y i b 0 b 1 x i1 b p x ip ) 2 23

Eksempel: Sechers data med fødselsvægt som funktion af såvel bpd som ad Analyse i Analyst: Statistics/Regression/Linear, vælg vaegt som Dependent, bpd og ad som Explanatory eller som programmering PROC REG DATA=secher; MODEL vaegt=bpd ad; PLOT RESIDUAL.*(bpd PRED. ad) RUN; STUDENT.*NQQ.; 24

The REG Procedure Dependent Variable: vaegt Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 2 40736854 20368427 216.72 <.0001 Error 104 9774647 93987 Corrected Total 106 50511501 Root MSE 306.57298 R-Square 0.8065 Dependent Mean 2739.09346 Adj R-Sq 0.8028 Coeff Var 11.19250 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1-4628.11813 455.98980-10.15 <.0001 bpd 1 37.13292 7.61510 4.88 <.0001 ad 1 39.76305 4.16394 9.55 <.0001 Stærk signikant eekt af begge kovariater, men holder modelforudsætningerne? 25

Modelkontrol af utransformeret model: 26

Vurdering af modellen: Normalfordelingen halter lidt, med nogle enkelte ret store positive afvigelser, hvilket kunne tale for at logaritmetransformere vægten. Måske lidt trompetfacon i plot af residualer mod predikterede værdier, hvilket også taler for logaritmetransformation (men husk på, at observationerne ikke er ligeligt fordelt over x-aksen). Linearitet er ikke helt god, men det skyldes hovedsageligt de få børn med de særligt lave ultralydsmål Teoretiske argumenter fra den faglige ekspertise foreslår en multiplikativ sammenhæng, dvs. en samtidig logaritmetransformation af kovariaterne 27

Logaritmetransformerede data: DATA secher; SET secher; lvaegt=log2(vaegt) lbpd=log2(bpd) lad=log2(ad) RUN; Analyse i Analyst: Statistics/Regression/Linear, vælg lvaegt som Dependent, lbpd og lad som Explanatory eller som programmering PROC REG DATA=secher; MODEL lvaegt=lbpd lad; VAR bpd ad; * bruges i plots; PLOT RESIDUAL.*(bpd PRED. ad) RUN; STUDENT.*NQQ.; 28

Dependent Variable: LVAEGT Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model 2 14.95054 7.47527 314.925 0.0001 Error 104 2.46861 0.02374 C Total 106 17.41915 Root MSE 0.15407 R-square 0.8583 Dep Mean 11.36775 Adj R-sq 0.8556 C.V. 1.35530 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP 1-8.456359 0.95456918-8.859 0.0001 LBPD 1 1.551943 0.22944935 6.764 0.0001 LAD 1 1.466662 0.14669097 9.998 0.0001 29

Modelkontrol af log2-transformeret model: 30

Utransformeret model (til sammenligning): 31

Marginale (univariate) modeller: Responsen vurderes overfor hver enkelt forklarende variabel for sig. Multipel regressionsmodel: Responsen vurderes overfor begge forklarende variable samtidigt. Estimaterne for disse modeller (med tilhørende standard errors i parentes) bliver: b 0 (int.) b 1 (lbpd) b 2 (lad) s R 2-10.223 3.332(0.202) - 0.215 0.72-3.527-2.237(0.111) 0.184 0.80-8.456 1.552(0.229) 1.467(0.147) 0.154 0.86 Bemærk koecienterne (b 1 og b 2 ) ændres og standard errors bliver større 32

Fortolkning af koecient b 1 til lbpd: Marginal model: Ændringen i lvaegt, når kovariaten lbpd ændres 1 enhed (dvs. når bpd fordobles) Multipel regressionsmodel Ændringen i lvaegt, når kovariaten lbpd ændres 1 enhed, men hvor alle andre kovariater (her kun ad) holdes fast Vi siger, at vi har korrigeret for eekten af de andre kovariater i modellen. Forskellen kan være markant, fordi kovariaterne typisk er relaterede: Når en af dem ændres, ændres de andre også Vigtigt: Den biologiske fortolkning af parameterestimaterne ændres: Det videnskabelige spørgsmål, der besvares, er et andet! 33

Prædiktion ud fra modellen log 2 (vaegt) = 8.46 + 1.55 log 2 (bpd) +1.47 log 2 (ad) vaegt = 2 8.46 bpd 1.55 ad 1.47 = 0.00284 bpd 1.55 ad 1.47 Hvis ad holdes fast, svarer en forskel på 10% i bpd (dvs. bpd 2 =bpd 1 1.1) til at gange vægten med 1.1 1.55 = 1.16 altså en 16% større vægt. 34

Regneeksempel (barn nr. 1) For bpd=88 og ad=92, vil man forvente log 2 (vaegt) = 8.46 + 1.55 log 2 (88) + 1.47 log 2 (92) = 8.46 + 1.55 6.46 + 1.47 6.52 = 11.14 Forventet fødselsvægt: 2 11.14 g = 2257 g Prædiktionsgrænserne beregnes for den analyserede variabel, dvs. for log 2 (vægt), og tilbagetransformeres! 11.14 ± 1.96 Root MSE = 11.14 ± 1.96 0.154 = (10.84, 11.44) (2 10.84 g, 2 11.44 g) = (1833 g, 2778 g) Vi har snydt en smule: Vi har negligeret selve estimationsusikkerheden på b'erne. Faktisk observeret fødselsvægt: 2350 g 35

Prediktionsusikkerhed NB: log-skalaen medfører konstant relativ usikkerhed 2 ±1.96 0.154 = (0.81, 1.23) Dette betyder, at med 95% sandsynlighed vil fødselsvægten ligge et sted mellem 19% under og 23% over den predikterede værdi. Vi har stadig snydt en smule og negligeret selve estimationsusikkerheden på b'erne. 36

Test af hypoteser Er AD uden betydning, når BPD allerede er med i modellen? H 0 : b 2 =0 Her har vi ˆb 2 =1.467 med se(ˆb 2 )=0.147, og dermed t-testet t = ˆb 2 se( ˆb 2 ) = 9.998 t(104), P < 0.0001 95% kondensinterval: ˆb 2 ± t (97.5%,n p 1) se( ˆb 2 ) = 1.467 ± 1.984 0.147 = (1.175,1.759) Men: ˆbj 'erne er korrelerede med mindre de forklarende variable er uafhængige så man kan ikke lave et kombineret test eller kondensområde for begge variable ud fra kondensgrænserne for hver af variablene 37

Goodness-of-t mål R 2 = Sum Sq(Model) Sum Sq(Total) Hvor stor en del af variationen kan forklares af modellen? (her 0.8583, dvs. 85.83%) Fortolkningsproblemer når værdierne for kovariaterne er fastlagt direkte eller indirekte ud fra forsøgsdesignet (ganske som for korrelationskoecienten) R 2 stiger med antallet af kovariater selv hvis disse er uden betydning! Adjusted R 2 : R 2 adj (her 0.8556) = 1 Mean Sq(Residual) Mean Sq(Total) 38

Modelkontrol Plots: residualer mod hver kovariat for sig (linearitet) residualer mod ttede (predikterede) værdier (varianshomogenitet) fraktildiagram, 'probability plot' (normalfordelingen) Tests: Udvid modellen med krumning: Kvadratled, 3. gradsled,... vekselvirkning: Produktled? Indydelsesrige observationer modicerede residualer Cooks afstand 39

Regression diagnostics Understøttes konklusionerne af hele materialet? Eller er der observationer med meget stor indydelse på resultaterne? Leverage = potentiel indydelse (hat-matrix, i sas kaldet Hat Diag eller H) Hvis der kun er en kovariat er det simpelt: h ii = 1 n + (x i x) 2 S xx Observationer med ekstreme x-værdier kan have stor indydelse på resultaterne, 40

y 0 2 4 6 8 10 0 1 2 3 4 5 6 x men de har det ikke nødvendigvis! hvis de ligger 'pænt' i forhold til regressionslinien, dvs. har et lille residual 41

Indydelsesrige observationer har en kombination af høj leverage stort residual 42

Regression diagnostics Udelad den i'te person og nd nye estimater, (i) (i) ˆb 0, ˆb 1 og ˆb (i) 2 Udregn Cook's afstand, et samlet mål for ændringen i parameterestimaterne Spalt Cooks afstand ud i koordinater og angiv: Hvor mange se'er ændres f.eks. ˆb 1, når den i'te person udelades? Hvad gør vi ved indydelsesrige observationer? udelader dem? anfører et mål for deres indydelse? 43

Diagnostics: Cooks afstand som mål for indydelse 44

Outliers Observationer, der ikke passer ind i sammenhængen de er ikke nødvendigvis indydelsesrige de har ikke nødvendigvis et stort residual Hvad gør vi ved outliers? ser nærmere på dem, de er tit ganske interessante Hvornår kan vi udelade dem? hvis de ligger meget yderligt, dvs. har høj leverage husk at afgrænse konklusionerne tilsvarende! hvis man kan nde årsagen og da skal alle sådanne observationer udelades! 45

Modelkontrol og Diagnostics i ANALYST Mange tegninger kan fås direkte fra regressionen under Plots/Residual eller Plots/Diagnostics. Vil man lave yderligere (f.eks. en tegning af Cook's distance), er man nødt til at danne et nyt datasæt i Analyst: 1. I regressionsopsætningen klikkes Save Data 2. afkryds Create and save diagnostics data 3. overyt (klik Add) de størrelser, der skal gemmes (typisk Predicted, Residual, Student, Rstudent, Cookd, Press) 4. Kør analysen 5. Dobbeltklik på Diagnostics Table i projekttræet 6. Gem det ved at klikke File/Save as By SAS Name 46

Modelkontrol og Diagnostics ved programmering Ved programmering kan Cook's distance tegnes umiddelbart ved hjælp af PLOT eller gemmes på datasæt ved hjælp af OUTPUT PROC REG DATA=secher; RUN; MODEL lvaegt=lbpd lad; VAR bpd; PLOT COOKD*bpd; OUTPUT OUT=med_resid P=predict R=resid STUDENT=stdized PRESS=without_curr RSTUDENT=stdized_without_curr COOKD=Cooks_D; 47

Mange forklarende variable Eksempel: O'Neill et. al. (1983): Lungefunktion hos 25 patienter med cystisk brose. 48

Hvilke forklarende variable har en univariat/marginal eekt på responset P E max? Er det så disse variable, der skal med i modellen? 49

Korrelationer: Correlation Analysis Pearson Correlation Coefficients / Prob> R under Ho:Rho=0 / N=25 AGE SEX HEIGHT WEIGHT BMP AGE 1.00000-0.16712 0.92605 0.90587 0.37776 0.0 0.4246 0.0001 0.0001 0.0626 SEX -0.16712 1.00000-0.16755-0.19044-0.13756 0.4246 0.0 0.4234 0.3619 0.5120 HEIGHT 0.92605-0.16755 1.00000 0.92070 0.44076 0.0001 0.4234 0.0 0.0001 0.0274 WEIGHT 0.90587-0.19044 0.92070 1.00000 0.67255 0.0001 0.3619 0.0001 0.0 0.0002 BMP 0.37776-0.13756 0.44076 0.67255 1.00000 0.0626 0.5120 0.0274 0.0002 0.0 FEV1 0.29449-0.52826 0.31666 0.44884 0.54552 0.1530 0.0066 0.1230 0.0244 0.0048 RV -0.55194 0.27135-0.56952-0.62151-0.58237 0.0042 0.1895 0.0030 0.0009 0.0023 FRC -0.63936 0.18361-0.62428-0.61726-0.43439 0.0006 0.3797 0.0009 0.0010 0.0300 TLC -0.46937 0.02423-0.45708-0.41847-0.36490 0.0179 0.9085 0.0216 0.0374 0.0729 PEMAX 0.61347-0.28857 0.59922 0.63522 0.22951 0.0011 0.1618 0.0015 0.0006 0.2698 50

Correlation Analysis Pearson Correlation Coefficients / Prob> R under Ho:Rho=0 / N=25 FEV1 RV FRC TLC PEMAX AGE 0.29449-0.55194-0.63936-0.46937 0.61347 0.1530 0.0042 0.0006 0.0179 0.0011 SEX -0.52826 0.27135 0.18361 0.02423-0.28857 0.0066 0.1895 0.3797 0.9085 0.1618 HEIGHT 0.31666-0.56952-0.62428-0.45708 0.59922 0.1230 0.0030 0.0009 0.0216 0.0015 WEIGHT 0.44884-0.62151-0.61726-0.41847 0.63522 0.0244 0.0009 0.0010 0.0374 0.0006 BMP 0.54552-0.58237-0.43439-0.36490 0.22951 0.0048 0.0023 0.0300 0.0729 0.2698 FEV1 1.00000-0.66586-0.66511-0.44299 0.45338 0.0 0.0003 0.0003 0.0266 0.0228 RV -0.66586 1.00000 0.91060 0.58914-0.31555 0.0003 0.0 0.0001 0.0019 0.1244 FRC -0.66511 0.91060 1.00000 0.70440-0.41721 0.0003 0.0001 0.0 0.0001 0.0380 TLC -0.44299 0.58914 0.70440 1.00000-0.18162 0.0266 0.0019 0.0001 0.0 0.3849 PEMAX 0.45338-0.31555-0.41721-0.18162 1.00000 0.0228 0.1244 0.0380 0.3849 0.0 Bemærk især korrelationerne mellem alder, højde og vægt. 51

Modelselektion Automatisk (computergenereret): ANALYST: Vælges under Model i Regression/Linear) programmering: PROC REG DATA=pemax; RUN; eller MODEL pemax=age sex height weight PROC REG DATA=pemax; RUN; bmp fev1 rv frc tlc / SELECTION=STEPWISE; MODEL pemax=age sex height weight bmp fev1 rv frc tlc / SELECTION=BACKWARD; Videnskabeligt: Gennemtænk præcis hvilket videnskabeligt spørgsmål, man ønsker besvaret det præcise spørgsmål bestemmer, hvilke variable, der skal inkluderes i modellen. Svært men den eneste måde at opnå egentlig videnskabelig indsigt! 52

Automatisk modelselektion Forlæns selektion Medtag hver gang den mest signikante Slutmodel: WEIGHT BMP FEV1 Baglæns elimination Start med alle, udelad hver gang den mindst signikante Slutmodel: WEIGHT BMP FEV1 Det ser jo meget stabilt ud!? Men: Hvis nu WEIGHT havde været logaritmetransformeret fra starten? Så havde vi fået slutmodellen Tommelngerregel: AGE FEV1 Antallet af observationer skal være mindst 10 gange så stort som antallet af undersøgte parametre i modellen! 53

Når alle 9 kovariater medtages: Dependent: pemax Explanatory: age sex height weight bmp fev1 rv frc tlc Dependent Variable: PEMAX Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model 9 17101.39040 1900.15449 2.929 0.0320 Error 15 9731.24960 648.74997 C Total 24 26832.64000 Root MSE 25.47057 R-square 0.6373 Dep Mean 109.12000 Adj R-sq 0.4197 C.V. 23.34180 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP 1 176.058206 225.89115895 0.779 0.4479 AGE 1-2.541960 4.80169881-0.529 0.6043 SEX 1-3.736781 15.45982182-0.242 0.8123 HEIGHT 1-0.446255 0.90335490-0.494 0.6285 WEIGHT 1 2.992816 2.00795743 1.490 0.1568 BMP 1-1.744944 1.15523751-1.510 0.1517 FEV1 1 1.080697 1.08094746 1.000 0.3333 RV 1 0.196972 0.19621362 1.004 0.3314 FRC 1-0.308431 0.49238994-0.626 0.5405 TLC 1 0.188602 0.49973514 0.377 0.7112 54

Baglæns elimination Tabel over successive p-værdier [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] age 0.604 0.632 0.519 0.616 - - - - - sex 0.812 - - - - - - - - height 0.628 0.649 0.550 0.600 0.557 - - - - weight 0.157 0.143 0.072 0.072 0.040 0.000 0.000 0.000 0.001 bmp 0.152 0.140 0.060 0.056 0.035 0.024 0.019 0.098 - fev1 0.333 0.108 0.103 0.036 0.024 0.014 0.043 - - rv 0.331 0.323 0.347 0.326 0.228 0.146 - - - frc 0.540 0.555 0.638 - - - - - - tlc 0.711 0.669 - - - - - - - (Altman stopper ved skridt nr. 7) 55

56

Advarsel ved modelselektion Massesignikans! Undgå at inkludere mange variable, der udtrykker mere eller mindre det samme Automatisk variabelselektion: Signikanserne overvurderes! Hvad kan vi sige om 'vinderne'? Var de hele tiden signikante, eller blev de det lige pludselig? I sidstnævnte tilfælde kunne de jo være blevet smidt ud, mens de var insignikante... Traditionel anbefaling (datagenereret/automatisk modelreduktion): Baglæns elimination Gennemregning af alle modeller Cross-validation: Foretag modelttet på en del af data, afprøv bagefter på resten Min anbefaling: Tænk selv (undgå uklare problemstillinger), test noget meningsfuldt (og lad være med at smide de andre variable ud, bare fordi deres p-værdi (tilfældigvis?) er stor) så er det også nemmere at få det publiceret 57

Hvad sker der ved udeladelse af en forklarende variabel? Fittet bliver dårligere, dvs. residualkvadratsummen bliver større. Antallet af frihedsgrader (for residualkvadratsummen) stiger. Estimatet s 2 for residualvariansen σ 2 kan både stige og falde s 2 = () 2 n p 1 %-delen af variation, som forklares af modellen, R 2, falder. Dette kompenseres der for i den justerede determinationskoecient R 2 adj Som kriterium for, om modellen er god, kan vi altså bruge s 2 eller R 2 adj 58

Marginale (univariate) modeller: Model 1: pemax overfor height Model 2: pemax overfor weight Multipel regressionsmodel: Model 3: pemax overfor height og weight b 0 b 1 (height) b 2 (weight) s R 2 R2-33.276 0.932(0.260) - 27.34 0.3591 0.33 63.546-1.187(0.301) 26.38 0.4035 0.38 47.355 0.147(0.655) 1.024(0.787) 26.94 0.4049 0.35 Hver af de to forklarende variable har betydning, vurderet ud fra de marginale modeller. I den multiple regressionsmodel ser ingen af dem ud til at have nogen betydning. De to variable fanger et betydningsfuldt aspekt, men det er svært at sige hvilken, der er bedst vægten ser ud til at være den med stærkest sammenhæng i disse data, men pas på! Det betyder ikke at vægten er den sande årsag måske opsummerer vægten bare aspekter fra ere af de egentlige årsager. 59

ANALYST: Options i Statistics/Regression/: Model: Forward Backward Statistics clb: kondensgrænser for estimater corrb: korrelation mellem estimater stb: standardiserede koecienter: eekt af ændring på 1 SD for kovariat Statistics/Tests collin: kollinearitets diagnostics tol: tolerance factor= 1-R 2 for regression af en kovariat på de øvrige vif: variance ination factor = 1/tol, variansøgning p.g.a. kollinearitet Ved programmering er de options til MODEL, dvs. de skal stå efter / og inden ; i MODEL specikationen i kaldet af PROC REG; 60

Når vi tilføjer clb, stb, vif og tol, får vi: Parameter Estimates Standardized Variance Variable DF Estimate Tolerance Inflation Intercept 1 0. 0 age 1-0.38460 0.04581 21.82984 sex 1-0.05662 0.44064 2.26941 height 1-0.28694 0.07166 13.95493 weight 1 1.60200 0.02093 47.78130 bmp 1-0.62651 0.14053 7.11575 fev1 1 0.36190 0.18452 5.41951 rv 1 0.50671 0.09489 10.53805 frc 1-0.40327 0.05833 17.14307 tlc 1 0.09571 0.37594 2.65999 Parameter Estimates Variable DF 95% Confidence Limits Intercept 1-305.41740 657.53381 age 1-12.77654 7.69262 sex 1-36.68861 29.21505 height 1-2.37171 1.47920 weight 1-1.28704 7.27268 bmp 1-4.20727 0.71739 fev1 1-1.22329 3.38468 rv 1-0.22125 0.61519 frc 1-1.35794 0.74107 tlc 1-0.87656 1.25376 61

Størrelser udregnet for hver observation kan med fordel gemmes i et nyt datasæt, så man kan se på deskriptive størrelser The MEANS Procedure Variable Label Mean --------------------------------------------------------------- resid Residual 2.50111E-14 stresid Studentized Residual 0.0193870 press Residual without Current Observation 1.2483399 residud Studentized Residual without Current Obs 0.0073219 leverage Leverage 0.4000000 cook Cook's D Influence Statistic 0.0643761 inflpred Standard Influence on Predicted Value 0.0477590 --------------------------------------------------------------- Variable Label Minimum --------------------------------------------------------------- resid Residual -37.3376860 stresid Studentized Residual -1.7680347 press Residual without Current Observation -60.7098868 residud Studentized Residual without Current Obs -1.9197970 leverage Leverage 0.1925968 cook Cook's D Influence Statistic 0.000558647 inflpred Standard Influence on Predicted Value -1.7428452 --------------------------------------------------------------- Variable Label Maximum --------------------------------------------------------------- resid Residual 33.4051731 stresid Studentized Residual 1.7053874 press Residual without Current Observation 56.4819549 residud Studentized Residual without Current Obs 1.8350344 leverage Leverage 0.5806599 cook Cook's D Influence Statistic 0.2582067 inflpred Standard Influence on Predicted Value 1.5251936 --------------------------------------------------------------- 62

Udvalgte diagnostics tegninger 63

Kollinearitet: Kovariaterne er lineært relaterede Det vil de altid være til en vis grad, undtagen i designede forsøg (f.eks. landbrugsforsøg) Symptomer på kollinearitet: Visse af kovariaterne er stærkt korrelerede Nogle parameterestimater har meget store standard errors Alle kovariater i den multiple regressionsanalyse er insignikante, men R 2 er alligevel stor Der sker store forskydninger i estimaterne, når en kovariat udelades af modellen Der sker store forskydninger i estimaterne, når en observation udelades af modellen Resultaterne er anderledes end forventet Check vif: Den må ikke være for stor! 64

Kollinearitet Hvad er problemet ved kollinearitet? 1. Fortolkningen af resultaterne: Hvad er årsagen til den observerede sammenhæng 2. Nogle gange: Tekniske problemer med estimationen Hvad gør man så, når der er kollinearitet? 1. Find ud af, om det er grupper af variable, der hænger sammen Drejer det sig om ét fælles aspekt, så man kan nøjes med den ene og begrunde, hvorfor man vælger netop den? 2. Gennemtænk grundigt, hvad den enkelte variabel står for afhængigt af hvilke af de andre mulige variable, der fastholdes 3. Lav analyser med og uden justering for forskellige grupper af de andre variable, og prøv at forstå forskellene i resultaterne 4. Fortolk med stor forsigtighed 65

Kollinearitet Vigtigt: I modstrid med anbefalingen fra visse (udygtige) epidemiologer, så må man ikke nøjes med at præsentere univariate analyser for alle variablene! Problemet med fortolkningen forsvinder ikke af, at man tillægger hver enkelt variabel al forklaringsevnen. Andre fejlagtige påstande: Påstand: Signikansen for den enkelte variabel bliver svagere, når de andre tages med. Sandhed: Oftest, men ikke altid. Nogle gange bliver signikanserne væsentligt stærkere. Påstand (ernæringsepidemiologer): Problemet løses ved residual-metoden, hvor eksempelvis hver enkelt næringsstof erstattes af residualerne fra en regression af næringsstoet på totalt energiindtag. Sandhed: Det betyder bare, at man på forhånd tillægger totalt energiindtag mest muligt forklaringsevne, så betydningen af totalt energiindtag overvurderes. Resultaterne for de enkelte næringsstoer er essentielt de samme. Hvis totalt energiindtag er det væsentlige, så vil det vise sig ved, at alle energikilder giver ca. samme parameterestimat, når de inkluderes på en gang målt i energienheder (f.eks. kj)! 66