Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden)

Transkript

1 Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) OBS VAEGT BPD AD Problemstillingen kan være: Prediktion, konstruktion af normalområde til diagnostisk brug (som her) Udredning af sammenhænge til brug for interventioner Videnskabelig indsigt 1

2 Først ser vi på en enkelt kovariat, BPD Den statistiske model for simpel lineær regression var Y i = a + bx i + e i, e i N(0, σ 2 ) uafh. Her er der tydelig afvigelse fra linearitet! Hvordan ser det ud i en modelkontrol? 2

3 Modelkontrol Statistisk model: Y i = a + bx i + e i, e i N(0, σ 2 ) uafh. Hvad skal vi checke her? linearitet varianshomogenitet normalfordelte afvigelser (afstande til linien) uafhængighed mellem afvigelserne (checkes ved at overveje Er der ere observationer på samme individ? Indgår der personer fra samme familie? Tvillinger?) OBS: Intet krav om normalfordeling på X i 'erne!! 3

4 Modelkontrol består af grak, typisk med residualer evt. formelle tests Residual: Størrelse, der udtrykker diskrepans mellem observeret og forventet (predikteret, ttet) værdi. Der er 4 typer residualer at vælge imellem: 1. ordinary: afstand fra observation lodret ned til 'linie' = observeret - ttet værdi: ê i = y i ŷ i 2. standardized (student): ordinary, normeret med spredning 3. press: observeret minus predikteret, men i en model, hvor den aktuelle observation har været udeladt i estimationsprocessen 4. rstudent (studentized, rstudent): normerede Press-residualer 4

5 Problemer med de sædvanlige residualer Vi havde antaget, at e i N(0, σ 2 ) uafh. så vi ville forvente, at det samme galdt for residualerne ê i = y i ŷ i. Det gør det ikke! De er ikke uafhængige (de summerer til 0) betyder ikke meget, når der er tilstrækkelig mange De har ikke helt samme varians hvor Var(ê i ) = σ 2 (1 h ii ) h ii = 1 n + (x i x) 2 S xx betegnes leverage for den i'te observation 5

6 Standardiserede residualer (standardized) (normerede residualer, student residualer): r i = ˆε i s 1 h ii, Var(r i) 1 Residualer af diagnostics typen: Her udelader man en observation ad gangen og ser på afvigelsen fra den ttede værdi, hvor observationen ikke har været med til ttet, enten i rå form (press) eller i normeret form (rstudent). Fordele og ulemper: Rart med residualer, der bevarer enhederne (type 1 og 3) Lettest at nde outliers, når observationerne udelades en ad gangen (type 3 og 4) Bedst at normere, når observationen selv er med og man ikke kan tegne, dvs. for multipel regression bør type 2 foretrækkes for type 1 6

7 Residualplots Residualerne (passende valgt type) plottes mod den (eller de) forklarende variable x i for at checke linearitet de ttede værdier ŷ i for at checke varianshomogenitet og normalfordelte fejl 'normal scores' dvs. fraktildiagram (probability plot) eller histogram for at checke normalfordelingsantagelsen De to første typer skal give indtryk af uorden dvs. der må ikke være nogen systematik Fraktildiagrammet skal ligne en ret linie 7

8 En stor del af plottene kan konstrueres direkte ved i regressionsopsætningen at klikke Plots/Residual hvor der f.eks. vælges Ordinary Residual mod Predicted 8

9 Flere modelkontroltegninger: 9

10 Linearitet Hvis lineariteten ikke holder, bliver modellen misvisende og ufortolkelig Afhjælpning: tilføj ere kovariater, f.eks. kvadratleddet BPD 2 vaegt=a+b 1 bpd+b 2 bpd 2 Test af linearitet: b 2 =0 ad (multipel regression) transformer variablene med logaritmer kvadratrod invers Lad være med at gøre noget ikke-lineær regression 10

11 Tydelig afvigelse fra linearitet ses ved test af kvadratled ved hjælp af nye variable: cbpd=(bpd-90) og cbpd2=cbpd**2 Statistics/Regression/Linear, vælg vaegt som Dependent, cbpd og cbpd2 som Explanatory (eller vælg Statistics/Regression/Simple og brug Quadratic) Dependent Variable: VAEGT Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP CBPD CBPD

12 Kvadratisk regression: vægt = * (bpd-90) * (bpd-90) 2 Prediktionsgrænser (vælges under Plots i Statistics/regression/simple): 12

13 Varianshomogenitet (konstant varians / konstant spredning) Var(ε i )=σ 2, i=1,,n Hvis der ikke er rimelig varianshomogenitet, bliver estimationen inecient, (vi får unødigt stor varians) Hvilke alternativer kan der være? konstant relativ spredning = konstant variationskoecient Variationskoecient = middelværdi spredning ofte konstant, når man ser på størrelser, der (evt. skjult) involverer division (f.eks. koncentrationer, BMI, andel positive celler, visse laboratorie assays, observationer beregnet ud fra lys- eller farveintensiteter... ) vil give anledning til trompetfacon på residualplottet afhjælpes ved at transformere outcome (Y i ) med logaritme Sammensat eksperiment, f.eks. ere instrumenter eller laboratorier 13

14 Normalfordelingsantagelsen Husk: Det er kun modelafvigelserne, der antages at være normalfordelte, hverken outcome eller kovariater! Normalfordelingsantagelsen er ikke kritisk for selve ttet: Mindste kvadraters metode giver under alle omstændigheder 'de bedste' estimater er formelt en forudsætning for t-fordelingen af teststørrelsen, men reelt behøves kun en normalfordelingsantagelse for estimatet ˆb, og dette passer ofte, når der er rimeligt mange observationer, på grund af: Den centrale grænseværdisætning, der siger, at summer og andre funktioner af mange observationer bliver 'mere og mere' normalfordelte. 14

15 Transformation logaritmer, kvadratrod, invers Hvorfor tage logaritmer? af de forklarende variable for at opnå linearitet: hvis det er %-vise forskelle, der har konstant eekt. Brug gerne 2-tals logaritmer (eekt af fordobling) eller XX=log(X)/log(1.1); (eekt af 10% stigning i X) for at se på multiplikative sammensætninger af to variable (f.eks. vægt og højde, jf. BMI) af respons / outcome for at opnå linearitet for at opnå varianshomogenitet Var(ln(y)) Var(y) y 2 dvs. en konstant variationskoecient på Y betyder konstant varians på log(y ) (gælder for alle logaritmetransformationer) 15

16 Efter log2-transformation af vaegt: 16

17 Efter log2-transformation af både vaegt og bpd: 17

18 Multipel regression DATA: n personer, dvs. n sæt af sammenhørende observationer: person x 1...x p y 1 x 11...x 1p y 1 2 x 21...x 2p y 2 3 x 31...x 3p y n x n1...x np y n Den lineære regressionsmodel med p forklarende variable skrives: y = b 0 + b 1 x b p x p + ε respons middelværdi biologisk regressionsfunktionen variation Parametre: b 0 b 1,, b p afskæring, intercept regressionskoecienter 18

19 Graphs/Scatter Plot/Three-Dimensional, under Display vælges Needles/Pillar PROC G3D; SCATTER bpd*ad=vaegt / SHAPE='PILLAR' SIZE=0.5; RUN; 19

20 Regressionsmodel: y i = b 0 +b 1 x i1 + +b p x ip +ε ij, i = 1,, n Traditionelle antagelser: ε i N(0, σ 2 ), uafhængige Mindste kvadraters metode: S(b 0, b 1,, b p ) = (y i b 0 b 1 x i1 b p x ip ) 2 20

21 Eksempel: Sechers data med fødselsvægt som funktion af såvel bpd som ad Statistics/Regression/Linear, vælg vaegt som Dependent, bpd og ad som Explanatory The REG Procedure Dependent Variable: vaegt Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model <.0001 Error Corrected Total Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept <.0001 bpd <.0001 ad <.0001 Stærk signikant eekt af begge kovariater, men holder modelforudsætningerne? 21

22 Modelkontrol af utransformeret model: 22

23 Vurdering af modellen: Normalfordelingen halter lidt, med nogle enkelte ret store positive afvigelser, hvilket kunne tale for at logaritmetransformere vægten. Måske lidt trompetfacon i plot af residualer mod predikterede værdier, men husk på, at observationerne ikke er ligeligt fordelt over x-aksen. Linearitet er ikke helt god, men det skyldes hovedsageligt de børn med de særligt lave ultralydsmål Teoretiske argumenter fra den faglige ekspertise foreslår en multiplikativ sammenhæng, dvs. en samtidig logaritmetransformation af kovariaterne 23

24 Logaritmetransformerede data: lvaegt=log2(vaegt) lbpd=log2(bpd) lad=log2(ad) Statistics/Regression/Linear, vælg lvaegt som Dependent, lbpd og lad som Explanatory Dependent Variable: LVAEGT Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP LBPD LAD

25 Test af hypoteser Er AD uden betydning, når BPD allerede er med i modellen? H 0 : b 2 =0 Her har vi ˆb 2 =1.467 (se(ˆb 2 )=0.147), og dermed t-testet t = ˆb 2 se( ˆb 2 ) = t(104), P < % kondensinterval: ˆb 2 ± t (97.5%,n p 1) se( ˆb 2 ) = ± = (1.175,1.759) Men: ˆbj 'erne er korrelerede med mindre de forklarende variable er uafhængige så man kan ikke lave et kombineret test eller kondensområde for begge variable ud fra kondensgrænserne for hver af variablene 25

26 Fittede værdier log 2 (vaegt) = log 2 (ad) log 2 (bpd) vaegt = ad 1.47 bpd 1.55 Hvis bpd ændrer sig 10%, svarer det til at gange vægten med = 1.16 dvs. en forøgelse på 16%, hvis ad holdes fast 26

27 Regneeksempel For ad=113 og bpd=88, vil man forvente log 2 (vaegt) = log 2 (113) log 2 (88) = = Forventet fødselsvægt: = 3061 g Faktisk observeret fødselsvægt: 3400 g Residual: 3400 g g = 339 g 27

28 Prediktionsusikkerhed NB: log-skalaen medfører konstant relativ usikkerhed 2 ± = (0.81, 1.23) Dette betyder, at med 95% sandsynlighed vil fødselsvægten ligge et sted mellem 19% under og 23% over den predikterede værdi. Vi har snydt en smule: Vi har negligeret selve estimationsusikkerheden på b'erne. 28

29 Marginale modeller: Responsen vurderes overfor hver enkelt forklarende variabel for sig. Multipel regressionsmodel: Responsen vurderes overfor begge forklarende variable samtidigt. Estimaterne for disse modeller (med tilhørende standard errors i parentes) bliver: b 0 (int.) b 1 (lbpd) b 2 (lad) s R (0.202) (0.111) (0.229) 1.467(0.147)

30 Fortolkning af koecient b 1 til lbpd: Marginal model: Ændringen i lvaegt, når kovariaten lbpd ændres 1 enhed (dvs. når bpd fordobles) Multipel regressionsmodel Ændringen i lvaegt, når kovariaten lbpd ændres 1 enhed, men hvor alle andre kovariater (her kun ad) holdes fast Vi siger, at vi har korrigeret for eekten af de andre kovariater i modellen. Forskellen kan være markant, fordi kovariaterne typisk er relaterede: Når en af dem ændres, ændres de andre også 30

31 Goodness-of-t mål R 2 = Sum Sq(Model) Sum Sq(Total) Hvor stor en del af variationen kan forklares af modellen? (her , dvs %) Fortolkningsproblemer når kovariaterne er styret (ganske som for korrelationskoecienten) R 2 stiger med antallet af kovariater selv hvis disse er uden betydning! Adjusted R 2 : R 2 adj (her ) = 1 Mean Sq(Residual) Mean Sq(Total) 31

32 Modelkontrol Plots: residualer mod hver kovariat for sig (linearitet) residualer mod ttede (predikterede) værdier (varianshomogenitet) fraktildiagram, 'probability plot' (normalfordelingen) Tests: Udvid modellen med krumning: Kvadratled, 3. gradsled,... vekselvirkning: Produktled? Indydelsesrige observationer modicerede residualer Cooks afstand 32

33 Modelkontrol af log2-transformeret model: 33

34 Regression diagnostics Understøttes konklusionerne af hele materialet? Eller er der observationer med meget stor indydelse på resultaterne? Leverage = potentiel indydelse (hat-matrix, i sas kaldet Hat Diag eller H) Hvis der kun er en kovariat er det simpelt: h ii = 1 n + (x i x) 2 S xx Observationer med ekstreme x-værdier kan have stor indydelse på resultaterne, 34

35 y x men de har det ikke nødvendigvis! hvis de ligger 'pænt' i forhold til regressionslinien, dvs. har et lille residual 35

36 Indydelsesrige observationer er dem, der har en kombination af høj leverage stort residual 36

37 Regression diagnostics Udelad den i'te person og nd nye estimater, (i) (i) ˆb 0, ˆb 1 og ˆb (i) 2 Udregn Cook's afstand, et samlet mål for ændringen i parameterestimaterne Spalt Cooks afstand ud i koordinater og angiv: Hvor mange se'er ændres f.eks. ˆb 1, når den i'te person udelades? Hvad gør vi ved indydelsesrige observationer? udelader dem? anfører et mål for deres indydelse? 37

38 Diagnostics: Cooks afstand som mål for indydelse 38

39 Outliers Observationer, der ikke passer ind i sammenhængen de er ikke nødvendigvis indydelsesrige de har ikke nødvendigvis et stort residual Hvad gør vi ved outliers? ser nærmere på dem, de er tit ganske interessante Hvornår kan vi udelade dem? hvis de ligger meget yderligt, dvs. har høj leverage husk at afgrænse konklusionerne tilsvarende! hvis man kan nde årsagen og da skal alle sådanne udelades! 39

40 Modelkontrol og Diagnostics i ANALYST Mange tegninger kan fås direkte fra regressionen under Plots/Residual eller Plots/Diagnostics. Vil man lave yderligere (f.eks. en tegning af Cook's distance), er man nødt til at danne et nyt datasæt: 1. I regressionsopsætningen klikkes Save Data 2. afkryds Create and save diagnostics data 3. overyt (klik Add) de størrelser, der skal gemmes (typisk Predicted, Residual, Student, Rstudent, Cookd, Press) 4. Kør analysen 5. Dobbeltklik på Diagnostics Table i projekttræet 6. Gem det ved at klikke File/Save as By SAS Name 40

41 Ex. O'Neill et. al. (1983): Lungefunktion hos 25 patienter med cystisk brose. 41

42 Hvilke forklarende variable har en marginal eekt på responset P E max? Er det så disse variable, der skal med i modellen? 42

43 Korrelationer: Correlation Analysis Pearson Correlation Coefficients / Prob> R under Ho:Rho=0 / N=25 AGE SEX HEIGHT WEIGHT BMP AGE SEX HEIGHT WEIGHT BMP FEV RV FRC TLC PEMAX

44 Correlation Analysis Pearson Correlation Coefficients / Prob> R under Ho:Rho=0 / N=25 FEV1 RV FRC TLC PEMAX AGE SEX HEIGHT WEIGHT BMP FEV RV FRC TLC PEMAX Bemærk især korrelationerne mellem alder, højde og vægt. 44

45 Modelselektion (vælges i Model i Regression/Linear): Forlæns selektion Medtag hver gang den mest signikante Slutmodel: WEIGHT BMP FEV1 Baglæns elimination Start med alle, udelad hver gang den mindst signikante Slutmodel: WEIGHT BMP FEV1 Det ser jo meget stabilt ud!? Men: Hvis nu WEIGHT havde været logaritmetransformeret fra starten? Så havde vi fået slutmodellen Tommelngerregel: AGE FEV1 Antallet af observationer skal være mindst 10 gange så stort som antallet af undersøgte parametre i modellen! 45

46 Når alle 9 kovariater medtages: Dependent: pemax Explanatory: age sex height weight bmp fev1 rv frc tlc Dependent Variable: PEMAX Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP AGE SEX HEIGHT WEIGHT BMP FEV RV FRC TLC

47 Baglæns elimination Tabel over successive p-værdier [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] age sex height weight bmp fev rv frc tlc (Altman stopper ved skridt nr. 7) 47

48 48

49 Advarsel ved modelselektion Massesignikans! Undgå uklare problemstillinger (masser af variable, der udtrykker mere eller mindre det samme) Lineært relaterede kovariater: Hvad kan vi sige om 'vinderne'? Var de hele tiden signikante, eller blev de det lige pludselig? I sidstnævnte tilfælde kunne de jo være blevet smidt ud, mens de var insignikante... Traditionel anbefaling: Baglæns elimination Gennemregning af alle modeller Cross-validation: Foretag modelttet på en del af data, afprøv bagefter på resten Min anbefaling: Tænk selv, test noget meningsfuldt så er det nemmere at få det publiceret 49

50 Hvad sker der ved udeladelse af en forklarende variabel? Fittet bliver dårligere, dsv. residualkvadratsummen bliver større. Antallet af frihedsgrader (for residualkvadratsummen) stiger. Estimatet s 2 for residualvariansen σ 2 kan både stige og falde s 2 = () 2 n p 1 %-delen af variation, som forklares af modellen, R 2, falder. Dette kompenseres der for i den justerede determinationskoecient R 2 adj Som kriterium for, om modellen er god kan vi altså bruge s 2 eller R 2 adj 50

51 Marginale modeller: Model 1: pemax overfor height Model 2: pemax overfor weight Multipel regressionsmodel: Model 3: pemax overfor height og weight b 0 b 1 (height) b 2 (weight) s R 2 R (0.260) (0.301) (0.655) 1.024(0.787) Hver af de to forklarende variable har betydning, vurderet ud fra de marginale modeller. I den multiple regressionsmodel ser ingen af dem ud til at have nogen betydning. Mindst en af dem har en betydning, men det er svært at sige hvilken. Det ser dog mest ud til at være vægten. 51

52 Options i Statistics/Regression/: Model: Forward Backward Statistics clb: kondensgrænser for estimater corrb: korrelation mellem estimater stb: standardiserede koecienter: eekt af ændring på 1 SD for kovariat Statistics/Tests collin: kollinearitets diagnostics tol: tolerance factor= 1-R 2 for regression af en kovariat på de øvrige vif: variance ination factor = 1/tol, variansøgning grundet kollinearitet 52

53 Når vi tilføjer clb, stb, vif og tol, får vi: Parameter Estimates Standardized Variance Variable DF Estimate Tolerance Inflation Intercept age sex height weight bmp fev rv frc tlc Parameter Estimates Variable DF 95% Confidence Limits Intercept age sex height weight bmp fev rv frc tlc

54 Størrelser udregnet for hver observation kan med fordel gemmes i et nyt datasæt, så man kan se på deskriptive størrelser The MEANS Procedure Variable Label Mean resid Residual E-14 stresid Studentized Residual press Residual without Current Observation residud Studentized Residual without Current Obs leverage Leverage cook Cook's D Influence Statistic inflpred Standard Influence on Predicted Value Variable Label Minimum resid Residual stresid Studentized Residual press Residual without Current Observation residud Studentized Residual without Current Obs leverage Leverage cook Cook's D Influence Statistic inflpred Standard Influence on Predicted Value Variable Label Maximum resid Residual stresid Studentized Residual press Residual without Current Observation residud Studentized Residual without Current Obs leverage Leverage cook Cook's D Influence Statistic inflpred Standard Influence on Predicted Value

55 Udvalgte diagnostics tegninger 55

56 Kollinearitet: Kovariaterne er lineært relaterede Det vil de altid være til en vis grad, undtagen i designede forsøg (f.eks. landbrugsforsøg) Symptomer på kollinearitet: Visse af kovariaterne er stærkt korrelerede Nogle parameterestimater har meget store standard errors Alle kovariater i den multiple regressionsanalyse er insignikante, men R 2 er alligevel stor Der sker store forskydninger i estimaterne, når en kovariat udelades af modellen Der sker store forskydninger i estimaterne, når en observation udelades af modellen Resultaterne er anderledes end forventet 56

57 Kollinearitet Hvad er problemet ved kollinearitet? 1. Fortolkningen af resultaterne: Hvad er årsagen til den observerede sammenhæng 2. Nogle gange: Tekniske problemer med estimationen Hvad gør man så, når der er kollinearitet? 1. Find ud af, om det er grupper af variable, der hænger sammen Drejer det sig om ét fælles aspekt, så man kan nøjes med den ene og begrunde, hvorfor man vælger netop den? 2. Gennemtænk grundigt, hvad den enkelte variabel står for afhængigt af hvilke af de andre, der fastholdes 3. Lav analyser med og uden justering for forskellige grupper af de andre variable, og prøv at forstå forskellene i resultaterne 4. Fortolk med stor forsigtighed 57

58 Kollinearitet Vigtigt: I modstrid med anbefaling fra visse epidemiologer, så må man ikke nøjes med at præsentere univariate analyser for alle variablene! Problemet med fortolkningen forsvinder ikke af, at man tillægger hver enkelt variabel al forklaringsevnen. Andre fejlagtige påstande: Påstand: Signikansen for den enkelte variabel bliver svagere, når de andre tages med. Sandhed: Oftest, men ikke altid. Nogle gange bliver signikanserne væsentligt stærkere. Påstand (ernæringsepidemiologer): Problemet løses ved residual-metoden, hvor hver enkelt næringsstof erstattes af residualerne fra en regression af næringsstoet på totalt energiindtag. Sandhed: Det betyder bare, at man på forhånd tillægger totalt energiindtag mest muligt, så betydningen af totalt energiindtag overvurderes. Resultaterne for de enkelte næringsstoer er essentielt de samme. 58