Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik. Data: Systolisk blodtryk-målinger og andre baggrundsvariable for 68 personer. i Obs. no. 68 y i Syst. blodtryk 55 4 5 4 xi 45 55 46 48 Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Frekvens..5.5.5 Prædiktionsinterval y = 9.9, sd Total = 5.45 ( n = 68) Hvis vi antager blodtryk er normalfordelt fås PI: 9.9 ±.965.45 =(99.6;6.) Fortolkning: Personernes systoliske blodtryk er mellem 99.6 og 6.. Bemærk: Vores bedste bud på en persons systoliske blodtryk er altså intervallet (99.6;6.). Der er dog relativt stor variation i det systoliske blodtryk! 4 Regressionsanalyse Regressionsanalyser bruges til Beskrive sammenhængen mellem to variable. Eks: Kvantificere sammenhængen mellem alder og blodtryk. Prædiktere værdien af en variabel hvis værdien af én eller flere andre variable er kendt (referencemodel). Eks: Forudsige blodtrykket for en 5 årig person. Forudsige FEV for en årig mand. Korrektion for potentielle confoundere. Eks: Hvad er alderseffekten på blodtrykket korrigeret for? Den lineære regressionsanalyse kan anvendes når responsen er kontinuert.
y = α + β x + E i i i Formlen for en ret linie! Simpel lineær regression En simpel lineær afhængighed mellem y i og x i : Beskriver afvigelsen fra linien. Variablen E i beskriver den tilfældige/uforklarede variation omkring linien, og antages at have middelværdi og spredning σ Res (Res=Residual). En simpel lineær regressionsmodel har tre parametre: α = afskæringen med y-aksen (intercept) β = hældningen (regressionskoefficient) σ Res = et mål for variationen omkring linien. 7 Vil vores bud på personens systoliske blodtryk afhænge af persones alder? Ja, yngre personer har et lavere blodtryk end ældre personer! Vi kan lave et mere præcist prædiktionsinterval, hvis vi bruger oplysningen om personens alder. 5 Terminologi: y = responsvariabel = afhængige variabel = Systolisk blodtryk x = forklarende variabel = uafhængig variabel = Fortolkning af parametrene: β er forskellen i middel systolisk blodtryk mellem to personer med en aldersforskel på år. (Fortolkningen er ikke den forventede stigning i det systoliske blodtryk når man bliver et år ældre!) α har i denne situation ingen fornuftig fortolkning. (Middel blodtrykket for en år gammel person?) σ Res et mål for variationen omkring linien. 8 Én løsning er, at inddele i aldersgrupper og beregne prædiktionsintervaller indenfor hver aldersgrupper. En anden løsning er en regressionsanalyse, hvor personens præcise alder inddrages. En regressionsmodel er en model for sammenhængen mellem blodtryk og alder. Der ser ud til at være en lineær sammenhæng mellem blodtryk og alder. 6
Eksempel : Forskellen i middelblodtryk for 4 årige personer og 5 årige personer er Forskel = ( ˆ α + ˆ β 5) - ( ˆ α + ˆ β 4) = ˆ β (5 4) =.5 = 4. 95 se( ˆ β) = se( ˆ β) =.6 =.55 CI(Forskel) : 4.95 ±.96.55 = (9.9; 9. 9) Middelforskellen mellem to personer med en aldersforskel på år er mellem 9.9 og 9.9. Generelt: Forskellen i middelblodtryk mellem personer med en aldersforskel på år er Forskel = ˆ β, se( ˆ β) = s e( ˆ β ) Estimation af α, β og σ Res : r = y ( ˆ α ˆ βx ) i i i Residual =afvigelsenaf observationen fra linien. Regressionslinien bestemmes ved mindste kvadrates metode, der minimerer (kvadratet på) afstandene fra observationerne til linien. σ Res estimeres ved standard deviationen af residualerne. 9 Eksempel : Hvad er vores bedste bud på en 5 årig persons systoliske blodtryk? Prædiktionsinterval= regressionslinie ±.96 sd Res Estimation af α, β og σ Res ogse erm.v.erkompliceret, men kan laves af de fleste statistikprogrampakker. Resultat: Intercept Estimat 6.5 se.99 (6.76;8.75) Regression.5.6 (.;.99) sd Res.6 Regressionsanalysen beskriver sammenhængen mellem middel (systolisk) Blodtrykogsom CI middel Blodtryk = 6.5 +.5 () (/år) () PI( x) = ( ˆ α + ˆ β x) ±.96sd Res Eksempel : Middelblodtrykket for 5 årige personer er 6.5+.55 = 5.. CI kan vi ikke udregne på basis af ovenstående tal!
Antagelser bag den simple lineære regressionsanalyse Den statistiske model bygger på følgende antagelser: Uafhængige par af observationer (x,y ),...,(x n,y n ). Lineær sammenhæng mellem x i og y i : Prædiktionsinterval for de 5 årige personer bliver således Middelblodtryk: ˆ α + ˆ β 5 = 5. sd Res =.6 PI(5 årige): 5. ±.96.6 = (.; 59.8) y i = α + β x i +E i Variationen omkring linien, E i, er normalfordelt med middelværdi og spredning σ Res. Variationen omkring linien afhænger ikke af den forklarende variabel x i 5 Det generelle prædiktionsinterval (uden hensyntagen til alder) var PI: (99.6;6.). PI PI(5 årig) Modelkontrol: lineær sammenhæng Andel forklaret variation Prædiktionsintervallet fra regressionsanalysen er smallere end det generelle prædiktionsinterval (sd Res er mindre end sd Total ). Vi har forklaret noget af variationen i Blodtryk ved variationen i. Men hvor meget? Den relative reduktion i variationen er ( ) R = 5.45.6 5.45 =.4 = 4% Det ser ud til, at den lineære sammenhæng er en rimelig beskrivelse! 6 Vi har således forklaret 4% af variationen i blodtryk ved variationen i alderen. R = andel forklaret variation af den totale variation (coefficient of determination). 4
Eksempel på en ikke-lineær sammenhæng Modelkontrol: konstant variation Glumerular filtrationsrate (GFR) 5 5 Nyrefunktion Residualer - - 4 6 (Creatinin) Cr 8 9 Residualerne viser symmetri omkring og konstant variation uafhængig af. 7 Modelkontrol: normalfordeling 8 Residualer 6 4 - -4 Frekvens.... -6 4 Residualer efter lineær regression: - mangel på symmetri / systematisk afvigelser fra. - ikke konstant variation. 6 Cr 8 - - Residualer Residualerne kan antages at være normalfordelt! Antagelserne bag den lineære regressionsanalyse synes at være opfyldt! 8
Multipel lineær regression Effekten af alder er beskrevet ved hældningen (fra tidligere) ˆ β =.5 /år ( CI:..9 9) Ln-transformation af nyrefunktion: 6 5 Hældningen beskriver middelforskellen i systolisk blodtryk mellem to personer med en aldersforskel på år. Blodtrykket afhænger også af. Afhænger alderseffekten af personens? Mao. er en effektmodifikator for alderseffekten? ln(gfr) 4 Hvis ikke er en effektmodifikator for alderseffekten: Er en confounder for alderseffekten? - -. -.5..5..5..5 ln(cr) Her er antagelserne bag regressionsanlysen opfyldt. Effektmodifikator? Hypoteser omkring β Blodtryk Foregår som sædvanlig! Hvis vi f.eks. ønsker at teste Hypotese: β = (ingen sammenhæng mellem Blodtryk og ) Confounder? ˆ β.5 z = = = 5.9, p<. se( ˆ) β. 6 Blodtryk 4
Er en effektmodifikator? Data: Samme data fra før, nu suppleret med oplysninger. Strata <5 5- + Estimaterne er noget usikre! Hældning.5.6.85 (-.54;.54) (.7;.8) (-.;.7) Hypotese: Samme alderseffekt i de grupper ( er ikke en effektmodifikator) Hypotesen testes vha. en multipel regressionsanalyse, p=.. Vi accepterer dermed hypotesen om den samme alderseffekt i de -grupper. Vi kan antage, at er ikke en effektmodifikator. CI 7 Obs. no. 68 Syst. blodtryk 55 4 5 4 er inddelt i grupper: 45 55 46 48. gruppe = hvis 5 = hvis 5 < = hvis < 4.6 5. 7.9 gruppe 5 En multipel regressionsanalyse med samme alderseffekt (hældning) i de -grupper: En regressionsanalyse for hver gruppe: <5 5<< < Modelkontrol: Som i den simple lineære regressionsanslyse, dog her noget mere kompliceret. 8 <5 5<< < Er effekten af alderen den samme i de grupper? 6
Betragt to personer: Eksempel 5: effekten af Person : =4 år, = kg/m Persen : =5 år, = kg/m Forskellen i middelblodtrykket er Middelblodtryk Middelblodtryk 5- + = ( 7.7+.8-.6 + 6.67 ) + + 5- + ( 7.7.8 -.6 6.67 ) ( ) =.8 =.8 =. 8 CI(Forskel): (.7;.64) = ( 76) ; 5- = + = Resultat: Estimat se CI p Intercept 7.7.8 (5.5;9.9)..8. (.7;.64). 5 5< -.6. (-6.;5.58).95 > 6.67.99 (8.84;4.49). sd Res. Hvordan skal vi fortolke dette resultat? middel Blodtryk = 7.7+.8.6 + 6.67 5-5 < = ellers + = - 5- + > ellers 9 Betragt to personer: Eksempel 6: effekten af Person : =4 år, = kg/m Persen : =4 år, =7 kg/m Forskellen i middelblodtrykket er Middelblodtryk Middelblodtryk 5-5- = ˆ β =.6 CI(Forskel): (-6.; 5.58) Eksempel 4: beregning af det forventede blodtryk Betragt en person med følgende data: 5- = =5 år, =7 kg/m + = Middelblodtrykket udregnes til Middelblodtryk = 7.7+.8 -.6 + 6.67 5- + = 7.7+.85 -.6 + 6.67 =.57 Et prædiktionsinterval kan udregnes som tidligere PI(5 årige, 5< ):.57 ±.96. = ( 9. ; 5. )
Multipel lineær regression - generelt Responsen (y) erenkontinuert variabel, f.eks. - blodtryk. -FEV. Den multiple lineære regressionsmodel beskriver hvordan responsen y i afhænger af forklarende variable x i,,x im via modelformlen y = α + β x + + β x + E i i... m im i Formlen for en lineær sammenhæng! Beskriver afvigelsen fra den lineære sammenhæng. Variablen E i beskriver den tilfældige/uforklarede variation, og antages at have middelværdi og spredning σ Res. 5 Betragt to nye personer: Person : =4 år, =7 kg/m Persen : =4 år, = kg/m Forskellen i middel blodtrykket er Middel blodtryk Middel blodtryk = ˆ β ˆ + β5- = 6.67 (. 6) = 7. CI(Forskel) kan vi ikke udregne på basis af denne analyse. Sikkerhedsintervallet kan findes ved at lave en ny regressionsanalyse med gruppe nr. som referencegruppe. Er en confounder for alderseffekten? Fra den simple lineære regressionsanalyse fik vi β ˆCrude =.5 CI( β ): (.,. 99) /år Crude Fra den multiple lineære regressionsanalyse hvor også -gruppe indgik i modellen fik vi β ˆAdjusted =.8 CI( β ): (.7,. 64) /år Adjusted Hvis β Crude β Adjusted så er en confounder. Det tyder således på, at er en confounder for alderseffekten. 4