12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Relaterede dokumenter
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Anvendt Statistik Lektion 7. Simpel Lineær Regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Morten Frydenberg 14. marts 2006

1 Regressionsproblemet 2

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Multipel Lineær Regression

Lineær og logistisk regression

Korrelation Pearson korrelationen

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Morten Frydenberg 26. april 2004

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Perspektiver i Matematik-Økonomi: Linær regression

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Modul 11: Simpel lineær regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Epidemiologi og Biostatistik

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

Modul 6: Regression og kalibrering

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Økonometri Lektion 1 Simpel Lineær Regression 1/31

1 Hb SS Hb Sβ Hb SC = , (s = )

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Epidemiologi og Biostatistik

To samhørende variable

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Opgavebesvarelse, brain weight

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Kapitel 11 Lineær regression

Lineære normale modeller (4) udkast

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

1 Multipel lineær regression

Simpel Lineær Regression

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

1 Multipel lineær regression

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Statistik Lektion 16 Multipel Lineær Regression

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistik Lektion 4. Variansanalyse Modelkontrol

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

ELISA. ELISA (enzyme-linked immunosorbent assay) forsøg bruges til at detektere og kvantificere stoffer såsom proteiner, peptider, antistoffer o.lig.

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Statistik II 4. Lektion. Logistisk regression

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Kvantitative metoder 2

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Simpel Lineær Regression: Model

Normalfordelingen og Stikprøvefordelinger

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Opgavebesvarelse, brain weight

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

ELISA. ELISA (enzyme-linked immunosorbent assay) forsøg bruges til at detektere og kvantificere stoffer såsom proteiner, peptider, antistoffer o.lig.

Opgavebesvarelse, brain weight

Lineær regression i SAS. Lineær regression i SAS p.1/20

Module 12: Mere om variansanalyse

Statistiske principper

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Modul 12: Regression og korrelation

Opgavebesvarelse, brain weight

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

(studienummer) (underskrift) (bord nr)

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Løsninger til kapitel 14

Module 3: Statistiske modeller

Transkript:

. september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser bruges til Beskrive sammenhængen mellem to variable. Eks: Kvantificere sammenhængen mellem alder og blodtryk. Prædiktere værdien af en variabel hvis værdien af én eller flere andre variable er kendt (referencemodel). Eks: Forudsige blodtrykket for en 5 årig person. Forudsige FEV for en årig mand. Korrektion for potentielle confoundere. Eks: Hvad er alderseffekten på blodtrykket korrigeret for? Den lineære regressionsanalyse kan anvendes når responsen er kontinuert. Eksempel : Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Data: Systolisk blodtryk-målinger og andre baggrundsvariable for 8 personer. Obs. no. i 8 Syst. Blodtryk y i 55 5 x i 5 55 8 Frekvens..5.5.5 Prædiktionsinterval y = 9.9, sd Total = 5.5 ( n = 8) Hvis vi antager blodtryk er normalfordelt fås PI: 9.9 ±.95.5 =(99.;.) Fortolkning: Personernes systoliske blodtryk er mellem 99. og.. Bemærk: Vores bedste bud på en persons systoliske blodtryk er altså intervallet (99.;.). Der er dog relativt stor variation i det systoliske blodtryk! Vil vores bud på personens systoliske blodtryk afhænge af persones alder? Ja, yngre personer har et lavere blodtryk end ældre personer! Vi kan lave et mere præcist prædiktionsinterval, hvis vi bruger oplysningen om personens alder. 5 Én løsning er, at inddele i aldersgrupper og beregne prædiktionsintervaller indenfor hver aldersgrupper. En anden løsning er en regressionsanalyse, hvor personens præcise alder inddrages. En regressionsmodel er en model for sammenhængen mellem blodtryk og alder. Der ser ud til at være en lineær sammenhæng mellem blodtryk og alder.

. september 5 y = α + β x + E i i i Den forventede y-værdi (Formlen for en ret linie!) Simpel lineær regression En simpel lineær afhængighed mellem y i og x i : Beskriver afvigelsen fra linien. Variablen E i beskriver den tilfældige/uforklarede variation omkring linien, og antages at have middelværdi og spredning σ Res (Res=Residual). En simpel lineær regressionsmodel har tre parametre: α = afskæringen med y-aksen (intercept) β = hældningen (regressionskoefficient) σ Res = et mål for variationen omkring linien. 7 Terminologi: y = responsvariabel = afhængige variabel = Systolisk blodtryk x = forklarende variabel = uafhængig variabel = Fortolkning af parametrene: β er forskellen i middel systolisk blodtryk mellem to personer med en aldersforskel på år. (Fortolkningen er ikke den forventede stigning i det systoliske blodtryk når man bliver et år ældre!) α har i denne situation ingen fornuftig fortolkning. (Middel blodtrykket for en år gammel person?) σ Res et mål for variationen omkring linien. 8 Estimation af α, β og σ Res : r = y ( ˆ α ˆ β x ) i i i Residual = afvigelsen af observationen fra linien. Regressionslinien bestemmes ved mindste kvadrates metode, der minimerer (kvadratet på) afstandene fra observationerne til linien. σ Res estimeres ved standard deviationen af residualerne. 9 Estimation af α, β og σ Res og se er m.v. er kompliceret, men kan laves af de fleste statistikprogrampakker. Resultat: Intercept Estimat.5 se.99 (.7;8.75) Regression.5. (.;.99) sd Res. Regressionsanalysen beskriver sammenhængen mellem middel (systolisk) Blodtryk og som CI middel Blodtryk =.5 +.5 Eksempel : Middelblodtrykket for 5 årige personer er.5+.55 = 5.. CI kan vi ikke udregne på basis af ovenstående tal! () (/år) () Eksempel : Den estimerede forskel i middelblodtryk for årige personer og 5 årige personer er Estimeret forskel = ( ˆ α + ˆ β 5) - ( ˆ α + ˆ β ) = ˆ β (5 ) =.5 =. 95 se( ˆ β ) = se( ˆ β ) =. =.55 CI(Forskel) :.95 ±.9.55 = (9.9; 9. 9) Middelforskellen mellem to personer med en aldersforskel på år er mellem 9.9 og 9.9. Generelt: Den estimerede forskel i middelblodtryk mellem personer med en aldersforskel på år er Estimeret fo rskel = ˆ β, se( ˆ β ) = se( ˆ) β Eksempel : Hvad er vores bedste bud på en 5 årig persons systoliske blodtryk? PI( x) = ( ˆ α + ˆ β x) ±.9sd Prædiktionsinterval= regressionslinie ±.9 sd Res Der er I bogen angivet en lidt anden formel der tager hensyn til usikkerheden på linien (side 9) Res

. september 5 Prædiktionsinterval (PI) for de 5 årige personer bliver således Middelblodtryk: ˆ α + ˆ β 5 = 5. sd Res =. PI(5 årige): 5. ±.9. = (.; 59.8) Det generelle prædiktionsinterval (uden hensyntagen til alder) var PI: (99.;.). PI PI(5 årig) Andel forklaret variation Prædiktionsintervallet fra regressionsanalysen er smallere end det generelle prædiktionsinterval (sd Res er mindre end sd Total ). Vi har forklaret noget af variationen i Blodtryk ved variationen i. Men hvor meget? Den relative reduktion i variationen er ( ) R = 5.5. 5.5 =. = % Vi har således forklaret % af variationen i blodtryk ved variationen i alderen. R = andel forklaret variation af den totale variation (coefficient of determination). Antagelser bag den simple lineære regressionsanalyse Den statistiske model bygger på følgende antagelser: Uafhængige par af observationer (x,y ),...,(x n,y n ). Lineær sammenhæng mellem x i og y i : y i = α + β x i + E i Variationen omkring linien, E i, er normalfordelt med middelværdi og spredning σ Res. Modelkontrol: lineær sammenhæng Variationen omkring linien afhænger ikke af den forklarende variabel x i 5 Det ser ud til, at den lineære sammenhæng er en rimelig beskrivelse! Modelkontrol: konstant variation Modelkontrol: normalfordeling Residualer - - Frekvens.... - - Residualer Residualerne kan antages at være normalfordelt! Residualerne viser symmetri omkring og konstant variation uafhængig af. 7 Antagelserne bag den lineære regressionsanalyse synes at være opfyldt! 8

. september 5 Eksempel på en ikke-lineær sammenhæng Nyrefunktion 8 Glumerular filtrationsrate (GFR) 5 5 Residualer - - - 8 (Creatinin) Cr 8 9 Residualer efter lineær regression: - mangel på symmetri / systematisk afvigelser fra. - ikke konstant variation. Cr Ln-transformation af nyrefunktion: Hypoteser omkring β ln(gfr) 5 Foregår som sædvanlig! Hvis vi f.eks. ønsker at teste Hypotese: β = (ingen sammenhæng mellem Blodtryk og ) ˆ β.5 z = = = 5.9, p <. se( ˆ) β. - -. -.5..5..5..5 ln(cr) Her er antagelserne bag regressionsanlysen opfyldt. Multipel lineær regression Effektmodifikator? Effekten af alder er beskrevet ved hældningen (fra tidligere) ˆ β =.5 /år ( CI:..9 9) Blodtryk Hældningen beskriver middelforskellen i systolisk blodtryk mellem to personer med en aldersforskel på år. Blodtrykket afhænger også af. Afhænger alderseffekten af personens? Mao. er en effektmodifikator for alderseffekten? Confounder? Hvis ikke er en effektmodifikator for alderseffekten: Er en confounder for alderseffekten? Blodtryk

. september 5 Data: Samme data fra før, nu suppleret med oplysninger. En regressionsanalyse for hver gruppe: Obs. no. 8 Syst. blodtryk 55 5 er inddelt i grupper: 5 55 8. gruppe = hvis 5 = hvis 5 < = hvis <. 5. 7.9 gruppe 5 <5 5<< < Er effekten af alderen den samme i de grupper? Strata Er en effektmodifikator? <5 5- + Estimaterne er noget usikre! Hældning.5..85 CI (-.5;.5) (.7;.8) (-.;.7) Hypotese: Samme alderseffekt i de grupper ( er ikke en effektmodifikator) Hypotesen testes vha. en multipel regressionsanalyse, p=.. Vi accepterer dermed hypotesen om den samme alderseffekt i de -grupper. En multipel regressionsanalyse med samme alderseffekt (hældning) i de -grupper: Modelkontrol: Som i den simple lineære regressionsanslyse, dog her noget mere kompliceret. Vi kan antage, at er ikke en effektmodifikator. 7 8 <5 5<< < Resultat: Estimat se CI p Intercept 7.7.8 (5.5;9.9)..8. (.7;.). 5 5< -.. (-.;5.58).95 >.7.99 (8.8;.9). sd Res. Hvordan skal vi fortolke dette resultat? Et prædiktionsinterval kan udregnes som tidligere = 7.7+.8 -. 5- +.7 + PI(5 årige, 5< ):.57 ±.9. 5 < > 5- = ellers = = ( 9. ; 5. ) + ellers 9 middel Blodtryk Eksempel : beregning af det forventede blodtryk Betragt en person med følgende data: 5- = =5 år, =7 kg/m + = Middelblodtrykket udregnes til Middelblodtryk = 7.7+.8 -. +.7 = 7.7+.85 -. +.7 =.57 5- + 5

. september 5 Betragt to personer: Eksempel 5: effekten af Person : = år, = kg/m Persen : =5 år, = kg/m Forskellen i middelblodtrykket er Middelblodtryk Middelblodtryk 5- + = ( 7.7+.8 -. +.7 ) 5- + ( 7.7.8 -..7 ) ( ) =.8 =.8 =. 8 + + 5- = + = Betragt to personer: Eksempel : effekten af Person : = år, = kg/m Persen : = år, =7 kg/m Forskellen i middelblodtrykket er Middelblodtryk Middelblodtryk = ˆ β 5-5- =. CI(Forskel): (-.; 5.58) CI(Forskel): (.7;.) = ( 7; ) Betragt to nye personer: Person : = år, =7 kg/m Persen : = år, = kg/m Forskellen i middel blodtrykket er Middel blodtryk Middel blodtryk = ˆ β ˆ β + 5- =.7 (. ) = 7. CI(Forskel) kan vi ikke udregne på basis af denne analyse. Sikkerhedsintervallet kan findes ved at lave en ny regressionsanalyse med gruppe nr. som referencegruppe. Er en confounder for alderseffekten? Fra den simple lineære regressionsanalyse fik vi β ˆCrude =.5 CI( β ): (.,. 99) /år Crude Fra den multiple lineære regressionsanalyse hvor også -gruppe indgik i modellen fik vi β Hvis β ˆAdjusted Crude =.8 CI( β ): (.7,. ) /år β Adjusted Adjusted så er en confounder. Det tyder således på, at er en confounder for alderseffekten. Multipel lineær regression - generelt Responsen (y) er en kontinuert variabel, f.eks. - blodtryk. - FEV. Den multiple lineære regressionsmodel beskriver hvordan responsen y i afhænger af forklarende variable x i,,x im via modelformlen yi = α + β xi +... + βm xim + Ei Formlen for en lineær sammenhæng! Beskriver afvigelsen fra den lineære sammenhæng. Variablen E i beskriver den tilfældige/uforklarede variation, og antages at have middelværdi og spredning σ Res. 5 Resumé Gennemgang af en regressionsmodel: Multiple lineær regression den første af tre regressionsmodeller i kurset. Denne model er kendetegnet ved et kontinuert respons, der modeleres direkte. Regresiinsmodeller kan bruges til feks prediktion undersøgelser af effektmodifikation korrektion for (mulige) konfoundere