Regressionsanalyse. Epidemiologi og Biostatistik. 1.Simpel lineær regression (Kapitel 11) systolisk blodtryk og alder

Relaterede dokumenter
6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, fredag

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Statistik Lektion 15 Mere Lineær Regression. Modelkontrol Prædiktion Multipel Lineære Regression

Morten Frydenberg Biostatistik version dato:

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelkontrol

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelsøgning Modelkontrol

Kvantitative metoder 2

Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller

EKSAMEN I MATEMATIK-STATISTIK, 27. JANUAR 2006, KL 9-13

Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

Statikstik II 4. Lektion. Generelle Lineære Modeller

Lineær regressionsanalyse8

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Økonometri lektion 7 Multipel Lineær Regression. Testbaseret Modelkontrol

Økonometri 1. Test for heteroskedasticitet. Test for heteroskedasticitet. Dagens program. Heteroskedasticitet 26. oktober 2005

Økonometri 1. Lineær sandsynlighedsmodel. Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)?

Økonometri 1. Heteroskedasticitet 27. oktober Økonometri 1: F12 1

Økonometri 1 Efterår 2006 Ugeseddel 9

Morten Frydenberg Biostatistik version dato:

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Økonometri 1. Interne evalueringer. Interne evalueringer. Dagens program. Heteroskedaticitet (Specifikation og dataproblemer) 2.

Bilag 6: Økonometriske

Økonometri 1. Avancerede Paneldata Metoder I 24.november F18: Avancerede Paneldata Metoder I 1

Kvantitative metoder 2

Økonometri 1 Efterår 2006 Ugeseddel 13

Ugeseddel 8. Gruppearbejde:

Kvantitative metoder 2 Forår 2007 Ugeseddel 9

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Simpel Lineær Regression - repetition

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Kvantitative metoder 2

Brugen af R^2 i gymnasiet

Kvantitative metoder 2 Forår 2007 Ugeseddel 10

Kvantitative metoder 2

Kvantitative metoder 2

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Vi ønsker også at teste hypoteser om parametrene. F.eks: Kan µ tænkes at være 0 (eller anden fast, kendt værdi)? Eksempel: dollarkurser

Logistisk regression. Logistisk regression. Probit model Fortolkning udfra latent variabel. Odds/Odds ratio

Økonometri 1. Lineær sandsynlighedsmodel (Wooldridge 8.5). Dagens program: Heteroskedasticitet 30. oktober 2006

Beregning af strukturel arbejdsstyrke

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Landbrugets efterspørgsel efter Kunstgødning. Angelo Andersen

Repetition. Forårets højdepunkter

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Statistik Lektion 14 Simpel Lineær Regression. Simpel lineær regression Mindste kvadraters metode Kovarians og Korrelation

Økonometri 1. Funktionel form. Funktionel form (fortsat) Dagens program. Den simple regressionsmodel 14. september 2005

Rettevejledning til Økonomisk Kandidateksamen 2007I, Økonometri 1

Økonometri 1. Avancerede Paneldata Metoder II Introduktion til Instrumentvariabler 27. november 2006

Binomialfordelingen: april 09 GJ

Løsninger til kapitel 12

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Indtjening, konkurrencesituation og produktudvikling i danske virksomheder

Sandsynlighedsregning og statistik med binomialfordelingen

Epidemiologi og Biostatistik

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

PRODUKTIONSEFFEKTEN AF AVL FOR HANLIG FERTILITET I DUROC

Statistik 9. gang 1 REGRESSIONSANALYSE. Korrelation (kontrol af model) Regression (tilpasning af model)

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Udvikling af en metode til effektvurdering af Miljøstyrelsens Kemikalieinspektions tilsyn og kontrol

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Multipel Lineær Regression

Fagblok 4b: Regnskab og finansiering 2. del Hjemmeopgave kl til kl

Scorer FCK "for mange" mål i det sidste kvarter?

Nøglebegreber: Objektivfunktion, vægtning af residualer, optimeringsalgoritmer, parameterusikkerhed og korrelation, vurdering af kalibreringsresultat.

Anvendt Statistik Lektion 7. Simpel Lineær Regression

DLU med CES-nytte. Resumé:

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Lineær regression i SAS. Lineær regression i SAS p.1/20

1 Hb SS Hb Sβ Hb SC = , (s = )

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Estimation af CES - forbrugssystemet med og uden dynamik: -fcf/fcfv sammenhold med fcv/fcfv -fct/fcts sammenhold med fcs/fcts

Statistik Lektion 4. Variansanalyse Modelkontrol

Regressionsmodeller. Kapitel Ikke-lineær regression

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Tema. Dagens tema: Indfør centrale statistiske begreber.

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

Variansanalyse (ANOVA) Repetition, ANOVA Tjek af model antagelser Konfidensintervaller for middelværdierne Tukey s test for parvise sammenligninger

Økonometri 1. For mange variable i modellen. For få variable. Dagens program. Den multiple regressionsmodel 21. september 2004

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Fra små sjove opgaver til åbne opgaver med stor dybde

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kreditrisiko efter IRBmetoden

Rettevejledning til Økonomisk Kandidateksamen 2005II, Økonometri 1

Økonometri 1. Instrumentvariabelestimation 26. november Plan for IV gennemgang. Exogenitetsantagelsen. Exogenitetsantagelsen for OLS

Epidemiologi og Biostatistik

Økonometri 1 Forår 2003 Ugeseddel 10: Prøveeksamen. Indtjening, konkurrencesituation og produktudvikling i danske virksomheder. Om opgavens formål:

Statistik II 4. Lektion. Logistisk regression

Indtjening, konkurrencesituation og produktudvikling i danske virksomheder

Opgavebesvarelse, brain weight

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

χ 2 -fordelte variable

Forelæsning 11: Kapitel 11: Regressionsanalyse

Transkript:

Regressonsanalyse Epdemolog og Bostatstk Mogens Erlandsen, Insttut for Bostatstk Uge, torsdag (forelæsnng) 1.Smpel lneær regresson (Kaptel 11) systolsk blodtryk og alder. Multpel lneær regresson (Kaptel 17) systolsk blodtryk, alder og ( grupper). Multpel lneær regresson (Kaptel 17) systolsk blodtryk, alder og kolesterol 1 n = y = 19. sd = 1. Lgner det en normalfordelng??? Blodtryk afhænger af alder responsvarabel afhængge varabel y Kan noget af varatonen blodtryk forklares ved en tlsvarende varaton alderen? forklarende varabel uafhængge varabel x Er der en sammenhæng mellem blodtryk og alder? 9.. 11. 1. 1. 1. 1. 1. 17. 1. Kan noget af varatonen alder forklares ved en tlsvarende varaton blodtryk!? Hver observaton () består af et sammenhørende par af målnger ( x, y ) 1 1 Obs Nr 1 Scatter plot [] Obs Nr [x ] [y ] Blodtryk (år) 1 1 1 1 1 1 1 1 1 1 1

Den bedste rette lne? Smpel lneær afhængghed mellem y og x 1 a b y = a + b x + "tlfældg varaton" Lgnng for en ret lne afskærng eller ntercept hældnng eller regressonskoeffcent a og b er ukendte (parametre) (Statstsk) model Excel, Quattro Pro, SPSS, SAS etc. kan beregne lneær regresson, dvs a og b 1 1 1 1 1 1 y =19. (afhænger kke af alder) 7 Standard 9% CI Estmat error Nedre Øvre Intercept(ˆ α ). 1.. 1. Hældnng ( ˆβ ).99.9.17 1. Den bedste rette lne y=.+.99 x y = x = Fortolknng af hældnngen bˆ : hvs v sammenlgner tlfældge personer, hvor den ndbyrdes aldersforskel er 1 år, vl v forvente, at den ældste har et systolsk blodtryk, der er.99 mm Hg større end den yngste Fortolknng af hældnngen bˆ er kke: Når jeg blver 1 år ældre stger mt blodtryk med.99 mm Hg Fortolknng af nterceptet ( aˆ), se på tl øvelserne 9 Størrelsen af nterceptet spller ofte en mndre rolle. Blodtryk hos en person, der er år gammel!? En enkelt formel: se( bˆ x) = se( bˆ ) x F.eks. hvad er den forventede forskel blodtryk på personer med en aldersforskel på år? bˆ =.99 = 9.9 se( bˆ ) = se( bˆ ) =.9 =.9 1 1 1 1 1 1 1 resdualer = 7 (obs nr) yˆ = aˆ + bˆ 7 =.+.99 = 1. r = y yˆ 7 7 7 = 1. 1. =.7 11 1

1 1 1 1 1 1 1 Predktonsnterval= regressonslne +/- 1.9 sd tlfældg varaton= resdualernes varaton= observatonernes varaton omkrng regressonslnen= sd = 1.1 (før 1.) R ( coeffcent of determnaton, et dansk ord mangler). Størrelsen betegner den procentvse redukton varatonen, der skyldes den lneære regresson, det vl sge ( ) R = 1. 1.1 1. % 1% R : % forklaret varaton af den totale varaton En almndelg msforståelse: Stor Llle R = god model. R = dårlg model. 1 1 Den lneære regressonsanalyse bygger på en række antagelser: Modelkontrol Systolsk blodtryk 1. sammenhængen mellem responsvarabel (y) og forklarende varabel (x) skal være lneær, scatter plot ( y mod x ). Resdualernes varaton skal være konstant, det vl sge uafhængg af x, scatterplot ( r mod x ) Resdualer - - Symmetrsk omkrng ellpse-formet punkt-sky -. Resdualerne skal være normalfordelt, hstogram - 1 1 Eksempel: y Eksempel på Ikke-lneær sammenhæng Resdualer - Resdualernes varaton vokser med x - - 1 -.. 1. 1... x x 17 1

Systolsk blodtryk Er der en (statstsk skker) sammenhæng mellem alder og systolsk blodtryk? Hvs kke må regressons-lnen have hældnng lg, det vl sge Hypotese : b = Hvs hypotesen er sand blver regressonslnen tl y= a + x = a -. -. -. -1. -.. 1.... Resdualer 19 Teststørrelse (som sædvanlg): bˆ z= ˆ ( ˆ).99.9. ( ˆ) = b se b = = se b -sdg vurderng en normalfordelng p @. Altså: Hvs hypotesen er sand, er chancen mndre end.% for at få et datasæt, der strder lgeså meget mod hypotesen som vores data. Det tror v kke på. Og hvad kan det så bruges tl??? Konkluson: V forkaster hypotesen. Skkerhedsnterval: CI9% ( b ) = (.17,1. 7 ) 1 Er en comfounder/effektmodfkator? Eksponerng Respons Systolsk blodtryk GR N mean SD mean SD > 1 17.9.1 9.. - 1. 1..9. < 1. 1... blodtryk Ergo, sammenhæng mellem og blodtryk! Det er da bare ford, at de gamle også er de tykkeste! Confounder/Effekt modfkator

Sammenhæng mellem systolsk blodtryk, alder og bodymass ndex () 1 1 Blodtryk > Obs nr (år) (kg/m ) 1 1. 1 1 1.9 7. 1. gruppe 1 1 1 1 1 Regressonslne pr - gruppe GR < - < < > < Regresson per gruppe: 1 De regressonslner er parallelle! Intercept Hældnng Estmat se estmat se > 11.... -. 1..91. < 11...1. Hypotese: Der er samme aldersafhængghed de grupper. er kke en effekt-modfkator 1 1 1 1 1 1 GR < - > Kan testes, p =.7 7 Antag ngen effekt-modfkaton 9% CI Estmat se Nedre Øvre Intercept 9.7 11.7. 11. >..9 1. 9. <<.9.9 -. 7. <... ALDER.7.1.1 1.1 1. > SystBT= 9.7+.+.7. < < SystBT= 9.7+.9+.7. < SystBT= 9.7+ +.7 Størrelsen af den tlfældge varaton: sd=11.9 Blodtrykket afhænger da også af kolesterol-tallet!?! Blodtryk Ny varabel om gen! Se-total Kolesterol (mmol/l) Obs nr (år) (kg/m ) gruppe 1 1. 1. 1 1.9. 7.. 1..1 9

1 11 1 1 1 1 1 1 estmeret regresonslne Se-total kolesterol (mmol/l) 9 7 estmeret regresonslne 7 9 11 Se-total kolesterol (mmol/l) 1 Systolsk blodtryk afhænger af alder: y = a+ b + " tlfældg varaton" Systolsk blodtryk afhænger af Se-total kolesterol: y = akolest + bkolest Kolest+ " tlfældg varaton" Men afhænger systolsk blodtryk af både og Se-total kolesterol? y= a + b + b Kolest+"tlfældg varaton" 1 Som kke kan forklares Som kke kan forklare! Som Kolest kke kan forklare! Bestem den bedste regressons-plan Standard 9% CI Estmat Error Nedre Øvre Intercept ( α ˆ). 1.. 9.1 ( ˆβ 1 ).99.1.1 1. Kolest ( ˆβ ).7 1.9.. Størrelsen af den tlfældge varaton: sd=1.7 Fttet (predkteret) værd (-årg, Se-total Kol=.): yˆ (Syst-BT) = aˆ + bˆ x() + bˆ x (Kolest) 1 1 =.+.99 +.7. = 1. af og Kolest! Tolknng af estmater: b ˆ 1 =.99 Forskel systolsk blodtryk mellem personer, der har samme kolesterol-tal, men den ene er 1 år ældre end den anden b ˆ =.7 Forskel systolsk blodtryk mellem personer, der er lge gamle, men den enes kolesterol-tal er 1 mmol/l højere end den andens Modelkontrol???, ja men komplceret! Kan blodtrykket afhænge af både, og Kolesterol?