Korrelation Pearson korrelationen

Relaterede dokumenter
Epidemiologi og Biostatistik

Epidemiologi og Biostatistik

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Morten Frydenberg Biostatistik version dato:

23. februar Epidemiologi og biostatistik. Uge 5, mandag 27. februar 2006 Michael Væth, Institut for Biostatistik.

Morten Frydenberg 14. marts 2006

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Morten Frydenberg 26. april 2004

Lineær og logistisk regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Darts et eksempel på målefejl

Multipel Lineær Regression

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

9. Chi-i-anden test, case-control data, logistisk regression.

Statistik II 4. Lektion. Logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993.

Anvendt Statistik Lektion 7. Simpel Lineær Regression

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

1 Hb SS Hb Sβ Hb SC = , (s = )

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Eksempler på målefejl

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Besvarelse af opgavesættet ved Reeksamen forår 2008

Modul 12: Regression og korrelation

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Statistik kommandoer i Stata opdateret 22/ Erik Parner

Morten Frydenberg Biostatistik version dato:

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Hver anden vil benytte øget åbningstid i dagtilbud

MPH specialmodul Epidemiologi og Biostatistik

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Statistik kommandoer i Stata opdateret 16/ Erik Parner

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Lægevidenskabelig Embedseksamen, 6. semester Forår 2009 Epidemiologi og Biostatistik Rettevejledning

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Forsøgsplanlægning Stikprøvestørrelse

Morten Frydenberg 25. april 2006

Basal Statistik Kategoriske Data

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

1 Multipel lineær regression

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Intern validitet: Fejlkilder og tolkningsproblemer i epidemiologiske undersøgelser

1 Multipel lineær regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Statistik Lektion 16 Multipel Lineær Regression

SKRIFTLIG EKSAMEN I BIOSTATISTIK OG EPIDEMIOLOGI Cand.Scient.San, 2. semester 20. februar 2015 (3 timer)

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Modul 6: Regression og kalibrering

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Estimation og usikkerhed

Statistisk modellering og regressionsanalyse

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Opgavebesvarelse, brain weight

Løsninger til kapitel 14

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Måleproblemer. Fejlkilder og tolkningsproblemer. Usikkerhed og bias. Stikprøveusikkerhed. Epidemiologi og Biostatistik (version

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Kapitel 11 Lineær regression

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Lineære normale modeller (4) udkast

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Logistisk regression

Transkript:

-9- Eidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Korrelation Kliniske målinger - Kliniske målinger og variationskilder - Estimation af størrelsen af de tilfældige variationskilder - Sammenligning af to målemetoder/målinger Logistisk regressionsanalyse - Generelt om logistisk regressionsanalyse Korrelation Pearson korrelationen Korrelationer måler generelt styrken af afhængigheden (associationen) mellem variable. Formål med simel lineær regressionsanalyse: Beskrive sammenhængen mellem to variable. Prædiktere en variabel ud fra en anden variabel. Formål med korrelationsanalyse: - Kvantificere styrken af sammenhængen med ét tal. Der findes mange lige korrelationer. Her vil vi kigge å én af disse: Pearson korrelationen. Pearson s korrelationskoefficient er et mål for styrken af en lineær sammenhæng mellem to variable. Begge variable skal være normalfordelt. Korrelationskoefficienten ρ er et tal mellem - og. Hvis ρ : så ligger x og y å en ret linie med ositiv hældning. Hvis ρ -: så ligger x og y å en ret linie med negativ hældning. Hvis ρ : ingen sammenhæng/ en vandret linie. I raksis ligger observationerne aldrig å en ret linie! Et Sikkerhedsinterval for korrelationen kan udregnes (se bogen side 9-9). Hyotesen: ρ (ingen association) kan testes og giver samme -værdi testet for β (hældningen) i den lineær regression fra dag. Se-total kolesterol (mmol/l) 9 8 7 : BMI og Kolesterol BMI Der er en statistisk signifikant sammenhæng. Association mellem BMI og Kolesterol kunne skyldes en underliggende fælles årsag, f.eks. gener, livsstil m.v. dvs ingen direkte sammenhæng. r. (Estimat for Pearson korrelationen) Test ρ :. R.8 r. Fortolkning af Pearson korrelationen: r andel forklaret variation R (se også dag ) Korrelation og sammenhæng Hvis den ene (eller begge) variabel er en kategorisk variabel med ordnede kategorier (f.eks. NYHA I, II, III og IV eller en smerte-score) bruges ofte Searman korrelationen. Mere om det i Forelæsning. Misforståelser om korrelationen (del ) Tolkning af Pearson korrelationen (r) giver anledning til mange misforståelser. F.eks. ses ofte i artikler: Korrelation og sammenhæng : der er ingen sammenhæng mellem x og y, hvis r er tæt ved. Husk: korrelationen måler den lineære sammenhæng!

-9- Kliniske målinger Klinisk måling: vi forestiller os, at der er en underliggende/ukendt sand værdi, som vi forsøger at måle. - for en given erson, med en given helbredstilstand, til et givet tidsunkt etc. Hvad influerer å en klinisk måling? Ved gentagen måling med samme metode fås en lidt anden værdi (som regel) fordi metoden har en indbygget usikkerhed (tilfældig fejl). Andre faktorer der influerer å en klinisk måling: Individ-relateret: erson helbredstilstand tidsunkt (sæson, døgn) fastende i hvile instruktion af atienten før målingen Metode-relateret: målemetode aarat kalibrering af aarat observatør hosital??? målefejl Kan ofte beskrives ved en normalfordeling 7??? variationskilder 8 PEFR (l/min) 7 Estimation af størrelsen af de tilfældige variationskilder En stikrøve af PEFR målinger, målt med Wright. Mean l/min SD l/min 9% PI: -78 l/min Hvor meget af variationen i PEFR (målt med Wright) skyldes variation mellem ersoner (biologisk variation) variation indenfor erson (dag-til-dag variation+målefejl)? Variationskilderne inddeles ofte i: inter-individuel variation intra-individuel variation målefejl 9 Klinisk måling intra-individuel variation Dag interindividuel variation ersonens niveau ersonens (sande) værdi den ågældende dag observation Variationskomonenter Inter-individuelle variation: Hver erson har et underlæggende niveau (sande værdi). Den interindividuelle variation beskriver variationen i ersonernes niveau. Også kaldet den biologiske variation. Eks: ersonens niveau kunne være gennemsnittet af målingerne over mange dage. Intra-individuelle variation: Personens sande værdi afhænger af under hvilken omstændighed den bliver målt. Variationen i de sande værdier indenfor ersonen kaldes for den intra-individuelle variation. Eks: den intra-individuelle variation kunne være dag-til-dag variationen i de sande værdier. Målefejl: Variationen af målingerne hvis vi måler flere gange lige efter hinanden. Person : 7. måling 9 9 : 78 78 7 - evaluering af en målemetode PEFR (l/min) målt med Wright meter. måling 9 97 : 9 7 Nyt forsøg! målt lige dage Ingen systematisk mellem de målinger

-9- PEFR (l/min) 7 PEFR Gennemsnit Dette design kan 8 8 ikke adskille intra-individuel Person no. variation og Inter-individuel variation målefejl variationen af gennemsnittene usikkerhed å gennemsnittene Variationskilderne Intra-individuel+målefejl En Variansanalyse kan kvantificere de systematiske og tilfældige kilder til variation: Udfra lene mellem første og anden måling fås: s sredningen indenfor erson (within) s sredningen mellem ersoner (between). l/min variationen omkring gennemsnittene b w. l/ min Udfra s w og gennemsnittene mellem første og anden måling fås: s s s Een måling b + w. l/ min Resultaterne kan bruges til at besvare sørgsmål som: A. Hvor stor en andel udgør den biologiske variation? Andel.. 98% B. Prædiktionsinterval for mellem målinger å samme erson å lige dage: ± + ± 7 ± l/min.9 sw sw.7 sw. C. Teste hyotesen: σ b.9 (Ingen mellem ersonerne) Sammenligning af to kontinuerte målinger -To målinger å samme individ - feks sammenligning af to målemetoder Systematisk : generelt Eksemler å metodele: len afhænger niveauet af målingerne Tilfældig variation: lige måleusikkerhed større ved store værdier Analysen afhænger af den man vil beskrive. Data: PEFR målt med Wright og Mini meter Person Wright Mini AVG Dif (W-M) 9-8 9. - 8-8 : : : : : 78 77 77. 78 9 8. -8 8. 7 7 7 9 - Mini 7 PEFR: metoder å 7 individer Perfekt overensstemmelse 7 7 Wright Lineær regression ikke interessant!! 8

-9- -8. -. -. Analyse Mini versus Wright (fortsat) -... DIFWM (Wright - Mini).. 8. Std. Dev 8.77 Mean -. N 7. DIF. se( DIF ) 8.8 7 9. CI( DIF)( -. ;.) 9% PI():.±.9 8.8 9% PI() : 9% Limits of agreement ( 78.; 7.9) l/min Forudsat, differenserne normalfordelt Prædiktionsinterval for mellem værdier målt med de metoder å samme erson. 9 DIF (Wrigth-Mini) DIFWM - - Afhænger len af ersonens niveau? 7 AVGWM Gennemsnit Bland-Altman lot (PEFR: Mini vs Wright) DIF forløber arallelt med x- akse DIF s variation konstant De yderste to røde linier angiver 9% CI for middellen mellem de to metoder og de to sorte stilede linier angiver 9% limits of agreements. Bland-Altman lot: hvis len afhænger af niveau Misforståelser om korrelationen (del ) DIF - A - 7 AVG Den systematiske afhænger af niveau DIF - - B 7 AVG Den tilfældige variation afhænger af niveau Korrelation og sammenligning af målemetoder: korrelationen beskriver overensstemmelsen mellem målemetoder x og y. F.eks. der er en god overensstemmelse mellem x og y hvis r er tæt ved. Men korrelationen måler ikke overensstemmelsen: A. Korrelationen måler ikke den systematiske B. Korrelationen måler ikke den tilfældige Korrelation og sammenligning af målemetoder - A: metoder til måling af Højde (cm). Stemmer metode og mere overens end metode og? Klar systematisk Perfekt overensstemmelse Ingen systematisk Bland-Altman lot: Korrelationen måler ikke størrelsen af den systematiske.

-9- Korrelation og sammenligning af målemetoder - B: metoder til måling af Højde (cm). Stemmer metode og mere overens end metode og? Bland-Altman lot: Stor tilfældig Variation i len mellem de metoder Lille tilfældig Korrelationen måler ikke størrelsen af den tilfældige. Logistisk regressionsanalyse Resonsen (y) er en dichotom variabel, f.eks. - oeration for diskusrolas: sucess/ikke-sucess. - i live efter mdr: ja/nej. - fødselsvægt < gram: ja/nej. Den logistiske regressionsmodel beskriver hvordan sandsynligheden for hændelsen () afhænger af forklarende variable x,,x m via logaritmen til odds for hændelsen (o) ved logit( ) ln( ) ln( o) ln( o) α + β x +... + β m xm 7 Lineær- versus logistisk regressionsanalyse Lineær regressionsanalyse: Resonsen (y) er en kontinuert variabel, f.eks. blodtryk, PEFR eller FEV. Resonsen afhænger af forklarende variable x,,x m ved y α + β x + + β x + "tilfældig variation"... m m Logistisk regressionsanalyse: Resonsen (y) er en dichotom variabel og logaritmen til odds for begivenheden (o) afhænger af de forklarende variable x,,x m ved ln( o) ln( ) α + β x +... + β m x m 8 Prædiktion af sandsynligheden for kejsersnit. Resonsvariabel: Kejsersnit: ja/nej ( sandsynligheden for kejsersnit) Forklarende variable: BMI: kontinuert variabel Induction: ja/nej (ja, nej) Prev. vag. del.: ja/nej (ja, nej) Preliminære analyser viser: - BMI associeret med kejsersnit - Induction associeret med kejsersnit - Prev. vag. del. associeret med kejsersnit 9 Formål med regressionsanalysen i eksemlet: Er der stadig en associationen mellem BMI og kejsersnit når vi korrigerer for Induction og Prev. vag. del. (PVD)? Resultat: BMI Induction PVD Coef..88.7 -.79 Std. Err....98.. -. -value <.. <. 9% CI.9 to.8.8 to.7 -.8 to -. Intercet -.7. -.9 <. -.77 to -. ln( o) α + β BMI+ β Induction + β ln( ).7 +.88 BMI+. 7 Induction -.79 Test af hyotesen om ingen associationen mellem BMI og kejsersnit når vi korrigerer for Induction og PVD: β : Estimat (.88), 9%SI (.9 to.8) og -værdi (<.) fremgår af tabellen. z

-9- Hvordan skal vi fortolke dette resultat? l n( ô ).7 +.88 BMI +.7 Induction -.79 hvis "ja" hvis "ja" Induction PVD ellers ellers : sandsynligheden for kejsersnit Betragt en kvinde med: BMI kg/m, Induction, PVD Indsættes dette i regressionsligningen fås: ln( o ˆ).7 +.88 +.7 -.79.9 o ˆ ex(.9). ˆ.8 CI kan I ikke udregne! + : effekten af Induction Hvis Induction: ln( ).7 +.88 +.7 -.79.9 ˆ. Betragt to kvinder: Kvinde : BMI kg/m, Induction, PVD Kvinde : BMI kg/m, Induction, PVD OR kan estimeres ud fra de to odds fra før:.9 OR.9 CI? o ˆ. Kvinde har altså dobbelt så stor risiko (odds) for kejsersnit i forhold til kvinde. Hyotese: Kunne OR være? (eller?) Odds ratioen kan også udregnes som: ex( ˆ ˆ ˆ ˆ α + β BMI + β Induction + β ) OR o ˆ ex( ˆ α + ˆ β BMI + ˆ β Induction + ˆ β ) ex( ˆ β Induction) ex( ˆ β Induction) ex( ˆ β ) ex( ˆ β ) ex( ˆ β ) ex(.7).9 ex( ˆ α ) ex( ˆ β BMI ) ex( ˆ ) ex( ˆ β Induction β ) ex( ˆ) ex( ˆ ) ex( ˆ ) ex ( ˆ α β BMI β Induction β ) Samme OR som før! CI( OR ): (ex(.8),ex(.7)) (.,. 9) Vi får udregnet CI vha CI(β ):(.8;.7)! CI( OR ): (ex(.8),ex(.7)) (.,. 9) Udfra sikkerhedsintervallet for OR kan vi vurdere hyotesen OR hvillket svarer til β ln( OR)!!! Vi kan også teste hyotesen OR ved at teste β. Af tabellen fås se( ˆ β ). Tilsvarende kan hyotesen OR undersøges. Bemærk: Resultatet bliver det samme uanset hvad BMI og PVD er. Der er med andre ord i regressionsligningen l n( ô ).7 +.88 BMI+.7 Induction -.79 PVD antaget ingen effektmodifikation mellem BMI, Induction og PVD! Betragt to kvinder: : effekten af BMI Kvinde : BMI kg/m Kvinde : BMI 7 kg/m hvor alt andet er lige ex(7.88 OR ) ex((7 ).88) ex(.88). ex(.88) CI ( OR) : ( ex(.9),ex(.8)) (.,.) Betragt to andre kvinder: Kvinde : BMI 8 kg/m Kvinde : BMI kg/m hvor alt andet er lige ex(.88) ex( ˆ ( )) ex( ˆ OR ) BMI BMI β BMI BMI β. dvs. samme OR!!! Det er sjældent at estimaterne bliver ogivet. I stedet beregnes assende OR: Tabel for OR Odds ratio -value 9% CI BMI Induction PVD.9.9. OR en for BMI svarer til en BMI å kg/m. Ofte vil det være tabellen for OR, som er angivet i en artikel. OR en svarende til en BMI å kg/m fås ved OR.9. <.. <. ( OR ).,. ), ) CI : ( (... to.. to.9.9 to.98 Vi har i regressionsmodellen antaget, at effekten af en BMI å kg/m er uafhængig af størrelsen å BMI. Er det rimeligt?

-9- Generelt gælder: hvis to ersoner har værdierne Kommentarer til logistisk regressionsanalyse Person : BMI, Induction, PVD BMI -BMI Induction -Induction PVD-PVD OR OR BMI ORInduction ORPVD CI kan I ikke udregne! Person : BMI, Induction, PVD da vil OR for erson i forhold til erson være α i den logistiske regressions model er ln(odds)for en reference erson; en erson med alle x-værdier sat til. Analyseres en x tabel vha logistisk regression med en forklarende/uafhængig varíabel (feks +/- ex) fås det samme estimat som når den almindelige OR estimeres. Hvis en kategorisk variable med feks k kategorier skal med som forklarende/uafhængig varíabel skal der bruges (k-) x-variable (kodet f.eks eller ) 7 8 Kommentarer til logistisk regressionsanalyse Estimation af α, β,, β m og se er m.v. er komliceret, men kan laves af de fleste statistikrogramakker. Den logistiske regressionsanalyse bør kun anvendes hvis antallet af observationer er rimeligt stort. En tommelfingerregel er: - der bør være MINDST ja er og nej er for resonsen (men helst af hver), for hver forklarende variabel i modellen. En variant, betinget logistisk regressionsanalyse, anvendes for matchede data. Analysen anvendes ofte i case-control studier hvor cases og kontroller er matchede mht. otentielle risikofaktorer. 9 Resumé: Korrelationer (se mere næste gang): Bliver ofte brugt (og misbrugt) Husk å antagelserne Kliniske målinger: Hvad bidrager til variationen Sammenlignin/evaluering af målemetoder Logistisk regression: En model for ln(odds) Parametrene i model kan transformeres til OR Nogle lighedsunkter med andre regressionsmodeller 7