Epidemiologi og Biostatistik

Relaterede dokumenter
Epidemiologi og Biostatistik

Korrelation Pearson korrelationen

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

MPH specialmodul Epidemiologi og Biostatistik

Multipel Lineær Regression

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Besvarelse af vitcap -opgaven

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Anvendt Statistik Lektion 7. Simpel Lineær Regression

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Modul 11: Simpel lineær regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Statistik Lektion 4. Variansanalyse Modelkontrol

Module 4: Ensidig variansanalyse

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Hb SS Hb Sβ Hb SC = , (s = )

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Reeksamen i Statistik for Biokemikere 6. april 2009

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Modul 12: Regression og korrelation

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Kapitel 12 Variansanalyse

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Løsning til eksaminen d. 14. december 2009

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Kapitel 11 Lineær regression

Kapitel 12 Variansanalyse

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Løsning eksamen d. 15. december 2008

Ikke-parametriske tests

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Morten Frydenberg 14. marts 2006

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

To samhørende variable

Morten Frydenberg 26. april 2004

Opgavebesvarelse, brain weight

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

En Introduktion til SAS. Kapitel 5.

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Generelle lineære modeller

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

To-sidet varians analyse

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Lineære normale modeller (4) udkast

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Regressionsanalyse i SAS

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Løsninger til kapitel 14

Transkript:

Epidemiologi og Biostatistik Kliniske målinger (Kapitel. +.1 + 11.-11 + 1.1-) Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag (forelæsning) intra- og interindividuel inden for person f.eks. dag-til-dag mellem personer Korrelation 1 Hvad influerer på en (klinisk) måling? Metode-relateret: Individ-relateret: målemetode person apparat helbredstilstand kalibrering af apparat tidspunkt (sæson, døgn) observatør??? hospital??? skilder Klinisk måling: vi forestiller os, at der er en underliggende/ukendt sand værdi, som vi forsøger at måle (for en given person, med en given helbredstilstand, til et givet tidspunkt etc) Ved gentagen måling med samme metode: en lidt anden værdi (som regel), fordi: metoden har en indbygget usikkerhed (tilfældig fejl) F.eks. normalfordeling!!! En perfekt metodes måleresultat er: nøjagtig sand værdi + en meget lille tilfældig fejl En upræcis metodes måleresultat er: sand værdi + en stor tilfældig fejl Hvis kalibreringen er unøjagtig bliver metodens måleresultat: sand værdi + systematisk fejl + en tilfældig fejl unøjagtig upræcis præcis En god metodes måleresultat er: sand værdi + meget lille systematisk fejl + meget lille tilfældig fejl Ved gentagen måling med en anden metode: en lidt anden værdi (som regel), fordi: forskellige systematiske fejl forskellige tilfældige fejl nøjagtig præcis

Mange målemetoder vil ud fra metodens underliggende fysiske og/eller kemiske principper være gode (nøjagtige og præcise) lungefunktion: måling af rumfang kemiske analyse: kromatografisk metode Måling på noget biologisk introducerer en række nye og måske ukendte skilder, f.eks. : fastende i hvile intra instruktion af patienten før målingen patienterne er forskellige inter 7 Variansanalyse prøver at kvantificere systematiske og tilfældige kilder til eksempler: målinger på samme individ med samme metode forskellige målemetoder på samme individ observatører (patologer), samme individ/præparat 8 målinger per person, samme metode: f.eks. een af disse situationer: uge1/uge morgen/aften før/efter behandling tilfældig? altid målefejl over tid: altid intra-individuel Se-cholesterol PEFR blodtryk systematisk forskel? Nej Ja, Astma Ja, Beta-blokker altid interindividuel PEFR (l/min) målt med Wright meter Person 1. måling. måling 1 7 1 1 1 : : : 11 17 1 1 7 7 1 78 1 178 1 1 7 17 7 1 Data fra Table 1.1 (s. 7) Antag:ingen preference mellem de målinger, f.eks. målt forskellige dage Ingen systematisk forskel mellem de målinger tilfældig : interindividuel intraindividuel målefejl Variation mellem de målinger inden for person: intraindividuel + målefejl Dette design kan ikke adskille intraindividuel og målefejl Antag: for en given person kan de målinger beskrives ved den samme normalfordeling F.eks. stor dag-tildag eller stor målefejl? For hver person beregnes gennemsnit og spredning (s) Personens underliggende/- sande niveau Personens intraindividuelle PEFR (l/min) målt med Wright meter Person 1. måling. måling gns s 1..8 7. 1.1 1 1 1..8 1 17.. : : : : : 11 17 18..1 1. 1. 1 7 7 71.. 1 78 8.. 1 178 1 171..1 1 7 7.. 17 7 1.. Tættere på den sande værdi s = spredning se = s for hver person (+ målefejl) 11 1

spredning Afhænger intraindividuel af personniveau?.... gennemsnit (gns) vs spredning (s)..... 8. gennemsnit Forløb OK, ingen trend Bemærk: spredningen (s) er usikkert bestemt! 1 PEFR (l/min) målt med Wright meter Person 1. måling. måling gns s 1..8 7. 1.1 1 1 1..8 1 17.. : : : : : 11 17 18..1 1. 1. 1 7 7 71.. 1 78 8.. 1 178 1 171..1 1 7 7.. 17 7 1.. fælles spredning s w = 1. w = within (mellem de målinger) Variation mellem personer 1 Variation mellem personer? Variation mellem personernes sande/underliggende niveauer De sande/underliggende niveauer er ukendte! Niveauet estimeres ved personens gennemsnit Usikkerhed på gennemsnittet: se (standard error = s w ) Derfor: hvis en mellem personer alene baseres på gennemsnittenes vil den også indeholde usikkerheden på gennemsnittet (se) og dermed en rest af s w Intraindividuel + måleusikkerhed 1 Den totale Glem strukturen i data og opfat de 17 x = observationer som een stikprøve. Det totale gennemsnit er gennemsnit af alle målinger = 7. l/min Den totale er en (spredningen) beregnet ud fra alle målinger: s Total ( xi x) 81. = = = 11. n 1 Den totale = inter- + intra-individuelle + målefejl 1 Table 1. (s. 7) fra bogen (variansanalyse-tabel) Intra-individuel + målefejl (within) Analysis of variance by subject for PEFR Source of Degrees of freedom Sum of squares Mean square Variance ratio (F) Between subjects 1 18. 7. 117.8 Residual (within subjects) 17 8.. Total 81. s =. = 1. Prediktionsinterval for forskel mellem målinger på samme person forskellige dage: Bemærk, subject 1 ± 1. sw + sw = ±.77 sw = ±. falder udenfor w 17 Table 1., fortsat Inter-individuel (between) Analysis of variance by subject for PEFR Source of Degrees of freedom Sum of squares Mean square Variance ratio (F) Between subjects 1 18. 7. 117.8 Residual (within subjects) 17 8.. Total 81. ( 7..) σ ˆ = = 11. b målinger pr individ Størrelsen af skilderne er næsten altid ordnet: Inter-individuel > intra-individuel (> målefejl) 18

Variansanalysetabellen kan bruges til at besvare spørgsmål som: Nyt forsøg: een måling pr individ. Hvilken vil vi forvente? Kombiner Between og Within erne: s Een måling ˆb sw 11. = σ + = Denne svarer altså til den vi vil forvente mellem de 17 personer, hvis vi kun har een måling pr individ (f.eks. den første). 1 målemetoder: Sammenligning under forskellige omstændigheder: standardiseret/kontrolleret prøve raske personer patienter Systematisk forskel: generelt niveau Eksempler på metodeforskelle: kun ved små/store værdier Slipper for: inter- og intraind. var. Tilfældig : større ved store værdier forskellige målefejl PEFR målt med Wright og Mini meter Person Wright (W) Mini (M) AVGWM (W+M)/ DIFWM (W-M) 1 1-18 1. - 1 18-8 1 7 88 - : : : : : 1 7. 7 1 78 77 77. 1 1 178 18. -81 1 8. 7 17 7 1 - Table 1. (s. 7) Mini 7 PEFR: metoder på 17 individer Person 1 Person 1 Wright 1 Perfekt overensstemmelse (Metoder ens) 7 1 Lineær regression? Mini (y) mod Wright (x)? Tolkning 1: Forklare (noget af) en i Mini (y) vha en i Wright (x)??? Tolkning : Prediktere Mini (y) vha Wright (x)??? Det kan være OK, hvis f.eks. Mini er en gold standard, der er dyr/besværlig at lave, og Wright er ny og simpel/billig metode Egenskaber ved gennemsnit og differens af de metoder: Hvis begge metoder formodes at være nogenlunde lige gode: gennemsnit tættere på sandheden differens variere symmetrisk omkring (ingen systematisk uoverensstemmelse) differens mellem de metoder tilfældig (den tilfældige uoverensstemmelse)

DIFWM Bland-Altman plot, PEFR: Mini vs Wright DIFWM forløber parallelt med x- akse DIF Bland-Altman plot, nyt eksempel DIF stigende tendens - - Person 1 Person 1 7 AVGWM DIFWM s konstant - - 7 AVG Den systematiske forskel afhænger af niveau Bland-Altman plot, nyt eksempel PEFR: Mini vs Wright, fortsat Hypotese: ingen systematisk forskel DIF DIF s ikke konstant t-test:.1 t = =. 8.77 17 DF = 1, p =.8 - CI (%) : ( -.; 17.8) Forudsat, differenser normalfordelt 1 Std. Dev = 8.77 - Mean = -.1 7 N = 17. -8. -. -. -..... 8. AVG DIFWM (Wright - Mini) Den tilfældige afhænger af niveau 7 8 Limits of agreement = Prediktionsinterval for forskel mellem de metoder (værdier målt med de metoder på samme person) PI( % ) = DIFWM ± 1. sd =. 1± 1. 8.8 = 78.1; 7. Jvf. prediktionsinterval for forskel mellem målinger med Wright = -.;. Jern i knoglemarv (Nanna M. Jensen, Randers Centralsygehus) To observatører har (uafhængigt af hinanden) bedømt indholdet af jern i den samme prøve af knoglemarv fra ialt 7 patienter med jernmangel (bedømt ud fra blodprøve) Observatør patient 1 1 Intet Intet Intet Nedsat Normalt Normalt Nedsat Normalt Nedsat Intet : : :

Observatør Observatør 1 Intet Nedsat Normalt Øget Total Intet 1 1 1 Nedsat 1 1 Normalt 1 Øget 1 Total 11 8 11 7 Antal 1 Intet O 1 Nedsat Normalt Øget Intet Nedsat Normalt Øget Intet Normalt O 1 Observatør Observatør 1 Intet Nedsat Normalt Øget Total Intet 1 1 1 Nedsat 1 1 Normalt 1 Øget 1 Total 11 8 11 7 Er der systematisk uenighed mellem de observatører? O 1 - O - - -1 1 Antal 1 1+ +1+ 1+++ ++1 + Sum 1 1 1 Enige O1 = O +1 O1 = O -1 Antager at forskel mellem Intet og Nedsat svarer til forskel mellem Nedsat og Normalt etc Nulhypotese: Er der symmetri omkring? Men: data ikke normalfordelt??? Signed Wilcoxon test, Forelæsning! Korrelation Mål for afhængigheden (associationen) mellem variable. I regression er der preference mellem de variable: en responsvariabel og en forklarende variabel BMI og Kolesterol (fra Uge, regression): Næppe prediktere kolesterol vha BMI eller omvendt? interessant Se-total kolesterol (mmol/l) 11 8 7 Er der en stigende tendens? Association mellem BMI og Kolesterol: en underliggende fælles årsag, f.eks. gener, livsstil, m.v. BMI

Begrebet korrelation har i statistisk forstand en præcis (sandsynlighedsteoretisk) definition. Korrelationskoefficienten ( ρ) er et tal mellem -1 og 1. Den måler den lineære afhængighed mellem variable (x og y). Hvis ρ = ±1 så ligger x og y præcist på en ret linie, dvs y = α + β x og ingen tilfældig 1, så er β Hvis ρ = + > 1, så er β < Hvis både x og y er kvantitative variable, kan korrelationskoefficienten estimeres ved Pearsons korrelationskoefficient (se Kap 11.). Den betegnes normalt r. Tolkning af denne koefficient (r) giver anledning til mange misforståelser. F.eks.: der er en god overensstemmelse mellem x og y, hvis r er tæt ved +1 eller -1 der er ingen sammenhæng mellem x og y, hvis r er tæt ved I praksis ligger observationerne aldrig på en ret linie! Se f.eks. bogen, s. 7, spørgsmål 7 og 8. 7 8 Se-total kolesterol (mmol/l) 11 8 7 Ombytning af x-og y- BMI r =. (Pearson) p=. Hypotesen: ρ = (ingen association) kan testes vha Pearsons korrelations-koefficient, men det kræver en række forudsætninger opfyldt. Både x og y normalfordelt og linearitet se og sikkerhedsinterval kan udregnes! men I slipper! Kap. 11., 18. Hvis den ene (eller begge) variabel er en kategorisk variabel med ordnede kategorier (f.eks. NYHA I, II, III og IV eller en smerte-score) kan man ikke beregne Pearsons korrelationskoefficient. Mere om det i Forelæsning. akse ændrer ikke r (og p) Den mest udbredte misforståelse! Sammenligning af metoder vha korrelation??? Hvis de metoder stemmer overens vil punkterne i x-y plottet ligge på en ret line, ergo korrelation = 1! Ja! Se-total kolesterol (mmol/l) 11 8 7 R =.8 = r =. Altså, hvis korrelationen er tæt på 1 stemmer de metoder (næsten) overens! Nej! BMI 1 Altså: Coefficient of determination = r PAS PÅ: matematisk ækvivalens, men forskellig tolkning

+ G FE DC BA R FE DC BA Eksempel. metoder til måling af Højde (cm). Stemmer method 1 og mere overens end method og? NEJ! "!# $%&' Klar systematisk forskel Perfekt overensstemmelse ) * (,!# $%&,- Eksempel. metoder til måling af Højde (cm). Stemmer method 1 og mere overens end method og? NEJ! 8@ 78: 7 7 Q@ ; <= >? ; ; OP= > ;... 1. / (. 1... / H"IJ KLM 8. /. 1 (. (. N H"IJ KLM,S 78: 7... 1. / Stor tilfældig forskel Variation i forskellen mellem de metoder Lille tilfældig forskel Ingen systematisk forskel Laves lineær regression i de eksempler fås i begge tilfælde Skrives gange R =. =.81, hhv R =.8 =. Men dette siger intet om hvor de regressionslinier ligger i forhold til identitetslinien ( α =, β = 1) 1.. Vi har lært: Korrelation måler ikke størrelsen af: 1. den systematiske forskel. den tilfældige forskel HUSK DET NU!