23. februar Epidemiologi og biostatistik. Uge 5, mandag 27. februar 2006 Michael Væth, Institut for Biostatistik.

Relaterede dokumenter
2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Morten Frydenberg Biostatistik version dato:

Korrelation Pearson korrelationen

Morten Frydenberg Biostatistik version dato:

Morten Frydenberg 14. marts 2006

Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.

Statistik kommandoer i Stata opdateret 22/ Erik Parner

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

Statistik kommandoer i Stata opdateret 16/ Erik Parner

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Morten Frydenberg 26. april 2004

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Dag 6: Interaktion. Overlevelsesanalyse

Introduktion til overlevelsesanalyse

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Epidemiologi og Biostatistik

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

1 Hb SS Hb Sβ Hb SC = , (s = )

Lineær og logistisk regression

Øvelse 7: Aktuar-tabeller, Kaplan-Meier kurver og log-rank test

Løsning til eksaminen d. 14. december 2009

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Besvarelse af opgavesættet ved Reeksamen forår 2008

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Epidemiologiske associationsmål

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Modul 12: Regression og korrelation

Statistiske principper

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

Morten Frydenberg 25. april 2006

Ikke-parametriske tests

Epidemiologi og Biostatistik

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Statistik II 4. Lektion. Logistisk regression

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Statistik II 1. Lektion. Analyse af kontingenstabeller

Epidemiologiske associationsmål

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Basal Statistik Kategoriske Data

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Postoperative komplikationer

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mål for sammenhæng mellem to variable

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

MPH specialmodul Epidemiologi og Biostatistik

Kursus i anvendt onkologisk statistik og forskningsmetodik Dag 2. Jon K. Bjerregaard

Anvendt Statistik Lektion 8. Multipel Lineær Regression

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Tema. Dagens tema: Indfør centrale statistiske begreber.

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Løsning til eksaminen d. 29. maj 2009

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

Kapitel 7 Forskelle mellem centraltendenser

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Logistisk Regression - fortsat

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Multipel Lineær Regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Estimation og konfidensintervaller

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Løsning eksamen d. 15. december 2008

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 7: 23. marts

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Hypotesetests, fejltyper og p-værdier

Susanne Ditlevsen Institut for Matematiske Fag susanne

Kapitel 11 Lineær regression

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Hver anden vil benytte øget åbningstid i dagtilbud

Forelæsning 11: Kapitel 11: Regressionsanalyse

Transkript:

... februar 1 Eidemiologi og biostatistik. Uge, mandag. februar Michael Væth, Institut for Biostatistik. Ikke arametrisk statistiske test : Analyse af overlevelsesdata (ventetidsdata) Censurering (højre + andet) Kalan-Meyer kurver Den basale idé: rangordning Co roortional hazard model To gruer: Mann-Whitney / Wilcoon testet Parret data (symmetrisk fordeling): Wilcoon signed rank Association: Test baseret å Searman s rang korrelation Det statistiske modelbegreb Modelselektion Ikke-arametrisk statistiske test Ikke-arametriske test (ordinale data) Hidtil (arametrisk statistik): Ukendt størrelse (arameter) f.eks OR, middelfødselsvægt eller lign. Estimat og standard error. Sikkerhedsinterval. Hyotese (f OR = 1). Test baseret å z = (estimat-hyotese)/se. Resultaterne bygger å en statistisk model. Baseres ikke å et arameter estimat. Men ofte å de rangordnede data. Bygger også å statistiske modeller. Men der er svagere antagelser bag dem. Ofte rang-test: De ræcise observationsværdier har ingen betydning. Men det har rangene: Hvilken observation er mindst Rang=1 Hvilken observation er næstmindst Rang= Hvilken observation er trediemindst Rang= osv Et eksemel å Mann-Whitney-Wilcoon test IKKE RYGER RANGORDNING RYGER Table.1 (.1) Fødselsvægt (kg) IKKE RYGER.99..1.1.9.....1..9...1. RYGER.....9....99.9...1 1....1..1 19 1.1...1.1 9 11 1 1.1..9..... 1.. Gennemsnitsrang: 1.9. 9... 1.9... 1 1.1.1.1.. Vi ønsker at teste hyotesen: Ingen forskel i fødselsvægt. ryger Idé: Sammenlign gennemsnitsrangen blandt ikke-rygere med gennemsnitsrangen blandt rygere. ikke ryger... fødselsvægt Er der forskel? Ækvivalent: Beregn forskellen mellem rangsummen blandt rygere og den rangsum, som forventes, hvis hyotesen er sand. Vurdér denne forskel i forhold til usikkerheden å rangsummen. 1

. februar En stor forskel vil være kritisk for hyotesen. P-værdi = sandsynligheden for at observere en større forskel under antagelse af hyotesen er sand! Beregning ved hjæl af comuter eller tabel (K&S A). -værdi=9. Konklusion: Data strider mod hyotesen. Hyotesen kan ikke acceteres! Præcist samme test hvis vi regnede å ln-data. Eller en hvilken som helst monoton transformation. Kun rangordningen betyder noget. Testet kaldes Mann-Whitney U-test eller Wilcoon two-samle test. Generelt: Mann-Whitney U-test ækvivalent med Wilcoon two samle test Data: To uafhængige sæt (ordinale) observationer. Hyotese: De to fordelinger er ens. Alternativ: De to fordelinger er forskudt i forhold til hinanden. Ide: Hvis alternativet er sandt vil gennemsnitsrangen være forskellig i de to gruer. Hvis hyotesen er sand så vil gennemsnitsrangene være næsten ens. P-værdi vha. af comuter eller tabel. Et eksemel å signed Wilcoon test En stikrøve eller arrede data Table. (.) Placebo-kontrolleret klinisk undersøgelse af soveillers betydning for søvnlængde (timer). Patient Aktiv Placebo Differens Differens Rang 1.1..9.9..9-1.9 1.9..9.....9.9.. 1. 1... -...9.....1.. 1 9.... 9.. -1. 1. Rangordning af de numeriske værdi af differenserne (dvs glem fortegnet) 9 Hyotese: Ingen forskel mellem de to behandlinger. Man vil så forvente at der er cirka lige mange ositive og negative differenser og at ositive og negative differenser har ens fordelinger. Idé: Se å forskellen i sum af rangene af de ositive og negative differenser. Det samme som at se å summen af rangene i den ene grue, da summen af alle rangene kun afhænger af stikrøvens størrelse. Husk: Rangene beregnes uden fortegn. P-værdi = sandsynligheden for at observere en større forskel under antagelse af hyotesen er sand! I eksemlet sum af negative differensers range = 1 Beregning ved hjæl af comuter eller tabel (K&S A). -værdi=.. Konklusion: Data strider ikke mod hyotesen. Hyotesen kan acceteres! Ikke samme test hvis vi transformerede data inden vi beregnede differensen. F et andet resultat hvis vi så å relative forskelle. Testet hedder Wilocon signed-rank test. 11 Generelt: Wilcoon signed rank test. Data: Et sæt uafhængige observationer. Hyotese: Fordelingen er symmetrisk om. Alternativ: Fordelingen er ikke symmetrisk om. Ide: Hvis alternativet er sandt vil rangsummene for de ositive og negative tal være forskellige. Hvis hyotesen er sand så vil rangsummene være næsten ens. P-værdi vha. af comuter eller tabel. Bruges ofte ved arrede data - der regnes å differensen! 1

. februar Et eksemel å test for ingen sammenhæng mellem to variable (se også andet eksemel: K&S side 9-) Incidens af Kaosi's sarcoma i Tanzania 1 Forudsætninger for lineær regression ikke ofyldt! (Derfor) beregning af Pearson korrelation uden mening. Hvad så! 1 Kan vi nøjes med et test? Til en start: Ja!? Hyotese (som sædvanlig): Ingen sammenhæng. Incidens er mio år % befolkning indenfor km fra sundhedscenter Er der en sammenhæng/association? Idé: Rangordne erne samt y erne og beregn korrelation mellem rangene. Korrelation langt væk fra kritisk. P-værdi = sandsynligheden for at observere en korrelation længere væk fra under antagelse af hyotesen er sand! Beregning ved hjæl af comuter eller tabel. Korrelation mellem rangene =.. -værdi=.1 Konklusion: Data strider ikke mod hyotesen. Hyotesen kan acceteres! Incidens er mio år Incidens af Kaosi's sarcoma i Tanzania % befolkning indenfor km fra sundhedscenter 1 Generelt: Test for ingen association baseret å Searman s korrelation Data: Uafhængige ar (,y) af observationer. Hyotese: Ingen association mellem og y. Alternativ: Monoton association. Ide: Hvis alternativet er sandt vil rangene af erne være korrelerede med rangene af y erne. 1 Præcist samme test hvis vi regnede å ln() og y. Eller ln() og y. Eller en hvilkensomhelst monoton transformation. Kun rangordningerne betyder noget. Testet hedder Searman s rang korrelation Searmans rho (ρ) Searman s korrelation beregnes. Hvis hyotesen er sand så vil denne korrelation være tæt å. P-værdi vha. af comuter eller tabel. Searman s korrelation er ikke mulig at fortolke! Men testet er godt nok! y Pearson og Searman korrelationer (1) Eksemel 1 Pearson.1 Searman.99 1 y Pearson og Searman korrelationer () Eksemel Pearson. Searman. 1 Pearsons korrelationskoefficient er meget følsom overfor outliers. (i tvivl brug Searmans )

. februar y Pearson og Searman korrelationer () Eksemel Pearson. Searman -. Lav en tegning før Pearsons korrelationskoefficient findes! Det kan være at den er meningsløs eller misvisende! Når man læser artikler: Overvej: ved forfatterne hvad de gør! 19 Ikke arametrisk test: Godt elle skidt?? For: Svage antagelser. Kan også bruges å ordinal data som meget godt; godt; rimeligt; dårligt; meget dårligt stadieinddeling af cancer (sredning). Stort set lige så stærke som arametriske test (gælder dog ikke hvis man har få data). Imod: Der er tale om test, ingen estimater med CI. Bruges ofte bevidstløst (svage antagelser = ingen antagelser?). Kan kun bruges til simle roblemstillinger. Overlevelses (ventetids) data I follow-u studier ses ofte å ventetider: Tid til død af kræft efter kræft diagnose. Ventetid til oeration. Tid mellem galdestensoeration og fund af ny galdesten. Sådanne data er ofte censurerede, dvs man kender ikke den ræcise ventetid: Personerne dør af anden årsag end kræft. Personerne er i live da studiet slutter. Den oererede får ikke galdesten inden studiet slutter. Den oererede flytter til et andet amt/land. Mest almindeligt: Højre censurering: Vi ved kun hvornår ersonen sidst var rask/i live 1 Metoderne til analyse af højre-censurerede ventetidsdata omfatter: Kalan-Meyer lot: Metode til at beregne/tegne ventetidsfordelingen under hensyntagen til højre censureringen. Log-rank test: Tester hyotesen: Samme ventetidsfordeling i to gruer. Co s roortional hazard model: Regressions analyse af ventetids data. Giver estimater af rate ratio er å log skala. Minder meget om logistisk regression. 1... K&S eksemel.. Overlevelse for atienter med leversygdom Kalan-Meier survival estimates, by cenc Fortolkning: Kurverne er viser sandsynligheden for at være i live som funktion af tid siden behandlingsstart for de to gruer 1... Alternativ ræsentation: Risikoen for at dø som funktion af follow-u tid = 1 minus overlevelsesfunktion Kalan-Meier failure estimates, by cenc Risikoen for at dø inden dag er.%. Efter dage er chancen for at være i live.% cenc = cenc = 1. cenc = cenc = 1

. februar Sammenligning af overlevelsesfunktioner Definitioner og sammenhænge: Hyotese: Overlevelsesfunktionerne i de to gruer er identiske, dvs S 1 (t) = S (t) for alle t S( t ) = Overlevelse/Survival funktion Eksemlet: Outut fra en analyse med rogramakken Stata Log-rank test for equality of survivor functions Events Events cenc observed eected.9 1.1 Total 9 9. chi(1) =. Pr>chi = 1.... Kalan-Meier survival estimates, by cenc P-værdi: Sandsynligheden er meget lille for at få to Kalan-Meier kurver som mindst lige så forskellige, hvis overlevelsen ikke afhænger af central cholestasis. Konklusion: Hyotesen S 1 (t) = S (t) for alle t forkastes cenc = cenc = 1 h(t): hazard/intensitet til tidsunktet t. sands. for at 'dø' inden t + t givet man er i live til tid t h( t) = t ( ) t S ( t) = e h( u) du Hazard funktionen beskriver den øjeblikkelige dødsrisiko er tidsenhed, dvs den teoretiske dødsrate I analyser af ventetidsdata benyttes sædvanligvis modeller som bekriver hvorledes rognostiske faktorer åvirker denne rate. Analyse af ventetidsdata med antagelse om roortionale hazards (roortionale rater) Eksemlet: Prognostisk faktor: Central cholestasis, ja (1), nej () Antag at raterne er roortionale, dvs h ( t) = θ h ( t) 1 Parameteren θ beskriver hvor meget raten for ja -gruen er forøget, dvs en rate ratio eller en hazard ratio Estimation: Et comuter rogram giver ˆ θ =. 9% CI :.,. % større dødelighed hvis man har Central Cholestasis Survival Probability 1..... Observed: cenc = Observed: cenc = 1 Predicted: cenc = Predicted: cenc = 1 Rimelig overensstemmelse Man kan udvide denne model til at tage hensyn til flere ting å en gang (som multiel/logistisk regression). Modellens arametre beskriver effekter (rate ratio er) å en log-skala En metode er Co roortional hazard model 1 θ θ θ h( t) = h ( t) 1 ( ) = ( ) e( β1 1 + β + + β ) h t h t hvor θ1 = e( β1) o.s.v. Eller ln[ h( t) ] = ln [ h ( t )] + β + β + + β 1 1 Intet konstantled (α) men i stedet kurven ln[h (t)]. ( 1,,..., ) i formlen er enten kodet (/1) fra dikotome kategoriske variable eller kontinuerte variable (vægt, bmi osv.); dette gælder også i multiel- og logistisk regression. h (t) er baseline hazard svarerende til hazardkurven for en reference erson med alle er lig. Hazard kurven for en vilkårlig erson er h ganget med e(β 1 1 + β +... +β ) 9 K&S eksemel.. Overlevelse for atienter med leversygdom Vi ser å følgende tre rediktorer: Behandling: Aktiv versus lacebo Central Cholestasis, ja/nej Patientens alder i år. Sammenligner man to ersoner der er ens mht (,..., ) og med en forskel å 1 i 1 er h (t)/h (t) = e(β 1 ) = θ 1 hazard ratio (rate ratio), uafhængig af t! Dvs. konstant rate ratio. Co s roortional hazard model minder meget om logistisk regression. OUTPUT Prediktor behandling central chol alder reg.coeff -.19 1.. s.e.1..1 HR.. 1. lower 9% CI.. 1. uer 1.. 1. Aktiv behandling formindsker dødsraten med 1% - ikke statistisk signifikant. Alder: Dødsraten vokser med en faktor 1. er år.

. februar Ventetids data kan således være: Højre censureret: Vi ved, at ersonen ikke har olevet begivenheden før sidste gang vi ser ham. Men kan også være: Venstre censureret: Vi ved, at ersonen har olevet begivenheden inden vi ser ham første gang, men ikke hvornår. Interval censureret: Vi ved, at ersonen har olevet begivenheden i givet tidsinterval, men ikke hvornår. Data er ofte interval censurerede: Vi ved, atienten var rask ved forrige kontrol, men nu er han/hun syg. Vi ved ikke, hvornår det skete. Interval censurerede data er svære at analysere. 1 Der kan også være andre roblemer med data: Vi ved ikke om ersonen har olevet begivenheden inden vi ser ham første gang. Vi ved ikke om ersonen har olevet begivenheden i et givet tidsinterval. Patienter var rask ved forrige kontrol og er det også nu. Har han været syg i mellemtiden? Personer indgår kun hvis de har overlevet. Det er kun højre censurerede data, der er lette at analysere - en comuter med relevant software er dog fordel! For at bruge formlerne i K&S kaitel skal man have adgang til data for de enkelte ersoner. Bag alle beregninger af: Statistiske modeller Estimater, se, sikkerhedsintervaller, test og -værdier ligger en statistisk model. Modellen er en aroksimation til virkeligheden. Valget af model er et valg mellem: komliceret model ofte god aroksimation simel model ofte dårlig aroksimation komliceret model svær at forstå og analysere simel model let at forstå og analysere En model skal vælges så komliceret, at den ikke er helt forkert og så simel, at den er til at analysere og forstå. Modellen er tyisk baseret å antagelser, så som: de enkelte observationer er uafhængige. målefejlen er normalfordelt. variationen mellem individer er normalfordelte. Ln(odds) kan skrives som en sum af forskellige bidrag. bidraget fra alder afhænger ikke af ersonens køn. (ingen effektmodifikation) OR stiger eksonentielt med forskellen i BMI. Hvis antagelserne ikke er (næsten) rigtige bliver resultaterne værdiløse. Derfor bør en statistisk analyse altid inkludere en vurdering af om metodens forudsætninger er rimelige (modelkontrol). Modelselektion Ofte er den model man får ræsenteret i en artikel ikke den eneste forfatterne har fittet til data. Man får kun ræsenteret den bedste. Modellen er selekteret (udvalgt). Bevidst eller ubevidst. Manuelt eller automatisk (PC: Find den bedste model!). Modelselektion har (desværre) betydning for resulterne: Estimaterne er tyisk for store (for langt væk fra nul). Sikkerhedsintervallerne for smalle. P-værdierne for små.