En intro til radiologisk statistik



Relaterede dokumenter
En intro til radiologisk statistik. Erik Morre Pedersen

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Mikro-kursus i statistik 2. del Mikrokursus i biostatistik 1

Note til styrkefunktionen

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Konfidensinterval for µ (σ kendt)

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

02402 Løsning til testquiz02402f (Test VI)

c) For, er, hvorefter. Forklar.

ØVELSER Statistik, Logistikøkonom Lektion 6: Hypotesetest 1

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Maple 11 - Chi-i-anden test

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Konfidensintervaller og Hypotesetest

Statistik og beregningsudredning

Vejledende besvarelser til opgaver i kapitel 14

Magnetfelter og børnekræft - er der en sammenhæng?

for matematik pä B-niveau i hf

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Besvarelse af opgavesættet ved Reeksamen forår 2008

Effekter af studiejob, udveksling og projektorienterede forløb

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Statistik i basketball

Fra registrering til information

Overvejelser vedr. outcomes i (farmako)epidemiologiske studier Kursus i basal farmakoepidemiologi 2018 Maja Hellfritzsch Poulsen

Kvantitative Metoder 1 - Forår Dagens program

Peter Harremoës Mat A eksamen med hjælpemidler 15. december f (x) = 0. 2x + k 1 x = 0 2x 2 + k = 0 2x 2 = k x 2 = k 2. k 2.

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Egenskaber ved Krydsproduktet

Kommentar til Kulturministerens svar på Mogens Jensens (S) spørgsmål nr. 150 til Kulturministeren.

Statistik II 1. Lektion. Analyse af kontingenstabeller

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Analyse af PISA data fra 2006.

Et oplæg til dokumentation og evaluering

Studieplan Biostatistik Semester 3

S4-S5 statistik Facitliste til opgaver

Normalfordelingen. Statistik og Sandsynlighedsregning 2

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Om hypoteseprøvning (1)

SAMMENHÆNGE MELLEM OBSTRUKTIV SØVNAPNØ OG DIABETES TYPE 2

Personlig stemmeafgivning

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Hypotesetests, fejltyper og p-værdier

MR- skanning forbedrer diagnostik af prostatakræft

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

temaanalyse

J E T T E V E S T E R G A A R D

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Statistik kommandoer i Stata opdateret 16/ Erik Parner

Hvor godt rammer prognosen i Økonomisk Redegørelse? Nyt kapitel

Algebra INTRO. I kapitlet arbejdes med følgende centrale matematiske begreber:

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Epidemiologi og biostatistik. Diagnostik og screening. Forelæsning, uge 5, Svend Juul. Hvordan stiller man en diagnose? Diagnostiske kriterier

Hvad danskerne mener Undersøgelse blandt den danske befolkning år

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Løsning til eksaminen d. 14. december 2009

Modul 5: Test for én stikprøve

Opgave 6. Opgave 7. Opgave 8. Peter Harremoës Mat A delprøve med hjælpemidler 15 december 2015

Evaluering af optagelsesprocedurer ved Det Sundhedsvidenskabelige Fakultet, Syddansk Universitet

sammenhänge for C-niveau i stx 2013 Karsten Juul

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Den socioøkonomiske reference. for resultaterne AF de nationale test. en vejledning til skoleledere og kommuner

Estimation og konfidensintervaller

Statistisk proceskontrol

Vurdering af epidemiologiske undersøgelser igen

Kræft var sjældent i oldtiden 25. december 2010 kl. 07:30

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0

Forelæsning 8: Inferens for varianser (kap 9)

Imputering af borgere på plejehjem/-bolig

SFI s undersøgelse af lønforskelle

Vurdering af epidemiologiske undersøgelser. Epidemiologisk forskning

Naturvidenskab. En fællesbetegnelse for videnskaberne om naturen, dvs. astronomi, fysik, kemi, biologi, naturgeografi, biofysik, meteorologi, osv

Valgkampens og valgets matematik

Susanne Ditlevsen Institut for Matematiske Fag susanne

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Funktionalligninger - løsningsstrategier og opgaver

for gymnasiet og hf 2016 Karsten Juul

1 Hb SS Hb Sβ Hb SC = , (s = )

9. Chi-i-anden test, case-control data, logistisk regression.

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Børne- og Undervisningsudvalget BUU Alm.del Bilag 51 Offentligt. De socioøkonomiske referencer for grundskolekarakterer 2014

ORDINÆR EKSAMEN I EPIDEMIOLOGISKE METODER IT & Sundhed, 2. semester

Teknologihistorie. Historien bag FIA-metoden

Matematik A-niveau STX 24. maj 2016 Delprøve 2 VUC Vestsjælland Syd.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Rapport vedrørende. etniske minoriteter i Vestre Fængsel. Januar 2007

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.

Statistisk Kvalitetskontrol

Fig. 1 Billede af de 60 terninger på mit skrivebord

Noter til SfR checkliste 3 Kohorteundersøgelser

Transkript:

En intro til radiologisk statistik Erik Morre Pedersen Hypoteser og testning Statistisk signifikans 2 x 2 tabellen og lidt om ROC Inter- og intraobserver statistik Styrkeberegning Konklusion Litteratur Hypoteser I Varierer noget fra hinanden??? opstille hypoteser, man kan teste. 0-hypotesen: Der er ingen forskelle i middelværdi mellem populationen og de udtrukne (f.eks. raske vs syge). En evt. forskel kan forklares ved tilfældigheder Den alternative hypotese: Der er reel forskel I middelværdien mellem de to grupper Hypotesetestning Hypotesetestning giver to mulige konklusioner: Det er usandsynligt at forskellen I middelværdi kun skyldes tilfældigheder Vi forkaster nulhypotesen og konkluderer at grupperne må være forskellige Forskellen kan forklares ved tilfældigheder alene Vi accepterer nulhypotesen I det mindste for nuværende. Pointe: Det er mere realistisk at bevise at nulhypotesen ikke passer, end at bevise at den alternative hypotese er sand. Men: Vi kan tage fejl I begge tilfælde! 1

Mulige resultater af hypotesetestning Type I og type II fejl Statistisk test: Sandheden 0-hypotesen sand (grupper ikke forskellige) 0-hypotesen falsk (grupper er forskellige) Type I fejl (α) : 0-hypotesen forkastes selvom den er sand Vores test viser fejlagtigt at noget er forskelligt, selvom det ikke er det i virkeligheden. Ex: Vi konkluderer fejlagtigt at CT er bedre end UL til at påvise galdesten. Behold 0-hypotesen Korrekt beslutning Type II fejl (β) Forkast 0-hypotesen Type I fejl (α) Korrekt beslutning Hypotese testning Type II fejl (β) : 0-hypotesen forkastes ikke selvom den er falsk Vores test viser fejlagtigt at der ikke er forskel mellem to grupper, selvom de er forskellige Ex. Vi konkluderer fejlagtigt at CT ikke er bedre end konventionel rtg til påvisning af fri luft Begge fejl kan altid forekomme, men man kan designe sit studie,så risikoen for dette minimeres. P-værdi Statistisk signifikans Sandsynligheden for at vores statistiske test antager en værdi som er mere ekstrem end den vi har observeret I vores data Hvor meget bevis behøver vi for at være sikre? Afgør hvor mange ressourcer vi skal bruge P-værdien ligger langt fra hvad vi forventer at finde (0-hypotesen siger jo at der ikke er forskel) Jo mindre p-værdi, jo stærkere bevis for at vores 0-hypotese ikke er sand = grupperne er forskellige Mange statistik programmer beregner p-værdien direkte. Beregnes manuelt fåes en Z-fordeling der skal oversættes til en p-værdi. Definition: α = signifikans niveau Hvis P-værdien er så lille som eller mindre end α, siger vi at data er signifikant forskellige ved signifikansniveau α. Betyder, at det ikke er sandsynligt at resultatet skyldes tilfældigheder Signifikansniveau vælges I medicinsk forskning som regel til 5% (p < 0,05) POWER P-værdier 2

Styrkeberegning Styrkeberegning Styrkeberegning foretages FØR et studie for at undgå type II fejl. Vi repeterer: Type II fejl: chancen for fejlagtigt at antage at grupperne ikke er forskellige selvom de er det Typisk: Et studie viser ingen signifikant forskel mellem grupperne. Flere muligheder har vi undersøgt for få pt til at påvise forskellen? Er vores metoder for upræcise (for meget variation/støj i målingerne)? Styrken (power) =: 1- risiko for type 2 fejl (β) http://wise.cgu.edu/powermod/power_applet.asp POWER Faktorer, der indgår I styrkebegning (forsimplet): Patientpopulation ( n ): Letteste faktor at manipulere. Jo flere patienter jo større styrke/mindre type II fejl. Forskellen I middelværdi man leder efter. Det er sværere at finde små forskelle. Det er altså nødvendigt at have et bud på forskellen før man starter studiet! Variationen af målingerne. Hvis individerne/målingerne varierer meget indenfor en gruppe går styrken ned. Niveauet for P-værdien (signifikansniveauet). Hvis niveauet sættes til 0,01 I stedet for 0,05 vil det være sværere at afvise, at grupperne er ens og styrken vil blive mindre. Eng J, Radiology 2003; 227: 309-313 POWER 2 x 2 tabeller 2 x 2 tabel: Diagnostisk performance Typisk radiologisk statistisk problemstilling: Vi laver en billeddiagnostisk test og ønsker at vide: Hvor sikre er vi på at syge pt ikke fejlagtigt erklæres raske? (sensitivitet) Hvor sikre er vi på at raske pt ikke fejagtigt erklæres syge? (specificitet) Hvis testen er positiv, hvor stor er sandsynligheden for at pt er syg (positiv prædiktiv værdi PPV) Hvis testen er negativ, hvor sikre er vi så på at patienten virkelig er rask (negativ prædiktiv værdi NPV) Disse spørgsmål kan regnes på i en 2 x 2 tabel! Sensitivitet (SEN)= TP / (TP + FN) Specificitet (SPEC)= TN / (FP + TN) Positiv prædiktiv værdi (PPV)= TP / (TP + FP) Negativ prædiktiv værdi (NPV)= TN / (FN + TN) TP = true positive, TN = true negative, FP= false positive, FN = false negative 3

Eksempel data 2 x 2 tabel Receiver operating characteristics (ROC) Anvendelsen af begreberne sand og falsk kræver et entydigt cut-off Ofte er dette umuligt i praksis: Forskellige radiologer læser undersøgelser forskelligt Det giver bedre mening i praksis at have gråzoner: potentielt malign etc. Flytter man grænsen mellem sand og falsk vil værdierne for såvel sens som spec. ændres (indbyrdes afhængige) Optegning af ROC-kurver kan give et indtryk af testens kvaliteter uafhængig af disse cut off settings. ROC: mere end én cut-off værdi ROC: for hvert cut-off laves en 2 x 2 tabel 4

ROC-kurven Inter- og intraobserver statistik Jo mindre areal i øverste venstre hjørne jo bedre er undersøgelsen Alle punkterne repræsenterer de samme data, men med forskellige cut-off for sand og falsk Bemærk: Dit valg af diagnostisk kriterie ( cutoff ) er afgørende for sens/spec! I forskning hvor der indgår imaging er en stor del af data fremkommet ved subjektiv vurdering af billeder. Interessant: Hvor god er den billeddiagnostiske metode Hvad viser undersøgelsen med så objektive briller som muligt Uinteressant: Hvor god er radiologen/observatøren? Inter- og intraobserver statistik God og dårlig agreement Afhængigheden (bias) af den vurderende observatør ( agreement ) kan studeres ved gentagen vurdering af billederne (altid i blindet form): Af den samme observatør (intraobservatør afvigelse) Af flere observatører (interobservatør afvigelse Agreement udregnes ofte med kappa statistik (se reference nedenfor), der tager hensyn til tilfældigt sammenfald. Kappa = 0,31 Kundel HL, Polansky M. Radiology 2003; 228: 303-308 5

Konklusion Litteratur Statistik er en yderst vigtig del af radiologisk (og al anden!) forskning, og man er nødt til at forholde sig til det hvis man vil lave forskningsprojekter Statistik starter når man planlægger et projekt!!!! Hvor mange pt skal jeg undersøge for at finde ud af det jeg vil? og hvordan skal de undersøges? Kontakt en biostatistiker (findes ved alle sundhedsvidenskabelige fakulteter) før du starter dit projekt. Det koster måske penge og du skal sandsynligvis undersøge flere pt end du regnede med. Men sammenlign det med al den tid, besvær og penge, du bruger på projektet iøvrigt. Statistik serie i Radiology http://pubs.rsna.org/page/radiology/sections Vælg statistical concepts under Reviews and Commentaries Power beregnings visualisering: http://wise.cgu.edu/powermod/power_applet.asp Hypotesetestnings visualisering: http://wise.cgu.edu/hypomod/hypothesis_applet.asp Øvelse Beregn i 2 x 2 tabel: Sensitivitet, Specificitet, Positiv prædiktiv værdi og Negativ prædiktiv værdi for bryst cancer data i slide 13 Power beregnings visualisering: http://wise.cgu.edu/powermod/power_applet.asp 6