En intro til radiologisk statistik. Erik Morre Pedersen

Relaterede dokumenter
En intro til radiologisk statistik

Mikro-kursus i statistik 2. del Mikrokursus i biostatistik 1

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

S4-S5 statistik Facitliste til opgaver

Vejledende besvarelser til opgaver i kapitel 14

Løsning til eksaminen d. 14. december 2009

Konfidensintervaller og Hypotesetest

Overvejelser vedr. outcomes i (farmako)epidemiologiske studier Kursus i basal farmakoepidemiologi 2018 Maja Hellfritzsch Poulsen

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Studieplan Biostatistik Semester 3

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Om hypoteseprøvning (1)

Hypotesetests, fejltyper og p-værdier

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Personlig stemmeafgivning

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Note til styrkefunktionen

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Epidemiologi og biostatistik. Diagnostik og screening. Forelæsning, uge 5, Svend Juul. Hvordan stiller man en diagnose? Diagnostiske kriterier

Statistik II 1. Lektion. Analyse af kontingenstabeller

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

1 Hb SS Hb Sβ Hb SC = , (s = )

Estimation og konfidensintervaller

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

c) For, er, hvorefter. Forklar.

Løsning eksamen d. 15. december 2008

Tema. Dagens tema: Indfør centrale statistiske begreber.

Susanne Ditlevsen Institut for Matematiske Fag susanne

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Maple 11 - Chi-i-anden test

Besvarelser til øvelsesopgaver i uge 6

Statistik kommandoer i Stata opdateret 22/ Erik Parner

J E T T E V E S T E R G A A R D

Kapitel 12 Variansanalyse

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Test nr. 6 af centrale elementer 02402

02402 Løsning til testquiz02402f (Test VI)

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Eksamen i Statistik for biokemikere. Blok

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Forelæsning 9: Inferens for andele (kapitel 10)

Noter til SfR checkliste 3 Kohorteundersøgelser

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Kapitel 7 Forskelle mellem centraltendenser

Besvarelse af opgavesættet ved Reeksamen forår 2008

Schweynoch, Se eventuelt

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Modul 12: Regression og korrelation

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Kvantitative Metoder 1 - Efterår Dagens program

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Kapitel 12 Variansanalyse

Vurdering af epidemiologiske undersøgelser. Epidemiologisk forskning

Statistik viden eller tilfældighed

Statistik og beregningsudredning

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Statistik kommandoer i Stata opdateret 16/ Erik Parner

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Bruk av PET/CT i diagnostisk pakkeforløp. Overlæge Karin Hjorthaug Nuklearmedicinsk afd & PET center Århus Universitetshospital

Sommereksamen Bacheloruddannelsen i Medicin/Medicin med industriel specialisering

Konfidensinterval for µ (σ kendt)

for matematik pä B-niveau i hf

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Vejledende løsninger kapitel 8 opgaver

Vejledning til Excel-ark til Kappaberegning

To-sidet varians analyse

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Studieplan Biostatistik Semester 2

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver

Epidemiologi og Biostatistik

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Transkript:

En intro til radiologisk statistik Erik Morre Pedersen

Hypoteser og testning Statistisk signifikans 2 x 2 tabellen og lidt om ROC Inter- og intraobserver statistik Styrkeberegning Konklusion Litteratur

Hypoteser I Varierer noget fra hinanden??? opstille hypoteser, man kan teste. 0-hypotesen: Der er ingen forskelle i middelværdi mellem populationen og de udtrukne (f.eks. raske vs syge). En evt. forskel kan forklares ved tilfældigheder Den alternative hypotese: Der er reel forskel I middelværdien mellem de to grupper Pointe: Det er mere realistisk at bevise at nulhypotesen ikke passer, end at bevise at den alternative hypotese er sand.

Hypotesetestning Hypotesetestning giver to mulige konklusioner: Det er usandsynligt at forskellen I middelværdi kun skyldes tilfældigheder Vi forkaster nulhypotesen og konkluderer at grupperne må være forskellige Forskellen kan forklares ved tilfældigheder alene Vi accepterer nulhypotesen I det mindste for nuværende. Men: Vi kan tage fejl I begge tilfælde!

Mulige resultater af hypotesetestning Sandheden Statistisk test: 0-hypotesen sand (grupper ikke forskellige) 0-hypotesen falsk (grupper er forskellige) Behold 0-hypotesen Korrekt beslutning Type II fejl (β) Forkast 0-hypotesen Type I fejl () Korrekt beslutning Hypotese testning

Type I og type II fejl Type I fejl (a) : 0-hypotesen forkastes selvom den er sand Vores test viser fejlagtigt at noget er forskelligt, selvom det ikke er det i virkeligheden. Ex: Vi konkluderer fejlagtigt at CT er bedre end UL til at påvise galdesten. Type II fejl (β) : 0-hypotesen forkastes ikke selvom den er falsk Vores test viser fejlagtigt at der ikke er forskel mellem to grupper, selvom de er forskellige Ex. Vi konkluderer fejlagtigt at CT ikke er bedre end konventionel rtg til påvisning af fri luft Begge fejl kan altid forekomme, men man kan designe sit studie,så risikoen for dette minimeres.

P-værdi Sandsynligheden for at vores statistiske test antager en værdi som er mere ekstrem end den vi har observeret I vores data P-værdien ligger langt fra hvad vi forventer at finde (0- hypotesen siger jo at der ikke er forskel) Jo mindre p-værdi, jo stærkere bevis for at vores 0-hypotese ikke er sand = grupperne er forskellige Mange statistik programmer beregner p-værdien direkte. Beregnes manuelt fåes en Z-fordeling der skal oversættes til en p-værdi. POWER

Statistisk signifikans Hvor meget bevis behøver vi for at være sikre? Afgør hvor mange ressourcer vi skal bruge Definition: a= signifikans niveau Hvis P-værdien er så lille som eller mindre end a, siger vi at data er signifikant forskellige ved signifikansniveau a. Betyder, at det ikke er sandsynligt at resultatet skyldes tilfældigheder Signifikansniveau vælges I medicinsk forskning som regel til 5% (p < 0,05) P-værdier

Styrkeberegning Styrkeberegning foretages FØR et studie for at undgå type II fejl. Vi repeterer: Type II fejl: chancen for fejlagtigt at antage at grupperne ikke er forskellige selvom de er det Typisk: Et studie viser ingen signifikant forskel mellem grupperne. Flere muligheder har vi undersøgt for få pt til at påvise forskellen? Er vores metoder for upræcise (for meget variation/støj i målingerne)? Styrken (power) =: 1- risiko for type 2 fejl (β) http://wise.cgu.edu/powermod/power_applet.asp POWER

Styrkeberegning Faktorer, der indgår I styrkebegning (forsimplet): Patientpopulation ( n ): Letteste faktor at manipulere. Jo flere patienter jo større styrke/mindre type II fejl. Forskellen I middelværdi man leder efter. Det er sværere at finde små forskelle. Det er altså nødvendigt at have et bud på forskellen før man starter studiet! Variationen af målingerne. Hvis individerne/målingerne varierer meget indenfor en gruppe går styrken ned. Niveauet for P-værdien (signifikansniveauet). Hvis niveauet sættes til 0,01 I stedet for 0,05 vil det være sværere at afvise, at grupperne er ens og styrken vil blive mindre. Eng J, Radiology 2003; 227: 309-313 POWER

2 x 2 tabeller Typisk radiologisk statistisk problemstilling: Vi laver en billeddiagnostisk test og ønsker at vide: Hvor sikre er vi på at syge pt ikke fejlagtigt erklæres raske? (sensitivitet) Hvor sikre er vi på at raske pt ikke fejagtigt erklæres syge? (specificitet) Hvis testen er positiv, hvor stor er sandsynligheden for at pt er syg (positiv prædiktiv værdi PPV) Hvis testen er negativ, hvor sikre er vi så på at patienten virkelig er rask (negativ prædiktiv værdi NPV) Disse spørgsmål kan regnes på i en 2 x 2 tabel!

2 x 2 tabel: Diagnostisk performance Sensitivitet (SEN)= TP / (TP + FN) Specificitet (SPEC)= TN / (FP + TN) Positiv prædiktiv værdi (PPV)= TP / (TP + FP) Negativ prædiktiv værdi (NPV)= TN / (FN + TN) TP = true positive, TN = true negative, FP= false positive, FN = false negative

Langlotz CP, Radiology 2003; 228: 3-9 Eksempel data 2 x 2 tabel

Receiver operating characteristics (ROC) Anvendelsen af begreberne sand og falsk kræver et entydigt cut-off Ofte er dette umuligt i praksis: Forskellige radiologer læser undersøgelser forskelligt Det giver bedre mening i praksis at have gråzoner: potentielt malign etc. Flytter man grænsen mellem sand og falsk vil værdierne for såvel sens som spec. ændres (indbyrdes afhængige) Optegning af ROC-kurver kan give et indtryk af testens kvaliteter uafhængig af disse cut off settings.

ROC: mere end én cut-off værdi Langlotz CP, Radiology 2003; 228: 3-9

ROC: for hvert cut-off laves en 2 x 2 tabel Langlotz CP, Radiology 2003; 228: 3-9

ROC-kurven Jo mindre areal i øverste venstre hjørne jo bedre er undersøgelsen Alle punkterne repræsenterer de samme data, men med forskellige cut-off for sand og falsk Bemærk: Dit valg af diagnostisk kriterie ( cutoff ) er afgørende for sens/spec! Langlotz CP, Radiology 2003; 228: 3-9

Inter- og intraobserver statistik I forskning hvor der indgår imaging er en stor del af data fremkommet ved subjektiv vurdering af billeder. Interessant: Hvor god er den billeddiagnostiske metode Hvad viser undersøgelsen med så objektive briller som muligt Uinteressant: Hvor god er radiologen/observatøren?

Inter- og intraobserver statistik Afhængigheden (bias) af den vurderende observatør ( agreement ) kan studeres ved gentagen vurdering af billederne (altid i blindet form): Af den samme observatør (intraobservatør afvigelse) Af flere observatører (interobservatør afvigelse

God og dårlig agreement Agreement udregnes ofte med kappa statistik (se reference nedenfor), der tager hensyn til tilfældigt sammenfald. Kappa = 0,31 Kundel HL, Polansky M. Radiology 2003; 228: 303-308

Konklusion Statistik er en yderst vigtig del af radiologisk (og al anden!) forskning, og man er nødt til at forholde sig til det hvis man vil lave forskningsprojekter Statistik starter når man planlægger et projekt!!!! Hvor mange pt skal jeg undersøge for at finde ud af det jeg vil? og hvordan skal de undersøges? Kontakt en biostatistiker (findes ved alle sundhedsvidenskabelige fakulteter) før du starter dit projekt. Det koster måske penge og du skal sandsynligvis undersøge flere pt end du regnede med. Men sammenlign det med al den tid, besvær og penge, du bruger på projektet iøvrigt.

Litteratur Statistik serie i Radiology http://pubs.rsna.org/page/radiology/sections Vælg Statistical and data analysis under Reviews and Commentaries sektionen Power beregnings visualisering: http://wise.cgu.edu/portfolio/demo-statistical-power/ Hypotesetestnings visualisering: http://wise.cgu.edu/portfolio/demo-hypothesis-testing/

Øvelse Beregn i 2 x 2 tabel: Sensitivitet, Specificitet, Positiv prædiktiv værdi og Negativ prædiktiv værdi for bryst cancer data i slide 13 Power beregnings visualisering: http://wise.cgu.edu/portfolio/demo-statisticalpower/