Introduktion til biostatistik

Introduktion til biostatistik Kursusplan Anders Bo Bojesen anders.bo.bojesen@rsyd.dk 15. juni 2016

Kurset er en indføring i praktisk anvendelse af klassiske biostatistiske metoder til analyse af kategoriske, diskrete og kontinuerte variable. Vi har i alt 8 lektioner på i alt 3 timer. Der er 1 times undervisning og 2 times praktiske øvelser. Der skal beregnes ca. 3 timers forberedelse til hver lektion.

De to første lektioner handler om grundkoncepter i frekventistisk statistik, inferens, datatyper og design af medicinske studier. De næste 6 lektioner handler om at bruge de mest almindelige analysemetoder til medicinsk data; herunder krydstabeller, logistisk regression, linær regression, varians-analyse, Poisson-regression, overlevelsesanalyse samt interrater agreement og diagnostisk præcision. Deltagere opfordres til at bruge egne datasæt til øvelserne og til at bringe egne forskningsspørgsmål i spil. Men vi bruger også frit tilgængeligt data til alle øvelser. Vi bruger som udgangspunkt Stata til øvelser og eksempler.

Formålet er, at deltagerne opnår: viden om, hvordan klassiske statistiske værktøjer kan bruges til medicinsk forskning praktisk erfaring med at udføre analyserne rutine i at vurdere metodernes egnethed til analytiske formål rutine i at fortolke parametre i almindelige statistiske modeller rutine i at programmere en statistisk analyse i Stata Det maksimale deltagerantal er som udgangspunkt 12, minimum 6. Personer med tilknytning til Sygehus Sønderjylland har fortrinsret.

For hver lektion hører denne faste opgave med til forberedelsen: Skriv én side (ca. 400 ord) om dine umiddelbare tanker omkring litteraturen og send teksten dagen inden til resten af holdet. Fx.: Er der noget du ikke forstår? En vigtig take home message? Overflødige pointer? Et særligt godt afsnit? For mange indforståede begreber? En ny åbenbaring? Nye idéer til din egen analyse? Læs de dele af litteraturen, som giver mening for dig, og brug evt. alternative kilder eller kapitler fra andre lærebøger efter behov. Skip gerne lærebogs-øvelserne fra teksten.

De praktiske øvelser udføres med fokus på at bygge egne programmer i Stata. Programmeringen er et værktøj til at strukturere og dokumentere analysen. Øvelserne foregår så vidt muligt i mindre grupper baseret på, hvilken type design og data man aktuelt arbejder med i sit projekt. Kurset afsluttes med en mundtlig og skriftlig prøve, hvor deltagerne præsenterer analyser af egne data med udgangspunkt i metoderne fra kurset. Analyserne præsenteres mundtligt for holdet (20-25 minutter per deltager inkl. feedback). Skriftligt arbejde sendes 2 dage inden den mundtlige præsentation til de andre kursusdeltagere til orientering. Forventet antal arbejdstimer: - 8 x 3 timers lektioner og øvelsestimer - 8 x 3 timers forberedelse - 3 x 8 timer til eksamen I alt ca. 72 timer.

8 lektioner: Lektion 1: Design, variable og databeskrivelse Lektion 2: Inferens Lektion 3: Linær regression og variansanalyse Lektion 4: Analyse af kategoriske variable Lektion 5: Poisson-regression og analyse af rater Lektion 6: Overlevelsesanalyse Lektion 7: Overenstemmelse og diagnostisk præcision Lektion 8: Åben lektion

Lektion 1: Design, variable og databeskrivelse Temaer: Typiske studie-design i sundhedsvidenskaben. RCT, case-kontrol, kohorte, tværsnit, longitudinelle design, gentagede målinger. Kausalitet og korrelation Variabletyper. Dikotome, tælle-, diskrete, kontinuerte, normalfordelte, ordinale og tids-variable. Øvelse: Beskriv eget studie ift. design og nøglevariable. Beskriv data numerisk vha. gennemsnit, median, varians, proportioner og frekvenstabeller. Beskriv data grafisk vha. histogrammer og box-plot. Forberedelse: Kirkwood & Sterne 2006, 2. kapitel Berry 1996, kap. 3.

Lektion 2: Inferens Temaer: Stikprøve og population Hypotesetest Punktestimater og usikkerhed Den centrale grænseværdisætning Øvelse: Deskriptiv statistik (gennemsnit, std. afv. og alternativer) for: kontinuerte, dikotome og tælle-variable. Inferens for normalfordelt data med standardfejl og t-test. Forberedelse: Diez, Barr & Cetinkaya-Rundel 2011, side 143-169

Lektion 3: Linær regression og variansanalyse Temaer: Forskelle i gennemsnit Simpel linær regression Multipel linær regression Varians-analyse Normalfordeling og afvigelser Øvelse: Test af forskelle mellem to gennemsnit vha. t-test, linær regression og varians-analyse. Test af sammenhæng mellem to kontinuere variable. Justering i multipel regression. Grafisk repræsentation af simpel regression. Forberedelse: Kirkwood & Sterne 2006, kap. 10 og 11. Eller: Diez, Barr & Cetinkaya-Rundel 2011, kap. 7 og 8.

Lektion 4: Analyse af kategoriske variable Temaer: Binære variable som outcome Krydstabeller χ 2 (chi-i-anden) Logistisk regression, logit-transformation Fortolkning af regressioner Øvelse: Analyse af krydstabeller vha. χ 2, udforskning af logit-funktion, logistiske regressioner (simpel og multipel) og fortolkning af resultater. Forberedelse: Kirkwood & Sterne 2006, s. 165-169. Kenney & Keeping 1954, afsnit 13.4: The Chi-Square Test of Hypotheses, s. 199. Field, A. 2009, side 264-276 (starten af kap. 8).

Lektion 5: Poisson-regression og analyse af rater Temaer: Hvad er Poisson-events? Risiko-tid Rater = brøker Antagelser og alternative modeller Øvelse: Vi analyserer to typer Poisson-data (epidemiologisk og optællinger på invididniveau) vha. Poisson-regression; med og uden kovariater. Estimater fortolkes. Fit sammenlignes for alternative modeller. Forberedelse: Bernouille, J. i Newman, J. 1960, The Law of Large Numbers, s. 1452-55 Newman, J. 1960, Commentary on The Law of Large Numbers, s. 1448-51 Kirkwood & Sterne 2006, kap. 24. Rodríguez, G. 2007, Poisson Models for Count Data, s. 1 til 5.

Lektion 6: Overlevelsesanalyse Temaer: Longitudinelle design Tid-til-event analyser Kaplan-Meier Censurering Cox-regression Alternative modeller Øvelse: Vi analyserer tid-til-event data vha. Kaplan-Meier, livstabeller, Cox-regression og alternative modeller. En sammenhængende analyse programmeres i Stata. Forberedelse: Kirkwood & Sterne 2006, kap. 26 og 27. Rabe-Hesketh, Sophia & Brian S. Everitt 2004, kapitel 12.

Lektion 7: Overenstemmelse og diagnostisk præcision Temaer: Kappa Intraclass korrelation (ICC) og varians-analyse 2 x 2 tabeller: Prædiktive værdier Specificitet og sensitivitet ROC-kurver Øvelse: Vi bruger Kappa og ICC til at vurderer overenstemmelsen mellem forskellige bedømmelser af samme fænomen. Derefter bruger vi 2 x 2-tabeller til at beregne forskellige indikatorer for diagnostisk præcision. Fortolkning og evaluering af resultater. Forberedelse: Kirkwood & Sterne 2006, kap. 36 ( Measurement error: assessment and implications ) Cohen, J. 1960: A coefficient of agreement for nominal scales i Educational and Psychological Measurement. Vol. 20, no. 1.

Lektion 8: Åben lektion Indholdet i denne lektion aftales på forhånd med holdet. Vi kan fx bruge tiden til repetition eller til et nyt, supplerende emne, fx: Model fit Mixed effects-modeller Workshop med deltagernes projekter Ordinale og multinomiale logistiske regressioner Eksplorative teknikker Sti-analyse og strukturelle ligningsmodeller Rapportering Programmering Psykometri Metodevalg Etc. Øvelse: Kommer senest ugen inden. Forberedelse: Kommer senest ugen inden.

Litteraturoversigt Berry, D. 1996: Statistics: A Bayesian Perspective. 1. udgave. Duxbury Press. Cohen, J. 1960: A coefficient of agreement for nominal scales i Educational and Psychological Measurement. Vol. 20, no. 1. Diez, Barr & Cetinkaya-Rundel 2011: OpenIntro statistics. 1. udgave. https://www.openintro.org/stat/textbook.php. Field, A. 2009: Discovering statistics using SPSS. 3. udgave. Sage. Kenney, J. & Keeping, E. 1954: Mathematics of statistics. Part I. 3. udgave. Princeton. Kirkwood, B. & J. Sterne 2006: Essential medical statistics. 2. udgave. Blackwell. Newman, J., 1960: The world of mathematics. Vol. III. London. George Allen and Unwin Ltd. Rabe-Hesketh, Sophia & Brian S. Everitt 2004: A handbook of statistical analyses using Stata. 3. udgave. Rodríguez, G. 2007: Lecture Notes on Generalized Linear Models. http://data.princeton.edu/wws509/notes/