Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 5. undervisningsuge, onsdag 1 Udfaldsrum = D 3 (6) x1 x2 x3 2 Udfaldsrum = D 3 (20) x1 x2 x3 3 Udfaldsrum = D 3 (70) x1 x2 x3 4
Parameterrum = 3 p1 p2 p3 5 1.5 0.5 0.5 1.5 Korrelation: corr(,) = 1 1.5 0.5 0.5 1.5 Korrelation: corr(,) = 0.996 2.0 1.0 0.0 1.0 Korrelation: corr(,) = 0.209 6 0 1 2 3 Korrelation: corr(,) = 0.091 1 0 1 2 3 Korrelation: corr(,) = 0.733 2 1 0 1 2 3 Korrelation: corr(,) = 0.515 7 Statistik Vi har en population vi gerne vil vide noget om. Eksempler: den danske befolkning, kvinder med brystkræft, risikogrupper (rygere, asbestarbejdere, børn af forældre med en arvelig sygdom, etc), produktionsenheder, forsikringsskader... Vi kan ikke observere hele populationen, så vi tager en stikprøve (sample). Med statistiske redskaber infererer vi udfra stikprøven tilbage til populationen. 8
Mål-population Stikprøve-population Stikprøve Vi antager forskellige egenskaber ved populationen, som er med til at bestemme hvilke statistiske redskaber, vi kan bruge. Vi kan bl.a. antage hvordan vores studieobjekt fordeler sig i populationen med nogle ukendte parametre, vi gerne vil kende. Udfra stikprøven kan vi efterprøve vores antagelser. Hvis de holder stik kan vi inferere om størrelsen af parametrene. Vi kan sammenligne forskellige populationer. 9 10 Model: simpel, men til formålet tilstrækkelig, beskrivelse af virkeligheden. Problem: variationen mellem personer er normalt ikke ubetydelig. Fuldstændig forklaring af variationen matematisk model. Ikke-fuldstændig forklaring statistisk model. Hvad er statistik? Formål: at skelne støj/stokastisk variation fra struktur. Statistik er den videnskab, der forsøger at beskrive kilderne til variation mellem observerede mål. Statistik Drejer sig om at drage konklusioner om det virkelige liv, (fx medicinske, biologiske eller fysiske) baseret på (ikke officiel statistik ). DATA Metode: fra en stikprøve (sample): 1. Variationen i en population beskrives 2. Konklusioner drages om ukendte størrelser, parametre, i populationen. 1. Deskriptiv statistik 2. Statistisk inferens 11 12
Eksempel: Antag at vi ønsker at kende andelen af børn (f.eks mellem 12 og 18 år) i vores område med astma. PLANLÆGNING: Hvor skal vi samle information? Registre, spørgeskemaer, hospitaljournaler... DESIGN: Hvilken information skal vi indsamle? Hvor mange individer? Hvor og hvorfor er statistik nødvendig? individuel på grund af stikprøve variation Population sample Population: Meget stor mængde med en (eller flere) værdier (tal) knyttet til hvert element Eksperiment: En tilfældig stikprøve trækkes fra populationen og værdierne fra de udvalgte elementer måles (observationer eller data) Vigtigt koncept: Forestil jer at et stort antal uafhængige stikprøver af en given størrelse vælges (gentagelse af eksperimentet) Da vil udfaldet variere fra stikprøve til stikprøve på grund af: 1) stikprøve variation, 2) individuel variation 13 14 Eksempel: Vi samler information om n = 500 individer 1 hvis astma x 1, x 2,, x n = 0 ellers Stikprøvegennemsnittet x = 1 n (x 1 x 2 x n ) = 1 n x = 1 n er andelen, ˆp, af individer i stikprøven med astma. Denne estimerer p, andelen af individer i populationen med astma = sandsynligheden for at en tilfældig udvalgt person har astma. n j=1 x j Eksempel: Antag at 175 af de n = 500 har astma, dvs ˆp = 175 = 0.35 eller 35% 500 Hvor godt er vores estimat ˆp for p? Med andre ord, i gentagne forsøg, hvor tæt er ˆp på p? Dette udtrykkes ved standardfejlen på ˆp: SE(ˆp) 15 16
Distribution of, n=20, P=0.35, repetitions=10000 Distribution of, n=500, P=0.35, repetitions=10000 Frequency 0 1000 2000 3000 4000 Frequency 0 1000 2000 3000 4000 17 18 Standardfejlen, SE(ˆp), på estimatet for sandsynligheden p, er estimeret ved SE(ˆp) = ˆp(1 ˆp) I eksemplet fås 0.35(1 0.35) = 0.021 500 Dette kan bruges til at lave konfidensintervaller for p 95%CL : ˆp ± 1.96 SE(ˆp) 1.96? I eksemplet 95%CL : fra 0.308 til 0.392 Fortolkning? n CI for, n=20, P=0.35, repetitions=100 19 20
CI for, n=20, P=0.35, repetitions=100 CI for, n=500, P=0.35, repetitions=100 21 22 CI for, n=500, P=0.35, repetitions=100 Tallet 1.96 kommer fra Normalfordelingen. Den skal vi først høre om på SaSt2!!! Men her er en lille forsmag: Normalfordelingen kommer fra Den centrale grænseværdisætning et matematisk resultat der angiver at stikprøvegennemsnit er tilnærmelsesvist Normalfordelte: Hvis tilfældige stikprøver udtages fra en population med middelværdi m og varians s 2 da er fordelingen af stikprøvegennemsnittet x tilnærmelsesvist Normal med middelværdi m og varians s 2 /n. Tilnærmelsen bliver bedre og bedre jo større n (stikprøvestørrelsen) er. 23 24
Sammenligning af grupper Antag nu at vores tidligere observation kom fra et byområde, og vi ønsker at vurdere om forekomsten af astma er forskellig mellem land og by. Vi tager derfor en ny stikprøve blandt børn mellem 12 og 18 år, der bor på landet. Antag at vi observerer n = 400 børn, hvoraf 120 har astma, dvs ˆp land = 120 = 0.3 eller 30% 400 Kan vi udfra disse data sige noget om forekomsten af astma er forskellig i byen og på landet? Analyse af datamaterialer Hvad er statistik? Metoder til at drage (generelle) konklusioner fra konkrete datasæt - redskaber til at vurdere kvaliteten af konklusionerne Hvorfor lave statistik? Konklusionen på en given undersøgelse er sjældent oplagt Ønsket om at drage generelle konklusioner fra konkrete data Med andre ord, skyldes den observerede forskel blot tilfældig variation, eller er der en systematisk forskel? 25 26