Epdemolog og bostatstk. Uge, trsdag. Erk Parer, Isttut for Bostatstk. Geerelt om statstk Dataaalyse - Deskrptv statstk - Statstsk feres Sammelgg af to grupper med kotuerte data - Geemst og spredg - Parametre - Estmater - Skkerhedstervaller Deskrptv statstk Eksempel: Sammelgg af to grupper med kotuerte data Udgagspukt: V øsker at sammelge lugefukto for mæd og kvder. Idsamlg af data (stkprøve): -målger for - 4 tlfældgt udvalgte kvder - 6 tlfældgt udvalgte mæd Data: - vder: 522, 383, 428, 442, 500, 548, 540, 475, 540, 475, 50, 470, 485, 480 - æd: 580, 560, 460, 600, 600, 55, 550, 640, 550, 620, 50, 547, 540, 570, 430, 575 2 Hvorfor er der brug for statstk? Data/observatoer er uderlagt tlfældg varato. Behov for at kvatfcere hvor meget skyldes tlfældg og hvor meget skyldes systematsk varato. Behov for at resumere mage ekelte observatoer ogle få tal. vatfcere at koklusoer baseret på meget data er mere præcse ed koklusoer baseret på få data. 3 Formålet med de statstske aalyse er ofte at estmere e ukedt kostat (parameter), som fx.: ddel ddel for e 30 årg kvde Forskel (mddel) mellem mæd og kvder De relatve rsko for SIDS forbudet med maveleje Bemærk: dsse parametre omhadler kke ku vores stkprøve, me hele de populato v betragter. Det ka være e større opgave, at beslutte sg tl hvlke størrelse ma øsker at estmere: Hvorda beskrver ma sammehæge mellem kost og kræft? 4 Hvorfor stkprøver (samples)? hurtgere bllgere umulgt at udersøge alle mere præcst (dsamlg af data/ homogetet) statstske metoder ka bruges tl at vurdere uskkerhed Dataaalyse ka opdeles deskrptv statstk statstsk feres Dataaalyse: deskrptv statstk Beskrvelse af data fra stkprøve: Data summary : - geemst / meda / percetler - hyppgheder / relatv rsko / oddsrato - varas / spredg - korrelatoer Tegger/fgurer: Vgtg! 5 6
Dataaalyse: statstsk feres Fra stkprøve tl populato: Eksempel - deskrptv statstk odel / Atagelser agåede varatoe data. Estmato af relevate parametre populatoe (f.eks. mddelværd eller forskel mellem to grupper) ud fra stkprøve med tlhørede skkerhedstervaller. Opstllg af statstske hypoteser, statstske test Statstske koklusoer Faglg koklusoer (l/m) vder (=4) æd (=6) Fgure er god, me ka ma beskrve dsse data med få tal? 7 8 (l/m) Geemsttet for hver grupper er markeret med vder: 485.6 l/m æd: 552.9 l/m (l/m) vder: sd=46.6 l/m æd: sd=55.0 l/m Jo mere data varerer jo større sd. På fgure er vst geemst +/- sd. vder (=4) æd (=6) vder (=4) æd (=6) Geemst = x = x = ( x + x + + x )/ = 2 (Summe af tallee dvderet med atallet) Geemsttet beskrver mdte / det geerelle veau / 9 de cetrale tedes af data. sd = ( x x) = Som et mål for varatoe bruges ofte spredge (stadard afvgelse / stadard devato / sd) 2 0 (l/m) 350 400 450 500 550 600 6% 68% 6% vder (=4) 2.5% 95% 2.5% Hvad sger spredge? Hvs data er fordelt rmelgt symmetrsk omkrg geemsttet (ormalfordelt), da vl tervallet geemst ± sd dække ca. 68% af data, og geemst ±.96*sd dække ca. 95% af (kommede) data. V veder tlbage dsse tervaller (prædktostervaller) æste gag. Parametre: v har lavet et gæt på parametree µ = mddelværd = geemsttet for hele populatoe σ = spredg = sd udreget for hele populatoe Normalfordelge er beskrevet ved de to parametre: mddelværd og spredg. Der kommer mere om ormalfordelge æste gag. Estmato: vder: µ = geemst = 485.6 l/m ˆ ˆ σ = sd = 46.6 l/m æd : ˆ µ = geemst = 552.9 l/m ˆ σ = sd = 55. 0 l/m ^: Dette er et estmat, dvs. et gæt bereget på bass af data. 2
Hvor godt passer de observerede geemst med de sade værder? Hvs v havde taget 6 adre mæd og målt deres vlle v kke få et geemst på 552.9 l/m For at beskrve uskkerhede på estmatet bruger ma ofte et (skkerheds-) terval omkrg estmatet. Skkerhedstervallet er de parameter-værder der er foreelge ( e eller ade forstad) med data. 3 Skkerhedsterval For et gvet estmat (f.eks. geemsttet) ka ma berege e tlhørede uskkerhed / spredg (se). Hvs atallet af data,, er stor da vl tervallet Estmat ±.96 se(estmat) være (approxmatvt) et 95% skkerheds- / kofdesterval for estmatet. Uskkerhede på geemsttet er: sd se( ˆ µ ) = sem = sem: Stadard error of the mea 4 Fortolkge af et 95% skkerhedsterval: Hvs v udtager mage stkprøver og bereger et skkerheds- eller kofdesterval for hver stkprøve da vl de sade værd lgge 95% af dsse tervaller. Sagt på e ade måde: Skkerhedstervallet deholder de sade værd med 95% sadsylghed. vder: Eksempel beregg af skkerhedsterval = 4, ˆ µ = 485.6 l/m, ˆ σ = 46. 6 l/m 46.6 se ( ˆ µ ) = = 2.4 4 CI( µ ): 485.6 ±.96 2.4 d vs. ( 46.2; 50.0) l/m CI: Cofdece Iterval æd: se( ˆ µ ) = 3.7 l/m CI( µ ) = ( 526.0; 579.9) l/m 5 6 De estmerede forskel mellem mæd og kvder: ˆ µ ˆ µ = 552.9-485.6 = 67. 4 l/m Uskkerhede på forskelle geemsttee: se( ˆ µ ˆ µ ) = se( ˆ µ ) + se( ˆ µ ) 2 2 2 2 = 2.4 + 3.7 = 8.5 l/m Skkerhedstervallet for forskelle blver Statstsk test E ade måde at udersøge om der er forskel mellem mæd og kvder er vha et statstsk test. ere om dette æste gag. Estmat ±.96 se(estmat) CI( µ µ ): 67.4 ±.96 8.5 dvs. ( 3.0; 03.7) l/m Der er altså statstsk sgfkat forskel mellem mæd og kvder! 7 8
Eksempel - resultater veau: vder: ˆ µ = geemst = 486 l/m CI( µ ) = ( 46; 50) l/m æd : ˆ µ = geemst = 553 l/m CI( µ ) = ( 526; 580) l/m okluso: æd har (statstsk sgfkat) højere veauet ed kvder! Forskelle er mellem 3 og 04 l/m. Vores bedste bud på forskelle er 67 l/m. Varato : vder: σ = sd = 47 l/m ˆ æd : ˆ σ = sd = 55 l/m Bemærk: koklusoe vedrører hele populatoe, og kke ku de stkprøve v har udersøgt. Forskel veau: Forskel = ˆ µ ˆ µ = 67 l/m CI( µ µ ) = ( 3; 04) l/m 9 20 Sammelgg af to grupper med kotuerte data geerelt Statstsk model: Atag at varatoe hver gruppe er symmetrsk (data er ormalfordelt) observatoere defor hver gruppe er uafhægge (ge søskee defor gruppere) de to sæt af observatoer er uafhægge (ge søskee, kke par af målger de to grupper) Estmato: ˆ µ = geemst (beskrver veauet gruppe) ˆ σ = sd (beskrver varatoe gruppe) ( =,2 svarede tl gruppeummer) 2 Skkerhedsterval for mddelværde: ˆ σ se( ˆ µ ) = CI ( µ ): ˆ µ ±. 96 se( ˆ µ ) Skkerhedsterval på forskelle: se( ˆ µ ˆ µ ) = se( ˆ µ ) + se( ˆ µ ) 2 2 2 2 CI ( µ µ ): ˆ µ ˆ µ ±. 96 se( ˆ µ ˆ µ ) 2 2 2 Bemærk: Formle for se gælder geerelt for alle parametre forudsat de to grupper er uafhægge. 22 Et yt, større stude Dataaalyse: deskrptv statstk Et større stude for de samme populato gav følgede resultat: Tl sammelgg fk v tdlgere: vder æd Forskel vder æd Forskel 43 58 4 6 Geemst 474 568 94 Geemst 486 553 67 CI (459;489) (552;584) (72;6) CI (46;50) (526;580) (3;04) Numerske metoder tl beskrvelse af kotuerte data: Hvor lgger typske data (det geerelle veau): Geemst (artmetrsk): data skal være rmelg symmetrsk fordelt Geemst (geometrsk): logartme-trasformerede (f.eks kocetratoer) data skal være rmelg symmetrsk fordelt Skkerhedstervallere blver mdre jo større studet er! eda (50 percetl): skæve fordelger (V blver klogere jo mere data v samler d...) 23 24
Numerske metoder tl beskrvelse af kotuerte data: Hvor meget afvger de fra hade (varato)? Percetler: 5 percetle er der hvor der er 5% af data der er mdre (og 95% større) Spredg/varas: Varatoskoeffcet (f.eks kocetratoer) data skal være rmelg symmetrsk fordelt logartme-trasformerede data skal være rmelg symmetrsk fordelt 25 percetle er lg. kvartle 50 percetle er lg 2. kvartl der er lg medae 95 percetle er der hvor der er 95% af data der er mdre (og 5% større) Percetler / kvartler: Rage/ max / m skæve fordelger 25 og geerelt X percetle er der hvor der er X% af data der er mdre (og 00-X% større) 26 vartler: Præsetato af umerske data: scatterplot 0. kvartl er lg det mdste tal. kvartl = 25 percetle 2. kvartl = 50 percetle = medae 3. kvartl = 75 percetle 4. kvartl er lg det største tal (l/m) vder (=4) æd (=6) 27 28 Præsetato af umerske data: boxplot Præsetato af umerske data: hstogram maxmum* 3. kvartl meda. kvartl mmum* 350 400 450 500 550 vder vder æd * det varerer ldt hvorda ma deferer de øvre é observato mellem 350-400 to observatoer mellem 400-450 29 30 og edre græse. Atal 0 2 3 4 5 6
Typer af data Hstogrammet beskrver stkprøves fordelg. V vl seere bruge hstogrammet tl at udersøge om data er ormalfordelt. 3 V skal dette kursus kgge på statstske aalyser af kotuerte [ ] to kategorer (dchotom) [ Syg/rask ] flere kategorer [ Hvlket amt ma bor ] vetetdsdata [ Td tl død eller tlbagefald af sygdom ] De statstske aalyse afhæger af type af data og hvorda data er dsamlet. V vl også kgge på statstske aalyser som ka besvare spørgsmål som: a forskelle mæd og kvder s værd forklares ved at mæd er højre ed kvder? 32 Resumé Dataaalyse Sammelgg af to grupper med kotuerte data: Geemst og spredg Estmater Skkerhedstervaller Deskrptv statstk 33