Epidemiologi og biostatistik. Forelæsig Uge, tirsdag. Niels Trolle Aderse, Afdelige for Biostatistik. Geerelt om kurset: - Formål - Forelæsiger - Øvelser - Forelæsigsoter - Bøger - EpiBasic: http://www.biostat.au.dk/teachig/software I dag: Geerelt om statistik Dataaalyse - Deskriptiv statistik - Statistisk iferes Deskriptiv statistik (kotiuerte data) - Geemsit og spredig - Parametre - Estimater - Usikkerhed på estimater Normalfordelige ere om Deskriptiv statistik (kotiuerte data) 2 Eksempel: Sammeligig af to grupper med kotiuerte data Udgagspukt: Vi øsker at sammelige lugefuktio for mæd og kvider. Idsamlig af data (stikprøve): -måliger for - 4 tilfældigt udvalgte kvider - 6 tilfældigt udvalgte mæd Data: - : 522, 383, 428, 442, 500, 548, 540, 475, 540, 475, 50, 470, 485, 480 - : 580, 560, 460, 600, 600, 55, 550, 640, 550, 620, 50, 547, 540, 570, 430, 575 3 Hvorfor er der brug for statistik? Data/observatioer er uderlagt tilfældig variatio. Behov for at kvatificere hvor meget skyldes tilfældig og hvor meget skyldes systematisk variatio. Behov for at resumere mage ekelte observatioer i ogle få tal. vatificere at koklusioer baseret på meget data er mere præcise ed koklusioer baseret på få data. 4 Formålet med de statistiske aalyse er ofte at estimere e ukedt kostat (parameter), som fx.: iddel iddel for e 30 årig kvide Forskel i (middel) mellem mæd og kvider De relative risiko for SIDS forbudet med maveleje Bemærk: disse parametre omhadler ikke ku vores stikprøve, me hele de populatio vi betragter. Det ka være e større opgave, at beslutte sig til hvilke størrelse ma øsker at estimere: Hvorda beskriver ma sammehæge mellem kost og kræft? 5 Hvorfor stikprøver (samples)? hurtigere billigere umuligt at udersøge alle mere præcist (idsamlig af data/ homogeitet) statistiske metoder ka bruges til at vurdere usikkerhed Dataaalyse ka opdeles i deskriptiv statistik statistisk iferes 6
Dataaalyse: deskriptiv statistik Dataaalyse: statistisk iferes Beskrivelse af data fra stikprøve: Data summary : - geemsit / media / percetiler - hyppigheder / relativ risiko / oddsratio - varias / spredig - korrelatioer Tegiger/figurer: Vigtig! Fra stikprøve til populatio: odel / Atagelser agåede variatioe i data. Estimatio af relevate parametre i populatioe (f.eks. middelværdi eller forskel mellem to grupper) ud fra stikprøve med tilhørede sikkerhedsitervaller. Opstillig af statistiske hypoteser, statistiske test Statistiske koklusioer Faglige koklusioer 7 8 (l/mi) Eksempel - deskriptiv statistik (=6) Figure er god, me ka ma beskrive disse data med få tal? 9 (l/mi) Geemsit = x = x = ( x + x + + x ) / i i = (=6) 2 (Summe af tallee divideret med atallet) Geemsittet for hver grupper er markeret med : 485.6 l/mi : 552.9 l/mi Geemsittet beskriver midte / det geerelle iveau / 0 de cetrale tedes af data. (l/mi) (=6) sd = ( xi x) i= : sd=46.6 l/mi : sd=55.0 l/mi Jo mere data varierer jo større sd. På figure er vist geemsit +/- sd. Som et mål for variatioe bruges ofte spredige (stadard afvigelse / stadard deviatio / sd) 2 (l/mi) 350 400 450 500 550 600 6% 68% 6% 2.5% 95% 2.5% Hvad siger spredige? Hvis data er fordelt rimeligt symmetrisk omkrig geemsittet (ormalfordelt), da vil itervallet geemsit ± sd dække ca. 68% af data, og geemsit ±.96 sd dække ca. 95% af (kommede) data. Vi veder tilbage disse itervaller (prædiktiositervaller) seere. 2 2
Parametre: Udfra vores data vil gere komme med et gæt (et estimat) på de sade parametre µ = middelværdi = geemsittet for hele populatioe σ = spredig = sd udreget for hele populatioe Hvis data er Normalfordelte er fordelige beskrevet ved de to parametre: middelværdi og spredig. Estimatio: : ˆ µ = geemsit = 485.6 l/mi ˆ σ = sd = 46.6 l/mi : ˆ µ = geemsit = 552.9 l/mi ˆ σ = sd = 55. 0 l/mi ^: Dette er et estimat, dvs. et gæt bereget på basis af data. 3 Hvor godt passer de observerede geemsit med de sade værdier? Hvis vi havde taget 6 adre mæd og målt deres ville vi ikke få et geemsit på 552.9 l/mi Udfra spredige i populatioe (sd) ka usikkerhede ( spredige ) på geemsittet bereges. Geerelt kaldes spredige på estimater se (Stadard Error) eller see (Stadard Error of the Estimate) E ade måde ma ka beskrive usikkerhede på estimatet er ved at berege et (sikkerheds-) iterval omkrig estimatet. Sikkerhedsitervallet er de parameter-værdier der er foreelige (i e eller ade forstad) med data. (mere æste gag) 4 Usikkerhed på estimater Usikkerhede på et geemsit, baseret på (uafhægige) observatioer er: sd se( ˆ µ ) = sem = sem: stadard error of the mea : = 4, ˆ µ = 485.6 l/mi, ˆ σ = 46. 6 l/mi 46.6 se ( ˆ µ ) = = 2.4 4 De estimerede differes mellem mæd og kvider: ˆ µ ˆ µ = 552.9-485.6 = 67. 4 l/mi Usikkerhede på differese i geemsittee (to uafhægige grupper): 2 2 se( ˆ µ ˆ ) se( ˆ ) se( ˆ µ = µ + µ ) 2 2 = 2.4 + 3.7 = 8.5 l/mi 5 Normalfordelige E vigtig fordelig af to forskellige grude: age slags data er æste ormalfordelte ormalfordelte (muligvis efter e trasformatio). age estimater er ormalfordelte, æste ormalfordelte, hvis de er baseret på mage observatioer (muligvis efter e trasformatio). Igetig er helt ormalfordelt, me mage gage er det e rigtig god approksimatio! Relative størrelser som Odds Ratio, Relative Risiko og Rate Ratio skal aalyseres på log-skala (l). 6 400 300 200 00 0 400 800 2200 2600 3000 3400 3800 4200 4600 5000 barets vægt Fødselsvægt for 203 bør 5400 0.0 0.2 0.4 0.6 P ( 3.5kg < fødselsvægt < 4.0kg ) Normalfordelig: 2 3 4 5 6 e god approksimatio 7 8 Fødselsvægt i kg 3
0.0 0.05 0.0 0.5 Tæthedsfuktio: Sadsylighed for e observatio i et iterval = areal uder kurve. Areal uder kurve=. Høj værdi for e give x-værdi age observatioer tæt ved dee værdi. Lille værdi for e give x-værdi Få observatioer tæt ved dee værdi. 0 5 0 5 20 25 30 9 Forskellige ormalfordeliger: 0.0 0. 0.2 0.3 0.4 iddelværdi=0 Spredig= iddelværdi=2 Spredig= iddelværdi=0 Spredig=2-7 -6-5 -4-3 -2-0 2 3 4 5 6 7 Stadard ormalfordelige 20 µ = σ = iddelværdi Spredig 68.3% µ = σ = iddelværdi Spredig 95.45% 5.9% 5.9% 2.28% 2.28% µ σ µ µ + σ µ 2 σ µ µ + 2 σ irkwood og Stere side 48 2 22 µ = iddelværdi σ = Spredig µ.96 σ µ 95.00% 2.50% 2.50% irkwood og Stere side 48 µ +.96 σ 23 Tabel over stadardormalfordelige irkwood & Stere side 470 z P ( Z > z) z P ( Z > z) z P ( Z > z) -3.0 99.9% -.0 84.%.0 5.9% -2.9 99.8% -0.9 8.6%. 3.6% -2.8 99.7% -0.8 78.8%.2.5% -2.7 99.7% -0.7 75.8%.3 9.7% -2.6 99.5% -0.6 72.6%.4 8.% -2.5 99.4% -0.5 69.%.5 6.7% -2.4 99.2% -0.4 65.5%.6 5.5% -2.3 98.9% -0.3 6.8%.7 4.5% -2.2 98.6% -0.2 57.9%.8 3.6% -2. 98.2% -0. 54.0%.9 2.9% -2.0 97.7% 0.0 50.0% 2.0 2.3% -.9 97.% 0. 46.0% 2..8% -.8 96.4% 0.2 42.% 2.2.4% -.7 95.5% 0.3 38.2% 2.3.% -.6 94.5% 0.4 34.5% 2.4 0.8% -.5 93.3% 0.5 30.9% 2.5 0.6% -.4 9.9% 0.6 27.4% 2.6 0.5% -.3 90.3% 0.7 24.2% 2.7 0.3% -.2 88.5% 0.8 2.2% 2.8 0.3% -. 86.4% 0.9 8.4% 2.9 0.2% -.0 84.%.0 5.9% 3.0 24 0.% 4
Sadsylighed for mere ed.96 sprediger fra middelværdi: 5% i e ormalfordelig! ud af 20 observatioer: ere ed.96 sd fra middelværdi stadard deviatio (spredig) 95% af observatioere fra e ormalfordelig : Tilbage til fødselsvægtee: 400 300 200 00 Godt beskrevet ved e ormalfordelig! = 203 x = 3558g sd = 446g middelværdi.96 sd observatio middelværd i+.96 sd 0 400 800 2200 2600 3000 3400 3800 4200 4600 5000 5400 Et 95% prædiktiositerval for fødselsvægte: 3558g ±.96 446g = ( 2683; 4432) g 95% prædiktiositerval for e observatio 25 oklusio: 95% af bør fra e tilsvarede populatio vil have e fødselsvægt mellem 2.7 og 4.4 kg. 26 500 250 000 750 500 250 0-250 -500 Eksempel: Blødiger (ml) 6 % 68 % 2½ % 95 % 6 % 2½ % Hvis vi tror blødigere er (æste) ormalfordelt skal 2½% bløde uder -300ml Geemsit og sd giver ofte ku meig hvis data er (æste) ormalfordelt. Data fra blødiger (opgjort i ml) fra operatioer giver geemsit = 500ml og sd = 400ml dvs (00,900) skal dække ca. 68% og (-300,300) skal dække ca. 95% 27 Numeriske metoder til beskrivelse af kotiuerte data: Hvor ligger typiske data (det geerelle iveau): Geemsit (aritmetrisk): data skal være (æste) ormalfordelt Geemsit (geometrisk): logaritme-trasformerede (se def. i boge side 22) data skal være (æste) ormalfordelt edia (50 percetil): Dataaalyse: deskriptiv statistik skæve fordeliger 28 Numeriske metoder til beskrivelse af kotiuerte data: Hvor meget afviger de fra hiade (variatio)? Spredig/varias: data skal være (æste) ormalfordelt Variatioskoefficiet logaritme-trasformerede (= σ / µ) data skal være (æste) ormalfordelt Percetiler: 5 percetile er der hvor der er 5% af data der er midre (og 95% større) 25 percetile er lig. kvartil 50 percetile er lig 2. kvartil der er lig mediae 95 percetile er der hvor der er 95% af data der er midre (og 5% større) Percetiler / kvartiler: Rage/ max / mi skæve fordeliger 29 og geerelt X percetile er der hvor der er X% af data der er midre (og 00-X% større) 30 5
vartiler: Præsetatio af (få) umeriske data: scatterplot 0. kvartil er lig det midste tal. kvartil = 25 percetile 2. kvartil = 50 percetile = mediae 3. kvartil = 75 percetile 4. kvartil er lig det største tal (l/mi) (=6) 3 32 Præsetatio af (mage) umeriske data: boxplot * det varierer lidt hvorda ma defierer de øvre maximum* 3. kvartil media. kvartil miimum* Præsetatio af umeriske data: histogram 350 400 450 500 550 to observatioer mellem 400-450 é observatio mellem 350-400 33 34 og edre græse. Atal 0 2 3 4 5 6 Histogrammet beskriver stikprøves fordelig. Vi vil seere bruge histogrammet til grafisk at udersøge om data er ormalfordelt. Typer af data Vi skal i dette kursus kigge på statistiske aalyser af kotiuerte [ ] to kategorier (dichotom) [ Syg/rask ] flere kategorier [ Hvilket amt ma bor ] vetetidsdata [ Tid til død eller tilbagefald af sygdom ] De statistiske aalyse afhæger af type af data og hvorda data er idsamlet. Vi vil også kigge på statistiske aalyser som ka besvare spørgsmål som: a forskelle i mæd og kvider s værdi forklares ved at mæd er højre ed kvider? 35 Resumé Dataaalyse Deskriptiv statistik geemsit og spredig (sd) i e stikprøve Percetiler og vartiler Normalfordelige Beregig af sadsyligheder i ormalfordelige Estimater med tilhørede usikkerhed (se) Prediktiositerval Fortolkig Beregig ud fra geemsit og sd (ormalfordelte data) 36 6