Faculty of Life Scieces Program Populatioer og stikprøver Claus Ekstrøm E-mail: ekstrom@life.ku.dk Praktiske oplysiger Populatioer og stikprøver Data Datatyper Visualiserig Cetrum og spredig af e fordelig Slide 2 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver Praktiske oplysiger Eksempel vaccie mod miltbrad hos får Kursushjemmeside: Absalo Program Øvelsere Øvelsestimer Afleverigsopgaver Prisopgave Cases Materiale Læreboge R Vaccieret Ej vaccieret Død 0 24 I live 24 0 Slide 3 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver Slide 4 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver
Eksempel forekomst af leversvulster hos mus Eksempel 100 sprit for mæd E.coli Ret miljø Leversvulster 8 19 Ige svulster 5 30 Er der e effekt af miljø på forekomste af leversvulster? Ka tilfældig variatio være skyld i resultatet? Hvor stor er effekte? Slide 5 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver Slide 6 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver Eksempel LIFE Populatioer og stikprøver 0 2 4 6 8 10 g h 80 60 40 20 d e f puls a b c 80 60 40 20 80 60 40 20 0 2 4 6 8 10 time Slide 7 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver 0 2 4 6 8 10 Slide 8 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver
Stikprøver Der er variatio i populatioe ikke alle er es. Der er også variatio i stikprøveudtagige. Datatyper Kategoriske data Nomiale {Mad, kvide}, {Gul, grø, blå}. Ordiale {Ige, lidt, mellem, meget}, socialklasser. Kvatitative data Diskrete uger pr. kuld, atal familiemedlemmer. Kotiuerte lægde, højde, vægt, alder,... Slide 9 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver Slide 10 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver Datatyper eksempel Halthed hos kvæg 72 timer efter idtagelse af sukker. Sted Vægt (kg) Halthedsscore Atal hævede led I 276 Mildly lame 2 I 395 Mildly lame 1 I 356 Normal 0 I 437 Lame 2 II 376 Lame 0 II 350 Moderately lame 0 II 331 Lame 1 II 331 Normal 0 Visualiserig kategoriske data Frekvese = hyppighede eller atal forekomster. Hvis er atallet af observatioer er de relative frekves = frekvese. Group A Group B Group C Group D Total TD preset 21 7 6 12 46 TD abset 9 23 24 18 74 0.0 0.2 0.4 0.6 0.8 Grp A Grp B Grp C Grp D 0.0 0.2 0.4 0.6 0.8 1.0 Grp A Grp B Grp C Grp D Slide 11 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver Slide 12 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver
Visualiserig kvatitative data Visualiserig kvatitative data ph Tuel Rapid group coolig coolig high 8.44 8.44 high 7.11 6.00 high 6.00 5.78 high 7.56 7.67 low 7.22 5.56 high 5.11 4.56 low 3.11 3.33 high 8.67 8.00 low 7.44 7.00 low 4.33 4.89 low 6.78 6.56 low 5.56 5.67 low 7.33 6.33 low 4.22 5.67 high 5.78 7.67 low 5.78 5.56 low 6.44 5.67 low 8.00 5.33 Mørhed af sviekød ved forskellige frysemetoder. Hvorda sammeliges resultater fra de to metoder lettest? Frequecy 0 1 2 3 4 5 Desity 0.0 0.1 0.2 0.3 0.4 0.5 3 4 5 6 7 8 Tederess (low ph) 3 4 5 6 7 8 Tederess (low ph) Frequecy 0 1 2 3 4 5 Desity 0.0 0.1 0.2 0.3 0.4 0.5 5 6 7 8 9 Tederess (high ph) 5 6 7 8 9 Tederess (high ph) Slide 13 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver Slide 14 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver Media, rage og kvartiler Mediae er de midterste observatio, hvis ma ragorder sie data. Er der et lige atal observatioer er mediae midt imellem de to midterste observatioer: { y Media = ( +1 2 ) hvis er ulige 1 2 [y (/2) + y (/2+1) ] hvis er lige Rage er defieret som de største mius de midste observatio: Rage = y () y (1) Kvartiler deler datasættet op i fire grupper således at de midste 25%, 50%, 75% og 100% af observatioere er i hhv. 1., 2., 3., og 4. kvartil (beævt Q 1,...,Q 4 ). Iter-quartile rage svarer til rage over de midterste 50% af observatioere: Q 3 Q 1 Boxplots E outlier er e observatio, der ikke passer så godt overes med de øvrige observatioer. Formelt defieres outliers som observatioer, der er udefor itervallet [Q 1 1.5 IQR;Q 3 + 1.5 IQR]. Et boxplot bruges til at illustrere e fordelig grafisk ved at plotte de 5 mål: miimum, Q 1, media, Q 3 og maximum. I et modificeret boxplot er miimum og maximum erstattet med hhv. de midste og største observerede værdi, som er ideholdt i itervallet [Q 1 1.5 IQR;Q 3 + 1.5 IQR]. Observatioer udefor itervallet markeres som pukter. Slide 15 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver Slide 16 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver
Middelværdi og spredig Ifobox 1.1 Stikprøvemiddelværdie er defieret ved: ȳ = i y i = y Stikprøvespredige er defieret ved: s = i=1 (y i ȳ) 2. 1 Stikprøvevariase er givet som stikprøvespredige kvadreret. Bemærk, at både middelværdie og spredige har samme ehed som de måliger, der bereges ud fra. Lieær trasformatio af middelværdi og spredig Let ȳ ad s be the sample mea ad sample stadard deviatio from observatios y 1,...,y ad let y i = c y i + b be a liear trasformatio of the y s with costats b ad c. The ȳ = c ȳ + b ad s = c s. Simple lieære trasformatio har ige betydig. Vi ka tillade os at gage og addere ude at det resulterer i spøjse ædriger af middelværdie eller spredige. Slide 17 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver Slide 18 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver Media eller middelværdi? Fire eksempler Media / IQR Mediae deler datasættet op i to lige store dele Ordiale og kvatitative data Ikke følsom for outliers IQR fider de midterste 50% af data. 0 50 100 150 200 3 2 1 0 1 2 3 0 100 300 500 0 2 4 6 8 Middelværdi / spredig Middelværdie deler datasættet op så afstade fra cetrum kommer i betragig. Kvatitative data (primært symmetriske data). Følsom for outliers. Spredige er de geemsitlige afstad til geemsittet. 0 50 100 150 0 5 10 15 20 4 2 0 2 4 3 2 1 0 1 2 3 Slide 19 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver Slide 20 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver
Dages hovedpukter Populatioer / stikprøver og iferes. Datatyper. Visualiserig. Hvad er media, middelværdi, spredig, og IQR? Hvad fortæller de om data og hvorda fortolkes de? Slide 21 Statistisk Dataaalyse 1 (Uge 1-1 2010) Populatioer og stikprøver