Module 1: Data og Statistik

Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen og Hans Chr. Petersen Module 1: Data og Statistik 1.1 Hvad er statistik?................................... 1 1.2 Datatyper....................................... 3 1.3 Nøjagtighed og antal betydende cifre........................ 5 1.4 Eksempler på præsentation af fordelinger..................... 6 1.5 Eksempler på grafik................................. 7 1.6 Parametre og estimater............................... 8 1.1 Hvad er statistik? Videnskab = indsamling og fortolkning af data med henblik på at forstå vores omverden. Data = organiseret numerisk information. Ofte bruges ordet statistik om data (f.eks. arbejdsløshedsstatistik). Vores definition af statistik: Analyse og fortolkning af data med henblik på at drage (objektive) konklusioner. Forskellige anvendelsesområder: Biostatistik (biologi, sundhedsvidenskab) Biometri (biologi, agronomi) Teknometri (ingeniørvidenskab) Økonometri (økonomi, samfundsvidenskab) Epidemiologi (sygdommes forekomst og udbredelse i befolkninger) Demografi (befolkningens sammensætning) Psykometri (psykologi, psykiatri) Kemometri (kemiske spektre, farmakologi, ernæringsvidenskab)

1.1 Hvad er statistik? 2 De samme statistiske metoder anvendes næsten overalt. Matematisk statistik = generelle statistiske metoder, baseret på sandsynlighedsregning og -teori. Statistisk inferens = metoder til at drage velfunderede statistiske konklusioner. Indsamle og behandle data Forsøgsplanlægning (Design) For få observationer For mange observationer Forkerte observationer/variable Opsamling og lagring af rådata Datahåndtering og -behandling Beskrivende statistik (eksplorativ) Tabeller, grafer Gennemsnit, variationsmål Statistisk inferens Hypotesegenererende resultater Konklusioner I dette kursus, mhp. analyse af egne data og kritisk læsning af faglitteratur: Data og statistik Beskrivende statistik Sandsynligheder Behandling af 1 og 2 stikprøver Variansanalyse (ANOVA) med 1 og 2 faktorer Regression og korrelation Krydstabeller Antalsdata

1.2 Datatyper 3 1.2 Datatyper Variabel = karakteristik som varierer fra én biologisk enhed til en anden (form, farve, størrelse, vægt, koncentration osv.) Ofte ordnes data i en tabel, så hver søjle er en variabel, og hver række er en biologisk enhed. Eksempel (voksne individer af en makak-art): Køn Vådvægt (gram) Antal parasitter Habitat F 21072,83 18 A M 39467,83 12 A F 20272,71 17 B M 35622,77 13 B F 22993,19 16 C M 39208,93 14 C F 21926,41 17 D M 37444,92 13 D F 21217,58 12 E M 35611,06 18 E F 21993,69 16 F En variabels type (eller skala) = hvilke (typer) værdier kan den antage? Her er de mest almindelige typer: Ratioskala (f.eks. længde, vægt, antal blade, koncentration, BMI, aktivitet, temperatur i Kelvin) - talskala med absolut (ikke-vilkårligt) nulpunkt. Brøker og intervaller giver mening. Intervalskala (f.eks. temperatur i C) - talskala vilkårligt (ikke-absolut) nulpunkt. Brøker giver ikke mening, kun intervaller. Ordinal skala (f.eks. God - Mellem - Dårlig) - ordnet skala. Kaldes også ind imellem kategori-variabel. Hverken brøker eller intervaller giver mening. nonparametriske metoder tab af information ift. ratio- og intervalskala men øget robusthed. Nominal skala (f.eks. farve: rød, grøn, blå, sort) - ingen ordning (rækkefølge) af skalaen. Kaldes også kategori-variabel. Opdeling i kontinuerte og diskrete variable: Kontinuert variabel (f.eks. længde, vægt, koncentration) - variabel som kan variere kontinuert, og måles med i princippet uendeligt mange decimaler (kaosteori populationsøkologi).

1.2 Datatyper 4 Diskret variabel (f.eks. antal blade, antal æg, antal individer) - variabel som altid er heltallig (tællevariabel = meristisk), eller rent nominel. Faktor - nominal eller ordinal variabel som angiver en gruppeinddeling, f.eks. køn, hold, art, behandling osv.

1.3 Nøjagtighed og antal betydende cifre 5 1.3 Nøjagtighed og antal betydende cifre Accuracy (dansk: nøjagtighed) = hvor tæt ligger målingen af en variabels værdi for et enkelt individ på den sande værdi for det som ønskes målt? Stor nøjagtighed er godt. Precision (dansk: præcision, sikkerhed eller reproducerbarhed) = er stor hvis gentagne målinger af en variabel for et enkelt individ ligger tæt på hinanden. Stor præcision er nytteløs, hvis værdierne samler sig om en forkert værdi. Bias (dansk: fejlvisning eller skævhed) = måler hvor meget en variabels værdier ligger systematisk forkert i forhold til den sande værdi. Sammenfattende: Høj accuracy kræver høj precision og ingen bias. Antal betydende cifre bør afspejle nøjagtigheden af målingen (præcision), f.eks. 8 cm (usikkerhed på 0,5 cm) 8,0 cm (usikkerhed på 0,05 cm) 8,00 cm (usikkerhed på 0,005 cm) Hvis længder kun kan måles med en nøjagtighed på hele cm, så er det forkert at angive længden som 8,00 Andre eksempler: 0.,036 m 100 km 100,00 km For diskrete variable angives normalt det fulde antal cifre, f.eks. 135 bakteriekolonier fundet i petriskålen 2043 rådyr lever i skoven Eller: der lever ca. 2000 rådyr i skoven Videnskabelig (scientific) notation: tal 10 n, hvor antallet af betydende cifre i tal angiver precision. F.eks.: der lever 2.0 10 3 rådyr i skoven (usikkerhed på ca. 50) Eller: der lever 2 10 3 rådyr i skoven (usikkerhed på ca. 500)

1.4 Eksempler på præsentation af fordelinger 6 1.4 Eksempler på præsentation af fordelinger Frekvenstabel: Tabel med antal gange hvert udfald kommer. Søjlediagram: Hver søjles areal repræsenterer den tilsvarende frekvens. Søjlerne står adskilt, dvs. med mellemrum. Histogram: Hver søjles areal repræsenterer frekvensen af observationer i intervallet. Søjlerne står samlet, dvs. uden mellemrum. Frekvenspolygon: Søjlernes top-midtpunkt forbindes med rette linier.

1.5 Eksempler på grafik 7 1.5 Eksempler på grafik Fra Biometry: Antal planter af staren Carex flacca i 500 kvadrater (meristisk variabel):

1.6 Parametre og estimater 8 1.6 Parametre og estimater Populationer ( biologisk population) kan beskrives ved parametre - talværdier som angiver f.eks. middelværdi eller procentfordeling. Kun måleusikkerhed. Stikprøver udtages for at opnå estimater for parametrenes værdier, altså for at sige noget om populationen, når man ikke kan registrere hele populationen. Kendskab til f.eks. populationens biologi er vigtigt for at udtage en repræsentativ tilfældig stikprøve! Måleusikkerhed + stikprøveusikkerhed. Parametre betegnes (oftest) med græske bogstaver (f.eks. µ for middelværdi og π for procentvis forekomst) Estimater betegnes (oftest) med latiske bogstaver (f.eks. x for gennemsnit og p for procentvis forekomst) Vi ønsker at generalisere fra en stikprøve til hele populationen, og ofte til fremtidige medlemmer af populationen. Population = Alle individer som vi ønsker at udtale os om Marsvin i danske farvande Brachiopoder i Mariager Fjord Ofte ønsker vi at bestemme visse parametre for en population, f.eks. Gennemsnitsvægten for marsvin i danske farvande (mål for den centrale tendens) Vægtvariationen for marsvin i danske farvande (dispersionsmål) Umuligt at bestemme parametres værdier hvis populationen er stor eller utilgængelig Stikprøve = det udvalg af individer fra populationen vi har målinger fra Ét marsvin fanget og mærket den 27.7.03 110 Brachiopoder indsamlet fra tre sandbanker i løbet af foråret 2001 Ud fra en repræsentativ stikprøve kan vi bestemme estimater for de ønskede parametre, f.eks. Den observerede gennemsnitsvægt for en stikprøve på 5 marsvin Den observerede spredning for stikprøven på 5 marsvin Tilfældig stikprøve fra en population = udtrukket ved lodtrækning (alle medlemmer af populationen har samme sandsynlighed for at blive udvalgt), f.eks. Trække sedler tilfældigt fra en hat. Terningkast, møntkast

1.6 Parametre og estimater 9 Computer-genererede tilfældige tal Repræsentativ stikprøve = stikprøve udtaget med en passende tilfældighedsmekanisme Bemærk: tilfældig er langt fra det samme som på slump. Man skal have hatten og sedlerne frem! Estimaterne (f.eks. observeret gennemsnit og spredning) vil typisk varierer fra stikprøve til stikprøve, så vi kan ikke regne med at få nøjagtig samme talværdi for estimaterne næste gang vi udtager en tilfældig stikprøve. Forhåbentlig gælder at jo større stikprøve, jo bedre estimater (perfekt hvis vi indsamler hele populationen) Desuden ønsker vi, af etiske og praktiske grunde, at arbejde med så små stikprøvestørrelser som muligt. Som ved enkeltmålinger kan estimater være behæftet med fejlkilder og usikkerhed. Vi kræver derfor at estimater skal være optimale, dvs. opfylde visse kvalitetskrav: Der må ikke optræde Bias (dansk: unøjagtighed eller skævhed) - bias optræder, når stikprøver, uanset størrelse, giver systematisk fejlagtigt parameter-estimat Efficiency (dansk: efficiens eller sikkerhed) - en enkelt stikprøve forventes at give estimater tæt på parametrenes sande værdier, og estimaterne skal variere så lidt som muligt fra stikprøve til stikprøve Consistency (dansk: konsistens) - jo større stikprøve, jo bedre estimat, og altså det korrekte svar hvis hele populationen undersøges

1.6 Parametre og estimater 10 Vi benytter metoder som fra matematisk statistik er anerkendt som optimale.