Module 1: Data og Statistik

Relaterede dokumenter
Kapitel 1 Statistiske grundbegreber

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Normalfordelingen og Stikprøvefordelinger

Indblik i statistik - for samfundsvidenskab

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistiske data. Datamatricen. Variable j. ... X ij = x ij... Anonymiserede og ækvivalente dataindivider. Datamodellen

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Susanne Ditlevsen Institut for Matematiske Fag susanne

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Kvantitative Metoder 1 - Forår Dagens program

Behandling af kvantitative data

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

2 Populationer. 2.1 Virkelige populationer

Produkt og marked - matematiske og statistiske metoder

Kvantitative Metoder 1 - Forår Dagens program

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

Kapitel 12 Variansanalyse

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Supplerende opgaver til TRIP s matematiske GRUNDBOG. Forlaget TRIP. Opgaverne må frit benyttes i undervisningen.

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Darts et eksempel på målefejl

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Statistisk modellering og regressionsanalyse

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Kapitel 12 Variansanalyse

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Module 2: Beskrivende Statistik

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Personlig stemmeafgivning

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Statistik II 1. Lektion. Analyse af kontingenstabeller

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Modul 1: Beskrivende dataanalyse

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Fagplan for statistik, efteråret 2015

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Bilagsnotat til: De nationale tests måleegenskaber

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Kapitel 4 Sandsynlighed og statistiske modeller

Måleproblemer. Fejlkilder og tolkningsproblemer. Usikkerhed og bias. Stikprøveusikkerhed. Epidemiologi og Biostatistik (version

Kvadratisk regression

I. Deskriptiv analyse af kroppens proportioner

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Epidemiologi og Biostatistik

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Analyse af måledata II

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Statistiske modeller

Deskriptiv statistik for hf-matc

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Kapitel 7 Forskelle mellem centraltendenser

Forelæsning 1: Intro og beskrivende statistik

Kapitel 4 Sandsynlighed og statistiske modeller

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Eksempler på målefejl

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Transkript:

Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen og Hans Chr. Petersen Module 1: Data og Statistik 1.1 Hvad er statistik?................................... 1 1.2 Datatyper....................................... 3 1.3 Nøjagtighed og antal betydende cifre........................ 5 1.4 Eksempler på præsentation af fordelinger..................... 6 1.5 Eksempler på grafik................................. 7 1.6 Parametre og estimater............................... 8 1.1 Hvad er statistik? Videnskab = indsamling og fortolkning af data med henblik på at forstå vores omverden. Data = organiseret numerisk information. Ofte bruges ordet statistik om data (f.eks. arbejdsløshedsstatistik). Vores definition af statistik: Analyse og fortolkning af data med henblik på at drage (objektive) konklusioner. Forskellige anvendelsesområder: Biostatistik (biologi, sundhedsvidenskab) Biometri (biologi, agronomi) Teknometri (ingeniørvidenskab) Økonometri (økonomi, samfundsvidenskab) Epidemiologi (sygdommes forekomst og udbredelse i befolkninger) Demografi (befolkningens sammensætning) Psykometri (psykologi, psykiatri) Kemometri (kemiske spektre, farmakologi, ernæringsvidenskab)

1.1 Hvad er statistik? 2 De samme statistiske metoder anvendes næsten overalt. Matematisk statistik = generelle statistiske metoder, baseret på sandsynlighedsregning og -teori. Statistisk inferens = metoder til at drage velfunderede statistiske konklusioner. Indsamle og behandle data Forsøgsplanlægning (Design) For få observationer For mange observationer Forkerte observationer/variable Opsamling og lagring af rådata Datahåndtering og -behandling Beskrivende statistik (eksplorativ) Tabeller, grafer Gennemsnit, variationsmål Statistisk inferens Hypotesegenererende resultater Konklusioner I dette kursus, mhp. analyse af egne data og kritisk læsning af faglitteratur: Data og statistik Beskrivende statistik Sandsynligheder Behandling af 1 og 2 stikprøver Variansanalyse (ANOVA) med 1 og 2 faktorer Regression og korrelation Krydstabeller Antalsdata

1.2 Datatyper 3 1.2 Datatyper Variabel = karakteristik som varierer fra én biologisk enhed til en anden (form, farve, størrelse, vægt, koncentration osv.) Ofte ordnes data i en tabel, så hver søjle er en variabel, og hver række er en biologisk enhed. Eksempel (voksne individer af en makak-art): Køn Vådvægt (gram) Antal parasitter Habitat F 21072,83 18 A M 39467,83 12 A F 20272,71 17 B M 35622,77 13 B F 22993,19 16 C M 39208,93 14 C F 21926,41 17 D M 37444,92 13 D F 21217,58 12 E M 35611,06 18 E F 21993,69 16 F En variabels type (eller skala) = hvilke (typer) værdier kan den antage? Her er de mest almindelige typer: Ratioskala (f.eks. længde, vægt, antal blade, koncentration, BMI, aktivitet, temperatur i Kelvin) - talskala med absolut (ikke-vilkårligt) nulpunkt. Brøker og intervaller giver mening. Intervalskala (f.eks. temperatur i C) - talskala vilkårligt (ikke-absolut) nulpunkt. Brøker giver ikke mening, kun intervaller. Ordinal skala (f.eks. God - Mellem - Dårlig) - ordnet skala. Kaldes også ind imellem kategori-variabel. Hverken brøker eller intervaller giver mening. nonparametriske metoder tab af information ift. ratio- og intervalskala men øget robusthed. Nominal skala (f.eks. farve: rød, grøn, blå, sort) - ingen ordning (rækkefølge) af skalaen. Kaldes også kategori-variabel. Opdeling i kontinuerte og diskrete variable: Kontinuert variabel (f.eks. længde, vægt, koncentration) - variabel som kan variere kontinuert, og måles med i princippet uendeligt mange decimaler (kaosteori populationsøkologi).

1.2 Datatyper 4 Diskret variabel (f.eks. antal blade, antal æg, antal individer) - variabel som altid er heltallig (tællevariabel = meristisk), eller rent nominel. Faktor - nominal eller ordinal variabel som angiver en gruppeinddeling, f.eks. køn, hold, art, behandling osv.

1.3 Nøjagtighed og antal betydende cifre 5 1.3 Nøjagtighed og antal betydende cifre Accuracy (dansk: nøjagtighed) = hvor tæt ligger målingen af en variabels værdi for et enkelt individ på den sande værdi for det som ønskes målt? Stor nøjagtighed er godt. Precision (dansk: præcision, sikkerhed eller reproducerbarhed) = er stor hvis gentagne målinger af en variabel for et enkelt individ ligger tæt på hinanden. Stor præcision er nytteløs, hvis værdierne samler sig om en forkert værdi. Bias (dansk: fejlvisning eller skævhed) = måler hvor meget en variabels værdier ligger systematisk forkert i forhold til den sande værdi. Sammenfattende: Høj accuracy kræver høj precision og ingen bias. Antal betydende cifre bør afspejle nøjagtigheden af målingen (præcision), f.eks. 8 cm (usikkerhed på 0,5 cm) 8,0 cm (usikkerhed på 0,05 cm) 8,00 cm (usikkerhed på 0,005 cm) Hvis længder kun kan måles med en nøjagtighed på hele cm, så er det forkert at angive længden som 8,00 Andre eksempler: 0.,036 m 100 km 100,00 km For diskrete variable angives normalt det fulde antal cifre, f.eks. 135 bakteriekolonier fundet i petriskålen 2043 rådyr lever i skoven Eller: der lever ca. 2000 rådyr i skoven Videnskabelig (scientific) notation: tal 10 n, hvor antallet af betydende cifre i tal angiver precision. F.eks.: der lever 2.0 10 3 rådyr i skoven (usikkerhed på ca. 50) Eller: der lever 2 10 3 rådyr i skoven (usikkerhed på ca. 500)

1.4 Eksempler på præsentation af fordelinger 6 1.4 Eksempler på præsentation af fordelinger Frekvenstabel: Tabel med antal gange hvert udfald kommer. Søjlediagram: Hver søjles areal repræsenterer den tilsvarende frekvens. Søjlerne står adskilt, dvs. med mellemrum. Histogram: Hver søjles areal repræsenterer frekvensen af observationer i intervallet. Søjlerne står samlet, dvs. uden mellemrum. Frekvenspolygon: Søjlernes top-midtpunkt forbindes med rette linier.

1.5 Eksempler på grafik 7 1.5 Eksempler på grafik Fra Biometry: Antal planter af staren Carex flacca i 500 kvadrater (meristisk variabel):

1.6 Parametre og estimater 8 1.6 Parametre og estimater Populationer ( biologisk population) kan beskrives ved parametre - talværdier som angiver f.eks. middelværdi eller procentfordeling. Kun måleusikkerhed. Stikprøver udtages for at opnå estimater for parametrenes værdier, altså for at sige noget om populationen, når man ikke kan registrere hele populationen. Kendskab til f.eks. populationens biologi er vigtigt for at udtage en repræsentativ tilfældig stikprøve! Måleusikkerhed + stikprøveusikkerhed. Parametre betegnes (oftest) med græske bogstaver (f.eks. µ for middelværdi og π for procentvis forekomst) Estimater betegnes (oftest) med latiske bogstaver (f.eks. x for gennemsnit og p for procentvis forekomst) Vi ønsker at generalisere fra en stikprøve til hele populationen, og ofte til fremtidige medlemmer af populationen. Population = Alle individer som vi ønsker at udtale os om Marsvin i danske farvande Brachiopoder i Mariager Fjord Ofte ønsker vi at bestemme visse parametre for en population, f.eks. Gennemsnitsvægten for marsvin i danske farvande (mål for den centrale tendens) Vægtvariationen for marsvin i danske farvande (dispersionsmål) Umuligt at bestemme parametres værdier hvis populationen er stor eller utilgængelig Stikprøve = det udvalg af individer fra populationen vi har målinger fra Ét marsvin fanget og mærket den 27.7.03 110 Brachiopoder indsamlet fra tre sandbanker i løbet af foråret 2001 Ud fra en repræsentativ stikprøve kan vi bestemme estimater for de ønskede parametre, f.eks. Den observerede gennemsnitsvægt for en stikprøve på 5 marsvin Den observerede spredning for stikprøven på 5 marsvin Tilfældig stikprøve fra en population = udtrukket ved lodtrækning (alle medlemmer af populationen har samme sandsynlighed for at blive udvalgt), f.eks. Trække sedler tilfældigt fra en hat. Terningkast, møntkast

1.6 Parametre og estimater 9 Computer-genererede tilfældige tal Repræsentativ stikprøve = stikprøve udtaget med en passende tilfældighedsmekanisme Bemærk: tilfældig er langt fra det samme som på slump. Man skal have hatten og sedlerne frem! Estimaterne (f.eks. observeret gennemsnit og spredning) vil typisk varierer fra stikprøve til stikprøve, så vi kan ikke regne med at få nøjagtig samme talværdi for estimaterne næste gang vi udtager en tilfældig stikprøve. Forhåbentlig gælder at jo større stikprøve, jo bedre estimater (perfekt hvis vi indsamler hele populationen) Desuden ønsker vi, af etiske og praktiske grunde, at arbejde med så små stikprøvestørrelser som muligt. Som ved enkeltmålinger kan estimater være behæftet med fejlkilder og usikkerhed. Vi kræver derfor at estimater skal være optimale, dvs. opfylde visse kvalitetskrav: Der må ikke optræde Bias (dansk: unøjagtighed eller skævhed) - bias optræder, når stikprøver, uanset størrelse, giver systematisk fejlagtigt parameter-estimat Efficiency (dansk: efficiens eller sikkerhed) - en enkelt stikprøve forventes at give estimater tæt på parametrenes sande værdier, og estimaterne skal variere så lidt som muligt fra stikprøve til stikprøve Consistency (dansk: konsistens) - jo større stikprøve, jo bedre estimat, og altså det korrekte svar hvis hele populationen undersøges

1.6 Parametre og estimater 10 Vi benytter metoder som fra matematisk statistik er anerkendt som optimale.