Matematik/Statistik. statistik. Forelæser og ansvarlig for kursets statistikdel: Peter Sunde Afd. f. Populationsbiologi

Relaterede dokumenter
M1, slide 4 (Introduktion til kurset: praktiske oplysninger) M1, slide 5 (Introduktion til kurset: praktiske oplysninger)

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Konfidensintervaller og Hypotesetest

1 Hb SS Hb Sβ Hb SC = , (s = )

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Løsning til eksaminen d. 29. maj 2009

Kapitel 3 Centraltendens og spredning

Løsning eksamen d. 15. december 2008

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Fagplan for statistik, efteråret 2015

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Løsning til eksaminen d. 14. december 2009

Ikke-parametriske tests

Normalfordelingen og Stikprøvefordelinger

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Kapitel 1 Statistiske grundbegreber

Forelæsning 11: Kapitel 11: Regressionsanalyse

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Indblik i statistik - for samfundsvidenskab

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Undervisningsbeskrivelse

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Kapitel 12 Variansanalyse

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Kvantitative Metoder 1 - Forår Dagens program

1 Regressionsproblemet 2

Produkt og marked - matematiske og statistiske metoder

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Module 1: Data og Statistik

Forelæsning 1: Intro og beskrivende statistik

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Forsøgsplanlægning Stikprøvestørrelse

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Kapitel 12 Variansanalyse

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Kapitel 3 Centraltendens og spredning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

4 Oversigt over kapitel 4

To-sidet varians analyse

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Estimation og usikkerhed

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Løsning til eksamen d.27 Maj 2010

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Kapitel 10 Simpel korrelation

Kapitel 7 Forskelle mellem centraltendenser

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Statistik noter - Efterår 2009 Keller - Statistics for management and economics

Kapitel 11 Lineær regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Beskrivende statistik

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Definition. Definitioner

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Opgaver til kapitel 3

Epidemiologi og Biostatistik

(studienummer) (underskrift) (bord nr)

Transkript:

Matematik/Statistik statistik Forelæser og ansvarlig for kursets statistikdel: Peter Sunde Afd. f. Populationsbiologi PSunde@bi.ku.dk M1, slide 1 Dagens prædiken: Introduktion til kurset Praktiske oplysninger Hvad vedkommer statistik os biologer! Hvad vi vil ha, at I skal ha ud af dette kursus Statistiske grundbegreber Hvad går statistik ud på? Observationer, stikprøver og populationer Stokastiske variable Mål for central tendens Mål for spredning M1, slide (Introduktion til kurset: praktiske oplysninger) 1

Matematik/Statistik Bio-statistik Matematik for biologer Populationsbiologi M1, slide 3 (Introduktion til kurset: praktiske oplysninger) Statistik 5-9 dobbeltforelæsninger (uge -) ugentlige øvelsestimer (sammen med matematik) Eksamen 7. januar timers skriftligt prøve Statistikdel og matematikdel vægtes lige Bestået, hvis >5% rigtigt M1, slide (Introduktion til kurset: praktiske oplysninger)

Kursusmateriale: Fowler et al. 1998. Practical statistics for field biology. Lærebog: pensum. Kompendium og opgaver i biostatistik 8 kr M1, slide 5 (Introduktion til kurset: praktiske oplysninger) Statistik: Kursus-hjemmeside: www.bi.ku.dk Vælg menuerne: Courses Course homepages Undergraduate courses Blok - Matematik/Statistik Login to protected documents, Username: biologi, Password:biku --Start her.htm Kursusinformation og Downloads: Forelæsnings-slides Løsninger til regneopgaver Regneark med automatiserede statistikfunktioner M1, slide (Introduktion til kurset: praktiske oplysninger) 3

1 3 Vejledende forelæsningsplan Introduktion til kurset. Statistiske grundbegreber. Sandsynlighedsfordelinger for diskrete variable på nominalskala: Binomialfordelingen, Poisson-fordelingen. (1-5) Principper for hypotese-testning. Statistiske test for data på nominalskala: Binomialtestet, χ -tests. Fordelingsmønstre af tælledata. (-7, 3-1) 5 Sandsynlighedsfordelinger for data på interval- og ratioskala: normalfordeling, t-fordeling, F-fordeling, sikkerhedsgrænser for middelværdi og forskel i middelværdi. (7-) Tests for forskel i central tendens for data på ordinal- og interval/ratioskala: t-tests for afhængige of uafhængige stikprøver, Mann-Whitney U-test, Kruskall-Wallis test, Wilcoon s test, Friedman s test. (15-178) 7 Korrelation og regression: Covarians, Pearson s r, Spearman s r s, Lineær regression. (131-15) 8 Regression fortsat. Introduktion til variansanalyse og generelle lineære modeller, samt brug af statistisk software. (179-181, 187-189) 9 Opsamling M1, slide 7 (Introduktion til kurset: praktiske oplysninger) Uge Statistik-forelæsninger * Relevante opgaver i øvelseskompendium Statistik i forbindelse med populationsøvelser (1 + ) Introduktion til kurset Statistiske grundbegreber. Sandsynlighedsfordelinger for diskrete stokastiske variable på nominalskala: Binomialfordelingen, Poisson-fordelingen. (1-5) 7 (3+) Principper for hypotese-testning. Statistiske test for data på nominalskala: Binomialtestet, χ -tests. Fordelingsmønstre af tælledata (-7, 3-1) 8 (5) Sandsynlighedsfordelinger for data på interval- og ratioskala: normalfordeling, t- fordeling, F-fordeling, sikkerhedsgrænser for middelværdi og forskel i middelværdi (7-) 9 () Tests for forskel i central tendens for data på ordinal, interval og ratioskala: t- tests, Mann-Whitney U-test, Kruskall- Wallis test, Wilcoon s test, Friedman s test (15-178) Sæt 1: 1 Sæt : 1 5 Sæt 3: 1 (også uge 7) Sæt 3: 1 (også uge ) Sæt 5: 1 5 Sæt : 1 Sæt : 1 5 (ingen) Livstabel: Binomialfordeling, binomialtest, χ one sample test Biologisk bekæmpelse: Mann- Whitney, Wilcoon, t-statistik Funktionelt respons: Spearman s r s, lineær regression Signalering: Mann-Whitney, Wilcoon, Spearman s r s 5 (7) Korrelation og regression: Covarians, Pearson s r, Spearman s r s, Lineær regression (131-15) 1 (8) Regression fortsat. Introduktion til variansanalyse og generelle lineære modeller, samt brug af statistisk software (179-181, 187-189) Sæt 7: 1 3 Frøbank: χ (r c table), Wilcoon, fordelingsmønstre Populationsvækst: Mann- Whitney, Wilcoon, t-statistik Sæt 8: 1 Aldersstruktur: t-statistik, χ -statistik Dominans: Kruskall-Wallis, χ - statistik (9) Opsamling Eksempler på eksamensopgaver (ingen) M1, slide 8 (Introduktion til kurset) * Sidehenvisninger til lærebogen (Fowler et al. 1998) er angivet med rød tekst.

Introduktion til kurset Praktiske oplysninger Hvad vedkommer statistik os biologer! Hvad vi vil ha, at I skal ha ud af dette kursus M1, slide 9 (Introduktion til kurset: Hvad vedkommer statistik biologer?) Hvad vedkommer statistik egentlig os biologer? Statistisk analyse er en del af den (natur)videnskabelige metode! Statistik vil indgå i din professionelle hverdag! M1, slide (Introduktion til kurset: Hvad vedkommer statistik biologer?) 5

Statistisk analyse er en del af den naturvidenskabelige metode Data Statistisk analyse Kvantitativt resultat Biologisk tolkning Biologisk funderet konklusion M1, slide 11 (Introduktion til kurset: Hvad vedkommer statistik biologer?) = Varen DU skal levere Statistisk analyse er en del af den naturvidenskabelige metode Data Sampling design Statistisk analyse stærkest mulige metode Kvantitativt resultat Biologisk tolkning (Estimat af virkeligheden) Biologiske kompetence Biologisk funderet konklusion = Varen DU skal levere M1, slide 1 (Introduktion til kurset: Hvad vedkommer statistik biologer?)

Brugen af statistik bare stiger og stiger.. M1, slide 13 (Introduktion til kurset: Hvad vedkommer statistik biologer?) Forstår du denne tekst? Der var 7 hanner og 3 hunner i koloni A (7% hanner; 95% CI: 5-73%). I koloni B var det tilsvarende antal 3 og 1 (% hanner, 95% CI: 9-7%). Der var ingen signifikant forskel på fordelingen af hanner og hunner i de to kolonier (X [Yate s korrektion] =.5, df=1, P>.9). I de to kolonier tilsammen, var der signifikant flere hanner end hunner (binomial test (twotailed): P=.). M1, slide 1 (Introduktion til kurset: Hvad vedkommer statistik biologer?) 7

Formålsbeskrivelse: Undervisningen skal introducere de studerende til statistikkens grundbegreber og metoder, primært gennem konkrete eksempler på statistikkens anvendelse i forbindelse med biologiske problemstillinger. Der vil blive lagt vægt på, at den studerende med udgangspunkt i en konkret biologisk problemstilling kan opstille hypoteser, vælge signifikansniveau, vælge en statistisk test, der udnytter data optimalt, udføre beregningerne korrekt og til slut drage den rigtige konklusion baseret på de opstillede hypoteser og det valgte signifikansniveau. I løbet af kurset vil den studerende stifte bekendtskab med de mest anvendte statistiske fordelinger samt en række parametriske og parameterfrie tests. Endelig vil den studerende blive introduceret til statistisk software. M1, slide 1 (Introduktion til kurset: Hvad du skal lære på dette kursus) Hvad vi vil ha, at I skal ha ud af dette kursus Forståelse af statistikkens grundprincipper og underlæggende teori Basale færdigheder i brug af simpel statistik til behandling af egne data. En grundlæggende viden, som sætter jer i stand til på egen hånd, at opsøge mere viden.. M1, slide 17 (Introduktion til kurset: Hvad du skal lære på dette kursus) 8

Grib chancen! M1, slide 18 (Introduktion til kurset) Statistiske grundbegreber Hvad går statistik ud på? Observationer, stikprøver og populationer Stokastiske variable Mål for central tendens Mål for spredning M1, slide 19 (Statistiske grundbegreber) 9

Hvad er statistik? Én definition: There are three kinds of lies: lies, damned lies, and statistics Benjamin Disraeli, 18-1881 Britisk Premierminister M1, slide (Statistiske grundbegreber: Hvad går statistik ud på?) Hvad er statistik? En anden definition: Statistik: Det videnskabelige studie af data, som beskriver naturlig variation Videnskab: Objektiv, standardiseret metode Data: Kvantitative mængder af information, ikke enkeltobservationer Naturlig variation: Variation, som kan henføres til alle de begivenheder, der ikke er under undersøgerens direkte kontrol M1, slide 1 (Statistiske grundbegreber: Hvad går statistik ud på?)

Hvad er statistik? -En tredje definition: ved på basis af sandsynlighedsteori, at generalisere en kvantitativt udtrykt viden fra et begrænset antal observationer til en større helhed. (Kvantitativt = kan angives i talstørrelser) frekvens ( f ) 8 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39.3..1 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 M1, slide (Statistiske grundbegreber: Hvad går statistik ud på?) Forventet hyppig hed (p ) Hvad er statistik? - ved på basis af sandsynlighedsteori, at generalisere en kvantitativt udtrykt viden fra et begrænset antal observationer til en større helhed. Vægtfordeling af 8 kongepingviner vægtfordeling af alle kongepingviner frekvens ( f ) 8 Stikprøve population 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39.1 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 M1, slide 3 (Statistiske grundbegreber: Hvad går statistik ud på?) Forventet hyppig hed (p ).3. 11

frekvens ( f ) 8 Hvad bruger vi statistik til? - Ud fra stikprøvens sammensætning, kan vi estimere populationens sande sammensætning, som vi ikke kender. - Et estimat er derfor behæftet med statistisk usikkerhed - Statistisk teori sætter os i stand til at angive størrelsen af denne usikkerhed. Stikprøve population 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 M1, slide (Statistiske grundbegreber: Hvad går statistik ud på?) Forventet hyppig hed (p ).3..1 Hovedanvendelser af statistik Induktiv/deskriptiv/beskrivende statistik: Angivelse af sikkerhedsgrænser omkring estimater af de sande underlæggende fordelinger Deduktiv (hypotese-testende) statistik: Test for om en observeret forskel er reel, ud fra sandsynligheden for at den kan tilskrives tilfældig variation A) Forskelle mellem grupper B) Sammenhænge mellem variable M1, slide 5 (Statistiske grundbegreber: Hvad går statistik ud på?) 1

Deskriptiv statistik Udgangspunktet for alle analyser: Hvordan ser mønsteret ud? - Hvad er de to stikprøvers estimerede middelværdier, og hvor stor er usikkerheden omkring de to estimater? M1, slide (Statistiske grundbegreber: Hvad går statistik ud på?) Værdi af variabel 7 5 3 1 Deduktiv statistik, Hypotese-testning: Tester om en observeret forskel (eller sammenhæng) er reel. - Hvad er sandsynligheden for at den observerede forskel i gennemsnit skyldes tilfældigheder? Herom, meget mere senere... M1, slide 7 (Statistiske grundbegreber: Hvad går statistik ud på?) 5 3 1 Værdi af variabel7 13

Datagrundlag/forsøgsdesign: Eksperimentelle data: Uafhængige variable kontrolleret af forsøgsleder F.eks. Kliniske forsøg: forsøgspersoner modtager forskellig behandling bestemt ved lodtrækning Korrelative data Uafhængige variable ikke underlagt forsøgsleders kontrol. F.eks. Epidemiologiske undersøgelser: dødelighed blandt rygere og ikke-rygere i en befolkning M1, slide 8 (Statistiske grundbegreber: Hvad går statistik ud på?) Eksempel på korrelative data: Fødselshyppighed og antal storkepar i Danmark, 189-35 Fødsler per inb. 3 5 15 5 1 Antal storkepar M1, slide 9 (Statistiske grundbegreber: Hvad går statistik ud på?) 1

Fødsler per inb. Eksempel CORRELATION på korrelative IS NOT data: CAUSATION Fødselshyppighed og antal storkepar i Danmark, 189- En statistisk påviselig sammenhæng siger kun, at der er en sammenhæng. Ikke hvad den skyldes! 35 3 5 15 5 1 Antal storkepar Statistisk funderede konklusioner er sårbare over for mistolkninger (eller manipulation..). Vær altid kritisk! M1, slide 3 (Statistiske grundbegreber: Hvad går statistik ud på?) Statistiske grundbegreber Hvad går statistik ud på? Observationer, stikprøver og populationer Stokastiske variable Mål for central tendens Mål for spredning M1, slide 31 (Statistiske grundbegreber: Observationer, stikprøver og populationer) 15

Stikprøve population M1, slide 3 (Statistiske grundbegreber: Observationer, stikprøver og populationer) Enkeltobservation: én pingvin Stikprøve: n pingviner i kolonien Statistisk population: alle pingviner i kolonien Biologisk population: alle kongepingviner, som har unger i februar måned (?) M1, slide 33 (Statistiske grundbegreber: Observationer, stikprøver og populationer) 1

Universelle krav til stikprøvetagning ( sampling )! Stikprøven skal være et tilfældigt udtræk af den statistiske population (repræsentativ)! Hvis stikprøven ikke er repræsentativ, er undersøgelsen biased. De enkelte observationer skal være indbyrdes uafhængige! M1, slide 3 (Statistiske grundbegreber: Observationer, stikprøver og populationer) Statistiske grundbegreber Hvad går statistik ud på? Observationer, stikprøver og populationer Stokastiske variable Mål for central tendens Mål for spredning M1, slide 35 (Statistiske grundbegreber: Stokastiske variable) 17

Variable Variabel: Hvad som helst, som varierer mellem observationer Stokastisk variabel: En variabel, hvis udfald/værdi vi på forhånd ikke kender. Udfaldsrum: Det sæt værdier en stokastisk variabel kan antage. M1, slide 3 (Statistiske grundbegreber: Stokastiske variable) Eksempler på variable Observation: Variabel: Udfaldsrum: Pingvin køn {, } Pingvin Længde (cm) [, ] Pingvin PCB indhold (ppm) [, ] Pingvinkoloni Antal Pingviner {, 1,.. } M1, slide 37 (Statistiske grundbegreber: Stokastiske variable) 18

Måleskalaer for variable: Nominal-skala ( klassifikations-skala ) {, },{rød, blå}, {konge-, kejserpingvin} Ordinal-skala ( rang-skala ) {pulli, juvenil, subadult, adult} Interval-skala Temperatur i C Ratio-skala Højde, masse, antal M1, slide 38 (Statistiske grundbegreber: Stokastiske variable) Matematiske operatorer: Nominal-skala = Ordinal-skala = > < Interval-skala = > < - + Ratio-skala = > < - + X /. M1, slide 39 (Statistiske grundbegreber: Stokastiske variable) 19

Diskrete og kontinuerte variable Diskrete variable discrete, discintinuous, meristic : Kan kun antage diskrete værdier Kontinuerte variable continuous : Kan antage alle værdier indenfor et givet udfaldsrum M1, slide (Statistiske grundbegreber: Stokastiske variable) Diskrete og kontinuerte variable Diskrete variable Antal pingviner i en koloni, X = {,1,... } Køn, X = {, } Kontinuerte variable Længde, X ], [ M1, slide 1 (Statistiske grundbegreber: Stokastiske variable)

Grafisk fremstilling Diskrete variable Unger Hunner Pindediagram( bar graphs ) Lagkagediagram (nominalskala) Hanner Antal observationer 3 5 15 5 Antal reder 5 3 1 Hanner Hunner Unger Gruppe 1 3 5 Kontinuerte variable Histogram (interval-,ratioskala) Antal pingviner, f() 8 7 7 7 Kuldstørrelse 7 78 8 8 M1, slide (Statistiske grundbegreber: Stokastiske variable) Højde (cm ) Statistiske grundbegreber Hvad går statistik ud på? Observationer, stikprøver og populationer Stokastiske variable Mål for fordelingers centrale tendens Mål for fordelingers spredning 8 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 M1, slide 3 (Statistiske grundbegreber: Mål for fordelingers centrale tendens 1

Forskellige mål for fordelingers centrale tendens Middelværdi/gennemsnit Median Modus 8 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 M1, slide (Statistiske grundbegreber: Mål for fordelingers centrale tendens Middelværdi og gennemsnit (data på interval eller ratioskala) Middelværdien: mean µ = i N Gennemsnittet (estimat af middelværdi): sample mean average = µˆ = i n (Forskellige notationer betyder det samme) n i i i=1 = = n n n M1, slide 5 (Statistiske grundbegreber: Mål for fordelingers centrale tendens

= µˆ = i n H Eksempel på beregning af gennemsnit: i = {1,, 5, 51} Σ i = 1++5+51 = 11 n = = Σ i /n =11/ = 35,5 35,3 M1, slide (Statistiske grundbegreber: Mål for fordelingers centrale tendens Gennemsnit af grupperede data f(), (Antal reder) 5 3 1 f i = µˆ = n 1 3 5 Kuldstørrelse f f* 5 1 1 1 8 3 5 15 3 1 5 1 5 Σ f = n = 19 Σ i f i = 1 = Σ i f i / Σ f = 1 /19 =, M1, slide 7 (Statistiske grundbegreber: Mål for fordelingers centrale tendens 3

Medianen (data skal være på mindst ordinalskala) Den værdi som deler en frekvensfordeling i to lige store dele = 5% fraktil f(), (Antal reder med æg) 5 3 1 1 3 5 : Kuldstørrelse M1, slide 8 (Statistiske grundbegreber: Mål for fordelingers centrale tendens Beregning af median når antallet af observationer (n) er ulige: Median= værdien af den (n + 1)/ te observation (19+1)/ = ende observation, Median = f(), (Antal reder med æg) 5 3 1 1 3 5 : Kuldstørrelse M1, slide 9 (Statistiske grundbegreber: Mål for fordelingers centrale tendens f F 5 5 1 1 3 5 15 3 18 5 1 19

Beregning af median for en fordeling med et lige antal observationer To metoder: 1) Median = gennemsnittet af værdierne for den n/ te og den (n/+1) te observation: (interval-/ratioskala) eller ) Medianværdien ligger mellem værdien af den n/ te og den (n/+1) te observation. (ordinalskala) Find medianen for denne fordeling ( observationer): 1, 31, 3, 7 1) n/ = / = ; værdi af. observation = 31, (n/+1 = / + 1 = 3, værdi af 3. observation = 3 Median = (31 + 3)/ = 3.5 ) Medianen ligger i mellem 31 og 3 M1, slide 5 (Statistiske grundbegreber: Mål for fordelingers centrale tendens Modus Værdien af de(t) mest almindelige udfald f(), antal reder 5 3 1 1 3 5, kuldstørrelse Fordelinger med et, to eller tre toppunkter, kaldes henholdsvist uni-, bi og tri-modale M1, slide 51 (Statistiske grundbegreber: Mål for fordelingers centrale tendens 5

Tre måder at vægte central tendens for den typiske kuldstørrelse Gennemsnit = = 1/19 =, Median = 5 Modus = {;3} f(), antal reder 3 1 1 3 5, kuldstørrelse M1, slide 5 (Statistiske grundbegreber: Mål for fordelingers centrale tendens Statistiske grundbegreber Hvad går statistik ud på? Observationer, stikprøver og populationer Stokastiske variable Mål for fordelingers centrale tendens Mål for fordelingers spredning 8 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 M1, slide 53 (Statistiske grundbegreber: Mål for fordelingers spredning

Tre fordelinger med samme gennemsnit, men forskellig spredning frekvens (f) 8 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 = 31 n = 3 frekvens (f) 8 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 frekvens (f) 8 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 M1, slide 5 (Statistiske grundbegreber: Mål for fordelingers spredning Forskellige mål for, hvor stor forskel der er i værdier inden for en fordeling: Range, Fraktiler (mindst ordinalskala) Varians, standardafvigelse (interval/ratioskala) Variationskoefficient (kun ratioskala) frekvens (f) 8 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 M1, slide 55 (Statistiske grundbegreber: Mål for fordelingers spredning 7

Range ( spændvidde ) Difference mellem den største og den lavest målte værdi Højeste værdi = 5, Laveste værdi =, Range = 5- = 5 f(), antal reder 5 3 1 1 3 5, kuldstørrelse M1, slide 5 (Statistiske grundbegreber: Mål for fordelingers spredning Fraktiler/procentiler ( Fractiles / Percentiles ) Angiver værdier, som afgrænser de mest ekstreme haler af fordelingen. I modsætning til range robuste over for variation i stikprøvestørrelse frekvens (f) 8 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 M1, slide 57 (Statistiske grundbegreber: Mål for fordelingers spredning 8

F(), antal duehøge per interval 137 duehøgehunner dræbt i kollisionsulykker 3 Fraktiler/procentiler 5% fraktil (= medianen) Fractiles,/ Percentiles 95% Robuste over for variation i 5% stikprøvestørrelse fraktil 8 7 5 9 19 18 17 15 13 1 weight (g) fraktil (kropsvægt, målt i gram) M1, slide 58 (Statistiske grundbegreber: Mål for fordelingers spredning Hvis stikprøven H havde været mindre De 137 hunner: 137 duehøgehunner dræbt i kollisionsulykker 3 af de 137 hunner: Sub-sample af hunner: 5 8 7 5 9 19 18 17 15 13 1 3 1 8 7 5 9 19 18 17 15 13 1 weight (g) weight (g) M1, slide 59 (Statistiske grundbegreber: Mål for fordelingers spredning 9

Range, men ikke fraktilværdier, følsomme over for variation i stikprøvens størrelse H n = 137 n = n = n = Gennemsnit 87 985 53 119 median 5 895 38 115 Minimum 95 55 5 75 Maksimum 185 151 13 Difference: 1355 9 9 88 5% procentil 553 53 755 95% procentil 158 158 157 13 Difference: 98 955 95 879 M1, slide (Statistiske grundbegreber: Mål for fordelingers spredning Afvigelsen fra gennemsnittet Deviation from the mean, deviate : D = i M1, slide 1 (Statistiske grundbegreber: Mål for fordelingers spredning 3

Den kvadrerede afvigelse fra gennemsnittet: Squared deviation from the mean Sum of squares, SS Kvadratsummen Mean square, MS Variansen Total-optælling: ( i µ) ( i µ) σ = i ( µ) N Stikprøve: ( i ) ( i ) s ( i ) = n 1 Standard deviation, Standard afvigelsen σ = i ( µ) N ( i ) s = n 1 M1, slide (Statistiske grundbegreber: Mål for fordelingers spredning Sum-of-squares : Sum of squares of the deviations, Sum of squares, SS, Kvadrat-summen SS c = ( i ) ( ) i SS = ( i ) n - En nøgleparameter i parametrisk statistik! (mere herom senere...) M1, slide 3 (Statistiske grundbegreber: Mål for fordelingers spredning 31

Frihedsgrader (ν)... Degrees of freedom, DF, ν DF = antal observationer (n) antal estimerede parametre. Hver populationsparameter, som estimeres ud fra en stikprøve spiser en informationsmængde svarende til 1 observation! M1, slide (Statistiske grundbegreber: Mål for fordelingers spredning Frihedsgrader (ν)... Et lomme-eksempel: X={13, 1, 15, 18} Da de aritmetiske afvigelser fra gennemsnittet summerer op til, vil den sidste (n te) observations afvigelse være defineret ud fra de foregående observationer! s ( i ) = n 1 i i -gnst. 13-1 -1 15 18 3 Σ = n = gnst.= 15 M1, slide 5 (Statistiske grundbegreber: Mål for fordelingers spredning 3

Variationskoefficienten coefficient of variation, CV CV = s Angiver den relative variation, standardiseret i forhold til gennemsnittet. Da CV angiver et relativt forhold (er en ratio), skal data være på ratioskala M1, slide (Statistiske grundbegreber: Mål for fordelingers spredning Variationskoefficient Eksempel: længde af lårbensknogler hos to gnavere: CV = s Markmus: Bæver: 153 17 1 1 151 31 11 5 17 Gnst. = 3.7 15.5 SD =.8. CV =..7 M1, slide 7 (Statistiske grundbegreber: Mål for fordelingers spredning 33

frekvens (f) 8 = 31, n = 3 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 S = 1,93 S = 1,38 CV =,5% frekvens (f) 8 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 S = 5, S =,9 CV = 7,% frekvens (f) 8 3 5 7 8 9 3 31 3 33 3 35 3 37 38 39 S =,8 S =,51 CV = 8,1% M1, slide 8 (Statistiske grundbegreber: Mål for fordelingers spredning Tjekliste, Modul 1 (uge ): Hvad er statistik? Observationsenhed, stikprøve, population Repræsentativitet, uafhængighed af observationer Stokastisk variabel, udfaldsrum Nominal-, ordinal-, interval- og ratioskala Diskrete eller kontinuerte variable Pindediagram, histogram Afledt variabel Induktiv (deskriptiv) og deduktiv (hypotesetestende) statistik middelværdi, gennemsnit, median, modus, fraktil varians, standardafvigelse, variationscoefficient kvadratsum ( Sum-of-squares, SS ) frihedsgrader M1, slide 9 (Statistiske grundbegreber: Tjekliste 3