Module 2: Beskrivende Statistik



Relaterede dokumenter
Kapitel 3 Centraltendens og spredning

Modul 5: Test for én stikprøve

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Kapitel 3 Centraltendens og spredning

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistikkompendium. Statistik

Arealer under grafer

Tal, funktioner og grænseværdi

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Trivsel og fravær i folkeskolen

Statistik med GeoGebra

Variabel- sammenhænge

Konfidensinterval for µ (σ kendt)

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Læsevejledning til resultater på regionsplan

Opgave 1 Alle tallene er reelle tal, så opgaven er at finde den mindste talmængde, som resultaterne tilhører.

Privatansatte mænd bliver desuden noget hurtigere chef end kvinderne og forholdsvis flere ender i en chefstilling.

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (

Matematik B. Højere handelseksamen

Module 12: Mere om variansanalyse

Kvantitative Metoder 1 - Forår 2007

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Nanostatistik: Middelværdi og varians

Om hvordan Google ordner websider

LUP læsevejledning til regionsrapporter

Funktionalligninger - løsningsstrategier og opgaver

Bogstavregning. Formler Reduktion Ligninger Bogstavregning Side 45

VIA læreruddannelsen Silkeborg. WordMat kompendium

Lektion 9 Statistik enkeltobservationer

To samhørende variable

Forelæsning 8: Inferens for varianser (kap 9)

Kvantitative Metoder 1 - Forår Dagens program

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Statistik og Sandsynlighedsregning 2

Module 1: Data og Statistik

Modul 3: Kontinuerte stokastiske variable

Statistiske data. Datamatricen. Variable j. ... X ij = x ij... Anonymiserede og ækvivalente dataindivider. Datamodellen

Polynomier et introforløb til TII

Projekt 4.8. Kerners henfald (Excel)

Inverse funktioner. John V Petersen

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Grafteori, Kirsten Rosenkilde, september Grafteori

Behandling af kvantitativ data

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Basal statistik. 30. januar 2007

Reelle tal. Symbolbehandlingskompetencen er central gennem arbejdet med hele kapitlet i elevernes arbejde med tal og regneregler.

Beskrivende statistik

Faktaark: Iværksætteri i en krisetid

En Introduktion til SAS. Kapitel 6.

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Den bedste dåse, en optimeringsopgave

Secret Sharing. Olav Geil Institut for Matematiske Fag Aalborg Universitet URL: olav.

Sikker Slank kort fortalt Til indholdsfortegnelsen side: 1

Ligninger med reelle løsninger

Afstand fra et punkt til en linje

Potens & Kvadratrod. Navn: Klasse: Matematik Opgave Kompendium. Opgaver: 22 Ekstra: 4 Point: Matematik / Potens & Kvadratrod

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Den nationale trivselsmåling i folkeskolen, 2016

Finde invers funktion til en 2-gradsfunktion - ved parallelforskydning. John V Petersen

VEJLEDNING SPAMFILTERET. 1. Udgave, august 2015 Tilpasset FirstClass version 12.1, Dansk

Hvem kender ÅOP? en empirisk undersøgelse

Forslag til løsning af Opgaver til ligningsløsning (side172)

for gymnasiet og hf 2016 Karsten Juul

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Danmarks Radio. 24. mar 2015

Regn med tallene. 1 Spil Væddeløbet. Du skal bruge Kuber. To terninger. Arbejdsark

Pendulbevægelse. Måling af svingningstid: Jacob Nielsen 1

Per Vejrup-Hansen Praktisk statistik. Omslag: Torben Klahr.dk Lundsted Grafisk tilrettelæggelse: Samfundslitteratur Grafik Tryk: Narayana Press

FRAVÆRSSTATISTIKKEN 2011

Fattigdom blandt FOAs medlemmer

BILAG A SPØRGESKEMA. I denne At-vejledning præsenteres et kort spørgeskema med i alt 44 spørgsmål fordelt på otte skalaer.

Note til styrkefunktionen

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

DesignMat Uge 11 Vektorrum

Højere Handelseksamen Handelsskolernes enkeltfagsprøve Typeopgave 1. Matematik Niveau A. Delprøven uden hjælpemidler. Prøvens varighed: 1 time.

Skoleudvalget i Fredensborg Kommune har besluttet at ca % lønmidlerne skal fordeles på baggrund af sociale indikatorer

Velkommen til 2. omgang af IT for let øvede

En Introduktion til SAS. Kapitel 5.

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Matematik projekt 4. Eksponentiel udvikling. Casper Wandrup Andresen 2.F Underskrift:

brikkerne til regning & matematik potenstal og rodtal F+E+D preben bernitt

Helbred og sygefravær

Allan C. Malmberg. Terningkast

Kapitel 2 Frekvensfordelinger

Flytninger i barndommen

Afleveringsopgaver i fysik

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Miniprojekt 3: Fejlkorligerende køder Fejlkorrigerende koder

Inverse funktioner og Sektioner

Deskriptiv Statitik. Judith L. Jacobsen, PhD.

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Note om Monte Carlo eksperimenter

Kært barn har mange navne

LØNSTATISTIK FOR STUDERENDE

Rygtespredning: Et logistisk eksperiment

DØDSULYKKER 2011 REGIONALE TAL

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Transkript:

Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen og Hans Chr. Petersen Module 2: Beskrivende Statistik 2.1 Histogrammer og søjlediagrammer......................... 1 2.2 Sammenfatning af data............................... 2 2.3 Gennemsnit og andre centrale tendenser...................... 4 2.4 Varians, spredning og andre variationsmål..................... 8 2.5 Populationsmål.................................... 2.1 Histogrammer og søjlediagrammer Beskrivende statistik: Tabeller og grafer som kan skaffe os overblik over et datamateriale. Søjlediagrammer bruges til Nominale variable (f.eks. placering af spurvereder) Ordinale variable (f.eks. pigmentering for flagermusefisk) Diskrete variable, kan være grupperet (f.eks. kuldstørrelse hos ræve) Histogrammer bruges til Kontinuerte variable, ofte grupperet (f.eks. fosforindhold pr. gram blad) Hvor mange grupper? Helst 10 12 grupper, med 10-20 observationer i hver af de midterste grupper. Frekvenspolygon bruges til At udglatte et histogram Kumulerede fordelinger to måder: Kumuleret nedefra giver en voksende kurve god til f.eks. spiringsdata (f.eks.: 30% af frøene var spiret efter 14 dage). Normalt bruges denne form. Kumuleret ovenfra giver en aftagende kurve god til overlevelsesdata (f.eks.: 95% af individerne overlevede den første uge, kun 25% overlevede den fjerde uge)

2.1 Histogrammer og søjlediagrammer 2 Råd og vink: En graf skal være simpel. Vis kun én ting ad gangen! Akser med inddelinger og nulpunkter skal vises tydeligt! Undgå grafer der er bevidst vildledende!

2.2 Sammenfatning af data 3 2.2 Sammenfatning af data Engelsk statistic betyder en talstørrelse udregnet fra data Summary statistics = nogle få talstørrelser udregnet fra givne data (SAS giver 18 forskellige muligheder!) For kontinuerte variable benyttes især gennemsnit x og spredning (standardafvigelse) s. For nominale eller ordinale variable benyttes en frekvenstabel. Eksempel fra Modul 1 (vådvægt er nu i enheder af 1000, og med færre cifre): Køn Vådvægt (kg) Antal parasitter Habitat F 21,1 18 A M 39,5 12 A F 20,3 17 B M 35,6 13 B F 23,0 16 C M 39,2 14 C F 21,9 17 D M 37,4 13 D F 21,2 12 E M 35,6 18 E F 22,0 16 F Lad os se på hver af de fire variable: Køn er en nominal variabel, brug en frekvenstabel: Køn Antal Andel F 6 54,5% M 5 45,5% I alt 100,00% Habitat er også nominel, her er frekvenstabellen Habitat Antal Procent A 2 18,18% B 2 18,18% C 2 18,18% D 2 18,18% E 2 18,18% F 1 9,10% I alt 100,00%

2.2 Sammenfatning af data 4 Bemærk: Noget kunne tyde på at hver kategori af variablen Habitat pr. design indeholder én M og én F, men vi har ikke oplysninger om dette til rådighed. Variablen Antal parasitter er diskret, med nogle få værdier, så vi laver også en frekvenstabel for den: Antal parasitter Antal Procent 12 2 18,18% 13 2 18,18% 14 1 9,10% 15 0 0 16 2 18,18% 17 2 18,18% 18 2 18,18% I alt 100,00% Bemærk at vi har taget 15 med for overskuelighedens skyld. Variablen Vådvægt er kontinuert, og vi laver derfor et histogram: Det er lidt besynderligt, fordi de to køn er meget forskellige. I stedet laver vi et histogram for hvert køn:

2.3 Gennemsnit og andre centrale tendenser 5 2.3 Gennemsnit og andre centrale tendenser Lad os nu se på udregningen af gennemsnit. Vi gennemgår beregningerne for vådvægt. Notation: Lad x 1,...,x n betegne den søjle hvis gennemsnit vi skal udregne, hvor n = antal rækker i tabellen. Altså for Vådvægt i x i Vådvægt 1 x 1 21,1 2 x 2 39,5 3 x 3 20,3 4 x 4 35,6 5 x 5 23,0 6 x 6 39,2 7 x 7 21,9 8 x 8 37,4 9 x 9 21,2 10 x 10 35,6 x 22,0 Bemærk at nummereringen af data fra i = 1 til i = afhænger af i hvilken rækkefølge vi har opskrevet data i tabellen. Sådan udregnes gennemsnittet: altså for Vådvægt: x = x 1 + + x n n 21,1 + 39,5 + 20,3 + 35,6 + 23,0 + 39,2 + 21,9 + 37,4 + 21,2 + 35,6 + 22,0 x = = 316, 8 = 28,8 så den gennemsnitlige vådvægt er 28,8 g. Dette tal udtrykker den typiske værdi for variablen. For Vådvægt er det dog et besynderligt tal, da det ligger et sted midt imellem den typiske værdi for hanner og for hunner. Sumnotation: ofte skrives summen i tælleren ved hjælp af et sumtegn, altså: x = 1 n x i n = 1 n (x 1 + + x n ) grænserne i = 1 til n betyder altså at vi summerer over de data i søjlen hvis nummer ligger mellem 1 og n (her er jo n = ). Derfor betyder n x i

2.3 Gennemsnit og andre centrale tendenser 6 at vi skal summere alle data i søjlen! Husk: ved udregning af gennemsnit divideres med antal led i summen. For variablen Antal udregnes gennemsnittet som følger: 18 + 12 + 17 + 13 + 16 + 14 + 17 + 13 + 12 + 18 + 16 x = = 166 = 15.09 Bemærk at x for Antal ikke nødvendigvis er et heltal, selv om Antal er en diskret variabel. Ved udregning af gennemsnit ud fra en frekvenstabel skal der bruges en vægtet sum: 2 12 + 2 13 + 1 14 + 0 15 + 2 16 + 2 17 + 2 18 x = = 166 = 15, 09 Resultatet er selvfølgelig det samme! Medianen bruges nogen gange i stedet for gennemsnit. Median = den midterste observation (eller gennemsnittet af de to midterste for n lige). Median for Vådvægt: først ordnes data efter størrelse: 20,3 21,1 21,2 21,9 22,0 23,0 35,6 35,6 37,4 39,2 39,5 Bemærk: dubletten 35,6 skrives to gange, så at der fortsat er data. Det midterste datapunkt findes ved at tage n/2 og evt. runde op, altså Det 6. tal i rækken er 23,0, altså er /2 = 5.,5 6 Median = 23,0 Læg mærke til at det er forskelligt fra gennemsnittet, som var 28,8. Eksempel på n lige: Hvis n = 8, og vi har følgende ordnede observationer: 20,3 21,1 21,2 21,9 22,0 23,0 35,6 35,6

2.3 Gennemsnit og andre centrale tendenser 7 så er n/2 = 8/2 = 4, og nu udregnes medianen som gennemsnit af observation nummer 4 og 5: 21,9 + 22,0 Median = 2 = 21, 95 Bemærk: nogen lærebøger kan have lidt andre definitioner, men i hvert fald skal medianen ligge et sted mellem de to midterste tal, når n er lige! Bemærk: Der kan også være forskel mellem statistikprogrammer på dette punkt. F.eks. er Excels udregning af medianen direkte forkert! Spørgsmål: Hvordan udregnes medianen for en variabel som Antal parasitter, hvor der er mange sammenfald. Svar: medianen er stadig det 6. tal i rækken af ordnede tal, altså median = 16 (check selv). Modus for en variabel er den værdi blandt de observerede som forekommer flest gange. For Vådvægt er modus = 35,6. Desværre kan modus bestå af flere tal, især for små datasæt. F.eks. er modus for Antal parasitter et af tallene 12, 13, 16, 17 og 18! Derfor skal n helst være stor for at modus giver mening. Se figur 3.2 side 24 i Zar angående typiske forskelle mellem gennemsnit, median og modus. Skalaskift for alle data fører til samme skalaskift for gennemsnittet (og for median og modus). Eksempel: Hvis vådvægt udtrykkes i kg (0,02 kg; 0,0395 kg; 0,0203 kg; osv.), så bliver gennemsnittet i kg lig med 0,0288. Hvis der trækkes en konstant fra alle data skal den samme konstant trækkes fra gennemsnittet (og fra median og modus). Eksempel: Hvis vi trækker 20 fra alle vådvægtværdierne (1,1; 19,5; 0,3; osv.), så bliver gennemsnittet lig med 28,8 20 = 18,8 Altså overstiger vådvægten 20 g med gennemsnitligt 18,8 g Andre gennemsnit: Geometrisk gennemsnit x G : den n te rod af produktet af observationerne (kræver at alle data er positive). Harmonisk gennemsnitx H : Den reciprokke af den gennemsnitlige reciprokværdi (også kun for positive data).

2.3 Gennemsnit og andre centrale tendenser 8 For at skelne de tre former for gennemsnit kaldes x også for det aritmetiske gennemsnit. I praksis er der ikke nødvendigvis den store forskel på de tre gennemsnit. For Vådvægt fås f.eks. x G = 21,1 39,5 20,3 35,6 23,0 39,2 21,9 37,4 21,2 35,6 22,0 = 7,385225 10 15 = 27, 71 x H = 1 21,1 + 1 39,5 + 1 20,3 + 1 35,6 + 1 23,0 + 1 39,2 + 1 21,9 + 1 37,4 + 1 21,2 + 1 35,6 + 1 22,0 = 0, 412163 = 26, 69 mens vi tidligere så x = 28,8. Læg mærke til at vi benytter 6 8 betydende cifre i mellemregninger, men runder gennemsnittet af til en decimal mere end nøjagtigheden på observationerne. Der gælder følgende uligheder mellem x H, x G og x: x H < x G < x forudsat at mindst to af observationerne er forskellige. Hvis alle n observationer er ens er de tre gennemsnit lig med hinanden.

2.4 Varians, spredning og andre variationsmål 9 2.4 Varians, spredning og andre variationsmål Variansen (empirisk) defineres ved s 2 = 1 n 1 n (x i x) 2 og spredningen (empirisk) ved s = 1 n (x i x) 2 n 1 En god regel er: til ethvert gennemsnit hører et variationsmål! For at forklare disse vil vi gennemgå udregningen for variablen Vådvægt. Se på følgende tabel, hvor x i angiver vådvægt x i x x i x (x i x) 2 21,1 28,8 7,7 59,29 39,5 28,8 10,7 4,49 20,3 28,8 8,5 72,25 35,6 28,8 6,8 46,24 23,0 28,8 5,8 33,64 39,2 28,8 10,4 108,16 21,9 28,8 6,9 47,61 37,4 28,8 8,6 73,96 21,2 28,8 7,6 57,76 35,6 28,8 6,8 46,24 22,0 28,8 6,8 46,24 Desuden indeholder tabellen en kolonner med henholdsvis gennemsnittet x, afvigelserne fra gennemsnittet x i x (også kaldet residualer), samt afvigelsernes kvadrater (x i x) 2. Dermed fås s 2 = 1 n 1 n (x i x) 2 {(x 1 x) 2 + + (x n x) 2} 1 = 1 = 1 {59,29 + 4,49 + 72,25 + 46,24 + 10 33,64 + 108,16 + 47,61 + 73,96 + 57,76 + 46,24 + 46,24} = 705,88 10 = 70, 588 Så variansen er s 2 = 70,588

2.4 Varians, spredning og andre variationsmål 10 Dermed fås spredningen for Vådvægt som kvadratroden af variansen: s = 70,588 = 8,40 Fortolkningen af spredningen er som følger: Ligesom x er den typiske værdi for Vådvægt, så er s den typiske afvigelse af Vådvægt fra x. Derfor er s god at kende for at kunne forstå hvor meget Vådvægt varierer op og ned. En meget grov fortolkning af s er som følger: mens x = 28,8 er den typiske værdi for Vådvægt, så siger s = 8,40 at den faktiske Vådvægt kan lige så godt være 28,8 + 8,40 = 37,2 som 28,8 8,40 = 20,4 For vådvægt svarer disse to tal næsten til den typiske vådvægt for henholdsvis hanner og hunner. Derfor ville det, for det foreliggende datasæt, være bedre at udregne x og s for hvert køn for sig, se følgende SAS-udskrift: The MEANS Procedure Analysis Variable : Vaadvaegt N Sex Obs N Mean Std Dev Minimum Maximum -------------------------------------------------------------------------------- F 6 6 21.5833333 0.9282600 20.3000000 23.0000000 M 5 5 37.4600000 1.8782971 35.6000000 39.5000000 -------------------------------------------------------------------------------- Fortolkningen af disse tal er nu at x for hunner angiver den typiske værdi af Vådvægt for hunner, og s angiver den typiske afvigelse af hunners Vådvægt fra hunnernes x. x for hanner angiver den typiske værdi af Vådvægt for hanner, og den typiske afvigelse af hanners Vådvægt fra hanners x. Skalaskift for alle data fører til samme skalaskift for s. Eksempel: Hvis vådvægt udtrykkes i kg så bliver den tilsvarende værdi s = 0,00840 kg. Hvis der trækkes en konstant fra alle data, så ændrer det ikke ved s. Eksempel: Hvis vi trækker 20 fra alle vådvægt værdierne, så forbliver s = 8.,40 g.

2.4 Varians, spredning og andre variationsmål Andre spredningsmål: Range = max min (dvs. største minus mindste observation). For Vådvægt er range = 39,5 20,3 = 19,2. Som regel er range mindst dobbelt så stor som s. Den gennemsnitlige afvigelse er defineret ved: 1 n n x i x altså summen af de absolutte værdier af søjlen x i x i tabellen ovenfor, hvilket giver 8,66. Den gennemsnitlige afvigelse kan synes mere naturlig end spredningen s, men på den anden side kan s fortolkes som en afstand, og i praksis bruges næsten altid s. For data på en ratio skala udregner man ofte variationskoefficienten (coefficient of variation): CV = s x = s x 100% der ofte udtrykkes i %. For Vådvægt fås f.eks. CV = 8,40 28,8 = 0, 2917 = 29, 17% Variationskoefficenten er god når man skal sammenligne forskellige datasæt med værdier af meget forskellig størrelsesorden. F.eks. gælder for kropsvægt at s er væsentlig større for elefanter end for mus, men det er tænkeligt at CV for kropsvægt er næsten den samme for elefanter som for mus!

2.5 Populationsmål 12 2.5 Populationsmål For en given stikprøve udtrykker x og s den typiske værdi og den typiske afvigelse for den pågældende stikprøve. x og s vil naturligvis variere fra stikprøve til stikprøve. x og s for hele populationen betegnes henholdsvis µ og σ. For store eller utilgængelige populationer kendes µ og σ ikke, og vi må i stedet prøve at indkredse dem ved at udregne x og s for en stikprøve. µ og σ er derfor normalt at betragte som ukendte parametre, som vi prøver at estimere med x og s. Lad os alligevel prøve at opskrive µ og σ, i det tilfælde at værdierne i populationen er hvor N er populationens størrelse. Så er og x 1,...,x N, µ = 1 N σ = 1 N N x i n (x i µ) 2 Da n er stikprøvestørrelsen er normalt n N. x og s stemmer overens med µ og σ hvis stikprøvestørrelsen n er stor. Bemærk at N ofte er ukendt, og ofte varierer populationens sammensætning over tid, så igen er µ og σ bør betragtes som teoretiske størrelser som er defineret uafhængig af den faktiske populations sammensætning på et givet tidspunkt.