Module 2: Beskrivende Statistik

Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen og Hans Chr. Petersen Module 2: Beskrivende Statistik 2.1 Histogrammer og søjlediagrammer......................... 1 2.2 Sammenfatning af data............................... 2 2.3 Gennemsnit og andre centrale tendenser...................... 4 2.4 Varians, spredning og andre variationsmål..................... 8 2.5 Populationsmål.................................... 2.1 Histogrammer og søjlediagrammer Beskrivende statistik: Tabeller og grafer som kan skaffe os overblik over et datamateriale. Søjlediagrammer bruges til Nominale variable (f.eks. placering af spurvereder) Ordinale variable (f.eks. pigmentering for flagermusefisk) Diskrete variable, kan være grupperet (f.eks. kuldstørrelse hos ræve) Histogrammer bruges til Kontinuerte variable, ofte grupperet (f.eks. fosforindhold pr. gram blad) Hvor mange grupper? Helst 10 12 grupper, med 10-20 observationer i hver af de midterste grupper. Frekvenspolygon bruges til At udglatte et histogram Kumulerede fordelinger to måder: Kumuleret nedefra giver en voksende kurve god til f.eks. spiringsdata (f.eks.: 30% af frøene var spiret efter 14 dage). Normalt bruges denne form. Kumuleret ovenfra giver en aftagende kurve god til overlevelsesdata (f.eks.: 95% af individerne overlevede den første uge, kun 25% overlevede den fjerde uge)

2.1 Histogrammer og søjlediagrammer 2 Råd og vink: En graf skal være simpel. Vis kun én ting ad gangen! Akser med inddelinger og nulpunkter skal vises tydeligt! Undgå grafer der er bevidst vildledende!

2.2 Sammenfatning af data 3 2.2 Sammenfatning af data Engelsk statistic betyder en talstørrelse udregnet fra data Summary statistics = nogle få talstørrelser udregnet fra givne data (SAS giver 18 forskellige muligheder!) For kontinuerte variable benyttes især gennemsnit x og spredning (standardafvigelse) s. For nominale eller ordinale variable benyttes en frekvenstabel. Eksempel fra Modul 1 (vådvægt er nu i enheder af 1000, og med færre cifre): Køn Vådvægt (kg) Antal parasitter Habitat F 21,1 18 A M 39,5 12 A F 20,3 17 B M 35,6 13 B F 23,0 16 C M 39,2 14 C F 21,9 17 D M 37,4 13 D F 21,2 12 E M 35,6 18 E F 22,0 16 F Lad os se på hver af de fire variable: Køn er en nominal variabel, brug en frekvenstabel: Køn Antal Andel F 6 54,5% M 5 45,5% I alt 100,00% Habitat er også nominel, her er frekvenstabellen Habitat Antal Procent A 2 18,18% B 2 18,18% C 2 18,18% D 2 18,18% E 2 18,18% F 1 9,10% I alt 100,00%

2.2 Sammenfatning af data 4 Bemærk: Noget kunne tyde på at hver kategori af variablen Habitat pr. design indeholder én M og én F, men vi har ikke oplysninger om dette til rådighed. Variablen Antal parasitter er diskret, med nogle få værdier, så vi laver også en frekvenstabel for den: Antal parasitter Antal Procent 12 2 18,18% 13 2 18,18% 14 1 9,10% 15 0 0 16 2 18,18% 17 2 18,18% 18 2 18,18% I alt 100,00% Bemærk at vi har taget 15 med for overskuelighedens skyld. Variablen Vådvægt er kontinuert, og vi laver derfor et histogram: Det er lidt besynderligt, fordi de to køn er meget forskellige. I stedet laver vi et histogram for hvert køn:

2.3 Gennemsnit og andre centrale tendenser 5 2.3 Gennemsnit og andre centrale tendenser Lad os nu se på udregningen af gennemsnit. Vi gennemgår beregningerne for vådvægt. Notation: Lad x 1,...,x n betegne den søjle hvis gennemsnit vi skal udregne, hvor n = antal rækker i tabellen. Altså for Vådvægt i x i Vådvægt 1 x 1 21,1 2 x 2 39,5 3 x 3 20,3 4 x 4 35,6 5 x 5 23,0 6 x 6 39,2 7 x 7 21,9 8 x 8 37,4 9 x 9 21,2 10 x 10 35,6 x 22,0 Bemærk at nummereringen af data fra i = 1 til i = afhænger af i hvilken rækkefølge vi har opskrevet data i tabellen. Sådan udregnes gennemsnittet: altså for Vådvægt: x = x 1 + + x n n 21,1 + 39,5 + 20,3 + 35,6 + 23,0 + 39,2 + 21,9 + 37,4 + 21,2 + 35,6 + 22,0 x = = 316, 8 = 28,8 så den gennemsnitlige vådvægt er 28,8 g. Dette tal udtrykker den typiske værdi for variablen. For Vådvægt er det dog et besynderligt tal, da det ligger et sted midt imellem den typiske værdi for hanner og for hunner. Sumnotation: ofte skrives summen i tælleren ved hjælp af et sumtegn, altså: x = 1 n x i n = 1 n (x 1 + + x n ) grænserne i = 1 til n betyder altså at vi summerer over de data i søjlen hvis nummer ligger mellem 1 og n (her er jo n = ). Derfor betyder n x i

2.3 Gennemsnit og andre centrale tendenser 6 at vi skal summere alle data i søjlen! Husk: ved udregning af gennemsnit divideres med antal led i summen. For variablen Antal udregnes gennemsnittet som følger: 18 + 12 + 17 + 13 + 16 + 14 + 17 + 13 + 12 + 18 + 16 x = = 166 = 15.09 Bemærk at x for Antal ikke nødvendigvis er et heltal, selv om Antal er en diskret variabel. Ved udregning af gennemsnit ud fra en frekvenstabel skal der bruges en vægtet sum: 2 12 + 2 13 + 1 14 + 0 15 + 2 16 + 2 17 + 2 18 x = = 166 = 15, 09 Resultatet er selvfølgelig det samme! Medianen bruges nogen gange i stedet for gennemsnit. Median = den midterste observation (eller gennemsnittet af de to midterste for n lige). Median for Vådvægt: først ordnes data efter størrelse: 20,3 21,1 21,2 21,9 22,0 23,0 35,6 35,6 37,4 39,2 39,5 Bemærk: dubletten 35,6 skrives to gange, så at der fortsat er data. Det midterste datapunkt findes ved at tage n/2 og evt. runde op, altså Det 6. tal i rækken er 23,0, altså er /2 = 5.,5 6 Median = 23,0 Læg mærke til at det er forskelligt fra gennemsnittet, som var 28,8. Eksempel på n lige: Hvis n = 8, og vi har følgende ordnede observationer: 20,3 21,1 21,2 21,9 22,0 23,0 35,6 35,6

2.3 Gennemsnit og andre centrale tendenser 7 så er n/2 = 8/2 = 4, og nu udregnes medianen som gennemsnit af observation nummer 4 og 5: 21,9 + 22,0 Median = 2 = 21, 95 Bemærk: nogen lærebøger kan have lidt andre definitioner, men i hvert fald skal medianen ligge et sted mellem de to midterste tal, når n er lige! Bemærk: Der kan også være forskel mellem statistikprogrammer på dette punkt. F.eks. er Excels udregning af medianen direkte forkert! Spørgsmål: Hvordan udregnes medianen for en variabel som Antal parasitter, hvor der er mange sammenfald. Svar: medianen er stadig det 6. tal i rækken af ordnede tal, altså median = 16 (check selv). Modus for en variabel er den værdi blandt de observerede som forekommer flest gange. For Vådvægt er modus = 35,6. Desværre kan modus bestå af flere tal, især for små datasæt. F.eks. er modus for Antal parasitter et af tallene 12, 13, 16, 17 og 18! Derfor skal n helst være stor for at modus giver mening. Se figur 3.2 side 24 i Zar angående typiske forskelle mellem gennemsnit, median og modus. Skalaskift for alle data fører til samme skalaskift for gennemsnittet (og for median og modus). Eksempel: Hvis vådvægt udtrykkes i kg (0,02 kg; 0,0395 kg; 0,0203 kg; osv.), så bliver gennemsnittet i kg lig med 0,0288. Hvis der trækkes en konstant fra alle data skal den samme konstant trækkes fra gennemsnittet (og fra median og modus). Eksempel: Hvis vi trækker 20 fra alle vådvægtværdierne (1,1; 19,5; 0,3; osv.), så bliver gennemsnittet lig med 28,8 20 = 18,8 Altså overstiger vådvægten 20 g med gennemsnitligt 18,8 g Andre gennemsnit: Geometrisk gennemsnit x G : den n te rod af produktet af observationerne (kræver at alle data er positive). Harmonisk gennemsnitx H : Den reciprokke af den gennemsnitlige reciprokværdi (også kun for positive data).

2.3 Gennemsnit og andre centrale tendenser 8 For at skelne de tre former for gennemsnit kaldes x også for det aritmetiske gennemsnit. I praksis er der ikke nødvendigvis den store forskel på de tre gennemsnit. For Vådvægt fås f.eks. x G = 21,1 39,5 20,3 35,6 23,0 39,2 21,9 37,4 21,2 35,6 22,0 = 7,385225 10 15 = 27, 71 x H = 1 21,1 + 1 39,5 + 1 20,3 + 1 35,6 + 1 23,0 + 1 39,2 + 1 21,9 + 1 37,4 + 1 21,2 + 1 35,6 + 1 22,0 = 0, 412163 = 26, 69 mens vi tidligere så x = 28,8. Læg mærke til at vi benytter 6 8 betydende cifre i mellemregninger, men runder gennemsnittet af til en decimal mere end nøjagtigheden på observationerne. Der gælder følgende uligheder mellem x H, x G og x: x H < x G < x forudsat at mindst to af observationerne er forskellige. Hvis alle n observationer er ens er de tre gennemsnit lig med hinanden.

2.4 Varians, spredning og andre variationsmål 9 2.4 Varians, spredning og andre variationsmål Variansen (empirisk) defineres ved s 2 = 1 n 1 n (x i x) 2 og spredningen (empirisk) ved s = 1 n (x i x) 2 n 1 En god regel er: til ethvert gennemsnit hører et variationsmål! For at forklare disse vil vi gennemgå udregningen for variablen Vådvægt. Se på følgende tabel, hvor x i angiver vådvægt x i x x i x (x i x) 2 21,1 28,8 7,7 59,29 39,5 28,8 10,7 4,49 20,3 28,8 8,5 72,25 35,6 28,8 6,8 46,24 23,0 28,8 5,8 33,64 39,2 28,8 10,4 108,16 21,9 28,8 6,9 47,61 37,4 28,8 8,6 73,96 21,2 28,8 7,6 57,76 35,6 28,8 6,8 46,24 22,0 28,8 6,8 46,24 Desuden indeholder tabellen en kolonner med henholdsvis gennemsnittet x, afvigelserne fra gennemsnittet x i x (også kaldet residualer), samt afvigelsernes kvadrater (x i x) 2. Dermed fås s 2 = 1 n 1 n (x i x) 2 {(x 1 x) 2 + + (x n x) 2} 1 = 1 = 1 {59,29 + 4,49 + 72,25 + 46,24 + 10 33,64 + 108,16 + 47,61 + 73,96 + 57,76 + 46,24 + 46,24} = 705,88 10 = 70, 588 Så variansen er s 2 = 70,588

2.4 Varians, spredning og andre variationsmål 10 Dermed fås spredningen for Vådvægt som kvadratroden af variansen: s = 70,588 = 8,40 Fortolkningen af spredningen er som følger: Ligesom x er den typiske værdi for Vådvægt, så er s den typiske afvigelse af Vådvægt fra x. Derfor er s god at kende for at kunne forstå hvor meget Vådvægt varierer op og ned. En meget grov fortolkning af s er som følger: mens x = 28,8 er den typiske værdi for Vådvægt, så siger s = 8,40 at den faktiske Vådvægt kan lige så godt være 28,8 + 8,40 = 37,2 som 28,8 8,40 = 20,4 For vådvægt svarer disse to tal næsten til den typiske vådvægt for henholdsvis hanner og hunner. Derfor ville det, for det foreliggende datasæt, være bedre at udregne x og s for hvert køn for sig, se følgende SAS-udskrift: The MEANS Procedure Analysis Variable : Vaadvaegt N Sex Obs N Mean Std Dev Minimum Maximum -------------------------------------------------------------------------------- F 6 6 21.5833333 0.9282600 20.3000000 23.0000000 M 5 5 37.4600000 1.8782971 35.6000000 39.5000000 -------------------------------------------------------------------------------- Fortolkningen af disse tal er nu at x for hunner angiver den typiske værdi af Vådvægt for hunner, og s angiver den typiske afvigelse af hunners Vådvægt fra hunnernes x. x for hanner angiver den typiske værdi af Vådvægt for hanner, og den typiske afvigelse af hanners Vådvægt fra hanners x. Skalaskift for alle data fører til samme skalaskift for s. Eksempel: Hvis vådvægt udtrykkes i kg så bliver den tilsvarende værdi s = 0,00840 kg. Hvis der trækkes en konstant fra alle data, så ændrer det ikke ved s. Eksempel: Hvis vi trækker 20 fra alle vådvægt værdierne, så forbliver s = 8.,40 g.

2.4 Varians, spredning og andre variationsmål Andre spredningsmål: Range = max min (dvs. største minus mindste observation). For Vådvægt er range = 39,5 20,3 = 19,2. Som regel er range mindst dobbelt så stor som s. Den gennemsnitlige afvigelse er defineret ved: 1 n n x i x altså summen af de absolutte værdier af søjlen x i x i tabellen ovenfor, hvilket giver 8,66. Den gennemsnitlige afvigelse kan synes mere naturlig end spredningen s, men på den anden side kan s fortolkes som en afstand, og i praksis bruges næsten altid s. For data på en ratio skala udregner man ofte variationskoefficienten (coefficient of variation): CV = s x = s x 100% der ofte udtrykkes i %. For Vådvægt fås f.eks. CV = 8,40 28,8 = 0, 2917 = 29, 17% Variationskoefficenten er god når man skal sammenligne forskellige datasæt med værdier af meget forskellig størrelsesorden. F.eks. gælder for kropsvægt at s er væsentlig større for elefanter end for mus, men det er tænkeligt at CV for kropsvægt er næsten den samme for elefanter som for mus!

2.5 Populationsmål 12 2.5 Populationsmål For en given stikprøve udtrykker x og s den typiske værdi og den typiske afvigelse for den pågældende stikprøve. x og s vil naturligvis variere fra stikprøve til stikprøve. x og s for hele populationen betegnes henholdsvis µ og σ. For store eller utilgængelige populationer kendes µ og σ ikke, og vi må i stedet prøve at indkredse dem ved at udregne x og s for en stikprøve. µ og σ er derfor normalt at betragte som ukendte parametre, som vi prøver at estimere med x og s. Lad os alligevel prøve at opskrive µ og σ, i det tilfælde at værdierne i populationen er hvor N er populationens størrelse. Så er og x 1,...,x N, µ = 1 N σ = 1 N N x i n (x i µ) 2 Da n er stikprøvestørrelsen er normalt n N. x og s stemmer overens med µ og σ hvis stikprøvestørrelsen n er stor. Bemærk at N ofte er ukendt, og ofte varierer populationens sammensætning over tid, så igen er µ og σ bør betragtes som teoretiske størrelser som er defineret uafhængig af den faktiske populations sammensætning på et givet tidspunkt.