Per Vejrup-Hansen STATISTIK. med Excel. 2. udgave



Relaterede dokumenter
LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

Per Vejrup-Hansen Praktisk statistik. Omslag: Torben Klahr.dk Lundsted Grafisk tilrettelæggelse: Samfundslitteratur Grafik Tryk: Narayana Press

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Per Vejrup-Hansen Praktisk statistik. Omslag: Torben Klahr.dk Lundsted Grafisk tilrettelæggelse: Samfundslitteratur Grafik Tryk: Narayana Press

Statistik i GeoGebra

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Kvantitative Metoder 1 - Forår Dagens program

Analyse af en lineær regression med lav R 2 -værdi

Teknikker til analyse af tal med Excel

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Deskriptiv statistik for hf-matc

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Beskrivende statistik

Kapitel 3 Centraltendens og spredning

Deskriptiv statistik for matc i stx og hf

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

2 Populationer. 2.1 Virkelige populationer

Hvad siger statistikken?

Fagplan for statistik, efteråret 2015

Løsning til eksaminen d. 14. december 2009

Normalfordelingen og Stikprøvefordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Forelæsning 1: Intro og beskrivende statistik

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

brikkerne til regning & matematik statistik preben bernitt

Løsning til eksamen d.27 Maj 2010

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Antal timer Køn k m k m m k m k m k k k m k k k

statistik og sandsynlighed

Indhold Forelæsning Dat-D1: Regneark Matematik og databehandling 2012

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

At kommunikere i diagrammer

Dig og din puls Dig og din puls Side 1 af 17

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal.

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Indblik i statistik - for samfundsvidenskab

1. Opbygning af et regneark

c. Radius for hver sekter er målt i cm og angivet i følgende tabel. Desuden er arealet af hvert område beregnet.

BL Danmarks Almene Boliger. Lønstatistik for akademiske ansatte, september måned 2018

Excel tutorial om lineær regression

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau)

BL Danmarks Almene Boliger. Lønstatistik for administrative ansatte, september måned 2014

BL Danmarks Almene Boliger. Lønstatistik for inspektører, september måned 2017

BL Danmarks Almene Boliger. Lønstatistik for inspektører, september måned 2018

ANVENDT STATISTIK (med anvendelse af Excel)

LUP læsevejledning til afdelingsrapporter

Undervisningsplan. Stamoplysninger til brug ved prøver til gymnasiale uddannelser. Oversigt over planlagte undervisningsforløb

Grundlæggende STATISTIK (med anvendelse af Excel)

Løsninger til kapitel 1

BL Danmarks Almene Boliger. Lønstatistik for akademiske ansatte, september måned 2017

INTRODUKTION TIL DIAGRAMFUNKTIONER I EXCEL

BL Danmarks Almene Boliger. Lønstatistik for inspektører, september måned 2014

Personaleomsætning september

BL Danmarks Almene Boliger. Lønstatistik for akademiske ansatte, september måned 2014

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime

Kapitel 7 Forskelle mellem centraltendenser

BL Danmarks Almene Boliger. Lønstatistik for inspektører, september måned 2016

for gymnasiet og hf 2017 Karsten Juul

MAteMAtik For LærerStUDerenDe

BL Danmarks Almene Boliger. Lønstatistik for gartnere, september måned 2017

Schweynoch, Se eventuelt

BL Danmarks Almene Boliger. Lønstatistik for boligsociale medarbejdere, september måned 2018

Simulering af stokastiske fænomener med Excel

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

BL Danmarks Almene Boliger. Lønstatistik for boligsociale medarbejdere, september måned 2017

INDHOLDSFORTEGNELSE. INDLEDNING... Indledning. KAPITEL ET... Kom videre med Excel. KAPITEL TO Referencer og navne

Kapitel 4 Sandsynlighed og statistiske modeller

BL Danmarks Almene Boliger. Lønstatistik for inspektører, september måned 2013

BL Danmarks Almene Boliger. Lønstatistik for akademiske ansatte, september måned 2016

Installa on af Analysis Toolpak og KeHaTools

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Fig. 1 Billede af de 60 terninger på mit skrivebord

Ved et folketingsvalg eller en folkeafstemning spørger man alle stemmeberettigede, og kun en del af dem stemmer.

Huskesedler. Anvendelse af regneark til statistik

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

for gymnasiet og hf 2016 Karsten Juul

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Undervisningsbeskrivelse

Statistik. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer.

BL Danmarks Almene Boliger. Lønstatistik for administrative ansatte, september måned 2017

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Dig og din puls Lærervejleding

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Spørgeskemaundersøgelser og databehandling

Undervisningsplan. Stamoplysninger til brug ved prøver til gymnasiale uddannelser. Oversigt over planlagte undervisningsforløb

For at få tegnet en graf trykkes på knappen for graftegning. Knap for graftegning

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

Specialkort med Valgdata

Excel tutorial om indekstal og samfundsfag 2008

Samfundsfagslærerens lille manual vol. II

Diagrammer visualiser dine tal

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Modul 1: Beskrivende dataanalyse

Transkript:

Per Vejrup-Hansen STATISTIK med Excel 2. udgave

Per Vejrup-Hansen Statistik med Excel

Per Vejrup-Hansen Statistik med Excel 2. trykte udgave 2012 1. e-bogsudgave 2012 Samfundslitteratur 2012 e-isbn: 978-87-593-1736-5 Omslag: Klahr grafisk design (Jesper Hansen) Sats og ebogsproduktion: Narayana Press, Gylling Samfundslitteratur Rosenørns Allé 9 1970 Frederiksberg C Tlf. 38 15 38 80 Fax 35 35 78 22 slforlagene@samfundslitteratur.dk www.samfundslitteratur.dk Alle rettigheder forbeholdes. Kopiering fra denne bog må kun finde sted på institutioner, der har indgået aftale med COPY-DAN, og kun inden for de i aftalen nævnte rammer. Undtaget herfra er korte uddrag til anmeldelse.

Indholdsfortegnelse Læsevejledning... 5 Kapitel 1 Hvad er statistik? Brugen af Excel.... 7 Kapitel 2 Beskrivelse af fordelinger. Histogram og fordelingsmål... 11 2.1. Grafisk afbildning: Histogram... 11 2.2. Positionsmål: Gennemsnit, median mv. Mål for skævhed... 14 2.3. Varians og standardafvigelse: Mål for spredning... 23 2.4. Variationskoefficient: Forskel i spredning... 25 2.5. Appendiks: Beregninger for grupperede data.... 26 Opgaver.... 30 Kapitel 3 Test af forskelle i gennemsnit og proportioner... 33 3.1. Teoretisk indledning: Usikkerhed på gennemsnit i stikprøver... 33 3.2. Test af ét gennemsnit. Enkeltsidet versus dobbeltsidet test. Konfidensinterval.... 40 3.3. Usikkerhed på proportion (procentandel)... 53 3.4. Test af forskel mellem to gennemsnit: t-test.... 58 3.5. Test af forskel mellem flere gennemsnit: Variansanalyse (ANOVA)... 66 Opgaver.... 74 Kapitel 4 Forskelle i fordeling af kvalitative kendetegn (c 2 -test)... 77 4.1. Er fordelingen normal : Som forventet?... 77 4.2. Samme fordeling af kendetegn i forskellige grupper? Kontingenstabel... 80 Opgaver.... 82 Indholdsfortegnelse 3

Kapitel 5 Korrelation og regression... 85 5.1. Indledning... 85 5.2. Korrelation og korrelationskoefficient... 88 5.3. Regressionsanalyse I. Simpel, lineær regression... 91 5.4. Regressionsanalyse II. Simpel, ikke-lineær regression... 98 5.5. Regressionsanalyse III. Multipel regression med dummyvariabel... 105 Opgaver.... 112 BILAG 1 Statistiske funktioner og dataanalyser i Excel. Hvor findes de?... 115 BILAG 2 Oversigter over anvendte funktioner og dataanalyser... 117 BILAG 3 Grundlæggende Excel til statistiske analyser... 121 1. Formatering af regneark med data... 122 2. Organisering af kolonner og rækker mv. til analyser af surveydata... 123 3. Fremgangsmåde for Excelfunktion. Markering af celler og Autofyld... 127 4. Dannelse af Pivottabel (kontingenstabel)... 131 5. Relative og absolutte referencer: Beregning med konstanter.. 134 6. Diagrammer: Punktdiagram og søjlediagram... 138 7. Import af eksterne data med et andet dataformat... 142 BILAG 4 Tendenslinjer: Matematiske kendetegn.... 143 Stikord.... 151 4 Indholdsfortegnelse

Læsevejledning Bogens hovedsigte er at vise, hvordan man løser typiske statistiske problemstillinger ved hjælp af Microsoft Excel. Vejledningen i Excel er konkret rettet mod, hvordan man analyserer data fra en stikprøveundersøgelse eller survey (fx data indsamlet med SurveyXact eller et andet online survey-program). Problemstillingerne kan ses af indholdsfortegnelsen: Kapitel 2 behandler beskrivelser af et datasæt, som skal analyseres. Kapitel 3 viser, hvordan man tester, om der er en signifikant forskel mellem to (eller flere) gennemsnit og proportioner. Kapitel 4 viser, hvordan man tester, om der er en forskel i kvalitative kendetegn mellem grupper, fx om fordelingen på svarkategorier er forskellig for mænd og kvinder. Endelig omhandler kapitel 5 analyser af sammenhænge mellem forskellige størrelser, fx erhvervserfaring og indkomst (korrelations- og regressionsanalyse). Det generelle, teoretiske grundlag er behandlet kortfattet i afsnit 3.1. Her forklares usikkerheden på et gennemsnit. Målet herfor kaldes standardfejlen, som med varierende specifikationer er det grundlæggende mål i test. I kapitel 1 omtales de to typer af data: Numeriske og kategorielle variabler. Excel Den konkrete anvendelse af statistiske funktioner og dataanalyser i Excel er vist for hver test ved hjælp af dialogbokse. Illustrationen i bilag 1 viser, hvor disse værktøjer findes i Excel, og hovedelementerne i et regneark kan ses her. Orienteringen mod surveydata er udgangspunktet for bilag 3, der trin for trin viser, hvordan data i Excel redigeres og organiseres som grundlag for analyser af surveydata. Samtidig gives en elementær vejledning i, hvordan man markerer og udvælger dataceller, kopierer en formel med autofyld, danner en pivottabel, laver et punktdiagram osv. Bogen anvender Excel 2010, men den kan også bruges med Excel 2007. I oversigten i bilag 2 vises således for hver funktion, hvilken benævnelse funktionen har i Excel 2007. Oftest er navnet på funktionen den samme i Excel 2010 og 2007. I en supplerende oversigt vises de engelske navne Læsevejledning 5

for funktionerne. Dermed kan bogen også bruges med en engelsk Excelversion. Opgaver I slutningen af hvert kapitel findes nogle opgaver. Data til opgaver, der er markeret med en stjerne, findes i en Excelfil på webadressen: www.statistikmedexcel.samfundslitteratur.dk Heri kan man også se regneark med løsninger til alle opgaver. Nogle opgaver anvender det samme, større surveydatasæt. Det er opgaverne 2.1, 3.7, 4.2 og 5.1. Via disse kan man indøve successive analyser af et surveydatasæt. 6 Læsevejledning

KAPITEL 1 Hvad er statistik? Brugen af Excel Statistik er læren om indsamling, analyse, præsentation og fortolkning af data. I denne fremstilling er det primært analyse og fortolkning, der er emnet. Hovedformålet er at give en anvendelsesorienteret indføring i statistiske metoder ved anvendelse af funktioner i regnearksprogrammet Excel (Microsoft Office). Der findes to typer af data. På den ene side har man kvantitative data, hvor man måler hvor meget eller hvor mange af noget. Det er numeriske variabler som fx personers vægt, alder, indkomst osv. På den anden side findes kvalitative data, hvor man registrerer forskellige kendetegn eller kategorier. Det er kategorielle variabler som fx køn, hvor der findes to kategorier (mand, kvinde), eller det kan være svarkategorier i et spørgeskema (enig, uenig, ved ikke, eller hvilket parti man ville stemme på, dvs. et navn). For hver type af data findes forskellige statistiske mål, med hver sine analysemetoder. For kvantitative data er gennemsnit og spredning centrale mål. For kvalitative data drejer det sig om proportioner, dvs. de andele, som bestemte kategorier udgør (fx procentandelen af kvinder), eller det kan være fordelingen på alle kategorier under ét, der undersøges. Det illustreres i følgende figur 1.1. Figur 1.1. Kvantitative data og kvalitative data KVANTITATIVE DATA Numeriske variabler (alder, indkomst) KVALITATIVE DATA Kategorielle variabler (køn, svarkategorier) MÅL Gennemsnit Varians og spredning TEST Usikkerhed på gennemsnit i stikprøve Sammenligning af gennemsnit MÅL Proportioner (andele) Fordelingen på kategorier TEST Usikkerhed på proportion i stikprøve Sammenligning af fordelinger Hvad er statistik? Brugen af Excel 7

I oversigten nævnes under test usikkerhed på gennemsnit og proportioner i stikprøver. Det kaldes også statistisk inferens, dvs. problemet at slutte (inferere) fra en stikprøve til hele populationen. Problemet er, at fx de personer, der indgår i en stikprøve, vil være et tilfældigt udsnit af hele befolkningen (populationen), og det giver en usikkerhed i at slutte fra gennemsnit eller proportioner i stikprøven til det, der er gældende for hele befolkningen (se figur 1.2). Der kan eksempelvis være lidt flere socialdemokrater blandt personerne i en stikprøve med fx 900 svarpersoner end i hele befolkningen (på flere millioner personer) på et givent tidspunkt. Den statistiske analyse består da i at bestemme usikkerheden på den andel, der ifølge stikprøven stemmer på socialdemokratiet. Det er i forbindelse med anvendelse af stikprøver, at selve det statistiske problem vedrørende usikkerhed på gennemsnitsmål mv. opstår. Figur 1.2. Statistisk inferens Population? Stikprøve Man kan også betragte statistiske analyser som metoder til sammenligning af gennemsnittet i en stikprøve med et bestemt gennemsnitstal eller med gennemsnittet i en anden stikprøve: Er en given forskel sikker, eller kan der være tale om en tilfældighed? Stikprøver kan være observationer i en befolkning, fx ved en meningsmåling, eller de kan være mere styrede i form af eksperimenter. Ved eksperimenter kan man anvende forsøgsgrupper og kontrolgrupper, eller man kan foretage målinger af de samme personer på forskellige tidspunkter. Den statistiske analyse består da i at teste forskellen (i gennemsnittet) mellem forsøgs- og kontrolgruppe eller mellem før og efter for de samme personer. I det følgende behandles statistiske test af gennemsnit og proportioner i kapitel 3, mens test af fordelinger af kategorielle variabler behandles i kapitel 4. Forinden redegøres for beskrivelsen af numeriske fordelinger i 8 Kapitel 1

kapitel 2 (gennemsnitsmål, andre positionsmål og spredningsmål). Fordelingsbeskrivelse er grundlæggende for alt det følgende, da det er variansen eller spredningen i kvantitative mål, der ligger bag usikkerheden i et gennemsnit. I en gruppe vil legemshøjde eller indkomst variere fra person til person, og jo større denne variation er, jo større vil usikkerheden på gennemsnittet alt andet lige være. I det afsluttende kapitel 5 er problemstillingen analyser af sammenhæng mellem størrelser eller variabler, fx sammenhængen mellem alder og indkomst eller mellem alder, køn og indkomst. Emnet er således korrelations- og regressionsanalyse. Hvad er statistik? Brugen af Excel 9

KAPITEL 2 Beskrivelse af fordelinger. Histogram og fordelingsmål 2.1. Grafisk afbildning: Histogram Et godt råd er, at man altid bør starte med at lave en grafisk afbildning af et talmateriale. Hvordan ser tallenes struktur eller fordeling ud? Er fordelingen skæv eller symmetrisk? Er tallene meget spredte? Er der måske nogle ekstreme talværdier, som kan forstyrre resultaterne, fx gennemsnittet? Vi skal straks se på et eksempel, der vil blive anvendt gennem hele dette kapitel. Det drejer sig om lønninger i en virksomhed blandt 21 funktionærer. I stigende orden tænker vi os følgende månedslønninger i kroner: 22850 24360 24890 25280 25790 26230 26460 26640 26965 27395 27530 27790 27980 28165 28490 28850 29410 29655 30600 31950 33050 Hvordan er lønningerne fordelt? Er der tale om en jævn fordeling med en ophobning omkring en typisk månedsløn? En simpel metode til at danne et billede af fordelingen er at gruppere lønningerne i intervaller eller løngrupper à fx 2.000 kr. Der fremkommer nu et ganske klart billede af fordelingen: 22850 24360 24890 25280 25790 26230 26460 26640 26965 27395 27530 27790 27980 28165 28490 28850 29410 29655 30600 31950 33050 Det ses bl.a., at der er en tydelig ophobning af observationer lønninger i intervallet 26.000 28.000. Beskrivelse af fordelinger. Histogram og fordelingsmål 11

I Excel kan man danne et præcist billede af fordelingen både i tabelform og grafisk i en figur. Det drejer sig om dataanalysen Histogram, der optæller antallet (frekvensen) af observationer i bestemte intervaller og udskriver et tilhørende søjlediagram. Analysen åbnes ved at vælge fanen Data / Dataanalyse / Histogram. Derved fås et billede som nedenstående, hvor data (lønningerne) findes i regnearkets kolonne A, og dialogboksen for Histogram vises: I dialogboksen til Histogram angives/markeres: Inputområde: Celleområdet med de enkelte tal (lønninger) markeres, her A2:A22. Se eventuelt bilag 3, afsnit 3 om markering og indsætning af celleområde i en dialogboks Intervalområde: Her er der ikke angivet et intervalområde. Da vælger programmet selv intervaller. Det er en fordel ved store datasæt med mange observationer, hvor man ikke umiddelbart kan se det samlede værdiområde for observationerne. Ønsker man selv at definere intervalopdelingen, skal man angive intervalgrænserne i en kolonne (se figur 2.1 nedenfor med dataanalysens egen intervalopdeling). Label: Udelades (afkrydses ikke), da det i modsat fald kan medføre fejl ( ugyldig reference ). 12 Kapitel 2

Outputindstillinger: Her er valgt Outputområde, og der er indsat celle B2. Klik på boksen før cellen indsættes. Det vil sige, at output (histogrammet) bliver placeret i samme regneark som lønningerne. Ellers kan vælges et nyt regneark. Diagramoutput: Afkrydses. Figur 2.1. Diagramoutput: Histogram For det første fremkommer en tabel med Interval og Hyppighed. Et intervaltal angiver den øvre grænse for et interval, dvs. at fx tallet 27.950 angiver intervallet 25400 < x 27950 altså observationer over det forrige intervaltal og til og med intervaltallet. I dette interval er hyppigheden, dvs. antallet af observationer (lønninger), lig med 8. Bemærk, at programmet har dannet fem intervaller inkl. intervallet Mere, som er en restgruppe af observationer på over 30.500. Intervallerne har samme længde på 2.550. Hvis man ønsker selv at angiver intervallerne, skal man angive tal som i kolonne B og derefter indsætte celleområdet i dialogboksen. For det andet fremkommer histogrammet, dvs. det visuelle indtryk af fordelingen af lønningerne. Det er et søjlediagram, som er blevet dannet automatisk via tallene i tabellen. I bilag 3, afsnit 6.b. kan man se en vejledning til ændringer af overskrift og aksetitler mv. i histogrammet. Beskrivelse af fordelinger. Histogram og fordelingsmål 13

Hvad fortæller histogrammet søjlediagrammet os? Histogrammet viser først og fremmest, at fordelingen er skæv, ikke-symmetrisk. Den største søjle med flest observationer er intervallet 25.400 27.950; det er modus- eller modalintervallet. Det ses, at der er flere observationer med højere lønninger end lavere lønninger, dvs. at der ligger flest observationer på højre side. Det kaldes en højreskæv fordeling, hvilket typisk gælder funktionærlønninger. Det er oplagt, at sandsynligheden er størst for, at en tilfældig person befinder sig i modalintervallet 25.400 27.950. 2.2. Positionsmål: Gennemsnit, median mv. Mål for skævhed Efter den grafiske fremstilling er det næste skridt at foretage en nærmere beskrivelse af fordelingen via forskellige kvantitative mål eller nøgletal. I Excels dataanalyse findes en Dataanalyse, der på én gang frembringer hovedparten af disse mål 1. Det er Beskrivende statistik. 1 Mange af disse mål findes også som enkelte statistiske funktioner i Excel, men almindeligvis vil det være hensigtsmæssigt at bruge dataanalysen Beskrivende statistik, hvor man kan få en række forskellige mål samtidig. 14 Kapitel 2

Ovenfor vises dialogboksen for Beskrivende statistik til analyse af de 21 funktionærlønninger. Cellen A1 med overskriften LØN er medtaget i Inputområde, og følgelig afkrydses Etiketter. Det er vigtigt at afkrydse feltet Resuméstatistik, da der ellers ikke kommer et output! Output ses i tabel 2.1. Hvis man formindsker antal decimaler, vil tallene fremstå mere overskuelige. Her er alle decimaler fjernet. Kommandoen Formindsk decimaler på Startsiden anvendes, jf. også bilag 3, afsnit 1. Tabel 2.1. Output: Beskrivende statistik LØN Middelværdi 27635 Standardfejl 538 Median 27530 Tilstand Standardafvigelse 2465 Stikprøvevarians 6078201 Kurtosis 0 Skævhed 0 Område 10200 Minimum 22850 Maksimum 33050 Sum 580330 Antal 21 Konfidensniveau (95,0 %) 1122 I dette afsnit skal vi koncentrere os om de såkaldte positionsmål, dvs. enkelte punkter i fordelingen. Det drejer sig om gennemsnit (middeltal), median og kvartiler, som under ét giver simple mål for skævhed og spredning. Desuden skal vi se på de mere sammensatte mål for fordelingens form, der bygger på alle observationer (skævhed og kurtosis). Et gennemgående tema er således mål for arten af og graden af skævhed i en fordeling. Det kan have en selvstændig interesse, men det har desuden betydning for, om det er korrekt at anvende det almindelige gennemsnit som centralmål og standardafvigelsen som mål for spredning. Gennemsnit / Middelværdi I statistikersprog kaldes det almindelige, aritmetiske gennemsnit middelværdi. I tabel 2.1 er Middelværdi lig med 27.635 kr. (med almindelig afrunding). Dette løngennemsnit fremkommer som summen af de 21 Beskrivelse af fordelinger. Histogram og fordelingsmål 15

lønninger divideret med antallet af personer. Disse mål fremgår også nederst i outputtabellen som henholdsvis Sum og Antal. Lønsummen er således 580.330 kroner pr. måned. For at indøve matematiske formuleringer skal udtrykket for gennemsnit eller middelværdi vises. Idet værdien af de enkelte observationer benævnes x i, og n er antallet af observationer, er udtrykket for middelværdien x følgende: x = i Sx n Median Median er midterværdien i fordelingen, dvs. den værdi (løn), som halvdelen ligger under, og halvdelen ligger over. Det er således lønnen for den midterste person, når personerne opstilles eller sorteres efter stigende løn. Medianen på 27.530 kr. er lønnen for den 11. person, idet 10 personer har en løn, der ligger henholdsvis under og over denne persons løn. n Generelt bestemmes medianobservationen som nr. + 1 observation. 2 Ved 21 observationer som i eksemplet giver det netop nr. 11. Ved et ulige antal observationer giver det således et heltal, dvs. en bestemt observation. Ved et lige antal, fx 24, bliver det nr. 12,5 observation, og medianværdien bestemmes da ved lineær interpolation, dvs. her det simple gennemsnit af lønningerne for observation nr. 12 og 13. I eksemplet gælder, at medianen er lidt mindre end middeltallet (gennemsnittet), nemlig 105 kroner mindre. Når medianen er forskellig fra gennemsnittet, betyder det, at fordelingen er skæv dvs. ikke-symmetrisk. I dette tilfælde, hvor medianen er mindre end gennemsnittet, er der tale om en højreskæv fordeling, jf. også histogrammet i figur 2.1. Der er en tung hale af observationer til højre af høje værdier og det trækker gennemsnittet op. Det er grunden til, at statistik over specielt funktionærlønninger typisk indeholder medianværdien som supplement til gennemsnittet. Gennemsnittet ville specielt være misvisende, hvis én eller to af de høje lønninger var ekstremt høje (fx omkring 60.000 kroner). Det ville i betydelig grad trække gennemsnittet op men det ville ikke påvirke medianværdien. Når en fordeling er (meget) skæv, er medianen det bedste udtryk for den typiske værdi (løn). På den anden side er det kun gennemsnittet, der har den egenskab, at multiplikation med antal observationer er lig med summen af værdierne (lønsummen). I figur 2.2 illustreres de to typer af skæve fordelinger sammen med en symmetrisk, ikke-skæv fordeling, idet forholdet mellem gennemsnit (G) og median (M) angives. Desuden vises kvartilerne 1. kvartil (K1) og 3. kvartil (K3). 16 Kapitel 2

Figur 2.2. Hovedtyper af fordelinger (a) Højreskæv (a) (c) Symmetrisk (c) Symmetrisk K1 MG K3 K1 M=G K3 (b) Venstreskæv (b) Venstreskæv K1 G M K3 Forklaring: G = Gennemsnit M = Median K1 = 1. kvartil (Nedre kvartil) K3 = 3. kvartil (Øvre kvartil) Kvartiler Kvartiler er positionsmål, som desværre ikke indgår i output fra Beskrivende statistik. Her skal man anvende den statistiske funktion KVARTIL. MEDTAG. Kvartiler eller kvarte punkter er et vigtigt supplement til medianen, idet kvartilerne giver et mål for spredningen i fordelingen. Igen tænker vi os, at observationerne (personerne) er sorteret efter stigende værdi, fx løn. Da gælder, at: 1. kvartil eller nedre kvartil er værdien af den observation, der ligger en fjerdedel inde i den sorterede rækkefølge, dvs. at en fjerdedel 25 procent har en lavere værdi (løn) end 1. kvartil-værdien. 3. kvartil eller øvre kvartil er værdien af den observation, der ligger tre fjerdedele inde i den sorterede rækkefølge, dvs. at tre fjerdedele 75 procent har en lavere værdi (løn) end 3. kvartilværdien eller at en fjerdedel har en højere værdi. Man kan også tale om 2. kvartil, men det er det samme som medianen (idet 2. fjerdedel jo er det samme som halvdelen). I Excels funktion KVAR- TIL.MEDTAG kan man angive 2. kvartil, og det er således én måde at beregne medianen på. Som det er tilfældet med medianen, kan kvartilerne ligge mellem to konkrete observationer, og der anvendes da lineær interpolation til at Beskrivelse af fordelinger. Histogram og fordelingsmål 17

finde kvartilværdien som et punkt mellem værdierne af de konkrete observationer 2. Vi skal igen se på eksemplet med funktionærlønninger. Dialogboksen for funktionen KVARTIL.MEDTAG ser således ud: Matrix er blot et andet ord for inputområdet (tallene). I boksen Kvart angives 1 for 1. kvartil og 3 for 3. kvartil. For Kvartil lig med 2 fås medianen (og ikke middelværdien, som der står i dialogboksen). Det ses, at tallet 26230 for 1. kvartil-værdien allerede vises i dialogboksen. Når der trykkes på OK-knappen, kommer tallet ind i regnearket i den celle, som man stod i, da funktionen blev indsat. Derefter markeres næste celle, hvor 3. kvartil-værdien skal indsættes, og funktionen indsættes igen, her med Kvartil = 3. Når der skal foretages en serie af beregninger ved hjælp af en funktion, er det hensigtsmæssigt at opbygge en tabel i regnearket med relevante benævnelser. Resultatet kan da se således ud, hvor teksterne er skrevet i første kolonne, og resultaterne via funktionen er placeret i anden kolonne: 2 Observationsnummeret for 1. kvartil bestemmes som: (1 + Medianens nummer) / 2, og observationsnummeret for 3. kvartil bestemmes som: (Medianens nummer + n) / 2, hvor n er det totale antal observationer. Hvis fx medianens nummer er den 12,5 observation (jf. tidligere), bliver 1. kvartilens observationsnummer lig med (1+12,5) / 2 = 6,75. 1. kvartilen underforstået 1. kvartil-værdien beregnes derefter ved interpolation, dvs. som værdien af den sjette observation plus 0,75 gange differencen mellem værdierne af sjette og syvende observation (svarende til tre fjerdedele af afstanden mellem de to konkrete observationer). 18 Kapitel 2

1. kvartil 26230 Median (2. kvartil) 27530 3.kvartil 28850 Med hensyn til de konkrete talværdier gælder for dette eksempel, at kvartilobservationerne præcis rammer bestemte observationer i lønfordelingen (nr. 6 og nr. 16). Relativ kvartilafstand: Spredning Vi ved allerede, at fordelingen af lønningerne er højreskæv, idet gennemsnittet er større end medianen. Det kan også ses af, at afstanden fra medianen til 3. kvartil er større end afstanden til 1. kvartil (henholdsvis 1.320 og 1.300 kr.). Kvartilen i fordelingens højre side, altså 3. kvartil, ligger længere væk, når tyngden i fordelingen ligger i højre side (se også figur 2.2). Den specifikke og nye information, som kvartilværdierne giver, er imidlertid et mål for spredningen i fordelingen, fx graden af lønspredning. Jo større spredningen er, jo større vil afstanden mellem kvartilerne være. Kvartilafstanden (Inter-Quartile Range) er her 2.620. Hvis man har forskellige grupper af lønmodtagere, kan man dermed sammenligne spredningen via kvartilafstanden. Det er imidlertid kun meningsfuldt, hvis der er tale om grupper med nogenlunde samme lønniveau. Hvis der er tale om forskellige niveauer, bør man anvende den relative kvartilafstand, dvs. forskellen set i relation til medianværdien eller mere formelt: Relativ kvartilafstand = 3. kvartil 1. kvartil Median I eksemplet bliver den relative kvartilafstand lig med 2620 / 27530 = 0,10. Brugen af den relative kvartilafstand kan illustreres ved hjælp af generel lønstatistik. Heri offentliggøres løngennemsnit, median og kvartiler. Man nøjes ikke med gennemsnittet, fordi der typisk er tale om skæve fordelinger. I tabel 2.2 vises tallene for grupper af ansatte fordelt efter arbejdsfunktion. Beskrivelse af fordelinger. Histogram og fordelingsmål 19

Tabel 2.2. Timeløn for lønmodtagere uden ledelsesansvar i den private sektor 2010 2 Arbejde, der forudsætter viden på højeste niveau inden for pågældende område 3 Arbejde, der forudsætter viden på mellemniveau 4 Almindeligt kontor- og kundeservicearbejde 5 Service- og salgsarbejde 6 Arbejde inden for landbrug, skovbrug og fiskeri ekskl. medhjælp 7 Håndværkspræget arbejde 8 Operatør- og monteringsarbejde samt transportarbejde 9 Andet manuelt arbejde GNS. 1. KVARTIL MEDIAN 3. KVARTIL GNS / MEDIAN (K3-K1) / M 344 264 323 402 1,06 0,43 292 229 270 330 1,08 0,38 235 191 221 263 1,06 0,33 198 152 183 225 1,08 0,40 202 178 200 220 1,01 0,21 239 208 232 262 1,03 0,23 218 185 207 237 1,05 0,25 197 165 187 220 1,05 0,30 Kilde: Statistikbanken, tabel LON02. De to sidste kolonner er vores bearbejdning af de fire positionsmål. I den næstsidste kolonne er beregnet forholdet mellem gennemsnittet og medianen, der siger noget om skævheden i lønfordelingen. I alle tilfælde er tallet større end én svarende til, at gennemsnittet er større end medianen hvilket vil sige, at fordelingen er højreskæv for alle grupper. Graden af skævhed varierer en del med den laveste skævhed i landbrugsog håndværksarbejde. Det kan illustreres som forskellen mellem (a) og (b) i figur 2.2. 20 Kapitel 2

Figur 2.3. Illustration af grad af skævhed (a) Stor skævhed (a) Stor skævhed (b) Mindre skævhed (b) Mindre skævhed M G MG M = median, G = gennemsnit I sidste kolonne i tabel 2.2 er den relative kvartilafstand beregnet. Et tal på fx 0,33 betyder, at forskellen er 33 procent mellem 1. og 3. kvartillønnen set i forhold til den midterste løn, medianen. Et klart resultat er, at lønspredningen er mindre blandt ansatte med manuelle arbejdsfunktioner end blandt ansatte med ikke-manuelle funktioner. Det ses, at der for nogenlunde samme relative kvartilafstand er tale om betydelige forskelle i den absolutte forskel mellem kvartilerne. Det skyldes de markant forskellige lønniveauer, og det viser, at den relative forskel mellem kvartilerne er det relevante mål. Fraktiler (fx deciler) En generalisering af kvartiler er fraktiler. Et meget detaljeret niveau er percentiler, dvs. hundrededele, men i praksis anvendes typisk deciler, tiendedele, når man vil foretage en mere detaljeret beskrivelse af en fordeling end via kvartiler. 1. decil angiver den værdi (løn), som den lavestlønnede tiendedel ligger på eller under, og 9. decil viser, hvilken løn den højestlønnede tiendedel ligger på eller over. Fraktiler kan beregnes ved hjælp af Excels statistiske funktion FRAKTIL.MEDTAG 3. Beregningen af deciler vises i bilag 3, afsnit 5.d. 3 I dialogboksen for FRAKTIL.MEDTAG angives fx K=0,1 for 1. decil og K=0,9 for 9. decil. Percentiler vil være tal mellem K=0,01 og K=0,99. Beskrivelse af fordelinger. Histogram og fordelingsmål 21

Sammensatte mål for skævhed og form: Skævhed og kurtosis Skævhed er et sammensat mål for arten og graden af skævhed, der baseres på alle observationer. Et positivt tal er udtryk for, at der findes en tung hale af høje værdier, dvs. at fordelingen er højreskæv. Det er tilfældet i løneksemplet, hvor skævheden har en positiv værdi på 0,34 jf. outputtet af Beskrivende statistik i tabel 2.1. Et negativt tal er udtryk for en venstreskæv fordeling 4. En tommelfingerregel for graden af skævhed i forhold til en symmetrisk fordeling er, at en skævhed på mere end +1 eller mindre end -1 angiver en kritisk skæv fordeling. Gennemsnit og standardafvigelse er da misvisende mål, og i så fald bør man anvende medianen som mål for den typiske værdi og kvartilafstanden som mål for spredning. Modsat gælder: 1 Skævhed +1 nær /nogenlunde en symmetrisk fordeling Hvis det er tilfældet, kan gennemsnit og standardafvigelse anvendes som mål for fordelingens typiske værdi og spredning. Standardafvigelse omtales i næste afsnit. Kurtosis er et mål for, i hvilken grad fordelingen er spids eller flad sammenlignet med normalfordelingen (der er en særlig klokkeformet, symmetrisk fordeling, jf. senere). En positiv værdi angiver en relativt spids fordeling, og en negativ værdi en forholdsvis flad fordeling. En værdi mellem -1 og +1 angiver, at der nogenlunde er tale om en klokkeformet fordeling. I løneksemplet er kurtosis lig med 0,25. Det vil sige, at denne fordeling er lidt mere spids end en klokkeformet fordeling. Men der er samtidig tale om en lav værdi og dermed en ringe grad af afvigelse fra normalfordelingens klokkeform. n x - x i 4 I Excel anvendes følgende formel for skævhed: S( ) 3 hvor s er ( n -1)( n - 2) s standardafvigelsen og x i x er forskellen mellem de enkelte observationer x i og middeltallet x. Formlen udtrykker omtrentligt den gennemsnitlige afvigelse mellem de enkelte talværdier og gennemsnittet målt i antal standardafvigelser, opløftet i tredje potens. Når der opløftes til tredje potens, bevares fortegnet til x i x. 22 Kapitel 2