CCWS Working paper no. 2007-57. "Education paper" - om at anvende statistik i tilknytning til det problemorienterede projektarbejde

Relaterede dokumenter

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Et oplæg til dokumentation og evaluering

Kausalitet. Introduktion til samfundsvidenskabelig metode. Samfundsvidenskabelig metode. Hvad er metode? Hvad er kausalitet.

Rapport vedrørende. etniske minoriteter i Vestre Fængsel. Januar 2007

Statistiske data. Datamatricen. Variable j. ... X ij = x ij... Anonymiserede og ækvivalente dataindivider. Datamodellen

Appendiks 1: Om baggrund og teori bag valg af skala

Kapitel 3 Centraltendens og spredning

MATEMATIK. Formål for faget

Indblik i statistik - for samfundsvidenskab

Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog

Faglig læsning i matematik

Behandling af kvantitative data

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

MATEMATIK. GIDEONSKOLENS UNDERVISNINGSPLAN Oversigt over undervisning i forhold til trinmål og slutmål

At lave dit eget spørgeskema

Om at løse problemer En opgave-workshop Beregnelighed og kompleksitet

enige i, at der er et godt psykisk arbejdsmiljø. For begge enige i, at arbejdsmiljøet er godt. Hovedparten af sikkerhedsrepræsentanterne

Faglige delmål og slutmål i faget Matematik. Trin 1

Fremstillingsformer i historie

Tips og vejledning vedrørende den tredelte prøve i AT, Nakskov Gymnasium og HF

Matematik på Humlebæk lille Skole

Introduktion til mat i 4 klasse Vejle Privatskole 2013/14:

Den mundtlige prøve i matematik og forenklede Fælles Mål Odense 20. April 2015

Analyse af PISA data fra 2006.

Råd og vink 2013 om den skriftlige prøve i Samfundsfag A

Undervisningsplan for faget matematik. Ørestad Friskole

Tjek. lønnen. Et værktøj til at undersøge ligeløn på arbejdspladser inden for det grønne område og transportsektoren udgave Varenr.

Susanne Ditlevsen Institut for Matematiske Fag susanne

Tjek. lønnen. Et værktøj til at undersøge lokal løndannelse og ligeløn på offentlige arbejdspladser udgave Varenr. 7520

Matematik, basis. Undervisningen på basisniveau skal udvikle kursisternes matematikkompetencer til at følge undervisningen

Undervisningsbeskrivelse

Faktaark: Iværksættere og jobvækst

Evaluering af sygedagpengemodtageres oplevelse af ansøgningsprocessen

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Notat. Notat om produktivitet og lange videregående uddannelser. Martin Junge. Oktober

Årsplan for 5. klasse, matematik

L Æ R I N G S H I S T O R I E

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Det siger FOAs medlemmer om smartphones, apps og nyheder fra FOA

På alle områder er konklusionen klar: Der er en statistisk sammenhæng mellem forældre og børns forhold.

Fig. 1 Billede af de 60 terninger på mit skrivebord

Per Vejrup-Hansen Praktisk statistik. Omslag: Torben Klahr.dk Lundsted Grafisk tilrettelæggelse: Samfundslitteratur Grafik Tryk: Narayana Press

FORDELING AF ARV. 28. juni 2004/PS. Af Peter Spliid

Dansk-historieopgaven (DHO) skrivevejledning

Gruppeopgave kvalitative metoder

En ny vej - Statusrapport juli 2013

DANSK FLYGTNINGEHJÆLP

Værkstedsundervisning hf-enkeltfag Vejledning/Råd og vink August 2010

Udviklingsmuligheder for små og mellemstore virksomheder i Region Midtjylland

Nyt i faget Matematik

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Kemi Evaluering af skriftlig eksamen kemi A, stx Maj juni 2015

Seminaropgave: Præsentation af idé

Matematik. Matematiske kompetencer

Kommunal Rottebekæmpelse tal og tendenser

Årsplan for Matematik 8. klasse 2011/2012

Undervisningsbeskrivelse

Kapitel 3 Centraltendens og spredning

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Kommentarer til matematik B-projektet 2015

PATIENTOPLEVETKVALITET 2013

Kapitel 1 Statistiske grundbegreber

Effekter af studiejob, udveksling og projektorienterede forløb

LØNDANNELSE BLANDT MEDLEMMER AF IDA HOVEDKONKLUSIONER OG SURVEYRESULTATER

Vidensbegreber vidensproduktion dokumentation, der er målrettet mod at frembringer viden

Brugertilfredshed på aktivitetscentrene daghjem Indledning Kvalitet inden for givne rammer... 3

PATIENTOPLEVETKVALITET 2013

1 - Problemformulering

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

SPSS introduktion Om at komme igang 1

Modellering med Lego education kran (9686)

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

- Panelundersøgelse, Folkeskolen, september 2014

Statistik og beregningsudredning

Årsplan 9. klasse matematik Uge Emne Faglige mål Trinmål Materialer/ systemer 33-34

Kompetencemål i undervisningsfaget Matematik yngste klassetrin

Årsplan for matematik i 1. klasse

Medarbejdertilfredshedsanalyse 2005

SAMFUNDSØKONOMISK AFKAST AF UDDANNELSE

Lighed fremmer tilliden for både rige og fattige

Introduktion til PRAKTISK STATISTIK

Del 3: Statistisk bosætningsanalyse

Talrækker. Aktivitet Emne Klassetrin Side

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

LUP Psykiatri Regional rapport. Indlagte patienter på specialiserede retspsykiatriske afsnit. Region Nordjylland

Det sorte danmarkskort:

Resultater af dokumentationsundersøgelsen for Kontakt mellem mennesker, Svendborg

Progression i danskundervisningen før og efter den nye danskundervisningslov - Foreløbig dokumentation Notat 2008(1)

Børn i lavindkomstfamilier KORT & KLART

Årsplan 2013/ ÅRGANG: MATEMATIK. Lyreskovskolen. FORMÅL OG FAGLIGHEDSPLANER - Fælles Mål II 2009

Naturvidenskabelig metode

Kvantitative Metoder 1 - Forår Dagens program

Jeg er den direkte vej til en tastefejl

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for

Indhold. Forord 9. kapitel 1 Hvornår er et fænomen et socialt fænomen? 11. kapitel 2 Sociologien og den kvantitative metode 20

Appendiks 3 Beregneren - progression i de nationale matematiktest - Vejledning til brug af beregner af progression i matematik

METODESAMLING TIL ELEVER

Transkript:

CCWS Working paper no. 2007-57 "Education paper" STATISTIK I PRAKSIS - om at anvende statistik i tilknytning til det problemorienterede projektarbejde Sanne Lund Clement og Jan Holm Ingemann Centre for Comparative Welfare Studies (CCWS) Department of Economics, Politics and Public Administration Aalborg University www.ccws.dk

Centre for Comparative Welfare Studies Working Paper Editor: Per H. Jensen and Jørgen Goul Andersen E-mail: perh@socsci.aau.dk and goul@socsci.aau.dk www.ccws.dk Working papers may be ordered by: Inge Merete Ejsing-Duun Fibigerstræde 1 9220 Aalborg Ø E-mail: ime@socsci.aau.dk Tlf: (+45) 96 35 82 18 Fax: (+45) 98 15 53 46 Layout: Inge Merete Ejsing-Duun Print: Uni-Print, AAU Aalborg 2007 ISBN 978-87-92174-40-6 ISSN 1398-3024-2007-57

STATISTIK I PRAKSIS - om at anvende statistik i tilknytning til det problemorienterede projektarbejde Sanne Lund Clement og Jan Holm Ingemann 1. udgave, 1. oplag AAU, Det Samfundsvidenskabelige Basisår efteråret 2007

Indhold Forord... 3 Kapitel 1 Introduktion til praktisk statistik... 5 Hvad er statistik?... 6 Analytiske elementer... 8 Målinger... 9 Sammenligninger... 9 Kontrol... 10 Variable, enheder og værdier... 11 Statistik i problemformuleringen... 15 Kapitel 2 Læs og forstå statistikken én variabel... 17 Teorier, begreber og indikatorer... 17 Hvordan læser og fortolker vi? den univariate analyse... 21 Indeksering og tidsrækker... 25 Centraltendensen... 30 Variation afvigelse, varians og standardafvigelse... 32 Kapitel 3 Læs og forstå statistikken to eller flere variable... 37 Afhængige og uafhængige variable... 37 Om kausalitet... 38 Typer af sammenhænge... 39 Krydstabeller... 43 Hvad er en krydstabel?... 43 Hvordan læser og fortolker vi? Den bivariate analyse... 46 Hvornår kan vi ikke bruge krydstabeller?... 47 Kapitel 4 Statistik i projektarbejdet... 49 Dokumentation versus argumentation... 49 Brugen af statistik i projektforløbet... 50 Sekundær statistik... 51 Hvor finder vi de sekundære data?... 54 Grafisk præsentation... 54 Kvalitetskriterier... 56 Kildekritik i relation til statistisk materiale... 57 Retningslinjer ved brug af statistisk materiale... 59 Afslutning... 65 Litteratur... 67 Appendix Standard formler... 68 1

FORORD Denne lærebog er en første udgave af vores forsøg på at udarbejde et materiale, der i særlig grad fokuserer på at: Koble anvendelsen af statistik op på de problemorienterede og projektorganiserede studiemetoder Gøre materialet praksisorienteret, således det alene sigter mod at sætte læserne i stand til at anvende det til at kvalificere arbejdet med problemformulering og simpel analyse. Hermed er det også indirekte understreget, at vi ikke gør meget ud af at redegøre for de matematiske beviser eller logikker bag de statistiske metoder og redskaber. I stedet sigter vi mod at give en mere intuitiv forståelse af, hvorledes man kritisk kan anvende dem. Selvom teksten således er skrevet i et forholdsvis almindeligt sprog med meget få matematiske symboler, så ændrer det ikke ved, at statistik er et redskabsfag med særlige regler og logikker, og teksten i denne bog kan følgelig ikke blot læses som var den en avisartikel. Forudsætningen for et højt fagligt udbytte er, at man tager sig tid til grundigt at arbejde med teksten og ikke mindst arbejde med eksempler. Derfor opfordres læserne til at have papir og blyant ved hånden, så man kan arbejde med små eksempler undervejs og til tilsvarende at arbejde med eksempler under anvendelse af regneark på PC en. Og så opfordrer vi endelig til, at der arbejdes med så simple problemer og tal som muligt i eksemplerne jo mere simple eksempler, des lettere er logikken at forstå. Der er tale om den første udgave og læserne bedes derfor bære over med, at tekster og eksempler kan forbedres. Vi vil af samme grund være taknemmelige for at modtage forslag og kommentarer som kan indgå i arbejdet med næste udgave. Aalborg, oktober 2007 Sanne Lund Clement og Jan Holm Ingemann 3

KAPITEL 1 INTRODUKTION TIL PRAKTISK STATISTIK Det er ikke tilfældigt, at vi både i denne lærebogs titel og i overskriften til det introducerende kapitel, pointerer, at det er praktisk statistik, vi har med at gøre. For i denne sammenhæng, og i brugen af statistik i det problemorienterede projektarbejde, er statistik meget mere end teoretisk matematik det er et praktisk redskab, der skal hjælpe os med at afprøve påstande, belyse udviklingstendenser, illustrere pointer, sandsynliggøre sammenhænge og meget andet. Hermed har vi også sagt, at faget praktisk statistik ikke kun handler om tal. Naturligvis er en stor del af statistikken udtrykt i tal, og derfor spiller håndteringen af tal også en vis rolle i denne bog. Men hvor formålet med undervisning i statistik ofte er at lære en række matematiske formler og beregninger, lægger kurset i praktisk statistik mere vægt på at være anvendelsesorienteret. Hensigten er således at vise, dels hvor man kan finde materiale i form af sekundær statistik, som kan anvendes i projektarbejdet såvel i relation til problemformulering som analyser af mere deskriptiv karakter, dels at give en introduktion til den statistiske bearbejdning af dette datamateriale. For at kunne anvende tal og for at forstå de muligheder (og begrænsninger), der ligger i den enorme mængde af statistisk datamateriale, der er tilgængelig, er det naturligvis vigtigt at vide, hvad det er vi taler om, når vi anvender statistiske begreber og kategorier. Dette første kapitel vil derfor primært handle om at give en introduktion til den praktiske og deskriptive statistik og de mest anvendte begreber. 5

HVAD ER STATISTIK? I de sidste mange år har alle discipliner inden for samfundsvidenskaben oplevet en konstant stigning i brugen af statistiske metoder. Der er mange grunde til denne mere kvantitative orientering: som i andre videnskaber er kravet om sikre, evidensbaserede 1 empiriske analyser af data øget i samfundsvidenskaben, ligesom computerne, og det øgede udbud af brugervenlige analyseprogrammer, har medført, at de statistiske metoder i sig selv er blevet lettere at anvende. I dag er statistik således blevet et almindeligt og vigtigt redskab i mange akademiske discipliner, herunder også i samfundsvidenskaberne. Statistik er også vigtig i mange praktiske og konkrete sammenhænge i nutidens samfund, herunder i relation til produktion og service i såvel den private som offentlige sektor. På grund af den øgede brug af statistik i så mange områder af vores daglige liv, er det også blevet mere vigtigt og ønskværdigt at forstå og kritisk at kunne anvende den statistiske tankegang og metode. Selvom du måske ikke tænker nærmere over det, har du sandsynligvis draget nogle statistiske konklusioner i dagligdagens samtaler eller i tankerne. Eksempelvis er udtalelser som: Jeg sover i gennemsnit 8 timer om natten, eller: Det er nok mere sandsynligt, at du består din eksamen, hvis du læser på dit pensum, rent faktisk statistik af natur. Måske har du hørt fodboldkommentatorer sige: og nu til noget statistik. Her refererer ordet statistik til informationer om, hvor mange gange holdene tidligere har spillet mod hinanden, hvad resultaterne blev, detaljer omkring hvor mange mål hver spiller har scoret og hvornår, osv. Dette giver dog IKKE nogen god fornemmelse for, hvad statistik handler om. Statistik er IKKE bare en samling af en masse tal det er indsamling af tal (datafangst) f.eks. forestået af Danmarks Statistik (statistikproducent). Disse tal samles alene med de formål at stille dem til rådighed for statistikbrugerne i forholdsvis rå form. 1 Hermed mener vi udsagn, der er baseret på en eller anden form for empirisk dokumentation. 6

Brugerne kan så hente og bearbejde de rå data i forbindelse med analyser bestemt af brugernes konkrete problem og dermed formål. I forbindelse med de statistiske analyser er det væsentligt at skelne mellem deskriptiv statistik og teoretisk statistik. Ved deskriptiv statistik analyserer vi de rå data i umiddelbar form og konkluderer ud fra, hvad vi tallene umiddelbart kan sige os ved deskriptive udtryk som gennemsnit. Ved den teoretiske statistik går vi videre på grundlag af sandsynlighedsregning og udfører diverse beregninger, typisk på grundlag af stikprøver, og vil f.eks. kunne udtale os om sandsynlige udfald i fremtiden. I denne bog afgrænser vi os til deskriptiv statistik vi beskæftiger os altså kun med de mere umiddelbare beregninger. En meget generel angivelse af, hvad statistisk analyse handler om, er givet af Ritchey (2008): The fields of statistics is a set of procedures for gathering, measuring, classifying, coding, computing, analyzing, and summarizing systematically acquired numerical information. (Ritchey 2008: 2-3) Statistikken ses således som et sæt af procedurer til at indsamle, måle, klassificere, kode, beregne, analysere og sammenfatte systematisk erhvervet numerisk information. En anden definition udarbejdet af samme forfatter som den ovenstående, henviser til, at statistik også er en måde at tænke på: The statistical imagination is an appreciation of how usual or unusual an event, circumstance, or behaviour is in relation to a larger set of similar events and an appreciation of an event s causes and consequences (Ritchey 2008: 2-3) 7

At tænke statistisk betyder således, at formålet bliver at foretage en vurdering af, hvor almindelig eller ualmindelig en begivenhed, en omstændighed eller en adfærd er, set i relation til et større sæt af lignende begivenheder, og en vurdering af begivenhedens årsager og konsekvenser. I det praktiske projektarbejde vil en sådan statistisk tankegang indebære, at analysernes enkeltdele betragtes som en del af en større helhed det bliver vigtigt at se kritisk og erfaringsbaseret bagom et problem og få sat elementerne og analysens resultater i perspektiv, hvilket altså sker ved kritisk at sammenholde med de statisk formulerede erfaringer. Dermed har vi også sagt, at den statistiske tankegang også indebærer, at man vil kunne gennemskue statistisk usandsynlige hændelser og ikke tillægge dem større betydning end de kan bære. Man kan med andre ord lettere holde sig for øje, at myter og fordomme, der baserer sig på enkelttilfælde, skal behandles kritisk. ANALYTISKE ELEMENTER Statistiske analyser er i samfundsvidenskaben en almindelig måde til at forstå, forklare og i det hele taget beskæftige sig med variation. Når vi som samfundsvidenskabelige forskere ønsker at begive os i kast med et faktisk forskningsprojekt, vil vi på mere systematisk vis skulle forholde os til og forsøge at forstå et bestemt område af og bestemte variationer virkeligheden; et forsøg hvor vores rolle som observatører bliver mere selvbevidst og mere pålagt, og i hvilket vores rolle som deltager eller medlem bliver stadig mere kontrolleret, og måske mere besværlig. I denne proces, hvor vores observationer af virkeligheden skal systematiseres, kan de statistiske teknikker hjælpe os på tre vigtige områder: målinger sammenligninger, og kontroller for statistisk usikkerhed 8

MÅLINGER Vores første indtryk af data består ofte blot af simple optællinger (i fagsproget ofte kaldet census ): Hvor mange af respondenterne i vores spørgeskemaundersøgelse er mænd, og hvor mange er kvinder, hvor mange firmaer i et studie af computervirksomheder, der beskæftiger mere end 250 medarbejdere, eller hvor mange timer, respondenterne bruger på at se nyheder i tv etc. Denne type af information præsenteres i den form for deskriptiv statistik, som de fleste er vant til at møde i dagligdagen, nemlig som procenter, andele og gennemsnit. Håndværket med at foretage målinger er imidlertid ikke altid så ligetil. De fleste af de fænomener og elementer, som vi som samfundsforskere ønsker at måle, kræver et omfattende og præcist arbejde med at definere dem, før vi kan måle og kvantificere. Selv i de umiddelbart simple eksempler i ovenstående vil det være nødvendigt at definere, hvad der helt præcist menes med eksempelvis computervirksomheder, før den pågældende måling kan finde sted. Sådanne begrebsmæssige afgrænsninger kan give anledning til omfattende diskussioner og bekymringer, når det er mere abstrakte begreber som social klasse, tilfredshed med jobbet eller mentalt helbred, der er på spil, men også her er vigtigheden af præcise begreber altafgørende. Før vi kan måle, er det således vigtigt at definere hvad enten vi har grundlag for at fastlægge egne, eller vi benytter andres definitioner så godt som muligt, og såvel klart som eksplicit at præcisere relationen mellem undersøgelsens fokus, de anvendte definitioner og deres kobling til de anvendte teorier og de konklusioner, som vi kan drage. SAMMENLIGNINGER Som samfundsforskere ønsker vi altid at nå et skridt længere end til at beskrive, og det første skridt består ofte i at sammenligne, både inden for vores eget studie og eventuelt også med information fra andre undersøgelser eller kilder. 9

Den mest åbenlyse måde, hvorpå statistik kan hjælpe os med sammenligninger, er, at sætte os i stand til at indsamle data fra forskellige relevante grupper (defineret med afsæt i vores problem), og derefter sammenligne deres karakteristika. Hvis vi i projektet arbejder med arbejdsulykker, vil vi ofte først danne os et overblik over de statistiske informationer, vi har til rådighed antallet af ulykker, ulykker fordelt på arbejdsområde, alder, køn, årsager til ulykkerne osv., og herefter ønsker vi at sammenligne de faktorer, der kan have en indflydelse forekomsten af arbejdsulykker. Det kan være variationer mellem de enkelte år, mellem bestemte perioder på året, mellem forskellige landsdele, forskellige arbejdsområder osv., der kan give relevante informationer om eventuelle sammenhænge og dermed give os anledning til ny erkendelse. KONTROL Det er imidlertid vigtigt at understrege, at statistik i sig selv ikke kan bevise noget for det første fordi, vi i samfundsvidenskaberne ikke kan bevise, men sandsynliggøre, og for det andet fordi, statistik kun er et redskab, der kan give os mening i tilknytning til samfundsvidenskabelig teori. Ideen om et endeligt, uomtvisteligt bevis er fremmed i samfundsvidenskaben. Statistiske procedurer og teknikker kan hjælpe os med at evaluere, hvorvidt variationer i vores data kan betragtes som vigtige eller som relativt ligegyldige, hvorvidt det vi har iagttaget hos vores gruppe af respondenter er typisk for en større gruppe og i givet fald hvor typisk. Vi taler derfor om sandsynligheder frem for beviser, og vi skal være bevidste omkring faren ved at drage universelle slutninger på baggrund af resultater fra afgrænsede undersøgelser. Statistikken kan hjælpe os med at vurdere sandsynligheder og med at afgøre, med hvilken sikkerhed, vi kan fremsætte disse sandsynligheder. Én af metoderne til at øge sandsynligheden for, at vores antagelser om en sammenhæng mellem variabler er holdbar, er at kontrollere for 3. variabel. Dette vil blive behandlet mere udførligt i kapitel 3, hvor vi ser nærmere på analyser med inddragelse af to eller flere variable. 10

VARIABLE, ENHEDER OG VÆRDIER I vores samfundsvidenskabelige problemformulering forholder vi os til noget som ofte har en størrelse, og dette noget bliver i statistisk sammenhæng benævnt som en variabel. For at kunne finde tal for denne størrelse, så skal det videnskabelige udsagn (problemformuleringen) operationaliseres, sådan vi kan finde målinger (data), der kan anvendes som grundlag for at fortælle os om omfanget af dette noget. Hermed skal det først afgøres, hvem det er, problemformuleringen siger noget om. Det behøver naturligvis ikke nødvendigvis at være mennesker, men vil i samfundsvidenskaberne dog ofte være det altså en gruppe af mennesker, som er genstand for vores udsagn/problem. Denne gruppe af mennesker benævner vi i statistik som en population. Hvis vi ønsker at udtale os om arbejdsløshedsprocenten i 2007, så er populationen således den samlede danske arbejdsstyrke dette år. Når vi ud fra problemet har defineret vores population, så skal vi afgøre, hvad det er for karakteristika, vi ønsker at undersøge hos den. Det karakteristikum, vi ønsker at undersøge, benævner vi variabel, fordi det er et karakteristikum, der kan variere imellem de forskellige elementer/mennesker i vores population. Er der tale om at undersøge flere karakteristika, da taler vi om flere variable. Hvis vi ønsker at undersøge arbejdsløshedsprocenten i 2007, så er det variablen arbejdsløs vi skal have fat i, og denne variabel have to udfald (det kan vi også kalde svar ), enten ja (pågældende er arbejdsløs) eller nej (pågældende er i arbejde). Her er der altså tale om et udfaldsrum med kun to muligheder. Andre variable, f.eks. skattepligtig indkomst, kan have et uendeligt antal mulige udfald. Vi har med ovenstående konstateret, at der findes forskellige typer af variable nogle med et begrænset udfaldsrum og andre med et uendeligt antal mulige 11

udfald. Vi skal prøve at skabe et overblik over variabeltyper, fordi typen har betydning for, hvorledes data skal behandles statistisk. Figur 1.1: Variabeltyper en oversigt Numeriske data Kvalitative Kvantitative Nominale Ordinale Kontinuerte Diskrete Diskrete Kilde: Kvanli et.al. (1995), ændret af forfatterne Det fremgår af figuren, at der er to hovedtyper, nemlig kvalitative og kvantitative variable. De kvalitative, der ofte benævnes som bløde, er igen opdelt i to undertyper, nemlig nominale og ordinale. De kvalitative variable er generelt karakteriseret ved, at udfaldene ( svarene ) ikke er tal, men er andre kvaliteter, der udtrykkes i ord. De nominale variable udtrykker en tilstand som f.eks. arbejdsløs eller hjemmegående. De ordinale variable udtrykkes også i ord, men er ordnet på en skala fra stor til lille eller omvendt. Det vil sige, at udfaldene f.eks. kan være meget tilfreds, tilfreds, indifferent, utilfreds og meget utilfreds. Alle kvalitative variable er diskrete. Det betyder, at vi på forhånd er i stand til at definere samtlige, mulige udfald altså udfaldsrummet (de mulige svar) kan kun være dem, vi på forhånd kan definere. De kvantitative eller hårde variable er generelt karakteriseret ved, at udfaldene er tal f.eks. indkomst eller arbejdsløshedsprocent. I de fleste tilfælde er kvantitative variable kontinuerte. Det vi sige, at resultatet kan blive et uendeligt stort antal forskellige tal f.eks. temperaturen målt i grader Celsius, idet 12

man altid kan putte en ekstra decimal på: Temperaturen kan være 22,3 eller 22,31 eller 22,312 grader o.s.v. Tilsvarende betragter vi indkomst som en kontinuert variabel. Men kvantitative variable kan dog også være diskrete. Hvis vi har en gruppe på ti studerende og ønsker at undersøge, hvilket antal der bor hjemme hos deres forældre, så har vi at gøre med en diskret, kvantitativ variabel, idet udfaldet er et helt tal mellem 0 og 10. Variable har desuden forskelligt måleniveau, der er afgørende for, hvilke regneoperationer, der kan anvendes og hvilke muligheder der er for bearbejdning og analyse. Disse måleniveauer hænger i nogen grad sammen med ovenstående opdeling i henholdsvis kvalitative og kvantitative variable. Ofte refereres der til fire forskellige niveauer; nominalskala, ordinalskala, intervalskala og ratioskala, hvor nominalskala og ordinalskala som nævnt oftest betegnes som kvalitative og diskrete variable, og intervalskal og ratioskala som oftest betragtes som kvantitative og kontinuerte variable. Eftersom variablenes måleniveau er afgørende for, hvilke analyseteknikker der er mulige at anvende, er niveauet selvsagt vigtigt at have i mente, når der udvælges eller konstrueres variable eksempelvis spørgsmål i et spørgeskema. Nominalskala kaldes for det laveste måleniveau, ikke forstået således, at det er det dårligste niveau, men det er dette niveau, hvor vi kan udføre de færreste regneoperationer. Disse typer af variable kaldes også ofte for kategorivariable, fordi det netop er det, vi gør: vi kategoriserer, vi skiller enheder med forskellige værdier. Variablene bruges således til at kategorisere objekter, eksempelvis ved at opdele befolkningen på baggrund af deres beskæftigelse, deres køn eller deres hårfarve. Andre eksempler på variable på nominalskalaniveau kan være folks primære motionsform, hvad de stemte ved sidste folketingsvalg eller hvilket kæledyr de har. Fælles for disse variable er desuden, at kategorierne ikke kan rangordnes, men udelukkende kan anvendes til at foretage optællinger af, hvor mange i populationen eller stikprøven der er mænd, hvor mange der foretrækker at svømme frem for at løbe osv. 13

Næste måleniveau er ordinalskala. Her kan vi udføre samme regneoperationer som ved nominalskalavariablene + lidt mere derfor det højere niveau. Vi kan stadig kategorisere vores variable, men nu er værdierne rangordnet, så det er muligt for os at sige noget om, eksempelvis at nogle er mere enige end andre. Et typisk eksempel på variable på ordinalskalaniveau er netop holdningsspørgsmål, der formuleres som udsagn, som respondenten skal erklære sig helt enig, enig, hverken enig eller uenig, uenig eller helt uenig i. Vi kan tale om, at nogle er mere enige end nogle andre, men vi kan ikke sige noget om, præcist hvor meget mere enig, de er. Vi kan med andre ord ikke sige noget præcist om afstanden mellem variablens værdier, blot at der er en bestemt rangorden, en bestemt og logisk rækkefølge. Andre eksempler på variable på ordinalskalaniveau kan være socialklasse med værdierne høj, middel og lav, eller diverse tilfredshedsmål (meget tilfreds, lidt tilfreds, ikke tilfreds osv). Det tredje (og første egentlige kvantitative) måleniveau er de såkaldt intervalskalerede variable. Vi kan stadig kategorisere vores værdier og vi kan også rangordne dem, og nu kan vi også tale om, at der er samme afstand mellem vores værdier. Et eksempel, der ofte anvendes på en intervalskalerede variabel er IQ-testen, hvor vi kan sige, at 10 point på denne skala er 10 point, uanset hvor på skalaen, vi befinder os. Et andet eksempel er temperaturer målt i Celsius-grader. Vi kan med disse variable stadig ikke sige noget om de relative forskelle, idet vi ikke har et naturligt defineret 0-punkt. Vi kan sige, at 30 grader er 15 grader mere end 15 grader, men vi kan ikke sige, at det med 30 grader er dobbelt så varmt som med 15. For at vi kan drage disse relative konklusioner, skal vi have variable på det højeste måleniveau, ratioskala. Eneste forskel mellem intervalskala og ratioskala er netop tilstedeværelsen af 0-punktet, og ofte ser man også de to skalaniveauer betegnet under samme hat. Alder er et oplagt eksempel på en ratioskaleret variabel, og nu kan vi som noget nyt tale om, at han er dobbelt så gammel som hende eller i andre relative termer. I den nedenstående tabel 1.2 gives en samlet oversigt over de fire variabeltyper og deres karakteristika. 14

Tabel 1.2: Oversigt over variabeltyper og deres karakteristika Skala Anvendelse Eksempler Måleniveau Regneoperationer Nominal Klassificering Kvinde = 1 Skiller en- Optælling Mand = 2 heder med forskellige værdier Ordinal Klassificering Stor = 1 Som ovenfor + Optælling Mindre = 2 ordner enhe- Større eller Rangordnindiernes Ingen = 3 der efter vær- mindre stør- relse Interval Klassificering IQ-test: Som ovenfor + Optælling P1 = 95 samme af- Større eller Rangordning P2 = 105 stand mellem mindre P3 = 120 værdierne Addition Afstand P4 = 88 Subtraktion Ratio Klassificering Indkomst: Som ovenfor + Optælling P1 = 100.000 absolut nul- Større eller Rangordning P2 = 266.000 punkt mindre P3 = 160.793 Addition Afstand P4 = 488.000 Subtraktion Nulpunkt Multiplikation Division Kilde: Nielsen 2007:138 Statistik Modus Modalpct. Chi2test Kryds-tabel Median Kvartilafvig Rangkorrelation Gennemsnit Standardafvigelse Regression Gennemsnit Standardafvigelse Regression For en god ordens skyld skal det bemærkes til ovenstående tabel, at ikke alle de statistiske muligheder vil blive gennemgået i denne lærebog. STATISTIK I PROBLEMFORMULERINGEN I forbindelse med projektarbejdet, eksisterer der mange forkerte forestillinger og mange myter omkring brugen af statistik. Dem vil vi i denne lærebog løbende forsøge, om vi kan få aflivet og erstattet af en viden om, hvornår og hvordan statistik kan udgøre et nyttigt redskab til at dokumentere og argumentere to af kerneelementerne i projektarbejdet. 15

I relation til problemformuleringen handler inddragelsen af statistik som oftest ikke om avancerede statistiske analyser, men derimod kan simpel, deskriptiv statistik her ofte være et fortrinligt redskab til at dokumentere nogle af de faktuelle påstande, der danner grundlaget for problemformuleringen. Det er herunder basalt, at man i relation til formulering af et problem forholder sig til problemets omfang. Så statistik kan være et særdeles relevant og nyttigt redskab i relation til problemformulering også selvom den videre analyse af problemet i større omfang kalder på kvalitative metoder. Datamaterialet, der anvendes i projektarbejdet, ikke bare i de første studieår, men for de flestes vedkommende i det meste af studietiden, vil primært bestå af sekundære data, og det statistiske materiale vil ligeledes være sekundært. I betegnelsen sekundære data ligger der ikke en prioritering eller rangering; med betegnelsen angives blot, at der er tale om data, der er indsamlet af andre end Jer selv. Disse andre kan være andre forskere, det kan være forskellige organisationer som eksempelvis Danmarks Statistik og OECD, der begge er eksempler på officielle statistikproducenter, og det kan være interesseorganisationer eller ministerier o.s.v. Der er i udgangspunktet ikke noget i vejen for at anvende den sekundære statistik i projektarbejdet, men der er naturligvis en række forholdsregler, der skal træffes. Hvor man finder den sekundære statistik, og hvilke forholdsregler vi taler om, vil blive behandlet mere detaljeret i kapitel 4. 16

KAPITEL 2 LÆS OG FORSTÅ STATISTIKKEN ÉN VARIABEL Hvilke variable, der skal inddrages i projektets analyser, og på hvilken måde, afhænger naturligvis af problemformuleringens karakter og af, hvilken rolle de statistiske analyser er tænkt at spille i projektet. I dette og det efterfølgende kapitel skal vi se nærmere på, hvordan vi kan anvende teori til at definere og udvikle vores variable, og vi skal se nærmere på, hvordan vi læser og fortolker tabeller og statistik med såvel én (dette kapitel) som flere variable (kapitel 3). Endelig gives der nogle retningslinjer for, hvordan vi selv kan opstille både tabeller og mere grafiske fremstillinger, igen både med én og med flere variable, hvorved vi altså også beskæftiger os med, hvordan resultaterne kan fremstilles og formidles ved rapportering. TEORIER, BEGREBER OG INDIKATORER Teorier og teoretiske begreber er ofte udgangspunktet for de variable, som vi anvender i projektarbejdet, hvad enten formålet er at dokumentere en faktuel påstand i problemformuleringen, eller det er i relation til de mere detaljerede og afprøvende analyser i projektarbejdets analysedel. Som det også fremgik i kapitel 1, er målingen af de teoretiske begreber af afgørende betydning for den kvantitative forskning, da reliabilitet og validitet er afgørende kvalitetskriterier. Disse kvalitetskriterier vil blive behandlet mere udførligt i kapitel 4. Hvad der gør forskning og projektarbejde nok så interessant, men også nok så kompliceret, er blandt andet de begrebsmæssige diskussioner, der uundgåeligt vil opstå i løbet af et hvilket som helst projektarbejde. Der eksisterer mange forskellige definitioner på, hvad et begreb er: 17

the building blocks of theory and represent the points around which social research is conducted (Bryman, 2004:65) categories for the organisation of ideas and observation (Bulmer, 1984:43) abstract summaries of a whole set of behaviours, attitudes and characteristics which we see as having something in common (DeVaus, 2002:43) Disse ovenstående definitioner er blot tre af mange, men grundlæggende siger de det samme: At et begreb er en kategorisering altså en eller anden form for kasse, der teoretisk indfanger specifikke/særlige karakteristika ved genstande eller fænomener derude i virkeligheden. Begreber har ikke en uafhængig eksistens, dvs. de har ikke nogen på forhånd entydig mening, og det er derfor nødvendigt at fastlægge, hvad vi helt præcist mener med de forskellige begreber. Begreber er således blot nogle betegnelser, som vi mennesker hæfter på forskellige genstande og fænomener. Et åbenlyst problem i denne sammenhæng er, at hvis begreber ikke har nogen præcis mening i sig selv, så kan alle jo i princippet bare lægge det indhold i begrebet som de nu vil. Det er selvfølgelig sat på spidsen, for hvert fag har naturligvis sine traditioner og faglige forståelser, men der er alligevel grund til at komme med en lille advarsel: PAS PÅ, når I eksempelvis vil diskutere to forskningsrapporters resultater op imod hinanden ER det overhovedet, det samme, de undersøger, hvis vi ser ud over det teoretiske begreb og på, hvad de rent faktisk måler? Definitionen af et begreb og den efterfølgende måling er derfor uhyre vigtig at undersøge, når vi skal afgøre hvordan et resultat egentlig skal forstås, og hvordan vi i den forbindelse kan tillade os at tolke på statistik og data. Det er eksempelvis ikke fordi de ikke kan finde ud af at tælle og beregne, når OECD og Danmarks Statistik er uenige om, hvor mange arbejdsløse der var i Danmark i 2003. Det er blot definitionen på arbejdsløshed, der er forskellig. 18

Husk derfor også, at de statistikker og undersøgelser, som I anvender som dokumentation i Jeres projekter, nødvendigvis skal være udført på grundlag af den samme definition, som I selv bruger, før det giver mening. Ofte er de teoretiske begreber ikke direkte målbare, men derimod temmelig abstrakte, og målingen af disse teoretiske begreber foregår derfor ofte via udvikling af indikatorer. En indikator er noget mere konkret, der er udviklet eller allerede eksisterer, og hvormed vi kan måle vores teoretiske begreb. Vi skelner her mellem direkte og indirekte indikatorer. Ved de direkte indikatorer er begrebet ofte ret konkret i sig selv, men kræver alligevel en præcisering. Det er ofte sociale baggrundsvariable, som eksempelvis køn, civilstand, indkomst mv., der for mange af begrebernes vedkommende langt hen ad vejen giver sig selv, men som alligevel kan måles på flere forskellige måder. Eksempelvis kan indkomst opgøres i årlig indkomst, månedlig indkomst, brutto eller netto, individuel indkomst eller husstandens indkomst osv. Til måling af de mere abstrakte teoretiske begreber, som eksempelvis social kapital, demokratisk effektivitet, tilfredshed med job eller selvtillid, anvendes de indirekte indikatorer, der kræver et noget mere grundigt forarbejde. Det er ikke afgjort i sig selv, om en indikator er direkte eller indirekte, det afhænger af, hvordan vi bruger dem: Bryman (2004) bruger et eksempel med månedlig indkomst, der kan anvendes som en direkte indikator for personlig indkomst, men en indirekte indikator for social klasse. Et andet eksempel kunne være, om man er gift eller single som direkte indikator for begrebet civilstand, mens det kan være en indirekte indikator for socialt netværk, der videre kan være en dimension af begrebet social kapital. Den proces, hvor vi bevæger os fra det abstrakte begreb til det punkt, hvor vi nu f.eks. kan udvikle spørgsmål i et spørgeskema for at fange begrebet, kalder vi at klatre ned ad abstraktionsstigen. Ved de abstrakte teoretiske begreber er det imidlertid sjældent nok med en enkelt indikator for at sikre målingens va- 19

liditet. Bruger vi kun en enkelt indikator er risikoen for at generalisere ud over, hvad der er acceptabelt og fejlagtigt klassificere mange individer, overhængende. Desuden opfanger en enkelt indikator måske kun en del af det underliggende teoretiske begreb eller det er for generelt. Hvor mange indikatorer skal vi så bruge? Desværre er der ikke noget simpelt svar på dette spørgsmål. En lang række overvejelser er vigtige at gøre sig, før man lægger sig fast på hvilke og hvor mange indikatorer: 1. Jo større faglig enighed om, hvordan det pågældende begreb måles empirisk, jo lettere er det naturligvis at håndtere. Jo større uenighed, jo flere indikatorer er alt andet lige nødvendige for at sikre sig en pålidelig måling. Hvis der ikke er en almindelig enighed i litteraturen om, hvordan det pågældende begreb skal måles, kan det således være nyttigt at udvikle indikatorer for en række af definitionerne for på den måde at se, hvad det giver af forskel på resultatet og på fortolkningerne 2. Hvis begrebet er multidimensionelt er det vigtigt at gøre op med sig selv, om alle dimensionerne er vigtige for projektet altså set i forhold til projektets problem. Hvis projektet eksempelvis tager afsæt i et problem, hvorved det er hensigten at undersøge, hvorvidt uligheden i Danmark er øget eller mindsket gennem de seneste 10 år, så vil et relevant skridt være at definere, hvilke(n) dimension(er) af begrebet ulighed, som analyserne skal koncentrere sig om. Hvis begrebet er multidimensionelt bør I således overveje, om I virkelig er interesseret i alle begrebets dimensioner. 3. I projektarbejdet, herunder både problemformulering og analyse, ingår ofte mange teoretiske begreber. Her er det vigtigt at rangordne begreberne de er ikke alle lige essentielle for projektarbejdets kvalitet og potentiale, og det vigtigste er naturligvis, at problemformuleringens kernebegreber er grundigt dækket. I skal sikre Jer, at de vigtigste be- 20

greber er grundigt målt. Den holdning eller den adfærd, som kvantitative forskere ofte vil forklare, samt de årsager og forklaringer, som teorien peger på, SKAL I måle meget præcist ved at bruge mange indikatorer. 4. Statistiske analyser af holdninger og meninger kræver ofte mange indikatorer. Typisk er holdninger og adfærd jo meget komplekse størrelser og måles simpelthen bedst ved mange indikatorer. 5. I projektarbejdet som helhed, og også i forbindelse med indikatorer og variable, er der også en lang række praktiske overvejelser, der kan påvirke beslutningerne. Som vi har været inde på tidligere, vil det ofte være sekundære data, I kommer til at anvende i projekterne, og så handler det jo også lidt om, hvilke indikatorer, der rent faktisk er til rådighed i datamaterialet. HVORDAN LÆSER OG FORTOLKER VI? DEN UNIVARIATE ANALYSE Tabeller kan indeholde en stor mængde information, men de kan også optage en masse plads og de kan overdynge læseren med detaljer, der måske ikke altid er nødvendige. Men når disse detaljer er brugbare, er tabeller ofte en god måde at præsentere centrale, kvantitative informationer. Tabeller er dog generelt mest anvendelige ved variable med relativt få kategorier. Hvis en variabel med mange kategorier, som eksempelvis alder, opstilles i en tabel, bliver den meget uoverskuelig og svær at læse. Tabeller med færre kategorier, som eksempelvis partivalg, holdningsvariable med likert-skala (fra helt enig til helt uenig) svarmuligheder eller køn, er lettere at læse og fortolke. Variable med mange kategorier præsenteres ofte bedre grafisk eller summerende (ex. aldersgennemsnit). Grafer er normalt bedst til at give et overblik over fordelingen, mens en tabel er mere anvendelig, når de enkelte og mere præcise tal er vigtige. 21

Tabel 2.1 Mange offentlige aktiviteter kunne udføres både bedre og billigere, hvis de blev overladt til private. Frekvens % Valid % Kumulativ % Helt enig 312 13,8 13,8 13,8 Nærmest enig 591 26,1 26,1 39,9 Hverken/eller 522 23,1 23,1 62,9 Nærmest uenig 491 21,7 21,7 84,6 Helt uenig 260 11,5 11,5 96,1 Ved ikke 88 3,9 3,9 100,0 Total 2264 100,0 100,0 Kilde: valgundersøgelsen 2005 En almindelig frekvenstabel med én variabel som ovenstående eksempel - indeholder følgende informationer: Den første kolonne indeholder værdierne eller kategorierne for variablen Frekvenskolonnen angiver antallet af personer eller cases i hver kategori Procentkolonnen viser andelen (procentdelen) af hele stikprøven i hver kategori. Disse procenter er baseret på den totale stikprøvestørrelse, inklusive dem, der ikke har svaret på spørgsmålet og evt. er defineret som missing i tabellen. Kolonnen med valid procent viser derimod andelen/procenten for dem, der rent faktisk har givet et validt svar på spørgsmålet, og det er derfor denne procent der normalt anvendes. I ovenstående eksempel gør det imidlertid ingen forskel, idet der ikke er nogen forskel på % og valid %, men hvis vi havde defineret dem, der har svaret ved ikke som missing (hvilket er relativt normalt), ville disse personers svar indgå i beregnin- 22

gen af %, men ikke valid %. Et eksempel herpå kan ses i nedenstående tabel 4. Den kumulative procentkolonne viser den løbende sammenlagte procent (% mindre end eller lig med hver værdi). I eksemplet ovenfor ser vi således, at 13,8 procent er helt enig i, at Mange offentlige aktiviteter kunne udføres både bedre og billigere, hvis de blev overladt til private. Endvidere er 26,1 % enige i udsagnet, og den kumulative % viser os, at hermed er 39,9 % i en eller anden grad enig i udsagnet. Denne kumulative procent giver dermed ikke anden information, end vi selv med en lommeregner ganske simpelt kunne finde frem til. Totalrækken angiver det totale antal respondenter, der har givet et brugbart (validt) svar på det pågældende spørgsmål. Dette er som nævnt også basis for beregningen af den valide procent. Hvis vi havde haft et antal missing ville disse havde været listet i en række nedenfor, og endnu en række total nederst i tabellen ville vise den totale stikprøve, inklusive disse såkaldte missing cases. Nedenfor i tabel 4 er tabel 3 gengivet med ved ikke svarene defineret som missing. Tabel 2.2 Mange offentlige aktiviteter kunne udføres både bedre og billigere, hvis de blev overladt til private Frekvens % Valid % Kumulativ % Helt enig 312 13,8 14,3 14,3 Nærmest enig 591 26,1 27,2 41,5 Hverken/eller 522 23,1 24,0 65,5 Nærmest uenig 491 21,7 22,6 88,1 Helt uenig 260 11,5 11,9 100,0 Total 2176 100,0 100,0 Missing (ved ikke) 88 3,9 Total 2264 100,0 Kilde: valgundersøgelsen 2005 23

Når vi selv skal opstille tabeller er der nogle informationer, der SKAL med og nogle informationer, der ikke nødvendigvis skal med. Det er vigtigt, at tabellen er præcis, at tabellen ikke er overfyldt med information og at tabellen er informativ. Hvilken information, der skal indgå i den specifikke tabel, vil derfor nødvendigvis afhænge af de formål tabellen skal have, og i hvilken sammenhæng tabellen skal anvendes. Visse informationer vil der dog som oftest stilles krav om indgår. Det er for det første vigtigt, at tabellen forsynes med en titel og med et tabelnummer for at det er muligt at se, hvad tabellen viser, og for at det er muligt at henvise til tabellen i teksten. Derudover er det et krav, at procentueringsbasis er opgjort, altså det totale n (antal respondenter), som er nævneren ved procentberegningerne. Hvis der står 80 % lyder det voldsomt, men hvis de 80 % er beregnet ud fra 17 personer, giver det ikke så meget mening alligevel. De manglende værdier (missing cases) skal ligeledes fremgå tydeligt, hvis man eksempelvis har valgt at sortere dem fra, der har svaret ved ikke eller som har nægtet at besvare spørgsmålet. Fremgangsmåden er her som ved tabel 4. Det sidste deciderede krav til tabeller er det, vi kalder for selvinterpretering, hvilket betyder, at I skal huske selv at fortolke tabellen i lyset af det, I bruger den til. Husk også, at en tabel aldrig må stå alene, men altid skal være omtalt i teksten. Den skal være så informativ, at den i princippet kunne stå alene, men det må den aldrig gøre den skal omtales i teksten. David devaus har opstillet følgende retningslinjer for, hvilke informationer, der som tommelfingerregel bør og ikke bør medtages i en simpel frekvenstabel (devaus 2002:199) 24

Tabel 2.3: Basiselementerne i en frekvenstabel Inkluder Inkluder ikke * Tabel nummer og titel * Decimaler: runde procenter til hele tal * Labels for hver af variablens kategorier * Antallet af cases i hver kategori * Kolonne overskrifter der fortæller, hvad * Kumulative procenter tallene i kolonnen viser * Valide procenter * Procenter * Det totale antal af valide cases * Stikprøvestørrelsen (kan beregnes ud fra det totale antal valide cases plus missing cases) * Antallet af missing cases * Datakilden * Noter (eksempelvis den præcise spørgsmålsformulering) Kilde: devaus 2002:199 INDEKSERING OG TIDSRÆKKER Det vil i samfundsvidenskabelige projekter ofte være relevant at beskrive en udvikling eksempelvis udviklingen i antallet af ledige eller samfundets prisudvikling (inflation). En stor del af det samfundsvidenskabelige arbejde omhandler at forstå og forklare, hvorfor en given udvikling finder sted og også på grundlag af sådanne forklaringer det vil sige et indblik i forskellige komponenter, der forårsager en given udvikling at kunne frembringe visse forudsigelser. Det er imidlertid en oplagt forudsætning, at man er i stand til så korrekt som muligt at beskrive en udvikling. Uden ordentlige beskrivelser kan man naturligvis ikke nå frem til ordentlige forklaringer. To simple metoder, hvorpå det er muligt er beskrive en udvikling og danne grundlag for nærmere analyse, er ved at anvende indeksering og tidsrækker. Udgangspunktet for en god beskrivelse er, at man har adgang til data, der måler den eller de relevante variabel/variable til forskellige tidspunkter, og at målingerne er foretaget på samme grundlag til hvert tidspunkt, sådan at man kan antage, at dataene er sammenlignelige. Som vi tidligere har været inde på betyder det primært, at målingerne til hvert tidspunkt skal være foretaget på 25

grundlag af samme definition af variablen og med samme metode for at sikre fuld sammenlignelighed. Man skal herunder være opmærksom på, at statistikproducenter kan skifte opgørelsesmetoder og definitioner. Tilsvarende gælder, at produktionen af statistik (f.eks. fra Danmarks Statistik) også afhænger af, hvor der er samfundsmæssigt fokus, og f.eks. hvilke tekniske muligheder, der på et givet tidspunkt anses for mest hensigtsmæssige til at foretage opgørelser. Derfor kan en del data kun findes for en afgrænset årrække. I nedenstående tabel 2.4 gengives et eksempel på data, der kun findes for en afgrænset periode, fordi serien er afsluttet. Her gælder det en oversigt over udledninger af kvælstof og fosfor i Danmark til havet for årene 1989 til 1995. I forbindelse med de samfundsmæssige diskussioner om især landbrugets udledning af næringsstoffer har disse opgørelser haft stor betydning, og det har i særlig grad været relevant at se på udviklingen, herunder for at afgøre, om de politiske indgreb (diverse vandmiljøplaner) havde effekt. I det følgende antages, at alle data i tabellen er fuldt sammenlignelige. I tabellen er der anført to tidsrækker, nemlig en tidsrække for kvælstofudledning og en tidsrække for fosforudledning. En tidsrække angiver således størrelsen af en given variabel til forskellig tid. Tabel 2.4: Udledning af kvælstof og fosfor, tons, 1989-1995 tons År Kvælstof Fosfor 1989 78600 6830 1990 112000 6670 1991 92000 4830 1992 104500 4010 1993 107900 3620 1994 128400 4490 1995 92850 3320 Kilde: Statistisk tiårsoversigt 1997:9 26

Allerede ved præsentationen af tidsrækkerne i kontingenstabellen begynder man at få et vist overblik over udviklingen. Dvæler man lidt ved kolonnen for fosforudledning fremgår det således, at tendensen er faldende. Et bedre overblik herunder sammenligning med andre variable i ovenstående eksempel sammenligning mellem kvælstof- og fosforudledning kan man opnå gennem en grafisk afbildning. I nedenstående figur er der anvendt regnearksprogrammel til et fremstille et polygon på grundlag af tabellen. Figur 2.1: Udledning af kvælstof og fosfor, tons, 1989-1995 Udledning af kvælstof og fosfor tons 140000 120000 100000 80000 60000 40000 20000 0 1989 1990 1991 1992 1993 1994 1995 år kvælstof fosfor I diagrammet ser tendensen for fosforudledning noget uklar ud, og tendensen for udledningen af kvælstof synes ikke særlig entydig. Det fremgår imidlertid også, at niveauerne for henholdsvis kvælstof- og fosforudledning er meget forskellige. Kvælstofudledningen befinder sig således på et niveau omkring 100.000 tons, mens fosforudledningen befinder sig på et niveau nede omkring 5.000 tons. Derfor får vi også ovenfor en grafisk afbildning, hvor kurven for fosforudledning ligger meget tæt på 0, fordi der i samme afbildning skal være plads til kvælstofudledningen på det forholdsvis meget høje niveau. Vores muligheder for at overskue nuancerne er derfor her meget begrænsede. 27

For at få et bedre overblik over selve udviklingstendenserne uafhængigt af niveauerne så er det hensigtsmæssigt at anvende indeksering. Indeksering vil sige, at man oversætter udviklingen til en relativ udvikling. Som afsæt for beregningerne vælger man et basisår (typisk det år, hvorfra man har de første data), og så beregner man variablens størrelse i de øvrige år (eller anden valgt tidsenhed) som en procentdel af variablens størrelse i basisåret. På den måde kan man isolere den relative udvikling uafhængigt af niveau. I nedenstående tabel 2.5 er indekset for udvikling i kvælstofudledning beregnet. Over 3. og 4. kolonne står der Indeks 1989=100, hvilket betyder, at 1989 her er valgt som basisår. Indeksværdien for basisåret er pr. definition lig med 100, da indeks beregnes efter følgende formel: Indeksværdi = X t X 100 basis Hvor Xt er variablens værdi i år t, og Xbasis er variablens værdi i basisåret. I den sidste kolonne i tabel 2.5 er angivet, hvorledes indeksværdien for hvert af årene er beregnet på grundlag af den generelle formel. Tabel 2.5: Udledning af kvælstof, tons samt indeksværdier, 1989-1995 tons Indeks 1989=100 År Kvælstof Værdi Beregning 1989 78600 100 (78600*100)/78600 1990 112000 142 (112000*100)/78600 1991 92000 117 (92000*100)/78600 1992 104500 133 (104500*100)/78600 1993 107900 137 (107900*100)/78600 1994 128400 163 (128400*100)/78600 1995 92850 118 92850*100)/78600 28

Når indeksværdien er beregnet for alle årene for såvel kvælstof- som fosforudledning, så når man frem til en ny kontingenstabel, hvor udviklingen er angivet som indeks denne tabel er gengivet nedenfor. Tabel 2.6: Udledning af kvælstof og fosfor, indeksværdier, 1989-1995 Indeks 1989=100 År Kvælstof Fosfor 1989 100 100 1990 142 98 1991 117 71 1992 133 59 1993 137 53 1994 163 66 1995 118 49 I kontingenstabellen 2.6 med indeksering har vi nu mulighed for direkte at sammenligne den relative udvikling i henholdsvis kvælstof- og fosforudledning. Samtidigt har man med indekstabellen et grundlag for en grafisk afbildning, hvor der bliver mulighed for illustrativt at fremstille den relative udvikling i de to variable på et fælles og overskueligt grundlag som vist nedenfor i figur 2.2. 29

Figur 2.2: Udledning af kvælstof og fosfor, indeksværdier, 1989-1995 Udledning af kvælstof og fosfor indeks 1980=100 indeks 1989=100 200 150 100 50 0 1989 1990 1991 1992 1993 1994 1995 år kvælstof fosfor CENTRALTENDENSEN Overblik og grundlag for videre analyse kræver imidlertid flere informationer om vores data. Når vi udelukkende har de rå data udgør de en mængde ofte uoverskuelige tal, som vi skal forsøge at få struktureret, sådan at vi bliver i stand til at behandle dem, undersøge hvordan de fungerer sammen (d.v.s. karakterisere tallene som en mængde) og formidle tallenes tale til andre. Hertil anvender vi ofte i første omgang centraltendensen. Centraltendensen siger noget om den typiske værdi. Der findes forskellige mål for centraltendens i en fordeling, og hvilket mål, der anvendes, afhænger bl.a. af variablens skalaniveau. Gennemsnittet/middelværdien er det mest benyttede mål for centraltendens, (i mange situationer også til ordinalskalerede variabler, selvom dette strider mod de formelle, statistiske regler). Gennemsnittet beregnes som summen af 30

samtlige værdier divideret med antal enheder. Matematisk udtrykkes det således: X i µ = N hvor µ [my] er symbolet for populationens middelværdi, er et sumtegn (det betyder, at vi lægger de efterfølgende tal sammen), X i angiver vores variabels værdi ved observation nr. i, mens N er antallet af elementer i vores population. X i betyder altså, at vi lægger alle vores populations observerede variabelværdier sammen. Ofte har vi dog ikke observationer for hele populationen, men kun for en stikprøve. Middelværdien for stikprøven beregnes på samme måde, altså ved, at alle observerede værdier af variablen lægges sammen, hvorefter der divideres med antal elementer i stikprøven. Matematisk udtrykkes det således: Y = n Y i Ved middelværdier for stikprøven får de ekstreme værdier (outliers) en noget større betydning, end hvis vi har data for hele populationen. Den præcise betydning afhænger naturligvis af stikprøvens størrelse, men netop spørgsmålet om outliers betydning gør det relevant at se nærmere på dataenes spredning, som vil blive behandlet nærmere i nedenstående. En vigtig pointe i forbindelse med beregning af en variabels middelværdi (gennemsnit) uanset om vi har data for hele populationen eller kun for en stikprøve - er, at disse beregninger naturligvis kun giver mening ved de kvantitative variable (interval/ratio). 31

Et andet almindeligt mål for midte er medianen, der ofte anvendes, hvis vi har at gøre med ordinalskalerede variable, og derfor ikke kan beregne gennemsnittet/middelværdien. For at beregne medianen skal vi kunne rangere vores cases fra lav til høj på den pågældende variabel. Medianen er her den midterste værdi (ved ulige antal observationer den midterste og ved lige antal observationer - gennemsnittet mellem de to midterste). Typetallet/modus er den oftest forekommende værdi på en kategori. Typetallet er sjældent en særlig god måde at måle en variabels centrale tendens, da det i høj grad er afhængigt af den måde, hvorpå kategorierne er kombineret. Imidlertid er det det eneste mål, der kan anvendes for nominalskalerede variable. Nominal Ordinal Interval eller ratio Modus Median Gennemsnit Kilde: Udarbejdet af Henrik Lolle, 2006 VARIATION AFVIGELSE, VARIANS OG STANDARDAFVIGELSE Ofte vil vi gerne sige noget mere om vores data end, hvad der er det typiske. Vi vil gerne sige noget om variationen, altså om, hvor ens eller forskellige elementerne i en gruppe er. Her kan ovenstående mål for centrale tendenser være misvisende, idet vi eksempelvis kan opnå samme gennemsnit for vidt forskellige fordelinger. Eksempelvis kan gennemsnitsindkomsten i to lande være identiske samtidigt med, at der er en jævn indkomstfordeling i det ene land og en særdeles ulige fordeling i et andet. Derfor giver midten alene i sådanne tilfælde ikke et tilstrækkeligt og dækkende indtryk af det fænomen, vi ønsker 32