Behandling af kvantitative data 19.11.2012
I dag skal vi snakke om Kvantitativ metode i kort form Hvordan man kan kode og indtaste data Data på forskellig måleniveau Hvilke muligheder, der er for at analysere data Deskriptiv><induktiv analyse Univariat, bivariat og multuvariat analyse Forskellige centrale begreber
Kvantitativ metode Handler typisk om at observere og forklare folks holdninger og adfærd. Handler ikke om at forstå, hvorfor folk mener eller gør, som de gør. Vi er groft sagt ligeglade med at forstå deres overvejelser. Antagelse: Det er muligt at måle og afdække sammenhænge i folks adfærd og holdning kvantitativt. Afsæt i en mere positivistisk/naturvidenskabelig tradition.
Kvantitativ metode Data vil ofte være i form af observationer eller besvarelser af såkaldte lukkede spørgsmål, hvor respondenterne har kunnet vælge mellem flere prædefinerede svarmuligheder. Hvad ville du stemme, hvis der var Folketingsvalg i dag? På en skala fra 0 til 10....
Kvantitativ metode Spørgeskemaundersøgelser med lukkede svarmuligheder, registerdata ol. Oftest et større datamateriale end ved kvalitative undersøgelser. F.eks. En meningsmåling med 1.000 respondenter Hellevik: Et ekstensivt oplæg med mange enheder, men få oplysninger om hver Systematisk præsentation af stimuli og registrering af data
Kvantitativ metode I kvantitativ metode handler det om ved statistiske analyser at finde sammenhænge og mønstre i data kausalitet og generalisere resultaterne Det er styrken ved kvantitativ metode, at man kan det!
Hvornår er en spørgeskemaundersøgelse det rigtige redskab? Når man gerne vil indsamle mange besvarelser Når man gerne vil arbejde med kvantificerbare data Når man gerne vil kunne generalisere sin resultater fra undersøgelsen til en større population
Kodning af data Ved kodningen gennemgås materialet og hver enhed får en værdi på alle variablene. Hver værdi svarer til en tal i kodebogen. Giver lettere overblik og mulighed for at databehandling f.eks. i excell.
Kodning af data Kodning af enhederne i klassifikationsskema Angiver værdierne på alle variable Klassifikation, der er udtømmende og gensidigt udelukkende Hænger jo tæt sammen med udformningen af jeres spørgeskema og operationaliseringen af jeres variable
Kodning af data Når kodningen af data er afsluttet foreligger data i form af tal Hvordan vi kan analysere på tallene afhænger af, hvilken type information tallene dækker over Man taler om en variabels måleniveau Variable med forskellige måleniveau kan analyseres på forskellige måder
Nominal måleniveau Det simpleste måleniveau Kategorierne på variablen er gensidigt udelukkende, intet andet. Ikke muligt at rangordne eller sige noget om afstande mellem dem Eks.: Køn og nationalitet
Ordinal måleniveau Kategorierne på variablen er gensidigt udelukkende, og det er muligt at tale om højere eller lavere værdier på variablen Ikke muligt at fortolke afstande Eks.: Helt enig, overvejende enig, hverken enig eller uenig, overvejende uenig, helt uenig.
Interval niveau Kategorierne på variablen er gensidigt udelukkende, det er muligt at tale om højere eller lavere værdier på variablen og det er muligt at fortolke afstande Man kan f.eks. sige, at to enheder er tættere på hinanden Eks.: Historisk tid.
Forholdstal/ratio niveau Alt det foregående, og variablen har også et absolut nulpunkt. Man kan meningsfuld fortolke forholdet mellem to enheder. Eks.: Alder en person har dobbel så høj alder som en anden
Måleniveauer Variable med forskellige måleniveauer giver forskellige analysemuligheder Igen er det noget, man skal overveje allerede i formuleringen af sit spørgeskema Spørg på så højt et måleniveau som muligt, f.eks. alder.
Måleniveauer Hvad siger kodetallene noget om? Nominal Ordinal Interval Ratio/forhold Forskelle + + + + Rangordne + + + Afstande + + Forhold +
Måleniveauer Hvad kan man gøre i forbindelse med analysen Skille enheder med forskellige værdier fra hinanden Rangordne enhederne efter værdiernes størrelse Lægge værdier sammen og trække dem fra hinanden Nominal Ordinal Interval Ratio/for hold + + + + + + + + + Gange og dividere værdier +
Analyse Formålet med analysen er at trække den information ud af data, der skal til for at besvare ens problemstilling Afhængig af ens problemstilling, kan man lave forskellige typer analyser
Analyse Hvor bredt udtaler man sig: Deskriptiv >< induktiv analyse Hvor mange variable inddrager man i sin analyse?: Univariat Bivariat Multivariat analyse
Deskriptiv statistik Man siger kun noget om stikprøven Forenkle og sammenfatte det foreliggende talmateriale Skabe orden i og overblik over den datamatrise, man har kodet. Kvalitetssikre den indsamlede stikprøve, inden man evt. går videre til næste niveau i analysen
Induktiv statistik Generaliserende statisk På baggrund af de resultater, man har fundet i sin stikprøve, siger man noget om den population, man har taget stikprøven fra. Stiller som tidligere nævnt en række krav til kvaliteten af den stikprøve, man har indsamlet
Univariat analyse Siger noget om enhedernes fordeling på en enkelt variabel F.eks., hvor mange er hhv. enige og uenige i et udsagn Kan belyses ved hjælp af frekvensfordelinger, forskellige grafiske fremstillinger og statistiske mål for centraltendens og spredning
Univariat analyse Frekvensfordeling: Hvor mange gange forekommer de forskellige værdier for en variabel? Kan både opgøres i absolutte tal og i andele. Hvor mange er hhv. enige og uenige? Hvor stor en andel er hhv. enig og uenig? Afbilledes typisk ved hjælp af stolpediagrammer
Univariat analyse Statistiske mål for centraltendensen i en frekvensværdi den typiske værdi Afhænger af måleniveau Modus: Den oftest forekommende værdi Median: Den midterste værdi, dvs. den værdi, der ligger i midten, når enhederne er rangordnet Gennemsnit: Den gennemsnitlige værdi for enhederne
Univariat analyse Nominal Ordinal Interval/forholdst al Modus + + + Median + + Gennemsnit +
Bivariat analyse Kigger på sammenhængene mellem to variable F.eks. en bivariat frekvenstabel/krydstabel, der viser om bestemte værdier på vore variable optræder sammen. Giver mulighed for at undersøge om der er sammenhæng mellem to variable
Bivariat analyse Sammenhænge: Vi undersøger, om fordelingen af enheder på en variabel er betinget af enhedernes værdier på en anden variabel Den første variabel er den afhængige Den anden variabel er den uafhængige Vi bruger den uafhængige variabel til at dele enhederne ind i grupper, og så undersøger vi, om fordelingen på den afhængige varierer på tværs af grupperne
Bivariat analyse Når man laver sine krydstabeller definerer man også sin afhængige og uafhængige variabel Når man laver krydstabeller procentuerer man, så det summerer til 100 pct på den uafhængige variabel Overvejelser omkring, hvad der er den uafhængige og afhængige variabel relaterer sig til overvejelser om tidsrækkefølge osv.
Bivariat analyse Statistiske mål: der beskriver forskellige slags sammenhænge mellem to variable Igen afhængig af, hvilket måleniveau ens variable er på. Mange muligheder for statistiske analyser Fi, Thau, gamma osv. I skal IKKE beregne statistiske sammenhængsmål!
Multivariat analyse Beskriver sammenhænge mellem tre variable eller flere. Giver f.eks. Mulighed for at kontrollere for påvirkning fra tredjevariabel Dekomponere en bivariat sammenhæng og undersøge, om der er tale om en direkte, medieret eller spuriøs sammenhæng.
Multivariat analyse Med mindre I holder jer til multivariate frekvensfordelinger med tre variable, bevæger I jer udover, hvad I skal kunne i dette fag. Det bliver hurtigt meget uoverskeligt.
Mere om induktiv statistik Nogle centrale begreber, som det er nyttigt at forstå, men som I ikke forventes at bruge. Induktiv statistik trækker på sandsynlighedsregning igen det stiller en række krav til stikprøven og dataindsamlingen
Dataindsamling Skal tilrettelægges, så vi får en så repræsentativ stikprøve som muligt Undgå skævheder = generaliseringsproblemer Generaliseringsproblemer mindsker undersøgelsens validitet Tilfældighed i udvælgelse af enhederne i stikprøven er afgørende
Sandsynlighedsudvælgelse Idealet er sandsynlighedsudvælgelse: Alle enheder i populationen har en kendt sandsynlighed for at blive udtrukket Fordel: Resultaterne kan generaliseres med en kendt statistisk sikkerhed Dette sikres gennem tilfældighed i udtrækningen af de enheder, der kommer med i stikprøven
Sandsynlighedsudvælgelse Simpel tilfældig udvælgelse: Alle enheder har lige stor sandsynlighed for at indgå i stikprøven Stratificeret udvælgelse og klyngeudvælgelse: enhederne kan have forskellige, men kendte sandsynligheder for at indgå i stikprøven.
Sandsynlighedsudvælgelse Foregår i praksis ved hjælp af en liste over populationen, f.eks. Et CPR-udtræk fra en kommune, en liste over medarbejdere fra en virksomhed. Herfra udvælges enhederne, der skal indgå i stikprøven: Det sker tilfældigt Evt. indenfor klynger eller strata.
Sandsynlighedsudvælgelse Kræver mange ressourcer Er ofte et uopnåeligt ideal mere end praktisk virkelighed Meget andet kan gå galt Så bare fordi man har sendt spørgeskemaer ud til et tilfældigt udtræk, er man ikke sikker på kvaliteten Systematisk bortfald kan f.eks. fjerne tilfældighedselementet
Sandsynlighedsudvælgelse Er i nogle situationer ikke en mulighed: Mangel på ressourcer Hvis vi ikke kan skaffe en liste over populationen og lave udtræk fra Hvis vi ikke kan afgrænse populationen præcist nok Eks. Survey blandt voldsramte kvinder og homoseksuelle mænd
Ikke-sandsynlighedsudvælgelse Indsamling, hvor vi ikke kender den enkelte enheds sandsynlighed for at indgå i stikprøven Derfor kan vi ikke med kendt statistisk sikkerhed generalisere resultaterne Det behøver dog ikke være ødelæggende for generaliserbarheden af resultaterne (vi ved det bare ikke) Tilfældigheden i udvælgelsen er afgørende
Ikke-tilfældig udvælgelse Skønsmæssig udvælgelse: I udvælger de enheder, der skal indgå i stikprøven Selvselektion: Enhederne vælger selv, om de vil indgå i stikprøven Stor risiko for systematiske skævheder i stikprøven Over- og underrepræsentation af grupper
Tilfældig ikkesandsynlighedsudvælgelse Udvælgelse på slump: Både I og enhederne er med til at afgøre, om de indgår i stikprøven (Voxpop) Kvoteudvælgelse: Udvælgelse på slump med opfyldelse af kvoter Tilfældighedselementet bidrager til at mindske skævheder Kræver dog en del omtanke, og man kan aldrig være sikker på, om der er skævheder
Dataindsamling Skal tilrettelægges, så vi får en så repræsentativ stikprøve som muligt Definer målgruppen for undersøgelsen Hvordan får jeg indsamlet en repræsentativ stikprøve af besvarelser fra denne målgruppe? Både validiteten og reliabiliteten
Inferens Når man går fra stikprøven til populationen Man undersøger, hvor sikker man kan være på, at estimatet (værdien i stikprøven) er lig med populationsparametren (Værdien i populationen, som man i virkeligheden er interesseret i) Man giver et konkret tal for sandsynligheden herfor eller et interval, hvor indenfor parametren med en vis sandsynlighed befinder sig
Inferens Ikke noget I forventes at arbejde med i opgaven I skal ikke teste for signifikans eller opstille konfidensintervaller Nyttigt begreb at forstå, når I generelt præsenteres for undersøgelser og resultater af undersøgelser
Signifikans En signifikanstest siger noget om sandsynligheden for at en sammenhæng man har fundet i sin stikprøve også findes i populationen. Man taler om forskellige signifikansniveauer typisk 5 % Med et signifikansniveau på 5 % skal sandsynligheden for, at den sammenhæng, vi har fundet i stikprøven også findes i populationen, være større end 95 % Ellers tør vi ikke tro på, at sammenhængen ikke bare er en tilfældighed i vores stikprøve
Signifikans Signifikanstesten er en statistisk test, der baserer sig på sandsynlighedsregning Hvis signifikanstesten viser, at en sammenhæng er signifikant på f.eks. et 5% signifikansniveau Så vil det sige, at der kun er en 5 % sandsynlighed for at få det resultat, vi har fundet i stikprøven, hvis sammenhængen ikke også findes i populationen.
Signifikans Signifikanstesten fortæller os altså, hvor sikre, vi kan være på resultaterne af vores undersøgelse Det er meget sjældent, at de resultater fra undersøgelser, der bliver gengivet i medierne er blevet signifikanstestet. Så reelt ved man ikke, hvor sikker man kan være på, om den sammenhæng man har fundet, har noget på sig
Konfidensinterval Er et bånd rundt om det estimat, man har fundet i stikprøven. Indenfor dette bånd befinder værdien for populationen den sande værdi sig med en vis sandsynlighed Hvis man har et signifikansniveau på 5% vil værdien for populationen med 95 % sikkerhed befinde sig i kofidensintervallet
Konfidensinterval Tænkt eksempel: Hvis man I en stikprøve f.eks. har fundet, at 50,2% af respondenterne angiver at ville stemme på oppositionen, hvis der var valg i morgen, så ligger den sande stemmeandel på oppositionen med 95 % sikkerhed mellem 48,7% og 51,7%
Konfidensinterval Hænger sammen med den statistiske usikkerhed Så jo større en stikprøve, jo smallere bliver båndet konfidensintervallet Jo større krav man stiller til sandsynligheden for at indfange den sande værdi i intervallet jo bredere bliver båndet
Jeres analyser I skal ikke lave avancerede statistiske analyser Det kan være fint at holde sig til deskriptive univariate analyser afhænger af jeres problemstilling Sørg i stedet for at opbygge et solidt argument. Forhold jer til kvaliteten af jeres stikprøve, undersøgelsesdesignet osv. Vær opmærksom på begrænsningerne
Opsamling Inden databehandlingen og analysen kast et kritisk blik på stikprøven. Er kvaliteten i orden? Eksplorativ eller hypotesestyret analyse I kan estimere parametre andele og gennemsnit Lede efter årsagssammenhænge I skal ikke lave statistiske analyser nøjes med frekvenstabeller og krydstabeller Sørg i stedet for at opbygge solide argumenter tjek for tredjevariabel osv. Signifikanstest og konfidensintervaller er centrale begreber, når man infererer