Behandling af kvantitativ data 28.10.2013
I dag skal vi snakke om Kvantitativ metode i kort form Hvordan man kvalitetssikrer stikprøven Hvordan man kan kode og indtaste data Data på forskellig måleniveau Hvilke muligheder, der er for at analysere data Deskriptiv><induktiv analyse Univariat, bivariat og multuvariat analyse Forskellige centrale begreber
Kvantitativ metode Handler typisk om at observere og forklare folks holdninger og adfærd. Handler ikke om at forstå, hvorfor folk mener eller gør, som de gør. Vi er groft sagt ligeglade med at forstå deres overvejelser. Antagelse: Det er muligt at måle og afdække sammenhænge i folks adfærd og holdning kvantitativt. Afsæt i en mere positivistisk/naturvidenskabelig tradition.
Kvantitativ metode Spørgeskemaundersøgelser med lukkede svarmuligheder, registerdata ol. Oftest et større datamateriale end ved kvalitative undersøgelser. F.eks. En meningsmåling med 1.000 respondenter Hellevik: Et ekstensivt oplæg med mange enheder, men få oplysninger om hver Systematisk præsentation af stimuli og registrering af data
Kvantitativ metode I kvantitativ metode handler det om ved statistiske analyser at finde sammenhænge og mønstre i data kausalitet og generalisere resultaterne Det er styrken ved kvantitativ metode, at man kan det!
Hvornår er en spørgeskemaundersøgelse det rigtige redskab? Når man gerne vil indsamle mange besvarelser Når man gerne vil arbejde med kvantificerbare data Når man gerne vil kunne generalisere sin resultater fra undersøgelsen til en større population
Kvalitetssikring af stikprøven Inden I starter databehandlingen og analyserne: Kast et kritisk blik på stikprøven. Er den af en tilfredsstillende kvalitet? Gør rede for jeres observationer og overvejelser
Er der besvarelser nok i stikprøven? Har I nået det samlede, ønskede antal besvarelser? Har I nok besvarelser I hver af de undergrupper, som I gerne vil sige noget om? Husk: Jo større behov for at nedbryde resultaterne jo større stikprøve skal I bruge
Hvis stikprøven er for lille Usikkerheden stiger I bliver mindre sikre på resultaterne I kan måske ikke udtale jer, om enkelte undergrupper, som I ellers gerne ville sige noget om Man kan generelt blive bekymret for, om der er systematiske skævheder
Svarprocenten Hvor stor en andel af dem, man har inviteret til at deltage i undersøgelsen, har besvaret den? En lav svarprocent skaber bekymring om systematisk bortfald En generel kvalitetsindikator Bør være mindst 50%
Er stikprøven repræsentativ? Er stikprøven et mini-univers af den population, I gerne vil sige noget om? Hvad ved I om populationen? Har I evt. noget data på populationen, som I kan holde stikprøven op imod? Er der skævheder i stikprøven? Hvem har fravalgt undersøgelsen? Er der systematik i det?
Er stikprøven repræsentativ? Og hvis man ikke kender populationsfordelingerne? Svarprocenten er en god generel kvalitetsindikator Tænk undersøgelses-designet igennem: har jeg virkeligt tænkt på alt? Ser stikprøven fornuftig ud?
Og hvis stikprøven er for lille Vil jo ofte skyldes en lav svarprocent Har I mulighed for at lave en rykkerunde? Det er ikke en løsning bare at sende undersøgelsen ud til flere Alternativt: tag forbehold i fortolkningerne
Og hvis stikprøven ikke er repræsentativ Nogle grupper er overrepræsenterede og andre underrepræsenterede Hvor slemt er det? Systematisk frafald Hvis svarprocenten er lav rykkerrunde Ellers må der være noget galt med det undersøgelsesdesign, man bruger Overvej at skifte taktik Ellers: tag forbehold i konklusionerne
Kodning af data Ved kodningen gennemgås materialet og hver enhed får en værdi på alle variablene. Hver værdi svarer til en tal i kodebogen. Giver lettere overblik og mulighed for at databehandling f.eks. i excell.
Kodning af data Kodning af enhederne i klassifikationsskema Angiver værdierne på alle variable Klassifikation, der er udtømmende og gensidigt udelukkende Hænger jo tæt sammen med udformningen af jeres spørgeskema og operationaliseringen af jeres variable
Kodning af data Når kodningen af data er afsluttet foreligger data i form af tal Hvordan vi kan analysere på tallene afhænger af, hvilken type information tallene dækker over Man taler om en variabels måleniveau Variable med forskellige måleniveau kan analyseres på forskellige måder
Nominal måleniveau Det simpleste måleniveau Kategorierne på variablen er gensidigt udelukkende, intet andet. Ikke muligt at rangordne eller sige noget om afstande mellem dem Eks.: Køn og nationalitet
Ordinal måleniveau Kategorierne på variablen er gensidigt udelukkende, og det er muligt at tale om højere eller lavere værdier på variablen Ikke muligt at fortolke afstande Eks.: Helt enig, overvejende enig, hverken enig eller uenig, overvejende uenig, helt uenig.
Interval niveau Kategorierne på variablen er gensidigt udelukkende, det er muligt at tale om højere eller lavere værdier på variablen og det er muligt at fortolke afstande Man kan f.eks. sige, at to enheder er tættere på hinanden Eks.: Historisk tid.
Forholdstal/ratio niveau Alt det foregående, og variablen har også et absolut nulpunkt. Man kan meningsfuld fortolke forholdet mellem to enheder. Eks.: Alder en person har dobbel så høj alder som en anden
Måleniveauer Variable med forskellige måleniveauer giver forskellige analysemuligheder Igen er det noget, man skal overveje allerede i formuleringen af sit spørgeskema Spørg på så højt et måleniveau som muligt, f.eks. alder.
Måleniveauer Hvad siger kodetallene noget om? Nominal Ordinal Interval Ratio/forhold Forskelle + + + + Rangordne + + + Afstande + + Forhold +
Måleniveauer Hvad kan man gøre i forbindelse med analysen Skille enheder med forskellige værdier fra hinanden Rangordne enhederne efter værdiernes størrelse Lægge værdier sammen og trække dem fra hinanden Nominal Ordinal Interval Ratio/for hold + + + + + + + + + Gange og dividere værdier +
Analyse Formålet med analysen er at trække den information ud af data, der skal til for at besvare ens problemstilling Afhængig af ens problemstilling, kan man lave forskellige typer analyser
Analyse Hvor bredt udtaler man sig: Deskriptiv >< induktiv analyse Hvor mange variable inddrager man i sin analyse?: Univariat Bivariat Multivariat analyse
Deskriptiv statistik Man siger kun noget om stikprøven Forenkle og sammenfatte det foreliggende talmateriale Skabe orden i og overblik over den datamatrise, man har kodet. Kvalitetssikre den indsamlede stikprøve, inden man evt. går videre til næste niveau i analysen
Induktiv statistik Generaliserende statisk På baggrund af de resultater, man har fundet i sin stikprøve, siger man noget om den population, man har taget stikprøven fra. Stiller som tidligere nævnt en række krav til kvaliteten af den stikprøve, man har indsamlet
Univariat analyse Siger noget om enhedernes fordeling på en enkelt variabel F.eks., hvor mange er hhv. enige og uenige i et udsagn Kan belyses ved hjælp af frekvensfordelinger, forskellige grafiske fremstillinger og statistiske mål for centraltendens og spredning
Univariat analyse Frekvensfordeling: Hvor mange gange forekommer de forskellige værdier for en variabel? Kan både opgøres i absolutte tal og i andele. Hvor mange er hhv. enige og uenige? Hvor stor en andel er hhv. enig og uenig? Afbilledes typisk ved hjælp af stolpediagrammer
Univariat analyse Statistiske mål for centraltendensen i en frekvensværdi den typiske værdi Afhænger af måleniveau Modus: Den oftest forekommende værdi Median: Den midterste værdi, dvs. den værdi, der ligger i midten, når enhederne er rangordnet Gennemsnit: Den gennemsnitlige værdi for enhederne
Univariat analyse Nominal Ordinal Interval/forholdst al Modus + + + Median + + Gennemsnit +
Bivariat analyse Kigger på sammenhængene mellem to variable F.eks. en bivariat frekvenstabel/krydstabel, der viser om bestemte værdier på vore variable optræder sammen. Giver mulighed for at undersøge om der er sammenhæng mellem to variable
Bivariat analyse Sammenhænge: Vi undersøger, om fordelingen af enheder på en variabel er betinget af enhedernes værdier på en anden variabel Den første variabel er den afhængige Den anden variabel er den uafhængige Vi bruger den uafhængige variabel til at dele enhederne ind i grupper, og så undersøger vi, om fordelingen på den afhængige varierer på tværs af grupperne
Bivariat analyse Når man laver sine krydstabeller definerer man også sin afhængige og uafhængige variabel Når man laver krydstabeller procentuerer man, så det summerer til 100 pct på den uafhængige variabel Overvejelser omkring, hvad der er den uafhængige og afhængige variabel relaterer sig til overvejelser om tidsrækkefølge osv.
Bivariat analyse Statistiske mål: der beskriver forskellige slags sammenhænge mellem to variable Igen afhængig af, hvilket måleniveau ens variable er på. Mange muligheder for statistiske analyser Fi, Thau, gamma osv. I skal IKKE beregne statistiske sammenhængsmål!
Multivariat analyse Beskriver sammenhænge mellem tre variable eller flere. Giver f.eks. Mulighed for at kontrollere for påvirkning fra tredjevariabel Dekomponere en bivariat sammenhæng og undersøge, om der er tale om en direkte, medieret eller spuriøs sammenhæng.
Multivariat analyse Med mindre I holder jer til multivariate frekvensfordelinger med tre variable, bevæger I jer udover, hvad I skal kunne i dette fag. Det bliver hurtigt meget uoverskeligt.
Mere om induktiv statistik Nogle centrale begreber, som det er nyttigt at forstå, men som I ikke forventes at bruge. Induktiv statistik trækker på sandsynlighedsregning Det er nyttigt at vide for at forstå logikken bag det.
Inferens Når man går fra stikprøven til populationen Man undersøger, hvor sikker man kan være på, at estimatet (værdien i stikprøven) er lig med populationsparametren (Værdien i populationen, som man i virkeligheden er interesseret i) Man giver et konkret tal for sandsynligheden herfor eller et interval, hvor indenfor parametren med en vis sandsynlighed befinder sig
Inferens Ikke noget I forventes at arbejde med i opgaven I skal ikke teste for signifikans eller opstille konfidensintervaller Nyttigt begreb at forstå, når I generelt præsenteres for undersøgelser og resultater af undersøgelser
Inferens Stiller visse kvalitetskrav til stikprøven Idealet er sandsynlighedsudvælgelse: Alle enheder i populationen har en kendt sandsynlighed for at blive udtrukket Fordel: Resultaterne kan generaliseres med en kendt statistisk sikkerhed Dette sikres gennem tilfældighed i udtrækningen af de enheder, der kommer med i stikprøven
Signifikans En signifikanstest siger noget om sandsynligheden for at en sammenhæng man har fundet i sin stikprøve også findes i populationen. Man taler om forskellige signifikansniveauer typisk 5 % Med et signifikansniveau på 5 % skal sandsynligheden for, at den sammenhæng, vi har fundet i stikprøven også findes i populationen, være større end 95 % Ellers tør vi ikke tro på, at sammenhængen ikke bare er en tilfældighed i vores stikprøve
Signifikans Signifikanstesten er en statistisk test, der baserer sig på sandsynlighedsregning Hvis signifikanstesten viser, at en sammenhæng er signifikant på f.eks. et 5% signifikansniveau Så vil det sige, at der kun er en 5 % sandsynlighed for at få det resultat, vi har fundet i stikprøven, hvis sammenhængen ikke også findes i populationen.
Signifikans Signifikanstesten fortæller os altså, hvor sikre, vi kan være på resultaterne af vores undersøgelse Det er meget sjældent, at de resultater fra undersøgelser, der bliver gengivet i medierne er blevet signifikanstestet. Så reelt ved man ikke, hvor sikker man kan være på, om den sammenhæng man har fundet, har noget på sig
Konfidensinterval Er et bånd rundt om det estimat, man har fundet i stikprøven. Indenfor dette bånd befinder værdien for populationen den sande værdi sig med en vis sandsynlighed Hvis man har et signifikansniveau på 5% vil værdien for populationen med 95 % sikkerhed befinde sig i kofidensintervallet
Konfidensinterval Tænkt eksempel: Hvis man I en stikprøve f.eks. har fundet, at 50,2% af respondenterne angiver at ville stemme på oppositionen, hvis der var valg i morgen, så ligger den sande stemmeandel på oppositionen med 95 % sikkerhed mellem 48,7% og 51,7%
Konfidensinterval Hænger sammen med den statistiske usikkerhed Så jo større en stikprøve, jo smallere bliver båndet konfidensintervallet Jo større krav man stiller til sandsynligheden for at indfange den sande værdi i intervallet jo bredere bliver båndet
Jeres analyser I skal ikke lave avancerede statistiske analyser Det kan være fint at holde sig til deskriptive univariate analyser afhænger af jeres problemstilling Sørg i stedet for at opbygge et solidt argument. Forhold jer til kvaliteten af jeres stikprøve, undersøgelsesdesignet osv. Vær opmærksom på begrænsningerne
Opsamling Inden databehandlingen og analysen kast et kritisk blik på stikprøven. Er kvaliteten i orden? Data kodes og gøres klar til analyse Deskriptiv eller induktiv statistik Univariat, bivariat eller multivariat analyse I skal ikke lave statistiske analyser nøjes med frekvenstabeller og krydstabeller Sørg i stedet for at opbygge solide argumenter tjek for tredjevariabel osv. Signifikanstest og konfidensintervaller er centrale begreber, når man infererer