DASG. Nye veje i statistik og sandsynlighedsregning. side 1 af 12 Spørgeskemaundersøgelser og databehandling Disse noter er udarbejdet i forbindelse med et tværfagligt samarbejde mellem matematik og samfundsfag i en studieretning hvor eleverne har begge fag på A-niveau. Forløbet er gennemført i 2.g efter at klassen i matematik har gennemgået hele sandsynlighedsregningen, herunder binomialfordelingen og stiftet bekendtskab med binomialtest. I samfundsfag har der været arbejdet med udformning af spørgeskemaer. I noterne beskrives, hvordan man efter at have lavet en spørgeskemaundersøgelse i Lectio kan arbejde videre med svarene i regnearket OpenOffice Calc, herunder lave pivottabeller og Chi 2 -test. Beskrivelsen af databehandlingen kan formentlig med mindre ændringer overføres til Excel. Henvisninger til litteraturen findes forskellige steder i noterne.
DASG. Nye veje i statistik og sandsynlighedsregning. side 2 af 12 Lectio og spørgeskemaundersøgelser Når man laver en spørgeskemaundersøgelse i lectio får man umiddelbart resultatet i en form som vist på figuren nedenfor med antal og procentvis fordeling på svarmulighederne i hvert enkelt spørgsmål. Derimod kan man i denne oversigt ikke se de enkelte respondenters svar. Det kan man imidlertid, hvis man klikker på knappen i øverste højre hjørne: Vis i Excel Alle svar. Så får man alle svar i et regneark og har mulighed for at arbejde videre med en statistisk behandling af disse. Et udsnit af svarene på det første spørgsmål i ovenstående skema er vist i skemaet til højre. Det kræver nu lidt kopieringsarbejde at komme videre.
DASG. Nye veje i statistik og sandsynlighedsregning. side 3 af 12 1. Åbn et tomt regneark 2. Opret et skema med spørgeskemaets spørgsmål som kolonneoverskrifter. I skemaet nedenfor er vist et eksempel. 3. For hvert spørgsmål i spørgeskemaet kopieres svarene (kolonnen yderst til højre) over i den tilsvarende kolonne i det nye regneark. 4. Herefter kan skemaet i det nye regneark underkastes en nærmere statistisk behandling, f.eks. med krydstabuleringer (oprettelse af Pivottabeller) og efterfølgende Chi-test. Beskrivelse af, hvordan dette laves i OpenOffice findes i de to næste afsnit: Pivottabel i OpenOffice Calc og Chi_i_anden test, test for forskelle. Tilsvarende beskrivelser til Excel kan findes i litteraturen, f.eks. Per Henriksen og Torben Stener Nielsen: FOLD DIG UD i samfundsfaglige metoder. Køn Alder Årgang Parti Euro Mand Jeg er 18 år 2.g Mand Jeg er 18 år 2.g Mand Jeg er 19 eller 3.g der over Mand Jeg er 18 år 2.g Socialtisk folkeparti Mand Jeg er 17 år 2.g Venstre Kvinde Jeg er 19 eller 2.hf Socialdemokr ved ikke der over aterne Mand Jeg er 19 eller 3.g Det Radikale Jeg vil stemme for indførelsen af der over Venstre euro i Danmark Kvinde Jeg er 17 år 2.g Ved ikke Kvinde Jeg er under 1.g 17 år Kvinde Jeg er 17 år 1.g Ved ikke Kvinde Jeg er 17 år 1.g Socialtisk folkeparti De Konservative Det Radikale Venstre Socialtisk folkeparti Kristendemok raterne Jeg vil stemme for indførelsen af euro i Danmark Jeg vil stemme for indførelsen af euro i Danmark Jeg vil stemme for indførelsen af euro i Danmark Jeg vil stemme for indførelsen af euro i Danmark Jeg vil stemme for indførelsen af euro i Danmark Jeg vil stemme imod indførelsen af euro i Danmark Jeg vil stemme imod indførelsen af euro i Danmark Jeg vil stemme imod indførelsen af euro i Danmark Jeg vil stemme imod indførelsen af euro i Danmark
DASG. Nye veje i statistik og sandsynlighedsregning. side 4 af 12 Pivottabel eller krydstabulering og Chi 2 -test i OpenOffice Calc På de følgende sider (4-7) gennemgås via et eksempel, hvordan man opretter og arbejder med pivottabeller i OpenOffice Calc (kaldes i OO for Datapilot-tabeller) samt laver et Chi 2 -test på en sådan. Der er lavet en undersøgelse blandt halvtreds 15-19 årige gymnasieelever om gråzonekriminalitet. Følgende spørgsmål er stillet til eleverne: 1. Køn 2. Alder 3. Har du uden tilladelse inden for det sidste år: a) taget en cykel, som ikke tilhørte dig? b) taget penge eller spiritus fra en jævnaldrende? c) taget penge eller spiritus fra forældre? d) taget noget i en forretning? 4. Har du indenfor det sidste år a) arbejdet sort? b) ødelagt noget for sjov? c) ulovligt lavet graffiti? Det samlede datamateriale læses ind i et regneark og er vist i skemaform i bilaget side 8. Man kunne nu forestille sig, at det kunne være interessant at undersøge, om der er en sammenhæng mellem f.eks. de to kategorier køn og tyveri fra jævnaldrende, eller mere præcist om det at stjæle fra jævnaldrende afhænger af køn. Her opfattes køn altså som en uafhængig variabel og tyveri fra jævnaldrende som en afhængig variabel. Et i mange sammenhænge ellers uoverkommeligt optællingsarbejde kan nu klares ved at oprette en pivottabel. Fremgangsmåde ved oprettelse og anvendelse af pivottabel Det er en god ide selv at arbejde med. 1. Åbn regnearket Gråzonekriminalitet, rådata (bilag side 8) 2. Klik et tilfældigt sted i skemaet, hvis hele skemaet skal kunne bruges (ellers markeres blot de relevante dele) 3. Vælg Data Datapilot Start... 4. Vælg Aktuel markering og klik OK. Derefter åbnes en dialogboks som vist i figur 1 på næste side
DASG. Nye veje i statistik og sandsynlighedsregning. side 5 af 12 5. I denne dialogboks optræder alle kolonneoverskrifterne som knapper ca. midt i boksen. Disse knapper kan trækkes med musen til de forskellige hvide felter. 6. Træk Køn til Rækkefelter (uafhængig variabel) 7. Træk Tyveri fra jævnaldrende til Kolonnefelter (afhængig variabel) Figur 1 8. Træk også Tyveri fra jævnaldrende til Datafelter (vi vil gerne have talt op, hvor mange JA og NEJ, der er fordelt på Køn) 9. Dialogboksen ser nu ud som vist på figur 2. 10. Knappen Tyveri fra jævnaldrende er i Datafelter blevet forsynet Figur 2 med en operation, nemlig Sum. Dette er standardopsætningen i Datapilot-guiden, men vi skal blot have talt op hvor mange JA og NEJ, der er på de to køn. Derfor... 11. Dobbeltklik på knappen (eller klik på Indstillinger...) og vælg Antal i drop-down menuen 12. Klik derefter på knappen Flere og vælg Nyt ark i drop-down menuen ud for Resultater til 13. Slut af med at klikke OK. Der oprettes nu en ny regnearkfane med navnet Datapilot_Ark_1_1 hvor Tæl - Tyveri fra jævnaldrende Tyveri fra jævnaldrende Køn ja nej Total Resultat d 8 21 29 p 3 18 21 Total Resultat 11 39 50 optællingen af JA og NEJ på Køn er foretaget. Resultatet er vist på figur 3. Figur 3 Nu er den ønskede pivottabel lavet, og vi kan give os til at undersøge, om der så er en sammenhæng mellem Køn og Tyveri fra jævnaldrende. Dette gøres ved at lave et Chi 2 -test på de opnåede resultater. Inden du kaster dig ud i dette, vil det være en god ide at gennemgå siderne 9-11: Chi 2 -test Test for forskelle. På baggrund af tabellen ovenfor kunne man måske godt få et indtryk af at drenge er mere tyvagtige end piger, idet der er 2,7 gange så mange drenge, der svarer JA til spørgsmålet som piger, og der kun er 1,4 gange så mange drenge som piger i stikprøven. Dvs. man kunne opstille og teste hypotesen
DASG. Nye veje i statistik og sandsynlighedsregning. side 6 af 12 H 1: Drenge stjæler oftere fra jævnaldrende end piger. Et Chi 2 -test bygger imidlertid på en forudsætning om at observerede og forventede resultater ligger tæt på hinanden. I stedet for at teste hypotesen H 1 vil man derfor teste nulhypotesen H 0: Der er ingen sammenhæng mellem køn og tyveri fra jævnaldrende På baggrund af pivottabellen oprettes derfor en ny tabel, hvor det forventede antal JA og NEJ fordelt på køn skal beregnes. Dette gøres på følgende måde: 14. Marker pivottabellen og kopier den til et andet sted i regnearket, f.eks. nedenunder pivottabellen. 15. Slet det indre af tabellen, altså den obser- Tæl - Tyveri fra jævnaldrende Tyveri fra jævnaldrende Forventede resultater: verede fordeling af JA og NEJ på køn. Tabellen Køn d ja nej Total Resultat 29 ser nu ud som p 21 Total Resultat Figur 4 11 39 50 vist på figur 4. Læg mærke til at Total Resultat felterne ikke slettes. 16. Går vi ud fra, at der ingen sammenhæng er mellem køn og tyveri, og drengene udgør brøkdelen 29 50 af alle i stikprøven, så kan det forventede antal drenge-ja-svar beregnes som den samme brøkdel af alle JA'er, dvs. 11 29 50 =6,38. 17. De tilsvarende resultater for de sidste tre celler beregnes og tabellen over forventede værdier ser nu ud som vist på figur 5. Forventede resultater: Tæl - Tyveri fra jævnaldrende Tyveri fra jævnaldrende Køn ja nej Total Resultat d 6,38 22,62 29 p 4,62 16,38 21 Total Resultat Figur 5 11 39 50 18. Nu er vi klar til at lave Chi 2 -testet. Placer cursoren i en celle, hvor resultatet af testet skal angives. Indtast en regnearkformel med syntaksen: =CHITEST(observerede data;forventede data) og tast RETUR. Det, formlen gør, er at beregne en sandsynlighed p. I dette tilfælde bliver resultatet: p = 0,2625 19. Hvis sandsynligheden p er stor, accepterer man nulhypotesen og hvis p er lille forkaster man nulhypotesen. Men hvor går grænsen? 20. Grænsen fastlægges ved at vælge et såkaldt signifikansniveau (SN). Hvis p > SN accepterer man nulhypotesen Hvis p SN forkaster man nulhypotesen Traditionelt vælger man et signifikansniveau på 1%, 5% eller 10%. 21. I vores eksempel ser vi, at p = 0,2625 = 26,25% (figur 7, celle D18, næste side), dvs. konklusionen på vores analyse bliver, at Der er ingen sammenhæng mellem køn og tyveri fra jævnaldrende. 22. I situationer, hvor man bliver nødt til at forkaste en nulhypotese, betyder det, at der er store forskelle
DASG. Nye veje i statistik og sandsynlighedsregning. side 7 af 12 mellem observerede resultater og forventede resultater. I disse tilfælde kan man have glæde af at lave en tabel over de såkaldte residualer. For hvert talpar (O,F) af observerede og forventede værdier beregnes det tilhørende residual med formlen O F 2 F. I vores eksempel får vi resultaterne vist i figur 6. Residualer: Tæl - Tyveri fra jævnaldrende Tyveri fra jævnaldrende Køn ja nej Total Resultat d 0,4113 0,116 0,5274 p 0,5681 0,1602 0,7283 Total Resultat 0,9794 0,2762 1,2556 23. En samlet oversigt over tabeller og resultater er vist nedenfor. Figur 6 Figur 7 Opgaver Undersøg, om der er sammenhæng mellem f.eks. a) køn og hærværk b) køn og graffiti c) alder og sort arbejde
DASG. Nye veje i statistik og sandsynlighedsregning. side 8 af 12 Bilag Respondent nr. cykel jævnaldrende forældre forretning bejde Tyveri af Tyveri fra Tyveri fra Tyveri fra Sort ar- Køn Alder Hærværk Graffiti 1 p 16 nej nej nej ja nej ja nej 2 d 18 nej nej ja nej nej nej ja 3 p 19 nej nej ja ja ja nej nej 4 p 17 nej ja ja nej ja nej nej 5 d 18 nej ja ja nej ja ja nej 6 d 16 nej nej ja nej ja nej nej 7 d 17 nej nej nej ja ja nej nej 8 d 17 nej ja nej ja ja nej nej 9 d 16 nej ja ja nej nej nej nej 10 d 16 nej nej ja nej nej ja nej 11 p 17 nej nej nej ja nej ja nej 12 d 16 nej nej ja nej nej nej nej 13 d 16 nej nej ja nej ja nej ja 14 p 17 nej nej nej nej nej nej nej 15 p 18 nej nej ja nej ja nej nej 16 d 18 nej ja nej ja ja ja nej 17 p 16 nej nej ja ja ja nej nej 18 p 17 nej nej nej nej ja nej nej 19 p 16 nej nej ja ja ja nej ja 20 p 18 nej ja nej nej ja nej nej 21 d 19 nej ja nej nej ja nej nej 22 d 16 nej nej ja nej ja nej nej 23 p 15 nej nej ja ja ja ja nej 24 p 16 nej nej ja ja ja nej nej 25 d 18 nej nej ja nej nej nej nej 26 d 16 nej nej ja ja nej nej nej 27 p 17 nej ja nej nej ja nej nej 28 d 15 nej nej ja nej ja nej nej 29 d 18 nej nej ja nej nej ja nej 30 d 18 nej nej ja nej ja nej nej 31 p 17 nej nej nej nej nej nej nej 32 d 16 nej nej ja nej nej ja ja 33 d 15 nej ja ja nej ja nej ja 34 d 16 nej nej nej nej nej nej nej 35 d 15 nej nej ja nej ja nej nej 36 p 17 nej nej ja ja ja nej nej 37 d 19 nej nej ja ja nej nej nej 38 d 19 nej nej nej nej nej nej nej 39 p 15 nej nej nej nej ja nej nej 40 d 18 nej nej ja nej ja ja nej 41 p 17 nej nej nej ja nej nej nej 42 p 15 nej nej ja nej ja ja nej 43 d 17 nej ja ja nej nej nej nej 44 d 17 nej nej ja nej nej nej ja 45 d 15 nej nej nej ja ja nej nej 46 d 18 nej ja ja nej ja nej nej 47 p 18 nej nej ja nej ja nej nej 48 d 19 nej nej nej nej nej nej nej 49 p 16 nej nej nej ja ja nej nej 50 p 18 nej nej ja nej ja nej nej
DASG. Nye veje i statistik og sandsynlighedsregning. side 9 af 12 Test for forskelle Chi 2 -test. Endnu et eksempel med uddybning af metoden beskrevet på de foregående sider I samfundsfag vil man i en række tilfælde gerne kunne teste for forskelle. Er kvinder mere venstreorienterede end mænd? Er der forskel mellem drenges og pigers alkoholforbrug? Til at teste for forskelle benyttes et såkaldt Chi 2 - test. Anvendelsen af dette test illustreres med et eksempel i det følgende. Den øverste tabel til højre viser hvordan mænd og kvinder stemte ved folketingsvalget i 2001. Partierne er opdelt i tre grupper: Venstreorienterede (A, F, Ø); midterpartier: (B, D, Q) og borgerlige: (V, C, O). Hvis man har en forventning om, at kvinder er mere venstreorienterede end mænd, kan man opstille følgende hypotese: H 1: Kvinder stemte ved folketingsvalget i 2001 mere venstreorienteret end mænd. Dvs. køn er uafhængig variabel og partivalg er afhængig variabel. I den midterste tabel er der beregnet forventede værdier under den forudsætning, at der ikke er nogen sammenhæng mellem køn og partivalg. Da mændene udgør brøkdelen 983 1873 af hele stikprøven og der i alt er 689, der stemmer på A,F,Ø, vil man derfor forvente, at der vil være 689 983 =362 mænd, der stemmer på A,F,Ø. 1873 Den kvindelige andel af A,F,Ø-vælgere vil tilsvarende være 689 890 =327. De øvrige resultater i det 1873 hvide felt fremkommer ved blot at erstatte 689 med hhv. 165 og 1019 (i regnearket kopieres den anvendte formel mod højre og ned). Chi 2 -testet bygger på den forudsætning, at der er stor overensstemmelse mellem observerede resultater og forventede resultater. Med andre ord, at der ikke er særlig stor forskel mellem tallene i den øverste tabel og den midterste tabel med forventede værdier. I stedet for at teste hypotesen H 1 ovenfor, vil man derfor teste nulhypotesen: H 0: Der er ingen sammenhæng mellem køn og partivalg. Chi 2 -testet skal bruge en udregning af følgende størrelse: q= O F 2 omtalt som summen af residualerne for sammenhørende værdier af observerede værdier (absolutte tal) og forventede værdier. I den F sid-
DASG. Nye veje i statistik og sandsynlighedsregning. side 10 af 12 ste tabel ovenfor er residualerne for hvert enkelt talpar (observeret værdi, forventet værdi) beregnet og i celle E22 er vist summen af alle residualerne. Dvs. i det aktuelle eksempel er q = 17,691 Eksempel: Hvis vi igen tager de venstreorienterede mandlige vælgere som eksempel, så bliver det tilsvarende residual: 334 361,6054 2 =2,1074 361,6054 De øvrige residualer beregnes på tilsvarende måde. Residualtabellen er kun taget med her for at illustrere, hvilke størrelser der er tale om. Ved anvendelsen af Chi 2 -testet nedenfor klarer regnearket selv udregningen af q, så man behøver ikke have den tredje tabel med i sine beregninger. Nu skal vi til at anvende Chi 2 -testet. Dette går ud på at bestemme sandsynligheden for at Chi 2 er større end eller lig med q, hvilket i matematiksprog skrives på følgende måde: P X 2 q. Selve beregningen foretages med en indbygget funktion i regnearket og er vist i celle E4. Man indtaster følgende formel (husk lighedstegnet): =CHITEST(dataområde for observerede værdier ; dataområde for forventede værdier) I det aktuelle eksempel ser indtastningen således ud: =CHITEST(B8:D9;B14:D15). Dataområderne vælges ganske enkelt ved at trække med musen hen over dem. (en alternativ måde at beregne P X 2 q på i OpenOffice Calc er beskrevet nedenfor). For Chi 2 -fordelingen gælder der, at jo større q er jo mindre er P X 2 q. En stor q-værdi, og dermed små sandsynligheder, er imidlertid udtryk for en stor afvigelse mellem observerede og forventede værdier, jf. den måde residualerne beregnes på, og må føre til den konklusion, at nulhypotesen forkastes og dermed, at køn har indflydelse på partivalg. Hvornår vil man forkaste en hypotese? Inden man overhovedet udfører sit test, bør man fastlægge, hvilket signifikansniveau (SN) man vil vælge at forkaste nulhypotesen på. Her vælger man traditionelt 1%, 5% eller 10%. Hvis man f.eks. vælger SN = 5%, betyder det i flg. ovenstående overvejelser, at nulhypotesen forkastes, hvis P X 2 q 5%=0,05 I det aktuelle eksempel får vi P X 2 q =0,000144, dvs. nulhypotesen må forkastes, og der er helt åbenbart en signifikant forskel på mænds og kvinders partivalg i 2001. Af den sidste figur på næste side fremgår det, at nulhypotesen forkastes på 5% SN, hvis blot q er større end ca. 6 (antallet af frihedsgrader i eksemplet er 2. Se side 12). Sætter man SN til 1% er den tilsvarende q-værdi lidt under 5 (4,6, hvis man laver beregningen) Sætter man SN til 10% er resultatet lidt under 10 (9,2, hvis man laver beregningen)
DASG. Nye veje i statistik og sandsynlighedsregning. side 11 af 12 Grafisk illustration P(Χ² q) 1 Antal frihedsgrader: 5 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 5 10 15 20 25 P(X²=q) 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 Antal frihedsgrader: 5 0 2 4 6 8 10 12 14 16 18 20 22 q q På figurerne ovenfor er til venstre vist grafen for P X 2 q som funktion af q. Lægger vi f.eks. et SN på 5% ind, ser vi, at den mindste q-værdi, der med 5 frihedsgrader giver en forkastelse af nulhypotesen, er ca. 11. Dette svarer på figuren til højre til arealet under grafen for tæthedsfunktionen i intervallet [ 11 ; [. På de to følgende figurer er det vist, hvordan resultatet ser ud med 10 frihedsgrader. P(Χ² q) 1 Antal frihedsgrader: 10 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 5 10 15 20 25 q P(X²=q) 0,12 0,1 0,08 0,06 0,04 0,02 0 Antal frihedsgrader: 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 q På den sidste figur til højre er det illustreret, hvordan den mindste q-værdi, der fører til forkastelse af nulhypotesen, afhænger af antallet af frihedsgrader ved de tre mest almindeligt anvendte signifikansniveauer, 1%, 5% og 10%. qmin 40,0 35,0 30,0 25,0 20,0 15,0 1% SN 5% SN 10% SN 10,0 5,0 0,0 0 5 10 15 20 25 antal frihedsgrader, f
DASG. Nye veje i statistik og sandsynlighedsregning. side 12 af 12 Alternativ beregning af P X 2 q i OpenOffice Calc a) Vælg den celle (her E4), der skal indeholde resultatet af beregningen. b) Åbn funktionsguiden ved at klikke på f x i indtastningslinjen. c) Under Funktion finder man frem til CHITEST og klikker Næste>> d) I den næste dialogboks udfyldes på sædvanlig vis skrivefelterne Observeret_værdi og Forventet_værdi med de relevante dataområder e) Klik OK og den beregnede sandsynlighed indlæses i den valgte celle. Det vil være en god ide at give cellen en overskrift som vist på figuren side 9. Chi 2 -testet kan også udføres ved at anvende regnearkfunktionen CHIFORDELING. For at kunne bruge denne skal man kende q-værdien (eller residualsummen, i dette eksempel 17,691) samt antallet af frihedsgrader. Det viser sig 1, at antallet af frihedsgrader f kan beregnes som: f = r 1 k 1 hvor r er antal rækker og k er antal kolonner i det indre af skemaet. I det foreliggende tilfælde bliver antallet af frihedsgrader altså: f = 2 1 3 1 =2 Residualsummen q er beregnet i celle E22 i regnearkudsnittet på figuren til højre. Syntaksen til beregning af P X 2 q er herefter: =CHI- FORDELING(q;f). Kilder: Per Henriksen, Torben Stener Nielsen: FOLD DIG UD i samfundsfaglige metoder. Columbus 2007 Nikolaj Malchow-Møller og Allan Würtz: Indblik i statistik en grundbog for videregående uddannelser. Gyldendal uddannelse 2003. 1 Nikolaj Malchow-Møller og Allan Würtz: Indblik i statistik en grundbog for videregående uddannelser. Gyldendal uddannelse 2003, side 215-216