Øvelse 2. SPSS og sandsynlighedsregning

Øvelse 2 SPSS og sandsynlighedsregning Der er flere forskellige formål med opgaverne i denne øvelse. Det væsentligste formål er at arbejde lidt med sandsynlighedsregningen, binomialfordelingen og de store tals lov, således at I kan vænne jer til at tænke i og med sandsynligheder (hvilket er absolut nødvendigt, hvis man har i sinde at foretage statistiske analyser) og således at I kan se, hvorledes den centrale grænseværdisætning fungerer i praksis. Det andet formål er at give jer endnu mere erfaring med at arbejde med SPSS før den egentlige statistikundervisning går i gang. Det vil vi gøre på den måde at I selv foretager visse beregninger og derefter bruger SPSS til at kontrollere beregningerne. Det tredje formål peger lidt fremad. Vi skal på et senere tidspunkt bruge en hel del tid på at diskutere det statistiske signifikanstest, hvor man forkaster en hypotese, hvis man observerer noget, der er usandsynligt (f.eks. mindre end 5 %) hvis hypotesen er korrekt. I kommer i løbet af kurset til at foretage mange statistiske test, og det er derfor også sandsynligt at I engang i mellem kommer ud for noget, som er usandsynligt, selvom hypotesen rent faktisk er korrekt. I sådanne tilfælde kommer man til at begå det, der omtales som en statistisk Type I fejl, når man forkaster hypotesen. For at I kan få en ordentlig fornemmelse af hvad risikoen for disse fejl er når man foretager mange statistiske test vil vi i løbet af øvelserne se på binomialfordelinger, hvor sandsynligheden for at opleve en hændelse er lig med 5 % hver gang der bliver foretaget et forsøg (eller foretaget et statistisk test). Opgave 1 På det tidligere bachelor kurser havde vi nogle øvelser, hvor de studerende kastede et antal terninger og beregnede den samlede score på således at man ved sammenligninger af resultaterne hos forskellige studerende kunne se hvorledes den tilfældige variation fungerede i praksis. I stedet for at lade de studerende gøre det hårde arbejde, vil vi denne gang bede SPSS om at kaste terninger for os. Det kan samtidig give jer lidt erfaring med brug af såkaldte syntaksfiler. Før dette sker, skal I til gengæld regne lidt. 1

Antag for det første, at resultatet af terningkastet er en score fra 1 til 6 hvor hvert udfald har en sandsynlighed, der er lig med 1/6. Ud fra denne antagelse skal I til at begynde med beregne 1) Den forventede score på terningkastet 2) Variansen 3) Standard afvigelsen Antag derefter, at der foretages 10 terningkast uafhængigt af hinanden og beregn 4) Den forventede samlede score på alle ti terning kast 5) Variansen af den samlede score 6) Standard afvigelsen af den samlede score 7) Det forventede gennemsnit 8) Variansen af gennemsnittet 9) Standardafvigelsen af gennemsnittet, der omtales som standardfejlen omkring gennemsnittet (mere om det senere) Når I har foretaget disse beregninger kan I bruge SPSS til at se, hvordan det fungerer i virkeligheden. SPSS filen EMPTY.SAV indeholder en tom datamatrice for 1000 personer. Denne datamatrice skal udfyldes med 10 terningkast for hver person efterfulgt af en optælling af den samlede score og den gennemsnitlige score. For at opnå dette skal i åbne syntaksfilen, TERNINGER.SPS, og eksekvere samtlige linjer. COMPUTE terning1=trunc(random17). COMPUTE terning2=trunc(random17). osv.osv.osv. COMPUTE terning10=trunc(random17). COMPUTE ialt=terning1+terning2+terning3+terning4+terning5+terning6+terning7+terning8+terning9+terning10. COMPUTE Middel=ialt/10. EXECUTE 2

Hvert terningkast fremkaldes ved at RANDOM17 tildeles et tilfældigt decimaltal mellem 1 og 7 (RV.UNIFORM(1,7), som derefter trunkeres således at alle cifre efter kommaet fjernes. Resultatet er et tilfældigt heltal mellem 1 og 6 fordi sandsynligheden for at det tilfældige tal var lig med 7,0000000 er lig med 0. Efter at terningerne er kastet kan I se på fordelingerne af de enkelte kast, af den samlede score og af gennemsnittet (brug frekvenstabeller med statistics og histogrammer til dette formål). Vi skal senere snakke om at fordelinger af gennemsnitsværdier ofte ligner såkaldte normalfordelinger, så bed at få tegnet normalfordelingskurver sammen med histogrammerne. Synes I, at fordelingerne ligner normalfordelinger? Opgave 2 Binomialfordelingen I forbindelse med såkaldte signifikanstest kommer vi ved hver eneste test til at se på risikoen for visse typer for statistiske fejlslutninger, som der altid vil være 5 % risiko for at løbe ind i. I praksis kommer I til at lave mange statistiske test. Det er derfor en god ide, at tænke lidt over, hvor mange fejlslutninger I kan forvente at løbe ind i i løbet af jeres analyser. Binomialfordelinger er fordelinger af det samlede antal af hændelser i et vist antal indbyrdes uafhængige forsøg, hvor det forudsættes at sandsynligheden for hændelsen er den samme i alle forsøg. Vi vil bruge denne fordeling til at kaste lidt lys over, hvad I kan forvente, hvis I foretager flere statistiske test, hvor risikoen for en fejlslutning af en bestemt type er lig med 5 %. Antag derfor, at der er tale om 10 forskellige analyser med henholdsvis 10, 20, 30, 100 test. Spørgsmålet er, hvad vi kan forvente os af statistiske fejl i disse analyser. I skal igen benytte SPSS til at beregne disse ting, men før I kaster os over det, skal I selv beregne nogle ting. 1) Hvad er det forventede antal fejl i hver analyse. 2) Hvad er sandsynligheden for, at der slet ikke bliver begået nogle fejl? 3) Hvad er sandsynligheden for, at der begås præcis 1 fejl. 4) Hvad er sandsynligheden for, at der bliver begået mere end en fejl. 3

SPSS kan bruges som en regnemaskine til beregning af forskellige statistiske størrelser. Til dette formål er det nødvendigt at konstruere syntaksfiler, som beskriver, hvilke beregninger, der skal udføres, og hvordan de skal skrives ud. Syntaksfilen, Binomial_calculator.sps, er et eksempel på en sådan fil. Den kan bruges, hvis man vil have SPSS til at beregne sandsynligheder for forskellige udfald i forbindelse med binomialforsøg De tal, der er fremhævet med rødt, skal indtastes, hver gang man vil foretage en beregning. I eksemplet er der tale om en binomialfordeling med 10 forsøg (n) og en sandsynlighed på 0.05 (p) og udfald lig med 2 (x). Herefter beregnes sandsynligheden for at antallet af positive værdier er lig med 2 (ProbX), sandsynligheden for at antallet er mindre end eller lig 2 (ProbLeqX) og sandsynligheden for at antallet af udfald er større end eller lig 2 (ProbGeX) 1 Binomial_calculator.sps temporary. n 1. comment ----------------------- Binomial Calculator -------------------------------. comment beregning af sandsynligheder i binomial fordeling. comment. comment indtast n, p og x. comment asymptotiske standard afvigelse. comment ---------------------------------------------------------------------------------------. compute n = 10. compute p = 0.05. compute x = 2. compute ProbX = PDF.binom(x,n,p). compute ProbLeqX = CDF.binom(x,n,p). compute ProbGeqX = 1-CDF.binom(x-1,n,p). format p ProbX ProbLeqX ProbGeqX(f8.4). format n x f(6). LIST VARIABLES= n p x ProbX ProbLeqX ProbGeqX. Brug denne syntaksfil til at kortlægge binomialfordelingen med n = 10 og p = 0.05 1 Syntaksfilen benytter to funktioner, PDF.binom og CDF.binom. Det vil være en god ide, hvis I lige tjekker dokumentationen af disse funktioner, så I vænner jer til at bruge de. Dokumentationen kan dels findes under Compute i SPSS eller i et appendiks i SPSS bogen. 4

For at undersøge holdbarheden af jeres beregninger i forhold til virkeligheden skal I herefter gennemføre hver runde af forsøg for de 1000 personer i det samme materiale som I brugte tidligere. Til dette formål skal I benytte syntaksfilen BINOMIAL.SPS Syntaksfilen er vist nedenfor. Der oprettes ti variable, binom10,,binom100, med tilfældige udtræk fra en binomialfordeling med 10,20,, 100 forsøg med en sandsynligheden for et positivt udfald på 0.05. Check betydningen af funktionen RV.BINOM i appendikset i SPSS bogen. COMPUTE binom10=rv.binom(10,0.05). COMPUTE binom20=rv.binom(20,0.05). COMPUTE binom30=rv.binom(30,0.05). osv., osv., osv COMPUTE binom100=rv.binom(100,0.05). Brug ANALYZE DESCRIPTIVES FREQUENCIES til at vise fordelingerne og aflæs hyppighederne for 0, 1 og mere end et positivt udfald og sammenlign dem med jeres beregninger. Bed om at få tegnet histogrammer med normalfordelinger, så I kan se, om disse fordelinger også ligner normalfordelinger. 5