Øvelse 2. SPSS og sandsynlighedsregning

Relaterede dokumenter
Estimation og usikkerhed

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Produkt og marked - matematiske og statistiske metoder

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Statistiske modeller

4 Oversigt over kapitel 4

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Simulering af stokastiske fænomener med Excel

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Introduktion til SPSS

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Kvantitative Metoder 1 - Forår 2007

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Simulering af stokastiske fænomener med Excel

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

SPSS introduktion Om at komme igang 1

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Normalfordelingen og Stikprøvefordelinger

Produkt og marked - matematiske og statistiske metoder

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Konfidensintervaller og Hypotesetest

Statistik II 1. Lektion. Analyse af kontingenstabeller

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Kvantitative Metoder 1 - Forår 2007

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistiske principper

Statistik viden eller tilfældighed

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Eksamensopgaver datalogi, dl/vf 2010 side 1/5. 1. Lodtrækningssystem

Allan C. Malmberg. Terningkast

Hvad skal vi lave i dag?

J E T T E V E S T E R G A A R D

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Nanostatistik: Opgaver

Kapitel 4 Sandsynlighed og statistiske modeller

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Løsning til eksaminen d. 29. maj 2009

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Sandsynlighedsregning

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Analyse af en lineær regression med lav R 2 -værdi

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Statistik og skalavalidering. Opgave 1

c) For, er, hvorefter. Forklar.

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Opgaver til kapitel 3

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Program dag 2 (11. april 2011)

ØVELSE 3A. I SAS kan man både bruge {}, [] og () som paranteser til index.

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Definition. Definitioner

Fig. 1 Billede af de 60 terninger på mit skrivebord

Statistik i GeoGebra

Statistik i basketball

Nanostatistik: Opgavebesvarelser

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Note til styrkefunktionen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Note om Monte Carlo metoden

1 Hb SS Hb Sβ Hb SC = , (s = )

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Hypotesetests, fejltyper og p-værdier

Kapitel 4 Sandsynlighed og statistiske modeller

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema:

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

KORTLÆGNING AF DIGITIALISERINGS- BEHOV I DANMARK HUMANOMICS RESEARCH CENTER

Dagens program. Praktisk information:

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Transkript:

Øvelse 2 SPSS og sandsynlighedsregning Der er flere forskellige formål med opgaverne i denne øvelse. Det væsentligste formål er at arbejde lidt med sandsynlighedsregningen, binomialfordelingen og de store tals lov, således at I kan vænne jer til at tænke i og med sandsynligheder (hvilket er absolut nødvendigt, hvis man har i sinde at foretage statistiske analyser) og således at I kan se, hvorledes den centrale grænseværdisætning fungerer i praksis. Det andet formål er at give jer endnu mere erfaring med at arbejde med SPSS før den egentlige statistikundervisning går i gang. Det vil vi gøre på den måde at I selv foretager visse beregninger og derefter bruger SPSS til at kontrollere beregningerne. Det tredje formål peger lidt fremad. Vi skal på et senere tidspunkt bruge en hel del tid på at diskutere det statistiske signifikanstest, hvor man forkaster en hypotese, hvis man observerer noget, der er usandsynligt (f.eks. mindre end 5 %) hvis hypotesen er korrekt. I kommer i løbet af kurset til at foretage mange statistiske test, og det er derfor også sandsynligt at I engang i mellem kommer ud for noget, som er usandsynligt, selvom hypotesen rent faktisk er korrekt. I sådanne tilfælde kommer man til at begå det, der omtales som en statistisk Type I fejl, når man forkaster hypotesen. For at I kan få en ordentlig fornemmelse af hvad risikoen for disse fejl er når man foretager mange statistiske test vil vi i løbet af øvelserne se på binomialfordelinger, hvor sandsynligheden for at opleve en hændelse er lig med 5 % hver gang der bliver foretaget et forsøg (eller foretaget et statistisk test). Opgave 1 På det tidligere bachelor kurser havde vi nogle øvelser, hvor de studerende kastede et antal terninger og beregnede den samlede score på således at man ved sammenligninger af resultaterne hos forskellige studerende kunne se hvorledes den tilfældige variation fungerede i praksis. I stedet for at lade de studerende gøre det hårde arbejde, vil vi denne gang bede SPSS om at kaste terninger for os. Det kan samtidig give jer lidt erfaring med brug af såkaldte syntaksfiler. Før dette sker, skal I til gengæld regne lidt. 1

Antag for det første, at resultatet af terningkastet er en score fra 1 til 6 hvor hvert udfald har en sandsynlighed, der er lig med 1/6. Ud fra denne antagelse skal I til at begynde med beregne 1) Den forventede score på terningkastet 2) Variansen 3) Standard afvigelsen Antag derefter, at der foretages 10 terningkast uafhængigt af hinanden og beregn 4) Den forventede samlede score på alle ti terning kast 5) Variansen af den samlede score 6) Standard afvigelsen af den samlede score 7) Det forventede gennemsnit 8) Variansen af gennemsnittet 9) Standardafvigelsen af gennemsnittet, der omtales som standardfejlen omkring gennemsnittet (mere om det senere) Når I har foretaget disse beregninger kan I bruge SPSS til at se, hvordan det fungerer i virkeligheden. SPSS filen EMPTY.SAV indeholder en tom datamatrice for 1000 personer. Denne datamatrice skal udfyldes med 10 terningkast for hver person efterfulgt af en optælling af den samlede score og den gennemsnitlige score. For at opnå dette skal i åbne syntaksfilen, TERNINGER.SPS, og eksekvere samtlige linjer. COMPUTE terning1=trunc(random17). COMPUTE terning2=trunc(random17). osv.osv.osv. COMPUTE terning10=trunc(random17). COMPUTE ialt=terning1+terning2+terning3+terning4+terning5+terning6+terning7+terning8+terning9+terning10. COMPUTE Middel=ialt/10. EXECUTE 2

Hvert terningkast fremkaldes ved at RANDOM17 tildeles et tilfældigt decimaltal mellem 1 og 7 (RV.UNIFORM(1,7), som derefter trunkeres således at alle cifre efter kommaet fjernes. Resultatet er et tilfældigt heltal mellem 1 og 6 fordi sandsynligheden for at det tilfældige tal var lig med 7,0000000 er lig med 0. Efter at terningerne er kastet kan I se på fordelingerne af de enkelte kast, af den samlede score og af gennemsnittet (brug frekvenstabeller med statistics og histogrammer til dette formål). Vi skal senere snakke om at fordelinger af gennemsnitsværdier ofte ligner såkaldte normalfordelinger, så bed at få tegnet normalfordelingskurver sammen med histogrammerne. Synes I, at fordelingerne ligner normalfordelinger? Opgave 2 Binomialfordelingen I forbindelse med såkaldte signifikanstest kommer vi ved hver eneste test til at se på risikoen for visse typer for statistiske fejlslutninger, som der altid vil være 5 % risiko for at løbe ind i. I praksis kommer I til at lave mange statistiske test. Det er derfor en god ide, at tænke lidt over, hvor mange fejlslutninger I kan forvente at løbe ind i i løbet af jeres analyser. Binomialfordelinger er fordelinger af det samlede antal af hændelser i et vist antal indbyrdes uafhængige forsøg, hvor det forudsættes at sandsynligheden for hændelsen er den samme i alle forsøg. Vi vil bruge denne fordeling til at kaste lidt lys over, hvad I kan forvente, hvis I foretager flere statistiske test, hvor risikoen for en fejlslutning af en bestemt type er lig med 5 %. Antag derfor, at der er tale om 10 forskellige analyser med henholdsvis 10, 20, 30, 100 test. Spørgsmålet er, hvad vi kan forvente os af statistiske fejl i disse analyser. I skal igen benytte SPSS til at beregne disse ting, men før I kaster os over det, skal I selv beregne nogle ting. 1) Hvad er det forventede antal fejl i hver analyse. 2) Hvad er sandsynligheden for, at der slet ikke bliver begået nogle fejl? 3) Hvad er sandsynligheden for, at der begås præcis 1 fejl. 4) Hvad er sandsynligheden for, at der bliver begået mere end en fejl. 3

SPSS kan bruges som en regnemaskine til beregning af forskellige statistiske størrelser. Til dette formål er det nødvendigt at konstruere syntaksfiler, som beskriver, hvilke beregninger, der skal udføres, og hvordan de skal skrives ud. Syntaksfilen, Binomial_calculator.sps, er et eksempel på en sådan fil. Den kan bruges, hvis man vil have SPSS til at beregne sandsynligheder for forskellige udfald i forbindelse med binomialforsøg De tal, der er fremhævet med rødt, skal indtastes, hver gang man vil foretage en beregning. I eksemplet er der tale om en binomialfordeling med 10 forsøg (n) og en sandsynlighed på 0.05 (p) og udfald lig med 2 (x). Herefter beregnes sandsynligheden for at antallet af positive værdier er lig med 2 (ProbX), sandsynligheden for at antallet er mindre end eller lig 2 (ProbLeqX) og sandsynligheden for at antallet af udfald er større end eller lig 2 (ProbGeX) 1 Binomial_calculator.sps temporary. n 1. comment ----------------------- Binomial Calculator -------------------------------. comment beregning af sandsynligheder i binomial fordeling. comment. comment indtast n, p og x. comment asymptotiske standard afvigelse. comment ---------------------------------------------------------------------------------------. compute n = 10. compute p = 0.05. compute x = 2. compute ProbX = PDF.binom(x,n,p). compute ProbLeqX = CDF.binom(x,n,p). compute ProbGeqX = 1-CDF.binom(x-1,n,p). format p ProbX ProbLeqX ProbGeqX(f8.4). format n x f(6). LIST VARIABLES= n p x ProbX ProbLeqX ProbGeqX. Brug denne syntaksfil til at kortlægge binomialfordelingen med n = 10 og p = 0.05 1 Syntaksfilen benytter to funktioner, PDF.binom og CDF.binom. Det vil være en god ide, hvis I lige tjekker dokumentationen af disse funktioner, så I vænner jer til at bruge de. Dokumentationen kan dels findes under Compute i SPSS eller i et appendiks i SPSS bogen. 4

For at undersøge holdbarheden af jeres beregninger i forhold til virkeligheden skal I herefter gennemføre hver runde af forsøg for de 1000 personer i det samme materiale som I brugte tidligere. Til dette formål skal I benytte syntaksfilen BINOMIAL.SPS Syntaksfilen er vist nedenfor. Der oprettes ti variable, binom10,,binom100, med tilfældige udtræk fra en binomialfordeling med 10,20,, 100 forsøg med en sandsynligheden for et positivt udfald på 0.05. Check betydningen af funktionen RV.BINOM i appendikset i SPSS bogen. COMPUTE binom10=rv.binom(10,0.05). COMPUTE binom20=rv.binom(20,0.05). COMPUTE binom30=rv.binom(30,0.05). osv., osv., osv COMPUTE binom100=rv.binom(100,0.05). Brug ANALYZE DESCRIPTIVES FREQUENCIES til at vise fordelingerne og aflæs hyppighederne for 0, 1 og mere end et positivt udfald og sammenlign dem med jeres beregninger. Bed om at få tegnet histogrammer med normalfordelinger, så I kan se, om disse fordelinger også ligner normalfordelinger. 5