Stikprøver, binomialtest og chi^2 test er nogle af de punkter som denne note kommer ind på. Det er et supplement til Vejen til Matematik



Relaterede dokumenter
Stikprøver, binomialtest og chi^2 test er nogle af de punkter som denne note kommer ind på. Det er et supplement til Vejen til Matematik

Ved et folketingsvalg eller en folkeafstemning spørger man alle stemmeberettigede, og kun en del af dem stemmer.

Personlig stemmeafgivning

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

3. Trekantsberegninger. Gør rede for cosinusrelationen i vilkårlige trekanter.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

for matematik pä B-niveau i hf

Spørgeskemaundersøgelser og databehandling

Konfidensintervaller og Hypotesetest

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

for gymnasiet og hf 2017 Karsten Juul

Vejledende besvarelser til opgaver i kapitel 14

J E T T E V E S T E R G A A R D

for gymnasiet og hf 2016 Karsten Juul

for matematik pä B-niveau i hf

Hvad er meningen? Et forløb om opinionsundersøgelser

Statistik II 1. Lektion. Analyse af kontingenstabeller

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM

Maple 11 - Chi-i-anden test

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Temaopgave i statistik for

Normalfordelingen og Stikprøvefordelinger

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

c) For, er, hvorefter. Forklar.

Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode

Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Deskriptiv statistik for hf-matc

Det fri indland. 23. mar 2015

At træffe sine valg i en usikker verden - eller den statistiske modellerings rolle.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Deskriptiv statistik for matc i stx og hf

Det fri indland. 23. mar 2015

Statistik viden eller tilfældighed

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Tema. Dagens tema: Indfør centrale statistiske begreber.

Sommermåling - Indland. Danmarks Radio. 29. jun 2015

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

MEGAFON. Vi kender danskerne. 1g.megafon.dk. Rådgivning og analyse, der bringer dig godt videre

Schweynoch, Se eventuelt

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Løsning til eksaminen d. 14. december 2009

FINANSIEL FORSTÅELSE OG REGNEFÆRDIGHED

A B C F l O V Ø Å +/- 2,1 +/- 0,9 +/- 0,8 +/- 0,9 +/- 1,3 +/- 1,9 +/- 1,9 +/- 1,3 +/- 1. Valgresultat ,5 26,3 21,1 21,0 19,5 19,9

Danmarks Radio. 12. jan 2017

I. Deskriptiv analyse af kroppens proportioner

Flemmings Maplekursus 1. Løsning af ligninger

A B C F l K O V Ø Å +/- 2 +/- 1 +/- 0,9 +/- 1,1 +/- 1,2 +/- 0,4 +/- 1,8 +/- 1,9 +/- 1,3 +/- 0,8. Valgresultat ,7 24,8

A B C F l K O V Ø Å +/- 2,2 +/- 1,1 +/- 0,9 +/- 1,2 +/- 1,3 +/- 0,3 +/- 1,9 +/- 1,9 +/- 1,4 +/- 1. Valgresultat ,7 24,8

A B C F l K O V Ø Å +/- 2 +/- 0,9 +/- 0,8 +/- 1 +/- 1,1 +/- 0,4 +/- 1,7 +/- 1,8 +/- 1,3 +/- 0,9. Valgresultat ,7

A B C F l K O V Ø Å +/- 1,9 +/- 1 +/- 0,8 +/- 1 +/- 1,2 +/- 0,4 +/- 1,7 +/- 1,8 +/- 1,2 +/- 0,9. Valgresultat ,7

A B C F l K O V Ø Å +/- 2,1 +/- 1 +/- 0,9 +/- 1,1 +/- 1,3 +/- 0,3 +/- 1,9 +/- 1,9 +/- 1,4 +/- 1. Valgresultat ,7 26,7 26,7

A B C F l K O V Ø Å +/- 2 +/- 1 +/- 0,8 +/- 1,1 +/- 1,2 +/- 0,4 +/- 1,8 +/- 1,8 +/- 1,3 +/- 0,9. Valgresultat ,7 24,8

A B C F l K O V Ø Å +/- 2,1 +/- 1,1 +/- 0,9 +/- 1,1 +/- 1,2 +/- 0,4 +/- 1,8 +/- 1,9 +/- 1,3 +/- 0,9. Valgresultat ,7 24,8

Danmarks Radio. 12. jan 2017

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Spørgsmål: Hvad mener du, at aldersgrænsen for at blive udsendt i krig for Danmark bør være? Danmarks Radio. 31. aug 2015

Det fri indland. 23. mar 2015

Statistik. Erik Vestergaard

Kapitel 12 Variansanalyse

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

LUP læsevejledning til afdelingsrapporter

A B C F l O V Ø Å +/- 2,2 +/- 1,1 +/- 0,8 +/- 1,1 +/- 1,3 +/- 2 +/- 1,9 +/- 1,4 +/- 1,2. Valgresultat ,8 26,3 26,3 21,9

Internetbaseret borgerinddragelse i planlægningen

Kapitel 7 Forskelle mellem centraltendenser

χ 2 test Formål med noten... 2 Goodness of fit metoden (GOF) ) Eksempel 1 er stikprøven repræsentativ for køn? (1 frihedsgrad)...

DR Hemmeligheder. Danmarks Radio. 13. jun 2016

Skolevægring. Resultater fra en spørgeskemaundersøgelse blandt skoleledere på danske folkeskoler og specialskoler

Vurdering af Helle Thorning Schmidts og Lars Løkke Rasmussens egenskaber i forhold til en række politiske områder. Danmarks Radio. 19.

Dig og din puls Lærervejleding

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse.

A B C D F l O V Ø Å +/- 2,1 +/- 1,1 +/- 1 +/- 0,8 +/- 1 +/- 1,2 +/- 1,8 +/- 1,8 +/- 1,3 +/- 1,1. Valgresultat ,0 26,3

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Eksempel på besvarelse af spørgeordet Hvad kan udledes (beregn) inkl. retteark.

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Kønsproportion og familiemønstre.

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Danmarks Radio. 17. sep 2018

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

DR Flygtninge. Danmarks Radio. 10. sep 2015

Kapitel 12 Variansanalyse

Analyse af dagpengesystemet

Gallup til Bornholms Tidende. Folketingsvalg Gallup til Bornholms Tidende. TNS Dato: 17. marts 2015 Projekt: 61801

Unges holdning til køb og salg af sex

DR Politikerlede. Danmarks Radio. 14. jun 2016

Statistik i basketball

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Transkript:

Hypotesetest s og spørgeskemaer Stikprøver, binomialtest og chi^2 test er nogle af de punkter som denne note kommer ind på. Det er et supplement til Vejen til Matematik Kumuleret sandsynlighed 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. Højre sidet y = - a 0 20 30 40 50 60 70 80 90 00 Kumuleret sandsynlighed Kumuleret sandsynlighed B2 samt udleverede artikler. 0.9 0.8 0.9 Henrik S. Hansen, Sct. Knud Gymnasium 0.7 0.8 0.6 0.7 0.5 0.6 0.4 0.5 0.3 0.4 0.2 0.3 0. 0.2 y = - a Højre sidet Højre sidet y = - a 0. 0 20 30 40 50 60 70 80 90 00 0 20 30 40 50 60 70 80 90 00 0.0005 0.0004 0.0003 0.0005 0.0002 0.0004 0.000 0.0003 0.0002 2 3 4 5 6 7 8 9 0 2 3 4 5 6 7 8 9 20 X² = 5.8528 p =.00036 0.000 X² = 5.8528 p =.00036 2 3 4 5 6 7 8 9 0 2 3 4 5 6 7 8 9 20 V E R S I O N. 5

Indhold Hypotesetest... Binomialtest... Signifikansniveau (α)... Acceptmængde... 2 Kritiskmængde... 2 χ 2 -test (uafhængighedstest)... 5 Teststørrelse X 2... 6 Frihedsgrader... 6 Signifikansniveau... 6 P-værdi... 7 Skal vi forkaste H 0??... 7 χ 2 -fordeling.... 7 I praksis... 9 χ 2 -Goodness of fit... 0 Stikprøver... 2 Population... 2 Repræsentativ... 2 Valg af stikprøve... 3 Vigtige overvejelser... 4 Bias... 5

Hypotesetest I mange tilfælde og i mange faglige sammenhænge må man træffe en afgørelse eller basere en overbevisning på et ikke fuldstændigt informationsgrundlag. I disse noter vil vi prøve at kigge på tre typer af test: Binomialtest: Der tester om en primærsandsynlighed er sand χ 2 -test (uafhængighed): Der tester om der gælder uafhængighed mellem nogle variable χ 2 -test (Godness of fit): Der tester overstemmelse mellem variable (en særudgave af uafhængighedstesten.) Ens for dem alle er at vi tester en påstand. På baggrund af en sandsynlighedsberegning på en given observation accepterer vi eller også forkaster vi vores opstillede påstand (nulhypotese) Binomialtest Denne test benyttes til at undersøge stikprøver, hvor antallet med en bestemt farve, politisk holdning, eller kvalitetsniveau kan antages at være binomialfordelt. Vi antager med andre ord, at eksperimentet/undersøgelsen har en primær sandsynlighed for succes (den kan så være kendt eller ukendt), og at forsøget foretages n gang. Vi forudsætter yderligere, at vi har en hypotese (dvs. en påstand) om p. Hypotesen kaldes nulhypotesen og skrives som H 0. Hertil er der altid en modhypotese (modpåstand) H. Et eksempel kunne være at 75% af blomsterfrøene spirer eller 43 slag ud af 00 med en terning vil kunne give en 6er. Vi tester med andre ord om en primærsandsynlighed er sand(synlig). Nogle vigtige begreber her til inden vi begynder at lave beregninger er: Signifikansniveau (α) Til en undersøgelse vælger vi et signifikans niveau (hvor stor er risikoen for at vi forkaster en sand nulhypotese. Hvor stor er risikoen for at tage fejl). Signifikansniveauerne viser, hvor sandsynligt det er at et resultat skyldes tilfældigheder. Det mest brugte niveau for at et resultat er troværdigt er 0.5%. Det betyder, at der er 95% sandsynlighed for at resultatet er sandt (nulhypotesen), og der er 5% sandsynlighed for fejl (at det ikke er sandt). I andre sammenhænge bruges andre signifikansniveauer. F.eks. kræves der i medicinske sammenhænge et signifikansniveau på α 0,0, medens man i økonomi ofte vælger et signifikansniveau på α 0,. Jo skrappere krav til undersøgelsen jo lavere signifikansniveau.

Acceptmængde Er de værdier som ligger indenfor vores signifikansniveau. Antal mulige succeser hvis kumulerede sandsynlighed ligger inden for vores signifikans niveau. Lidt løst skrevet er acceptmængden: Dobbeltsidet α/2 Kumulerede sandsynlighed (- α/2). Hvilket er værdierne mellem de vandrette streger og punktet lige over den øverste (hvilket vi gør rede for senere). Venstresidet kumulerede sandsynligheder Hvilket bliver alle værdier over den nederste linje Kumuleret sandsynlighed 0.9 0.8 0.7 0.6 0.5 Dobbelt sidet y = - a/2 0.4 0.3 0.2 0. y = a/2 0 20 30 40 50 60 70 80 90 00 Højresidet Kumulerede SS (- α) Hvilket bliver alt under den øverste linje samt punktet lige over. Kritiskmængde Er de værdier som ligger udenfor vores signifikansniveau/acceptmængde. Antal mulige succeser hvis kumulerede sandsynlighed ligger udenfor vores signifikans niveau. Lidt løst skrevet er kritiskmængde lig med Kumuleret sandsynlighed 0.9 0.8 0.7 0.6 0.5 0.4 Højre sidet y = - a 0.3 0.2 0. 0 20 30 40 50 60 70 80 90 00 Dobbeltsidet kumulerede SS Venstresidet Kumulerede SS Højresidet α α α ( α) kumulerede SS kumulerede SS. Kumuleret sandsynlighed 0.9 0.8 0.7 0.6 0.5 0.4 Venstre sidet 0.3 0.2 0. y = a 0 20 30 40 50 60 70 80 90 00 Lad os vende tilbage til forsøget med slag med terning. En version af Barske Berhard og Lasse lusk kunne være: Der bliver slået med en terning 00 gange. Der bliver slået 23 seksere. Er det en ægte terning? Umiddelbart lyder det til at være en almindelig terning, da /6 af slagene burde blive en sekser (altså ca. 7), og 23 er jo ikke langt fra Nulhypotesen H 0 : Terningen er ægte og dermed er 2

Modhypotese H : Terningen er falsk og dermed er Hvis vi kort tænker tilbage til vores binomialfordeling under sandsynlighedsregning hvor vi slog 5 slag, så kunne vi opstille følgende tabel, hvor vi kendte den primære sandsynlighed: Antal succeser t P(X=t) (Kumulerede SS) ( ) 0 ( ) ( ) ( ) 0.40878 ( ) ( ) ( ) 0.803755 2 ( ) ( ) ( ).964506 3 ( ) ( ) ( ).996656 4 ( ) ( ) ( ).99987 5 ( ) ( ) ( ) Lad os prøve med et større sæt. Det handler stadig om at slå seksere, men nu slår vi 00 gange med terningen. Dette ville give os følgende graf med sandsynligheder. Fordelingen ser således ud Sandsynlighed 0. 0. 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.0 Sandsynlighed 0. 0. 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.0 Zoome 0 20 30 40 50 60 70 80 90 00 0 20 30 Det er tydeligt at se, at sandsynligheden for at slå mere end 30 seksere er stort set ikke til stede. Da det vi skal teste er om det er sandsynligt med et signifikansniveau på 5% om vi slår 23 seksere med en ægte terning, så lad os kigge på de kumulerede sandsynligheder. 3

Kumuleret sandsynlighed Kumuleret sandsynlighed 0.9 0.8 y = - a/2 0.9 0.8 y = - a/2 0.7 0.7 0.6 0.6 0.5 0.5 Zoome 0.4 0.4 0.3 0.3 0.2 0.2 0. y = a/2 0. y = a/2 0 20 30 40 50 60 70 80 90 00 6 8 0 2 4 6 8 20 22 24 26 28 30 Vælges et signifikansniveau på 5%, skal hver de to dele af den kritiske mængde, der ligger i hver sin ende af tallinjen, have sandsynligheder, der ligger tæt på, men ikke overstiger 2.5%. Den maksimale værdi i den nedre kritiske mængde må være det største af de tal, som opfylder at ( ). Dermed må grænsen mellem acceptmængde og kritiskmængde i venstre side være givet ved ( { }) { } Den øvre grænse findes ved at bestemme det mindste tal i, som opfylder at ( ). Dermed må grænsen mellem acceptmængde og kritiskmængde i højre side være givet ved ( ) ( ) ( ) ( ) Acceptmængde={0,,2,3,4,5,6,7,8,9,20,2,22,23,24} Kritiskmængde={0,,2,3,4,5,6,7,8,9,25,26,..,00} Så hvis vi på et signifikans niveau skal udtale os om terningen med 23 seksere, så kan vi ikke forkaste vores nulhypotese. Terningen kan godt være ægte. Men ved 25 seksere, ville vi have forkastet nulhypotesen og antaget at terningen var falsk. Læs eksempel 6.6 side 59, opgave 350 side 6, opgave 355 side 62, opgave 356 side 62 Læs eventuelt historien om Lasse Lusk og Barske Berhard.. 4

χ 2 -test (uafhængighedstest) Med dette test skal vi undersøge om der er uafhængighed mellem rækkerne i en tabel. Dette kunne være om hvorvidt holdningen til matematik i gymnasiet er uafhængig af køn. Vores egentlige tanke er at der er forskel på køn og interesse for matematik. Vi opstiller derfor en uafhængighedstest, som forhåbentlig kan forkastes ved et relativt lille signifikansniveau. Her er det vigtigt at påpege at antal observationer i hver enkelt celle skal være større eller lig med 5. Hvis dette ikke er muligt, må man slå søjler sammen. Vi laver en empirisk undersøgelse på gymnasiet, hvor vi spørger efter køn, og om matematik er et spændende fag. Fra denne undersøgelse får vi følgende tabel. Observerer Enig Uenig Ved ikke I alt Dreng 58 2 0 80 Pige 36 28 22 86 I alt 94 40 32 66 Da denne form for test er en uafhængighedstest så skal nulhypotesen altid være at der gælder uafhængighed. H 0 : Holdningen til matematik er uafhængig af køn H : Holdningen til matematik er afhængig af køn Vi starter med at antage at H 0 er sand, og beregner derfor andelen af forventede elever. Vi estimerer en forventet tabel udfra at er enige (uanset køn), er uenig og ved ikke. Da vores hypotese påstår at det er uafhængigt at køn, så må den procentvise fordeling være ens for piger og drenge. Altså må vi forvente at drenge er enige osv. Forventet Enig Uenig Ved ikke I alt Dreng 80 Pige 86 I alt 94 40 32 66 Afvigelserne mellem det resultat, vi fik i forsøget, og de her udregnede værdier er et udtryk for, hvor langt forsøget er fra den verden, der er estimeret i H 0. Vi kan derfor bestemme en teststørrelse, som siger noget om hvor stor afvigelsen er. Denne teststørrelse kan så omsættes til en p-værdi som fortæller noget om sandsynligt det er at få vores observation eller det som er værre (altså endnu større teststørrelse). 5

Teststørrelse X 2 Vi kan desværre ikke bruge summen af afvigelserne til noget, da disse altid vil give 0 (prøv selv ). Vi vælger derfor at kigge på følgende teststørrelse: ( ) En stor teststørrelse tyder i denne sammenhæng på, at nulhypotesen skal forkastes (at vi ikke tror på den). Med andre ord så får store værdier af X 2 os til at tro mere på H. I undersøgelsen har vi ( ) ( ) ( ) ( ) ( ) ( ) Hvornår teststørrelsen er for stor afhænger af størrelsen af vores tabel (matrix). Jo større tabel jo større skal teststørrelsen være. Her kommer antal frihedsgrader ind i billedet. Frihedsgrader Løst oversat: Hvor mange felter i tabellen kan udfyldes frit? Her skal vi huske på, at vi kender antallet af respondenter. Generelt kan vi udregne antal frihedsgrader som ( ) ( ) I undersøgelsen er ( ) ( ) Når teststørrelsen er kendt og vi kender antal frihedsgrader, så skal vi anlægge et signifikansniveau. Signifikansniveau 5% signifikans niveau betyder at der er 5% sandsynlighed (risiko) for at forkaste en sand nulhypotese Jo skrappere krav til undersøgelsen jo lavere signifikansniveau. Vi vil være sikre på, at vi først forkaster nulhypotesen når vi er helt sikre på at den ikke holder. Forskellen skal være signifikant. I kriminalsager skal enhver tvivl komme den anklagede til gode, så vi må håbe at dommere sætter fejlsandsynligheden, signifikansniveau, lavere end %... I opgaven vælger vi et signifikansniveau på 5%. 6

Skal vi forkaste H0?? Når vi kender teststørrelsen og antal frihedsgrader, så kan vi enten slå op i en tabel som denne I vores tilfælde kan vi se at hvis vi skal beholde vores hypotese, så skal teststørrelsen være mindre end 5.99. Det er ikke tilfældet, så vi må forkaste nulhypotesen, der er altså sammenhæng mellem interessen for matematik og køn. Denne teststørrelse kan også omregnes til en sandsynlighed (til en p-værdi). P-værdi p-værdien udtrykker sandsynligheden for at observere den (numerisk) fundne forskel, eller én der er større, forudsat at nulhypotesen er sand. P-værdien er altså summen af sandsynlighederne for det observerede eller værre. Denne værdi kan TII eller Excel give os. Kan også betragtes som den signifikansgrænse, der lige præcis ville forkaste nulhypotesen. Hvis vi får givet teststørrelsen og antal frihedsgrader kan vi blot taste i TII chisquarecdf 5.8528,, 2.00036. Omregnet svarer det til 0.036% for det observerede eller det som er værre. Så må det observerede være skidt. Det den gør, er at den summere sandsynlighederne fra teststørrelsen og til uendelig (her i en fordeling med 2 frihedsgrader). χ2-fordeling. Vi så under binomialtest, at sandsynlighederne fordelte sig på en bestemt måde. På samme måde kan vi opstille en sandsynlighed for alle kombinationer af vores observationsskemaer. Som første koordinat benytter i os af teststørrelsen. På denne måde vil der fremkomme følgende fordelinger afhængig af antal frihedsgrader. Sandsynlighed Fordeling m ed frihedsgrad Fordeling m ed 2 frihedsgrader 0.8 Fordeling m ed 3 frihedsgrader Fordeling m ed 4 frihedsgrader 0.6 0.4 0.2 Vi vil ikke komme ind på hvorfor der ser ud som de gør. 2 3 4 5 6 7 8 Teststørrelse X ^2 7

Vi kan se at jo flere antal frihedsgrader jo fladere bliver kurven. Tænk på dette test som et højre siddet test (som ved binomialtesten/fordelingen). Vi er altså interesseret i at vide, hvor langt ud på x-aksen vi skal, før end den kumulerede sandsynlighed runder de 0,95. Lad os kigge på fordelingerne ud fra de kumulerede sandsynligheder. Graferne minder en del om tilsvarende billeder under binomialtest. Her kan vi let se acceptmængde og kritiskmængde. Prøv at sammenholde de kritiske værdier med tabelværdierne fra tidligere. Kumuleret sandsynlighed y = 0.95 Kumuleret sandsynlighed df = 2 df = 3 df = 4 y = 0.95 df = 2 df = 3 df = 4 (5.9946,.95) (7.8473,.95) (9.48773,.95) 2 3 4 5 6 7 8 9 0234 Teststørrelse X^2 2 3 4 5 6 7 8 9 0234 Teststørrelse X^2 Lad os prøve at kigge på fordelingen med to frihedsgrader. Vi kan også tillade os at tænke i acceptmængde og kritiskmængde som under binomialtesten.. Her er fordelingen kontinuert og ikke diskret som under binomialtesten. Det betyder at arealet under grafen angiver den kumulerede sandsynlighed på det givne interval, og at ALLE teststørrelser kan optræde. Vi kan bestemme den eksakte teststørrelse, som markerer grænsen for de 0.95 ved følgende i TII: solve(chisquarecdf(0, x, 2)=0.95, x) = 5.9946 Sandsynlighed df = 2 Dette er vores kritiske værdi, altså værdien der skiller accept- og kritiskmængde. Læg mærke til at det er den samme som i fandt i vores skema tidligere. integral =.95 Hvis vi får en teststørrelse, som falder inden for det skraverede område (acceptmængden) fra [0;5.9946[, så vil nulhypotesen ikke kunne forkastes. Vores teststørrelse på 5.85 ligger langt inden i det kritiske område, og derfor må vi forkaste nulhypotesen. 2 3 4 5 6 7 8 9 0 Teststørrelse X^2 8

Sandsynlighed 0.2 0.5 0. df = 5 Hvis vi kigger på χ 2 -fordelingen for 5 frihedsgrader og finder den teststørrelse, som vil give os en p-værdi på 0.05 (5% signifikansniveau), så får vi følgende billede: solve ChiSquarecdf 0, x, 5 = 0.95, x x =.0705 Warning: More solutions may exist 0.05 Dette er vores kritiske værdi, altså værdien der skiller accept- og kritiskmængde. 2 3 4 5 6 7 8 9 0 2 3 Teststørrelse X^2 Så jo flere frihedsgrader jo større skal teststørrelsen være før end det blive Kritisk. Det røde snit angiver grænsen for teststørrelsen, hvor et signifikansniveau på 5% bliver forkastet. Prøv at kigge på tabellen fra tidligere og skab en sammen hæng.. Den røde streg markerer ligeledes p-værdien 0.05. P-værdier mindre end 0.05 vil være at finde til højre for den røde streg og omvendt. Jo skrappere krav til signifikans jo længere mod højre flytter vi grænsen (den røde streg). I praksis Bliver vi bedt om at test ovenstående undersøgelse med eleverne og holdning til matematik, så benytter vi TII til at give os en teststørrelse. obs := Først opretter vi to matricer via menuen. Disse indsættes nu i en Chi-square test og tegning og værdier hentes ud forv := 0.0005 Chi-square test Nu kan vi vælge at kigge i en tabel med vores 0.0004 p =.00036 X 2 -teststørrelse, men vi kan også nøjes med at 2 kigge på vores p-værdi. Da denne er langt X = 5.8528 0.0003 under vores signifikansniveau (den svarer til df = 2. 0.0002 0.036%), så forkaster vi nulhypotesen. Havde p- værdien ligget over vores signifikansniveau så 0.000 havde vi ikke kunnet forkaste nulhypotesen. X² = 5.8528 p =.00036 2 3 4 5 6 7 8 9 0 2 3 4 5 6 7 8 9 20 opgave 357 og opgave -2 bagerst i At træffe. 9

χ 2 -Goodness of fit Med dette test kan vi teste om en række observerede værdier stemmer overens med tilsvarende teoretiske/forventede værdier. Den eneste forskel der er fra uafhængighedstesten er, at vi her kun har én række. Teststørrelsen bestemmes ved ( ) Antal frihedsgrader er (næsten) det samme som tidligere. Her er der blot tale om (antal søjler ) Et eksempel kunne være at teste Mendels lov om arveegenskaber hos planter. Mendel påstod at hvis man krydsede en rød og hvid plante, så ville man få følgende: Far/Mor Rød Hvid Rød Rød Lyserød Hvid Lyserød Hvid Vores hypoteser: H 0 : Udfaldet af farver i forsøget adskiller sig ikke signifikant fra Mendels lov. Mendels lov må gælde. H : Udfaldet adskiller sig signifikant fra Mendels lov. Mendels lov gælder ikke. Signifikansniveau vælges til 5%. I et forsøg fik en gymnasieklasse følgende resultat: Rød Lyserød Hvid I alt Observeret 5 88 97 400 Rød Lyserød Hvid I alt Forventet 00 200 00 400 Her er der kun en række og ingen totaler under søjlerne. Derfor er antallet af frihedsgrader i dette tilfælde 2. 0

Teststørrelsen beregnes som tidligere ( ) ( ) ( ) Nu kan vi gå tilbage til tabellen og kontrollere teststørrelse kontra frihedsgrader. Her kan vi se at den kritiske værdi er 5.99. Dette fortæller os at vi ikke kan forkaste nulhypotesen. Mendels lov kan derfor godt være sand. Hvis vi gerne vil have p-værdien frem, skal vi blot huske på at det er et udtryk for den samlede sandsynlighed for at få denne kombination eller det der er værre. Derfor taster vi i TII chisquarecdf 3.06,, 2.26536 Her bliver vi blot bekræftet i at nulhypotesen ikke kan forkastes. Den lader derfor til at den er sand. Lav opgave 354 side 62, opgaver fra vejledende eksamensopgaver på fronter.

Stikprøver Population I tilknytning til et observationssæt er det hensigtsmæssigt at indføre betegnelserne population og stikprøve. Et observationssæt vil vi altid opfatte som en stikprøve fra en population. Tag et eksempel fra den daglige nyhedsformidling: 60% af stockholmerne er imod indførelse af bompenge for biltrafikken i Stockholm Fra 3. januar 2006 startede et forsøg i Stockholm, hvor man afkrævede bilister bompenge ved indog udkørsel fra den svenske hovedstad. I den anledning havde man spurgt 600 stockholmere om deres holdning til forsøget, og 60% af de adspurgte var imod forsøget. Formålet med undersøgelsen var at belyse stockholmernes holdning til bompenge. Derfor må man formode, at populationen var hele Stockholms befolkning. Observationssættet bestod af de 600 svar på spørgsmålet (for, imod, ved ikke), og stikprøven bestod af de 600 stockholmere, som blev spurgt. Men det er valget af stikprøven, der i virkeligheden afgør, hvad populationen har været. Hvis de 600 personer i stikprøven alle var bilister, så er stikprøven ikke repræsentativ for alle stockholmere, da bilister oplagt kunne have et andet syn på bompenge end andre indbyggere. Af samme grund ville det ikke være repræsentativt at spørge 600 tilfældigt forbipasserende på gågaden. Repræsentativ En stikprøve skal være repræsentativ for den population, man udtaler sig om. En stikprøve anses for repræsentativ, hvis den i alle henseender afspejler de forhold ved populationer, som kan have betydning for resultatet af undersøgelsen. Det kan være meget svært at sikre, fordi man ikke altid på forhånd kan vide, hvilke forhold, der har betydning. Til demonstration af begrebet repræsentativitet, se på følgende eksempler: Eksempel : Hvis man vil undersøge, hvilken højde eleverne på et hold har, så er det ikke repræsentativt at måle højden af de elever, der sidder på første række. Den stikprøve kan indeholde systematiske fejl, fordi der kan være et mønster i elevernes valg af siddeplads. Måske sidder de højeste elever bagest, eller pigerne forrest e.l. Eksempel 2: Hvis man vil undersøge, hvor stor en del af eleverne på en skole, der er overvægtige, er det ikke repræsentativt at vælge de første 20 elever, der selv melder sig til en undersøgelse. Eksempel 3: Hvis man vil undersøge dette års karakterer i skriftlig dansk ved studentereksamen, er det ikke repræsentativt at vælge eleverne på Sct. Knuds Gymnasium 2

Valg af stikprøve Som udgangspunktet for valg af en stikprøve vil man kræve, at den er tilfældigt valgt fra populationen, altså valgt ved en form for lodtrækning, hvor alle i populationen har samme sandsynlighed for at komme med i stikprøven. Ved at vælge stikprøven tilfældigt undgår man systematiske fejl i selve udvælgelsen. Men man kan naturligvis ikke gardere sig imod, at en tilfældigt valgt stikprøve uheldigvis kommer til at indeholde systematiske fejl, der får betydning for resultatet. I nogle stikprøvesituationer, f.eks. i politiske meningsmålinger, benytter man ofte faste vælger-stikprøver, der er udvalgt, så de i sammensætning er repræsentative for hele vælgerbefolkningen, en slags mini-danmark, med hensyn til alder, køn, erhverv, indtægt osv. Det er en anden måde at sikre sig repræsentativitet på. Eksempel 4: På Experimentarium i Hellerup, København, kan de besøgende besvare et genetisk spørgeskema, hvor et af spørgsmålene er, om du er venstre- eller højrehåndet. En bestemt dag er der indkommet 27 svar, hvoraf de 40 svarer venstrehåndet, og 77 svarer højrehåndet. Observationssættet er de 27 svar (højre, venstre). Populationen er de besøgende på Experimentarium den pågældende dag, og stikprøven er de 27 personer, der har valgt at svare på skemaet. Eksempel 5: I en undersøgelse af unge og religiøsitet har deltaget 462 elever i gymnasiet og hf. På spørgsmålet Tror du på et liv efter døden svarer 55% ja. Observationssættet er de 462 svar (ja, nej, ved ikke). Populationen er alle elever, som går i gymnasiet og hf på undersøgelsestidspunktet, og stikprøven er de 462 elever Eksempel 6: På en medicinalvarefabrik producerer de gigtpiller, som skal indeholde en bestemt dosis, f.eks. 8 mg, af det aktive stof. En produktionskontrol foretages ved en dag at måle det præcise dosisindhold i 200 tilfældige piller fra produktionen. Observationssættet består af 200 tal (dosismålinger). Populationen er den totale produktion af gigtpiller, og stikprøven er de 200 tilfældigt udtagne piller. I Danmark vejes alle nyfødte børn, så den egenskab (vægten) er målt på hele populationen. Det samme gælder alle værnepligtiges højde og alle afgivne stemmer ved et valg. Men i nogle tilfælde er det enten umuligt eller uoverkommeligt at måle hele populationen, og i disse tilfælde er det vigtigt at vide, hvor sikkert man kan udtale sig om den målte egenskab ved hele populationen, selvom man kun kender den for en stikprøve. Det er jo netop, hvad man gør, når man udtaler sig om resultatet af et forestående valg på grundlag af en opinionsundersøgelse med 000 personer. 3

Vigtige overvejelser Nogle institutioner eller virksomheder får deres viden ud fra brug af stikprøver. Her kan nævnes Gallup, Observa, Megafon, Vilstrup, Epinion, etc. Opgaverne kan være meget forskelligartede: Det kan være en prognose til et folketingsvalg, en brugerundersøgelse for et givet produkt, en analyse af hvilke programmer TV-seerne ser osv. Stikprøver hentyder til, at man forsøger at sige noget om hele populationen udfra et begrænset udpluk. I mange tilfælde er man simpelthen nødt til at bruge denne form, da man ikke kan spørge hele Danmarks befolkning, hvad den synes om økologiske varer eller hvilke TV-udsendelser, den ser. Det er ikke praktisk muligt, og selv om man forsøgte, ville man ikke kunne komme i kontakt med alle. Det ville også være alt for dyrt og tidskrævende. Derfor benytter man stikprøver. Her er det vigtigt at:. Nøje overvejelse af hvordan persongruppen sammensættes/udvælges. 2. Man skal være omhyggelig med, hvordan man stiller spørgsmålene. 3. Resultaterne af spørgeundersøgelsen efterbehandles statistisk. Nogle kommentarer til ovenstående punkter: ) Det er meget vigtigt, at man sammensætter gruppen af personer, som man udspørger, så den er repræsentativ for hele populationen, hvad enten det er en bestemt del af befolkningen eller hele befolkningen. Det er ingenlunde nemt. Man skal passe meget på, at der ikke kommer bias, dvs. en skævhed, i stikprøven. Ønsker man for eksempel at finde ud af befolkningens holdning til krigen i Afghanistan, så er det ikke særligt fornuftigt at gå ned på den lokale gågade og spørge folk ud, om soldaterne skal trækkes hjem. Folk på gågaden er nemlig ikke særlig repræsentative for Danmarks befolkning. Der vil formentlig være et underskud af folk i arbejde og et overskud af husmødre. Der er altså en skævhed i sammensætningen. Man kan formode, at der vil være et overskud af kvinder tilstede og kvinder er gennemsnitligt mere imod krig end mænd er. En anden ting, man også skal passe på er, når udspørgeren selv vælger den, der udspørges. Der kan nemlig være en tendens til at spørge personer på gaden, som ser venlige og imødekomne ud, og der er en mulighed for, at denne gruppe af personer kan have en anden holdning til et spørgsmål, end gennemsnittet af befolkningen. At spørge på Internettet skal man også være påpasselig med, da den ældre del af befolkningen er underrepræsenteret her. Hvis man undersøger de unges præferencer, så gør dette måske ikke så meget. Den klassiske bommert, som ofte nævnes i forbindelse med udvælgelse af stikprøver er den, der blev begået af Literary Digest i deres opinionsundersøgelse for valget i USA i 936: Franklin D. Roosevelt havde fuldført sine første 4 år som præsident, og genopstillede mod republikaneren Alfred Landon fra Texas. Magasinet Literary Digest forudsagde en overvældende sejr til Alfred Landon, med kun 43% af stemmerne til Roosevelt. Undersøgelsen var endda baseret på den største stik-prøve nogensinde: 2,4 millioner! Magasinet havde et godt ry: det havde udpeget den rigtige præsident siden 96. Imidlertid vandt Roosevelt overvældende: med 62% mod 38% og Literary Digest gik fallit kort efter. Hvordan kunne magasinet begå sådan en kæmpe fejl den største nogensinde af et etableret og vigtigt menings-målingsinstitut? Man havde jo udspurgt en kæmpe gruppe. George Gallup var netop ved at grundlægge sit meningsmålingsinstitut og fik sit 4

gennembrud ved at forudsige resultatet af valget med en afvigelse på kun procent, og han havde endda kun udspurgt 50.000 personer. Det var altså ikke stikprøvens størrelse, som var altafgørende, her var det den nye markedsanalyse-teknik med anvendelse af den repræsentative stikprøve, der havde bestået sin prøve! Magasinets fejl bestod i at de sendte spørgsmål ud til 0 millioner mennesker med posten. Navnene fra de 0 millioner mennesker kom fra kilder som telefonbøger og medlemmer af klubber. Denne fremgangsmåde havde en tendens til at frasortere de fattige, hvoriblandt der ikke var mange, som var medlemmer af klubber. Og dengang havde kun /4 af befolkningen telefon. Grunden til, at en sådan fejl først skete i 936 og ikke før var, at i 936 fulgte de politiske holdninger mere økonomiske linjer... det havde ikke været tilfældet tidligere, hvor rige og fattige stemte mere ensartet. Så læren af dette eksempel er følgende: Når en udvælgelsesprocedure er skæv, så hjælper det ikke at tage en større stikprøve. Det vil blot gentage fejltagelsen i større målestok! Bias En anden ting, som stikprøver kan risikere at lide under er non-response bias, hvormed menes skævhed på grund af for mange personer, som nægter at svare på spørgsmål. Det viser sig nemlig, at gruppen af personer, som ikke svarer, undertiden adskiller sig fra resten på vigtige områder. Faktisk led Digests undersøgelse netop heraf, idet kun 2,4 millioner ud af de 0 millioner svarede! Undersøgelser har vist, at lav-indkomst og høj-indkomstgrupperne har en større tendens til ikke at svare, så mellem-indkomstgrupperne er overrepræsenteret. Gode meningsmålings-institutter kender dette problem og har metoder til at tage højde for det. Hvis man ringer til folk, så kan man for eksempel ringe tilbage gentagne gange til de folk der ikke træffes umiddelbart. Men hvilke metoder benyttes da? Besøgsinterviews, telefoninterviews, postomdelte interviews eller Internet-interviews? Svaret er, at det kommer an på formålet og undersøgelsens form. Lange og teksttunge undersøgelser egner sig ikke til oplæsning. Her er det bedre, hvis den spurgte har noget at kigge på. Det kan også være, at respondenten skal reagere på et logo etc. Besøgsinterviews benyttes også, men ikke så meget som tidligere. De kræver mange resurser. Det skal dog også nævnes, at nogle undersøgelser kræver helt andre former. For eksempel TVseer undersøgelser, hvor et panel af personer har monteret en måler på deres TV, eller Internetbrugere, som har installeret et særligt program for at kunne registrere deres vaner på Internettet. Internettet er godt til at måle folks reaktion på reklamer, radiospots eller andet audiovisuelt materiale. En væsentlig årsag til en anden type fejl er, hvis man giver intervieweren lov til selv at vælge, hvem der skal interviewes, eventuelt indenfor en bestemt undergruppe. Det var faktisk årsagen til en anden kendt fejlbedømmelse ved præsidentvalget i 948 i USA. Et problem ved at overlade for meget til menneskets valg er, at intervieweren vil udspørge dem, der er lettest at få fat i. I 948 resulterede det i, at man udvalgte for mange republikanere, da de var en smule nemmere at interviewe. Løsningen på dette problem er, at man indfører et element af tilfældighed ved at trække lod. Det stiller dog nogle spørgsmål: Har man en liste med alle indbyggere? Hvordan håndterer man rent praktisk, hvis en udvalgt person ikke er hjemme eller bort-rejst? etc. For at undgå for mange praktiske problemer kan man vælge at lave klyngestikprøver, hvormed menes, at man vælger et antal områder ud, eventuelt inddeler i et 5

antal undergrupper, hvori man så udtager personer ved simpel tilfældig lodtrækning. Denne metode er især nyttig ved besøgsinterview, hvor det også gælder om at begrænse transportomkostningerne. Der er mange variationsmuligheder her. 2) Man skal være omhyggelig med, at man stiller spørgsmål, som er klare og utvetydige. Og så skal spørgsmålene ikke være ledende. Det duer for eksempel ikke at spørge en person, om han/hun motionerer meget, for hvad er meget motion? Man skal heller ikke anvende fremmedord, som mange ikke kender. Spørgsmål, som lægger op til politisk korrekte svar bør undgås. 3) Den tredje omkostning er, at de indsamlede data skal behandles statistisk. Man kan ikke bare uden videre tælle sammen, som hvis man har data for en hel population. I ret stort omfang kan man for eksempel korrigere for skævheder i stikprøven. Lad os se på et eksempel. Eksempel 7: Lad os gøre det tankeeksperiment, at man udspørger et antal personer, om de vil stemme JA eller NEJ til den nye EU-traktat. Lad os antage, at man i stikprøven fik spurgt 47% kvinder og 53% mænd og at der blandt mændene var en gennemsnitligt Ja-procent på 58%, mens der blandt kvinderne var en gennemsnitlig Ja-procent på 45%. Hvis man kritikløst havde godtaget denne stikprøve som værende repræsentativ, så ville man altså få en total Ja-procent ved at udregne det vejede gennemsnit: 0,47 0,45 0,53 0,58 0,59 5,9% Imidlertid er der relativt flere mænd end kvinder i stikprøven i forhold til hele den stemmeberettigede del af befolkningen, hvor der er 48,8% mænd og 5,2% kvinder. Vi korrigerer derfor ved at benytte de korrekte vægte frem for stikprøvens: 0,52 0,45 0,488 0,58 0,53 5,3% I praksis vil man selvfølgelig også skulle korrigere for andre størrelser end køn. Gallup benytter også vejning til at korrigere for, at der er nogle persongrupper, som det er sværere at få fat i end andre pr. telefon. Eksempelvis har Gallup lidt sværere ved at få fat i unge mænd. Forhold, der typisk korrigeres for ved prognoser til folketingsvalg er køn, alder, valgkreds, husstandsstørrelse og partivalg ved forrige folketingsvalg. Det er ikke nødvendigvis alle skævheder, man kan veje sig ud af, så målingerne kan udover den statistiske usikkerhed godt være behæftet med mindre fejl, som påvirker resultatet systematisk. Fejl af denne type er i sagens natur ukendte, men meget tyder på, at der er tale om ret små ting. Endelig skal det siges, at man også forsøger at tilrettelægge (stratificere) sammensætningen af stikprøven, før undersøgelsen foretages, men det kan kun lade sig gøre, hvis man på forhånd har de relevante oplysninger om respondenterne. Det haves ikke, hvis man ringer til tilfældige 6

telefonnumre. Hvis der derimod er tale om en undersøgelse baseret på et medlemsregister af en slags, gøres det ofte. Også i tilfældet med Internet-undersøgelser, hvor Gallup på forhånd har en masse baggrunds-oplysninger om det panel af personer, man har til rådighed. Dette var en introduktion til den generelle del af spørgeskemaer og eventuelle fejl koblet til undersøgelsen. Nu vender vi blikket mod de to egentlige test, som vi skal kigge nærmere på. Vi forudsætter i det efterfølgende at vores datamateriale er i orden og uden bias. Men stikprøver viser ikke altid sandheden. Det kan gå galt på to måder: Fejl af type : En sand hypotese forkastes. Fejl af type 2: En falsk hypotese accepteres. 7