Stikprøver, binomialtest og chi^2 test er nogle af de punkter som denne note kommer ind på.

Relaterede dokumenter
Stikprøver, binomialtest og chi^2 test er nogle af de punkter som denne note kommer ind på. Det er et supplement til Vejen til Matematik

Stikprøver, binomialtest og chi^2 test er nogle af de punkter som denne note kommer ind på. Det er et supplement til Vejen til Matematik

Notat 16. august 2017 J-nr.: / Stort set hele befolkningen har kendskab til eller i det mindste hørt om håndværkerfradraget.

Forbrug hos Danmarks befolkning. Forbrug hos Danmarks befolkning

Befordring af skoleelever Regler og principper. Administrativ vejledning

for matematik pä B-niveau i hf

Initiativ 11 : Analyse af risikoparameteren materielle afgørelser

Skolevejsanalyse Hjørring Kommune Samlet rapport

Notat. Udviklingen i hjemmeplejen.

Elevtrivselsmålingen på erhvervsuddannelserne, 2016

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

for gymnasiet og hf 2016 Karsten Juul

Hłringssvar ang. omorganisering af stłtteomr det 0-5 r.

FORÆLDRETILFREDSHEDSUNDERSØGELSE

Bilag 2. Beregning af de korrigerede netvolumenma l

Maple 11 - Chi-i-anden test

Skabelon og vejledning til udfærdigelse af handlingsplan

Udkast til revideret Vedtægt for Mandøforeningen. Ændringer i forhold til gældende vedtægter er anført i understreget kursiv tekst

Rapport fra arbejdsgruppen vedr. Netv rksanbringelser:

Høring af udkast til vejledning om produktionserhverv

Kortlægning af betalingsfrister i erhvervslivet

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

for matematik pä B-niveau i hf

Værdier for samarbejdet med pårørende - Sundhed og Omsorg

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Skolerapport Svarprocent: 73,6% Antal besvarelser: 546 Kirkebakkeskolen

Notat. Kvalitetsprocedure for forsøg med helhedsorienteret bygge- og anlægstilsyn. Indhold

KASSE- OG REGNSKABSREGULATIV Bilag 3.4. Ledelsestilsyn

Se hvordan på

Monitorering af tvang i psykiatrien

VEDTÆGTER. Vedtægter af 19. september 2014 for Danske Professionshøjskoler, CVR-nr

Gode råd om at drikke mindre Fakta om alkohol

Vejledning til kommunerne om kontrol af elever indskrevet på en fri grundskole 5. september 2017

en proces evne til at producere output inden for de specificerede grænser

Voksen Tourette Træf den September 2017

Mange flere EU-borgere kan stemme til kommunalvalget

Vejledning til ældre- og handicapråd vedr. høring af udbudsmaterialet i forbindelse med udbud af Bleer med bevilling

Befolkning. Regionale fremskrivninger (40)

Personlig stemmeafgivning

Opgave 2 è20èè Det er velkendt, at f lgende algoritme er gyldig og korrekt. Algoritme: Heltalskvadratr Stimulans: n: nç0 Respons: r: r 2 ç n é èr +1è

Nøgletal til resultatdokumentation

Ankestyrelsens brev til Læsø Kommune. Kommunalbestyrelsens beslutning den 25. juni 2018

Navision Stat 9.3. Kvikguide for håndtering af Peppol dokumenter. Overblik. Side 1 af 12. ØSY/kkp Dato

Spørgeskemaundersøgelser og databehandling

DEN EUROPÆISKE UNION EF-Sortsmyndigheden

Nyhedsbrev. EU- & Konkurrenceret. 3. januar Fængselsstraf i kartelsager ny konkurrencelov vedtaget

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Referat Hovedudvalget Arbejdsmiljø og MED

Fri bil og specialindrettede biler - Beskatning kan undgås, hvis der er tale om et specialindrettet køretøj.

BOLIGFORENINGEN VIBO

Frivillig musikundervisning. Sct. Ibs Skole

Tjek mayonnaisen! Hvordan virker en emulsion?

Christina Søndergaard Online Marketingchef

Nyhedsbrev til abonnenter - Juli Kasserede EU-regler

Ændringer i kvalitetsstandarderne 2018

Der er brug for at du...

KOMMUNER KOM GODT I GANG MED EU-PROJEKTER

R E T R E A T S F O R P A R. LIV i kærligheden. Modul 5: Frihed og Ansvar

Emne Tilbagemelding fra workshop Yderligere tilbagemeldinger Forvaltningens indstilling

Pris- og produktivitetsudvikling. Til brug i de økonomiske rammer for 2019 og 2020

Forslag. Lov om Danmarks Forsknings- og Innovationspolitiske Råd og Danmarks Frie Forskningsfond. Til lovforslag nr. L 118 Folketinget

POLITIKERSPØRGSMÅL. Spørgsmål nr.: Dato: 6. juni 2017 Stillet af: Anna Ehrenreich (V) Besvarelse udsendt den: 10. juli 2017

J E T T E V E S T E R G A A R D

Vikard kning p ldreomr det. - undersłgelse af mulighederne for at begr nse lłnudgifterne vha. internt vikarkorps

Forslag til vedtægtsændringer på Landsmødet 2008

3.a søger ud i det blå

ios og Android Vejledning

Lov om Danmarks Forsknings- og Innovationspolitiske Råd og Danmarks Frie Forskningsfond

c) For, er, hvorefter. Forklar.

Sådan kommer du i gang!

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Vedvarende uligeløn mellem kvinder og mænd

Ved et folketingsvalg eller en folkeafstemning spørger man alle stemmeberettigede, og kun en del af dem stemmer.

LANDSDÆKKENDE PATIENTUNDERSØGELSER 2011

for gymnasiet og hf 2017 Karsten Juul

Betons elasticitetsmodul. Lasse Frølich Betonteknolog, M.Sc.

Rådet for Den Europæiske Union Bruxelles, den 23. oktober 2017 (OR. en)

1. Sammenfatning af hłringssvar vedr. forslag til ny klubstruktur

Høringssvar til nyt boligområde ved Tingagervej, forslag til tillæg nr. 26 til Kommuneplan 2013 og lokalplan nr. 1136

Notat. 26. april Błrn, Skole og Kultur

STOMI INFO. Motion og livsstil

Vejledende besvarelser til opgaver i kapitel 14

MIDTVEJSRAPPORT Projekt Peer-støtte i Region Hovedstaden PIXI-UDGAVE

Den sv re balance n Side 2

Faktureret elsalg (GWh)

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

3. Trekantsberegninger. Gør rede for cosinusrelationen i vilkårlige trekanter.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Vikingeskibs sejlads På Vikingeskibs museet kan man komme ud og sejle med et af deres 3 forskellige vikingeskibe. På hvert skib er der et begrænset

REGLER 2017 OVERORDNEDE PRINCIPPER DEFINITIONER

Fagplan og mål for matematik 7-9 klasse

Louise Amalie Rasmussen Designteknolog 2015 Det afsluttende projekt, 4.semester

Psykiatriplan for Randers Kommune. - Med fokus p fremtidens udfordringer og ny viden. Strategigrundlag

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Giv Liv tilmeldingssystemet

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium

LANDSDÆKKENDE PATIENTUNDERSØGELSER Indlagte

Reklamepolitik. Randers Kommune Byr ds- og direktionssekretariatet Vedtaget i september 2007 og revideret i august 2009.

Transkript:

Hypotesetest s og spørgeskemaer Stikprøver, binomialtest og chi^2 test er nogle af de punkter som denne note kommer ind på. Kumuleret sandsynlighed 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Højre sidet y = 1 - a 10 20 30 40 50 60 70 80 90 100 Antal successer Kumuleret sandsynlighed 1Kumuleret sandsynlighed Henrik S. Hansen, Sct. Knud Gymnasium 0.9 1 0.8 0.9 Opgaver til hæftet kan hentes her. PDF Facit kan til opgaverne kan hentes her. PDF 0.7 0.8 0.6 0.7 0.5 0.6 0.4 0.5 0.3 0.4 0.2 0.3 0.1 0.2 y = 1 - a Højre sidet Højre sidet y = 1 - a 0.1 10 20 30 40 50 60 70 80 90 100 Antal successer 10 20 30 40 50 60 70 80 90 100 Antal successer 0.0005 0.0004 0.0003 0.0005 0.0002 0.0004 0.0001 0.0003 0.0002 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X² = 15.8528 p =.000361 0.0001 X² = 15.8528 p =.000361 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 V E R S I O N 5. 0 1

Indholdsfortegnelse Hypotesetest... 1 Hypotese... 1 Signifikansniveau (α)... 1 Binomialtest... 2 Signifikansniveau (α)... 2 Acceptmængde... 2 Kritiskmængde... 3 χ 2 -test... 6 Goodness of fit... 6 Teststørrelse X 2... 7 Frihedsgrader... 7 Signifikansniveau... 7 Skal vi acceptere eller forkaste H 0??... 7 P-værdi... 8 I praksis... 8 Uafhængighedstest... 9 Teststørrelse X 2... 10 Frihedsgrader... 10 Signifikansniveau... 10 Skal vi acceptere eller forkaste H 0??... 11 P-værdi... 11 I praksis... 12 χ 2 -fordeling.... 13 Stikprøver... 15 Population... 15 Repræsentativ... 15 Valg af stikprøve... 16 Vigtige overvejelser... 17 Bias... 18

Hypotesetest I mange tilfælde og i mange faglige sammenhænge må man træffe en afgørelse eller basere en overbevisning på et ikke fuldstændigt informationsgrundlag. I disse noter vil vi prøve at kigge på tre typer af test: Binomialtest: χ 2 -test (uafhængighed): χ 2 -test (Godness of fit): Der testes om en primærsandsynlighed er sand Der testes om der gælder uafhængighed mellem flere variable. Der testes det observerede følger en given fordeling. Ens for dem alle er, at vi tester en påstand (en hypotese). På baggrund af en sandsynlighedsberegning på en given observation accepterer vi eller også forkaster vi vores opstillede påstand (nulhypotese). Hypotese Vi skal altså altid opstille en nulhypotese (oftest skrevet som H0)som vi tester. Hertil hører en modhypotese (oftest skrevet som H1), som er den hypotese vi vælger hvis vi forkaster nulhypotesen. Alt afhængig af hvilken hypotese vi tester, så kan ordlyden variere. Signifikansniveau (α) Til en undersøgelse vælger vi et signifikans niveau (hvor stor er risikoen vi acceptere for at vi forkaster en sand nulhypotese). Signifikansniveauerne viser, hvor sandsynligt det er, at et resultat skyldes tilfældigheder. Det mest brugte niveau for at et resultat er troværdigt er 5%. Det betyder, at der er 95% sandsynlighed for at resultatet er sandt (nulhypotesen), og der er 5% sandsynlighed for fejl (at det ikke er sandt). I andre sammenhænge bruges andre signifikansniveauer. F.eks. kræves der i medicinske sammenhænge et signifikansniveau på α 0,01, medens man i økonomi ofte vælger et signifikansniveau på α 0,1. Jo skrappere krav til undersøgelsen jo lavere signifikansniveau. 1

Binomialtest Denne test benyttes til at undersøge stikprøver, hvor antallet med en bestemt farve, politisk holdning, eller kvalitetsniveau kan antages at være binomialfordelt. Vi antager med andre ord, at eksperimentet/undersøgelsen har en primær sandsynlighed for succes (den kan så være kendt eller ukendt), og at forsøget foretages n gang. (video) Vi forudsætter yderligere, at vi har en hypotese (dvs. en påstand) om p. Hypotesen kaldes nulhypotesen og skrives som H0. Hertil er der altid en modhypotese (modpåstand) H1. Et eksempel kunne være at 75% af blomsterfrøene spirer eller er det en ægte terning, når den slår 43 seksere ud af 100slag?. Vi tester med andre ord om en primærsandsynlighed er sand(synlig). Nogle vigtige begreber her til inden vi begynder at lave beregninger er: Signifikansniveau (α) For at foretage binomialtesten skal vi bruge et signifikansniveau. Signifikansniveauerne viser, hvor sandsynligt det er, at et resultat skyldes tilfældigheder. Det mest brugte niveau for at et resultat er troværdigt er 5%. Det betyder, at der er 95% sandsynlighed for at resultatet er sandt (nulhypotesen), og der er 5% sandsynlighed for fejl (at det ikke er sandt). Acceptmængde Antal mulige succeser hvis kumulerede sandsynlighed ligger inden for vores signifikans niveau. Lidt løst skrevet er acceptmængden: Dobbeltsidet α/2 Kumulerede sandsynlighed (1 α 2 ). Hvilket er værdierne mellem de vandrette streger og punktet lige over den øverste (hvilket vi gør rede for senere). Kumuleret sandsynlighed 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Dobbelt sidet y = 1 - a/2 y = a/2 10 20 30 40 50 60 70 80 90 100 Antal successer Venstresidet α kumulerede sandsynligheder Hvilket bliver alle værdier over den nederste linje Kumuleret sandsynlighed 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Venstre sidet y = a 10 20 30 40 50 60 70 80 90 100 Antal successer 2

Højresidet Kumulerede SS (1 α) Hvilket bliver alt under den øverste linje samt punktet lige over. Eksempelvis Kumuleret sandsynlighed 1 0.9 0.8 0.7 0.6 0.5 0.4 Højre sidet y = 1 - a 0.3 0.2 0.1 10 20 30 40 50 60 70 80 90 100 Antal successer Bestem acceptmængden for 120 slag med en terning og det er en succes hvis der slåes en 5 eller en 6. Det er kun høje værdier som er kritiske. Der testes på 5% signifikansniveau. Antalsparameteren er 120, den primære sandsynlighed er 1/3. Jvf noterne om binomialfordelingen kan jeg bestemme den nedre grænse ved at tegne den kumulerede sandsynlighedsfordeling for b(n, p, r). Her indsætter jeg så 0.95 øvre grænse. Acceptmængden bliver succeser = {0,1,,48,49} Kritiskmængde Er de værdier som ligger udenfor vores signifikansniveau/acceptmængde. Antal mulige succeser hvis kumulerede sandsynlighed ligger udenfor vores signifikans niveau. Lidt løst skrevet er kritiskmængde lig med Dobbeltsidet kumulerede SS< α α < kumulerede SS. 2 2 Venstresidet Kumulerede SS < α Højresidet (1 α) < kumulerede SS Lad os vende tilbage til forsøget med slag med terning. En version af Barske Berhard og Lasse lusk kunne være: Der bliver slået med en terning 100 gange. Der bliver slået 23 seksere. Er det en ægte terning? (video) 3

Umiddelbart lyder det til at være en almindelig terning, da 1/6 af slagene burde blive en sekser (altså ca. 17), og 23 er jo ikke langt fra Nulhypotesen H0: Terningen er ægte og dermed er p = 1 (der er ikke forskel på den 6 primæresandsynlighed for test terningen og en ægte terning.) Modhypotese H1: Terningen er falsk og dermed er p 1 (der er forskel på den 6 primæresandsynlighed for test terningen og en ægte terning.) Hvis vi kort tænker tilbage til vores binomialfordeling under sandsynlighedsregning hvor vi slog 5 slag, så kunne vi opstille følgende tabel, hvor vi kendte den primære sandsynlighed: Antal succeser t P(X=t) (Kumulerede SS) P(X t) 0 K(5,0) ( 1 0 6 ) ( 5 5 6 ) = 0.401878 0.401878 1 K(5,1) ( 1 1 6 ) ( 5 4 6 ) = 0.401878 0.803755 2 K(5,2) ( 1 2 6 ) ( 5 3 6 ) = 0.160751.964506 3 K(5,3) ( 1 3 6 ) ( 5 2 6 ) = 0.03215.996656 4 K(5,4) ( 1 4 6 ) ( 5 1 6 ) = 0.03215.999871 5 K(5,5) ( 1 5 6 ) ( 5 0 6 ) = 0.000129 1 Lad os prøve med et større sæt. Det handler stadig om at slå seksere, men nu slår vi 100 gange med terningen. Dette ville give os følgende graf med sandsynligheder. Fordelingen ser således ud Sandsynlighed 0.11 0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 Sandsynlighed 0.11 0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 Zoome 10 20 30 40 50 60 70 80 90 100 Antal successer 10 20 30 Antal successer 4

Det er tydeligt at se, at sandsynligheden for at slå mere end 30 seksere er stort set ikke til stede. Da det vi skal teste er om det er sandsynligt med et signifikansniveau på 5% om vi slår 23 seksere med en ægte terning, så lad os kigge på de kumulerede sandsynligheder. Kumuleret sandsynlighed Kumuleret sandsynlighed 1 1 0.9 y = 1 - a/2 0.9 y = 1- a/2 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 Zoome 0.4 0.4 0.3 0.3 0.2 0.2 0.1 y = a/2 0.1 y = a/2 10 20 30 40 50 60 70 80 90 100 6 8 10 12 14 16 18 20 22 24 26 28 30 Antal successer Antal successer Vælges et signifikansniveau på 5%, skal hver de to dele af den kritiske mængde, der ligger i hver sin ende af tallinjen, have sandsynligheder, der ligger tæt på, men ikke overstiger 2.5%. Den maksimale værdi i den nedre kritiske mængde må være det største af de tal i Z, som opfylder at P(X i) α. Dermed må grænsen mellem acceptmængde og kritiskmængde i venstre side være 2 givet ved binomcdf (100, 1, {9,10}) = {0.021292,0.042696} 6 Den øvre grænse findes ved at bestemme det mindste tal i, som opfylder at P(X i) α. Dermed 2 må grænsen mellem acceptmængde og kritiskmængde i højre side være givet ved P(X 24) = 1 binomcdf(100,1/6,23) = 0.037864 P(X 25) = 1 binomcdf(100,1/6,24) = 0.021703 Acceptmængde={10,11,12,13,14,15,16,17,18,19,20,21,22,23,24} Kritiskmængde={0,1,2,3,4,5,6,7,8,9,25,26,..,100} Så hvis vi på et signifikans niveau skal udtale os om terningen med 23 seksere, så kan vi ikke forkaste vores nulhypotese. Terningen kan godt være ægte. Men ved 25 seksere, ville vi have forkastet nulhypotesen og antaget at terningen var falsk. Lav opgaver i hæftet Læs eventuelt historien om Lasse Lusk og Barske Berhard.. 5

χ 2 -test En x 2 -test, også kaldet en chi-i-anden test, er en test, hvor vi tester en om en given procentvis observeret fordeling kan siges at være uændret. Med andre ord: Der er ikke forskel på det observerede og det forventede. Vi deler testen i to dele. En Goodnes of fit og en uafhængighedstest. Forskel er blot vi tester en fordeling inden for en eller flere variable. Fremgangsmåden er den samme, uanset om det er Goodnes of fit eller uafhængighed der testes. 1. Bestemmer de forventede værdier. 2. Bestemmer teststørrelsen χ 2 3. Bestemmer antal frihedsgrader 4. Bestemmer p-værdien eller den kritiske værdi 5. Accepterer eller forkaster nulhypotesen Goodness of fit Med dette test kan vi teste om en række observerede værdier stemmer overens med tilsvarende teoretiske/forventede værdier. Vi tester med andre ord om vores observation adskiller sig signifikant fra en forventet fordeling. Faktisk er uafhængighedstesten, som vi skal kigge på om lidt, en under gren af Goodness of fit, hvor vi blot har givet fordelingen på forhånd (da der skal gælde uafhængighed/ligelig fordeling). (video). Et eksempel kunne være at teste Mendels lov om arveegenskaber hos planter. Mendel påstod at hvis man krydsede en rød og hvid plante, så ville man få følgende: Far/Mor Rød Hvid Rød Rød Lyserød Rød ville dukke op i 25%, hvid i 25% og lyserød i 50% af tilfældene. Hvid Lyserød Hvid Vores hypoteser: H0: Udfaldet af farver i forsøget adskiller sig ikke signifikant fra Mendels lov. Mendels lov må gælde. H1: Udfaldet adskiller sig signifikant fra Mendels lov. Mendels lov gælder ikke. I et forsøg fik en gymnasieklasse følgende resultat: Rød Lyserød Hvid I alt Observeret 115 188 97 400 6

Forventet Rød Lyserød Hvid I alt 0,25 400 = 100 0,5 400 = 200 0,25 400 = 100 400 Teststørrelse X2 Da vi er interesserede i at teste, om vores observerede værdier ligget tæt nok på vores forventede, så kigger vi på forskellen i mellem disse. Da vi desværre ikke kan bruge summen af afvigelserne til noget, da disse altid vil give 0 (prøv selv ), så kigger vi på teststørrelsen som: 𝑋2 = (𝑜𝑏𝑠𝑒𝑟𝑣𝑒𝑟𝑒𝑡 𝑓𝑜𝑟𝑣𝑒𝑛𝑡𝑒𝑡)2 𝑓𝑜𝑟𝑣𝑒𝑛𝑡𝑒𝑡 Her vil en forskel aldrig give et negativt bidrag og store forskelle vægter meget tungere. I eksemplet fås 𝑥 2 = (115 100)2 100 + (188 200)2 200 + (97 100)2 100 = 3.06 Dette lyder som et lille tal, men lad os kigge nærmere på det. Frihedsgrader Om en teststørrelse er stor eller ej afhænger stadig af vores antal frihedsgrader. Løst oversat: Hvor mange felter i tabellen kan udfyldes frit? I eksemplet er 𝑑𝑓 = 3 1 = 2 Signifikansniveau Signifikansniveauet er vores krav til undersøgelsen. Eksempelvis vil et 5% signifikansniveau betyde, at der er 5% sandsynlighed (risiko) for, at vi forkaster en sand nulhypotese (fejl 1). Typisk sættes niveauet til 5%. Skal vi acceptere eller forkaste H0?? Når vi kender teststørrelsen og antal frihedsgrader, så kan vi enten slå op i en tabel som denne 7

I vores tilfælde kan vi se at hvis vi skal beholde vores hypotese, så skal teststørrelsen være mindre end 5.99 (kritiskværdi). Da dette er tilfældet, så vi må acceptere nulhypotesen, Udfaldet af farver i forsøget adskiller sig altså ikke signifikant fra Mendels lov. P-værdi I stedet for at kigge på den kritiske værdi, kan vi omregne teststørrelsen til en p-værdi. Denne fortæller os nu, om vi ligger over eller under vores kritiske værdi (som er fastsat af vores signifikansniveau (typisk 5%)). Hvis p-værdien er under vores signifikansniveau, så forkastes nul-hypotesen. Hvis p-værdien er over vores signifikansniveau, så accepteres nul-hypotesen. Fra vores viden om sandsynlighedsfordelinger (video), ved vi at p-værdien er den samlede sandsynlighed for at få denne kombination eller det der er værre. Derfor taster vi i Nspire χ 2 Cdf(3.06,, 2) = 0.2165 Her bliver vi blot bekræftet i at nulhypotesen ikke kan forkastes. Den lader derfor til at den er sand. I praksis I praksis gør vi som under uafhængighedstesten, men her skal vi blot angive vores fordelinger (altså forventede værdier) med. (video) obs {115,188,97} forv {25%, 50%, 25%} 400 Herefter vælges Godness of Fit-testen. Den observerede liste og forventede liste indtastes sammen med degress of freedom. Resulstat: Her kan vi aflæse p-værdien til 0,216 hvilket er noget større end vores signifikansniveau på 0,05, så vores nulhypotese må accepteres. Udfaldet adskiller sig altså ikke signifikant fra Mendels lov. Lav opgaver i hæftet 8

Uafhængighedstest Med dette test skal vi undersøge om der er uafhængighed mellem rækkerne i en tabel. Dette kunne være om hvorvidt holdningen til matematik i gymnasiet er uafhængig af køn. Vores egentlige tanke er at der er forskel på køn og interesse for matematik. Vi opstiller derfor en uafhængighedstest, som forhåbentlig kan forkastes ved et relativt lille signifikansniveau. (video) Her er det vigtigt at påpege at antal observationer i hver enkelt celle skal være større eller lig med 5. Hvis dette ikke er muligt, må man slå søjler sammen. Vi laver en empirisk undersøgelse på gymnasiet, hvor vi spørger efter køn, og om matematik er et spændende fag. Fra denne undersøgelse får vi følgende tabel. Observerer Enig Uenig Ved ikke I alt Dreng 58 12 10 80 Pige 36 28 22 86 I alt 94 40 32 166 Da denne form for test er en uafhængighedstest så skal nulhypotesen altid være at der gælder uafhængighed. H0: Holdningen til matematik er uafhængig af køn (der er ikke forskel på køn kontra holdning til matematik) H1: Holdningen til matematik er afhængig af køn (der er forskel på køn kontra holdning til matematik) Vi starter med at antage at H0 er sand, og beregner derfor andelen af forventede elever. Vi estimerer en forventet tabel ud fra at 94 40 100% = 56.6% er enige (uanset køn), 100% = 24.1% er 166 166 uenig og 32 100% = 19.3% ved ikke. 166 Da vores hypotese påstår at det er uafhængigt at køn, så må den procentvise fordeling være ens for piger og drenge. Altså må vi forvente at 94 80 = 45.3 drenge er enige osv. 166 Forventet Enig Uenig Ved ikke I alt Dreng 94 166 80 = 45.3 40 166 80 = 19.3 32 166 80 = 15.4 80 94 Pige 166 86 = 48.7 40 166 86 = 20.7 32 166 86 = 16.6 86 I alt 94 40 32 166 Afvigelserne mellem det resultat, vi fik i forsøget, og de her udregnede værdier er et udtryk for, hvor langt forsøget er fra den verden, der er estimeret i H0. Vi kan derfor bestemme en teststørrelse, som siger noget om hvor stor afvigelsen er. Denne teststørrelse kan så omsættes til en p-værdi som fortæller noget om sandsynligt det er at få vores observation eller det som er værre (altså endnu større teststørrelse). 9

Teststørrelse X 2 Vi kan desværre ikke bruge summen af afvigelserne til noget, da disse altid vil give 0 (prøv selv ). Vi vælger derfor at kigge på følgende teststørrelse: X 2 (observeret forventet)2 = forventet En stor teststørrelse tyder i denne sammenhæng på, at nulhypotesen skal forkastes (at vi ikke tror på den). Med andre ord så får store værdier af X 2 os til at tro mere på H1. I undersøgelsen har vi X 2 = (58 45.3)2 45.3 + (36 48.7)2 48.7 + (12 19.3)2 19.3 + (28 20.7)2 20.7 + (10 15.4)2 15.4 + (22 16.6)2 16.6 = 15.8528 Hvornår teststørrelsen er for stor afhænger af størrelsen af vores tabel (matrix). Jo større tabel jo større skal teststørrelsen være. Her kommer antal frihedsgrader ind i billedet. Frihedsgrader Løst oversat: Hvor mange felter i tabellen kan udfyldes frit? Her skal vi huske på, at vi kender antallet af respondenter. Generelt kan vi udregne antal frihedsgrader som df = (antal rækker 1) (antal kolonner 1) I undersøgelsen er df = (2 1) (3 1) = 2 Når teststørrelsen er kendt og vi kender antal frihedsgrader, så skal vi anlægge et signifikansniveau. Signifikansniveau Det klassiske signigfikansniveau er 5%, hvilket betyder at der er 5% sandsynlighed (risiko) for at forkaste en sand nulhypotese. I opgaven vælger vi et signifikansniveau på 5%. 10

Skal vi acceptere eller forkaste H0?? Når vi kender teststørrelsen og antal frihedsgrader, så kan vi enten slå op i en tabel som denne I vores tilfælde kan vi se at hvis vi skal beholde vores hypotese, så skal teststørrelsen være mindre end 5.99. Det er ikke tilfældet, så vi må forkaste nulhypotesen, der er altså sammenhæng mellem interessen for matematik og køn. Denne teststørrelse kan også omregnes til en sandsynlighed (til en p-værdi). P-værdi p-værdien udtrykker sandsynligheden for at observere den (numerisk) fundne forskel, eller én der er større, forudsat at nulhypotesen er sand. P-værdien er altså summen af sandsynlighederne for det observerede eller værre. Denne værdi kan Nspire eller Excel give os. Kan også betragtes som den signifikansgrænse, der lige præcis ville forkaste nulhypotesen. Hvis vi får givet teststørrelsen og antal frihedsgrader kan vi benytte funktionerne i Nspire. Det første billede nedenunder viser genvejen fra værktøjskassen. Billedet til venstre viser kataloget. Her tastes blot 𝜒 2 𝐶𝑑𝑓(15.8528,, 2) = 0.00036. (Det den gør, er at den summere sandsynlighederne fra 15.8528 og til uendelig for en fordeling med 2 frihedsgrader (se næste afsnit). Omregnet svarer det til 0.036% for det observerede eller det som er værre, så det observerede må være skidt. Vi forkaster altså H0 og accepterer H1, så der må være en sammenhæng mellem køn og interesse for matematik. 11

I praksis Bliver vi bedt om at test ovenstående undersøgelse med eleverne og holdning til matematik, så benytter vi Nspire. (video) Først opretter vi en matrice via menuen. 58 12 10 Så indtastes (her en 2 x 3 matrice) obs [ 36 28 22 ] Så vælges en uafhængighedstest, og vores matrice indtastes. Dette giver nu følgende resultat: Nu kan vi vælge at kigge i en tabel med vores X 2 -teststørrelse, men vi kan også nøjes med at kigge på vores p-værdi. Da denne er langt under vores signifikans niveau (den svarer til 0.036%), så forkaster vi nulhypotesen. Havde p-værdien ligget over vores signifikansniveau så havde vi ikke kunnet forkaste nulhypotesen. Ultra korte version Lav opgaver i hæftet 12

χ 2 -fordeling. Vi så under binomialtest, at sandsynlighederne fordelte sig på en bestemt måde. På samme måde kan vi opstille en sandsynlighed for alle kombinationer af vores observationsmuligheder. Som første koordinat benytter i os af teststørrelsen. På denne måde vil der fremkomme følgende fordelinger afhængig af antal frihedsgrader. Vi kan se, at jo flere antal frihedsgrader der er, jo fladere bliver kurven. (video) Disse fordelinger er kontinuerte. Sandsynlighed 1 0.8 0.6 0.4 0.2 Fordeling med 1 frihedsgrad Fordeling med 2 frihedsgrade Fordeling med 3 frihedsgrade Fordeling med 4 frihedsgrade Tænk på dette test som et højre siddet test (som ved binomialtesten/fordelingen). Vi er altså 1 2 3 4 5 6 7 8 Teststørrelse X^2 interesseret i at vide, hvor langt ud på x-aksen vi skal, før end den kumulerede sandsynlighed runder de 0,95. Lad os kigge på fordelingerne ud fra de kumulerede sandsynligheder. Graferne minder en del om tilsvarende billeder under binomialtest. Her kan vi let se acceptmængde og kritiskmængde. Prøv at sammenholde de kritiske værdier med tabelværdierne fra tidligere. Kumuleret sandsynlighed 1 y = 0.95 Kumuleret sandsynlighed 1 df = 2 df = 3 df = 4 y = 0.95 df = 2 df = 3 df = 4 (5.99146,.95) (7.81473,.95) (9.48773,.95) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Teststørrelse X^2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Teststørrelse X^2 Lad os prøve at kigge på fordelingen med to frihedsgrader. Vi kan også tillade os at tænke i acceptmængde og kritiskmængde som under binomialtesten.. Her er fordelingen kontinuert og ikke diskret som under binomialtesten. Det betyder at arealet under grafen angiver den kumulerede sandsynlighed på det givne interval, og at ALLE teststørrelser kan optræde. Vi kan bestemme den eksakte teststørrelse, som markerer grænsen for de 0.95 ved følgende i Nspire: 13

solve(χ 2 Cdf(0, x, 2) = 0.95, x) = 5.99146 Dette er vores kritiske værdi, altså dén værdi, der skiller accept- og kritiskmængde. Læg mærke til at det er den samme, som i fandt i vores skema tidligere. Sandsynlighed df = 2 Hvis vi får en teststørrelse, som falder inden for det skraverede område (acceptmængden) fra [0;5.99146[, så vil nulhypotesen ikke kunne forkastes. Vores teststørrelse på 15.85 (fra eksemplet med uafhængighedstesten) ligger langt inden i det kritiske område, og derfor må vi forkaste nulhypotesen. integral =.95 1 2 3 4 5 6 7 8 9 10 Teststørrelse X^2 Sandsynlighed 0.2 0.15 df = 5 Hvis vi kigger på χ 2 -fordelingen for 5 frihedsgrader og finder den teststørrelse, som vil give os en p-værdi på 0.05 (5% signifikansniveau), så får vi følgende billede: solve(χ 2 Cdf(0, x, 5) = 0.95, x) = 11.07 0.1 0.05 Dette er vores kritiske værdi, altså værdien der skiller accept- og kritiskmængde. Så jo flere frihedsgrader jo større skal teststørrelsen være før end det blive Kritisk. 1 2 3 4 5 6 7 8 9 10 11 12 13 Teststørrelse X^2 Det røde snit angiver grænsen for teststørrelsen, hvor et signifikansniveau på 5% bliver forkastet. Prøv at kigge på tabellen fra tidligere og skab en sammen hæng.. Den røde streg markerer ligeledes p-værdien 0.05. P-værdier mindre end 0.05 vil være at finde til højre for den røde streg og omvendt. Jo skrappere krav til signifikans jo længere mod højre flytter vi grænsen (den røde streg). 14

Stikprøver Population I tilknytning til et observationssæt er det hensigtsmæssigt at indføre betegnelserne population og stikprøve. Et observationssæt vil vi altid opfatte som en stikprøve fra en population. Tag et eksempel fra den daglige nyhedsformidling: 60% af stockholmerne er imod indførelse af bompenge for biltrafikken i Stockholm Fra 3. januar 2006 startede et forsøg i Stockholm, hvor man afkrævede bilister bompenge ved indog udkørsel fra den svenske hovedstad. I den anledning havde man spurgt 600 stockholmere om deres holdning til forsøget, og 60% af de adspurgte var imod forsøget. Formålet med undersøgelsen var at belyse stockholmernes holdning til bompenge. Derfor må man formode, at populationen var hele Stockholms befolkning. Observationssættet bestod af de 600 svar på spørgsmålet (for, imod, ved ikke), og stikprøven bestod af de 600 stockholmere, som blev spurgt. Men det er valget af stikprøven, der i virkeligheden afgør, hvad populationen har været. Hvis de 600 personer i stikprøven alle var bilister, så er stikprøven ikke repræsentativ for alle stockholmere, da bilister oplagt kunne have et andet syn på bompenge end andre indbyggere. Af samme grund ville det ikke være repræsentativt at spørge 600 tilfældigt forbipasserende på gågaden. Repræsentativ En stikprøve skal være repræsentativ for den population, man udtaler sig om. En stikprøve anses for repræsentativ, hvis den i alle henseender afspejler de forhold ved populationer, som kan have betydning for resultatet af undersøgelsen. Det kan være meget svært at sikre, fordi man ikke altid på forhånd kan vide, hvilke forhold, der har betydning. Til demonstration af begrebet repræsentativitet, se på følgende eksempler: Eksempel 1: Hvis man vil undersøge, hvilken højde eleverne på et hold har, så er det ikke repræsentativt at måle højden af de elever, der sidder på første række. Den stikprøve kan indeholde systematiske fejl, fordi der kan være et mønster i elevernes valg af siddeplads. Måske sidder de højeste elever bagest, eller pigerne forrest e.l. Eksempel 2: Hvis man vil undersøge, hvor stor en del af eleverne på en skole, der er overvægtige, er det ikke repræsentativt at vælge de første 20 elever, der selv melder sig til en undersøgelse. Eksempel 3: Hvis man vil undersøge dette års karakterer i skriftlig dansk ved studentereksamen, er det ikke repræsentativt at vælge eleverne på Sct. Knuds Gymnasium 15

Valg af stikprøve Som udgangspunktet for valg af en stikprøve vil man kræve, at den er tilfældigt valgt fra populationen, altså valgt ved en form for lodtrækning, hvor alle i populationen har samme sandsynlighed for at komme med i stikprøven. Ved at vælge stikprøven tilfældigt undgår man systematiske fejl i selve udvælgelsen. Men man kan naturligvis ikke gardere sig imod, at en tilfældigt valgt stikprøve uheldigvis kommer til at indeholde systematiske fejl, der får betydning for resultatet. I nogle stikprøvesituationer, f.eks. i politiske meningsmålinger, benytter man ofte faste vælger-stikprøver, der er udvalgt, så de i sammensætning er repræsentative for hele vælgerbefolkningen, en slags mini-danmark, med hensyn til alder, køn, erhverv, indtægt osv. Det er en anden måde at sikre sig repræsentativitet på. Eksempel 4: På Experimentarium i Hellerup, København, kan de besøgende besvare et genetisk spørgeskema, hvor et af spørgsmålene er, om du er venstre- eller højrehåndet. En bestemt dag er der indkommet 217 svar, hvoraf de 40 svarer venstrehåndet, og 177 svarer højrehåndet. Observationssættet er de 217 svar (højre, venstre). Populationen er de besøgende på Experimentarium den pågældende dag, og stikprøven er de 217 personer, der har valgt at svare på skemaet. Eksempel 5: I en undersøgelse af unge og religiøsitet har deltaget 462 elever i gymnasiet og hf. På spørgsmålet Tror du på et liv efter døden svarer 55% ja. Observationssættet er de 462 svar (ja, nej, ved ikke). Populationen er alle elever, som går i gymnasiet og hf på undersøgelsestidspunktet, og stikprøven er de 462 elever Eksempel 6: På en medicinalvarefabrik producerer de gigtpiller, som skal indeholde en bestemt dosis, f.eks. 8 mg, af det aktive stof. En produktionskontrol foretages ved en dag at måle det præcise dosisindhold i 200 tilfældige piller fra produktionen. Observationssættet består af 200 tal (dosismålinger). Populationen er den totale produktion af gigtpiller, og stikprøven er de 200 tilfældigt udtagne piller. I Danmark vejes alle nyfødte børn, så den egenskab (vægten) er målt på hele populationen. Det samme gælder alle værnepligtiges højde og alle afgivne stemmer ved et valg. Men i nogle tilfælde er det enten umuligt eller uoverkommeligt at måle hele populationen, og i disse tilfælde er det vigtigt at vide, hvor sikkert man kan udtale sig om den målte egenskab ved hele populationen, selvom man kun kender den for en stikprøve. Det er jo netop, hvad man gør, når man udtaler sig om resultatet af et forestående valg på grundlag af en opinionsundersøgelse med 1000 personer. 16

Vigtige overvejelser Nogle institutioner eller virksomheder får deres viden ud fra brug af stikprøver. Her kan nævnes Gallup, Observa, Megafon, Vilstrup, Epinion, etc. Opgaverne kan være meget forskelligartede: Det kan være en prognose til et folketingsvalg, en brugerundersøgelse for et givet produkt, en analyse af hvilke programmer TV-seerne ser osv. Stikprøver hentyder til, at man forsøger at sige noget om hele populationen udfra et begrænset udpluk. I mange tilfælde er man simpelthen nødt til at bruge denne form, da man ikke kan spørge hele Danmarks befolkning, hvad den synes om økologiske varer eller hvilke TV-udsendelser, den ser. Det er ikke praktisk muligt, og selv om man forsøgte, ville man ikke kunne komme i kontakt med alle. Det ville også være alt for dyrt og tidskrævende. Derfor benytter man stikprøver. Her er det vigtigt at: 1. Nøje overvejelse af hvordan persongruppen sammensættes/udvælges. 2. Man skal være omhyggelig med, hvordan man stiller spørgsmålene. 3. Resultaterne af spørgeundersøgelsen efterbehandles statistisk. Nogle kommentarer til ovenstående punkter: 1) Det er meget vigtigt, at man sammensætter gruppen af personer, som man udspørger, så den er repræsentativ for hele populationen, hvad enten det er en bestemt del af befolkningen eller hele befolkningen. Det er ingenlunde nemt. Man skal passe meget på, at der ikke kommer bias, dvs. en skævhed, i stikprøven. Ønsker man for eksempel at finde ud af befolkningens holdning til krigen i Afghanistan, så er det ikke særligt fornuftigt at gå ned på den lokale gågade og spørge folk ud, om soldaterne skal trækkes hjem. Folk på gågaden er nemlig ikke særlig repræsentative for Danmarks befolkning. Der vil formentlig være et underskud af folk i arbejde og et overskud af husmødre. Der er altså en skævhed i sammensætningen. Man kan formode, at der vil være et overskud af kvinder tilstede og kvinder er gennemsnitligt mere imod krig end mænd er. En anden ting, man også skal passe på er, når udspørgeren selv vælger den, der udspørges. Der kan nemlig være en tendens til at spørge personer på gaden, som ser venlige og imødekomne ud, og der er en mulighed for, at denne gruppe af personer kan have en anden holdning til et spørgsmål, end gennemsnittet af befolkningen. At spørge på Internettet skal man også være påpasselig med, da den ældre del af befolkningen er underrepræsenteret her. Hvis man undersøger de unges præferencer, så gør dette måske ikke så meget. Den klassiske bommert, som ofte nævnes i forbindelse med udvælgelse af stikprøver er den, der blev begået af Literary Digest i deres opinionsundersøgelse for valget i USA i 1936: Franklin D. Roosevelt havde fuldført sine første 4 år som præsident, og genopstillede mod republikaneren Alfred Landon fra Texas. Magasinet Literary Digest forudsagde en overvældende sejr til Alfred Landon, med kun 43% af stemmerne til Roosevelt. Undersøgelsen var endda baseret på den største stik-prøve nogensinde: 2,4 millioner! Magasinet havde et godt ry: det havde udpeget den rigtige præsident siden 1916. Imidlertid vandt Roosevelt overvældende: med 62% mod 38% og Literary Digest gik fallit kort efter. Hvordan kunne magasinet begå sådan en kæmpe fejl den største nogensinde af et etableret og vigtigt menings-målingsinstitut? Man havde jo udspurgt en kæmpe gruppe. George Gallup var netop ved at grundlægge sit meningsmålingsinstitut og fik sit 17

gennembrud ved at forudsige resultatet af valget med en afvigelse på kun 1 procent, og han havde endda kun udspurgt 50.000 personer. Det var altså ikke stikprøvens størrelse, som var altafgørende, her var det den nye markedsanalyse-teknik med anvendelse af den repræsentative stikprøve, der havde bestået sin prøve! Magasinets fejl bestod i at de sendte spørgsmål ud til 10 millioner mennesker med posten. Navnene fra de 10 millioner mennesker kom fra kilder som telefonbøger og medlemmer af klubber. Denne fremgangsmåde havde en tendens til at frasortere de fattige, hvoriblandt der ikke var mange, som var medlemmer af klubber. Og dengang havde kun 1/4 af befolkningen telefon. Grunden til, at en sådan fejl først skete i 1936 og ikke før var, at i 1936 fulgte de politiske holdninger mere økonomiske linjer... det havde ikke været tilfældet tidligere, hvor rige og fattige stemte mere ensartet. Så læren af dette eksempel er følgende: Når en udvælgelsesprocedure er skæv, så hjælper det ikke at tage en større stikprøve. Det vil blot gentage fejltagelsen i større målestok! Bias En anden ting, som stikprøver kan risikere at lide under er non-response bias, hvormed menes skævhed på grund af for mange personer, som nægter at svare på spørgsmål. Det viser sig nemlig, at gruppen af personer, som ikke svarer, undertiden adskiller sig fra resten på vigtige områder. Faktisk led Digests undersøgelse netop heraf, idet kun 2,4 millioner ud af de 10 millioner svarede! Undersøgelser har vist, at lav-indkomst og høj-indkomstgrupperne har en større tendens til ikke at svare, så mellem-indkomstgrupperne er overrepræsenteret. Gode meningsmålings-institutter kender dette problem og har metoder til at tage højde for det. Hvis man ringer til folk, så kan man for eksempel ringe tilbage gentagne gange til de folk der ikke træffes umiddelbart. Men hvilke metoder benyttes da? Besøgsinterviews, telefoninterviews, postomdelte interviews eller Internet-interviews? Svaret er, at det kommer an på formålet og undersøgelsens form. Lange og teksttunge undersøgelser egner sig ikke til oplæsning. Her er det bedre, hvis den spurgte har noget at kigge på. Det kan også være, at respondenten skal reagere på et logo etc. Besøgsinterviews benyttes også, men ikke så meget som tidligere. De kræver mange resurser. Det skal dog også nævnes, at nogle undersøgelser kræver helt andre former. For eksempel TVseer undersøgelser, hvor et panel af personer har monteret en måler på deres TV, eller Internetbrugere, som har installeret et særligt program for at kunne registrere deres vaner på Internettet. Internettet er godt til at måle folks reaktion på reklamer, radiospots eller andet audiovisuelt materiale. En væsentlig årsag til en anden type fejl er, hvis man giver intervieweren lov til selv at vælge, hvem der skal interviewes, eventuelt indenfor en bestemt undergruppe. Det var faktisk årsagen til en anden kendt fejlbedømmelse ved præsidentvalget i 1948 i USA. Et problem ved at overlade for meget til menneskets valg er, at intervieweren vil udspørge dem, der er lettest at få fat i. I 1948 resulterede det i, at man udvalgte for mange republikanere, da de var en smule nemmere at interviewe. Løsningen på dette problem er, at man indfører et element af tilfældighed ved at trække lod. Det stiller dog nogle spørgsmål: Har man en liste med alle indbyggere? Hvordan håndterer man rent praktisk, hvis en udvalgt person ikke er hjemme eller bort-rejst? etc. For at undgå for mange praktiske problemer kan man vælge at lave klyngestikprøver, hvormed menes, at man vælger et antal områder ud, eventuelt inddeler i et 18

antal undergrupper, hvori man så udtager personer ved simpel tilfældig lodtrækning. Denne metode er især nyttig ved besøgsinterview, hvor det også gælder om at begrænse transportomkostningerne. Der er mange variationsmuligheder her. 2) Man skal være omhyggelig med, at man stiller spørgsmål, som er klare og utvetydige. Og så skal spørgsmålene ikke være ledende. Det duer for eksempel ikke at spørge en person, om han/hun motionerer meget, for hvad er meget motion? Man skal heller ikke anvende fremmedord, som mange ikke kender. Spørgsmål, som lægger op til politisk korrekte svar bør undgås. 3) Den tredje omkostning er, at de indsamlede data skal behandles statistisk. Man kan ikke bare uden videre tælle sammen, som hvis man har data for en hel population. I ret stort omfang kan man for eksempel korrigere for skævheder i stikprøven. Lad os se på et eksempel. Eksempel 7: Lad os gøre det tankeeksperiment, at man udspørger et antal personer, om de vil stemme JA eller NEJ til den nye EU-traktat. Lad os antage, at man i stikprøven fik spurgt 47% kvinder og 53% mænd og at der blandt mændene var en gennemsnitligt Ja-procent på 58%, mens der blandt kvinderne var en gennemsnitlig Ja-procent på 45%. Hvis man kritikløst havde godtaget denne stikprøve som værende repræsentativ, så ville man altså få en total Ja-procent ved at udregne det vejede gennemsnit: 0,47 0,45 0,53 0,58 0,519 51,9% Imidlertid er der relativt flere mænd end kvinder i stikprøven i forhold til hele den stemmeberettigede del af befolkningen, hvor der er 48,8% mænd og 51,2% kvinder. Vi korrigerer derfor ved at benytte de korrekte vægte frem for stikprøvens: 0,512 0,45 0,488 0,58 0,513 51,3% I praksis vil man selvfølgelig også skulle korrigere for andre størrelser end køn. Gallup benytter også vejning til at korrigere for, at der er nogle persongrupper, som det er sværere at få fat i end andre pr. telefon. Eksempelvis har Gallup lidt sværere ved at få fat i unge mænd. Forhold, der typisk korrigeres for ved prognoser til folketingsvalg er køn, alder, valgkreds, husstandsstørrelse og partivalg ved forrige folketingsvalg. Det er ikke nødvendigvis alle skævheder, man kan veje sig ud af, så målingerne kan udover den statistiske usikkerhed godt være behæftet med mindre fejl, som påvirker resultatet systematisk. Fejl af denne type er i sagens natur ukendte, men meget tyder på, at der er tale om ret små ting. Endelig skal det siges, at man også forsøger at tilrettelægge (stratificere) sammensætningen af stikprøven, før undersøgelsen foretages, men det kan kun lade sig gøre, hvis man på forhånd har de relevante oplysninger om respondenterne. Det haves ikke, hvis man ringer til tilfældige 19

telefonnumre. Hvis der derimod er tale om en undersøgelse baseret på et medlemsregister af en slags, gøres det ofte. Også i tilfældet med Internet-undersøgelser, hvor Gallup på forhånd har en masse baggrunds-oplysninger om det panel af personer, man har til rådighed. Dette var en introduktion til den generelle del af spørgeskemaer og eventuelle fejl koblet til undersøgelsen. Nu vender vi blikket mod de to egentlige test, som vi skal kigge nærmere på. Vi forudsætter i det efterfølgende at vores datamateriale er i orden og uden bias. Men stikprøver viser ikke altid sandheden. Det kan gå galt på to måder: Fejl af type 1: En sand hypotese forkastes. Fejl af type 2: En falsk hypotese accepteres. 20