Stikprøver, binomialtest og chi^2 test er nogle af de punkter som denne note kommer ind på. Det er et supplement til Vejen til Matematik

Hypotesetest s og spørgeskemaer Stikprøver, binomialtest og chi^2 test er nogle af de punkter som denne note kommer ind på. Det er et supplement til Vejen til Matematik Kumuleret sandsynlighed 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Højre sidet y = 1 - a 10 20 30 40 50 60 70 80 90 100 Antal successer Kumuleret sandsynlighed 1Kumuleret sandsynlighed B2 samt udleverede artikler. 0.9 1 0.8 0.9 Henrik S. Hansen, Sct. Knud Gymnasium 0.7 0.8 0.6 0.7 0.5 0.6 0.4 0.5 0.3 0.4 0.2 0.3 0.1 0.2 y = 1 - a Højre sidet Højre sidet y = 1 - a 0.1 10 20 30 40 50 60 70 80 90 100 Antal successer 10 20 30 40 50 60 70 80 90 100 Antal successer 0.0005 0.0004 0.0003 0.0005 0.0002 0.0004 0.0001 0.0003 0.0002 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X² = 15.8528 p =.000361 0.0001 X² = 15.8528 p =.000361 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 V E R S I O N 2. 0 1

Indhold Hypotesetest... 1 Binomialtest... 1 Signifikansniveau (α)... 1 Acceptmængde... 2 Kritiskmængde... 3 χ 2 -test (uafhængighedstest)... 6 Teststørrelse X 2... 7 Frihedsgrader... 7 Signifikansniveau... 7 Skal vi forkaste H 0??... 8 P-værdi... 8 χ 2 -fordeling.... 9 I praksis... 11 χ 2 -Goodness of fit... 12 Teststørrelse X 2... 12 Frihedsgrader... 13 Signifikansniveau... 13 P-værdi... 13 I praksis... 14 Stikprøver... 15 Population... 15 Repræsentativ... 15 Valg af stikprøve... 16 Vigtige overvejelser... 17 Bias... 18

Hypotesetest I mange tilfælde og i mange faglige sammenhænge må man træffe en afgørelse eller basere en overbevisning på et ikke fuldstændigt informationsgrundlag. I disse noter vil vi prøve at kigge på tre typer af test: Binomialtest: Der testes om en primærsandsynlighed er sand χ 2 -test (uafhængighed): Der testes om der gælder uafhængighed mellem flere variable. χ 2 -test (Godness of fit): Der testes det observerede følger en given fordeling. Ens for dem alle er, at vi tester en påstand (en hypotese). På baggrund af en sandsynlighedsberegning på en given observation accepterer vi eller også forkaster vi vores opstillede påstand (nulhypotese) Binomialtest Denne test benyttes til at undersøge stikprøver, hvor antallet med en bestemt farve, politisk holdning, eller kvalitetsniveau kan antages at være binomialfordelt. Vi antager med andre ord, at eksperimentet/undersøgelsen har en primær sandsynlighed for succes (den kan så være kendt eller ukendt), og at forsøget foretages n gang. (video) Vi forudsætter yderligere, at vi har en hypotese (dvs. en påstand) om p. Hypotesen kaldes nulhypotesen og skrives som H 0. Hertil er der altid en modhypotese (modpåstand) H 1. Et eksempel kunne være at 75% af blomsterfrøene spirer eller er det en ægte terning, når den slår 43 seksere ud af 100slag?. Vi tester med andre ord om en primærsandsynlighed er sand(synlig). Nogle vigtige begreber her til inden vi begynder at lave beregninger er: Signifikansniveau (α) Til en undersøgelse vælger vi et signifikans niveau (hvor stor er risikoen for at vi forkaster en sand nulhypotese. Hvor stor er risikoen for at tage fejl). Signifikansniveauerne viser, hvor sandsynligt det er at et resultat skyldes tilfældigheder. Det mest brugte niveau for at et resultat er troværdigt er 0.5%. Det betyder, at der er 95% sandsynlighed for at resultatet er sandt (nulhypotesen), og der er 5% sandsynlighed for fejl (at det ikke er sandt). I andre sammenhænge bruges andre signifikansniveauer. F.eks. kræves der i medicinske sammenhænge et signifikansniveau på α 0,01, medens man i økonomi ofte vælger et signifikansniveau på α 0,1. Jo skrappere krav til undersøgelsen jo lavere signifikansniveau. 1

Acceptmængde Antal mulige succeser hvis kumulerede sandsynlighed ligger inden for vores signifikans niveau. Lidt løst skrevet er acceptmængden: Dobbeltsidet Hvilket er værdierne mellem de vandrette streger og punktet lige over den øverste (hvilket vi gør rede for senere).. Kumuleret sandsynlighed 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Dobbelt sidet y = 1 - a/2 y = a/2 10 20 30 40 50 60 70 80 90 100 Antal successer Venstresidet kumulerede sandsynligheder Hvilket bliver alle værdier over den nederste linje Højresidet Kumulerede Hvilket bliver alt under den øverste linje samt punktet lige over. Eksempelvis Kumuleret sandsynlighed 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 10 20 30 40 50 60 70 80 90 100 Antal successer Kumuleret sandsynlighed 1 0.9 0.8 0.7 0.6 0.5 0.4 Venstre sidet Højre sidet y = a y = 1 - a 0.3 0.2 0.1 10 20 30 40 50 60 70 80 90 100 Antal successer Bestem acceptmængden for 120 slag med en terning og det er en succes hvis der slåes en 5 eller en 6. Det er kun høje værdier som er kritiske. Der testes på 5% signifikansniveau. Antalsparameteren er 120, den primære sandsynlighed er. Jvf noterne om binomialfordelingen kan jeg bestemme den nedre grænse ved at tegne den kumulerede sandsynlighedsfordeling for. Her indsætter jeg så 0.95 øvre grænse. Acceptmængden bliver 2

Kritiskmængde Er de værdier som ligger udenfor vores signifikansniveau/acceptmængde. Antal mulige succeser hvis kumulerede sandsynlighed ligger udenfor vores signifikans niveau. Lidt løst skrevet er kritiskmængde lig med Dobbeltsidet kumulerede SS α α kumulerede SS. Venstresidet Kumulerede SS α Højresidet α kumulerede SS Lad os vende tilbage til forsøget med slag med terning. En version af Barske Berhard og Lasse lusk kunne være: Der bliver slået med en terning 100 gange. Der bliver slået 23 seksere. Er det en ægte terning? (video) Umiddelbart lyder det til at være en almindelig terning, da 1/6 af slagene burde blive en sekser (altså ca. 17), og 23 er jo ikke langt fra Nulhypotesen H 0 : Terningen er ægte og dermed er Modhypotese H 1 : Terningen er falsk og dermed er Hvis vi kort tænker tilbage til vores binomialfordeling under sandsynlighedsregning hvor vi slog 5 slag, så kunne vi opstille følgende tabel, hvor vi kendte den primære sandsynlighed: Antal succeser t P(X=t) (Kumulerede SS) 0 ( ) ( ) 0.401878 1 ( ) ( ) 0.803755 2 ( ) ( ).964506 3 ( ) ( ).996656 4 ( ) ( ).999871 5 ( ) ( ) 1 3

Lad os prøve med et større sæt. Det handler stadig om at slå seksere, men nu slår vi 100 gange med terningen. Dette ville give os følgende graf med sandsynligheder. Fordelingen ser således ud Sandsynlighed 0.11 0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 Sandsynlighed 0.11 0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 Zoome 10 20 30 40 50 60 70 80 90 100 Antal successer 10 20 30 Antal successer Det er tydeligt at se, at sandsynligheden for at slå mere end 30 seksere er stort set ikke til stede. Da det vi skal teste er om det er sandsynligt med et signifikansniveau på 5% om vi slår 23 seksere med en ægte terning, så lad os kigge på de kumulerede sandsynligheder. Kumuleret sandsynlighed Kumuleret sandsynlighed 1 0.9 0.8 y = 1 - a/2 1 0.9 0.8 y = 1- a/2 0.7 0.7 0.6 0.6 0.5 0.5 Zoome 0.4 0.4 0.3 0.3 0.2 0.2 0.1 y = a/2 0.1 y = a/2 10 20 30 40 50 60 70 80 90 100 6 8 10 12 14 16 18 20 22 24 26 28 30 Antal successer Antal successer Vælges et signifikansniveau på 5%, skal hver de to dele af den kritiske mængde, der ligger i hver sin ende af tallinjen, have sandsynligheder, der ligger tæt på, men ikke overstiger 2.5%. Den maksimale værdi i den nedre kritiske mængde må være det største af de tal, som opfylder at. Dermed må grænsen mellem acceptmængde og kritiskmængde i venstre side være givet ved ( ) 4

Den øvre grænse findes ved at bestemme det mindste tal i, som opfylder at må grænsen mellem acceptmængde og kritiskmængde i højre side være givet ved. Dermed Acceptmængde={10,11,12,13,14,15,16,17,18,19,20,21,22,23,24} Kritiskmængde={0,1,2,3,4,5,6,7,8,9,25,26,..,100} Så hvis vi på et signifikans niveau skal udtale os om terningen med 23 seksere, så kan vi ikke forkaste vores nulhypotese. Terningen kan godt være ægte. Men ved 25 seksere, ville vi have forkastet nulhypotesen og antaget at terningen var falsk. Læs eksempel 6.6 side 159, opgave 350 side 161, opgave 355 side 162, opgave 356 side 162 Læs eventuelt historien om Lasse Lusk og Barske Berhard.. 5

χ 2 -test (uafhængighedstest) Med dette test skal vi undersøge om der er uafhængighed mellem rækkerne i en tabel. Dette kunne være om hvorvidt holdningen til matematik i gymnasiet er uafhængig af køn. Vores egentlige tanke er at der er forskel på køn og interesse for matematik. Vi opstiller derfor en uafhængighedstest, som forhåbentlig kan forkastes ved et relativt lille signifikansniveau. (video) Her er det vigtigt at påpege at antal observationer i hver enkelt celle skal være større eller lig med 5. Hvis dette ikke er muligt, må man slå søjler sammen. Vi laver en empirisk undersøgelse på gymnasiet, hvor vi spørger efter køn, og om matematik er et spændende fag. Fra denne undersøgelse får vi følgende tabel. Observerer Enig Uenig Ved ikke I alt Dreng 58 12 10 80 Pige 36 28 22 86 I alt 94 40 32 166 Da denne form for test er en uafhængighedstest så skal nulhypotesen altid være at der gælder uafhængighed. H 0 : Holdningen til matematik er uafhængig af køn H 1 : Holdningen til matematik er afhængig af køn Vi starter med at antage at H 0 er sand, og beregner derfor andelen af forventede elever. Vi estimerer en forventet tabel udfra at er enige (uanset køn), er uenig og ved ikke. Da vores hypotese påstår at det er uafhængigt at køn, så må den procentvise fordeling være ens for piger og drenge. Altså må vi forvente at drenge er enige osv. Forventet Enig Uenig Ved ikke I alt Dreng 80 Pige 86 I alt 94 40 32 166 Afvigelserne mellem det resultat, vi fik i forsøget, og de her udregnede værdier er et udtryk for, hvor langt forsøget er fra den verden, der er estimeret i H 0. Vi kan derfor bestemme en teststørrelse, som siger noget om hvor stor afvigelsen er. Denne teststørrelse kan så omsættes til en p-værdi som fortæller noget om sandsynligt det er at få vores observation eller det som er værre (altså endnu større teststørrelse). 6

Teststørrelse X 2 Vi kan desværre ikke bruge summen af afvigelserne til noget, da disse altid vil give 0 (prøv selv ). Vi vælger derfor at kigge på følgende teststørrelse: En stor teststørrelse tyder i denne sammenhæng på, at nulhypotesen skal forkastes (at vi ikke tror på den). Med andre ord så får store værdier af X 2 os til at tro mere på H 1. I undersøgelsen har vi Hvornår teststørrelsen er for stor afhænger af størrelsen af vores tabel (matrix). Jo større tabel jo større skal teststørrelsen være. Her kommer antal frihedsgrader ind i billedet. Frihedsgrader Løst oversat: Hvor mange felter i tabellen kan udfyldes frit? Her skal vi huske på, at vi kender antallet af respondenter. Generelt kan vi udregne antal frihedsgrader som ( ) I undersøgelsen er Når teststørrelsen er kendt og vi kender antal frihedsgrader, så skal vi anlægge et signifikansniveau. Signifikansniveau 5% signifikans niveau betyder at der er 5% sandsynlighed (risiko) for at forkaste en sand nulhypotese Jo skrappere krav til undersøgelsen jo lavere signifikansniveau. Vi vil være sikre på, at vi først forkaster nulhypotesen når vi er helt sikre på at den ikke holder. Forskellen skal være signifikant. I kriminalsager skal enhver tvivl komme den anklagede til gode, så vi må håbe at dommere sætter fejlsandsynligheden, signifikansniveau, lavere end 1%... I opgaven vælger vi et signifikansniveau på 5%. 7

Skal vi forkaste H0?? Når vi kender teststørrelsen og antal frihedsgrader, så kan vi enten slå op i en tabel som denne I vores tilfælde kan vi se at hvis vi skal beholde vores hypotese, så skal teststørrelsen være mindre end 5.99. Det er ikke tilfældet, så vi må forkaste nulhypotesen, der er altså sammenhæng mellem interessen for matematik og køn. Denne teststørrelse kan også omregnes til en sandsynlighed (til en p-værdi). P-værdi p-værdien udtrykker sandsynligheden for at observere den (numerisk) fundne forskel, eller én der er større, forudsat at nulhypotesen er sand. P-værdien er altså summen af sandsynlighederne for det observerede eller værre. Denne værdi kan Nspire eller Excel give os. Kan også betragtes som den signifikansgrænse, der lige præcis ville forkaste nulhypotesen. Hvis vi får givet teststørrelsen og antal frihedsgrader kan vi benytte funktionerne i Nspire. Det første billede nedenunder viser genvejen fra værktøjskassen. Billedet til venstre viser kataloget. Her tastes blot. (Det den gør, er at den summere sandsynlighederne fra teststørrelsen og til uendelig (her i en fordeling med 2 frihedsgrader)). Omregnet svarer det til 0.036% for det observerede eller det som er værre, så det observerede må være skidt. Vi forkaster altså H0 og accepterer H1, så der må være en sammenhæng mellem køn og interesse for matematik. 8

χ 2 -fordeling. Vi så under binomialtest, at sandsynlighederne fordelte sig på en bestemt måde. På samme måde kan vi opstille en sandsynlighed for alle kombinationer af vores observationsmuligheder. Som første koordinat benytter i os af teststørrelsen. På denne måde vil der fremkomme følgende fordelinger afhængig af antal frihedsgrader. Vi kan se, at jo flere antal frihedsgrader der er, jo fladere bliver kurven. (video) Sandsynlighed 1 0.8 0.6 0.4 0.2 Fordeling med 1 frihedsgrad Fordeling med 2 frihedsgrader Fordeling med 3 frihedsgrader Fordeling med 4 frihedsgrader Disse fordelinger er kontinuerte. 1 2 3 4 5 6 7 8 Teststørrelse X ^2 Tænk på dette test som et højre siddet test (som ved binomialtesten/fordelingen). Vi er altså interesseret i at vide, hvor langt ud på x-aksen vi skal, før end den kumulerede sandsynlighed runder de 0,95. Lad os kigge på fordelingerne ud fra de kumulerede sandsynligheder. Graferne minder en del om tilsvarende billeder under binomialtest. Her kan vi let se acceptmængde og kritiskmængde. Prøv at sammenholde de kritiske værdier med tabelværdierne fra tidligere. Kumuleret sandsynlighed 1 y = 0.95 Kumuleret sandsynlighed 1 df = 2 df = 3 df = 4 y = 0.95 df = 2 df = 3 df = 4 (5.99146,.95) (7.81473,.95) (9.48773,.95) 1 2 3 4 5 6 7 8 9 1011121314 Teststørrelse X^2 1 2 3 4 5 6 7 8 9 1011121314 Teststørrelse X^2 Lad os prøve at kigge på fordelingen med to frihedsgrader. Vi kan også tillade os at tænke i acceptmængde og kritiskmængde som under binomialtesten.. Her er fordelingen kontinuert og ikke diskret som under binomialtesten. Det betyder at arealet under grafen angiver den kumulerede sandsynlighed på det givne interval, og at ALLE teststørrelser kan optræde. Vi kan bestemme den eksakte teststørrelse, som markerer grænsen for de 0.95 ved følgende i Nspire: 9

Dette er vores kritiske værdi, altså dén værdi, der skiller accept- og kritiskmængde. Læg mærke til at det er den samme, som i fandt i vores skema tidligere. Sandsynlighed df = 2 Hvis vi får en teststørrelse, som falder inden for det skraverede område (acceptmængden) fra [0;5.99146[, så vil nulhypotesen ikke kunne forkastes. Vores teststørrelse på 15.85 ligger langt inden i det kritiske område, og derfor må vi forkaste nulhypotesen. integral =.95 1 2 3 4 5 6 7 8 9 10 Teststørrelse X^2 Sandsynlighed 0.2 0.15 df = 5 Hvis vi kigger på χ 2 -fordelingen for 5 frihedsgrader og finder den teststørrelse, som vil give os en p-værdi på 0.05 (5% signifikansniveau), så får vi følgende billede: 0.1 0.05 Dette er vores kritiske værdi, altså værdien der skiller accept- og kritiskmængde. Så jo flere frihedsgrader jo større skal teststørrelsen være før end det blive Kritisk. 1 2 3 4 5 6 7 8 9 10 11 12 13 Teststørrelse X^2 Det røde snit angiver grænsen for teststørrelsen, hvor et signifikansniveau på 5% bliver forkastet. Prøv at kigge på tabellen fra tidligere og skab en sammen hæng.. Den røde streg markerer ligeledes p-værdien 0.05. P-værdier mindre end 0.05 vil være at finde til højre for den røde streg og omvendt. Jo skrappere krav til signifikans jo længere mod højre flytter vi grænsen (den røde streg). 10

I praksis Bliver vi bedt om at test ovenstående undersøgelse med eleverne og holdning til matematik, så benytter vi Nspire. (video) Først opretter vi to matricer via menuen. Så indtastes (her en 2 x 3 matrice) [ ] Så vælges en uafhængighedstest, og vores matrice indtastes. Dette giver nu følgende resultat: Nu kan vi vælge at kigge i en tabel med vores X 2 -teststørrelse, men vi kan også nøjes med at kigge på vores p-værdi. Da denne er langt under vores signifikans niveau (den svarer til 0.036%), så forkaster vi nulhypotesen. Havde p-værdien ligget over vores signifikansniveau så havde vi ikke kunnet forkaste nulhypotesen. Lav opgave 357 11

χ 2 -Goodness of fit Med dette test kan vi teste om en række observerede værdier stemmer overens med tilsvarende teoretiske/forventede værdier. Vi tester med andre ord om vores observation adskiller sig signifikant fra en forventet fordeling. Faktisk er uafhængighedstesten en under gren af Goodness of fit, hvor vi blot har givet fordelingen på forhånd (da der skal gælde uafhængighed/ligelig fordeling). (video). Et eksempel kunne være at teste Mendels lov om arveegenskaber hos planter. Mendel påstod at hvis man krydsede en rød og hvid plante, så ville man få følgende: Far/Mor Rød Hvid Rød Rød Lyserød Rød ville dukke op i 25%, hvid i 25% og lyserød i 50% af tilfældene. Hvid Lyserød Hvid Vores hypoteser: H 0 : Udfaldet af farver i forsøget adskiller sig ikke signifikant fra Mendels lov. Mendels lov må gælde. H 1 : Udfaldet adskiller sig signifikant fra Mendels lov. Mendels lov gælder ikke. I et forsøg fik en gymnasieklasse følgende resultat: Rød Lyserød Hvid I alt Observeret 115 188 97 400 Rød Lyserød Hvid I alt Forventet 400 Teststørrelse X 2 Da vi er interesserede i at teste, om vores observerede værdier ligget tæt nok på vores forventede, så kigger vi på forskellen i mellem disse. Da vi desværre ikke kan bruge summen af afvigelserne til noget, da disse altid vil give 0 (prøv selv ), så kigger vi på teststørrelsen som: Her vil en forskel aldrig give et negativt bidrag og store forskelle vægter meget tungere. 12

I eksemplet fås Dette lyder som et lille tal, men lad os kigge nærmere på det. Frihedsgrader Om en teststørrelse er stor eller ej afhænger stadig af vores antal frihedsgrader. Jo større en tabel er, jo større vil teststørrelsen kunne blive før end den forkastes. Løst oversat: Hvor mange felter i tabellen kan udfyldes frit? Er der tale om en enkelt række så er ellers I eksemplet er Signifikansniveau Signifikansniveauet er vores krav til undersøgelsen. Eksempelvis vil et 5% signifikansniveau betyde, at der er 5% sandsynlighed (risiko) for, at vi forkaster en sand nulhypotese (fejl 1). Typisk sættes niveauet til 5%. Jo skrappere krav til undersøgelsen jo lavere signifikansniveau. Vi vil være sikre på, at vi først forkaster nulhypotesen når vi er helt sikre på at den ikke holder. Forskellen skal være signifikant. I eksemplet sættes signifikansniveauet til 5% P-værdi Herefter omsættes vores teststørrelse til en p-værdi. Denne fortæller os nu om vi ligger over eller under vores kritiske niveau, som er fastsat af vores signifikansniveau (typisk 5%). Hvis p-værdien er under vores signifikansniveau, så forkastes nul-hypotesen. Hvis p-værdien er over vores signifikansniveau, så accepteres nul-hypotesen. Fra vores viden om sandsynlighedsfordelinger (video), ved vi at p-værdien er den samlede sandsynlighed for at få denne kombination eller det der er værre. Derfor taster vi i Nspire Her bliver vi blot bekræftet i at nulhypotesen ikke kan forkastes. Den lader derfor til at den er sand. 13

I praksis I praksis gør vi som under uafhængighedstesten, men her skal vi blot angive vores fordelinger (altså forventede værdier) med. (video) Herefter vælges Godness of Fit-testen. Den observerede liste og forventede liste indtastes sammen med degress of freedom. Resulstat: Her kan vi aflæse p-værdien til 0,216 hvilket er noget større end vores signifikansniveau på 0,05, så vores nulhypotese må accepteres. Udfaldet adskiller sig altså ikke signifikant fra Mendels lov. Lav opgave 354 side 162, opgaver fra vejledende eksamensopgaver på fronter. 14

Stikprøver Population I tilknytning til et observationssæt er det hensigtsmæssigt at indføre betegnelserne population og stikprøve. Et observationssæt vil vi altid opfatte som en stikprøve fra en population. Tag et eksempel fra den daglige nyhedsformidling: 60% af stockholmerne er imod indførelse af bompenge for biltrafikken i Stockholm Fra 3. januar 2006 startede et forsøg i Stockholm, hvor man afkrævede bilister bompenge ved indog udkørsel fra den svenske hovedstad. I den anledning havde man spurgt 600 stockholmere om deres holdning til forsøget, og 60% af de adspurgte var imod forsøget. Formålet med undersøgelsen var at belyse stockholmernes holdning til bompenge. Derfor må man formode, at populationen var hele Stockholms befolkning. Observationssættet bestod af de 600 svar på spørgsmålet (for, imod, ved ikke), og stikprøven bestod af de 600 stockholmere, som blev spurgt. Men det er valget af stikprøven, der i virkeligheden afgør, hvad populationen har været. Hvis de 600 personer i stikprøven alle var bilister, så er stikprøven ikke repræsentativ for alle stockholmere, da bilister oplagt kunne have et andet syn på bompenge end andre indbyggere. Af samme grund ville det ikke være repræsentativt at spørge 600 tilfældigt forbipasserende på gågaden. Repræsentativ En stikprøve skal være repræsentativ for den population, man udtaler sig om. En stikprøve anses for repræsentativ, hvis den i alle henseender afspejler de forhold ved populationer, som kan have betydning for resultatet af undersøgelsen. Det kan være meget svært at sikre, fordi man ikke altid på forhånd kan vide, hvilke forhold, der har betydning. Til demonstration af begrebet repræsentativitet, se på følgende eksempler: Eksempel 1: Hvis man vil undersøge, hvilken højde eleverne på et hold har, så er det ikke repræsentativt at måle højden af de elever, der sidder på første række. Den stikprøve kan indeholde systematiske fejl, fordi der kan være et mønster i elevernes valg af siddeplads. Måske sidder de højeste elever bagest, eller pigerne forrest e.l. Eksempel 2: Hvis man vil undersøge, hvor stor en del af eleverne på en skole, der er overvægtige, er det ikke repræsentativt at vælge de første 20 elever, der selv melder sig til en undersøgelse. Eksempel 3: Hvis man vil undersøge dette års karakterer i skriftlig dansk ved studentereksamen, er det ikke repræsentativt at vælge eleverne på Sct. Knuds Gymnasium 15

Valg af stikprøve Som udgangspunktet for valg af en stikprøve vil man kræve, at den er tilfældigt valgt fra populationen, altså valgt ved en form for lodtrækning, hvor alle i populationen har samme sandsynlighed for at komme med i stikprøven. Ved at vælge stikprøven tilfældigt undgår man systematiske fejl i selve udvælgelsen. Men man kan naturligvis ikke gardere sig imod, at en tilfældigt valgt stikprøve uheldigvis kommer til at indeholde systematiske fejl, der får betydning for resultatet. I nogle stikprøvesituationer, f.eks. i politiske meningsmålinger, benytter man ofte faste vælger-stikprøver, der er udvalgt, så de i sammensætning er repræsentative for hele vælgerbefolkningen, en slags mini-danmark, med hensyn til alder, køn, erhverv, indtægt osv. Det er en anden måde at sikre sig repræsentativitet på. Eksempel 4: På Experimentarium i Hellerup, København, kan de besøgende besvare et genetisk spørgeskema, hvor et af spørgsmålene er, om du er venstre- eller højrehåndet. En bestemt dag er der indkommet 217 svar, hvoraf de 40 svarer venstrehåndet, og 177 svarer højrehåndet. Observationssættet er de 217 svar (højre, venstre). Populationen er de besøgende på Experimentarium den pågældende dag, og stikprøven er de 217 personer, der har valgt at svare på skemaet. Eksempel 5: I en undersøgelse af unge og religiøsitet har deltaget 462 elever i gymnasiet og hf. På spørgsmålet Tror du på et liv efter døden svarer 55% ja. Observationssættet er de 462 svar (ja, nej, ved ikke). Populationen er alle elever, som går i gymnasiet og hf på undersøgelsestidspunktet, og stikprøven er de 462 elever Eksempel 6: På en medicinalvarefabrik producerer de gigtpiller, som skal indeholde en bestemt dosis, f.eks. 8 mg, af det aktive stof. En produktionskontrol foretages ved en dag at måle det præcise dosisindhold i 200 tilfældige piller fra produktionen. Observationssættet består af 200 tal (dosismålinger). Populationen er den totale produktion af gigtpiller, og stikprøven er de 200 tilfældigt udtagne piller. I Danmark vejes alle nyfødte børn, så den egenskab (vægten) er målt på hele populationen. Det samme gælder alle værnepligtiges højde og alle afgivne stemmer ved et valg. Men i nogle tilfælde er det enten umuligt eller uoverkommeligt at måle hele populationen, og i disse tilfælde er det vigtigt at vide, hvor sikkert man kan udtale sig om den målte egenskab ved hele populationen, selvom man kun kender den for en stikprøve. Det er jo netop, hvad man gør, når man udtaler sig om resultatet af et forestående valg på grundlag af en opinionsundersøgelse med 1000 personer. 16

Vigtige overvejelser Nogle institutioner eller virksomheder får deres viden ud fra brug af stikprøver. Her kan nævnes Gallup, Observa, Megafon, Vilstrup, Epinion, etc. Opgaverne kan være meget forskelligartede: Det kan være en prognose til et folketingsvalg, en brugerundersøgelse for et givet produkt, en analyse af hvilke programmer TV-seerne ser osv. Stikprøver hentyder til, at man forsøger at sige noget om hele populationen udfra et begrænset udpluk. I mange tilfælde er man simpelthen nødt til at bruge denne form, da man ikke kan spørge hele Danmarks befolkning, hvad den synes om økologiske varer eller hvilke TV-udsendelser, den ser. Det er ikke praktisk muligt, og selv om man forsøgte, ville man ikke kunne komme i kontakt med alle. Det ville også være alt for dyrt og tidskrævende. Derfor benytter man stikprøver. Her er det vigtigt at: 1. Nøje overvejelse af hvordan persongruppen sammensættes/udvælges. 2. Man skal være omhyggelig med, hvordan man stiller spørgsmålene. 3. Resultaterne af spørgeundersøgelsen efterbehandles statistisk. Nogle kommentarer til ovenstående punkter: 1) Det er meget vigtigt, at man sammensætter gruppen af personer, som man udspørger, så den er repræsentativ for hele populationen, hvad enten det er en bestemt del af befolkningen eller hele befolkningen. Det er ingenlunde nemt. Man skal passe meget på, at der ikke kommer bias, dvs. en skævhed, i stikprøven. Ønsker man for eksempel at finde ud af befolkningens holdning til krigen i Afghanistan, så er det ikke særligt fornuftigt at gå ned på den lokale gågade og spørge folk ud, om soldaterne skal trækkes hjem. Folk på gågaden er nemlig ikke særlig repræsentative for Danmarks befolkning. Der vil formentlig være et underskud af folk i arbejde og et overskud af husmødre. Der er altså en skævhed i sammensætningen. Man kan formode, at der vil være et overskud af kvinder tilstede og kvinder er gennemsnitligt mere imod krig end mænd er. En anden ting, man også skal passe på er, når udspørgeren selv vælger den, der udspørges. Der kan nemlig være en tendens til at spørge personer på gaden, som ser venlige og imødekomne ud, og der er en mulighed for, at denne gruppe af personer kan have en anden holdning til et spørgsmål, end gennemsnittet af befolkningen. At spørge på Internettet skal man også være påpasselig med, da den ældre del af befolkningen er underrepræsenteret her. Hvis man undersøger de unges præferencer, så gør dette måske ikke så meget. Den klassiske bommert, som ofte nævnes i forbindelse med udvælgelse af stikprøver er den, der blev begået af Literary Digest i deres opinionsundersøgelse for valget i USA i 1936: Franklin D. Roosevelt havde fuldført sine første 4 år som præsident, og genopstillede mod republikaneren Alfred Landon fra Texas. Magasinet Literary Digest forudsagde en overvældende sejr til Alfred Landon, med kun 43% af stemmerne til Roosevelt. Undersøgelsen var endda baseret på den største stik-prøve nogensinde: 2,4 millioner! Magasinet havde et godt ry: det havde udpeget den rigtige præsident siden 1916. Imidlertid vandt Roosevelt overvældende: med 62% mod 38% og Literary Digest gik fallit kort efter. Hvordan kunne magasinet begå sådan en kæmpe fejl den største nogensinde af et etableret og vigtigt menings-målingsinstitut? Man havde jo udspurgt en kæmpe gruppe. George Gallup var netop ved at grundlægge sit meningsmålingsinstitut og fik sit 17

gennembrud ved at forudsige resultatet af valget med en afvigelse på kun 1 procent, og han havde endda kun udspurgt 50.000 personer. Det var altså ikke stikprøvens størrelse, som var altafgørende, her var det den nye markedsanalyse-teknik med anvendelse af den repræsentative stikprøve, der havde bestået sin prøve! Magasinets fejl bestod i at de sendte spørgsmål ud til 10 millioner mennesker med posten. Navnene fra de 10 millioner mennesker kom fra kilder som telefonbøger og medlemmer af klubber. Denne fremgangsmåde havde en tendens til at frasortere de fattige, hvoriblandt der ikke var mange, som var medlemmer af klubber. Og dengang havde kun 1/4 af befolkningen telefon. Grunden til, at en sådan fejl først skete i 1936 og ikke før var, at i 1936 fulgte de politiske holdninger mere økonomiske linjer... det havde ikke været tilfældet tidligere, hvor rige og fattige stemte mere ensartet. Så læren af dette eksempel er følgende: Når en udvælgelsesprocedure er skæv, så hjælper det ikke at tage en større stikprøve. Det vil blot gentage fejltagelsen i større målestok! Bias En anden ting, som stikprøver kan risikere at lide under er non-response bias, hvormed menes skævhed på grund af for mange personer, som nægter at svare på spørgsmål. Det viser sig nemlig, at gruppen af personer, som ikke svarer, undertiden adskiller sig fra resten på vigtige områder. Faktisk led Digests undersøgelse netop heraf, idet kun 2,4 millioner ud af de 10 millioner svarede! Undersøgelser har vist, at lav-indkomst og høj-indkomstgrupperne har en større tendens til ikke at svare, så mellem-indkomstgrupperne er overrepræsenteret. Gode meningsmålings-institutter kender dette problem og har metoder til at tage højde for det. Hvis man ringer til folk, så kan man for eksempel ringe tilbage gentagne gange til de folk der ikke træffes umiddelbart. Men hvilke metoder benyttes da? Besøgsinterviews, telefoninterviews, postomdelte interviews eller Internet-interviews? Svaret er, at det kommer an på formålet og undersøgelsens form. Lange og teksttunge undersøgelser egner sig ikke til oplæsning. Her er det bedre, hvis den spurgte har noget at kigge på. Det kan også være, at respondenten skal reagere på et logo etc. Besøgsinterviews benyttes også, men ikke så meget som tidligere. De kræver mange resurser. Det skal dog også nævnes, at nogle undersøgelser kræver helt andre former. For eksempel TVseer undersøgelser, hvor et panel af personer har monteret en måler på deres TV, eller Internetbrugere, som har installeret et særligt program for at kunne registrere deres vaner på Internettet. Internettet er godt til at måle folks reaktion på reklamer, radiospots eller andet audiovisuelt materiale. En væsentlig årsag til en anden type fejl er, hvis man giver intervieweren lov til selv at vælge, hvem der skal interviewes, eventuelt indenfor en bestemt undergruppe. Det var faktisk årsagen til en anden kendt fejlbedømmelse ved præsidentvalget i 1948 i USA. Et problem ved at overlade for meget til menneskets valg er, at intervieweren vil udspørge dem, der er lettest at få fat i. I 1948 resulterede det i, at man udvalgte for mange republikanere, da de var en smule nemmere at interviewe. Løsningen på dette problem er, at man indfører et element af tilfældighed ved at trække lod. Det stiller dog nogle spørgsmål: Har man en liste med alle indbyggere? Hvordan håndterer man rent praktisk, hvis en udvalgt person ikke er hjemme eller bort-rejst? etc. For at undgå for mange praktiske problemer kan man vælge at lave klyngestikprøver, hvormed menes, at man vælger et antal områder ud, eventuelt inddeler i et 18

antal undergrupper, hvori man så udtager personer ved simpel tilfældig lodtrækning. Denne metode er især nyttig ved besøgsinterview, hvor det også gælder om at begrænse transportomkostningerne. Der er mange variationsmuligheder her. 2) Man skal være omhyggelig med, at man stiller spørgsmål, som er klare og utvetydige. Og så skal spørgsmålene ikke være ledende. Det duer for eksempel ikke at spørge en person, om han/hun motionerer meget, for hvad er meget motion? Man skal heller ikke anvende fremmedord, som mange ikke kender. Spørgsmål, som lægger op til politisk korrekte svar bør undgås. 3) Den tredje omkostning er, at de indsamlede data skal behandles statistisk. Man kan ikke bare uden videre tælle sammen, som hvis man har data for en hel population. I ret stort omfang kan man for eksempel korrigere for skævheder i stikprøven. Lad os se på et eksempel. Eksempel 7: Lad os gøre det tankeeksperiment, at man udspørger et antal personer, om de vil stemme JA eller NEJ til den nye EU-traktat. Lad os antage, at man i stikprøven fik spurgt 47% kvinder og 53% mænd og at der blandt mændene var en gennemsnitligt Ja-procent på 58%, mens der blandt kvinderne var en gennemsnitlig Ja-procent på 45%. Hvis man kritikløst havde godtaget denne stikprøve som værende repræsentativ, så ville man altså få en total Ja-procent ved at udregne det vejede gennemsnit: 0,47 0,45 0,53 0,58 0,519 51,9% Imidlertid er der relativt flere mænd end kvinder i stikprøven i forhold til hele den stemmeberettigede del af befolkningen, hvor der er 48,8% mænd og 51,2% kvinder. Vi korrigerer derfor ved at benytte de korrekte vægte frem for stikprøvens: 0,512 0,45 0,488 0,58 0,513 51,3% I praksis vil man selvfølgelig også skulle korrigere for andre størrelser end køn. Gallup benytter også vejning til at korrigere for, at der er nogle persongrupper, som det er sværere at få fat i end andre pr. telefon. Eksempelvis har Gallup lidt sværere ved at få fat i unge mænd. Forhold, der typisk korrigeres for ved prognoser til folketingsvalg er køn, alder, valgkreds, husstandsstørrelse og partivalg ved forrige folketingsvalg. Det er ikke nødvendigvis alle skævheder, man kan veje sig ud af, så målingerne kan udover den statistiske usikkerhed godt være behæftet med mindre fejl, som påvirker resultatet systematisk. Fejl af denne type er i sagens natur ukendte, men meget tyder på, at der er tale om ret små ting. Endelig skal det siges, at man også forsøger at tilrettelægge (stratificere) sammensætningen af stikprøven, før undersøgelsen foretages, men det kan kun lade sig gøre, hvis man på forhånd har de relevante oplysninger om respondenterne. Det haves ikke, hvis man ringer til tilfældige 19

telefonnumre. Hvis der derimod er tale om en undersøgelse baseret på et medlemsregister af en slags, gøres det ofte. Også i tilfældet med Internet-undersøgelser, hvor Gallup på forhånd har en masse baggrunds-oplysninger om det panel af personer, man har til rådighed. Dette var en introduktion til den generelle del af spørgeskemaer og eventuelle fejl koblet til undersøgelsen. Nu vender vi blikket mod de to egentlige test, som vi skal kigge nærmere på. Vi forudsætter i det efterfølgende at vores datamateriale er i orden og uden bias. Men stikprøver viser ikke altid sandheden. Det kan gå galt på to måder: Fejl af type 1: En sand hypotese forkastes. Fejl af type 2: En falsk hypotese accepteres. 20