Meigsmåliger KLADDE Thomas Heide-Jørgese, Rosborg Gymasium & HF, 2017
Idhold 1 Meigsmåliger 2 1.1 Idledig................................. 2 1.2 Hvorda skal usikkerhede forstås?................... 3 1.3 Beregig af usikkerheder........................ 4 1.4 Normalfordelige som approximatio for biomialfordelige.... 5 1.5 Beregig af usikkerhed, hvis vi keder p................ 8 1.6 Beregig af usikkerheder på meigsmåliger............. 9 1.6.1 Kofidesitervallet udtrykt ved hjælp af proceter...... 9 1.6.2 Estimat af spredige...................... 9 1.6.3 Udledig af usikkerhedsitervallet............... 11 1
Kapitel 1 Meigsmåliger 1.1 Idledig Når aalyseistitutter foretager meigsmåliger agives resultatere ofte som i edeståede skema: Figur 1.1: E meigsmålig foretaget af Voxmeter på e stikprøve beståede af 1032 repræsetativt udvalgte persoer over 18 år. Vi er i dee sammehæg specielt iteresserede i de sidste og de tredjesidste søjle og matematikke der gemmer sig bag usikkerhedsberegigere i meigsmåliger. Når aalyseistitutter skal berege usikkerheder i deres meigsmålig bruges formle p (1 p) u = 1.96, (1.1) 2
Meigsmåliger side 3 af 12 hvor u er usikkerhede udtrykt i procetpoit (som decimaltal) er stikprøves størrelse p er de procetdel, der vil stemmme på partiet, skrevet som decimaltal Figur 1.2: I e meigsmålig bør usikkerhede altid agives samme med med de agive fordelig af stemmere. Her er de relevate søjler hevet ud af tabelle. Opgave 1.1.1. Brug formel (1.1) til at berege alle usikkerhedere i meigsmålige og tjek om resultatere passer med de agive usikkerheder. Opgave 1.1.2. Brug formel (1.1) til at argumetere for, hvorda ma ka miimere usikkerhede. 1.2 Hvorda skal usikkerhede forstås? Ma kue fristes til at tro at usikkerhede skal forstås såda at de præcise adel af befolkige, der vil stemme på et givet parti ligger i usikkerhedsitervallet. Me det er ikke korrekt. Usikkerhedsitervallet agiver emlig, at: Der er 95% sadsylighed for hele befolkiges stemmeadel vil ligge i usikkeredsitervallet. Det betyder altså at vi accepterer at tage fejl i 5% af tilfældee. Det er et af vilkåree år ma laver statistik. Formålet med de følgede afsit er at forstå hvorfor formel (1.1) er korrekt, samt hvorfor vi bliver ødt til at acceptere, at vi ka tage fejl i 5% af tilfældee. 3
Meigsmåliger side 4 af 12 1.3 Beregig af usikkerheder Vi vil tage udgagspukt i e stikprøve med e størrelse på. I første omgag vil vi ikke komme id på hvor stor bør være, me blot huske på at i virkelige meigsmåliger er ofte omkrig 1000. Vil vil atage at alle persoere i stikprøve er afklarede omkrig deres partivalg (de ved altså, hvem de vil stemme på). 1 Vi vil ligeledes tage udgagspukt i et ekelt parti vi kalder det parti A og således vil vi kue stille spørgsmålet: Vil du stemme på parti A? Dette er et ja/ej spørgsmål, og vi ka således bruge biomialfordelige som matematisk model for situatioe. Vi vil altså lade være atalsparametere i biomialfordelige og p være sadsylighede for at e perso i stikprøve svarer ja til oveståede spørgsmål. Dee sadsylighed svarer til de procetdel af hele befolkige, som vil stemme på parti A. 0.15 B(100, 0.08) B(100, 0.54) p(x) 0.10 0.05 0.00 0 10 20 30 40 50 60 70 80 x Figur 1.3: Diagrammet viser for = 100 biomialfordelige for p = 0.08 (sort) og p = 0.54 (grå). Ma ka altså aflæse sadsylighede for at x ud af de 100 persoer vil stemme på parti A, givet at befolkiges tilslutig til parti A er heholdsvis 8% eller 54% Skal vi således berege hvor stor sadsylighede er for at der bladt 100 persoer i e stikprøve er præcist 54, der vil stemme på parti A (for p = 0.54) bruges biomialsadsylighede: P (X = 54) = K(100, 54) 0.54 54 (1 0.54) 100 54 = 0.0798 = 7.98%, 1 Tvivlere er i de virkelige meigsmåliger ofte årsage til at aalysefirmaere ikke rammer plet i 95% af tilfældee. 4
Meigsmåliger side 5 af 12 hvilket passer med aflæsige i diagrammet. Me det vil altså sige, at hvis ma udtager e tilfældig stikprøve på 100 persoer, så er sadsylighede for at stikprøves adel af stemmer på parti A svarer præcist til befolkiges adel ku cirka 8%, hvis befolkiges adel er 54%. Ma ka med adre ord overhovedet ikke være sikker på at e stikprøve ka fortælle oget præcist om hele befolkige. 2 Me det ka der rådes bod på ved at tillade at agive usikkerheder og agive de estimerede stemmeadel som et iterval. Det skal vi udersøge ærmere. 1.4 Normalfordelige som approximatio for biomialfordelige Vi husker at variase for biomialfordelige er givet ved σ 2 = p (1 p) og at spredige er kvadratrode af variase, så σ = p (1 p) Vi ka allerede u se, at der er visse sammefald mellem formel (1.1) og spredige for biomialfordelige. Vi skal se, at dette ikke er tilfældigt. 0.15 2σ B(100, 0.08) B(100, 0.54) p(x) 0.10 2σ 0.05 0.00 0 10 20 30 40 50 60 70 80 x Figur 1.4: Samme biomialfordeliger som i Figur1.3, me med spredige markeret omkrig middelværdie, altså µ ± σ. 2 Ma kue forestille sig at vi bare kue gøre stikprøve større, me det gør faktisk bare det hele værre. Hvis vi bereger P (X = 540) for e stikprøve på 1000, hvor p = 0.54, så får vi 2.5%. Altså ku 2.5% sadsylighed for at stikprøve på 1000 rammer befolkiges præcise tilslutig til parti A. 5
Meigsmåliger side 6 af 12 Lidt løst sagt agiver spredige jo et mål for hvorda sadsylighedsmasse er fordelt. Stor spredig betyder at der er mage mulige værdier af x, der er rimeligt sadsylige (dvs. e stor usikkerhed på vælgertilslutige), mes e lille værdi for spredige agiver at det ku er få værdier af x, der er sadsylige (lille usikkerhed på vælgertilslutige). I Figur1.4 vil spredige for p = 0.08 (sort) være midre ed spedige for p = 0.54 (grå), hvilket følgede udregiger også viser: σ 0.08 = p (1 p) = 100 0.08 (1 0.08) = 2.71 σ 0.54 = p (1 p) = 100 0.54 (1 0.54) = 4.98 Figur1.4 illustrerer de take vi skal følge, emlig om vi ka kostruere et iterval, hvor tilpas meget 3 af sadsylighedsmasse ligger. Det er ærliggede at tro, at vi ka bruge spredige som redskab til at lave dette iterval. Historisk set har der dog været de ulempe ved biomialfordelige, at det er lidt besværligt at udrege hvor stort et iterval vi skal bruge, hvis vi skal være sikker på at 95% af sadsylighedsmasse ligger i itervallet. 4 Derfor har ma brugt e meget vigtig sætig, kaldet De Moivre-Laplaces Sætig. De er temmelig tekisk at formulere og forstå i detalje, me lidt løst sagt siger de, at: Sætig 1 (De Moivre-Laplaces Sætig lightudgave). Hvis de stokastiske variabel X er biomialfordelt: X B(, p) med µ = p og σ 2 = p(1 p), så ka fordelige approximeres af ormalfordelige N(µ, σ 2 ), hvis blot er tilpas stor. Opgave 1.4.1. Overvej, hvorfor det var lettere at hådtere beregiger med ormalfordelige ed beregiger for biomialfordelige, hvis ma skulle lave beregigere ude computer. Sætige er gaske vaskelig at bevise, så det spriger vi over. Til gegæld er de let at illustrere: 3 Der er traditio for at tilpas meget betyder 95% 4 Det har utides computerkraft selvfølge ædret, me i praksis bruger ma stadig ikke biomialfordelige direkte til at udrege usikkerhede på resultatere. 6
Meigsmåliger side 7 af 12 p(x) 0.15 0.10 B(100, 0.08) B(100, 0.54) N (54, 4.98 2 ) N (8, 2.71 2 ) 0.05 0.00 0 10 20 30 40 50 60 70 80 x Figur 1.5: Vi ka se at allerede for = 100 er approximatioe meget god, år p = 0.54 (grå/rød) og tæt på at være acceptabel år p = 0.08 (sort/blå) Som vi ka se passer de røde ormalfordelig og de grå biomialfordelig meget flot samme, og øges til 300, så passer approximatioe fremragede som det ses edefor. p(x) 0.12 0.10 0.08 0.06 B(300, 0.08) B(300, 0.54) N (162, 8.63 2 ) N (24, 4.70 2 ) 0.04 0.02 0.00 0 20 40 60 80 100 120 140 160 180 200 x Figur 1.6: Her er = 300 og approximatioe er fremragede. Hvis forøges edu mere, bliver approximatioe ku bedre. Det skulle derfor gere være klart at det er lige så godt at bruge de tilsvarede ormalfordlelig i stedet for biomialfordelige, år er stor. Vi følger de historiske tilgag, som stadig bruges og udytter altså u at vi ka bruge ormalfordelige i stedet for biomialfordelige. For meigsmåliger er, som tidligere skrevet, som regel i omege af 1000, så her approximeres biomialfordelige altså edu bedre af ormalfordelige ed det er tilfældet på Figur1.6. Vi ved at i ormalfordelige med spredig σ = p (1 p) og middelværdi µ = p vil 95% af sasylighedsmasse ligge i itervallet [µ 1.96 σ, µ + 1.96 σ]. 7
Meigsmåliger side 8 af 12 Ma kalder dette for 95% kofidesitervallet. µ ± 1.96 σ N (µ, σ 2 ) p(x) 95% µ Figur 1.7: I ehver ormalfordelig vil 95% af sadsylighedsmasse ligge i itervallet [µ 1.96 σ, µ+1.96 σ]. E kosekves af De Moivre Laplaces sætig er da, at i e biomialfordelig B(, p), hvor er stor ok, så vil (cirka) 95% af sadsylighedsmasse også ligge i itervallet [µ 1.96 σ, µ + 1.96 σ], hvor µ = p. x 1.5 Beregig af usikkerhed, hvis vi keder p I oveståede afsit har vi set at vi ka fide et iterval, hvor 95% af sadsylighedsmasse befider sig i e biomialfordelig. Hvis vi tæker i termer af meigsmåliger, så vil vi allerførst forestille os at vi ved 5 at af hele 32% befolkige vil stemme på parti A. Hvis vi så udtager e tilfældig stikprøve på 1000 bladt hele befolkige, og spørger, hvor mage der vil stemme på parti A, hvad ka vi så sige om stikprøves procetdel? Først udreges µ og σ: µ = p = 1000 0.32 = 320 σ = p (1 p) = 1000 0.32 (1 0.32) = 14.75 hvilket betyder at der i stikprøve med 95% sadsylighed vil befide sig mellem 320 1.96 14.75 = 291 og 320 + 1.96 14.75 = 349, der vil stemme på parti A. Dette ka selvfølgelig også udtrykkes med proceter (ma dividerer blot med ). Vi ka altså sige at stikprøves stemmeadel med 95% sadsylighed ligger på mellem 29.1% og 34.9% (dvs. e usikkerhed på plus/mius 2.9 procetpoit). 5 Det gør vi bare for forståelses skyld. I virkelighede ved vi det jo etop ikke, hvilket vi vil vede tilbage til. 8
Meigsmåliger side 9 af 12 I oveståede udregig har vi ataget at vi keder p, altså befolkiges stemmeadel. Dette er i de virkelige verde omsost, da det etop er p vi vil fide. Derfor skal vi u udersøge hvad ma gør i stedet. 1.6 Beregig af usikkerheder på meigsmåliger 1.6.1 Kofidesitervallet udtrykt ved hjælp af proceter Vi vil i det følgede skele mellem de sade stemmeadel i befolkige p sad og stikprøves stemmeadel p stik. Det er klart at p stik er vores stikprøves estimat af befolkiges sade stemmeadel p sad. Det er ligeledes klart at det er ligegyldigt om vi taler om hvor mage ud af stikprøve, der stemmer på et parti eller hvor mage procet af stikprøve der stemmer på et parti. Vi vil i det følgede ku omtale de sidste mulighed, hvor ma bruger procetdele. Vi vil altså starte med at omskrive kofidesitervallet [µ 1.96 σ, µ + 1.96 σ], hvor µ = p, til et iterval med procetpoit (hvor vi altså dividerer med stikprøves størrelse for at få atallet omskrevet til procet). [ µ 1.96 σ, µ + 1.96 σ ] [ = p 1.96 σ, p + 1.96 σ ]. Vi vil i det følgede kalde spredige udtrykt i procet (altså σ ) for σ p. Itervallet bliver altså [p 1.96 σ p, p 1.96 σ p ] 1.6.2 Estimat af spredige Vi atager at stikprøves størrelse holdes fast. For emheds skyld siger vi at = 1000. Vi vil u (som det forholder sig i de virkelige verde), atage at vi ikke keder p sad. Vi vil prøve at lave et par eksempler på udregig af σ p for forskellige atal tilkedegivelser omkrig det at stemme på parti A: Hvis der i stikprøve er 300 der siger de vil stemme på parti A (svarede til p stik = 0.30), så er σ p : σ p = σ = pstik (1 p stik ) = 1000 0.3 (1 0.3) 1000 = 0.0145 = 1.45% 9
Meigsmåliger side 10 af 12 Hvis der i stikprøve er 320 der siger de vil stemme på parti A (svarede til p stik = 0.32), så er σ p : σ p = 1000 0.32 (1 0.32) 1000 = 0.0148 = 1.48% Hvis der i stikprøve er 340 der siger de vil stemme på parti A (svarede til p stik = 0.34), så er σ p : σ p = 1000 0.34 (1 0.34) 1000 = 0.0150 = 1.50% Vi ka se at tallet varierer, og dette er problematisk. 6 I praksis er det dog ikke oget problem, da variatioe er så lille. Her estimerer vi plot spredige ved hjælp af stikprøves stemmeadel, altså vi sætter σ psad = σ pstik. 7 For hvis vi ikke behøver tæke over om spredige varierer, så ka vi i stedet for at skrive at der er 95% chace for at p stik ligger i itervallet [p sad 1.96 σ p, p sad + 1.96 σ p ], sige at der er 95% chace for at p sad ligger i itervallet [p stik 1.96 σ p, p stik + 1.96 σ p ], og det er lige præcist dette der agiver usikkerhede på stemmeadele der kommer fra stikprøve. Dette er illustreret på figure på æste side. 6 Det ka godt være lidt svært at geemskue hvorfor det er et problem, me det er det faktisk (i hvert fald ret teoretisk). 7 E ade måde at løse dette problem er at idrage e såkaldt t-fordelig, me det bliver for avaceret at gøre her (og det er heller ikke såda aalyseistituttere gør). 10
Meigsmåliger side 11 af 12 p sad p stik p stik p stik 95% 1.96 σ p 1.96 σ p 1.96 σ p 1.96 σ p 1.96 σ p 1.96 σ p 1.96 σ p 1.96 σ p Figur 1.8: Sadsylighede for at befolkiges sade stemmeadel ligger idefor stikprøves usikkerhedsiterval er 95%. 5% af stikprøvere vil altså svare til de røde på figure, mes 95% vil svare til de sorte. Opgave 1.6.1. Overvej meget grudigt, hvorfor: p stik [p sad 1.96 σ p, p sad + 1.96 σ p ] p sad [p stik 1.96 σ p, p stik + 1.96 σ p ] Overvej desude, hvad der går galt hvis spredigere ka variere. 1.6.3 Udledig af usikkerhedsitervallet Vi kokluderede altså, at hvis vi fider stikprøves stemmeadel p stik, så vil befolkiges sade stemmeadel med 95% sasylighed ligge i usikkerhedsitervallet: [p stik 1.96 σ p, p stik + 1.96 σ p ] 11
Meigsmåliger side 12 af 12 Dette omskrives u: [ ] pstik (1 p stik ) pstik (1 p stik ) = p stik 1.96, p stik + 1.96 [ ] pstik (1 p stik ) pstik (1 p stik ) = p stik 1.96, p 2 stik + 1.96 2 [ ] pstik (1 p stik ) pstik (1 p stik ) = p stik 1.96, p stik + 1.96 Hvoraf vi ka se formle for usikkerhede svarede til formel (1.1): pstik (1 p stik ) u = 1.96. 12