Kapitel 2: Statistik og Sandsynlighed

Kapitel : Statistik og Sandsynlighed.1 Middelværdi og spredning Hvis man foretager eksperimenter i laboratoriet eller går ud og gør observationer i naturen eller samfundet, vil resultaterne af disse eksperimenter ofte foreligge som data, der bagefter skal underkastes en passende behandling. De skal organiseres, og der skal uddrages konklusioner. Det er statistikerens opgave at organisere sådanne datamaterialer og dermed sikre et fornuftigt beslutnings-grundlag. Lad os prøve at systematisere, hvordan vi kan organisere de data, vi indsamler. Data foreligger ofte i form af et talsæt: X 1, X,, X. Sådanne tal udgør det såkaldte observationssæt. På basis af dette observationssæt kan vi nu bestemme værdien af nogle nyttige statistiske deskriptorer, dvs. tal, der beskriver hele observationssættet (jfr. engelsk: describe = beskrive). Vi kan nemt finde middelværdien m for observationssættet, dvs. gennemsnittet af alle observationerne: X 1 X... X m år vi skal bestemme et mål for, hvor spredt observationerne er, bliver det mere indviklet. Vi kunne bruge variationsbredden, dvs. forskellen mellem største og mindste værdi. Men det bliver i mange tilfælde et misvisende mål for spredningen af observationerne, specielt hvis der som vist på tallinjen nedenfor er enkelte usædvanligt store og små observationer. Her er variationsbredden udelukkende bestemt af usædvanlige observationer: X min X max I stedet for variationsbredden indføres den såkaldte standardafvigelse eller spredning s. Spredningen s beregnes på følgende måde: 1) Først udregnes middelværdien m af observationssættet X 1, X,, X ) Derefter udregnes middelværdien K af kvadraterne på observationerne (gennemsnitskvadratet, jfr. kap. 1): X 1 X... X K 3) Endelig, beregnes spredningskvadratet s = K m, hvorefter spredningen fås ved at uddrage kvadratroden: s K m, På mange lommeregnere findes der særlige taster til beregning af middelværdi og spredning, for et observationssæt. 3

Hvad fortæller spredningen egentlig om et observationssæt? Spredningen kan opfattes som et mål for den gennemsnitlige afstand fra observationerne til middelværdien, dvs. den er et mål for, hvor langt en typisk observation ligger fra middelværdien. De fleste observationer ligger enten inden for eller lidt uden for én standardafvigelses afstand fra middelværdien. Det store flertal af observationerne (de normale ) ligger inden for to standardafvigelser, mens det er yderst sjældent ( exceptionelt ), at observationerne ligger længere væk end tre standardafvigelser fra middelværdien. De normale observationer ligger altså mellem tallene m - s og m + s. De exceptionelle udfald er mindre end m- 3s eller større end m + 3 s. Eksempel Vi vil beregne middelværdi m og spredning s for observationssættet 6, 7, 8, 10, 11: m 6 7 8 5 10 11 4 5 8.4 K 6 7 8 5 10 11 370 5 74 s = 74 8.4 = 3.44 s 3.44 1.85 Middelværdien er altså 8.4 og spredningen 1.85. Vi finder: m - s = 4.7 og m+ s = 1.1, dvs. alle observationerne er normale. Spredningen s Vi vil her kort belyse spredningsdefinitionen ovenfor. Ud fra et observationssæt X 1, X,, X med middelværdi m beregnes først afvigelserne fra middelværdien: X 1 - m, X - m,..., X.- m. ogle af disse afvigelser er positive, nogle er negative, og gennemsnittet af dem er 0. Kvadrerer vi disse afvigelser: (X 1 -m), (X -m),.,(x -m), får vi en række størrelser, hvis gennemsnit er et mål for, hvor spredt observationerne ligger. Dette middelafvigelseskvadrat er netop s ( X1 m) ( X m)... ( X m) s For observationssættet 6, 7, 8, 10, 11 er middelværdien m = 8,4, og middelafvigelseskvadratet giver (6 8.4) (7 8.4) (8 8.4) (10 8.4) (11 8.4) 17. s 3.44 5 5 Vi bemærker, at vi fik samme værdi for s i eksemplet foregående side 4

Øvelse: Vi har nu udregnet spredningskvadratet ud fra to forskellige formler: (1): s = K m () ( X1 m) ( X m)... ( X m) s Vis, at formel () kan omskrives til formel (1). Eksempel Ved en bestemt eksamen er der givet følgende karakterer til en klasse med 5 elever: 5,5,6,6,6,7,7,7,7,8,8,8,8.8,8,8,9,9,9,9. 10, 10,11,11,11. Beregningen af klassens gennemsnit m kan naturligvis forgå således: m 5 5 6 6 6... 5 11 11 11 01 5 8.04 Det vil ofte lette regnearbejdet at opstille en hyppighedstabel. Blandt de 5 observationer er der syv forskellige udfald, nemlig karaktererne 5, 6, 7, 8, 9, 10 og 11. Her er X, = X = 5, X 3 = X 4 = X 5 = 6, osv. Fx har udfaldet 8 hypppigheden 7, fordi der er 7 ottetaller. Vi opstiller et skema: Udfald u 5 6 7 8 9 10 11 Sum Hyppighed 3 4 7 4 3 5 h h*u 10 18 8 56 36 0 33 01 I eksemplet har vi benyttet følgende: Hvis der blandt observationer X 1, X,, X er n forskellige udfald u 1, u, u 3,, u n med hyppighed h 1, h, h 3,.,h n, så kan middelværdien. m beregnes på følgende to måder: m X 1 X... X h1 u1 h u... h n u n 01 0 03 I praksis er man ofte interesseret i frekvenserne, dvs. de relative hyppigheder. Disse angiver den brøkdel, de enkelte udfald udgør af det samlede antal observationer. Frekvensen (forkortes f) kan angives som en brøk, et decimaltal eller i procent. At der i det foregående eksempel er 7 ottetaller blandt de 5 karakterer, kan formuleres således: karakteren 8 har frekvensen 7/5 = 0,8 = 8%. 5

Øvelse Opstil en frekvenstabel for ovenstående karakterer, dvs. en tabel, hvor de to første rækker er som i eksemplet ovenfor, mens tredje række angiver frekvenserne f. Kontrollér, at summen af frekvenserne er 1 (= 100%) Vi stiller nu følgende spørgsmål: Kan man bestemme middelværdien af en række tal u 1,u,,u n, hvis man kender frekvenserne f 1, f,.,f n, men ikke det totale antal observationer? Hvis fx halvdelen af eleverne i en klasse har fået 8 og den anden halvdel 9, så er spørgsmålet let nok at besvare. Så er middelværdien selvfølgelig 8,5. Men hvis nu fx fordelingen er som vist i skemaet: karakter 6 7 8 9 10 frekvens 0% 5% 5% 15% 15% kan vi så finde middelværdien, selv om vi ikke ved, hvor mange elever der er? Øvelse 1) Bestem middelværdien, hvis du antager, at der er 100 elever. ) Bestem middelværdien, hvis du antager, at der er 300 elever. Som det fremgår af øvelsen, kan middelværdien beregnes ved at gå ud fra et bestemt antal elever, og resultatet er uafhængigt af det valgte antal. Dette betyder, at man kan udregne middelværdien ved først at gange frekvensen med det tilsvarende udfald og derefter lægge disse tal sammen: m = f 1 u 1 +f u +..+f n u n. Bevis for denne formel: m h 1 u 1 h u... h n u n h1 u 1... h n u n h1 u 1... h n u n f 1 u 1.. f n u n Også spredningen s kan beregnes ud fra udfaldenes frekvenser: K = f 1 (u 1 ) + +f n (u n ), heraf findes s = K m Beregningen af middelværdi m og spredning s for ovenstående karakterfordeling kan stilles således op: 6

Udfald u Frekvens f f u f u 6 0.0 1.0 7.0 7 0.5 1.75 1.5 8 0.5.00 16.00 9 0.15 1.35 1.15 10 0.15 1.50 15.00 sum 1 m=7.80 K=6.60 Altså er karaktergennemsnittet in = 7,80. Spredningskvadratet er s =K-m = 6.60-7.80 = 1.76, så er spredningen s 1.76 1.3. 04 05 06. Histogram og sumkurve I det foregående afsnit arbejdede vi med to vigtige statistiske deskriptorer, middelværdi og spredning. Inden for den deskriptive statistik benyttes tillige en lang række grafiske afbildninger til at beskrive et observationsmateriale. Hver dag kan man finde mange sådanne diagrammer i aviserne, især på erhvervssideme. Her vil vi blot give et eksempel på to diagrammer, nemlig histogram og sumkurve. Eksempel I et firma er der ansat 00 personer. Man ønsker en oversigt over, hvor længe disse har været ansat. På grund af det store antal grupperes observationerne iintervaller. Ved optælling finder man: 109 har været ansat i 0-6 måneder, 50 6-1 måneder,., se skemaet nedenfor. år vi fx ser på intervallerne 6-1 og 1-18, er 1 måneder regnet med til det første interval. I skemaets første række angives observationsintervallerne og i anden række de tilsvarende hyppigheder. I tredje række beregnes intervalfrekvenserne. Disse fås ved at dividere tallene i anden række med 00. I fjerde række er den kumulerede (summerede) hyppighed beregnet ved at summere tallene i anden række. år der fx står 179 i kolonnen under 1-18, betyder det, at 179 personer har været ansat i 18 måneder eller derunder. De kumulerede hyppigheder i skemaet svarer til højre endepunkt af det tilsvarende observationsinterval. I den nederste række er de kumulerede frekvenser beregnet. Disse fås ved at dividere tallene i fjerde række med 00. år der fx står 0,940 nederst i kolonnen under 18-4, betyder det, at 94% af personerne har været ansat i 4 måneder eller derunder. Ansættelsestid i måneder 0-6 6-1 1-18 18-4 4-30 30-36 36-4 4-48 Antal ansatte = intervalhyppighed 109 50 0 9 3 4 3 Intervalfrekvens 0.545 0.5 0.10 0.045 0.015 0.0 0.01 0.015 Kumuleret hyppighed 109 159 170 188 191 195 197 00 Kumuleret frekvens 0.545 0.795 0.895 0.940 0.955 0.975 0.985 1.000 Til illustration af disse resultater tegnes dels et histogram, dels en sumkurve. 7

På et histogram viser arealet af et rektangel, hvor mange % der hører til det pågældende observationsinterval. Sumkurven fås ved først at afmærke punkterne svarende til de kumulerede hyppigheder (eller kumulerede frekvenser) i højre intervalendepunkt og derefter forbinde disse punkter med rette linjestykker. Det interval, der svarer til det højeste rektangel på histogrammet, kaldes typeintervallet. Her er typeintervallet 0-6 måneder. Af sumkurven kan vi aflæse de såkaldte kvartiler: 3 måneder, 5,4 måneder og 10,8 måneder. At første kvartil er 3 måneder, betyder, at 5 % af de ansatte har været i firmaet i 3 måneder eller derunder. At medianen (anden kvartil) er 5,4 måneder, betyder, at halvdelen af de ansatte har været i firmaet i 5,4 måneder eller derunder. At tredje kvartil er 10,8 måneder, betyder, at 75 % af de ansatte har været i firmaet i 10,8 måneder eller derunder. En nøjagtig værdi for middelværdien m kan vi ikke bestemme med de givne oplysninger. En tilnærmet værdi kan fås, hvis man antager, at alle 109 i inter-vallet 0-6 måneder har været ansat i 3 måneder osv.: m = (109 3+50.9+0 15+.+ 3 45)/00 = 8.5 eller ud fra frekvenserne: m = 0.545 3 + 0.5 9 +.+0.015 45 = 8.5 Den gennemsnitlige ansættelsestid er altså ca. 8.5 måneder. 07 08.3 Sandsynlighedsfelter Hvis det samme stokastiske eksperiment gentages nogle gange, vil udfaldet variere tilfældigt fra gang til gang. Man kan skabe sig et overblik over fordelingen af udfaldene ved at beregne de ideelle frekvenser. Disse repræsenterer vores forventning om, hvad der vil ske i et meget stort antal forsøg: Vi opstiller en såkaldt stokastisk model for eksperimentet. 8

Hvis vi fx kaster en terning, vil de seks mulige udfald ideelt forekomme lige ofte. Derfor tilskriver vi alle udfaldene sandsynligheden 1/6, da vi forventer, de hver vil forekomme i en sjettedel af tilfældene, hvis terningen kastes»uendelig mange gange«. I almindelighed betegnes sandsynligheder med bogstavet p (jfr. Engelsk: probability = sandsynlighed). Udfaldene u 1, u,,u n og de dertil knyttede sandsynligheder p 1,p,, p n, udgør tilsammen et såkaldt sandsynlighedsfelt. Da sandsynlighederne kan tolkes som frekvenser, vil vi forlange, at de opfører sig på samme måde som frekvenser. Vi fremhæver især føigende: 1. Enhver sandsynlighed ligger mellem 0 og 1: 0 p 1.. Summen af sandsynlighedeme skal altid give 1: p 1 +p +... +p n = 1. Regnes i procent, skal enhver sandsynlighed ligge mellem 0% og 100%, og summen af sandsynlighederne skal være 100%. 09 år udfaldene u er tal, kan sandsynligheder - på samme måde som frekvenser -bruges til udregning af middelværdi m og spredning s: I sandsynlighedsregningen angiver middelværdien gennemsnitsværdien af udfaldene for et»uendelig«stort antal forsøg. Ligesom i statistikken vil vi kalde udfald, der ligger inden for to standard-afvigelsers afstand fra middelværdien, normale udfald. De normale udfald ligger altså mellem tallene m-s og m+ s. Udfald, der ligger uden for tre standardafvigelser, kaldes exceptionelle udfald. De exceptionelle udfald er mindre end m - 3s eller større end m+3s. Statistik Sandsynlighedsregning Udfald u 1, u,,u n u 1, u,,u n Frekvens/sandsynlighed f 1, f,.,f n p 1 +p +... +p n Middelværdi m = f 1 u 1 +f u +..+f n u n m = p 1 u 1 +p u +..+p n u n Gennemsnitskvadrat K = f 1 (u 1 ) + +f n (u n ) K = p 1 (u 1 ) + +p n (u n ) Spredning s K m s K m Eksempel: Stokastisk model for et terningkast Udfald 1 3 4 5 6 Sandsynlighed 1/6 1/6 1/6 1/6 1/6 1/6 9

Stoplediagram for modellen: Herudfra beregnes middelværdien m: m = 1/6 1 +1/6 + 1/6 3 + 1/6 4 + 1/6 5 +1/6 6 = 1/6 = 3.5 Dette resultat er i overensstemmelse med, at udfaldene, der jo alle har samme sandsynlighed, ligger symmetrisk omkring tallet 3.5. Beregning af spredningen s: K = 1/6 1 + 1/6 + 1/6 3 +1/6 4 + 1/6 5 + 1/6 6 ~ 15.167 s K m 15.167 3.5 1.7 Da m - s = 0.1 og m + s = 6.9, ligger alle udfaldene inden for standardafvigelser fra middelværdien. dvs. de er alle normale. Dette hænger bl.a. sammen med, at alle udfald har samme sandsynlighed. 30

Eksempel: Stokastisk model for et terningkast Vi ser på kast med terninger, hvor det er summen af øjnene, der interesserer os. Der bliver følgende udfald:, 3, 4, 5, 6, 7, 8, 9, 10, 11, 1. For at finde sandsynlighederne opstiller vi et kvadratisk skema over alle de mulige kombinationer af de to terninger. Alle disse36 kombinationer må anses for lige sandsynlige. Altså har de hver sandsynligheden 1/36. Vi skal så bare tælle, hvor mange kombinationer, der fører til en given sum af øjnene. Fx svarer sum 4 til følgende kombinationer: (1,3), (,),(3,1), hvorfor p(sum 4) = 3/36. På denne måde fås følgende sandsynlighedsfelt: Sum 3 4 5 6 7 8 9 10 11 1 sandsynlighed 1/36 /36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 /36 1/36 Læg mærke til symmetrien i fordelingen. Sandsynlighederne for to udfald, der ligger lige langt på hver sin side af 7, er lige store. Ikke overraskende er middelværdien derfor 7: m = 1/36 + 3 /36 + 4 3/36 +.+ 11 /36 + 1 1/36 = 7 Spredningen er: s 1 36 36 3... 36 11 1 36 1 7 5.833.4. Vi finder: m-s =. og m+s = 11.8. Udfaldene»sum «og»sum 1«er altså ikke normale. De er dog ikke exceptionelle, eftersom m-3s = -0, og, m+3s = 14. 10 31

Hændelser år man har opstillet et sandsynlighedsfelt, kan man udregne sandsynlighederne for forskellige begivenheder. Ved kast med en terning kan man fx prøve at finde sandsynligheden for følgende begivenhed: A: Temingen viser et lige antal øjne. I sandsynlighedsregningen kaldes A en hændelse. Sandsynligheden for en hændelse er summen af sandsynlighederne for alle de såkaldte gunstige udfald, dvs. de udfald, der tilsammen udgør hændelsen. I tilfældet A er de gunstige udfald, 4 og 6, hvorfor vi finder sandsynligheden p(a) = p() + p(4) + p(6) = 1/6 + 1/6 + 1/6 = 3/6 = 0.5, dvs. vi forventer et lige antal øjne i halvdelen af tilfældene. 11 1 13 14.4 Stokastisk simulation Man kan benytte regnearket Excel eller lommeregneren TI83 - til at simulere stokastiske fænomener, idet man kan lade maskinen producere nogle tilfældige udfald. Det kan man bl.a. benytte til at undersøge forholdene i modeller. der er alt for komplicerede til, at man kan regne sig igennem dem. Her vil vi se lidt på, hvordan en lommeregneren kan bringes til simulere simple stokastiske eksperimenter. Det grundlæggende element i en stokastisk simulation er en variabel, der på lommeregneren hedder randint (a.b,)). Efter det engelske ord random = tilfældig. Den angiver et tilfældigt helt tal mellem de hele tal a og b (a og b inklusive) og den giver af dem. Disse tilfældige tal frembringes lige hyppigt, dvs. maskinen laver en ligefordeling af tallene fra a til b (a og b inklusive). Eksempel: En elektronisk mønt Vi kan bruge den stokastiske variabel rand(0,1, ) til at simulere kast med en mønt gange, da mønten netop har to mulige udfald 0 og 1, som den frembringer lige hyppigt. Vi kan så lade 0 stå for plat og 1 for krone. For at få en fornemmelse af den elektroniske mønt og hvordan lommeregneren kan bruge ved denne simulering undersøg da fordelingen af plat og krone ved 0 kast med en mønt: Gå ind stat Edit sæt cursoren helt op i overskriften ved list L 1 tryk enter. Gå derefter ind i Math PBR og vælg randint() u skrives randint(0,1,0) tryk enter, så vil du i søjle L 1 udfyldt med resultaterne af 0 kast med en elektronisk mønt. For at få hyppighedsfordelingen gå da til stat plot, vælg plot 1 on, vælg histogram, Xlist: L 1 og freq: 1. Gå nu ind i window for at sætte grænserne. Her sættes Xmin = -0.5 og xmax. = 1.5, X xcl = 1, og ymin = -5 til ymax = 10, Yxcl=5, xres = 1, se på grafen og brug trace til at aflæse hyppighedsfordelingen.. 3

Øvelse Gør op, hvor mange gange 0 henholdsvis 1 forekommer og benyt en random walk test (kap. 1) til at afgøre, om det er rimeligt at antage, at den elektroniske mønt frembringer lige så mange plat som krone. Foretag den elektroniske simulering af kast med en mønt hhv. 100, 1000, 10.000 gange, noter hyppighedsfordelingen, og udregn de tilsvarende frekvensfordelinger. Kommenter sammenhængene mellem de observerede frekvenser og de ideelle frekvenser. Prøv, om du kan vurdere, hvor mange kast man skal bruge, før den observerede frekvens stemmer overens med sandsynligheden for krone med 3 decimaler. En elektronisk terning: Hvis vi tilsvarende vil simulere en terning, kan vi bruge den stokastiske variabel randint(1,6;), der frembringer bringer tallene 1..3,4,5 og 6 lige hyppigt. Fordelen ved at simulere selv et simpelt stokastisk eksperiment ved brug af lommeregneren er bl.a., at man kan gentage eksperimentet et stort antal gange inden for en overskuelig tid. Øvelse Lav en simulering af 10 kast med en sædvanlig terning. Find hyppighedsfordelingen og skriv den ned. Hvad er den ideelle hyppighedsfordeling? De Mérés paradoks (1654) Sandsynligheder opfører sig ikke altid i overensstemmelse med vores intuition (selv om man kan skærpe denne ved at vide noget om de grundlæggende regler for sandsynlighedsregning). Det har mange spillere måttet sande i tidens løb. Mange af de»paradoksale«lovmæssigheder, de har observeret gennem tusindvis af spil, har medvirket til afklaringen af de love, der gælder for sand-synligheder. Her vil vi bruge stokastisk simulation til at undersøge et sådant berømt historisk problem. Spilleren Charles de Méré var bl.a. interesseret i terningspil med to spillere, A og B, hvor de begge gør en indsats, hvorefter udfaldet af terningeme afgør, hvem af dem, der vinder puljen. Et sådant spil kaldes fair, hvis A og B har lige stor sandsynlighed for at vinde. Kig nu på følgende to spil: 33

Første spil: Der kastes 4 gange med en terning. Hvis mindst én af dem viser en sekser, har A vundet. I modsat fald har B vundet. Andet spil: Der kastes 4 gange med to terninger. Hvis mindst ét af kastene viser en dobbelt sekser, har A vundet. I modsat fald har B vundet. Prøv begge spillene nogle gange for at få en fornemmelse for, om de er fair, eller hvem der i givet fald har fordelen. De Méré bemærkede, at med én terning er der 6 forskellige udfald. Med to terninger er der 36 forskellige udfald. Sandsynligheden for at få en dobbeltsekser altså 6 gange så lille som sandsynligheden for at få en sekser. Til gengæld får vi denne gang 6 gange så mange forsøg til at få dobbeltsekseren. De Méré påstod derfor, at de to spil måtte opføre sig ens. Ikke desto mindre mente han at have observeret en lille, men dog væsentlig forskel på udfaldene af de to spil. Da vi ikke som de Méré har tilbragt adskillige år i spillebulerne, vil vi i stedet efterprøve hans iagttagelser ved hjælp af stokastisk simulation. Prøv at simulere de to spil et rimeligt antal gange, fx 100 og afgør om det er A eller B, der har fordel, eller om spillet er fair. Underbyg evt. konklusionerne ved en random walk test. 34

.5 Objektive og subjektive sandsynligheder Indtil videre har vi opfattet sandsynligheder som ideelle frekvenser, dvs. sandsynlighedeme har repræsenteret vores forventning om, med hvilken frekvens et udfald forekommer, hvis vi forestiller os et eksperiment gentaget et meget stort antal gange. år vi fx kaster med en mønt, sætter vi sandsynligheden for krone til 1/, fordi vi forventer, at krone vil forekomme ca. halvdelen af gangene. Hvis vi faktisk udfører eksperimentet et stort antal gange, kan vi efterprøve, hvorvidt den observerede frekvens stemmer overens med sandsynligheden. Fx vil man måske i første omgang forvente, at der fødes lige så mange piger som drenge, dvs. man vil sætte sandsynligheden for, at der fødes en pige, til 50%. Men nu viser fødselsstatistikkerne, at der i en lang årrække hvert eneste år er født flest drenge. Vores forventning er derfor forkert: sandsynligheden for, at der fødes en pige, er mindre end 50%. De sandsynligheder, vi indtil nu har behandlet, kaldes objektive. Objektive sandsynligheder kan underbygges af eksperimentelle resultater og observationer. år vi siger, at sandsynligheden for at føde en pige er 48%, sker det på basis af millioner af fødsler. I gennemsnit fødes der faktisk ca. 48 piger for hver hundrede børn. Man bruger også sandsynligheder til at beskrive fænomener, der principielt er umulige at gentage. Sådanne sandsynligheder kaldes subjektive, fordi de alene er baseret på skøn over, hvad vi tror, der vil komme til at ske. Subjektive sandsynligheder afspejler vores tro på og forventninger om, hvad der vil ske ved bestemte eksperimenter eller observationer af forskellige fænomener. Et eksempel er verdensmesterskabet i fodbold. Hvis det lykkes Danmark at kvalificere sig til det næste verdensmesterskab i fodbold, kan man spørge: Hvad er sandsynligheden for, at Danmark vinder verdensmesterskabet? Hvordan kan man fastlægge en sådan sandsynlighed? Man kan fx spørge 100 fodbold-eksperter, om de tror, Danmark vil vinde verdensmesterskabet. Hvis fx 3 ud af de 100 eksperter tror, at Danmark vinder det næste verdensmesterskab, kan vi tildele denne begivenhed sandsynligheden 3%. Denne subjektive sandsynlighed afspejler en forventning om, hvordan det vil gå ved verdensmesterskabet. år man siger, at Danmark kun har 3% chance for at vinde, vil man blive meget lidt overrasket over et nederlag. Siger man fx derimod, at chancerne er fiftyfifty, vil man blive lige lidt overrasket over såvel sejr som nederlag. Bookmakere lever af at indgå væddemål baseret på udfaldet af fx sportsbegivenheder. Til slut et par bemærkninger om brug og misbrug af subjektive sandsynligheder. Det er et åbent spørgsmål, hvad subjektive sandsynligheder overhovedet har med virkeligheden at gøre. Alligevel fremstilles subjektive sandsynligheder ofte, som om de var objektive og troværdige. Lad os se på nogle typiske eksempler på anvendelse af subjektive sandsynligheden: 1. Er der liv andre steder i Mælkevejen? Man kan opstille en model for sandsynligheden for at finde liv andre steder i Mælkevejen. Den bygger på diverse skøn over sandsynligheden for at finde planeter andre steder, sandsynligheden for, at disse planeter ligger i den rigtige afstand fra moderstjernen osv. Man har påvist planeter i andre solsystemer, men i de fleste tilfælde er der kun én, ofte er disse planeter hurtigløbere og Jupiterlignende. Man finder i litteraturen alle mulige svar, lige fra at Jorden formentlig er det eneste sted i Mælkevejen, hvor der er liv, til at livet er 35

udbredt overalt, idet ca. hver anden stjerne må formodes at have mindst en planet med betingelser for liv.. Er atomkraft farligt? Hvordan skal man vurdere det? Er reaktoren farlig? Kan man lave et sikkerhedssystem, der ikke bryder sammen, ligegyldigt hvilket uheld reaktoren kommer ud for? Kan man være sikker på, at sikkerhedssystemet er slået til, når uheldet indtræffer? I Tjemobyl havde den ansvarshavende ingeniør med vilje slået sikkerhedssystemet fra, fordi han ville eksperimentere med reaktoren. Kan man opbevare det radioaktive affald sikkert? Kan man være sikker på, at det opbevares efter forskrifterne? I Vesttyskland satte firmaet Transnuclear forkerte etiketter på godt 1000 tønder med højradioaktivt plutonium. Det er klart problematisk, når man bruger sandsynlighedsregningen til at afgøre sådanne spørgsmål. For det må nødvendigvis involvere en lang række subjektive skøn over sandsynligheden for, at forskellige heldige/uheldige, kendte/ukendte omstændigheder vil indtræffe. Efter uheldet på Tremileøen kunne amerikanerne købe radioaktiv luft på dåse Sandsynlighedsregning og den naturvidenskabelige metode. Det er afgørende for den brug, vi gør af sandsynligheder i naturvidenskaberne (og fx forsikringsbranchen), at vi rent faktisk er i stand til at efterprøve sandsynlighederne ved hjælp af eksperimenter eller iagttagelser. Den eksperimentelle metode har spillet en afgørende rolle i sandsynlighedsregningens historie. Det har helt op i vort århundrede været diskuteret, hvordan gentagne eksperimenter egentlig opfører sig. Hvis man kaster en mønt og får krone femten gange i træk, vil der så stadig være lige stor sandsynlighed for krone i det sekstende kast? ogle filosoffer har påstået, at det kunne der ikke være:»efterhånden som der kommer krone flere og flere gange i træk, må sandsynligheden for plat stige«. Påstanden er besnærende. Forestil dig, at din klasse er involveret i en konkurrence, hvor det gælder om at gætte udfaldene af kast med en mønt. Hvis alle i klassen gætter rigtigt, vinder klassen en million, men hvis blot én gætter forkert, mister klassen hele gevinsten. Der har netop været krone 15 gange i træk, som de foregående elever ved et mirakel alle har gættet. Det er din tur nu, vil du satse på plat eller krone? 36

En afgørende pointe er, at den eneste metode, man kan bruge til at afgøre, om påstanden er rimelig eller ej, er at udføre eksperimentet. Man kaster en mønt et meget stort antal gange, fx en milliard gange og, noterer, hver gang, der forekommer en serie med krone 15 gange i træk. Det er disse serier, der nu skal afgøre spørgsmålet for os. I nogle af serieme viser det sekstende kast krone, og, i nogle af serierne viser det plat. Hvis ovenstående påstand var rigtig, skulle der nu forekomme væsentligt flere serier af typen KKKKK KKKKK KKKKK P end af typen KKKKK KKKKK KKKKK K. Alle eksperimenter viser, at påstanden er forkert: Ligegyldigt hvad en mønt har vist i de foregående kast, er der samme sandsynlighed for plat og krone i det følgende kast..6 Regning med sandsynligheder I dette afsnit vil vi se nærmere på nogle af de principper, der ligger bag regning med sandsynligheder. Hvordan kan man regne med sandsynligheder? Vi har allerede set, at sandsynligheden for en hændelse er summen af sandsynlighederne for de gunstige udfald, dvs. for de udfald, der indgår i hændelsen. Eksempel Et almindeligt spil kort består af 5 kort fordelt på 13 spar, 13 hjerter, 13 ruder og 13 klør. Altså er p(spar) = 13/5 og p(klør) = 13/5 Sandsynligheden for at trække et sort kort bliver da p(sort) = p(spar)+p(klør) = 13/5+ 13/5 = 6/5 = ½, i overensstemmelse med, at halvdelen af kortene er sorte. 37

Ved regning med sandsynligheder er det let at begå den fejl, at man kommer til at tælle samme udfald med to gange (jfr. nedenstående eksempel). Eksempel Vi vil finde sandsynligheden for at få mindst én sekser, når vi kaster med to terninger. Man kunne da komme til at argumentere således: Sandsynligheden for, at den første terning giver en sekser er 1/6, og sandsynligheden for, at den anden terning giver en sekser er 1/6, så i alt må. der være sandsynligheden 1/6 +1/6 = 1/3 (=1/36) for at få én sekser. Dette passer imidlertid ikke. Som man kan se af figuren, er det kun 11 af de 36 mulige udfald, der svarer til mindst én sekser. Den søgte sandsynlighed er derfor 11/36. Vi vil se på, hvad der sker, når vi udfører to eksperimenter efter hinanden. Det første eksperiment kan fx bestå i at kaste med en mønt, det andet i at kaste med en terning. Det første eksperiment har udfald, det andet 6 udfald. Vi kan illustrere det med et såkaldt sandsynlighedstræ, hvor vi på hver af grenene har noteret den tilhørende sandsynlighed: Hvad bliver sandsynligheden for, at vi først får en krone og dernæst en sekser? Halvdelen af udfaldene i det første eksperiment er gunstige, og af dem er igen en sjettedel gunstige i det andet eksperiment. I alt vil ½ 1/6 = 1/1 af udfaldene i det sammensatte eksperiment derfor være gunstige. Sandsynligheden for først at få en krone og dernæst en sekser er derfor 1/1. Vi kan herudfra formulere følgende generelle regel: Sandsynligheden for et bestemt udfald i et sammensat eksperiment fås som produktet af sandsynlighederne på de tilsvarende grene i sandsynlighedstræet (multiplikationsprincippet). 38

Eksempel Der kastes 6 gange med en mønt. Hvad er sandsynligheden for at få krone 6 gange i træk? Ifølge multiplikationsprincippet er det produktet af sandsynlighederne for at få krone hver eneste gang: p(6 kroner i træk) = (1/) 6 = 1/64 = 0.01565 dvs. det vil i gennemsnit kun ske én gang for hver 64 forsøg, Eksempel Et eksperiment består i at tage kugler op af en pose, der indeholder 3 røde og en sort kugle. Hvad er sandsynligheden for at trække to røde kugler? Eksperimentet kan opfattes som to på hinanden følgende eksperimenter, hvor vi først trækker den ene kugle og dernæst den anden. Vi kan illustrere det med et sandsynlighedstræ. Hvis den første kugle er rød, består det andet eksperiment i at trække en kugle fra en pose med røde og 1 sort. Hvis den første kugle derimod er sort, består det andet eksperiment i at trække en kugle fra en pose med 3 røde og 0 sorte (denne gang er rød derfor sikker, mens sort er umulig). Da vi er interesseret i at få to rode kugler, ganger vi de tilhørende sandsynligheder sammen: p(to røde kugler) = ¾ /3 = ½ I halvdelen af tilfældene får vi altså to røde kugler. 39

Eksempel Der kastes 6 gange med en terning. Hvad er sandsynligheden for at få netop én sekser? Der er præcis seks serier, hvor man får netop én sekser: 6AAAAA, A6AAAA, AA6AAA, AAA6AA, AAAA6A og AAAAA6, hvor A står for hændelsen»andet«, dvs.»ikke en sekser«. Den søgte sandsynlighed er: p(netop én sekser) = p(6aaaaa) + p(a6aaaa) + p(aa6aaa) + p(aaa6aa) + p(aaaa6a) + p(aaaaa6). Ifølge multiplikationsprincippet er sandsynligheden for først at få en sekser og derefter ikke flere seksere: p(6aaaaa) = (1/6) (5/6) 5 = 315/46656 = 0,06698 = 6,698%, og tilsvarende for de andre fem serier. Den søgte sandsynlighed er derfor: p(netop én sekser) = 6 6,698 % = 40,19 %. Vi kan også beregne sandsynligheden for slet ikke at få nogen sekser. Ifølge multiplikationsprincippet fås: p(ingen sekser) = (5/6) 6 = 1565/46656 = 0.3349 = 33,49%. Vi kan så yderligere beregne sandsynlighedeme for følgende hændelser: p(mindst en sekser) = I - p(ingen sekser) = 0.6651 = 66.51% p(mindst to seksere) = I - p(ingen seksere) - p(netop én sekser) = 1-0,3349-0,4019 = 0,63 = 6,3% Med seks kast vil vi altså få mindst én sekser i over halvdelen af forsøgene, og tilsvarende vil vi få mindst to seksere i over en fjerdedel af forsøgene. 15 16 17 18 19 0 1 40

Opgaver til kapitel 01. En elev har fået følgende karakterer: 6, 8, 9 og 10. Beregn middelværdi og spredning. 0. En elev har fået følgende karakterer: 7,7,8,8,8,8,8,9,9,9. Opstil en hyppighedstabel og beregn middelværdi og spredning. 03. Højden for alle i klassen angives i meter. Udregn middelværdi og spredning. Hvor mange % af klassen har»normal«højde? Hvor mange procent af klassen er»exceptionelt«høje eller lave? 04. I en klasse er der 0% enebørn, i 60% af familierne er der børn, i 16% er der 3 børn, og i 4% er der 5 børn. Bestem det gennemsnitlige antal børn i disse familier. Gentag beregningerne på din egen klasse. 05. Beregn gennemsnitslønnen i en gruppe, hvor 0 % tjener 70 kr., 7 % tjener 90 kr., og resten tjener 100 kr. i timen. Beregn også spredningen i timelønnen. 06. Man måler svingningstiden for et pendul en række gange. Man finder følgende resultater: svingningstid.70.71.7.73.74 (sek.) frekvens 0.0 0.35 0.50 0.10 0.03 Bestem middelværdi og spredning. Hvilke af de målte svingningstider er normale? Hvordan vil det være rimeligt at angive ét slutresultat af forsøgene? 07. Ved en undersøgelse af 15 kvindelige elever målte man højden i cm og grupperede tallene: højde 151-156- 161-166- 171-176- i cm 156 161 166 171 176 181 antal 5 15 5 45 30 5 Tegn histogram og sumkurve. Bestem typeintervallet, middelhøjden samt kvartilerne. 41

08. På et glas med C-vitaminpiller står angivet, at hver pille indeholder 50 mg ascorbinsyre. Ved kemisk analyse af 5 piller fandtes følgende indhold af ascorbinsyre (angivet i mg): 51.4 50. 49.6 50.3 51. 50.6 50.7 51. 49.4 50.6 48.6 51.3 50.4 50.5 51.8 50.7 49.5 50.3 50. 49.4 51.1 50.3 49.3 50.8 50.5 Gruppér de anførte måleresultater i intervaller med længden 0.5, og tegn sumkurven for det grupperede Observationsmateriale. Bestem kvartilerne. Et rimeligt krav til god markedsføring kunne være, at nedre kvartil skal være større end det angivne indhold på 50 mg ascorbinsyre. Er dette krav opfyldt her? 09. Der udføres et eksperiment, hvor der dels kastes med en mønt, dels med en tegnestift. Der tælles, hvor ofte man får krone og hvor ofte man får»spids op«. Tilsidst lægges klassens resultater sammen. Hyppighederne indføres i et skema som nedenfor hvorefter frekvenserne beregnes: Mønt: krone Tegnestift: Spids op Efter 10 Efter 10 Efter 100 Efter 100 Efter x Efter x kast kast kast kast kast kast hyppighed frekvens hyppighed frekvens hyppighed frekvens Giv en begrundet vurdering af de ideelle frekvenser, dvs. sandsynlighederne p(krone) og p (spids op). 10. En mønt kastes 3 gange, og man opgør antallet af plat. Gør rede for, at de 4 mulige antal plat har de sandsynligheder. der angives i skemaet nedenfor: Antal plat 0 1 3 Sandsynlighed 1/8 3/8 3/8 1/8 11. Fra en lille bunke kort bestående af hjerter K, D, B, 10 og 9 trækkes ét tilfældigt kort. Opstil en stokastisk model for dette eksperiment. Beregn sandsynligheden for at få et billedkort. Beregn sandsynligheden for ikke at få et billedkort. 4

1. Fra en lille bunke kort bestående af spar es, konge, dame, bonde samt 10, 9, 8, 7 trækkes et tilfældigt kort. Hvis der trækkes et billedkort, kaldes udfaldet b. Hvis esset trækkes, kaldes udfaldet e, og ellers kaldes udfaldet t. Udfyld et skema som nedenstående:. udfald b e t sandsynlighed I 13. Et eksperiment består i et kast med to sædvanlige terninger. år de terninger viser samme øjental, er eksperimentets udfald dette tal. år de to terninger ikke viser samme øjental, er eksperimentets udfald det største af de to tal. Eksperimentet har udfaldene 1,, 3, 4, 5 og 6. Gør rede for, at p(3)= 5/36. Bestem sandsynligheden for hvert af de øvrige udfald, og udfyld et skema som nedenstående. 1 3 4 5 6 u P(u) 5/36 Bestem sandsynligheden for, at udfaldet er et lige tal. Bestem sandsynligheden for, at udfaldet er større end 3. 14. a) Der kastes med to terninger. Hvad er sandsynligheden for, at de to terninger viser det samme? b) Sandsynligheden for at føde en pige er 48 %.Hvad er sandsynligheden for a få otte piger i træk? c) Der kastes fire gange med en symmetrisk mønt. Hvad er sandsynligheden for, at man får krone hver anden gang? 15 Et eksperiment består i at tage kugler op af en pose, der indeholder 3 røde og 1 sort kugle. Først trækkes 1 kugle. Kuglens farve noteres, og den lægges tilbage i posen. Derefter trækkes igen en kugle, og farven noteres. Tegn et sandsynlighedstræ for dette sammensatte eksperiment (jfr. eksemplet side xx). Beregn hver af følgende sandsynligheder: p( røde kugler), p( sorte kugler) og p(1 rød og1 sort kugle). 43

16 Russisk roulette er et spil, der har været populært blandt unge mænd, der ønskede at demonstrere deres mandighed. Man tager en seksløber med rullende magasin, anbringer en patron i magasinet og ruller magasinet rundt et par gange. Spillerne tager nu efter tur seksløberen, lader den pege mod egen tinding og, trykker af. Går skuddet af har man vundet. Der er to varianter af spillet. I den første rækkes pistolen blot videre til den næste, der trykker af mod egen tinding. I denne variant kan der højst deltage 6 spillere. I den anden variant rulles magasinet et par gange efter hvert forsøg. Hver spiller skyder kun én gang, så måske er der slet ingen vinder. Seks unge mænd skal til at spille russisk roulette. Besvar nu for hver af de to varianter følgende spørgsmål: a) Er det en fordel at være den første eller den sidste? (Gæt!) b) Find ved hjælp af et sandsynlighedstræ sandsynligheden for at den første, anden,, sjette spiller vinder. c) Find sandsynligheden for at der overhovedet bliver en vinder. 17. En forretning reklamerer med, at man får rabat ved hjælp af et terningspil: år man har valgt, hvad man vil købe, og har betalt for varen, får man lov at kaste med tre terninger. Hvis man ingen sekser får, er der ingen rabat. Hvis man får en sekser, er der 10 % i rabat. Hvis man slår to seksere, er der 50 % i rabat, og hvis man endelig slår tre seksere i træk, får man alle sine penge tilbage. a) Beregn sandsynligheden for at få netop 0, 1, eller 3 seksere, når man kaster 3 gange med en terning. b) Hvad er den gennemsnitlige rabat på forretningens varer? 18. (Pepys problem, 1693) A kaster 6 terninger og vinder, hvis der kommer mindst 1 sekser. B kaster 1 terninger og vinder, hvis der kommer mindst seksere. Hvem har størst sandsynlighed for at vinde? Problemet blev forelagt ewton, der svarede, at en triviel beregning viser, at det er A, der har fordelen. Pepy bad om få detaljerne, men ewton kunne ikke overbevise ham. I teksten har vi beregnet sandsynligheden for, at A vinder, til 66,5%. Prøv nu tilsvarende at finde sandsynligheden for, at B vinder, ved at besvare følgende spørgsmål: a) Hvad er sandsynligheden for, at der slet ingen seksere kommer i de tolv kast? b) Hvad er sandsynligheden for, at der kommer netop 1 sekser i de tolv kast? c) Hvad er sandsynligheden for, at der kommer mindst seksere i de tolv kast? d) Havde ewton ret? 19. Et spil består i, at man kaster med en symmetrisk terning. Spillet stopper, når man får en sekser. a) Beregn sandsynligheden for, at spillet stopper efter netop 3 kast. b) Hvad er det mest sandsynlige antal kast? 44

0. Fødselsdagsproblemet (R. von Mises paradoks, 1938) Fødselsdage er stort set jævnt fordelt over hele året (der er årstidsvariatione, men dem ser vi bort fra her). De 365 dage antages altså at optræde lige hyppigt. a) Gæt på, hvad der er mest sandsynligt: at der er to personer i din klasse, der har Samme fødselsdag, eller at der ikke er nogen, der har samme fødselsdag. (Der ses bort fra tvillinger, og det er kun datoen, ikke årstallet, der har betydning). b) Find herefter ud af, om der faktisk findes to personer i klassen, der har samme fødselsdag. Vi skal nu beregne sandsynligheden for sammenfald af fødselsdage i en klasse med 5 elever. c) Gør rede for, at sandsynligheden for, at der ingen sammenfald er, er p ( ingensammenfald) 365 365 364 365 363 365... Hvor mange brøker er der? Hvordan ser den sidste brøk ud? Med 5 elever i klassen, bliver resultatet ca. 43%. Men så må sandsynligheden for, at der er nogen, der har samme fødselsdag, være den modsatte, dvs. 57%. I en klasse med 5 elever er sandsynligheden for, at der er nogen, der har fælles fødselsdag, altså større end sandsynligheden for det modsatte. d) Gentag beregningen med 8, 3 og elever. e) Hvor mange elever skal der mindst være i en klasse, for at der er større sandsynlighed for sammenfald af fødselsdag end for det modsatte? I 1. De Mérés problem 1) Der kastes 4 gange med én terning. Beregn sandsynligheden for, at der ikke kommer nogen seksere. ) Der kastes 4 gange med to terninger. Beregn sandsynligheden for, at der ikke kommer nogen dobbeltsekser i de 4 kast. 45