Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen

Størrelse: px
Starte visningen fra side:

Download "Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen"

Transkript

1 Vigtigste nye emner i.,. og.5 Sandsynlighedsregning. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Siene Danmarks Tekniske Universitet 800 Kgs. Lyngby Danmark Binomialfordelingen p.8 : Pksuesser) = n p k q n k k Normalfordelingsapproksimationen p.99 b+ Pmellem a og b) = Φ n p a ) Φ n p ) n p q n p q Hypergeometrisk fordeling - stikprøve uden tilbagelægning - p.5 G B g b Pg gode og b dårlige) = N n 0405 forelæsning Case: motivation for Binomialfordelingen) En fabrikant af plastik lyseholdere garanterer, at i en æske med 0 holdere vil højst to være itu.man har gennem længere tid konstateret, at 5% af de produerede lyseholdere er defekte. Hvad er sandsynligheden for, at en æske overholder garantien? Hvad er sandsynligheden for, at alle holdere i en æske er intakte? En forhandler køber et parti med 50 æsker. Han lover at erstatte alle holdere, der er itu. Hvad er det forventede antal holdere, han skal erstatte, hvis alle 50 æsker bliver solgt? Det er bekvemt at generalisere problemet Antagelser: Vi har n emner, med een af to egenskaber kaldet sues og fiasko Hver har en sandsynlighed for sues på p Der er uafhængighed mellem de enkelte emner mht. egenskaberne sues/fiasko Vi har således n på hinanden følgende uafhængige Bernoulli experimenter 0405 forelæsning forelæsning 4

2 Bernoulli fordeling Det simplest mulige experiment To muligheder Sues/fiasko Mand/kvinde Regn/ikke regn I næste uge vil vi identifiere den ene mulighed med, Xsues) =, den anden 0, Xfiasko) = 0) Psues) = p, Pfiasko) = p X bep) 0405 forelæsning 5 I i : Hændelsen i intakte holdere Hvad er PI i )? Antag, at holderne produeres sekventielt. Sandsynligheden for, at n holdere er intakte, er Pn intakte) = PI n ) = p p...p = p n Tilsvarende er sandsynligheden for, at alle n er itu: Pn itu) = PI 0 ) = p)... p) = p) n For I i, generelt imåvitælleantalletafsekvensermedpræisiintakte.antalleter n n! = i i!n i)! Vi har udledt Binomial fordelingen PI i ) = n p i p) n i i En fundamental byggesten/værktøj i ingeniørens værktøjskasse. Det forventede antal suesser ud af n long term average) EX) = np Vi diskuterer dette begreb i dybden i næste uge - afsnit 3. Vi vil betragte et kast med 7 terninger. Spørgsmål Hvad er sandsynligheden for at få netop 4 seksere 7! 5 4!3! ) Ved ikke 5 ) forelæsning forelæsning 8

3 Tilbage til lyseholderfabrikanten Lad B i betegne hændelsen, at i holdere er itu. PIndenfor garantien) = PB 0 )+PB )+PB ) Sandsynlighederne PB i ) er givet ved Binomialfordelingen PB 0 )+PB )+PB ) = = Det forventede antal, der skal erstattes fra en æske, er np = = Fabrikanten har en stor detailhandelskæde mellem sine kunder Kæden indkøber,500,000 æsker kunden har konstateret 3,403,4 defekte holdere, som fabrikanten må erstatte ifølge kontrakten. Fabrikanten mistænker, at nogle af holderne er blevet ødelagt af kædens personale eller kunder. Hvem støtter I? Indledende undersøgelse: Hvad skal man konkludere? 3,403,4 0,500,000 = Vi forventer at måtte erstatte 50 holdere fra 50 æsker 0405 forelæsning forelæsning 0 Model Sandsynligheden PB i ) for hændelsen B i, at i holderere er itu PB i ) = 50,000, i ,000,000 i i Binomialfordelingen Vi ønsker at beregne 50,000,000 i=3,403,4 3,403,40 PB i ) = PB i ) i=0 Normalfordeingen p.94 Φx) = x π e t dt Normalfordelingen er meget vigtig i sandsynlighedsregning og statistik Blandt andet på grund af den entrale grænseværdisætning CGS - eng: Central Limit Theorem - CLT), der siger, at gennemsnittet af et stort antal uafhængige målinger er meget godt beskrevet ved normalfordelingen. Dette gælder under meget generelle antagelser. En stærkt udfordrende beregning! 0405 forelæsning 0405 forelæsning

4 Normalapproksimationen p.99 Antal suesser beskrives ved Bn, p) b Pa antal suesser b) = n p i p) n i i = Φ 0405 forelæsning 3 i=a ) b np+ a np ) Φ np p) np p) Brugen af a og b+ snarere end a,b kaldes en kontinuitetskorrektion. Den er vigtig for små værdier af np p) Approksimationen kan forfines yderligere: side 04 Lad H i betegne hændelsen: Antallet af krone i 400 kast med en retfærdig mønt er i. Spørgsmål Beregn sandsynligheden for P 0 i=90h i ) - eventuelt approksimativt). Φ.05) Φ.05) 3 Φ.75) Φ.75) i=85 i Φ.50) Φ.50) 6 Ved ikke hvor Φ betegner fordelingsfunktionen for en standardiseret normalfordelt variabel forelæsning 4 Normalapproksimationen for lyseholderne Vi ønsker at beregne Pmindre end 3,403,4 defekte holdere), som ved brug af normalapproksimationen findes til 3,403,40+ Φ 50,000, ) 50,000, ) = Φ ) 903,40.5 = Φ6.6) = 3, Den sandsynlighed vi er interesseret i er Pmere end 3,403,40), der er =0. Enten har fabrikanten været meget uheldig, eller fejlraten er højere end 5%, eller nogle af lyseholderne er blevet beskadiget efter fabrikationen forelæsning 5 Hvad er rimelige værdier for antallet af defekte holdere? Vi vil bestemme, således at Pn p Antal defekte holdere n p+) = 0.95 Ved brug af normalapproksimationen får vi = Φ Pn p Antal defekte holdere n p+) n p+)+ n p n p ) ) Φ n p ) np p) np p) 0405 forelæsning 6

5 For store er dette approksimativt ) Φ ) Φ np p) np p) )) = Φ ) Φ np p) np p) = Φ ) np p) Med får vi Således at Φ ) = 0.95 np p) ) Φ =.95 = np p) np p) =.96 =.96 np p) = Der vil altså med 95 % sandsynlighed være mellem,493,46 og,506,754 defekte holdere. Et overraskende snævert interval 0405 forelæsning forelæsning 8 Kvadratrodsloven p.00 For store n; i n uafhængige forsøg med sandsynlighed p for sues i det enkelte forsøg vil antallet af suesser med høj sandsynlighed, ligge i et relativt snævert inteval entreret om np, med et moderat multiplum af n på en numerisk skala. Andelen af suesser vil, med høj sandsynlighed, ligge i et smalt interval entreret om p, med en bredde, der er et moderat multiplum af n. De store tals lov p.0 Hvis n er stor, vil andelen af suesser i n, uafhængige forsøg, med overvældende sandsynlighed, være meget tæt på p, sandsynligheden for sues i det enkelte forsøg. Mere formelt: for uafhængige forsøg, med sandsynlighed p for sues i hvert forsøg, for hver ǫ > 0, uanset størrelse, for n PAndelen af suesser i de n forsøg afviger mindre end ǫ fra p) 0405 forelæsning forelæsning 0

6 By A har en befolkning på 4 millioner, og by B har en befolkning på 6 millioner. Begge byer har den same andel af kvinder. Man tager en tilfældig stikprøve af personer med tilbagelægning), fra hver by for at estimere denne andel. Følgende tre metoder til at bestemme stikprøvestørrelserne overvejes I: En 0.0% stikprøve fra hver by II: En stikprøve på 400 fra hver by. III: En 0.% stikprøve fra by A, og en 0.075% stikprøve fra by B. Spørgsmål 3 Angiv, for hvilke metoder estimatet p A for by A og estimatet p B for by B har samme præision. Ingen af metoderne giver samme præision for A og B Kun metode I giver samme præision for A og B 3 Kun metode II giver samme præision for A og B 4 Metode I og II giver samme præision for A og B 5 Metode II og III giver samme præision for A og B 6 Ved ikke 0405 forelæsning 0405 forelæsning En 0.0% stikprøve fra hver by Stikprøvestørrelserne er 400 og 600; præisionen af estimaterne er proportional med 400 respektivt 600 En stikprøve på 400 fra hver by. Vi får lige gode estimater En 0.% stikprøve fra by A, og en 0.075% stikprøve fra by B. Stikprøvestørrelserne er 4,000 og 4,500, stikprøven fra B er en lille smule bedre forelæsning 3 Kombinatorik ounting App..) Hvis vi har N forskellige elementer, på hvor mange måder kan vi da udtage en stikpøve på n N uden tilbagelægning? Det første element kan udtages på N forskellige måder. Det andet element skal udtages ud af en population på N individer, hvilket således kan ske på N måder. Alt i alt kan vi udtage en stikprøve på n elementer ud af en population på N, på N) n = NN )...N n+) = N! N n)! måder. Hvor N) n betegner antallet af ordnede stikprøver af størrelse n ud af N elementer 0405 forelæsning 4

7 Uden ordning af elementerne Vi indfører symbolet N til at betegne antallet af måder, n hvorpå vi kan udtage en stikprøve af størrelse n ud af N uden ordning. Vi kan få en ordnet stikprøve ved at ordne en uordnet, Der er n! forskellige måder, hvorpå vi kan ordne n elementer, så N! N) n = N n)! = N n! n Vi har således N N! = n n!n n)! Stikprøvetagning med tilbagelægning n elementer udtages ud af en population med N elementer, hvor alle elementer har samme sandsynlighed for at blive udtrukket og således, at det samme emne kan udtages hver gang Stikprøvetagning uden tilbagelægning n elementer udtages ud af en population med N elementer, hvor alle elementer har samme sandsynlighed for at blive udtrukket og således, at et emne kun kan udtrækkes en gang 0405 forelæsning forelæsning 6 Den hypergeometriske fordeling Vi betragter en population, med N individer, hvor hvert individ er karakteriseret ved besiddelse eller mangel af en egenskab - sues/fiasko - modellen. Når vi udtager n elementer uden tilbagelægning ændrer den relative forekomst af individer med egenskaben sig mellem hver trækning. Vi kan bestemme sandsynligheden for ud af en stikprøve på n at få netop g med egenskaben. Sandsynligheden bestemmes som antallet af måder, hvormed vi kan udtage en stikpøve med netop g positive i forhold til det totale antal af mulige stikprøver forelæsning 7 Hypergeometrisk fordeling fortsat Antallet af måder hvormed vi kan udtage g positive elementer på er G g Antallet af måder, hvormedvi kan udtage b = n g negative elementer på er N G n g Antallet af måder, hvormed vi kan udtage n elementer ud af N på er N n 0405 forelæsning 8

8 så sandsynligheden for hændelsen A g at få netop g positive elementer ud af n er G N G g n g PA g ) = N n 0405 forelæsning 9 Eksempel på hypergeometrisk fordeling Et firma, der har været belastet af et dårligt arbejdsklima, har foretaget en anonym tilfredshedsundersøgelse blandt medarbejderne. Denne undersøgelse har vist, at der i en afdeling med 9 medarbejdere er 7, der må forventes indledningsvist at modarbejde ledelsesmæssige tiltag til forbedring af arbejdsklimaet. Et konsulentfirma har anbefalet at nedsætte en konstruktiv arbejdsgruppe på 3 personer, der skal komme med forslag. Det forventes, at gruppen kan præstere nyttige resultater, hvis der er mindst to konstruktive medarbejdere i arbejdsgruppen forelæsning 30 Vurder mulighederne for, at arbejdsgruppen får sues Nedsættelse af arbejdsgruppen kan betragtes som stikprøvetagning uden tilbagelægning. Vi definerer hændelserne K i som hændelsen, at der er netop i konstruktive personer i arbejdsgruppen Psues) = PK K 3 ) = PK )+PK 3 ) = + = = Afsnit.,. og.5 Binomialfordelingen p.8 : Pksuesser) = n p k q n k k Normalfordelingsapproksimationen p.99 b+ Pmellem a og b) = Φ n p a ) Φ n p ) n p q n p q Hypergeometrisk fordeling - stikprøve uden tilbagelægning - p.5 G B g b Pg gode og b dårlige) = N n 0405 forelæsning forelæsning 3