Projektopgave til Mat2SS. Espen Højsgaard (CPR xxxx) Rune Højsgaard (CPR xxxx)

Relaterede dokumenter
Kønsproportion og familiemønstre.

Tidlige eksempler. Susanne Ditlevsen Institut for Matematiske Fag susanne

Mat2SS Vejledende besvarelse uge 11

Statistik og Sandsynlighedsregning 1. IH kapitel 6

Estimation og konfidensintervaller

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Susanne Ditlevsen Institut for Matematiske Fag susanne

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Statistik i basketball

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Tema. Dagens tema: Indfør centrale statistiske begreber.

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Nanostatistik: Opgavebesvarelser

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Kvantitative Metoder 1 - Efterår Dagens program

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Kvantitative metoder 2

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Løsning til eksaminen d. 14. december 2009

Løsning eksamen d. 15. december 2008

Kvantitative metoder 2

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Konfidensintervaller og Hypotesetest

Dagens program. Afsnit Eksperimenter med usikkerhed Sandsynlighedsmodel - Udfaldsrum - Hændelser - Sandsynligheder Eksempler

Dagens program. Afsnit Diskrete stokastiske variable Sandsynlighedsfunktioner Simultane fordelinger Betingede sandsynligheder

Eksamen i Statistik for biokemikere. Blok

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Undervisningsbeskrivelse

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Binomialfordelingen. Binomialfordelingen. Binomialfordelingen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Statistik og Sandsynlighedsregning 2

Normalfordelingen og Stikprøvefordelinger

En Introduktion til SAS. Kapitel 5.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

c) For, er, hvorefter. Forklar.

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Sandsynlighedsregning

Lad os som eksempel se på samtidigt kast med en terning og en mønt:

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Kapitel 12 Variansanalyse

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Kvantitative Metoder 1 - Efterår Dagens program

Statistik II 1. Lektion. Analyse af kontingenstabeller

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Skriftlig eksamen Science statistik- ST501

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Matematik 3 SS. Københavns Universitet Naturvidenskabelig kandidateksamen, sommeren Opgaver til besvarelse i 3 timer fredag den 18. juni 1993.

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

4 Oversigt over kapitel 4

Personlig stemmeafgivning

Undervisningsbeskrivelse. Stamoplysninger til brug ved prøver til gymnasiale uddannelser. Oversigt over gennemførte undervisningsforløb.

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

Om hypoteseprøvning (1)

Kvantitative Metoder 1 - Forår Dagens program

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Nanostatistik: Konfidensinterval

Noget om en symmetrisk random walks tilbagevenden til udgangspunktet

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

At træffe sine valg i en usikker verden - eller den statistiske modellerings rolle.

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Kapitel 12 Variansanalyse

Nanostatistik: Test af hypotese

StatDataN: Test af hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Undervisningsbeskrivelse

Normale tal. Outline. Hvad er tilfældighed? Uafhængighed. Matematiklærerdag Simon Kristensen. Aarhus Universitet, 24/03/2017

Statistik og Sandsynlighedsregning 2

Fagplan for statistik, efteråret 2015

02402 Løsning til testquiz02402f (Test VI)

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Preben Blæsild og Jens Ledet Jensen


Modelselektion Permeabilitet Permeabilitet Permeabilitet

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Statistiske modeller

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Test nr. 6 af centrale elementer 02402

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Transkript:

Projektopgave til MatSS Espen Højsgaard (CPR 04038-xxxx) Rune Højsgaard (CPR 090678-xxxx) 1

1 Samme sandsynlighed for drengefødsel Vi har som udgangspunkt for løsning af opgaven brugt følgende tabeller, der giver et overblik over udfaldsrummet, de tilsvarende punktsandsynligheder samt de stokastiske variable N og D. Vi har brugt et nedsænket bogstav til at angive hvilken af de to strategier der er tale om (f.eks. D a ). I beskrivelsen af udfaldsrummet betegner 1 en dreng, mens 0 betegner en pige. E a p a N a D a 01 p(1 p) 1 10 p(1 p) 1 001 p(1 p) 3 1 110 p (1 p) 3 0001 p(1 p) 3 4 1 1110 p 3 (1 p) 4 3 0000 (1 p) 4 4 0 1111 p 4 4 4 E b p b N b D b 1 p 1 1 01 p(1 p) 1 001 p(1 p) 3 1 0001 p(1 p) 3 4 1 0000 (1 p) 4 4 0 1.1 Fordelingen af N Fordelingen af N findes ud fra ovenstående tabeller og vi får P (N a = ) = p(1 p) + p(1 p) = p p P (N a = 3) = p(1 p) + p (1 p) = p p P (N a = 4) = p(1 p) 3 + p 3 (1 p) + (1 p) 4 + p 4 = 1 3p + 3p P (N b = 1) = p P (N b = ) = p(1 p) P (N b = 3) = p(1 p) P (N b = 4) = p(1 p) 3 + (1 p) 4 1. Fordelingen af D Fordelingen af D fås på tilsvarende måde til

P (D a = 0) = (1 p) 4 P (D a = 1) = p(1 p) + p(1 p) + p(1 p) + p(1 p) 3 P (D a = ) = p (1 p) P (D a = 3) = p 3 (1 p) P (D a = 4) = p 4 P (D b = 0) = (1 p) 4 P (D b = 1) = p + p(1 p) + p(1 p) + p(1 p) 3 1.3 Sandsynligheden for kun at få drenge Sandsynlighederne for hændelsen, som vi betegner A er for de to strategier a) P (A) = p 4 b) P (A) = p 1.4 Sandsynligheden for kun at få piger Sandsynlighederne for hændelsen, som vi betegner A, er for begge strategier P (A) = (1 p) 4. 1.5 Sandsynligheden for en pige givet to drenge Spørgsmålet er kun relevant for strategi a. Vi betegner hændelsen at de første to børn er drenge med A Sandsynligheden for A er jf. 1.. i [] A = {110, 1110, 1111} P (A) = p(110) + p(1110) + p(1111) = p (1 p) + p 3 (1 p) + p 4 = p Hændelsen at det tredje barn er en pige betegner vi med B Fællesmængden for de to hændelser er B = {110, 0001, 0000} A B = {110} 3

og sandsynligheden for denne hændelse er P (A B) = p (1 p) Definition 1.4.1 i [] giver os så, at sandsynligheden for at tredje barn er en pige givet at de første to er drenge er P (B A) = P (A B) P (A) = p (1 p) p = 1 p 1.6 Sandsynligheden for mindst en pige givet mindst to drenge Spørgsmålet er kun relevant for strategi a. Vi betegner hændelsen at familien har mindst to drenge med A A = {110, 1110, 1111} der er identisk med hændelsen A fra sidste spørgsmål og vi har derfor P (A) = p. Hændelsen at familien har mindst en pige kalder vi B Fællesmængden for de to hændelser er og sandsynligheden for denne hændelse er B = {01, 10, 001, 110, 0001, 1110, 0000} A B = {110, 1110} P (A B) = p (1 p) + p 3 (1 p) = p p 4 Definition 1.4.1 i [] giver os så, at sandsynligheden for at familien har mindst en pige givet at den har to drenge er P (B A) = 1.7 Middelværdien af N P (A B) P (A) = p p 4 p = 1 p Jf. definition 3.7.1 i MS er middelværdien af N a og N b henholdsvis EN a = p(1 p) + p(1 p) + 3p(1 p) + 3p (1 p) +4p(1 p) 3 + 4p 3 (1 p) + 4(1 p) 4 + 4p 4 = 4 5p + 5p og EN b = p + p(1 p) + 3p(1 p) + 4p(1 p) 3 + 4(1 p) 4 = 4 6p + 4p p 3 4

1.8 Middelværdien af D Jf. definition 3.7.1 i MS er middelværdien af D a og D b henholdsvis ED a = p(1 p) + p(1 p) + p(1 p) + p (1 p) + p(1 p) 3 + 3p 3 (1 p) + 4p 4 = 4p 5p + 5p 3 og ED b = p + p(1 p) + p(1 p) + p(1 p) 3 = 4p 6p + 4p 3 p 4 1.9 Forholdet mellem ED og EN Fra de to foregående spørgsmål har vi ED og EN for begge strategier og forholdet ED EN for de strategier er a) b) ED a EN a = 4p 5p + 5p 3 4 5p 5p = p ED b EN b = 4p 6p + 4p 3 p 4 4 6p + 4p p 3 = p Varierende sandsynlighed for drengefødsel.1 Sandsynligheden for en dreng for en tilfældig kvinde Vi lader t i betegne en kvinde med sandsynligheden p i for at få en dreng for i = 1,. Endvidere betegner vi en dreng med 1 og en pige med 0. Udfaldsrummet er E = {t 1, t } {1, 0} Med K i betegner vi den hændelse at vi vælger en kvinde af type t i K i = {t i } {1, 0} for i = 1,. Med D betegner vi hændelsen at barnet er en dreng. Vi har fra modellen sandsynligheden for at vælge en kvinde af type t i samt denne type kvinders sandsynlighed for at få en dreng P (K 1 ) = r P (D K 1 ) = p 1 P (K ) = 1 r P (D K ) = p Sætning 1.4.4 i [] giver os sandsynligheden for hændelsen D P (D) = P (D K 1 )P (K 1 ) + P (D K )P (K ) = p 1 r + p (1 r) 5

. Sandsynligheden for n børn Resultaterne fra spørgsmål (fordelingen af N b ) giver os følgende P (N b = 1 K i ) = p i P (N b = K i ) = p i (1 p i ) P (N b = 3 K i ) = p i (1 p i ) P (N b = 4 K i ) = p i (1 p i ) 3 + (1 p i ) 4 for i = 1,. Ved at bruge sætning 1.4.4 i [] som i sidste opgave fås P (N b = 1) = p 1 r + p (1 r) P (N b = ) = p 1 (1 p 1 )r + p (1 p )(1 r) P (N b = 3) = p 1 (1 p 1 ) r + p (1 p ) (1 r) P (N b = 4) = (p 1 (1 p 1 ) 3 + (1 p 1 ) 4 )r + (p (1 p ) 3 + (1 p ) 4 )(1 r).3 Middelværdi for N og D Resultaterne fra opgave 8 og 9 giver os svaret E(N b ) = (4 6p 1 + 4p 1 p 3 1)r + (4 6p + 4p p 3 )(1 r) E(D b ) = (4p 1 6p 1 + 4p 3 1 p 4 1)r + (4p 6p + 4p 3 p 4 )(1 r).4 Sandsynlighed for dreng givet to piger Med A betegner vi hændelsen at de to første børn er piger A = {001, 0001, 0000} Fra opgave 1 har vi at sandsynligheden for A, forudsat at kvindetypen er kendt, er P (A K i ) = p i (1 p i ) + p i (1 p i ) 3 + (1 p i ) 4 = (1 p i ) for i = 1,. Sætning 1.4.4 i [] giver os da P (A) = (1 p 1 ) r + (1 p ) (1 r) = (1 p 1) + (1 p ) hvor sidste lighedstegn gælder, da r = 1. Vi lader B betegne hændelsen at tredje barn er en dreng B = {001} 6

Fællesmængden for de to hændelser er A B = {001}. Opgave 1 giver os P (A B K i ) = p i (1 p i ) Ved igen at bruge sætning 1.4.4 fra [] samt at r = 1 fås P (A B) = p 1(1 p 1 ) + p (1 p ) Jf. definition 1.4.1 i [] er sandsynligheden for at tredje barn er en dreng forudsat at de foregående er piger så P (B A) = P (A B) P (A) = p 1(1 p 1 ) + p (1 p ) (1 p 1 ) + (1 p ).5 Opgave 15 Sandsynligheden for at få en dreng ved første fødsel når r = 1 11 p 1+p. Vi skal vise, at der for p 1 p gælder er ifølge resultatet fra opgave p 1 (1 p 1 ) + p (1 p ) < p 1 + p (1 p 1 ) + (1 p ) Vi omskriver uligheden p 1 (1 p 1 ) +p (1 p ) (1 p 1 ) +(1 p < p 1+p ) p 1 (1 p 1 ) + p (1 p ) < (p 1 + p )((1 p 1 ) + (1 p ) ) p 1 (1 p 1 ) + p (1 p ) < p 1 (1 p ) + p (1 p 1 ) (p 1 p )(1 p 1 ) < (p 1 p )(1 p ) Vi deler op for p 1 > p og p 1 < p : p 1 > p : Vi har p 1 p > 0 og vi kan derved omskrive uligheden videre til (1 p 1 ) < (1 p ) 1 p 1 < 1 p 1 p 1 < 1 p p < p 1 da vi har p i ]0, 1[ 1 p i > 0 for i = 1,. Sidste ulighed er forudsat sandt og den indledende ulighed er altså sand for p 1 > p. 7

p 1 < p : Vi har p 1 p < 0 og analogt til foregående tilfælde fås (1 p 1 ) > (1 p ) 1 p 1 > 1 p 1 p 1 > 1 p p > p 1 Altså er p 1(1 p 1 ) +p (1 p ) (1 p 1 ) +(1 p ) < p 1+p for p 1 p. 3 Trebørnsmødre Vores udgangshypotese er at forældre gerne vil have et barn af hver køn. Vi vil teste hypotesen ved at først undersøge om kvinder med tre børn af samme køn har samme tilbøjelighed til at få endnu et barn uanset om de tidligere børn var piger eller drenge. Er det tilfældet tester vi om også kvinder med børn af forskelligt køn har samme sandsynlighed for at få et barn til. Da vi i vores test ikke er interesserede i at differenciere mellem kvinder med piger og 1 dreng og kvinder med 1 pige og drenge, og da tilbøjeligheden til at få endnu et barn for disse to grupper kvinder er meget ens ( 096 1458 = 0.94 og = 0.93) vil vi betragte 69084 736 dem som en gruppe. Vi anvender samme notation som i eksempel 5.4. i [1]: n ppp, n ddd og n pd betegner antallet af familier med henholdsvis tre piger, tre drenge og en af hver. x ppp, x ddd og x pd er antallet af familier med den givne børnekombination, der har fået endnu et barn. Vi betragter den statistiske model hvor ( {0,..., n ppp } {0,..., n ddd } {0,..., n pd }, ( ) P (pppp,pddd,p pd ) )(p ppp,pddd,ppd ) [0,1] 3 P (pppp,p ddd,p pd ) (X ppp = x ppp, X ddd = x ddd, X pd = x pd ) = j=ppp,ddd,pd ( nj ) p j (1 p j) (n j ) Hypoteserne bliver H 1 : p ppp = p ddd = p [0, 1], p pd [0, 1] H : p pd = p [0, 1] Under modellen varierer de tre sandsynlighedsvektorer frit og likelihoodfunktione bliver L :{0,..., n ppp } {0,..., n ddd } {0,..., n pd } [0, 1] 3 [0, 1] ( ) nj L(x, (p ppp, p ddd, p pd )) = p j (1 p j) (n j ) j=ppp,ddd,pd 8

Maksimaliseringsestimatorerne bliver efter sætning 5..1(a) i [1] (ˆp ppp, ˆp ddd, ˆp pd ) = ( x ppp n ppp, x ddd n ddd, x pd n pd ) = (0.39, 0.316, 0.93) Under H 1 bliver likelihoodfunktionen L :{0,..., n ppp } {0,..., n ddd } {0,..., n pd } [0, 1] [0, 1] L(x, (p, p pd )) = ( ) ( ) nj p (1 p) (n npd j ) p x pd pd (1 p pd ) (n pd x pd ) j=ppp,ddd og maksimaliseringsestimatorerne er jf. 5..1(a) i [1] x pd (ˆp, ˆp pd ) = ( x ppp + x ddd n ppp + n ddd, x pd n pd ) = (0.3, 0.93) Kvotientstørrelserne Q 1 (x) for test af H 1 mod M bliver Q 1 (x) = = = L(x, (ˆp, ˆp pd )) L(x, (ˆp ppp, ˆp ddd, ˆp pd )) j=ppp,ddd ( nj x )ˆp j (1 ˆp) (n j ) (n pd x x pd )ˆp pd pd (1 ˆp pd ) (n pd x pd ) ( nj x j=ppp,ddd,pd )ˆp j j (1 ˆp j) (n j ) j=ppp,ddd ˆp (1 ˆp) (n j ) j=ppp,ddd ˆp j (1 ˆp j) (n j ) da estimatet for ˆp pd er det samme under model og hypotese. Idsættes tallene fra tabellen fås log Q 1 (x) = 4.46 Da dimθ=dim[0, 1] 3 = 3 og dimθ 1 =dim[0, 1] = kan log Q 1 vurderes i en χ -fordeling med én frihedsgrad idet antallene klart er store nok til at bruge approksimationen i sætning 5..1. Den approksimative testsandsynlighed er ɛ 1 (x) 1 F χ 1 (4.46) = 0.035 Tester udviser signifikans på 5%-niveau, men ikke voldsomt og vi mener derfor at det alligevel har mening at teste den anden hypotese. Under H er likelihoodfunktionen L :{0,..., n ppp } {0,..., n ddd } {0,..., n pd } [0, 1] [0, 1] ( ) nj L(x, p) = p (1 p) (n j ) j=ppp,ddd,pd 9

og fordelingernes fælles p estimeres til p = x ppp + x ddd + x pd n ppp + n ddd + n pd = 0.301 Kvotientstørrelserne for vurdering af H mod H 1 bliver Q (x) = = = L(x, p) L(x, (ˆp, ˆp pd )) ( nj x j=ppp,ddd,pd ) p j (1 p) (n j ) ( nj j=ppp,ddd )ˆp (1 ˆp) (n j ) (n pd x x pd )ˆp pd pd (1 ˆp pd ) (n pd x pd ) p (x ppp+x ddd +x pd ) (1 p) (n ppp+n ddd +n pd x ppp x ddd x pd ) ˆp (x ppp+x ddd) (1 ˆp) (n ppp+n ddd x ppp x ddd)ˆp x pd pd (1 ˆp pd ) (n pd x pd ) Ved indsættelse af tallene fra tabellen fås log Q (x) = 65.39 der kan vurderes i en χ -fordeling med én frihedsgrad da dimθ 1 =dim[0, 1] = og dimθ =dim[0, 1] = 1. Testet giver voldsom signifikans og hypotesen forkastes. Vores udgangshypotese kan altså godkendes på 3.5%-niveau. 10

4 Litteratur [1] Inge Henningsen. Statistik for Matematikere. Afdeling for Anvendt Matematik og Statistik, Københavns Universitet, 4. udgave, 003. [] Michael Sørensen. En Introduktion til Sandsynlighedsregning. Afdeling for Anvendt Matematik og Statistik, Københavns Universitet, 4. udgave, 003. 11