Kønsproportion og familiemønstre.



Relaterede dokumenter
Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Statistik i basketball

Kvantitative Metoder 1 - Efterår Dagens program

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Kvantitative Metoder 1 - Forår Dagens program

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Kapitel 1 Statistiske grundbegreber

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

Statistik II 1. Lektion. Analyse af kontingenstabeller

Personlig stemmeafgivning

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Skriftlig Eksamen Diskret Matematik (DM528)

Lad os som eksempel se på samtidigt kast med en terning og en mønt:

Statistik viden eller tilfældighed

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Kapitel 7 Forskelle mellem centraltendenser

Matematik B. Højere handelseksamen. Vejledende opgave 1

c) For, er, hvorefter. Forklar.

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Normalfordelingen og Stikprøvefordelinger

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Plan. Markovkæder Matematisk modelling af kølængde, yatzy, smittespredning og partikelbevægelser. Materiale mm.

Fornyelsesteori med anvendelser: Afleveringsopgave 1

Matematik B. Højere handelseksamen

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Sandsynligheder. Udfaldsrum Ω = {ω 1,..., ω N } hvor alle udfald er lige sandsynlige, dvs. P (ω i )=1/N for alle i =1,..., N.

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema:

Spørgeskemaundersøgelser og databehandling

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Binomialfordelingen. Binomialfordelingen. Binomialfordelingen

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

statistik og sandsynlighed

Kapitel 12 Variansanalyse

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Skriftlig eksamen Science statistik- ST501

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Kvantitative metoder 2

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Sandsynlighedsregning

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Tip til 1. runde af Georg Mohr-Konkurrencen Kombinatorik

Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for

Teenagefødsler går i arv

Skriftlig eksamen i samfundsfag

Undervisningsbeskrivelse

Kapitel 12 Variansanalyse

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Noget om en symmetrisk random walks tilbagevenden til udgangspunktet

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Eksamen i Statistik for biokemikere. Blok

Matematik B. Højere handelseksamen

Matematik B. Højere handelseksamen

Løsning til eksaminen d. 14. december 2009

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Simpsons Paradoks. Et emnearbejde om årsag og sammenhæng i kvantitative undersøgelser. Inge Henningsen

Transkript:

Københavns Universitet Afdeling for Anvendt Matematik og Statistik Projektopgave forår 2005 Kønsproportion og familiemønstre. Matematik 2SS Inge Henningsen februar 2005 Indledning I denne opgave undersøges, om forældre ved deres valg af familiemønster kan komme til at påvirke kønsproportionen, altså forholdet mellem piger og drenge i befolkningen. Det antages først, at alle kvinder har samme sandsynlighed for drengefødsel, og det vises at under denne forudsætning påvirker valget af familiemønster i de undersøgte tilfælde ikke kønsproportionen. Hvis man derimod antager, at sandsynligheden for drengefødsel varierer fra kvinde til kvinde, kan valget af familiemønster påvirke forholdet mellem drenge- og pigefødsler. Dette illustreres i et simpelt eksempel. Endelig undersøges familiestørrelsens afhængighed af de første børns køn på grundlag af norske fødselsoplysninger. Samme sandsynlighed for drengefødsel. Spørgsmålet om forholdet mellem pige- og drengefødsler er behandlet mange steder i den statistiske litteratur. I dette afsnit vil vi betragte følgende model: Vi antager at sandsynligheden for at få en dreng er p ved alle fødsler, og at et barns køn er stokastisk uafhængigt af eventuelle tidligere børns køn. Der ses bort fra erfødsler. Vi vil opstille nogle strategier, som familier kunne tænkes at bruge, når de bestemmer deres børneantal, og undersøge, hvad disse forskellige strategier vil føre til, når det drejer sig om familiestørrelse og fordelingen af drenge og piger. Betragt følgende to strategier: (a) Familien får børn, indtil den har et barn af hvert køn, den får dog højst 3 børn. (b) Familien får børn, indtil der bliver født en dreng, den får dog højst 3 børn. Lad E være et udfaldsrum, hvis punkter repræsenterer de mulige kombinationer af drenge og piger i hvert af de to tilfælde. Dener de stokastiske variable N og D ved, at N skal være antallet af børn og D antallet af drenge i en given familie, og besvar for både strategi a) og (b) følgende spørgsmål. 1. Angiv E, N og D. 2. Find fordelingen af N. 1

3. Find fordelingen af D. 4. Find sandsynligheden for at familien kun får piger. 5. Find sandsynligheden for at familien kun får drenge. 6. Find sandsynligheden for at familien har mindst en pige, givet at den har mindst to drenge. Besvares kun for strategi a. 7. Find sandsynligheden for at det tredje barn er en pige, givet at de to første børn er drenge. Besvares kun for strategi a. 8. Hvad er middelværdien af N? 9. Hvad er middelværdien af D? 10. Vis, at E(D) E(N) = p både i tilfælde (a) og (b). Varierende sandsynlighed for drengefødsel. Vi så, at forholdet mellem det forventede antal drenge- og pigefødsler under de gjorte antagelser ikke blev påvirket af, hvordan forældrene valgte at få børn. Vi havde her forudsat, at alle kvinderne havde samme sandsynlighed for at få en dreng. Vi vil nu undersøge hvad der sker, hvis kvinderne har forskellige sandsynligheder for at få drenge og opstiller følgende model: For en given kvinde antager vi, at sandsynligheden for at få en dreng er den samme ved alle fødsler, og at barnets køn er stokastisk uafhængigt af eventuelle tidligere børns køn. Vi vil nu slække på forudsætningen om, at alle kvinder har samme sandsynlighed for at få en dreng og i stedet antage, at denne sandsynlighed kan variere mellem kvinder. For nemheds skyld antager vi, at sandsynligheden kun kan antage to værdier p 1 ]0, 1[ og p 2 ]0, 1[, hvor værdien p 1 forekommer med sandsynligheden r ]0, 1[ og værdien p 2 forekommer med sandsynligheden 1 r. I det følgende betragter vi en familie, hvor moderen er valgt tilfældigt, således at hun med sandsynlighed r har sandsynlighed p 1 for drengefødsel. (Fædrene er for nemheds skyld holdt helt ude af billedet). Vi antager i dette afsnit, at familien bruger strategi (b). 11. Vis, at sandsynligheden for at den tilfældigt valgte familie får en dreng ved første fødsel er rp 1 + (1 r)p 2. 12. Find sandsynligheden for, at den tilfældigt valgte familie får netop n børn. 2

13. Find E(N) og E(D). I de følgende spørgsmål antages det, at r = 1 2 14. Vis, at sandsynligheden for at det tredje barn er en dreng, givet at de to første børn er piger er (1 p 1) 2 p 1 +(1 p 2 ) 2 p 2 (1 p 1 ) 2 +(1 p 2 ) 2. 15. Vis, at hvis p 1 p 2 så er sandsynligheden i 14. mindre end sandsynligheden for, at familien får en dreng ved første fødsel. Prøv at forklare hvorfor. 16. Vis, at E(D) E(N) p 1+p 2 2, med lighedstegn hvis og kun hvis p 1 = p 2. (Bemærk, at ulighederne i 15. og 16. faktisk gælder for alle værdier af r ]0, 1[.) Data om kønsfordeling og familiedannelse. På Statistisk Sentralbureau i Norge har man et register (Kvinnelen), der for alle kvinder født efter 1935 indeholder oplysninger om køn og fødselsdato for hvert barn. På grundlag af disse data har Helge Brunborg i Tidsskrift for den Norske Lægeforening oentliggjort en undersøgelse, hvorfra tallene i den følgende tabel er hentet. Tabellen viser for alle kvinder med mindst tre børn (trebørnsmødre), hvorledes kønsfordelingen har været for de tre første børn, samt hvor mange af mødrene i den pågældende gruppe, der har fået mindst et barn til. Trebørnsmødre: Kønsfordeling hos de tre første børn, samt antal mødre i hver gruppe, der har fået mindst et barn til. Norge 1950-84. Børne- Antal kvinder Antal kvinder fordeling med et barn til 3 piger 24.072 7926 2 piger og 1 dreng 69.084 20296 1 pige og 2 drenge 73.262 21458 3 drenge 28.429 8989 Ialt 194.847 58669 Undersøg for trebørnsmødre, hvordan tilbøjeligheden til at få endnu et barn afhænger af de tidligere børns køn. Sammenlign evt. med IH eksempel 5.4.2. 3

Råd og vink. På de følgende sider besvares nogle af de forventede spørgsmål i forbindelse med projektopgaven. Hvordan får vi overblik over sandsynlighederne? Man kan f. eks. opstille skemaer som nedenstående, der for tilfælde (a) viser udfaldsrum, punktsandsynligheder, samt værdierne for de to stokastiske variable N og D, idet man fx. kan betegne dreng med 1 og pige med 0. E a p a N a D a 10 (1 p)p 2 1 01 (1 p)p 2 1 001 (1 p) 2 p 3 1 110 (1 p)p 2 3 2 000 (1 p) 3 3 0 111 p 3 3 3 Så kan man bagefter aæse alle sandsynlighederne fra skemaerne. Nu har vi set, at den forventede kønsproportion ikke ændrer sig i to specielle tilfælde. Men der er jo uendeligt mange andre muligheder for valg af familiemønster, så hvad viser det? Ingenting. Men man kan vise en generel sætning, der siger noget i retning af følgende: Hvis valg af fødselsmønster ikke afhænger af, hvad der sker i fremtiden, og hvis sandsynligheden for at få en dreng er den samme, uanset hvilket køn de foregående børn har, så vil der altid gælde, at ED = p, hvor p er sandsynligheden EN for at få en dreng ved en enkelt fødsel. Dette er et specialtilfælde af en berømt sætning om "optional stopping"af martingaler. Denne sætning viser også, at man ikke kan lave strategier, der sikrer gevinst, når man spiller roulette. Hvorfor skal spørgsmål 6. og 7. kun besvares for strategi a? Fordi hændelsen at familien har to drenge, har sandsynlighed 0 under strategi b. De betingede sandsynligheder er derfor ikke denerede. Hvordan hænger E(N) og E(D) i spørgsmål 16. sammen med de forventede værdier i spørgsmål 8. og 9.? De forventede værdier i spørgsmål 8. og 9. kan betragtes som betingede størrelser. Det er de forventede værdier man ville bruge, hvis man vidste, hvilken af de to grupper moderen tilhørte, altså betinget af kendskab til moderens parameterværdi. E(N) beregnes så som et vejet gennemsnit af middelværdierne, når Z antager hhv. værdien p 1 og p 2. Dette er et helt generelt resultat, der også gælder, hvis Z antager mere end to værdier. Prøv at variere på p 1 og p 2 og se hvordan EN ændrer sig. 4

Skal man bare udføre nogle test i det sidste spørgsmål, eller skal man også opskrive den statistiske model og alt det der? Man skal angive en til situationen passende statistisk model, samt de relevante hypoteser, maksimaliseringsestimatorer, teststørrelser og testsandsynligheder. Når de modeller man bruger er gennemregnet i noterne, behøver man ikke at udlede maksimaliseringsestimatorer etc. en gang til. Det er nok med en præcis henvisning. Ellers viser man i opgaven, hvordan man er nået frem til resultaterne. Hvad gør man, hvis ens regnemaskine går helt i sort, når man skal beregne Q? Man skal beregne 2 log Q direkte. God Fornøjelse! 5