Kønsproportion og familiemønstre.

Københavns Universitet Afdeling for Anvendt Matematik og Statistik Projektopgave forår 2005 Kønsproportion og familiemønstre. Matematik 2SS Inge Henningsen februar 2005 Indledning I denne opgave undersøges, om forældre ved deres valg af familiemønster kan komme til at påvirke kønsproportionen, altså forholdet mellem piger og drenge i befolkningen. Det antages først, at alle kvinder har samme sandsynlighed for drengefødsel, og det vises at under denne forudsætning påvirker valget af familiemønster i de undersøgte tilfælde ikke kønsproportionen. Hvis man derimod antager, at sandsynligheden for drengefødsel varierer fra kvinde til kvinde, kan valget af familiemønster påvirke forholdet mellem drenge- og pigefødsler. Dette illustreres i et simpelt eksempel. Endelig undersøges familiestørrelsens afhængighed af de første børns køn på grundlag af norske fødselsoplysninger. Samme sandsynlighed for drengefødsel. Spørgsmålet om forholdet mellem pige- og drengefødsler er behandlet mange steder i den statistiske litteratur. I dette afsnit vil vi betragte følgende model: Vi antager at sandsynligheden for at få en dreng er p ved alle fødsler, og at et barns køn er stokastisk uafhængigt af eventuelle tidligere børns køn. Der ses bort fra erfødsler. Vi vil opstille nogle strategier, som familier kunne tænkes at bruge, når de bestemmer deres børneantal, og undersøge, hvad disse forskellige strategier vil føre til, når det drejer sig om familiestørrelse og fordelingen af drenge og piger. Betragt følgende to strategier: (a) Familien får børn, indtil den har et barn af hvert køn, den får dog højst 3 børn. (b) Familien får børn, indtil der bliver født en dreng, den får dog højst 3 børn. Lad E være et udfaldsrum, hvis punkter repræsenterer de mulige kombinationer af drenge og piger i hvert af de to tilfælde. Dener de stokastiske variable N og D ved, at N skal være antallet af børn og D antallet af drenge i en given familie, og besvar for både strategi a) og (b) følgende spørgsmål. 1. Angiv E, N og D. 2. Find fordelingen af N. 1

3. Find fordelingen af D. 4. Find sandsynligheden for at familien kun får piger. 5. Find sandsynligheden for at familien kun får drenge. 6. Find sandsynligheden for at familien har mindst en pige, givet at den har mindst to drenge. Besvares kun for strategi a. 7. Find sandsynligheden for at det tredje barn er en pige, givet at de to første børn er drenge. Besvares kun for strategi a. 8. Hvad er middelværdien af N? 9. Hvad er middelværdien af D? 10. Vis, at E(D) E(N) = p både i tilfælde (a) og (b). Varierende sandsynlighed for drengefødsel. Vi så, at forholdet mellem det forventede antal drenge- og pigefødsler under de gjorte antagelser ikke blev påvirket af, hvordan forældrene valgte at få børn. Vi havde her forudsat, at alle kvinderne havde samme sandsynlighed for at få en dreng. Vi vil nu undersøge hvad der sker, hvis kvinderne har forskellige sandsynligheder for at få drenge og opstiller følgende model: For en given kvinde antager vi, at sandsynligheden for at få en dreng er den samme ved alle fødsler, og at barnets køn er stokastisk uafhængigt af eventuelle tidligere børns køn. Vi vil nu slække på forudsætningen om, at alle kvinder har samme sandsynlighed for at få en dreng og i stedet antage, at denne sandsynlighed kan variere mellem kvinder. For nemheds skyld antager vi, at sandsynligheden kun kan antage to værdier p 1 ]0, 1[ og p 2 ]0, 1[, hvor værdien p 1 forekommer med sandsynligheden r ]0, 1[ og værdien p 2 forekommer med sandsynligheden 1 r. I det følgende betragter vi en familie, hvor moderen er valgt tilfældigt, således at hun med sandsynlighed r har sandsynlighed p 1 for drengefødsel. (Fædrene er for nemheds skyld holdt helt ude af billedet). Vi antager i dette afsnit, at familien bruger strategi (b). 11. Vis, at sandsynligheden for at den tilfældigt valgte familie får en dreng ved første fødsel er rp 1 + (1 r)p 2. 12. Find sandsynligheden for, at den tilfældigt valgte familie får netop n børn. 2

13. Find E(N) og E(D). I de følgende spørgsmål antages det, at r = 1 2 14. Vis, at sandsynligheden for at det tredje barn er en dreng, givet at de to første børn er piger er (1 p 1) 2 p 1 +(1 p 2 ) 2 p 2 (1 p 1 ) 2 +(1 p 2 ) 2. 15. Vis, at hvis p 1 p 2 så er sandsynligheden i 14. mindre end sandsynligheden for, at familien får en dreng ved første fødsel. Prøv at forklare hvorfor. 16. Vis, at E(D) E(N) p 1+p 2 2, med lighedstegn hvis og kun hvis p 1 = p 2. (Bemærk, at ulighederne i 15. og 16. faktisk gælder for alle værdier af r ]0, 1[.) Data om kønsfordeling og familiedannelse. På Statistisk Sentralbureau i Norge har man et register (Kvinnelen), der for alle kvinder født efter 1935 indeholder oplysninger om køn og fødselsdato for hvert barn. På grundlag af disse data har Helge Brunborg i Tidsskrift for den Norske Lægeforening oentliggjort en undersøgelse, hvorfra tallene i den følgende tabel er hentet. Tabellen viser for alle kvinder med mindst tre børn (trebørnsmødre), hvorledes kønsfordelingen har været for de tre første børn, samt hvor mange af mødrene i den pågældende gruppe, der har fået mindst et barn til. Trebørnsmødre: Kønsfordeling hos de tre første børn, samt antal mødre i hver gruppe, der har fået mindst et barn til. Norge 1950-84. Børne- Antal kvinder Antal kvinder fordeling med et barn til 3 piger 24.072 7926 2 piger og 1 dreng 69.084 20296 1 pige og 2 drenge 73.262 21458 3 drenge 28.429 8989 Ialt 194.847 58669 Undersøg for trebørnsmødre, hvordan tilbøjeligheden til at få endnu et barn afhænger af de tidligere børns køn. Sammenlign evt. med IH eksempel 5.4.2. 3

Råd og vink. På de følgende sider besvares nogle af de forventede spørgsmål i forbindelse med projektopgaven. Hvordan får vi overblik over sandsynlighederne? Man kan f. eks. opstille skemaer som nedenstående, der for tilfælde (a) viser udfaldsrum, punktsandsynligheder, samt værdierne for de to stokastiske variable N og D, idet man fx. kan betegne dreng med 1 og pige med 0. E a p a N a D a 10 (1 p)p 2 1 01 (1 p)p 2 1 001 (1 p) 2 p 3 1 110 (1 p)p 2 3 2 000 (1 p) 3 3 0 111 p 3 3 3 Så kan man bagefter aæse alle sandsynlighederne fra skemaerne. Nu har vi set, at den forventede kønsproportion ikke ændrer sig i to specielle tilfælde. Men der er jo uendeligt mange andre muligheder for valg af familiemønster, så hvad viser det? Ingenting. Men man kan vise en generel sætning, der siger noget i retning af følgende: Hvis valg af fødselsmønster ikke afhænger af, hvad der sker i fremtiden, og hvis sandsynligheden for at få en dreng er den samme, uanset hvilket køn de foregående børn har, så vil der altid gælde, at ED = p, hvor p er sandsynligheden EN for at få en dreng ved en enkelt fødsel. Dette er et specialtilfælde af en berømt sætning om "optional stopping"af martingaler. Denne sætning viser også, at man ikke kan lave strategier, der sikrer gevinst, når man spiller roulette. Hvorfor skal spørgsmål 6. og 7. kun besvares for strategi a? Fordi hændelsen at familien har to drenge, har sandsynlighed 0 under strategi b. De betingede sandsynligheder er derfor ikke denerede. Hvordan hænger E(N) og E(D) i spørgsmål 16. sammen med de forventede værdier i spørgsmål 8. og 9.? De forventede værdier i spørgsmål 8. og 9. kan betragtes som betingede størrelser. Det er de forventede værdier man ville bruge, hvis man vidste, hvilken af de to grupper moderen tilhørte, altså betinget af kendskab til moderens parameterværdi. E(N) beregnes så som et vejet gennemsnit af middelværdierne, når Z antager hhv. værdien p 1 og p 2. Dette er et helt generelt resultat, der også gælder, hvis Z antager mere end to værdier. Prøv at variere på p 1 og p 2 og se hvordan EN ændrer sig. 4

Skal man bare udføre nogle test i det sidste spørgsmål, eller skal man også opskrive den statistiske model og alt det der? Man skal angive en til situationen passende statistisk model, samt de relevante hypoteser, maksimaliseringsestimatorer, teststørrelser og testsandsynligheder. Når de modeller man bruger er gennemregnet i noterne, behøver man ikke at udlede maksimaliseringsestimatorer etc. en gang til. Det er nok med en præcis henvisning. Ellers viser man i opgaven, hvordan man er nået frem til resultaterne. Hvad gør man, hvis ens regnemaskine går helt i sort, når man skal beregne Q? Man skal beregne 2 log Q direkte. God Fornøjelse! 5