Hvorfor er normalfordelingen så normal? og er den nu også det? Søren Højsgaard (updated: 2019-03-17) 1 / 18
Højde af kvinder 2 / 18
Inddeler man i mindre grupper kan man forestille sig at histogrammet bliver en "glat klokkeform". 3 / 18
Beskrives med normalfordelingstætheden 1 f(y) = exp [ (y μ) 2 ] 1 2πσ 2 2σ 2 4 / 18
Men hvorfor er normalfordelingen så normal? Altså: Hvorfor kan så mange fænomener beskrives med en normalfordeling? Svaret ligger i den centrale grænseværdisætning - "the central limit theorem" eller CLT. Løst sagt: Summen af mange uafhængige bidrag er tilnærmelsesvist normalfordelt; og tilnærmelsen bliver bedre desto flere bidrag der er. 5 / 18
Hvad bestemmer en persons højde? Genetik; en bunke små bidrag Mad Levevilkår... I alt en mængde små (uafhængige) bidrag Derfor bliver højden (med tilnærmelse) normalfordelt. 6 / 18
Den centrale grænseværdisætning Der findes mange forskellige CLT'er; den simpleste er: X1, X2,, X n E(X i ) = μ V (Y i ) = σ 2 Lad være uafhængige stokastiske variabler, hver med samme middelværdi og samme varians. Lad S n = i 1 X i, Z n = S n n Nemt at bevise, at E(S n ) = nμ V (S n ) = nσ 2,. E(Z n ) = μ V (Z n ) = σ 2 /n,. n S n Z n A N(, ) CLT fortæller mere: Når så bliver fordelingen af og approximativt normal (skrevet ) S n A N(nμ, nσ 2 ), Z n A N(μ, σ 2 /n) 7 / 18
Eksempel: Eksperiment: Kast fire terninger og noter det samlede antal øjne. Gentag eksperiment 10 gange: ## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] ## [1,] 3 4 6 1 1 2 6 2 2 4 ## [2,] 2 4 6 1 3 1 4 2 6 1 ## [3,] 5 6 3 5 5 6 6 6 1 5 ## [4,] 2 6 5 1 6 5 5 4 5 1 ## [1] 12 20 20 8 15 14 21 14 14 11 8 / 18
Gentag i stedet eksperimentet 10000 gange. Hvordan fordeler antal øjne sig? ## [1] 19 13 14 13 13 15 17 21 16 14 16 12 15 7 16 10 12 15 ## [19] 17 23 12 15 11 12 13 12 10 14 17 14 17 12 12 22 14 13 ## [37] 8 15 17 9 16 12 11 21 19 14 14 11 21 13 12 12 11 20 ## [55] 13 13 6 12 13 14 19 16 10 17 13 20 10 19 20 6 12 8 ## [73] 14 14 16 12 11 13 15 19 22 10 20 12 16 10 14 8 12 8 ## [91] 14 13 10 13 11 12 16 13 19 12 9 / 18
Lad i stedet eksperiment bestå i at kaste 8 terninger og notere det samlede antal øjne. Gentag dette eksperiment 10000 gange: ## [1] 32 29 18 26 25 28 31 24 30 22 26 29 26 31 26 28 27 27 ## [19] 32 34 27 22 30 36 28 26 23 29 29 29 28 28 29 23 21 30 ## [37] 24 27 24 33 25 24 34 25 28 29 33 20 38 26 33 20 27 28 ## [55] 19 37 32 34 34 28 31 22 30 25 34 22 16 26 29 30 26 29 ## [73] 20 30 24 23 30 30 34 27 30 37 20 22 22 33 33 24 32 23 ## [91] 20 23 33 29 25 25 27 27 22 18 10 / 18
N(μ, σ 2 ) Simulerer data fra en - fordeling. Fact: 1. En standard normalfordeling er normalfordelingen med middelværdi og varians, skrevet. 2. Alle normalfordelinger ligner hinanden: Lad og Quiz: 1 N(0, 1) X = a + by X (a + bμ, b 2 σ 2 ). Så er. U U N(0, 1) Y = μ + σu Y N(μ, σ 2 ) 1. Hvis er standard normalfordelt,, hvad er så fordelingen af? Y N(μ, σ 2 ) U = (Y μ)/σ 2. Hvis er -fordelt, hvad er så fordelingen af? 0 11 / 18
Altså: Alle normalfordelinger "ligner" en Derfor: at simulere fra en -fordeling. N(0, 1) N(μ, σ 2 ) N(0, 1) -fordeling: -fordeling kan klares ved at simulere fra 12 / 18
Uniform fordeling Z [a, b] Stokastisk variabel har uniform fordeling på intervallet, skrevet Z unif(a, b) hvis alle værdier i intervallet er lige sandsynlige og værdier udenfor intervallet ikke kan forekomme. Værdier af Z kan simuleres med - et lykkehjul :) I Excel kan Z Excel). simuleres med RAND() (den hedder SLUMP() i dansk udgave af 13 / 18
Fact 1. For en stokastisk variabel gælder at,. V (Z) = 1/12 Quiz: 1. Bevis ovenstående. Z unif(0, 1) E(Z) = 1/2 14 / 18
Z 1, Z 12 unif(0, 1) U = 12 j=1 Z j 6 Lad være uafhængige og -fordelte og lad Så giver CLT at U A N(0, 1) "Bevis:" Simuler U mange gange og tegn histogram; så bør man se klokkeformen og få rigtige middelværdi og varians Middelværdi: -0.0150561. Varians: 1.0414402 15 / 18
Og måske er normalfordelingen slet ikke så normal alligevel... 16 / 18
Øvelse 1 (computer) Z1,, Z n unif(0, 1) Lad være uafhængige of uniformt fordelte. U = 2 j=1 Z j 1. Summen af 2 uafhængige bidrag? Lad Simuler mange gange og tegn histogram. Ligner det en normalfordeling? U = 4 j=1 Z j 2. Summen af 4 uafhængige bidrag? Lad Simuler mange gange og tegn histogram. Ligner det en normalfordeling? 17 / 18
Øvelse 2 (papir og blyant) Fact: X X bin(n, θ) E(X) = Nθ V (X) = Nθ(1 θ) 1. Lad være en binomialfordelt stokastisk variabel,. Så er og. X 1 bin(n 1, θ) X 2 bin(n 2, θ) X 1 X 2 Y = X 1 + X 2 bin(n 1 + N 2, θ) 2. Lad og og lad og være uafhængige. Så er Quiz: 1. Argumenter for, at X approximativt er normalfordelt for store N 2. Hvad er den approximative fordeling af? N 3. Hvad er den approximative fordeling af? θ(1 θ)/n X N X θ 18 / 18