Højde af kvinder 2 / 18

Relaterede dokumenter
Hvorfor er normalfordelingen så normal?

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Produkt og marked - matematiske og statistiske metoder

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår Dagens program

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Kvantitative Metoder 1 - Efterår Dagens program

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Løsninger til kapitel 6

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Uge 10 Teoretisk Statistik 1. marts 2004

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Produkt og marked - matematiske og statistiske metoder

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Note om Monte Carlo metoden

Elementær sandsynlighedsregning

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Kvantitative Metoder 1 - Forår 2007

Normalfordelingen og Stikprøvefordelinger

Nanostatistik: Opgavebesvarelser

Sandsynlighedsregning

StatDataN: Plot af data

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Elementær sandsynlighedsregning

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

INSTITUT FOR MATEMATISKE FAG c

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Eksamen 2014/2015 Mål- og integralteori

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Hvorfor er det lige at vi skal lære det her?

Estimation og usikkerhed

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Definition. Definitioner

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Statistiske modeller

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

StatDataN: Test af hypotese

Sandsynlighedsregning

Oversigt over nyttige fordelinger

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Preben Blæsild og Jens Ledet Jensen

CIVILINGENIØREKSAMEN Side?? af?? sider. Skriftlig prøve, den: 16. december 2004 Kursus nr : (navn) (underskrift) (bord nr)

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Nanostatistik: Konfidensinterval

Nanostatistik: Opgaver

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

CIVILINGENIØREKSAMEN Side 1 af 18 sider. Skriftlig prøve, den: PQ. juli 200Z Kursus nr : (navn) (underskrift) (bord nr)

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Løsning eksamen d. 15. december 2008

Kapitel 4 Sandsynlighed og statistiske modeller

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Kapitel 4 Sandsynlighed og statistiske modeller

Vejledende løsninger til opgaver i kapitel 6

Nanostatistik: Test af hypotese

Reeksamen 2014/2015 Mål- og integralteori

StatDataN: Middelværdi og varians

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

TØ-opgaver til uge 45

Kvantitative Metoder 1 - Forår Dagens program

Statistik og Sandsynlighedsregning 2

4 Oversigt over kapitel 4

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Sandsynlighedsregning 8. forelæsning Bo Friis Nielsen

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Sandsynlighedsregning 8. forelæsning Bo Friis Nielsen

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr)

Lidt om fordelinger, afledt af normalfordelingen

Sandsynlighedsregning Oversigt over begreber og fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Transkript:

Hvorfor er normalfordelingen så normal? og er den nu også det? Søren Højsgaard (updated: 2019-03-17) 1 / 18

Højde af kvinder 2 / 18

Inddeler man i mindre grupper kan man forestille sig at histogrammet bliver en "glat klokkeform". 3 / 18

Beskrives med normalfordelingstætheden 1 f(y) = exp [ (y μ) 2 ] 1 2πσ 2 2σ 2 4 / 18

Men hvorfor er normalfordelingen så normal? Altså: Hvorfor kan så mange fænomener beskrives med en normalfordeling? Svaret ligger i den centrale grænseværdisætning - "the central limit theorem" eller CLT. Løst sagt: Summen af mange uafhængige bidrag er tilnærmelsesvist normalfordelt; og tilnærmelsen bliver bedre desto flere bidrag der er. 5 / 18

Hvad bestemmer en persons højde? Genetik; en bunke små bidrag Mad Levevilkår... I alt en mængde små (uafhængige) bidrag Derfor bliver højden (med tilnærmelse) normalfordelt. 6 / 18

Den centrale grænseværdisætning Der findes mange forskellige CLT'er; den simpleste er: X1, X2,, X n E(X i ) = μ V (Y i ) = σ 2 Lad være uafhængige stokastiske variabler, hver med samme middelværdi og samme varians. Lad S n = i 1 X i, Z n = S n n Nemt at bevise, at E(S n ) = nμ V (S n ) = nσ 2,. E(Z n ) = μ V (Z n ) = σ 2 /n,. n S n Z n A N(, ) CLT fortæller mere: Når så bliver fordelingen af og approximativt normal (skrevet ) S n A N(nμ, nσ 2 ), Z n A N(μ, σ 2 /n) 7 / 18

Eksempel: Eksperiment: Kast fire terninger og noter det samlede antal øjne. Gentag eksperiment 10 gange: ## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] ## [1,] 3 4 6 1 1 2 6 2 2 4 ## [2,] 2 4 6 1 3 1 4 2 6 1 ## [3,] 5 6 3 5 5 6 6 6 1 5 ## [4,] 2 6 5 1 6 5 5 4 5 1 ## [1] 12 20 20 8 15 14 21 14 14 11 8 / 18

Gentag i stedet eksperimentet 10000 gange. Hvordan fordeler antal øjne sig? ## [1] 19 13 14 13 13 15 17 21 16 14 16 12 15 7 16 10 12 15 ## [19] 17 23 12 15 11 12 13 12 10 14 17 14 17 12 12 22 14 13 ## [37] 8 15 17 9 16 12 11 21 19 14 14 11 21 13 12 12 11 20 ## [55] 13 13 6 12 13 14 19 16 10 17 13 20 10 19 20 6 12 8 ## [73] 14 14 16 12 11 13 15 19 22 10 20 12 16 10 14 8 12 8 ## [91] 14 13 10 13 11 12 16 13 19 12 9 / 18

Lad i stedet eksperiment bestå i at kaste 8 terninger og notere det samlede antal øjne. Gentag dette eksperiment 10000 gange: ## [1] 32 29 18 26 25 28 31 24 30 22 26 29 26 31 26 28 27 27 ## [19] 32 34 27 22 30 36 28 26 23 29 29 29 28 28 29 23 21 30 ## [37] 24 27 24 33 25 24 34 25 28 29 33 20 38 26 33 20 27 28 ## [55] 19 37 32 34 34 28 31 22 30 25 34 22 16 26 29 30 26 29 ## [73] 20 30 24 23 30 30 34 27 30 37 20 22 22 33 33 24 32 23 ## [91] 20 23 33 29 25 25 27 27 22 18 10 / 18

N(μ, σ 2 ) Simulerer data fra en - fordeling. Fact: 1. En standard normalfordeling er normalfordelingen med middelværdi og varians, skrevet. 2. Alle normalfordelinger ligner hinanden: Lad og Quiz: 1 N(0, 1) X = a + by X (a + bμ, b 2 σ 2 ). Så er. U U N(0, 1) Y = μ + σu Y N(μ, σ 2 ) 1. Hvis er standard normalfordelt,, hvad er så fordelingen af? Y N(μ, σ 2 ) U = (Y μ)/σ 2. Hvis er -fordelt, hvad er så fordelingen af? 0 11 / 18

Altså: Alle normalfordelinger "ligner" en Derfor: at simulere fra en -fordeling. N(0, 1) N(μ, σ 2 ) N(0, 1) -fordeling: -fordeling kan klares ved at simulere fra 12 / 18

Uniform fordeling Z [a, b] Stokastisk variabel har uniform fordeling på intervallet, skrevet Z unif(a, b) hvis alle værdier i intervallet er lige sandsynlige og værdier udenfor intervallet ikke kan forekomme. Værdier af Z kan simuleres med - et lykkehjul :) I Excel kan Z Excel). simuleres med RAND() (den hedder SLUMP() i dansk udgave af 13 / 18

Fact 1. For en stokastisk variabel gælder at,. V (Z) = 1/12 Quiz: 1. Bevis ovenstående. Z unif(0, 1) E(Z) = 1/2 14 / 18

Z 1, Z 12 unif(0, 1) U = 12 j=1 Z j 6 Lad være uafhængige og -fordelte og lad Så giver CLT at U A N(0, 1) "Bevis:" Simuler U mange gange og tegn histogram; så bør man se klokkeformen og få rigtige middelværdi og varians Middelværdi: -0.0150561. Varians: 1.0414402 15 / 18

Og måske er normalfordelingen slet ikke så normal alligevel... 16 / 18

Øvelse 1 (computer) Z1,, Z n unif(0, 1) Lad være uafhængige of uniformt fordelte. U = 2 j=1 Z j 1. Summen af 2 uafhængige bidrag? Lad Simuler mange gange og tegn histogram. Ligner det en normalfordeling? U = 4 j=1 Z j 2. Summen af 4 uafhængige bidrag? Lad Simuler mange gange og tegn histogram. Ligner det en normalfordeling? 17 / 18

Øvelse 2 (papir og blyant) Fact: X X bin(n, θ) E(X) = Nθ V (X) = Nθ(1 θ) 1. Lad være en binomialfordelt stokastisk variabel,. Så er og. X 1 bin(n 1, θ) X 2 bin(n 2, θ) X 1 X 2 Y = X 1 + X 2 bin(n 1 + N 2, θ) 2. Lad og og lad og være uafhængige. Så er Quiz: 1. Argumenter for, at X approximativt er normalfordelt for store N 2. Hvad er den approximative fordeling af? N 3. Hvad er den approximative fordeling af? θ(1 θ)/n X N X θ 18 / 18