Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Relaterede dokumenter
Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Oversigt over nyttige fordelinger

Kvantitative Metoder 1 - Forår 2007

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Sandsynlighedsregning Oversigt over begreber og fordelinger

Kvantitative Metoder 1 - Forår 2007

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Sandsynlighedsregning

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Produkt og marked - matematiske og statistiske metoder

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Løsning til prøveeksamen 1

Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Definition. Definitioner

Kvantitative Metoder 1 - Efterår Dagens program

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Løsning til eksamen 16/

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

4 Oversigt over kapitel 4

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Kvantitative Metoder 1 - Forår 2007

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Sandsynlighedsregning 8. forelæsning Bo Friis Nielsen

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Sandsynlighedsregning 8. forelæsning Bo Friis Nielsen

INSTITUT FOR MATEMATISKE FAG c

Vejledende løsninger til opgaver i kapitel 6

Statistik og Sandsynlighedsregning 2

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen

Statistiske modeller

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

DANMARKS TEKNISKE UNIVERSITET Side?? af?? sider. Skriftlig prøve, den: 18. december 2014 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 27. maj 2019 Kursus nr : (navn) (underskrift) (bord nr)

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Hvorfor er det lige at vi skal lære det her?

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Statistik og Sandsynlighedsregning 2

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Statistik og Sandsynlighedsregning 2

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 29. maj 2015 Kursus nr : (navn) (underskrift) (bord nr)

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Produkt og marked - matematiske og statistiske metoder

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 17. december 2015 Kursus nr : (navn) (underskrift) (bord nr)

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

CIVILINGENIØREKSAMEN Side 1 af 16 sider. Skriftlig prøve, den: 28. maj 2010 Kursus nr : (navn) (underskrift) (bord nr)

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 19. december 2018 Kursus nr : (navn) (underskrift) (bord nr)

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Tema. Dagens tema: Indfør centrale statistiske begreber.

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.


DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 28. maj 2014 Kursus nr : (navn) (underskrift) (bord nr)

Kvantitative Metoder 1 - Forår Dagens program

Hvorfor er normalfordelingen så normal?

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.

Løsninger til kapitel 6

Højde af kvinder 2 / 18

Løsning til eksaminen d. 29. maj 2009

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Transkript:

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner: Afsnit 3.3 og 3.4 Varians/standardafvigelse Var(X) = E[(X E(X)) 2 ] = (x E(X)) 2 P(X = x) alle x Normalfordelingsapproksimation/den Centrale Grænseværdisætning ( P a S ) n nµ σ n b Φ(b) Φ(a) Markovs og Chebychevs uligheder for ekstreme udfald P(X a) E(X) P( X E(X) ksd(x)) 1 a k 2 Et udpluk af diskrete fordelinger P(T = i) = (1 p) i 1 p P(Y r = i) = i+r 1 r 1 1 hvis A indtræffer Indikatorfunktioner I A = 0 hvis A c indtræffer p r (1 p) i Standardafvigelse/varians Probability 0.00 0.15 Without replacement 0 20 40 60 80 White balls With replacement Definition af varians Var(X) = E[(X E(X)) 2 ] = (x E(X)) 2 P(X = x) alle x Beregningsformel for varians (vigtig) p.186 Shift and scale Var(X) = E(X 2 ) (E(X)) 2 Probability 0.00 0.15 0 20 40 60 80 White balls Sum af uafhængige variable Var(aX +b) = a 2 Var(X) Hvis X 1,...,X n er uafhængige, så Den hypergeometriske fordeling har mindre variation end binomialfordelingen. 02405 forelæsning 4 3 ( n ) Var X i = n Var(X i )

Varians af et tal trukket fra en liste Givet en liste af tal (x 1,x 2,...,x n ) Lad X være en stokastisk variabel: Et tilfældigt element af listen. E(X) = x = 1 n Var(X) = 1 n n x i n x 2 i x 2 Standardafvigelse SD(X) = Var(X) Shift and scale SD(aX + b) = a SD(X) 3 2 1 0 1 2 3 φ(x) 0.0 0.1 0.2 0.3 0.4 15.8 % Normal p.d.f. x Vendetange 02405 forelæsning 4 5 02405 forelæsning 4 6 Bestem variansen i binomialfordelingen (n, p) Først, skriv X Bin(n,p) som Spredningen i binomialfordelingen (n, p) X = X 1 + +X n hvor X i Bernoulli(p) Dernæst, variansen i en Bernoullifordeling (p): SD 0.0 0.3 p E(X i ) = p, E(X 2 i) = p, Var(X i ) = p(1 p) Kombinér: Var(X) = np(1 p) SD 1 3 5 0 20 40 60 80 100 02405 forelæsning 4 7 02405 forelæsning 4 8 n

P P P P Lad X være antallet af dage i en måned valgt tilfældigt blandt årets tolv måneder i et ikke-skudår. Det anføres at E(X) = 365 12. Spørgsmål 1 Man finder SD(X) til 1 0.71 2 0.76 3 0.81 4 0.86 5 0.91 Kvadratrodsloven Lad X i være I.I.D. (Independent and Identically Distributed). Definér summen S n = X 1 + +X n Definér gennemsnittet X n = 1 n S n. E(S n ) = ne(x i ), SD(S n ) = nsd(x i ) E( X n ) = E(X n ), SD( X n ) = 1 n SD(X n ) 02405 forelæsning 4 9 02405 forelæsning 4 10 Store tals svage lov Lad X i være I.I.D. med middelværdi µ og spredning σ. ǫ > 0 : n P( X n µ < ǫ) 1 ( X n konvergerer mod µ i sandsynlighed) 0.00 0.00 0.000 0.000 10 Average 100 Average 1000 Average 10000 Average Den centrale grænseværdisætning p.196 Lad X 1,...,X n være I.I.D. med middelværdi µ og varians σ 2. Definér S n = X 1 + +X n. For store n gælder approksimativt ( P a S ) n nµ σ n b Φ(b) Φ(a) 02405 forelæsning 4 11 02405 forelæsning 4 12

Betydning CGS er et centralt resultat i sandsynlighedsregningen og statistikken (og findes i mange varianter) Budskabet er, at stokastiske variable, der er dannet gennem en sum af mange mindre bidrag, med god tilnærmelse kan beskrives ved en normalfordeling Vi har allerede set denne sætning i anvendelse for binomialfordelingen (og Poissonfordelingen) Markovs ulighed p.174 For ikke negative stokastiske variable, kan vi angive en øvre grænse for sandsynligheder ved brug af middelværdien. P(X a) E(X) a Chebychevs ulighed p.191 Hvis vi også kender variansen kan vi skærpe denne grænse P( X E(X) ksd(x)) 1 k 2 02405 forelæsning 4 13 02405 forelæsning 4 14 Om en stokastisk variabel X, der beskriver et rumindhold, oplyses det, at den har middelværdi E(X) = 10. Spørgsmål 2 Den mindste øvre grænse for P(X 20) findes til Et udvalg af diskrete fordelinger En række grundlæggende mekanismer Se pp.475 Distribution summaries 1 1 4 2 1 2 3 3 4 ) 4 1 Φ( 20 10 20 5 En sådan grænse kan ikke bestemmes ud fra det oplyste Hvor Φ som sædvanlig betegner fordelingsfunktionen for en standardiseret normalfordelt variabel. 02405 forelæsning 4 15 02405 forelæsning 4 16

Spørgsmål 3 Hvis en række tal c i udgør en sandsynlighedsfordeling, hvad må der så gælde om c i? 1 Der er ingen specifikke krav 2 i c i = 1 3 c i kan bestemmes fra en formel som c i = n p i (1 p) n i i 4 c i 0 5 Ingen af de ovenstående er tilstrækkelige Den geometriske fordeling T : antal Bernoulli forsøg indtil første succes Middelværdi Varians P(T = i) = (1 p) i 1 p P(T > i) = (1 p) i E(T) = P(T > i) = 1 p Var(T) = 1 p 1 p, SD(T) = p 02405 forelæsning 4 17 02405 forelæsning 4 18 T r Antal forsøg indtil rte succes Negativ binomialfordeling Y r Antal fiaskoer til den r te succes i en sekvens af Bernoulliforsøg Hvor mange kameraer skal vi kassere før vi får r, der passerer kvalitetskontrollen T r = Y r +r Spørgsmål 4 Hvad er middelværdi og varians for en NB(r,p) fordeling? 1 E(Y r ) = r(1 p) p,var(y r ) = r(1 p) 2 E(Y r ) = r(1 p) p,var(y r ) = (1 p) 3 E(Y r ) = 1 p,var(y r) = r(1 p) 4 E(Y r ) = 1 p,var(y r) = (1 p) 5 E(Y r ) = r p,var(y r) = r (Har i øvrigt mange andre fortolkninger) 02405 forelæsning 4 19 02405 forelæsning 4 20

Negativ binomialfordeling udledning Antal fiaskoer før r te succes. En sekvens af Bernoulli forsøg: fffsffsfs Vi skal placere r 1 successer på i+r 1 forsøg før vores endelige succes. Derfor i+r 1 P(Y r = i) = p r 1 (1 p) i p r 1 i+r 1 = p r (1 p) i r 1 02405 forelæsning 4 21 Middelværdi og varians Y r NB(r,p) Y r = T r r T r = W 1 + +W r hvor W i er ventetiden fra den i 1te til den ite succes. W i er IID; geometrisk (p) fordelt: Lad X i være antallet af fiaskoer mellem succes i 1 og i. Vi har da Derfor: Y r = E(W i ) = 1 p r X i = E(Y r ) = r p Var(W i ) = 1 p r (W i 1) = r = r1 p p r W i r 02405 forelæsning 4 22 Var(Y r ) = r 1 p Indikatorfunktionen (p.155), p.168 Spørgsmål 5 Hvad er E(I A ) 1 0.5 2 1 3 A 4 P(A) I A = 5 Kan man ikke sige generelt 1 hvis A indtræffer 0 hvis A c indtræffer 02405 forelæsning 4 23 Hvornår kan man bruge indikatorfunktioner? Man kan bruge indikatorfunktionen når vi kan skrive en stokastisk variabel X som X = I A1 +I A2 + +I Ak - dvs. X tæller, hvor mange af hændelser A 1,...,A k, der er indtruffet. E(X) = P(A 1 )+P(A 2 )+...P(A k ) bruges når P(A i ) kan bestemmes (let), men fordelingen af X ikke kan. (F.eks. opgave 3.2.14) 02405 forelæsning 4 24

Opgave 3.3.8 Lad A 1, A 2 og A 3 være hændelser med sandsynlighederne Find E(N) N = I A1 +I A2 +I A3 P(A 1 ) = 1 5, P(A 2) = 1 4, P(A 3) = 1 3 Vi tager forventning på begge sider Lad N betegne antallet af disse hændelser, der indtræffer. Opskriv N udtrykt ved indikatorvariable Variablen I B antager værdien 1, hvis B indtræffer, ellers 0. Dermed E(N) = E(I A1 +I A2 +I A3 ) E(N) = E(I A1 )+E(I A2 )+E(I A3 ) Hvorfor? N = I A1 +I A2 +I A3 E(N) = P(A 1 )+P(A 2 )+P(A 3 ) = 47 60 02405 forelæsning 4 25 02405 forelæsning 4 26 Beregn Var(N) når A 1, A 2 og A 3 er gensidigt udelukkende A 1, A 2 og A 3 er uafhængige A 1 A 2 A 3 Var(N) når A i er gensidigt udelukkende I dette tilfælde har vi P(N > 1) = 0 P(N = 1) = P(A 1 )+P(A 2 )+P(A 3 ) = E(N) Eksperimentet er altså et Bernoullieksperiment og vi har Var(N) = p(1 p) = 47 13 = 0,170 = 0,4122 60 60 02405 forelæsning 4 27 02405 forelæsning 4 28

Var(N) når A 1, A 2 og A 3 er uafhængige Var(N) = Var(I A1 +I A2 +I A3 ) = Var(I A1 )+Var(I A3 )+Var(I A3 ) For hver A i har vi Altså Så Var(I A1 ) = 1 4 55 = 4 25 Var(I Ai ) = P(A i ) P(A c i) Var(I A2 ) = 3 16 V(N) = 2051 0,570 0.7552 3600 Var(I A3 ) = 2 9 02405 forelæsning 4 29 Beregn Var(N) når A 1 A 2 A 3 P(N = 3) = P(A 1 ) = 1 5 Vi har ved brug af differensreglen p.22 Dermed: P(N = 2) = P(A 2 \A 1 ) = P(A 2 ) P(A 1 ) = 1 20 P(N = 1) = P(A 3 \A 2 ) = P(A 3 ) P(A 2 ) = 1 12 E(N 2 ) = 9 5 + 4 20 + 1 12 = 119 60 Var(N) = E(N 2 ) (E(N)) 2 = 4931 = 1,370 = 1,1702 3600 02405 forelæsning 4 30 Beregn Var(N) når A 1, A 2 og A 3 er gensidigt udelukkende Var(N) = 0.412 2 A 1, A 2 og A 3 er uafhængige Var(N) = 0,755 2 A 1 A 2 A 3 Var(N) = 1,17 2 Kan vi forklare/forstå resultatet? Tail sum formula Hvis X kan antage værdier 0,1,... E(X) = P(X i) (En tilsvarende formel gælder for kontinuerte variable; kap. 4) Bevis: hvor X = I(A 1 )+I(A 2 )+ A i = {X i} 02405 forelæsning 4 31 02405 forelæsning 4 32

Et par nyttige sumformler N a i = 1 an+1 1 a, a 1 a i = 1 1 a, a < 1 a i i! = ea For a i 0 og b i 0 har vi: ( )( ) ( i ) a i b i = a k b i k = k=0 c i c i = 02405 forelæsning 4 33 i a k b i k k=0 Sammenhæng mellem fordelinger X Bin(n 1,p) og Y Bin(n 2,p): X +Y Bin(n 1 +n 2,p) X Pois(λ 1 ) og Y Pois(λ 2 ): X +Y Pois(λ 1 +λ 2 ) X Geom(p): X 1 NB(1,p). X NB(r 1,p) og Y NB(r 2,p): X +Y NB(r 1 +r 2,p) Bin(n,λ/n) Pois(λ) når n HyperGeom(n,N,G) Bin(n,p) når N,G mens G/N p. Summer kan generelt approksimeres med normalfordelingen 02405 forelæsning 4 34 Nye begreber i afsnit 3.3 og 3.4 Varians og standardafvigelse Markovs og Chebychevs uligheder Indikatorfunktion Den centrale grænseværdisætning (3.3) Geometrisk fordeling Negativ binomial fordeling Poisson fordeling 02405 forelæsning 4 35 Afsnit 3.3 og 3.4 Varians/standardafvigelse Var(X) = E[(X E(X)) 2 ] = (x E(X)) 2 P(X = x) alle x Normalfordelingsapproksimation/den Centrale Grænseværdisætning ( P a S ) n nµ σ n b Φ(b) Φ(a) Markovs og Chebychevs uligheder for ekstreme udfald P(X a) E(X) P( X E(X) ksd(x)) 1 a k 2 Et udpluk af diskrete fordelinger P(T = i) = (1 p) i 1 p P(T r = i) = x+r 1 r 1 1 hvis A indtræffer Indikatorfunktioner I A = 0 hvis A c indtræffer p r 1 (1 p) i p