Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Relaterede dokumenter
Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2

Teoretisk Statistik, 16. februar Generel teori,repetition

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Sandsynlighedsregning Oversigt over begreber og fordelinger

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik og Sandsynlighedsregning 2

Eksamen 2014/2015 Mål- og integralteori

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Kvantitative Metoder 1 - Forår 2007

Uge 10 Teoretisk Statistik 1. marts 2004

INSTITUT FOR MATEMATISKE FAG c

Opgaver i sandsynlighedsregning

Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen

Note om Monte Carlo metoden

Sandsynlighedsregning

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Produkt og marked - matematiske og statistiske metoder

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Betingede sandsynligheder Aase D. Madsen

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen

Susanne Ditlevsen Institut for Matematiske Fag susanne

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Integration m.h.t. mål med tæthed

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Løsning til prøveeksamen 1

Statistiske modeller

Løsning til eksamen 16/

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Sandsynlighedsregning Stokastisk variabel

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Kvantitative Metoder 1 - Efterår Dagens program

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

Tema. Dagens tema: Indfør centrale statistiske begreber.

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Transkript:

Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner kort resume fra i mandags og et par eksempler mere om sammenhængen mellem tæthed og fordelingsfunktion Middelværdi, varians og spredning integraler af funktioner med værdier i R definitioner og regneregler Paretofordelingen, med fokus på eksistens af middelværdi/varians Normalfordelingen: tæthed, middelværdi, varians SaSt (Uge 48, tirsdag) 1 / 26 Sandsynlighedstæthed og sandsynlighedsmål P er et kontinuert fordeling på I R hvis P(A) = 1 A (x)p(x)dx = I A p(x) dx for pæne delmængder A af I, hvor p er en (sandsynligheds)tæthed, dvs. p(x) 0 med I p(x)dx = 1. Fordelingsfunktion for en kontinuert fordeling P med tæthed p: F (x) = x p(y)dy, x R Hvis P er kontinuert gælder for a I og for x < y: SaSt (Uge 48, tirsdag) 2 / 26 Eksempler Eksponentialfordelingen med parameter λ > 0 { p(x) = λe λx 0, x 0 (x > 0), F (x) = 1 e λx, x > 0 Ligefordelingen på [a, b]: p(x) = 1 0 x < a x a (a x b) F (x) = b a b a, a x b 1 x > b P({a}) = 0 P([x,y]) = P((x,y]) = P([x,y)) = P((x,y)) = F (y) F (x) SaSt (Uge 48, tirsdag) 3 / 26 SaSt (Uge 48, tirsdag) 4 / 26

Eksempler Betafordelingen med parameter β > 0 (i simpel udgave): p(x) = βx β 1, 0 < x < 1 Er p overhovedet en tæthed? Og hvad er fordelingsfunktionen? Eksempel 5.1.3: X ligefordelt på [ 1, 1]. Definer og lad P være fordelingen af Y. Y = max(x,0) Hvad er P({0})? Er fordelingen af Y kontinuert? Og er fordelingsfunktionen kontinuert i 0? Fordelingsfunktionen beregnet i eksempel 5.1.3 læs selv! Kontinuert fordeling og kont. stokastisk variabel Hvis P er kontinuert med tæthed p, så: F (x) = x p(y)dy, x R Den omvendte vej: Lad F være fordelingsfunktionen for en fordeling P. Er P kontinuert? Og i givet fald, hvad er tætheden? Sætning 5.1.6 Hvis F kan skrives F (x) = x f (y)dy hvor f er ikke-negativ, så er P kontinuert med tæthed f. Sætning 5.1.7 Antag at P ( (a,b) ) = 1 og at F er kontinuert differentiabel på (a,b). Så er P kontinuert med tæthed { F p(x) = (x), x (a,b) 0, ellers Bemærk: a kan være, b kan være +. SaSt (Uge 48, tirsdag) 5 / 26 Middelværdi for SV med endeligt udfaldsrum SaSt (Uge 48, tirsdag) 6 / 26 Middelværdi for kontinuert fordeling Husk et øjeblik tilbage på tilfældet med endeligt udfaldsrum. X stokastisk variabel (SV) med udfaldsrum {a 1,...,a k } og sandsynlighedsfunktion p, dvs. P(X = a i ) = p(a i ). Husk middelværdi, varians og spredning/standardafvigelse fra s. 83 og 89: E(X ) = k i=1 a i p(a i ) ( [X ] ) 2 Var(X ) = E E(X ) = E(X 2 ) ( E(X ) ) 2 sd(x ) = Var(X ) X kontinuert stokastisk variabel med tæthed p. Kan antage at p er defineret på hele R men p er evt. 0 udenfor et interval. Definer middelværdien af X som xp(x) dx... når integralet vel at mærke er veldefineret! Bemærk at xp(x) kan være negativ, så der skal lidt mere til end hidtil! SaSt (Uge 48, tirsdag) 7 / 26 SaSt (Uge 48, tirsdag) 8 / 26

Integraler af funktioner med negative værdier Eksempler og majoranter Sidste gang: integraler af ikke-negative funktioner. Nu kan f være negativ. f : (, ) R kaldes integrabel hvis f er integrabel, dvs. hvis følgen I n konvergerer hvor I n = n n f (x) dx Hvis f er integrabel kan vi definere integralet som sidst uden problemer: n f (x)dx = lim f (x)dx n n Samme som differens mellem integral af positivdel og negativdel. Ellers skriver vi f (x) dx = + og siger at f ikke er integrabel. Eksempel D.1.5 f 1 (x) = x/(1+x 2 ) med stamfunkt. F 1 (x) = 1 2 log(1+x 2 ). Hvad er n n f 1(x)dx? Hvad er n n f 1(x) dx? Er f 1 integrabel? Eksempel D.1.6 f 2 (x) = x/(1 + x 2 ) 2 med stamfunkt. 1 F 2 (x) = 2(1 + x 2 ) Hvad er n n f 2(x)dx? Hvad er n n f 2(x) dx? Er f 2 integrabel? Følger også af sætning D.1.7. Sætning D.1.7 To funktioner f,g : I R. Hvis f (x) g(x) for alle x R og g er integrabel, så er f også integrabel. g kaldes en majorant. SaSt (Uge 48, tirsdag) 9 / 26 Middelværdi for kontinuert fordeling igen SaSt (Uge 48, tirsdag) 10 / 26 Eksempler X kontinuert stokastisk variabel med tæthed p. Kan antage at p er defineret på hele R men p er evt. 0 udenfor et interval. Vi siger at X har middelværdi hvis x p(x)dx < og definerer så middelværdien som E(X ) = xp(x)dx < Hvis x p(x)dx = siger vi at X ikke har middelværdi. Middelværdien er et gennemsnit af de mulige værdier hvor hvert punkt vægtes efter hvor meget sandsynlighed der ligger i omegnen af punktet. Hvis X er begrænset, dvs. X c for et c > 0 så har X middelværdi. X ligefordelt på [a, b]. X begrænset så middelværdien eksisterer og er lig (a + b)/2. Hvorfor er det rimeligt? Betafordelingen med parameter β. Eksisterer middelværdien? Og i givet fald, hvad er middelværdien? Eksponentialfordelingen med parameter λ. Eksisterer middelværdien? Og i givet fald, hvad er middelværdien? Husk fortolkningen som fordelingen af første ankomst: stort λ betegner intensiteten af ankomster. SaSt (Uge 48, tirsdag) 11 / 26 SaSt (Uge 48, tirsdag) 12 / 26

Middelværdi for transformeret stokastisk variabel Regneregler X kontinuert stokastisk variabel på I med tæthed p. Funktion t : I R. Transformeret stokastisk variabel Y = t(x ). Sætning 5.2.3 Y = t(x ) har middelværdi hvis og kun hvis t(x) p(x)dx < og middelværdien er så I E(Y ) = E(t(X )) = t(x)p(x) dx Kan altså beregne middelværdien af Y uden først at finde fordelingen af Y (som kan være diskret/kontinuert/ingen af delene). Sætningen bevises senere i et specialtilfælde. Hvad er E(X 2 ) hvis X er eksponentialfordelt? I Sætning 5.2.5 Hvis X har middelværdi, så har a + bx middelværdi for a,b R og E(a + bx ) = a + be(x ) Og mere generelt: Sætning 5.2.4 Hvis t 1 (X ) og t 2 (X ) har middelværdi så har Y = t 1 (X ) + t 2 (X ) også middelværdi og den er givet ved E ( t 1 (X ) + t 2 (X ) ) = E ( t 1 (X ) ) + E ( t 2 (X ) ) SaSt (Uge 48, tirsdag) 13 / 26 Varians og spredning SaSt (Uge 48, tirsdag) 14 / 26 Eksempler Vi siger at X har varians hvis x 2 p(x)dx < og definerer så variansen som ( [X ] ) 2 Var(X ) = E E(X ) Bemærkninger: x x 2 + 1 så hvis X har varians så har X middelværdi (så Var(X ) er veldefineret, heldigt nok). Var(X ) = E(X 2 ) [E(X )] 2. Næsten altid nemmere at bruge denne formel, dvs. regne E(X 2 ) ud først. Variansen måler den gennemsnitlige kvadratiske afvigelse fra middelværdien. Spredning/standardafvigelse, sd(x ) = Var(X ). Nemmere at fortolke end variansen da den er på samme skala som variablen selv. Eksponentialfordelingen med parameter λ: Ligefordelingen på [a, b]: Check selv! Var(X ) = E(X 2 ) [E(X )] 2 = 2 λ 2 1 λ 2 = 1 λ 2 Var(X ) = (b a)2 12 Betafordelingen med parameter β: Eksisterer variansen? Og i givet fald, hvad er den? SaSt (Uge 48, tirsdag) 15 / 26 SaSt (Uge 48, tirsdag) 16 / 26

Eksempel: Paretofordelingen Definer p(x) = x (+1), x > 1 Paretofordelingen med parameter > 0. Er p en sandsynlighedstæthed? For hvilke værdier af har fordelingen middelværdi? Og hvad er middelværdien? For hvilke værdier af har fordelingen varians? Og hvad er variansen? Eksempel: Paretofordelingen X er paretofordelt med parameter > 0 hvis X har tæthed p(x) = x (+1), x > 1 Er p overhovedet en sandsynlighedstæthed? n 1 [ p(x)dx = x ] n = 1 1 n 1, n så integralet 1 p(x)dx eksisterer og er lig 1. For hvilke værdier af har X middelværdi? Og hvad er så EX? ( n 1 1 n 1 ) 1 (, 1 < 0 xp(x)dx = 1 1 n 1 ), 1 > 0 1 log(n), = 1 X har middelværdi hvis og kun hvis > 1, og så er EX = /( 1). SaSt (Uge 48, tirsdag) 17 / 26 Paretofordelingen For hvilke værdier af har fordelingen varians? Og hvad er variansen? Pointer: På tilsvarende måde ses at E(X 2 ) < hvis og kun hvis > 2, og i så fald er E(X 2 ) = Dermed bliver 2 Var(X ) = E(X 2 ) (EX ) 2 = ( ) 2 2 = 1 ( 2)( 1) 2 Der findes altså fordelinger uden middelværdi og varians Eksistens af varians stærkere end eksistens af middelværdi Hvordan viser det sig at middelværdi og varians ikke eksisterer? SaSt (Uge 48, tirsdag) 18 / 26 Paretofordelingen Simulationer: træk n tilfældige tal fra paretofordelingen, og beregn empirisk middelværdi (gennemsnit) og empirisk varians, se side 99: x = 1 n n x i, s 2 = 1 i=1 n 1 n i=1 (x i x) 2 x og s 2 vil stabilisere sig omkring E(X ) og Var(X ) når n vokser hvis disse størrelser eksisterer. antal obs. x s 2 100 1.49 0.39 3.5 1000 1.42 0.38 10000 1.40 0.37 100 2988 10 8 0.5 1000 4025 10 10 10000 17040 10 12 Stabilitet omkring E(X ) = 1.4 hhv. Var(X ) = 0.37 Eksplosion! SaSt (Uge 48, tirsdag) 19 / 26 SaSt (Uge 48, tirsdag) 20 / 26

Normalfordelingen: hvad og hvorfor? Standard normalfordelingen Standardnormalfordelingen eller N(0, 1) er den kontinuerte fordeling på R med tæthed φ(x) = 1 e x2 /2, x R 2π Hvorfor er den så interessant? Mange pæne matematiske egenskaber kommer os til gode både når vi laver sandsynlighedsregning og statistik Forbavsende mange data kan beskrives vha. normalfordelingen Den centrale grænseværdisætning: summer af (næsten) hvad som helst er normalfordelt, når bare der er led nok i summen Lineære normalfordelingsmodeller: passer godt til mange data; eksakte fordelingsresultater for estimatorer, teststørrelser mm. Density (φ) 0.0 0.1 0.2 0.3 0.4 Tæthed 0.90 0.05 0.05 4 2 0 2 4 z Cdf (Φ) 0.0 0.2 0.4 0.6 0.8 1.0 Fordelingsfunktion 4 2 0 2 4 z SaSt (Uge 48, tirsdag) 21 / 26 Carl Friedriech Gauss, 1777 1855 SaSt (Uge 48, tirsdag) 22 / 26 Normalfordelingen Husk: φ(x) = 1 2π e x2 /2, x R Er φ overhovedet en tæthed? φ ikke-negativ Er φ integrabel på (, )? Er integralet lig 1? Se opgave 6.1. Momenter: E( X k ) < for alle k N idet K kan findes således at x k e x2 /2 < Ke x2 /4, x R Hvad er middelværdien, E(X )? Hvad er variansen, Var(X )? E(X 3 ) = 0 og E(X 4 ) = 3: opgave 5.12. SaSt (Uge 48, tirsdag) 23 / 26 SaSt (Uge 48, tirsdag) 24 / 26

Fordelingsfunktion Resumé Fordelingsfunktionen kaldes Φ: Φ(x) = x φ(y)dy Der findes ikke noget eksplicit udtryk for Φ. Funktionsværdier beregnes vha. computer, lommeregner eller slås op i tabeller. R: Brug funktionen pnorm. For eksempel > pnorm(1.96) [1] 0.9750021 > pnorm(0) [1] 0.5 Vigtige ting fra i dag: Sammenhæng mellem tæthed og fordelingsfunktion Middelværdi og varians, incl. eksistensproblemer Normalfordelingenen: tæthed, fordelingsfunktion, middelværdi, varians. I skal kunne regne på disse ting! På fredag: Normalfordelingenen: sammenhæng mellem N(0,1) og N(µ,σ 2 ). Tæthed for transformeret stokastisk variabel SaSt (Uge 48, tirsdag) 25 / 26 SaSt (Uge 48, tirsdag) 26 / 26