Program Statistik og Sadsylighedsregig 2 Trasformatio af kotiuerte fordeliger på R, flerdimesioale kotiuerte fordeliger, mere om ormalfordelige Helle Sørese Uge 7, osdag I formiddag: Opfølgig på trasformatiossætige for fordeliger på R evis for sætig 5.2.3: middelværdi af t(x ). Fordelig af X 2 Trasformatio med fordeligsfuktio og ivers fordeligsfuktio Flerdimesioale kotiuerte fordeliger Itegratio i R Defiitio af tæthed, sadsylighedsmål Margialfordeliger I eftermiddag: De lidt lettere gere til gegæld står tigee ikke så eksplicit i otere. Fraktiler mm., også i R De 1.96 i kofidesiterval for biomialsadsylighed: hvorfra? Dataeksempel: daske mæds idtag af A-vitami SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 1 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 2 / 30 Trasformatiossætige Middelværdi af Y = t(x ) Atagelser: 1. X kocetreret på iterval I fra a til b, dvs. P(X I ) = 1. 2. X kotiuert med tæthed p der er kotiuert på (a,b). 3. t : I R kotiuert. Så er J = t(i ) et iterval fra v = if J til h = supj og Y = t(x ) er kocetreret på (v,h). 4. t kotiuert differetiabel med t (x) 0 for alle x (a,b). Så er t stregt mooto og desude eksisterer de iverse t 1 : J I. Sætig 5.4.1 Y = t(x ) er kotiuert med tæthed q givet ved { p(t q(y) = 1 (y))/ t (t 1 (y)) y (v,h) 0 ellers Sætig 5.2.3 Y = t(x ) har middelværdi hvis og ku hvis I t(x) p(x)dx < og middelværdie er så E(Y ) = E(t(X )) = t(x)p(x) dx I Ka bevise sætige i tilfælde hvor t opfylder atagelsere fra sætig 5.4.1: Tæthede for Y givet fra trasformatiossætige Hvorår eksisterer middelværdie for Y? Omskriv betigelse til betigelse om X N. d dy t 1 (y) = 1/t (t 1 (y)), så q(y) = p(t 1 (y)) d dy t 1 (y) på (v,h) SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 3 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 4 / 30
Fordelig af X 2 Trasformatio med fordeligsfuktio X kotiuert SV med værdier i hele R og kotiuert tæthed p. Hvad er tæthede for Z = X 2 (og hvorfor er Z e kotiuert SV?) Ka ikke umiddelbart bruge trasformatiossætige med t(x) = x 2. Hvorfor? ruger i stedet samme fremgagsmåde som sidst: Reg på fordeligsfuktioe for Z Argumetér for at F Z er kotiuert differetiabel på (0, ) rug sætig 5.1.6 og slut at Z er kotiuert med tæthed F Z Reg på F Z. Specielt: Hvis X N(0,1) så er Z = X 2 χ 2 -fordelt med e frihedsgrad: q(z) = 1 2πz e z/2, z > 0 X kotiuert SV kocetreret på iterval fra a til b med stregt voksede fordeligsfuktio F på (a, b). Se på Y = F (X ). Hvilke værdier ka Y atage? Hvad er fordeligsfuktioe for Y Hvad er fordelige af Y? Avedelse: Data x 1,...,x fra formodet fordelig med fordeligsfukt. F : ereg y i = F (x i ) Lav histogram for y 1,...,y og se om det liger histogrammet for e ligefordelig. Eksempel: A-vitamidata (i eftermiddag) SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 5 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 6 / 30 Trasformatio med ivers fordeligsfuktio Repetitio: tæthed og sadsylighedsmål på R Omvedt: Hvis R er ligefordelt, så har Z = F 1 (R) fordeligsfuktio F. F skal stadig være stregt voksede såda at F 1 eksisterer. Avedelse: simulatio af tal fra med givet fordeligsfuktio. Eksempel: Prøv evt. i R: r = ruif(10000) hist(r) x=qorm(r) hist(x) Φ 1 (R) N(0,1) Iterval I R. E fuktio p : I R kaldes e tæthed på I hvis p(x) 0 for alle x I og I p(x)dx = 1 Sadsylighedsmål på I: For pæe delmægder A af I sættes P(A) = 1 A (x)p(x)dx = p(x) dx I A P er e kotiuert fordelig, og P har (sadsyligheds)tæthed p. Fortolkig af p(x) som sadsylighed per lægdeehed omkrig x: x0 +h P([x 0,x 0 + h]) = p(x)dx p(x 0 )h x 0 Ka udvide til R ved at sætte p til 0 udefor I. Stokastisk variabel med fordelig P: P(X A) = 1 A(x)p(x)dx, SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 7 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 8 / 30
Sadsylighedstæthed og sadsylighedsmål på R Sadsylighedstæthed og sadsylighedsmål på R 2 Skal getage historie på R. emærk: Hvorfor? Skal kue beskrive fordelige af flere variable samtidig Skal kue itegrere fuktioer af flere variable Nyt spørgsmål: hvis vi ved hvorda (X,Y ) er fordelt, hvorda er så X fordelt? Og Y? Margialfordeliger. Nyt spørgsmål: Er der oge sammehæg mellem X og Y? Eksempel: ligefordelige på [0, 1] [0, 1] Delmægde R 2. Fuktioe p : [0, ) er e tæthed eller sadsylighedstæthed på hvis p(x,y)dx dy = 1 Sadsylighedsmål på : For pæe delmægder A af sættes P(A) = 1 A (x,y)p(x,y)dx dy P kaldes e kotiuert fordelig, og P har tæthed p. Ka udvides til fordelig på hele R 2 ved at defiere p til ul udefor. Stok. var. med fordelig P: P((X,Y ) A) = R 2 1 A(x,y)p(x,y)dx dy... me hvad betyder itegralere? SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 9 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 10 / 30 Sadsylighedstæthed og sadsylighedsmål på R Itegratio i R 2 og R Delmægde R. Fuktioe p : [0, ) er e tæthed eller sadsylighedstæthed på hvis p(x 1,...,x )dx 1 dx = 1 Sadsylighedsmål på : For pæe delmægder A af sættes P(A) = 1 A (x 1,...,x )p(x 1,...,x )dx 1 dx = P kaldes e kotiuert fordelig, og P har tæthed p. Ka udvides til fordelig på hele R ved at defiere p til ul udefor. Stokastisk variabel med fordelig P: P((X 1,...,X ) A) = R 1 A(x 1,...,x )p(x 1,...,x )dx 1 dx... me hvad betyder itegralere? 1. f : A R hvor f er kotiuert og A = [a 1,a 2 ] [b 1,b 2 ] er begræset. Itegralet af f over A defieres som græse af I = i=1 j=1 f (x i,x j ) (a 2 a 1 )(b 2 b 1 ) svarede til iddeliger af [a 1,a 2 ] og [b 1,b 2 ] i dele. Itegralet ka bereges som dobbeltitegral: a2 ( b2 ) f (x,y)dx dy = f (x,y)dy dx = A a 1 Hvorfor giver dette meig? b 1 b2 b 1 ( a2 a 1 ) f (x,y)dx dy SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 11 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 12 / 30
Itegratio i R 2 og R Itegratio i R 2 og R 2. f : R 2 [0, ) kotiuert hvor f altså er defieret på e ubegræset mægde. Vi ser på de begræsede mægder A = [,] [,] og de tilhørede itegraler I = f (x,y)dx dy = f (x,y)dx dy A Hvis I kovergerer siger vi at f er itegrabel og defierer f (x,y)dx dy = lim I R2 3. f : R 2 R hvor f altså er defieret på e ubegræset mægde og ka have egative værdier. f kaldes itegrabel hvis f er itegrabel, og i så fald er f (x,y)dx dy = R2 4. f : R R hvor f altså er defieret på R. f (x,y)dy dx = f (x,y)dx dy f kaldes itegrabel hvis f er itegrabel, og i så fald er R f (x 1,...,x )dx 1 dx =... eller i e ade itegratiosrækkefølge. f (x 1,...,x )dx dx 1 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 13 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 14 / 30 Tæthed og sadsylighedsmål på R 2 og R Tæthed som sadsylighed per areal-/volumeehed Nu skulle defiitioere på tæthed og sadsylighedsmål gere give meig... Eksempel (ispireret af eksempel D.2.1): = [0,1] [0,1] og p(x,y) = 3mi(x,y), (x,y) Er p e tæthed på? Sæt A = {(x,y) y x}?. Hvad er P(A) p tæthed på R 2. Se på (x 0,y 0 ) og atag at p er kotiuert i (x 0,y 0 ). etragt et lille δ og mægde A = [x 0 + δ,y 0 + δ]. Så er P(A) = 1 A (x,y)p(x,y)dx dy p(x 0,y 0 )δ 2 = p(x 0,y 0 ) A således at p(x 0,y 0 ) ka fortolkes som sadsylighed per arealehed ær (x 0,y 0 ). Tilsvarede i R : p(x 1,...,x ) er sadsylighed per volumeehed ær puktet (x 1,...,x ). SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 15 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 16 / 30
Margialfordeliger Margialfordeliger Atag at de todimesioale stokastiske variabel (X,Y ) har tæthed p på R 2. For à R 2 er altså P ( (X,Y ) à ) = (x,y)p(x,y)dx dy = 1Ã(x,y)dy dx R 2 1 à Hvad ka vi sige om margialfordeligere, dvs. fordelige af X og fordelige af Y? R R X er e kotiuert stokastisk variabel med tæthed q(x) = p(x,y)dy Fider altså tæthede for X ved at itegerere y ud i tæthede. Tilsvarede i R : Hvis (X 1,...,X ) har tæthed p, så er (X 1,...,X k ) også kotiuert med tæthed der fås ved at itegrere de øvrige koordiater væk: q(x 1,...,x k ) = p(x 1,...,x )dx k+1 dx R k Eksempel (fortsat): Hvis (X,Y ) har tæthed R p(x,y) = 3mi(x,y), (x,y) på = [0,1] [0,1], hvad er så fordelige af X? SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 17 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 18 / 30 Mere om ormalfordelige Normalfordelige med middelværdi µ og varias σ 2 Diverse om ormalfordelige: Tæthede for forskelligt valg af µ og σ 2. Fraktiler i ormalfordelige. Fordeligsfuktio og fraktiler i R. X biomialfordelt med atalsparameter og sadsylighedspar. p. Estimator for p er ˆp = X. (Approksimativt) 95%-kofidesiterval for p: ˆp(1 ˆp) ˆp ± 1.96 Hvor kommer de 1.96 fra? Eksempel hvor ormalfordelige er yttig selvom data overhovedet ikke er ormalfordelt Desity f(y) 0.0 0.2 0.4 0.6 0.8 N( 2,0.25) N(0,1) N(2,1) N(0,4) 6 4 2 0 2 4 6 y SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 19 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 20 / 30
Eksempel: idtag af A-vitami Eksempel: idtag af A-vitami A-vitamiidtaget for 1079 daske mæd. Idlæst i R som variabel avit (tæk ikke på hvorda lige u...) Histogram for avit Histogram of avit Histogram of logavit Histogram for logavit defieret som logaritme til avit logavit ser ud til at være ormalfordelt! Empirisk middelværdi (geemsit), varias og spredig for logavit: Modelkotrol: ȳ = 7.485, s 2 = 0.192, s = 0.192 Normeret histogram samme med tæthed for N(7.485, 0.192). Er det e rimelig approksimatio? Prøv også at trasformatio med fordeligsfuktio for N(7.485, 0.192). Ligefordelt? Desity 0e+00 2e 04 4e 04 0 2000 4000 6000 8000 avit Desity 0.0 0.2 0.4 0.6 0.8 5 6 7 8 9 logavit SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 21 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 22 / 30 Eksempel: idtag af A-vitami Diverse R-kommadoer Histogram of tras ### Normeret så samlet areal er 1, cirka 15 itervaller hist(logavit, class=15, prob=t) Frequecy 0 20 40 60 80 100 120 ### Middelværdi og spredig for logavit ey = mea(logavit) sdy = sd(logavit) ### Normalfordeligstæthed ovei: z = seq(5,9,0.1) ## x-værdier des = dorm(z,ey,sdy) ## tæthede poits(z,des, type="l") ## teg ovei 0.0 0.2 0.4 0.6 0.8 1.0 tras ### Trasformatio til formodet ligefordelig: tras = porm((logavit-ey)/sdy) hist(tras) SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 23 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 24 / 30
Fraktiler i stadardormalfordelige Fraktiler i stadardormalfordelige Desity (φ) 0.0 0.1 0.2 0.3 0.4 0.90 0.05 0.05 4 2 0 2 4 z Cdf (Φ) 0.0 0.2 0.4 0.6 0.8 1.0 P( 1.645 X 1.645) = 0.90 eller P(X 1.645) = 0.95 1.64 er 95%-fraktile i N(0,1). Opgave 5.18, uge 8 4 2 0 2 4 z > porm(1.645) [1] 0.950015 > qorm(0.95) [1] 1.644854 > qorm(0.975) [1] 1.959964 > porm(1.96) [1] 0.9750021 > qorm(0.995) [1] 2.575829 > porm(2.576) [1] 0.9950025 P(X 1.645) = 0.95 P( 1.645 X 1.645) = 0.90 P(X 1.96) = 0.975 P( 1.96 X 1.96) = 0.95 P(X 2.576) = 0.995 P( 2.576 X 2.576) = 0.99 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 25 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 26 / 30 Sadsyligheder i ormalfordelige Opgave Desity Hvis Y N(µ,σ 2 ): 99.7% 95% 68% σ P(µ 1 σ Y µ + 1 σ) = 0.68 P(µ 2 σ Y µ + 2 σ) = 0.95 Desity f(y) 0.0 0.2 0.4 0.6 0.8 N( 2,0.25) N(0,1) N(2,1) N(0,4) 6 4 2 0 2 4 6 y Desity 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 Desity 0.000 0.005 0.010 0.015 0.020 0.025 Desity 0.00 0.05 0.10 0.15 7 8 9 10 11 12 13 0 20 40 60 80 100 Hvad er middelværdi og varias mo for oveståede data? 0 2 4 6 8 10 12 P(µ 3 σ Y µ + 3 σ) = 0.997 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 27 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 28 / 30
Kofidesiterval for p i biomialfordelige Resume ˆp = X / er approksimativt ormalf. med middelv. p og varias p(1 p)/. Derfor er ( ) p(1 p) p(1 p) P p 1.96 ˆp p + 1.96 0.95 Isolér p og idsæt estimatet ˆp i stedet for p i græsere: ( p(1 p) 0.95 P ˆp 1.96 p p + 1.96 P ( ˆp(1 ˆp) ˆp 1.96 p ˆp + 1.96 ) p(1 p) ˆp(1 ˆp) ) Vigtige tig fra i dag: Flerdimesioale fordeliger: tæthed, margialfordeliger Større tryghed med ormalfordelige Næste uge: Mere om flerdimesioale fordeliger uafhægighed trasformatio middelværdi, varias, kovarias, korrelatio Husk at dette er et udsag om ˆp! SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 29 / 30 SaSt2 (Uge 7, osdag) Trasf., ormalf., flerdim. 30 / 30