Statistik og Sandsynlighedsregning 2 Transformation af kontinuerte fordelinger på R, flerdimensionale kontinuerte fordelinger, mere om normalfordelingen Helle Sørensen Uge 7, onsdag SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 1 / 30
Program I formiddag: Opfølgning på transformationssætningen for fordelinger på R Bevis for sætning 5.2.3: middelværdi af t(x ). Fordeling af X 2 Transformation med fordelingsfunktion og invers fordelingsfunktion Flerdimensionale kontinuerte fordelinger Integration i R n Definition af tæthed, sandsynlighedsmål Marginalfordelinger I eftermiddag: Den lidt lettere genre til gengæld står tingene ikke så eksplicit i noterne. Fraktiler mm., også i R De 1.96 i konfidensinterval for binomialsandsynlighed: hvorfra? Dataeksempel: danske mænds indtag af A-vitamin SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 2 / 30
Transformationssætningen Antagelser: 1. X koncentreret på interval I fra a til b, dvs. P(X I ) = 1. 2. X kontinuert med tæthed p der er kontinuert på (a,b). 3. t : I R kontinuert. Så er J = t(i ) et interval fra v = inf J til h = supj og Y = t(x ) er koncentreret på (v,h). 4. t kontinuert differentiabel med t (x) 0 for alle x (a,b). Så er t strengt monoton og desuden eksisterer den inverse t 1 : J I. Sætning 5.4.1 Y = t(x ) er kontinuert med tæthed q givet ved { p(t q(y) = 1 (y))/ t (t 1 (y)) y (v,h) 0 ellers NB. d dy t 1 (y) = 1/t (t 1 (y)), så q(y) = p(t 1 (y)) d dy t 1 (y) på (v,h) SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 3 / 30
Middelværdi af Y = t(x ) Sætning 5.2.3 Y = t(x ) har middelværdi hvis og kun hvis t(x) p(x)dx < og middelværdien er så I E(Y ) = E(t(X )) = t(x)p(x) dx I Kan bevise sætningen i tilfælde hvor t opfylder antagelserne fra sætning 5.4.1: Tætheden for Y givet fra transformationssætningen Hvornår eksisterer middelværdien for Y? Omskriv betingelsen til betingelse om X SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 4 / 30
Fordeling af X 2 X kontinuert SV med værdier i hele R og kontinuert tæthed p. Hvad er tætheden for Z = X 2 (og hvorfor er Z en kontinuert SV?) Kan ikke umiddelbart bruge transformationssætningen med t(x) = x 2. Hvorfor? Bruger i stedet samme fremgangsmåde som sidst: Regn på fordelingsfunktionen for Z Argumentér for at F Z er kontinuert differentiabel på (0, ) Brug sætning 5.1.6 og slut at Z er kontinuert med tæthed F Z Regn på F Z. Specielt: Hvis X N(0,1) så er Z = X 2 χ 2 -fordelt med en frihedsgrad: q(z) = 1 2πz e z/2, z > 0 SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 5 / 30
Transformation med fordelingsfunktion X kontinuert SV koncentreret på interval fra a til b med strengt voksende fordelingsfunktion F på (a, b). Se på Y = F (X ). Hvilke værdier kan Y antage? Hvad er fordelingsfunktionen for Y Hvad er fordelingen af Y? Anvendelse: Data x 1,...,x n fra formodet fordeling med fordelingsfunkt. F : Beregn y i = F (x i ) Lav histogram for y 1,...,y n og se om det ligner histogrammet for en ligefordeling. Eksempel: A-vitamindata (i eftermiddag) SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 6 / 30
Transformation med invers fordelingsfunktion Omvendt: Hvis R er ligefordelt, så har Z = F 1 (R) fordelingsfunktion F. F skal stadig være strengt voksende sådan at F 1 eksisterer. Anvendelse: simulation af tal fra med givet fordelingsfunktion. Eksempel: Prøv evt. i R: r = runif(10000) hist(r) x=qnorm(r) hist(x) Φ 1 (R) N(0,1) SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 7 / 30
Repetition: tæthed og sandsynlighedsmål på R Interval I R. En funktion p : I R kaldes en tæthed på I hvis p(x) 0 for alle x I og I p(x)dx = 1 Sandsynlighedsmål på I: For pæne delmængder A af I sættes P(A) = 1 A (x)p(x)dx = p(x) dx I A P er en kontinuert fordeling, og P har (sandsynligheds)tæthed p. Fortolkning af p(x) som sandsynlighed per længdeenhed omkring x: x0 +h P([x 0,x 0 + h]) = p(x)dx p(x 0 )h x 0 Kan udvide til R ved at sætte p til 0 udenfor I. Stokastisk variabel med fordeling P: P(X A) = 1 A(x)p(x)dx, SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 8 / 30
Sandsynlighedstæthed og sandsynlighedsmål på R n Skal gentage historien på R n. Bemærk: Hvorfor? Skal kunne beskrive fordelingen af flere variable samtidig Skal kunne integrere funktioner af flere variable Nyt spørgsmål: hvis vi ved hvordan (X,Y ) er fordelt, hvordan er så X fordelt? Og Y? Marginalfordelinger. Nyt spørgsmål: Er der nogen sammenhæng mellem X og Y? Eksempel: ligefordelingen på [0, 1] [0, 1] SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 9 / 30
Sandsynlighedstæthed og sandsynlighedsmål på R 2 Delmængde B R 2. Funktionen p : B [0, ) er en tæthed eller sandsynlighedstæthed på B hvis p(x,y)dx dy = 1 B Sandsynlighedsmål på B: For pæne delmængder A af B sættes P(A) = 1 A (x,y)p(x,y)dx dy B P kaldes en kontinuert fordeling, og P har tæthed p. Kan udvides til fordeling på hele R 2 ved at definere p til nul udenfor B. Stok. var. med fordeling P: P((X,Y ) A) = R 2 1 A(x,y)p(x,y)dx dy... men hvad betyder integralerne? SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 10 / 30
Sandsynlighedstæthed og sandsynlighedsmål på R n Delmængde B R n. Funktionen p : B [0, ) er en tæthed eller sandsynlighedstæthed på B hvis p(x 1,...,x n )dx 1 dx n = 1 B Sandsynlighedsmål på B: For pæne delmængder A af B sættes P(A) = 1 A (x 1,...,x n )p(x 1,...,x n )dx 1 dx n = B P kaldes en kontinuert fordeling, og P har tæthed p. Kan udvides til fordeling på hele R n ved at definere p til nul udenfor B. Stokastisk variabel med fordeling P: P((X 1,...,X n ) A) = R n 1 A(x 1,...,x n )p(x 1,...,x n )dx 1 dx n... men hvad betyder integralerne? SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 11 / 30
Integration i R 2 og R n 1. f : A R hvor f er kontinuert og A = [a 1,a 2 ] [b 1,b 2 ] er begrænset. Integralet af f over A defineres som grænsen af I n = n n i=1 j=1 f (x i,x j ) (a 2 a 1 )(b 2 b 1 ) n svarende til inddelinger af [a 1,a 2 ] og [b 1,b 2 ] i n dele. Integralet kan beregnes som dobbeltintegral: a2 ( b2 ) f (x,y)dx dy = f (x,y)dy dx = A a 1 b 1 Hvorfor giver dette mening? b2 b 1 ( a2 a 1 ) f (x,y)dx dy SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 12 / 30
Integration i R 2 og R n 2. f : R 2 [0, ) kontinuert hvor f altså er defineret på en ubegrænset mængde. Vi ser på de begrænsede mængder A n = [ n,n] [ n,n] og de tilhørende integraler n n I n = f (x,y)dx dy = f (x,y)dx dy A n n n Hvis I n konvergerer siger vi at f er integrabel og definerer f (x,y)dx dy = lim I n R 2 n SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 13 / 30
Integration i R 2 og R n 3. f : R 2 R hvor f altså er defineret på en ubegrænset mængde og kan have negative værdier. f kaldes integrabel hvis f er integrabel, og i så fald er R 2 f (x,y)dx dy = 4. f : R n R hvor f altså er defineret på R n. f (x,y)dy dx = f (x,y)dx dy f kaldes integrabel hvis f er integrabel, og i så fald er R n f (x 1,...,x n )dx 1 dx n =... eller i en anden integrationsrækkefølge. f (x 1,...,x n )dx n dx 1 SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 14 / 30
Tæthed og sandsynlighedsmål på R 2 og R n Nu skulle definitionerne på tæthed og sandsynlighedsmål gerne give mening... Eksempel (inspireret af eksempel D.2.1): B = [0,1] [0,1] og p(x,y) = 3min(x,y), (x,y) B Er p en tæthed på B? Sæt A = {(x,y) B y x}?. Hvad er P(A) SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 15 / 30
Tæthed som sandsynlighed per areal-/volumenenhed p tæthed på B R 2. Se på (x 0,y 0 ) B og antag at p er kontinuert i (x 0,y 0 ). Betragt et lille δ og mængden A = [x 0 + δ,y 0 + δ]. Så er P(A) = 1 A (x,y)p(x,y)dx dy p(x 0,y 0 )δ 2 = p(x 0,y 0 ) A B således at p(x 0,y 0 ) kan fortolkes som sandsynlighed per arealenhed nær (x 0,y 0 ). Tilsvarende i R n : p(x 1,...,x n ) er sandsynlighed per volumenenhed nær punktet (x 1,...,x n ). SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 16 / 30
Marginalfordelinger Antag at den todimensionale stokastiske variabel (X,Y ) har tæthed p på R 2. For à R2 er altså P ( (X,Y ) Ã) = 1Ã(x,y)p(x,y)dx dy = 1Ã(x,y)dy dx R 2 R R Hvad kan vi sige om marginalfordelingerne, dvs. fordelingen af X og fordelingen af Y? SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 17 / 30
Marginalfordelinger X er en kontinuert stokastisk variabel med tæthed q(x) = p(x,y)dy Finder altså tætheden for X ved at integerere y ud i tætheden. R Tilsvarende i R n : Hvis (X 1,...,X n ) har tæthed p, så er (X 1,...,X k ) også kontinuert med tæthed der fås ved at integrere de øvrige koordinater væk: q(x 1,...,x k ) = p(x 1,...,x n )dx k+1 dx n R n k Eksempel (fortsat): Hvis (X,Y ) har tæthed p(x,y) = 3min(x,y), (x,y) på B = [0,1] [0,1], hvad er så fordelingen af X? SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 18 / 30
Mere om normalfordelingen Diverse om normalfordelingen: Tætheden for forskelligt valg af µ og σ 2. Fraktiler i normalfordelingen. Fordelingsfunktion og fraktiler i R. X binomialfordelt med antalsparameter n og sandsynlighedspar. p. Estimator for p er ˆp = X n. (Approksimativt) 95%-konfidensinterval for p: ˆp(1 ˆp) ˆp ± 1.96 n Hvor kommer de 1.96 fra? Eksempel hvor normalfordelingen er nyttig selvom data overhovedet ikke er normalfordelt SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 19 / 30
Normalfordelingen med middelværdi µ og varians σ 2 Density f(y) 0.0 0.2 0.4 0.6 0.8 N( 2,0.25) N(0,1) N(2,1) N(0,4) 6 4 2 0 2 4 6 y SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 20 / 30
Eksempel: indtag af A-vitamin A-vitaminindtaget for 1079 danske mænd. Indlæst i R som variabel avit (tænk ikke på hvordan lige nu...) Histogram for avit Histogram for logavit defineret som logaritmen til avit logavit ser ud til at være normalfordelt! Empirisk middelværdi (gennemsnit), varians og spredning for logavit: Modelkontrol: ȳ = 7.485, s 2 = 0.192, s = 0.192 Normeret histogram sammen med tæthed for N(7.485, 0.192). Er det en rimelig approksimation? Prøv også at transformation med fordelingsfunktion for N(7.485, 0.192). Ligefordelt? SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 21 / 30
Eksempel: indtag af A-vitamin Histogram of avit Histogram of logavit Density 0e+00 2e 04 4e 04 0 2000 4000 6000 8000 avit Density 0.0 0.2 0.4 0.6 0.8 5 6 7 8 9 logavit SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 22 / 30
Eksempel: indtag af A-vitamin Histogram of trans Frequency 0 20 40 60 80 100 120 0.0 0.2 0.4 0.6 0.8 1.0 trans SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 23 / 30
Diverse R-kommandoer ### Normeret så samlet areal er 1, cirka 15 intervaller hist(logavit, nclass=15, prob=t) ### Middelværdi og spredning for logavit ey = mean(logavit) sdy = sd(logavit) ### Normalfordelingstæthed oveni: z = seq(5,9,0.1) ## x-værdier dens = dnorm(z,ey,sdy) ## tætheden points(z,dens, type="l") ## tegn oveni ### Transformation til formodet ligefordeling: trans = pnorm((logavit-ey)/sdy) hist(trans) SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 24 / 30
Fraktiler i standardnormalfordelingen Density (φ) 0.0 0.1 0.2 0.3 0.4 0.90 0.05 0.05 4 2 0 2 4 z Cdf (Φ) 0.0 0.2 0.4 0.6 0.8 1.0 4 2 0 2 4 z P( 1.645 X 1.645) = 0.90 eller P(X 1.645) = 0.95 1.64 er 95%-fraktilen i N(0,1). Opgave 5.18, uge 8 SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 25 / 30
Fraktiler i standardnormalfordelingen > pnorm(1.645) [1] 0.950015 > qnorm(0.95) [1] 1.644854 > qnorm(0.975) [1] 1.959964 > pnorm(1.96) [1] 0.9750021 > qnorm(0.995) [1] 2.575829 > pnorm(2.576) [1] 0.9950025 P(X 1.645) = 0.95 P( 1.645 X 1.645) = 0.90 P(X 1.96) = 0.975 P( 1.96 X 1.96) = 0.95 P(X 2.576) = 0.995 P( 2.576 X 2.576) = 0.99 SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 26 / 30
Sandsynligheder i normalfordelingen Density Hvis Y N(µ,σ 2 ): 99.7% 95% 68% σ P(µ 1 σ Y µ + 1 σ) = 0.68 P(µ 2 σ Y µ + 2 σ) = 0.95 P(µ 3 σ Y µ + 3 σ) = 0.997 Density f(y) 0.0 0.2 0.4 0.6 0.8 N( 2,0.25) N(0,1) N(2,1) N(0,4) 6 4 2 0 2 4 6 y SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 27 / 30
Opgave Density 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 7 8 9 10 11 12 13 Density 0.000 0.005 0.010 0.015 0.020 0.025 0 20 40 60 80 100 Density 0.00 0.05 0.10 0.15 0 2 4 6 8 10 12 Hvad er middelværdi og varians mon for ovenstående data? SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 28 / 30
Konfidensinterval for p i binomialfordelingen ˆp = X /n er approksimativt normalf. med middelv. p og varians p(1 p)/n. Derfor er ( ) p(1 p) p(1 p) P p 1.96 ˆp p + 1.96 0.95 n n Isolér p og indsæt estimatet ˆp i stedet for p i grænserne: ( p(1 p) 0.95 P ˆp 1.96 n p p + 1.96 ( ˆp(1 ˆp) P ˆp 1.96 n p ˆp + 1.96 Husk at dette er et udsagn om ˆp! p(1 p) n ˆp(1 ˆp) n ) ) SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 29 / 30
Resume Vigtige ting fra i dag: Flerdimensionale fordelinger: tæthed, marginalfordelinger Større tryghed med normalfordelingen Næste uge: Mere om flerdimensionale fordelinger uafhængighed transformation middelværdi, varians, kovarians, korrelation SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 30 / 30