Teoretisk Statistik, 16. februar Generel teori,repetition

1 Uge 8 Teoretisk Statistik, 16. februar 2004 1. Generel teori, repetition 2. Diskret udfaldsrum punktssh. 3. Fordelingsfunktionen 4. Tæthed 5. Transformationer 6. Diskrete vs. Kontinuerte stokastiske variable 7. Middelværdi og varians Generel teori,repetition Udfaldsrum E med tilhørende sandsynlighed P, dvs. P(A) er veldefineret for (de fleste) delmængder A E. Stokastisk variabel X : E ú. Udfaldsrum for X: S = X(E) = {x x = X(e) for e E} Sandsynlighedsudsagn om X: P(X B) = P(X -1 (B)) = P({e E X(e) B}), B S eller ækvivalent hermed P(X = x) = P(B) = P({e X(e) = x B}), B S. (Eventuelt: S = E, X(e) = e)

2 Diskret udfaldsrum for X, repetition Tænk på S = {0,1,...,k} eller S = {0,1,2,...} = ù {0} Punktsandsynligheder, f(x) = P(X = x), x S Der gælder: f(x) 0, x S og f (x) = 1 Hvis S ={0,1,2,...} betyder x=0 x S f(x)=1 at k S = f(x)=f(0)+ +f(k) 1 for k. k x=0 (2) Diskret udfaldsrum for X, repetition Punktssh'erne bestemmer alle sandsynligheder om X: Fordelingsfunktion P(X B) = x B f (x), B S F(x)=P(X x) = P(X S ], x]) = f(z) x z S, z x Punktsandsynligheder kan bestemmes fra fordelingsfunktionen f(x) = P(X = x) = P(X # x) - P(X # x 1) = F(x) F(x - 1).

3 Relative hyppigheder vs. punktsandsynligheder Lad x 1,...,x n være observationer af en variabel med punktsandsynlighed f. Hvis n er stor, vil den relative hyppighed af observationer med værdi x være tæt på punktsandsynligheden P(X = x). Dette følger af Store Tals Lov (kapitel 7). Figur med relative hyppigheder vil ligne pindediagrammet. Eksempel: "Tilfældigt" tal mellem 0 og 1 E = S = [0,1]. X = tilfældigt tal mellem 0 og 1, dvs. alle tal skal have lige stor sandsynlighed for at blive trukket. Inddel f.eks. [0,1] i n lige store dele (n 0ù vilkårlig): P(X 0 [1/2-1/n, 12]) = 1/n For n 64 fås: P(X = 1/2) = 0. Tilsvarende... P(X = x) = 0, x 0 [0,1]

4 (2) Eksempel: "Tilfældigt" tal mellem 0 og 1 Punktsandsynlighederne P(X = x) er altså informationsløse. Vi må i stedet angive sandsynligheder for hele intervaller. For 0 # a # b 1: P(X 0[a,b]) = b - a = længden af intervallet Bemærk at P(X 0 [a,b]) = P(X 0]a, b[) = P(X 0]a,b]) = P(X 0 [a,b[) da P(X = a) = P(X = b) = 0. Fordelingsfunktionen Fastlægger sandsynligheder for intervaller på formen ] 4,x] F(x) = P(X 0] 4,x]) = P(X # x), x 0 ú For x 1 < x 2 har vi f.eks. P(X 0]x 1,x 2 ]) = F(x 2 ) - F(x 1 ) P(X >x) = 1 P(X # x) = 1 F(x) Faktisk kan alle ssh. om X beregnes ud fra fordelingsfunktionen.

5 Egenskaber ved fordelingsfunktionen F er ikke-aftagende F er højrekontinuert (F(x n ) F (x), hvis x n x) F(x) 6 0 hvis x 6 4 F(x) 6 1 hvis x 6 4. Desuden... P(X 0]x 1, x 2 ]) = F(x 2 ) - F(x 1 ) P(X > x) = 1 P(X # x) = 1 F(x) P(X = x) = P(X # x) P(X < x) = F (x) lim F(x ) x n x n Tæthed Hvis F er differentiabel defineres tætheden som f (x) = F' (x) og f(x) = 0 for x ó S. Egenskaber for f: = f(x) $ 0 for alle x f(x)dx= S - df(x), x S dx + f(x)dx=1.

6 (2) Tæthed Fra tæthed til fordelingsfunktionen (hvis inf S = a): Der gælder: F(x) = x f (y)dy = P(X 0]x 1,x 2 ]) = F(x 2 ) F(x 1 ) = x a f (y)dy P(X = x) = 0, da F er kontinuert. x x 2 1 f (y) dy Intuition: Sandsynligheden for at havne i et lille interval rundt om x er proportional med f(x). (3) Eksempel: Tilfældigt tal mellem 0 og 1 For 0 # a # b # 1: P(X 0 [a,b]) = b a P (X 0, x) = P([0,x]) = x, 1, x < 0 0 x 1 x > 1 0, x < 0 f(x) = F'(x) = 1, 0 x 1 0, x > 1 Den rektangulære fordeling (eller ligefordelingen) på [0,1].

7 Eksempel: Eksponentialfordelingen Udfaldsrum S = [0,4[. Intensitet 8 > 0 (konstant). Tæthed f(t) = 8e -8t, t 0 Fordelingsfunktion F(t) = λ t 0 e λs 1 ds = λ e λ λs t 0 = 1 e λt, t 0 Bruges f.eks. til beskrivelse af tiden indtil næste ankomst til en kø: P(næste kunde kommer før tid t) = 1 e - 8t. Transformationer Oprindelig variabel: X med fordeling givet ved f og F på S. Afbildning ϕ: S ú. Hvad er fordelingen af Y = ϕ(x), dvs. hvad er tætheds- /fordelingsfunktion for Y? Hvis ϕ er voksende (Tilsvarende formel for ϕ aftagende): G(y) = F(ϕ -1 (y)) g(y) = f(ϕ -1 (y))( ϕ -1 )'(y)

8 (2) Transformationer Vigtige transformationer: Y = a + bx (positions- og skalatransformation) Y = log(x) Y = F(X) er rektangulært fordelt på [0,1] Eksempler: 1 b a X er rektangulært fordelt på [a,b] Y = (X a) er rektangulært fordelt på [0,1], se nedenfor. T ~ exp (λ) bt ~ exp(λ/b). skalering af tiden, se AJKM ex. 3.5. Givet : X rekt [x 1,x 2 ]. 2 1 Nærmere om transformationer x- x1 F( x ) = x-x for x 1 x x 2. Idet X transformeres lineært ved Y= ax +b ønskes Y`s tæthedsfunktion g(y) udtrykt ved f(x). Fordelingsfunktionen for Y bliver G(y) = P( Y y) = P(aX+b y) = P(X (y-b)/a ) = ( y-b ) /a)-x1 x -x 2 1 for ax 1 +b < y < ax 2 +b

9 Ved differentiation fås da g(y) = 1/a(x 2 x 1 ) for ax 1 +b < y < ax 2 +b Indsæt x 1 = -b/a og x 2 = (1- b)/a, hvorved resultaterne i AJKM ex. 3.4 fremkommer: G(y) = y, g(y) = 1. Givet: X har fordelingsfunktion F(x), og skal transformeres med Y = F(X). Fordelingsfunktionen for Y bliver G(y) = P(Y y) = P(F(X) y) = P(X F -1 (y)) = F(F -1 ( y)) = y, hvor 0 y 1. Det medfører g(y) = 1, dvs. Y rekt [0,1]. Uge 8 Teoretisk Statistik, 16. februar 2004 1. Generel teori, repetition 2. Diskret udfaldsrum punktssh. 3. Fordelingsfunktionen 4. Tæthed 5. Transformationer 6. Diskrete vs. Kontinuerte stokastiske variable 7. Middelværdi og varians

10 Diskrete vs. kontinuerte stokastiske variable X diskret Punktsandsynlighed f: F(x) (0) x S f(x) = 1 f(x) = P(X = x) Fordelingsfunktion F: F(x) = P(X x) F(x) = z x f(z) F(x) = F(x) F(x 1) X kontinuert Tæthed f: F(x) (0) + f( x) dx=1 f(x))= P(X ] x - )/2, x+)/2]) Fordelingsfunktion F: F(x) = P(X x) P(X = x) = 0 hvis F kont. i x F(x) = + f(x) = F (x) f(x)dx Middelværdi og varians Teoretiske modstykker til gennemsnit og empirisk varians. Delvis kendt stof, så det vigtige er ikke formlerne i sig selv, men derimod at kunne forstå hvad størrelserne kan bruges til og hvornår Og hvad de ikke kan bruges til

11 Middelværdi for diskret variabel Gennemsnit som approksimation til middelværdi Der kan være problemer med eksistens, hvis udfaldsrummet ikke er endeligt. Definition: X diskret variabel med udfaldsrum S og sandsynlighedsfunktion f. Hvis x S x f(x) < så eksisterer middelværdien af X og er givet ved E[X] = x S xf(x) Middelværdi for kontinuert variabel Gennemsnit som approksimation til middelværdi Der kan være problemer med eksistens, hvis udfaldsrum ikke er begrænset. Definition: X kontinuert variabel med tæthed f. Hvis eksisterer middelværdien af X og er givet ved E[X] Altså integral i stedet for sum. = xf (x)dx + x f(x)dx < så

12 Middelværdi for transformeret stokastisk variabel Diskret/kontinuert variabel X med udfaldsrum S og punktsandsynlighed/tæthed f. Afbildning φ ú. Ny stokastisk variabel: Y = φ(x). Hvad er middelværdien af Y? Det diskrete tilfælde: Hvis S φ (x) f(x) < så har Y en middelværdi og E[Y] = S φ (x)f(x). Det kontinuerte tilfælde: Hvis så har Y en middelværdi og E[Y] = ϕ (x)f(x)dx. - ϕ (x) f(x)dx < Eksempel: kast med to mønter Kast med to mønter; X = antal krone. E[X] = 0 ¼ + 1 ½ + 2 ¼ = 1 (Kedeligt) spil: Jeg giver dig 12 kr. hvis ingen krone; ellers giver du mig 4 kr. Ny variabel: Y = min gevinst ved dette spil. Forventet gevinst E[Y] = (-12) ¼ + 4 ½ + 4 ¼ = 0 Kunne også beregnes via punktsandsynlighederne for Y.

13 Eksempel: Eksponentialfordelingen T ~ exp(λ), dvs. Så er og f(t) = λ e -λt, t 0 E[T] = I 0 4 t λe -λ dt = = 1/λ E[T 2 ] = I 0 4 t 2 λe -λt dt = = 2/λ 2 Varians Hvor langt ligger X "i middel" fra sin middelværdi? var[x] = E[(X E[X]) 2 ] = x S [ ] [ ] 2 2 (x E X ) f(x) (x E X ) f(x)dx var[x] er et teoretisk modstykke til empirisk varians: n 2 1 2 i i 1 s = (x x) var[x] n 1 = Problemer med eksistens hvis S ikke er endelig/begrænset.

14 (2) Varians X diskret variabel med udfaldsrum S og sandsynlighedsfunktion f. Hvis x S x 2 f(x) < 4 så eksisterer variansen af X: x S 2 2 2 2 var[x] = (x E[X]) f(x) = x f(x) (E[X]) = E[X ] (E[X]) x S 2 X kontinuert variabel med tæthed f. Hvis så eksisterer variansen af X: - 2 x f(x)dx < 2 2 2 2 var[x] = (x E[X]) f(x)dx = x f(x)dx (E[X]) = E[X ] (E[X]) 2 Regneregler (X diskret eller kontinuert) Middelværdi og varians for lineært transformeret variabel (a og b er konstante, reelle tal): Beregning af varians: E[a + bx] = a + be[x] var[a + bx] = b 2 var[x] var[x] = E[X 2 ] (E[X]) 2 hvor altså E[X 2 ] er lig 2 2 S xf(x)eller xf(x)dx.

15 Eksempel: Eksponentialfordelingen T ~ exp(λ). Vi så før at E[T] = 1/λ E[T 2 ] = 2(1/λ) 2 så var[t] =E[T 2 ] (E[T]) 2 = 2/λ 2 1/λ 2 = 1/λ 2. Teoretisk vs. empirisk fordeling Teoretisk fordeling af stokastisk variabel X er versus empirisk fordeling af observationer x 1,,x n. Teoretisk Sansynlighedsfunktion Tæthed Middelværdi Varians teoretiske fraktiler Empirisk Relative hyppigheder Histogram Genemsnit Empirisk varians (s 2 ) Empiriske fraktiler

16 Teoretiske fraktiler Empirisk p-fraktil (intuitivt): x p er en (empirisk) p-fraktil, hvis andelen p af observationer x 1,,x n er højst x p. Teoretisk p-fraktil (løst): x er en (teoretisk) p-fraktil, hvis P(X x p ) = p F(x p ) = p.