Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1

Empiriske analoger Betragt en stikprøve af størrelse n x 1,...,x n Stikprøven kan bestå af observationer af enten kontinuerte eller diskrete stokastiske variable. Antag fordelingen, som stikprøven stammer fra, er kendt. 2

Empirisk vs. teoretisk middelværdi og varians Middelværdien, E X, er et teoretiske modstykke til den empirisk middelværdi: X = 1 n x i EX n i=1 Variansen, Var X, er et teoretisk modstykke til empirisk varians: s 2 = 1 n (x i x) 2 VarX n 1 i=1 3

Fra sidste gang: Simulation af ligefordelingen Simulation af n observationer af en stok. var. X, der er ligefordelt på [0,1], x 1,...,x n. Teoretisk: E(X) = 1/2 var(x) = 1/12 = 0.08333 x = 0.653 s 2 = 0.053 for en sim. med n=20 x = 0.523 s 2 = 0.093 for en sim. med n=50 x = 0.522 s 2 = 0.099 for en sim. med n=100 x = 0.529 s 2 = 0.081 for en sim. med n=1000 x = 0.501 s 2 = 0.083 for en sim. med n=10000 4

Relative hyppigheder vs. punktsandsynligheder Lad x 1,...,x n være observationer af en variabel med punktsandsynlighed f. Hvis n er stor vil den relative hyppighed af observationer med værdi x være tæt på punktsandsynligheden P(X = x). Dette følger af Store Tals Lov for hyppigheder (kapitel 7). Figur med relative hyppigheder vil ligne pindediagrammet... 5

Relative hyppigheder vs. punktsandsynligheder (2) Eksempel: Lad X bin(n, p) og lad x 1,...,x n være observerede værdier af X. X bin(2,1/3), hhv. n = 10,100,1000 simulerede observationer X bin(10, 1/2), hhv. n = 10, 100, 1000 simulerede observationer 6

Relative hyppigheder/histogram vs. Tæthed Lad x 1,...,x n være observationer af en kontinuert stokastisk variabel med tæthed f. Hvis n er stor vil den relative hyppighed af observationer med værdi i intervallet [x,x + ] være tæt på tætheden i punktet x, f (x). Dette følger af Store Tals Lov for hyppigheder (kapitel 7). Histogram vil ligne tætheden... (jv.f. p. 84 i AJKM). 7

Teoretiske versus empiriske fraktiler Empirisk p-fraktil (intuitivt): x er en (empirisk) p-fraktil hvis andelen p af observationer x 1,...,x n er højst x. Teoretisk p-fraktil (løst): x er en (teoretisk) p-fraktil hvis P(X x) = p, dvs. hvis F(x) = p. Dvs. for kontinuerte fordelinger vil fraktildiagrammet ligne fordelingsfunktion når antallet observationer, n, er stor. For diskret fordelinger gælder nogenlunde det samme. Dog med forbehold for at fordelingsfunktionen er en trappefunktion. 8

Teoretisk vs. empirisk fordeling Teoretiske fordeling af stokakastisk variabel X versus empirisk fordeling af observationer x 1,...,x n. Teoretisk Empirisk Sandsynlighedsfunktion Relative hyppigheder Tæthed Histogram Middelværdi Gennemsnit Varians Empirisk varians(s 2 ) Teoretiske fraktiler Empiriske fraktiler 9

Fordelingsfunktionen: Eksempel: Ligefordelingen P(X x) = { 0, x < 0 P([0,x]) = x, 0 x 1 1, x > 1 Lad x 1,...,x n være observationer af X. n = 10 observationer n = 100 observationer n = 1000 observationer 10

Eksempel: Eksponentialfordelingen Der gælder, at transformationen Y = F(X) er rektangulært fordelt på [0, 1]. Vi skal bruge dette til at simulere observationer fra eksponentialfordelingen ud fra ligefordelingen. Simuler n ligefordelte tal, y 1,...,y n Transformer disse med F 1 (y) Da haves n obs. fra en fordeling med fordelingsfunktion F 11

Eksempel: Eksponentialfordelingen (2) Bevis for Y = F(X) R[0,1]: G(y) = P(Y y) = P(F(X) y) = P(X F 1 (y)) = F ( F 1 (y) ) = y Generer n ligefordelte tal, y 1,...,y n Transformer disse med F 1 (y) = 1 λ log(1 y) F 1 (y 1 ),...,F 1 (y n ) er da n obs. fra en eksponentialfordeling 12

Eksempel: Eksponentialfordelingen (3) Bevis for F 1 (y) = 1 λ log(1 y): y i = F(t i ) = 1 exp( λt i ) 1 y i = exp( λt i ) log(1 y i ) = λt i t i = 1 λ log(1 y i) 13

Eksempel: Eksponentialfordelingen (4) Teoretisk: T exp(0.2) F(t) = 1 e λt = 1 e 0.2t, t 0 E(T ) = 1 λ = 5 Var(T ) = 1 λ 2 = 25 Simulation af n onservationer fra T exp(0.2) n = 100, t = s 2 = n = 1000, t = s 2 = 14

Teoretisk Statistik, marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 15

Normalfordelingen Lad µ R og σ 2 R + være kendte tal. Man kan vise at e (x µ)2 /(2σ 2) dx = 2πσ 2 så er tæthed for en fordeling på R. f (x) = 1 ( ) (x µ) 2 exp 2πσ 2 2σ 2 Hvis X har denne tæthed siges, at X er normalfordelt med parametre µ og σ 2 (Se ppt for eksempler) 16

Den normerede normalfordeling For µ = 0 og σ 2 = 1 kaldes tætheden ϕ (se ppt): ϕ(u) = 1 2π e u2 /2 Hvis U er en stok. var. med denne tæthed siger man at U standardiseret normalfordelt, U N(0, 1) Fordelingsfunktion, Φ (se ppt): Φ(u) = u 1 2π e z2 /2 dz 17

Den standardiserede normalfordeling Der gælder for U N(0,1), at E(U) = 0, Var(U) = 1 Den standardiserede normalfordeling kaldes også normalfordelingen med middelværdi 0 og varians 1. 18

Lineær transformation af normalfordelingen Lad U N(0,1) og lad µ R og σ 2 > 0 være konstanter. Sæt Så er E(X) = µ og Var(X) = σ 2. X = µ + σu Det skal vises, at X er normalfordelt (X N(µ,σ 2 )). Dvs. at X har tæthed f (x) = 1 ( ) (x µ) 2 exp 2πσ 2 2σ 2 19

Lineær transformation af normalfordelingen X = µ + σu hvor U N(0,1), dvs. har tæthed ϕ og fordelingsfunktion Φ. Fordelingsfunktion for X: F(x) = P(X x) = P(µ + σu x) = P ( U x µ ) σ ( ) x µ = Φ σ Tæthed for X: f (x) = F (x) = d dx ( Φ ( )) x µ σ ( x µ = ϕ σ ) 1 σ = 1 ( ) e (x µ)2 2σ 2 2πσ 2 20

Der gælder: Dermed Lineær transformation af normalfordelingen U N(0,1) X = µ + σu N(µ,σ 2 ) X N(µ,σ 2 ) U = X µ σ N(0,1) X N(µ,σ 2 ) Y = a + bx N(a + bµ,b 2 σ 2 ) Klassen af normalfordelinger er lukket overfor lineære transformationer. 21

Beregning af sandsynligheder for X N(µ,σ 2 ) Lad X N(µ,σ 2 ) og lad a < b. Så er P(a X b) = b a ( ) 1 e (z µ)2 2σ 2 dz 2πσ 2 Stamfunktionen kan alene findes nummerisk. Benytter i stedet egenskaben: X N(µ,σ 2 ) U = X µ σ N(0,1) 22

Beregning af sandsynligheder for X N(µ,σ 2 ) P(a X b) = P ( a µ σ X µ b µ ) = Φ σ σ ( b µ σ ) Φ Φ-værdierne kan slås op i tabeller, f.eks. Erlang S. Eksempel: X N(1,2) ( ) ( ) 3 1 0 1 P(0 < X < 3) = Φ Φ = Φ(1.41) Φ( 0.71) 2 2 = 0.92073 0.23885 = 0.68188 ( ) a µ σ 23

Vigtig egenskab for normalfordelingen Lad k > 0 være en konstant. Sandsynligheden for at havne i et interval af typen [µ kσ, µ + kσ] afhænger ikke af µ og σ 2 for noget k > 0: ( ) ( ) (µ + kσ) µ (µ kσ) µ P(µ kσ X µ + kσ) = Φ Φ σ σ = Φ(k) Φ( k) 24

Vigtig egenskab for normalfordelingen (2) F.eks. P(µ σ X µ + σ) = Φ(1) Φ( 1) = 0.682 P(µ 1.96σ X µ + 1.96σ) = Φ(1.96) Φ( 1.96) = 0.95 P(X µ 1.96σ) = Φ( 1.96) = 0.025 P(X µ+1.96σ) = 1 Φ(1.96) = 0.025 (se ppt) 25

Grafisk kontrol af normalfordelingsantagelse Uafhængige observationer x 1,...,x n af stokastisk variabel X. Spørgsmål: Kan X antages at være normalfordelt? Histogram med indlagt tæthed for N( x,s 2 ): Histogrammet vil være en god approksimation til tæthedskurven hvis X er normalfordelt (og n er tilstrækkelig stor). Normalfraktildiagram: Sammenligner de empiriske fraktiler for observationerne med fraktilerne i normalfordelingen. (u p er en p-fraktil for N(0,1) hvis p = P(U u p ) = Φ(u p ).) 26

Normalfraktildiagram Normalfraktildiagram: Sammenligner de empiriske fraktiler for n uafhængige obs. x 1,...,x n med fraktilerne i normalfordelingen. Plot x (i) (x-aksen) mod p i -fraktilen Φ 1 (p i ) (y-aksen). Punkterne vil ligge omkring en ret linie med hældning 1/σ og skæring µ med x-aksen hvis X er normalfordelt (og n er tilstrækkelig stor). Grafisk estimation af µ og σ 2. Hvorfor gælder dette? 27

Normalfraktildiagram - bevis Hvis X N(µ,σ 2 ) uformelt: p i = i 0.5 ( ) x(i) µ P(X x (i) ) = Φ n σ ( ) Φ 1 (p i ) Φ 1 x(i) µ Φ σ { Φ 1 (p i ) 1 σ x (i) µ σ = x (i) µ σ x (i) µ + σφ 1 (p i ) 28

Kommentarer Kig efter systematiske afvigelser! Transformer evt. data (f.eks. med log eller ). Vil gerne have N-fordelte obs. da de statistiske analyser så er lette at udføre. Pas på når antallet af observationer, n, ikke er stort. 29

Teoretisk Statistik, marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 30

Punktsandsynlighed/tæthed, f diskret: f (x) = P(X = x) Begreber fra kapitel 3 kontinuert: f (x) P(X ]x /2,x + /2]) Fordelingsfunktion, F F(x) = P(X x) Sammenhæng mellem f og F: diskret: F(x) = z x f (z), f (x) = F(x) F(x 1) kontinuert: F(x) = x f (x)dx, f (x) = F (x) Oversigt over kapitel 3 31

Begreber fra kapitel 3 (2) Middelværdi diskret: EX = x S x f (x) kontinuert: EX = x f (x)dx Varians Def. og regneregel: Var(X) = E ( (X EX) 2) = E(X 2 ) (EX) 2 diskret: VarX = x S x 2 f (x) (EX) 2 kontinuert: VarX = x2 f (x)dx (EX) 2 Oversigt over kapitel 3 32

Oversigt over diskrete fordelinger P S f E Var ) bin(n, p) {0,1,...,n} p x (1 p) n x np np(1 p) ( hypgeo(n,m,n) (del af) {0,1,...,n} M x )( N M n x ) ( N n) λ Poiss(λ) {0,1,2,...} x negbin(k, p) {0,1,2,...} ( n x ( x+k 1 k 1 n M N n M N N M N x! e λ λ λ ) p k (1 p) x k 1 p p k 1 p p 2 Stikprøve med/uden tilbagelægning (bin/hypgeo) Approks. af hypgeo(n,m,n) med bin(n,n/m) hvis N og M store. Approks. af bin(n, p) med Poiss(λ) hvis n stor, p lille og np = λ N n N 1 Oversigt over kapitel 3 33

Oversigt over kontinuerte fordelinger P S f E Var ( ) N(µ,σ 2 1 ) R exp (x µ)2 µ σ 2 2πσ 2 2σ 2 exp(λ) ]0, [ e λx 1 λ R[0, 1] [0, 1] 1 1/2 1/12 1 λ 2 Oversigt over kapitel 3 34