Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater (kap. 3 og 6) Aymptotiske resultater (kap. 7) Estimation (kap. 8) Konfidensintervaller (kap. 8) 1

Regneregler P(/0) = 0; P(A c ) = P(E\A) = 1 P(A); P(A\B) = P(A) P(B) hvis B A; P(A B) = P(A) + P(B) P(A B). P(A 1 A n ) = P(A 1 ) + + P(A n ) hvis i, j : A i A j = /0 P(A B) = P(A B)/P(B) for P(B) > 0. P(A B) = P(A)P(B) for A og B ufh. 2

Regneregler Lad A 1,A 2,...,A m være en klassedeling af E Loven om den totale sandsynlighed: For en vilkårlig hændelse B gælder P(B) = P(B A 1 )P(A 1 ) +... + P(B A m )P(A m ) Bayes formel: For en vilkårlig hændelse, B, med P(B) > 0 gælder P(A i B) = P(B A i)p(a i ) m j=1 P(B A j )P(A j ) 3

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordeling og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater (kap. 3 og 6) Aymptotiske resultater (kap. 7) Estimation (kap. 8) Konfidensintervaller (kap. 8) 4

Oversigt over diskrete fordelinger P S f E Var ) bin(n, p) {0,1,...,n} p x (1 p) n x np np(1 p) ( hypgeo(n,m,n) (del af) {0,1,...,n} M x )( N M n x ) ( N n) λ Poiss(λ) {0,1,2,...} x negbin(k, p) {0,1,2,...} ( n x ( x+k 1 k 1 n M N n M N N M N x! e λ λ λ ) p k (1 p) x k 1 p p k 1 p p 2 Stikprøve med/uden tilbagelægning (bin/hypgeo) Approks. af hypgeo(n,m,n) med bin(n,n/m) hvis N og M store. Approks. af bin(n, p) med Poiss(λ) hvis n stor, p lille og np = λ N n N 1 5

Oversigt over kontinuerte fordelinger P S f E Var ( ) N(µ,σ 2 1 ) R exp (x µ)2 µ σ 2 2πσ 2 2σ 2 exp(λ) ]0, [ e λx 1 λ R[0, 1] [0, 1] 1 1/2 1/12 Naturligvis også den flerdimensionale normalfordeling Der ud over fordelinger, der beskriver teststørrelser, typisk χ 2 ( f ), t( f ) og F( f 1, f 2 ) 1 λ 2 6

Hvorfor alle disse fordelinger? 7

Hvordan vælges fordeling? 8

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordeling og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater (kap. 3 og 6) Aymptotiske resultater (kap. 7) Estimation (kap. 8) Konfidensintervaller (kap. 8) 9

Simultan og marginal fordeling Simultan fordeling: Fordeling af parret (X 1,X 2 ). Tager hensyn til hvordan X 1 og X 2 varierer i forhold til hinanden. Marginale fordelinger: fordeling af X 1 og fordeling af X 2 (uden hensyntagen til den anden variabel). 10

Betinget fordeling og uafhængighed Betinget fordeling: Fordeling af X 2 givet X 1. Hvordan varierer X 2 når vi kender værdien af X 1 (eller omvendt)? Uafhængighed: Påvirker X 1 fordelingen af X 2 (og omvendt)? 11

Hvorfor? 12

Eksempel på betinget fordeling: Normalfordelingen Lad X = ( X1 X 2 ) ( µ1 N 2 ( µ 2 ) ( σ 2, 1 σ 12 σ 12 σ2 2 ) ) Den betingede fordeling af X 1 givet X 2 = x 2 er en normalfordeling med middelværdi µ 1 + σ 12 (σ2 2) 1 (x 2 µ 2 ) og varians σ11 2 σ 12 (σ2 2) 1 σ 21 13

Definitioner Diskret EX = E(X) = x S x f (x) Kontinuert EX = E(X) = x S x f (x)dx Diskret E(X 2 X 1 = x 1 ) = x2 S 2 x 2 f (x 2 x 1 ) Kontinuert E(X 2 X 1 = x 1 ) = x 2 S 2 x 2 f (x 2 x 1 )dx ( (X ) ) 2 VarX = E EX Diskret Var(X 2 X 1 = x 1 ) = x2 S 2 x2 2 f (x 2 x 1 ) E(X 2 X 1 = x 1 ) 2 Kontinuert Var(X 2 X 1 = x 1 ) = x 2 S 2 x2 2 f (x 2 x 1 )dx 2 E(X 2 X 1 = x 1 ) ( 2 (X1 )( ) ) Cov(X 1,X 2 ) = E EX 1 X2 EX 2 15

Regneregler E(a + bx) = a + bex E(aX 1 + bx 2 ) = aex 1 + bex 2 VarX = EX 2 (EX) 2 Var(a + bx) = b 2 VarX Var(aX 1 + bx 2 ) = a 2 VarX 1 + b 2 VarX 2 + 2abCov(X 1,X 2 ) 16

Regneregler ( X en m-dimensional sv. (m 1); A en k 1-matrix; B en k m- matrix.) Cov(X 1,X 2 ) = E(X 1 X 2 ) (EX 1 )(EX 2 ) Cov(X 1,X 2 + X 3 ) = cov(x 1,X 2 ) + cov(x 1,X 3 ) EX 2 = E ( E(X 2 X 1 ) ) VarX 2 = E ( Var(X 2 X 1 ) ) + Var ( E(X 2 X 1 ) ) E(A + BX) = A + BE(X) (k 1) Var(A + BX) = BVar(X)B T (k k) 17

Fordeling af summer Antag at X 1,...,X m er uafhængige sv. og lad Y = X 1 +... + X m. Poisson Binomial Normal X 1 Poiss(λ 1 ),...,X m Poiss(λ m ) Y Poiss(λ 1 +... + λ m ) X 1 bin(n 1, p),...,x m bin(n m, p) Y bin(n 1 +... + n m, p) X 1 N(µ 1,σ1 2),...,X m N(µ m,σm) 2 Y N(µ 1 +... + µ m,σ1 2 +... + σ m) 2 19

χ 2 ( f ) fordelingen Lad U 1,...,U f være uafhængige N(0,1)-fordelte. Da siges Q = U1 2 + +Uf 2 at være χ 2 -fordelt med f frihedsgrader: Q χ 2 ( f ). Mange teststørrelser er χ 2 ( f )-fordelte (jv.f. Teoretisk statistik 2). Endvidere er (n 1)S 2 /σ 2 χ 2 (n 1) Eksempel på χ 2 fordelingen: lynprøven 20

t-fordelingen Lad U N(0,1), Q χ 2 ( f ) og lad U og Q være uafhængige. Da er T = U ( f ) t( f ) Q Hvorfor interessant: Bl.a. fordi når X 1,...,X n er uif med X 1 N(µ,σ 2 ) og H 0 : µ = µ 0, da er teststørrelsen T = n( X µ 0 ) S 2 t(n 1) Eksempel: lynprøven 21

F-fordelingen Mange hypoteser kan testes ved at teste om to varianser er ens: V = S2 1 S 2 2 = σ 1 2Q 1/(n 1 1) σ2 2Q 2/(n 2 1) = Q 1/(n 1 1) Q 2 /(n 2 1) Derfor er følgende interessant: Hvis Q 1 χ 2 ( f 1 ) og Q 2 χ 2 ( f 2 ) og Q 1 og Q 2 er uafhængige så er V = Q 1/ f z 1 Q 2 / f 2 F( f 1, f 2 ) F-ford. med ( f 1, f 2 ) frihedsgrader. NB: T t( f ) T 2 F(1, f ). 22

Store Tals Lov Lad X 1,X 2,... være en følge af uafhængige, identisk fordelte variable med middelværdi µ. Definer X n = X 1+...+X n n. Da gælder: Store tals lov for hyppigheder: X n P µ Relativ hyppighed af A = h n (A) P P(A) 24

Den centrale grænseværdisætning Lad X 1,...,X n være uid med EX 1 = µ og VarX 1 = σ 2 <. gælder (med X n = 1 n n i=1 X i ) Da P ( ) X n µ σ/ n u Φ(u), for n Bemærk, at denne sætning ikke hedder Den centrale grænseværdisætning for ingenting! 25

Den centrale grænseværdisætning Hvorfor er sætningen central? Vi har jo allerede set, at gennemsnittet vil konvergere i sandsynlighed mod middelværdien Men, den centrale grænseværdisætning giver, at hele fordelingen konvergerer mod normalfordelingen. Uanset hvilken udgangsfordlingen. Hvis der tages gennemsnit (og det gør man jo ofte) da er gennemsnittet langt mere normalfordelt end de enkelte observationer. 26

Approksimationer Følgende fordelinger kan i grænsen approksimeres med en normalfordeling: Binomialfordlingen Poissonfordelingen Den hypergeometriske fordeling Blev i gamle dage brugt til udregning af sandsynligheder... I dag er det vigtigere at vide, at mange fordelinger konvergerer mod normalfordlingen. 27

Estimator Problemstilling: ud fra data, x 1,...,x n at give et bud på θ. ˆθ = ˆθ(x 1,...,x n ) Adskillige estimationsprincipper. Maksimumlikelihoodestimatoren, ˆθ, for θ defineres som: L( ˆθ x) = max θ Θ L(θ x) Dvs. vi vælger den værdi θ Θ, der gør det mest sandsynligt, at vi har observeret x. 29

Oversigt over estimatorer X bin(n, p). MLE ˆp = X n X 1,...,X n uid med X 1 poiss(λ). MLE ˆλ = X X 1,...,X n være uid. med X 1 N(µ,σ 2 ). MLE ˆµ = X, ˆσ 2 = 1 n (X i X) 2 Benytter S 2 som estimator for σ 2, da denne estimator er middelret. 30

Konfidensintervaller - Fortolkning Opgaven er at finde grænser, C L (X) og C U (X) således Benytter f.eks. omskrivniner af: P(C L (X) θ C U (X)) = 1 α X µ σ 2 0 /n N(0,1) X µ S2 /n t(n 1), (n 1)S 2 σ 2 χ 2 (n 1) For diskrete fordelinger benyttes normalfordelingsapp. 32

Konfidensintervaller - Fortolkning P(C L (X) θ C U (X)) = 1 α Sandsynlighedsudsagn - men om hvad! ER θ en stokastisk variabel. Dvs. sandsynlighedsudsagnet kan ikke læses som et udsagn om θ 33

Derimod er intervallet en stokastisk variabel. Konfidensintervaller - Fortolkning [C L (X),C U (X)] Hver gang forsøget gentages, fås et nyt interval. Der er 1 α sandsynlighed for, at intervallet indeholder µ. Dvs. gentages forsøget mange gange vil andelen af intervaller, der indeholder den sande værdi θ konvergere imod 1 α. (jvf. p. 267) 34

Konfidensintervaller - Oversigt Normalfordelingen, kendt varians σ0 2. KI for µ: [ X u 1 α/2 σ0 2/n, X + u 1 α/2 σ0 2/n] Normalfordelingen, ukendt varians. KI for µ: [ X t 1 α/2 S2 /n, X +t 1 α/2 S2 /n] Normalfordelingen, ukendt varians. KI for σ 2 : (n 1)S2 [ χ1 α/2 2, (n 1)S2 χα/2 2 ] 35

Konfidensintervaller - Oversigt Binomialfordelingen (X bin(n, p)). appr. KI for p: [ X n u 1 α/2 X n (1 X n ) n, X n + u 1 α/2 For store værdier af n X n (1 X n ) n Den hypergeometriske fordeling. (X hyp(n, M, n)) For passende store værdier af M og N appr. KI for x/n: [ x n u 1 α/2σ n, x n + u 1 α/2σ n ], ˆσ n 2 = 1 x n 1n (1 x n )N n N 1 ] 36

Konfidensintervaller - Oversigt Poissonfordelingen (X poiss(λ). appr. KI for λ: For store værdier af λ [ x u 1 α/2 x/n, x + u 1 α/2 x/n] Ukendt fordeling. Uafh. id. fordelte stok. var. X 1,...,X n hvor E(X 1 ) = µ og var(x 1 ) = σ. For store værdier af n appr. KI for µ [ x u 1 α/2 σ/ n, x + u 1 α/2 σ/ n] 37