Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter. x antages at være en værdi af en stokastisk variabel X (X,..., X n ). Udfaldsrummet E R n er mængden af alle mulige udfald. Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. 2 Hvad er en statistisk model? Afgrænsningen af de mulige sandsynlighedsfordelinger formaliserer vor forhåndsviden eller vore forhåndsantagelser om problemet. De enkelte fordelinger formaliserer den usikkerhed der er forbundet med observationerne. Mængden af mulige sandsynlighedsfordelinger formaliserer den uvidenhed vi har om de mekanismer, der har frembragt observationerne. Formålet med den statistiske analyse er at fjerne noget af uvidenheden om de bagvedliggende mekanismer, der har frembragt observationen. Statistisk model Mængden af sandsynlighedsfordelinger skal kunne indiceres ved en parameter θ Θ R d. Den statistiske model er givet ved (E, (P θ ) θ Θ ), hvor (P θ ) θ Θ er en familie af sandsynlighedsfordelinger på E. Parameterområdet Θ R d er en indeksmængde for familien af sandsynlighedsfordelinger i modellen, og θ Θ er parameteren. 3 4
Likelihoodfunktionen x 2 p(x,, x n ) P(A) A Antag at P θ er kontinuert med sandsynlighedstæthed p θ θ Θ. Fortolkning af sandsynlighedstætheden: For et (lille) δ > 0 gælder at sandsynlighedstætheden for en mængde af formen A [x, x + δ] [x n, x n + δ] hvor A E, er approksimativt givet ved x 2 + δ x 2 A p(x,..., x n ) P (A)/ A x x + δ x 5 6 Maximum likelihood estimator Tætheden kan opfattes som forholdet mellem sandsynlighedsmasse og volumen (for et lille område). Likelihoodfunktion: L : E Θ [0, ) L(x, θ) p θ (x) L(x, θ) er for fastholdt x et mål for hvor sandsynligt det er at få observationen x, når X s fordeling er P θ. Vi ønsker at vælge den sandsynlighedsfordeling i modellen, der passer bedst muligt med det observerede x. At vælge en fordeling på grundlag af observationen x kaldes at estimere (eller på dansk at skønne). Fordelingen P θ identificeres ofte med parameteren θ, så man estimerer parameteren θ. Maximum likelihood estimatoren fås ved at vælge den sandsynlighedsfordeling i modellen, der passer bedst med vores observation i følgende forstand: ˆθ ˆθ(x) Θ er maximum likelihood estimatoren for θ, hvis L(x, ˆθ) L(x, θ) θ Θ 7 8
Beregning af maximum likelihood estimatoren Antag at vi observerer x 0.347 fra en Normalfordeling N(θ, 0.6 2 ). Likelihoodfunktion: L(x, θ) 2π 0.6 exp (0.347 θ)2 2 0.6 2 } Maximum likelihood estimatoren findes ved at maksimalisere L som funktion af θ for fastholdt x, altså ved en funktionsundersøgelse af L. Det er ofte besværligt at arbejde direkte med L, og i stedet findes maximum af log-likelihooden l log L. De to funktioner L og l har samme maximum (overvej hvorfor!), og det er derfor ligegyldigt om man ser på den ene eller den anden. likelihood and log likelihood.0 0.5 0.0 0.5.0 L.0 0.5 0.0 0.5.0 θ 9 0 Log-likelihoodfunktion: l(x, θ) log(l(x, θ)) log( 2π 0.6) (x θ)2 2 0.6 2 Maximum er det samme for de to funktioner, likelihood og log-likelihood. likelihood and log likelihood.0 0.5 0.0 0.5.0 L l log(l) likelihood and log likelihood.0 0.5 0.0 0.5.0 L l log(l).0 0.5 0.0 0.5.0.0 0.5 0.0 0.5.0 θ θ 2
Et andet eksempel, her eksponentialfordelingen. likelihood and log likelihood 8 6 4 2 0 L*00 l log(l) 0.0 0.5.0.5 2.0 θ Maximum af log-likelihood funktionen kan findes ved at differentiere med hensyn til θ (θ,..., θ d ). Score-funktionerne er således defineret som d dθ j l(θ), j,..., d Maximum likelihood estimatoren findes da som løsning til likelihoodligningerne d dθ j l(θ) 0, j,..., d ˆθ er en (afledt) stokastisk variabel med en fordeling. En god estimator, ˆθ, for en parameter θ skal være central, dvs. at Eˆθ θ, og skal have lille varians. 3 4 Hypotese Formålet med en statistisk analyse er ofte at undersøge en eller flere på forhånd opstillede hypoteser. Hypotesen skal kunne identificeres med nogle bestemte fordelinger i modellen. En hypotese svarer til en ny, mindre familie af sandsynlighedsfordelinger på udfaldsrummet E (P θ ) θ Θ0 Hypotesen betegnes ofte med H og skrives hvor (P θ ) θ Θ0 (P θ ) θ Θ H : θ Θ 0 Test Et test er en metode til at afgøre, om observationen x kan antages at svare til et P θ i hypotesen. Vi skriver M : θ Θ (den fulde model) H : θ Θ 0 (hypotesen) Alle mulige udfald (observationer) ordnes efter, hvor godt de stemmer overens med hypotesen. Hypotesen accepteres hvis observationen viser tilstrækkelig god overensstemmelse. Hypotesen forkastes hvis overensstemmelsen er for dårlig. 5 6
Kvotienttest Da (P θ ) θ Θ0 også er en statistisk model, kan vi definere likelihoodfunktionen under hypotesen L : E Θ 0 [0, ) L(x, θ) p θ (x) og beregne maximum likelihood estimatoren ˆθ 0 under hypotesen. Vi har L(x, ˆθ) L(x, θ) θ Θ Estimation i den fulde model og under hypotesen. θ^ Θ θ^0 Θ 0 L(x, ˆθ 0 ) L(x, θ) θ Θ 0 Desuden er L(x, ˆθ) L(x, ˆθ 0 ) (Hvorfor?) 7 8 Kvotientteststørrelsen for observationen x defineres ved Q(x) L(x, ˆθ 0 (x)) L(x, ˆθ(x)) pˆθ (x) 0(x) pˆθ(x) (x) En observation passer bedre med hypotesen jo større dens Q værdi er. Der gælder altid at Testsandsynlighed Vi ser på mængden x E : Q(x ) Q(x)} Q(X) Q(x)} Sandsynligheden for at få noget, der er mindre eller lige så sandsynligt som det observerede, hvis den rigtige fordeling er P θ, θ Θ 0, er P θ (Q(X) Q(x)}) Testsandsynligheden ɛ for observationen x er givet ved (Hvorfor?) 0 Q(x) ɛ(x) sup θ Θ 0 P θ (Q(X) Q(x)}) 9 20
Approximativ fordeling af kvotienttestsstørrelsen Bemærk at ɛ er bestemt af sandsynlighedsfordelingerne i hypotesen. Hvis testsandsynligheden er stor betyder det, at der eksistserer en fordeling i hypotesen, der giver vores observerede værdi (relativ) høj sandsynlighed. (Relativt til hvad?). Vi siger da at observationen bekræfter hypotesen. Betragt en statistisk model (E, (P θ ) θ Θ ) med en hypotese H: θ Θ 0, hvor Θ og Θ 0 er pæne mængder med fuld dimension, henholdsvis d og d 0. Når observationsantallet går mod uendelig under passende betingelser, gælder for θ i det indre af Θ 0, at 2 log Q(X) er approximativt χ 2 fordelt med d d 0 frihedsgrader, således at der gælder P θ (Q(X) Q(x)) F χ 2 d d0 ( 2 log Q(x)) hvor F χ 2 f er fordelingsfunktionen for χ 2 fordelingen med f frihedsgrader. Dette får vi stort set ikke brug for i det følgende. 2 22 Test for følge af hypoteser M H 0, H, H 2,..., H k, svarer til en følge af statistiske modeller (E, (P θ ) θ Θ0 ), (E, (P θ ) θ Θ ),..., (E, (P θ ) θ Θk ) hvor (P θ ) θ Θr } (P θ ) θ Θr } H r testes overfor H r ved at se på Q r (x) L(x, ˆθ r (x)) L(x, ˆθ, r, 2,..., k, r (x)) hvor Q r er kvotientteststørrelsen for test af H r under H r. Hvis Q 0k er kvotientteststørrelsen for test af hypotesen H k mod (E, (P θ ) θ Θ0 ), så gælder 2 log Q 0k (x) k r 2 log Q r(x). Det kan ses udfra log Q 0k log L(x, ˆQ k (x)) L(x, ˆQ 0 (x)) log L(x, ˆQ (x)) L(x, ˆQ 2 (x)) L(x, ˆQ 0 (x)) L(x, ˆQ (x)) L(x, ˆQ k (x)) L(x, ˆQ k (x)) log L(x, ˆQ (x)) L(x, ˆQ 0 (x)) + log L(x, ˆQ 2 (x)) L(x, ˆQ (x)) + + log k log Q r (x) r L(x, ˆQ k (x)) L(x, ˆQ k (x)) 23 24
Eksempel: eksponentialfordelingen Antag x 0 er en observation fra en eksponentialfordeling med ukendt skalaparameter λ. Udfaldsrum: E [0, [ Parameterrum: Θ ]0, [ Statistisk model: ([0, [, (P λ ) λ ]0, [ ), hvor P λ har tæthed Likelihoodfunktion: p λ (x) λ e x/λ, x 0 L : [0, [ ]0, [ [0, [ L(x, λ) λ e x/λ Estimation af λ i eksponentialfordelingen Log-likelihooden bliver log p λ (x) log λ x λ Score-funktionen (her er kun en score-funktion - hvorfor?) bliver d log p λ (x) dλ λ + x λ 2 λ og likelihood-ligningen giver estimatoren Hvad nu hvis x 0? ( x ) λ λ + x λ 2 0 ˆλ x hvis x > 0 25 26 likelihood for eksponentialfordelingen 0 2 3 4 x0 x0. x0.5 x Hvis x 0 er L(0, λ) λ, dvs der er ingen værdier af λ i parameterområdet for hvilke L(0, λ) antager sin maximumværdi. Maximum likelihood estimatoren er således ikke defineret for x 0. MEN, heldigvis er P λ (X 0) 0 når λ > 0. Maximum likelihood estimatoren er derfor defineret med sandsynlighed. Vi antager fremover at x > 0. 0.0 0.2 0.4 0.6 0.8.0.2 λ Maximum likelihood estimatoren ˆλ(X) er en afledt stokastisk variabel, eksponentialfordelt med skalaparameter λ, da ˆλ X. 27 28
Test i eksponentialfordelingen Funktionsundersøgelse af Q(x) Hypotese: Kvotientteststørrelse: Q(x) L(x, ˆλ 0 ) L(x, ˆλ) Testsandsynlighed: H : λ λ 0 L(x, λ 0) L(x, x) λ 0 e x/λ0 x e x/x x λ 0 e x/λ 0 ɛ(x) P λ0 (Q(X) Q(x)) P λ0 ( X λ 0 e X/λ0 x λ 0 e x/λ0 ) P λ0 (x 0 : x e x /λ 0 x ) e x/λ0 λ 0 λ 0 Q(x) x λ 0 e x/λ0 dq(x) dx λ 0 e x/λ0 }} >0 ( xλ0 ) Q(x) er voksende for x < λ 0 og aftagende for x > λ 0. Derudover er Q(0) 0 og lim x Q(x) 0. Definer q Q(x), da har ligningen Q(x ) q højst to løsninger, x og x 2, hvor x λ 0 x 2. Hvis x λ 0 da er x x. Hvis x λ 0 da er x 2 x. 29 30 Heraf følger x 0 : Q(x ) q} 0 x x } x 2 x } Lad os tegne det i R (se program med kommentarer på hjemmesiden): x <- seq(0,0,0.) Qtest <- function(x,lambda0) (x/lambda0)*exp(-x/lambda0) } lambda0 <- 3 plot(x,qtest(x,lambda0lambda0),type"l",ylab"q(x)") abline(vlambda0,lty2) xobs <- qtest <- Qtest(xobs,lambda0) lines(rep(xobs,2),c(-,qtest),lty2) axis(,atc(xobs,lambda0),labelsc("xobs",expression(lambda)), cex.axi.5) abline(hqtest,lty2) axis(2,atqtest,labels"q(xobs)",cex.axi.5) Vi har x x. Lad os finde x 2 : findx2 <- function(x) abs(qtest(x,lambda0lambda0)-qtest) } x2 <- optimize(findx2,lowerlambda0,upper0)$minimum lines(rep(x2,2),c(-,qtest),lty2) axis(,atx2,labels"x2",cex.axi.5) 3 32
Testsandsynligheden bliver: Q(x) Q(xobs) ɛ(x) P λ0 (x : Q(x ) q) P λ0 0 x x } + P λ0 x 2 x } x e x /λ 0 dx + e x /λ 0 dx 0 λ 0 x 2 λ 0 ] x [ ] [ e x /λ 0 + e x /λ 0 0 x 2 e x/λ0 + e x2/λ0 Hvis for eksempel λ 0 3 og x fås x x og x 2 6.7 (udregnet i R), og xobs λ x x2 Fortolkning? ɛ(x) e /λ0 + e 6.7/λ0 0.39 33 34 Sammenligning af eksponentialfordelinger Statistisk model: ([0, [ 2, (P λ,λ 2 ) (λ,λ 2) ]0, [ 2) Lad være en observation af x (x, x 2 ) hvor P λ,λ 2 (x, x 2 ) λ e x λ Likelihoodfunktion under den fulde model: λ 2 e x 2 λ 2 X (X, X 2 ) der er ekponentialfordelte med skalaparametre λ og λ 2. Vi ønsker at teste hypotesen H : λ λ 2 L : [0, [ 2 ]0, [ 2 [0, [ L(x, x 2, λ, λ 2 ) λ e x λ Maximum likelihood estimator: λ 2 e x 2 λ 2 (ˆλ, ˆλ 2 ) (x, x 2 ) hvis x > 0 og x 2 > 0 35 36
Hypotese: λ λ 2 λ ]0, [ Kvotientteststørrelse: Likelihoodfunktion under hypotesen: Log-likelihood: L : [0, [ 2 ]0, [ [0, [ L(x, x 2, λ) x λ 2 e +x 2 λ l log L(x, x 2, λ) 2 log λ x + x 2 λ Score-funktion: dl dλ 2 λ + x + x 2 λ 2 Maximum likelihood estimator: ˆλ x + x 2 2 x hvis x + x 2 > 0 Q(x, x 2 ) L(x, x 2, ˆλ) L(x, x 2, ˆλ, ˆλ 2 ) L(x, x 2, (x + x 2 )/2)) L(x, x 2, x, x 2 ) ((x +x 2)/2) 2 e (x+x2)/((x+x2)/2) 4x x 2 (x + x 2 ) 2 x e x/x x 2 e x2/x2 37 38 Resultater om normalfordeling X N(µ, σ 2 ). N har tæthed ϕ µ,σ 2(x) exp } (x µ)2 2πσ 2 2σ2 EX µ, Var(X) σ 2 X µ N(0, ) σ Hvis X og X 2 er uafhængige, X r N(µ r, σr), 2 da er X + X 2 N(µ + µ 2, σ 2 + σ2) 2 Hvis X,..., X n er uafhængige og X r N(µ, σ 2 ), da er X n (X +... + X n ) N(µ, σ2 n ) Test i normalfordelingen Observation af x (x,..., x n ) R n X (X,..., X n ) X r N(µ, σ 2 ) er uafhængige, identisk normalfordelte variable med µ R og σ 2 > 0. X har tæthed ϕ µ,σ 2(x) n exp } 2πσ 2 2σ 2 (x s µ) 2 ( 2πσ 2 ) n exp 2σ 2 } (x s µ) 2 39 40
Statistisk model og maximum likelihood estimatoren Vi antager µ ukendt og σ 2 σ 2 0 kendt. Den statistiske model bliver (R n, (N µ ) µ R ) hvor N µ har tæthed } ϕ µ (x) ( exp 2πσ0 2 )n 2σ0 2 (x s µ) 2 Likelihoodfunktionen for µ bliver derfor L : R n R [0, ) L(x, µ) ϕ µ (x) Estimation af µ i normalfordeling med kendt varians Log-likelihooden bliver log ϕ µ (x) n log ( ) 2πσ0 2 2σ0 2 (x s µ) 2 Score-funktionen (her er kun en score-funktion - hvorfor?) bliver d log ϕ µ (x) dµ σ 2 0 (x s µ) og likelihood-ligningen giver estimatoren (er det et maximum?) σ0 2 (x s ˆµ) 0 ˆµ n x s x 4 42 Estimation af µ i normalfordeling med kendt varians Vi får således at maximum likelihood estimatoren er gennemsnittet af målingerne. Vi så tidligere at hvis X,..., X n er uafhængige og X r N(µ, σ 2 ), da er X n (X +... + X n ) N(µ, σ2 n ) Vi får derfor direkte fordelingen af maximum likelihood estimatoren ˆµ N(µ, σ2 0 n ) Vi kunne også direkte have maximeret likelihooden. Der gælder (x s µ) 2 ((x s x) + ( x µ)) 2 (x s x) 2 + ( x µ) 2 + 2 (x s x)( x µ) (x s x) 2 + n( x µ) 2 + 2( x µ) (x s x) (x s x) 2 + n( x µ) 2 (x s x) 2 43 44
Test af hypotesen H : µ µ 0. Kvotientteststørrelse: Q(x) L(x, ˆµ 0) L(x, ˆµ) exp } n ( 2πσ0 2)n 2σ0 2 (x s µ 0 ) 2 exp } n ( 2πσ0 2)n 2σ0 2 (x s x) 2 } exp 2σ0 2 ((x s µ 0 ) 2 (x s x) 2 ) exp } 2σ0 2 n( x µ 0 ) 2 Da hypotesen er simpel, har vi at ɛ(x) P µ0 (Q(X) Q(x)) P µ0 ( 2 log Q(X) 2 log Q(x)) ( P µ0 σ0 2 n( X µ 0 ) 2 ) σ0 2 n( x µ 0 ) 2 ( X µ0 P µ0 σ 0 / n x µ ) 0 σ 0 / n ( X µ0 2P µ0 σ 0 / n x µ ) 0 σ 0 / n ( ( )) x µ0 2 Φ σ 0 / n da X µ 0 σ 0 / n er standard normalfordelt. 45 46