Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Relaterede dokumenter
Tidlige eksempler. Susanne Ditlevsen Institut for Matematiske Fag susanne

Susanne Ditlevsen Institut for Matematiske Fag susanne

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Estimation og konfidensintervaller

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistik og Sandsynlighedsregning 1. IH kapitel 6

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Sandsynlighedsregning Oversigt over begreber og fordelinger

Dagens program. Praktisk information:

Produkt og marked - matematiske og statistiske metoder

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Uge 10 Teoretisk Statistik 1. marts 2004

Elementær sandsynlighedsregning

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kvantitative Metoder 1 - Forår 2007

Om hypoteseprøvning (1)

Elementær sandsynlighedsregning

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.

Nanostatistik: Test af hypotese

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

StatDataN: Test af hypotese

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Statistik og Sandsynlighedsregning 2

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Højde af kvinder 2 / 18

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Nanostatistik: Konfidensinterval

Kvantitative Metoder 1 - Forår Dagens program

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Kvantitative Metoder 1 - Efterår Dagens program

Statistik i basketball

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Den lineære normale model

Statistik og Sandsynlighedsregning 2

MM501 forelæsningsslides

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Sandsynlighed og Statistik

Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Den lineære normale model

Kvantitative Metoder 1 - Efterår Dagens program

STATISTIKNOTER. Mindre matematisk-statistisk opslagsværk, indeholdende bl.a. ordforklaringer, resuméer og tabeller. Jørgen Larsen

Statistik for ankomstprocesser

Mat2SS Vejledende besvarelse uge 11

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2

Kvantitative Metoder 1 - Forår Dagens program

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Statistik og Sandsynlighedsregning 2

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 19. december 2018 Kursus nr : (navn) (underskrift) (bord nr)

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Statistiske principper

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr)

Lidt om fordelinger, afledt af normalfordelingen

Note om Monte Carlo metoden

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Preben Blæsild og Jens Ledet Jensen

Betingning med en uafhængig variabel

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Kapitel 4 Sandsynlighed og statistiske modeller

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Module 4: Ensidig variansanalyse

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Eksamen 2014/2015 Mål- og integralteori

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Definition. Definitioner

StatDataN: Plot af data

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

EKSAMEN Flerdimensional Analyse Sommer sider

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Transkript:

Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter. x antages at være en værdi af en stokastisk variabel X (X,..., X n ). Udfaldsrummet E R n er mængden af alle mulige udfald. Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. 2 Hvad er en statistisk model? Afgrænsningen af de mulige sandsynlighedsfordelinger formaliserer vor forhåndsviden eller vore forhåndsantagelser om problemet. De enkelte fordelinger formaliserer den usikkerhed der er forbundet med observationerne. Mængden af mulige sandsynlighedsfordelinger formaliserer den uvidenhed vi har om de mekanismer, der har frembragt observationerne. Formålet med den statistiske analyse er at fjerne noget af uvidenheden om de bagvedliggende mekanismer, der har frembragt observationen. Statistisk model Mængden af sandsynlighedsfordelinger skal kunne indiceres ved en parameter θ Θ R d. Den statistiske model er givet ved (E, (P θ ) θ Θ ), hvor (P θ ) θ Θ er en familie af sandsynlighedsfordelinger på E. Parameterområdet Θ R d er en indeksmængde for familien af sandsynlighedsfordelinger i modellen, og θ Θ er parameteren. 3 4

Likelihoodfunktionen x 2 p(x,, x n ) P(A) A Antag at P θ er kontinuert med sandsynlighedstæthed p θ θ Θ. Fortolkning af sandsynlighedstætheden: For et (lille) δ > 0 gælder at sandsynlighedstætheden for en mængde af formen A [x, x + δ] [x n, x n + δ] hvor A E, er approksimativt givet ved x 2 + δ x 2 A p(x,..., x n ) P (A)/ A x x + δ x 5 6 Maximum likelihood estimator Tætheden kan opfattes som forholdet mellem sandsynlighedsmasse og volumen (for et lille område). Likelihoodfunktion: L : E Θ [0, ) L(x, θ) p θ (x) L(x, θ) er for fastholdt x et mål for hvor sandsynligt det er at få observationen x, når X s fordeling er P θ. Vi ønsker at vælge den sandsynlighedsfordeling i modellen, der passer bedst muligt med det observerede x. At vælge en fordeling på grundlag af observationen x kaldes at estimere (eller på dansk at skønne). Fordelingen P θ identificeres ofte med parameteren θ, så man estimerer parameteren θ. Maximum likelihood estimatoren fås ved at vælge den sandsynlighedsfordeling i modellen, der passer bedst med vores observation i følgende forstand: ˆθ ˆθ(x) Θ er maximum likelihood estimatoren for θ, hvis L(x, ˆθ) L(x, θ) θ Θ 7 8

Beregning af maximum likelihood estimatoren Antag at vi observerer x 0.347 fra en Normalfordeling N(θ, 0.6 2 ). Likelihoodfunktion: L(x, θ) 2π 0.6 exp (0.347 θ)2 2 0.6 2 } Maximum likelihood estimatoren findes ved at maksimalisere L som funktion af θ for fastholdt x, altså ved en funktionsundersøgelse af L. Det er ofte besværligt at arbejde direkte med L, og i stedet findes maximum af log-likelihooden l log L. De to funktioner L og l har samme maximum (overvej hvorfor!), og det er derfor ligegyldigt om man ser på den ene eller den anden. likelihood and log likelihood.0 0.5 0.0 0.5.0 L.0 0.5 0.0 0.5.0 θ 9 0 Log-likelihoodfunktion: l(x, θ) log(l(x, θ)) log( 2π 0.6) (x θ)2 2 0.6 2 Maximum er det samme for de to funktioner, likelihood og log-likelihood. likelihood and log likelihood.0 0.5 0.0 0.5.0 L l log(l) likelihood and log likelihood.0 0.5 0.0 0.5.0 L l log(l).0 0.5 0.0 0.5.0.0 0.5 0.0 0.5.0 θ θ 2

Et andet eksempel, her eksponentialfordelingen. likelihood and log likelihood 8 6 4 2 0 L*00 l log(l) 0.0 0.5.0.5 2.0 θ Maximum af log-likelihood funktionen kan findes ved at differentiere med hensyn til θ (θ,..., θ d ). Score-funktionerne er således defineret som d dθ j l(θ), j,..., d Maximum likelihood estimatoren findes da som løsning til likelihoodligningerne d dθ j l(θ) 0, j,..., d ˆθ er en (afledt) stokastisk variabel med en fordeling. En god estimator, ˆθ, for en parameter θ skal være central, dvs. at Eˆθ θ, og skal have lille varians. 3 4 Hypotese Formålet med en statistisk analyse er ofte at undersøge en eller flere på forhånd opstillede hypoteser. Hypotesen skal kunne identificeres med nogle bestemte fordelinger i modellen. En hypotese svarer til en ny, mindre familie af sandsynlighedsfordelinger på udfaldsrummet E (P θ ) θ Θ0 Hypotesen betegnes ofte med H og skrives hvor (P θ ) θ Θ0 (P θ ) θ Θ H : θ Θ 0 Test Et test er en metode til at afgøre, om observationen x kan antages at svare til et P θ i hypotesen. Vi skriver M : θ Θ (den fulde model) H : θ Θ 0 (hypotesen) Alle mulige udfald (observationer) ordnes efter, hvor godt de stemmer overens med hypotesen. Hypotesen accepteres hvis observationen viser tilstrækkelig god overensstemmelse. Hypotesen forkastes hvis overensstemmelsen er for dårlig. 5 6

Kvotienttest Da (P θ ) θ Θ0 også er en statistisk model, kan vi definere likelihoodfunktionen under hypotesen L : E Θ 0 [0, ) L(x, θ) p θ (x) og beregne maximum likelihood estimatoren ˆθ 0 under hypotesen. Vi har L(x, ˆθ) L(x, θ) θ Θ Estimation i den fulde model og under hypotesen. θ^ Θ θ^0 Θ 0 L(x, ˆθ 0 ) L(x, θ) θ Θ 0 Desuden er L(x, ˆθ) L(x, ˆθ 0 ) (Hvorfor?) 7 8 Kvotientteststørrelsen for observationen x defineres ved Q(x) L(x, ˆθ 0 (x)) L(x, ˆθ(x)) pˆθ (x) 0(x) pˆθ(x) (x) En observation passer bedre med hypotesen jo større dens Q værdi er. Der gælder altid at Testsandsynlighed Vi ser på mængden x E : Q(x ) Q(x)} Q(X) Q(x)} Sandsynligheden for at få noget, der er mindre eller lige så sandsynligt som det observerede, hvis den rigtige fordeling er P θ, θ Θ 0, er P θ (Q(X) Q(x)}) Testsandsynligheden ɛ for observationen x er givet ved (Hvorfor?) 0 Q(x) ɛ(x) sup θ Θ 0 P θ (Q(X) Q(x)}) 9 20

Approximativ fordeling af kvotienttestsstørrelsen Bemærk at ɛ er bestemt af sandsynlighedsfordelingerne i hypotesen. Hvis testsandsynligheden er stor betyder det, at der eksistserer en fordeling i hypotesen, der giver vores observerede værdi (relativ) høj sandsynlighed. (Relativt til hvad?). Vi siger da at observationen bekræfter hypotesen. Betragt en statistisk model (E, (P θ ) θ Θ ) med en hypotese H: θ Θ 0, hvor Θ og Θ 0 er pæne mængder med fuld dimension, henholdsvis d og d 0. Når observationsantallet går mod uendelig under passende betingelser, gælder for θ i det indre af Θ 0, at 2 log Q(X) er approximativt χ 2 fordelt med d d 0 frihedsgrader, således at der gælder P θ (Q(X) Q(x)) F χ 2 d d0 ( 2 log Q(x)) hvor F χ 2 f er fordelingsfunktionen for χ 2 fordelingen med f frihedsgrader. Dette får vi stort set ikke brug for i det følgende. 2 22 Test for følge af hypoteser M H 0, H, H 2,..., H k, svarer til en følge af statistiske modeller (E, (P θ ) θ Θ0 ), (E, (P θ ) θ Θ ),..., (E, (P θ ) θ Θk ) hvor (P θ ) θ Θr } (P θ ) θ Θr } H r testes overfor H r ved at se på Q r (x) L(x, ˆθ r (x)) L(x, ˆθ, r, 2,..., k, r (x)) hvor Q r er kvotientteststørrelsen for test af H r under H r. Hvis Q 0k er kvotientteststørrelsen for test af hypotesen H k mod (E, (P θ ) θ Θ0 ), så gælder 2 log Q 0k (x) k r 2 log Q r(x). Det kan ses udfra log Q 0k log L(x, ˆQ k (x)) L(x, ˆQ 0 (x)) log L(x, ˆQ (x)) L(x, ˆQ 2 (x)) L(x, ˆQ 0 (x)) L(x, ˆQ (x)) L(x, ˆQ k (x)) L(x, ˆQ k (x)) log L(x, ˆQ (x)) L(x, ˆQ 0 (x)) + log L(x, ˆQ 2 (x)) L(x, ˆQ (x)) + + log k log Q r (x) r L(x, ˆQ k (x)) L(x, ˆQ k (x)) 23 24

Eksempel: eksponentialfordelingen Antag x 0 er en observation fra en eksponentialfordeling med ukendt skalaparameter λ. Udfaldsrum: E [0, [ Parameterrum: Θ ]0, [ Statistisk model: ([0, [, (P λ ) λ ]0, [ ), hvor P λ har tæthed Likelihoodfunktion: p λ (x) λ e x/λ, x 0 L : [0, [ ]0, [ [0, [ L(x, λ) λ e x/λ Estimation af λ i eksponentialfordelingen Log-likelihooden bliver log p λ (x) log λ x λ Score-funktionen (her er kun en score-funktion - hvorfor?) bliver d log p λ (x) dλ λ + x λ 2 λ og likelihood-ligningen giver estimatoren Hvad nu hvis x 0? ( x ) λ λ + x λ 2 0 ˆλ x hvis x > 0 25 26 likelihood for eksponentialfordelingen 0 2 3 4 x0 x0. x0.5 x Hvis x 0 er L(0, λ) λ, dvs der er ingen værdier af λ i parameterområdet for hvilke L(0, λ) antager sin maximumværdi. Maximum likelihood estimatoren er således ikke defineret for x 0. MEN, heldigvis er P λ (X 0) 0 når λ > 0. Maximum likelihood estimatoren er derfor defineret med sandsynlighed. Vi antager fremover at x > 0. 0.0 0.2 0.4 0.6 0.8.0.2 λ Maximum likelihood estimatoren ˆλ(X) er en afledt stokastisk variabel, eksponentialfordelt med skalaparameter λ, da ˆλ X. 27 28

Test i eksponentialfordelingen Funktionsundersøgelse af Q(x) Hypotese: Kvotientteststørrelse: Q(x) L(x, ˆλ 0 ) L(x, ˆλ) Testsandsynlighed: H : λ λ 0 L(x, λ 0) L(x, x) λ 0 e x/λ0 x e x/x x λ 0 e x/λ 0 ɛ(x) P λ0 (Q(X) Q(x)) P λ0 ( X λ 0 e X/λ0 x λ 0 e x/λ0 ) P λ0 (x 0 : x e x /λ 0 x ) e x/λ0 λ 0 λ 0 Q(x) x λ 0 e x/λ0 dq(x) dx λ 0 e x/λ0 }} >0 ( xλ0 ) Q(x) er voksende for x < λ 0 og aftagende for x > λ 0. Derudover er Q(0) 0 og lim x Q(x) 0. Definer q Q(x), da har ligningen Q(x ) q højst to løsninger, x og x 2, hvor x λ 0 x 2. Hvis x λ 0 da er x x. Hvis x λ 0 da er x 2 x. 29 30 Heraf følger x 0 : Q(x ) q} 0 x x } x 2 x } Lad os tegne det i R (se program med kommentarer på hjemmesiden): x <- seq(0,0,0.) Qtest <- function(x,lambda0) (x/lambda0)*exp(-x/lambda0) } lambda0 <- 3 plot(x,qtest(x,lambda0lambda0),type"l",ylab"q(x)") abline(vlambda0,lty2) xobs <- qtest <- Qtest(xobs,lambda0) lines(rep(xobs,2),c(-,qtest),lty2) axis(,atc(xobs,lambda0),labelsc("xobs",expression(lambda)), cex.axi.5) abline(hqtest,lty2) axis(2,atqtest,labels"q(xobs)",cex.axi.5) Vi har x x. Lad os finde x 2 : findx2 <- function(x) abs(qtest(x,lambda0lambda0)-qtest) } x2 <- optimize(findx2,lowerlambda0,upper0)$minimum lines(rep(x2,2),c(-,qtest),lty2) axis(,atx2,labels"x2",cex.axi.5) 3 32

Testsandsynligheden bliver: Q(x) Q(xobs) ɛ(x) P λ0 (x : Q(x ) q) P λ0 0 x x } + P λ0 x 2 x } x e x /λ 0 dx + e x /λ 0 dx 0 λ 0 x 2 λ 0 ] x [ ] [ e x /λ 0 + e x /λ 0 0 x 2 e x/λ0 + e x2/λ0 Hvis for eksempel λ 0 3 og x fås x x og x 2 6.7 (udregnet i R), og xobs λ x x2 Fortolkning? ɛ(x) e /λ0 + e 6.7/λ0 0.39 33 34 Sammenligning af eksponentialfordelinger Statistisk model: ([0, [ 2, (P λ,λ 2 ) (λ,λ 2) ]0, [ 2) Lad være en observation af x (x, x 2 ) hvor P λ,λ 2 (x, x 2 ) λ e x λ Likelihoodfunktion under den fulde model: λ 2 e x 2 λ 2 X (X, X 2 ) der er ekponentialfordelte med skalaparametre λ og λ 2. Vi ønsker at teste hypotesen H : λ λ 2 L : [0, [ 2 ]0, [ 2 [0, [ L(x, x 2, λ, λ 2 ) λ e x λ Maximum likelihood estimator: λ 2 e x 2 λ 2 (ˆλ, ˆλ 2 ) (x, x 2 ) hvis x > 0 og x 2 > 0 35 36

Hypotese: λ λ 2 λ ]0, [ Kvotientteststørrelse: Likelihoodfunktion under hypotesen: Log-likelihood: L : [0, [ 2 ]0, [ [0, [ L(x, x 2, λ) x λ 2 e +x 2 λ l log L(x, x 2, λ) 2 log λ x + x 2 λ Score-funktion: dl dλ 2 λ + x + x 2 λ 2 Maximum likelihood estimator: ˆλ x + x 2 2 x hvis x + x 2 > 0 Q(x, x 2 ) L(x, x 2, ˆλ) L(x, x 2, ˆλ, ˆλ 2 ) L(x, x 2, (x + x 2 )/2)) L(x, x 2, x, x 2 ) ((x +x 2)/2) 2 e (x+x2)/((x+x2)/2) 4x x 2 (x + x 2 ) 2 x e x/x x 2 e x2/x2 37 38 Resultater om normalfordeling X N(µ, σ 2 ). N har tæthed ϕ µ,σ 2(x) exp } (x µ)2 2πσ 2 2σ2 EX µ, Var(X) σ 2 X µ N(0, ) σ Hvis X og X 2 er uafhængige, X r N(µ r, σr), 2 da er X + X 2 N(µ + µ 2, σ 2 + σ2) 2 Hvis X,..., X n er uafhængige og X r N(µ, σ 2 ), da er X n (X +... + X n ) N(µ, σ2 n ) Test i normalfordelingen Observation af x (x,..., x n ) R n X (X,..., X n ) X r N(µ, σ 2 ) er uafhængige, identisk normalfordelte variable med µ R og σ 2 > 0. X har tæthed ϕ µ,σ 2(x) n exp } 2πσ 2 2σ 2 (x s µ) 2 ( 2πσ 2 ) n exp 2σ 2 } (x s µ) 2 39 40

Statistisk model og maximum likelihood estimatoren Vi antager µ ukendt og σ 2 σ 2 0 kendt. Den statistiske model bliver (R n, (N µ ) µ R ) hvor N µ har tæthed } ϕ µ (x) ( exp 2πσ0 2 )n 2σ0 2 (x s µ) 2 Likelihoodfunktionen for µ bliver derfor L : R n R [0, ) L(x, µ) ϕ µ (x) Estimation af µ i normalfordeling med kendt varians Log-likelihooden bliver log ϕ µ (x) n log ( ) 2πσ0 2 2σ0 2 (x s µ) 2 Score-funktionen (her er kun en score-funktion - hvorfor?) bliver d log ϕ µ (x) dµ σ 2 0 (x s µ) og likelihood-ligningen giver estimatoren (er det et maximum?) σ0 2 (x s ˆµ) 0 ˆµ n x s x 4 42 Estimation af µ i normalfordeling med kendt varians Vi får således at maximum likelihood estimatoren er gennemsnittet af målingerne. Vi så tidligere at hvis X,..., X n er uafhængige og X r N(µ, σ 2 ), da er X n (X +... + X n ) N(µ, σ2 n ) Vi får derfor direkte fordelingen af maximum likelihood estimatoren ˆµ N(µ, σ2 0 n ) Vi kunne også direkte have maximeret likelihooden. Der gælder (x s µ) 2 ((x s x) + ( x µ)) 2 (x s x) 2 + ( x µ) 2 + 2 (x s x)( x µ) (x s x) 2 + n( x µ) 2 + 2( x µ) (x s x) (x s x) 2 + n( x µ) 2 (x s x) 2 43 44

Test af hypotesen H : µ µ 0. Kvotientteststørrelse: Q(x) L(x, ˆµ 0) L(x, ˆµ) exp } n ( 2πσ0 2)n 2σ0 2 (x s µ 0 ) 2 exp } n ( 2πσ0 2)n 2σ0 2 (x s x) 2 } exp 2σ0 2 ((x s µ 0 ) 2 (x s x) 2 ) exp } 2σ0 2 n( x µ 0 ) 2 Da hypotesen er simpel, har vi at ɛ(x) P µ0 (Q(X) Q(x)) P µ0 ( 2 log Q(X) 2 log Q(x)) ( P µ0 σ0 2 n( X µ 0 ) 2 ) σ0 2 n( x µ 0 ) 2 ( X µ0 P µ0 σ 0 / n x µ ) 0 σ 0 / n ( X µ0 2P µ0 σ 0 / n x µ ) 0 σ 0 / n ( ( )) x µ0 2 Φ σ 0 / n da X µ 0 σ 0 / n er standard normalfordelt. 45 46