E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω; på baggrund af en observation x skal man undersøge om man kan tillade sig at mene at θ tilhører delmængden Ω 0 af Ω. Dette formuleres kort på den måde at man ønsker at teste den statistiske hypotese H 0 : θ Ω 0. EKSEMPEL 1 SAMMENLIGNING AF BINOMIALFORDELINGER) Lad X 1, X 2,..., X k være uafhængige binomialfordelte stokastiske variable således at X j har kendt) antalsparameter n j og ukendt) sandsynlighedsparameter p j [0, 1]. Her er θ = p 1, p 2,..., p k ) et punkt i Ω = [0, 1] k. Man kunne være interesseret i at undersøge om der er signifikant forskel på p-erne. Det gør man ved at teste den statistiske hypotese om at p-erne er ens; sædvanligvis vil man formulere denne hypotese sådan her: H 0 : p 1 = p 2 =... = p k, men i den generelle formulering skriver vi hypotesen som H 0 : θ Ω 0 hvor Ω 0 = {p 1, p 2,..., p k ) Ω : p 1 = p 2 =... = p k }. EKSEMPEL 2 ENSTIKPRØVEPROBLEMET I NORMALFORDELINGEN) Lad X 1, X 2,..., X n være uafhængige identisk normalfordelte stokastiske variable med middelværdi µ og varians σ 2. Her er θ = µ,σ 2 ) et punkt i Ω = R ]0, + [. Man kunne være interesseret i at undersøge om middelværdien afviger signifikant fra den på forhånd oplyste værdi µ 0. Det gør man ved at teste den statistiske hypotese om at µ er lig med µ 0 ; normalt formulerer man denne hypotese sådan her: H 0 : µ = µ 0, men i den generelle formulering må vi skrive hypotesen som H 0 : θ Ω 0 hvor Ω 0 = {µ 0 } ]0, + [. Der findes forskellige måder at angribe hypoteseprøvningsproblemet på. 1. Man kan anskue det som et beslutningsproblem decisionsproblem) hvor man skal afgøre om man skal agere som som om nulhypotesen H 0 : θ Ω 0 er sand, eller om man skal agere som om den alternative hypotese H 1 : θ Ω 1 er sand, hvor Ω 1 = Ω \ Ω 0. Man taler om at man henholdsvis accepterer H 0 og forkaster H 0. Afgørelsen skal være optimal i en eller anden forstand som nærmere skal præciseres. 2. Man kan anskue det som et led i en modellerings- eller erkendelses- eller forskningsproces hvor man ønsker at konfrontere observationen x med modelforslaget H 0 : θ Ω 0 ; hvis H 0 ikke beskriver x tilstrækkeligt godt, vender man tilbage til grundmodellen θ Ω. Det svar der kommer ud af det, er enten at H 0 forkastes, eller at H 0 ikke kan forkastes på det foreliggende grundlag.
Om hypoteseprøvning 1) Side 2 af 5 I det følgende omtales først den ene, så den anden tilgang. 1 Tests og beslutninger Testteori som handlende om at træffe optimale beslutninger er en disciplin der blev grundlagt i begyndelsen af 1930-erne; to prominente hovedpersoner er Jerzy Neyman og Egon Pearson. Situationen er som følger. Vi har en statistisk model for den stokastiske variabel X; modellen er parametriseret ved parameteren θ; vi ønsker at finde en testprocedure δ som kan bruges for at teste hypotesen H 0 : θ Ω 0 mod alternativet H 1 : θ Ω 1, hvor Ω 1 = Ω \ Ω 0. En testprocedure er en opskrift på hvordan man for en given observation x skal afgøre om H 0 skal accepteres eller forkastes. Da δ kun kan afhænge af x og ikke af den ukendte parameter θ), vil man somme tider komme til at træffe en forkert beslutning, man taler om to typer af fejl: Fejl af type 1 er at forkaste H 0 når den er rigtig. Fejl af type 2 er at acceptere H 0 når den er forkert. Testproceduren skal vælges sådan at såvel sandsynligheden for Type 1 fejl som sandsynligheden for Type 2 fejl er lille. Sagen kompliceres af at disse sandsynligheder typisk afhænger af den sande værdi af θ. For at kunne tale mere præcist om tingene indføres forskellige begreber vedrørende et test eller en testprocedure): 1. Hvis testet er indrettet sådan at der findes en delmængde C af udfaldsrummet S således at H 0 forkastes hvis og kun hvis x C, så kaldes C for det kritiske område eng.: critical region) for testet. 2. I nogle tilfælde se også punkt 5) vil man gerne kunne operere med et såkaldt randomiseret test; derfor indføres en kritisk funktion φx) hvis værdi er sandsynligheden for at testproceduren forkaster H 0 når man har observeret x. For et ikke-randomiseret test er φ lig indikatorfunktionen for det kritiske område. Et randomiseret test fungerer typisk på den måde at for visse x forkastes H 0 uden videre, for andre x accepteres H 0 uden videre, og for atter andre x skal man aktivere en tilfældighedsmekanisme der leverer svarene»forkast«og»acceptér«med sandsynlighederne p og 1 p, hvor p er et tal der kan bestemmes ud fra de krav der stilles til testet.) En standardreference til denne form for testteori men ikke til historien om den) er E.L. Lehmann 1959): Testing Statistical Hypotheses, Wiley. Indikatorfunktionen for en delmængde C af S er funktionen 1 C : S R som har værdien 1 på C og værdien 0 på S \ C.
Om hypoteseprøvning 1) Side 3 af 5 3. Styrkefunktionen eng.: power function) πθ) for et test angiver sandsynligheden for at forkaste H 0, udregnet under forudsætning af at θ er den rigtige parameterværdi. For et ikke-randomiseret test med kritisk område C er πθ) = P θ X C). For et generelt test med kritisk funktion φ er πθ) = E θ φx). 4. Den maksimale sandsynlighed under H 0 ) for fejl af type 1 kaldes testets størrelse eng.: size) og betegnes α: α = sup{πθ) : θ Ω 0 }. 5. Styrkefunktionen skal helst være lille på Ω 0 og stor på Ω 1. Derfor kan man være interesseret i at søge efter et stærkeste test, dvs. et test der maksimalisere styrkefunktionen på Ω 1 samtidig med at størrelsen α ikke må overskride en på forhånd fastsat grænse α 0, det såkaldte signifikansniveau eng.: level of significance). Der er tradition for at man som α 0 tit bruger 5% eller 1%. Hvis man gerne vil have at testets størrelse skal være lig med det valgte signifikansniveau, må man undertiden især i diskrete modeller) benytte randomiserede tests se f.eks. Opgave 1.2). 6. Hvis Ω 0 er en etpunktsmængde, Ω 0 = {θ 0 }, taler man om en simpel hypotese. Hvis Ω 1 er en etpunktsmængde, Ω 1 = {θ 1 }, taler man tilsvarende om et simpelt alternativ. Det modsatte af en simpel hypotese er en sammensat hypotese. 1.1 Simpel hypotese vs. simpelt alternativ Når man skal udvikle og/eller præsentere testteorien, er det en fordel at begynde med det i øvrigt ikke særlig realistiske tilfælde hvor man tester en simpel hypotese H 0 : θ = θ 0 mod et simpelt alternativ H 1 : θ = θ 1. Da er størrelsen af testet blot α = πθ 0 ), og det der skal maksimaliseres, er πθ 1 ) under bibetingelsen πθ 0 ) α 0 dvs. man ønsker at minimalisere sandsynligheden 1 πθ 1 ) for fejl af type 2, samtidig med at sandsynligheden for fejl af type 1 ikke må overskride α 0 ). Lad os sige at sandsynlighedstætheds)funktionen for X under H 0 hhv. H 1 er f 0 x) hhv. f 1 x). Det virker umiddelbart som en fornuftig ting at bruge en testprocedure der accepterer H 0 hvis kvotienten f 0 x)/ f 1 x) er stor, og forkaster H 0 hvis samme kvotient er lille, dvs. den kritiske funktion er af formen 0 hvis f 0 x)/ f 1 x) > k φ x) = γ hvis f 0 x)/ f 1 x) = k 1) 1 hvis f 0 x)/ f 1 x) < k for passende valg af k ]0, + [ og γ [0, 1]. Det fundamentale Neyman-Pearson lemma fortæller at φ faktisk er det stærkeste test på niveau α i den forstand at det maksimaliserer styrkefunktionen i θ 1 under den bibetingelse at størrelsen er α:
Om hypoteseprøvning 1) Side 4 af 5 SÆTNING 1.1 I den ovenfor beskrevne situation gælder: 1. Til et givet α [0, 1] findes konstanter k og γ således at det test δ hvis kritiske funktion er givet ved 1), er et test med størrelse α. Lad δ være et andet test for H 0 mod H 1. Lad π og π betegne styrkefunktionerne for δ og δ. 2. Hvis størrelsen af δ er højst α, så er δ stærkere end δ, dvs. π θ 1 ) πθ 1 ). BEVIS Notation: Vi skriver P 0 og E 0 hhv. P 1 og E 1 for sandsynligheder og middelværdier udregnet under hhv. H 0 og H 1. Den kritiske funktion for δ er φ. Ad 1. Størrelsen af testet δ er E 0 φ X) = P 0 f0 X)/ f 1 X) < k ) + γ P 0 f0 X)/ f 1 X) = k ). 2) Det følger af de almindelige egenskaber ved sandsynligheder at funktionen Gk) = P 0 f0 X)/ f 1 X) < k ) er voksende og venstrekontinuert og har grænseværdierne 0 og 1 i hhv. 0 og + ; desuden er størrelsen af et eventuelt spring lim Gk + k) Gk) = P 0 f0 X)/ f 1 X) = k ). Heraf følger alt i alt at k 0 højresiden af 2) kan bringes til at antage enhver værdi mellem 0 og 1. Ad 2. Først skriver vi op hvad man kan slutte om visse størrelser ud fra kendskabet til om φ er 0 eller 1 eller indimellem: φ x) = 0 k f 1 x) f 0 x) < 0, φ x) φx) 0 φ x) ]0, 1[ k f 1 x) f 0 x) = 0 φ x) = 1 k f 1 x) f 0 x) > 0, φ x) φx) 0 Heraf ses at der for alle x gælder at φ x) φx) ) k f 1 x) f 0 x) ) 0 eller k φ x) φx) ) f 1 x) φ x) φx) ) f 0 x). Ved at integrere/summere på begge sider af det sidste ulighedstegn fås k E 1 φ X) E 1 φx) ) E 0 φ X) E 0 φx) = α E 0 φx) 0, og da k > 0, følger heraf at E 1 φ X) E 1 φx), dvs. π θ 1 ) πθ 1 ). Hvis ovennævnte ulighedstegn faktisk er lighedstegn, dvs. hvis de to tests er lige stærke, så kan man ved at regne baglæns indsé at φx) = φ x) for næsten alle x for hvilke φ x) ikke er 0 eller 1. Det stærkeste test er altså stort set entydigt bestemt.)
Om hypoteseprøvning 1) Side 5 af 5 1.2 Opgaver Opgaver fra DeGroot: 8.1.3. OPGAVE 1.1 VARIANT AF DEGROOT S OPGAVE 8.2.4) Man har observeret x 1, x 2,..., x n fra en normalfordeling med middelværdi µ og varians 1. Man ønsker at teste hypotesen H 0 : µ = 3.5 mod alternativet H 1 : µ = 5. Find det stærkeste test med størrelse α = 0.05. OPGAVE 1.2 Man søger en testprocedure der kan bruges når man har en observation fra en binomialfordeling med antalsparameter n = 5 og ukendt sandsynlighedsparameter θ, og man ønsker at teste hypotesen H 0 : θ = 1 / 2 mod alternativet H 1 : θ = 2 / 3. Gør rede for at der ikke findes noget ikke-randomiseret test med størrelse α = 0.05. Find det stærkeste test med størrelse α = 0.05.