Test af statistiske hypoteser

Transkript

1 Kapitel 8 Test af statistiske hypoteser De inferensmæssige procedurer, vi hidtil har beskæftiget os med, har haft til formål at lokalisere den sande parameter så godt som muligt, og at beskrive hvor mange parametre man kunne forestille sig beskrev de gjorte målinger. Nogle gange er man imidlertid interesseret i et mere specifikt forsøg på afgrænsning af de mulige parametre. Situationen kan være den, at man på forhånd har udvalgt sig visse parametre, og den inferensmæssige hovedvægt kan ligge på om en eller flere af de udvalgte parametre beskriver målingerne. I så fald taler man om statistiske hypoteser, som man forholder sig til ved hjælp at statistiske test. Definition 8.1 Lad P være en statistisk model på (X, E). En statistisk hypotese er en delmængde P 0 P. Denne formelle matematiske definition rammer i et vist omfang ved siden af. Det egentlige indhold i den statistiske hypotese er den underforståede påstand: at det sande sandsynlighedsmål bag eksperimentet ligger i delmængden P 0. Det inferensmæssige problem er, hvorvidt man på baggrund af eksperimentet tror på denne påstand eller ej. Hvis man tror på den, siger man at hypotesen accepteres, hvis man ikke tror på den, siger man at hypotesen forkastes. Hvis man accepterer hypotesen, vil man typisk arbejde videre med den lille statistiske model P 0, og se bort fra at man oprindeligt havde flere sandsynlighedsmål med i modellen. 43

2 44 Kapitel 8. Test af statistiske hypoteser Hvis modellen er parametriseret (ν θ ) θ Θ, så vil hypotesen repræsenteres af en delmængde Θ 0 Θ. Vi skriver ofte H : θ Θ 0, (8.1) når vi formelt vil introducere en hypotese, og vi taler derefter om hypotesen H. Komplementærmængden Θ \ Θ 0 kaldes da alternativet (til H). Hvis hypotesen består af ét punkt, Θ 0 = {θ 0 }, taler man om en simpel hypotese - hypoteser med mere end én parameter kaldes sammensatte. I praksis er alle hypoteser, der fortjener at blive behandlet seriøst, naturligvis sammensatte. Definition 8. Et test af en hypotese H er en opdeling af repræsentationsrummet X i to dele: en acceptmængde A X af mulige udfald, der i vores opfattelse bekræfter hypotesen. Og en kritisk mængde K = X \ A af mulige udfald, der opfattes som uforenelige med hypotesen. Hvis vi observerer et punkt i A accepterer vi hypotesen, hvis vi observerer et punkt i K forkaster vi den. Et test af en simpel hypotese H : θ = θ 0, er på sin vis blot en konkordansundersøgelse af ν θ0. Men denne konkordansundersøgelse er farvet af, at vi går ud fra at mindst ét af sandsynlighedsmålene (ν θ ) θ Θ faktisk er i konkordans med data. I kapitel 1 var en sådan større model ikke inde i billedet. Eller anderledes formuleret: denne gang har vi et eksplicit alternativ. Sammenhængen med konkordansundersøgelser er mindre gennemsigtig for sammensatte hypoteser. Det er dog intuitivt klart at der er en sammenhæng, og vi vil belyse sammenhængen om et øjeblik. 8.1 Hvad er en hypotese? Den formelle definition af en hypotese indikerer at alle delmængder af Θ kan fungere som hypoteser. I særdeleshed antyder den en symmetri mellem en hypotese og dens alternativ, der skifter rolle blot ved en navneombytning. Men denne symmetri er misvisende: hypotesen og dens alternativ bliver behandlet vidt forskelligt, og der er ret snævre grænser for hvilke delmængder af Θ man vil kalde en statistisk hypotese.

3 8.1. Hvad er en hypotese? 45 I almindeligt videnskabeligt arbejde spiller begrebet arbejdshypotese en vigtig rolle. En arbejdshypotese er en påstand om verdens indretning, en påstand som giver en sammenhæng mellem ellers adskilte begreber. Sådanne hypoteser kan være ganske vidtløftige, og de vinder kun gehør hvis de er i stand til at forklare eksperimentelle kendsgerninger på en måde som ingen konkurrerende arbejdshypotese kan. Statistikerens brug af ordet hypotese går i stik modsat retning. Statistikerens hypoteser siger altid at verden er simpelt indrettet - i den forstand at den kan beskrives med få parametre. Vi vil tro på at verden er simpel, medmindre det viser sig at være i modstrid med eksperimentelle kendsgerninger. Det kaldes gerne Occams ragekniv: brug aldrig en kompliceret forklaring, hvis en simpel forklaring er tilstrækkelig. I det praktiske samarbejde mellem statistikere og andre videnskabsmænd, volder denne terminologiforskel ofte kvaler. En biolog med en forestilling om at en vis eksposition har betydning for udvikling af en bestemt kræftform, vil formulere arbejdeshypotesen: Der er en sammenhæng mellem eksposition og kræft. Han må opleve statistikeren reformulere hans hypotese til ukendelighed, for den statistiske hypotese vil lyde: Der er ingen sammenhæng mellem eksposition og kræft. Biologens hypotese gør ham klogere på verden (hvis hypotesen er sand, naturligvis), mens statistikerens hypotese hævder at verden er simpel at beskrive - i den forstand at der ikke findes en svært beskrivelig sammenhæng at bekymre sig om. Når biologen og statistikeren sammen analyserer eksperimentets data, kan de meget vel drage stik modsatte konklusioner! Lad os antage at data viser en svag stigning i kræftincidensen med stigende eksposition. Biologen vil da opfatte at data understøtter hans oprindelige arbejdshypotese. Men statistikeren hæfter sig ofte mere ved at evidensen er svag, at stigningen ikke er større end hvad der kan skyldes ren og skær tilfældighed. Og han konkluderer derfor at data er i overensstemmelse med den statistiske hypotese: han accepterer sin hypotese, som det hedder. Og i overensstemmelse med Occams ragekniv, nægter han at tage biologens arbejdshypotese for gode varer. Det er ikke helt det samme som at sige at biologens arbejdshypotese er forkert: den besked biologen får, er at hans eksperiment ikke er godt nok til at overbevise en professionel skeptiker. Hvis han virkelig tror på sin arbejdshypotese, må han designe et nyt og større og bedre eksperiment, der kan overbevise alle - selv statistikeren. Mange offentlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt man søger støtte til mere eller mindre vilde hypoteser, eller om man insisterer på så vidt som overhovedet muligt at bruge simple beskrivelser. Statistikere er - i modsætning til mange andre videnskabsfolk - et konservativt og kritisk folkefærd, der påtager sig en neddæmpende rolle.

4 46 Kapitel 8. Test af statistiske hypoteser Karakteristisk for arbejdshypoteser er at de ofte svæver ret frit i luften, uden at være forankrede i en model. Statistiske hypoteser er derimod per definition formulerede indenfor en model. Selve modelbygningen foregår således ofte i en mellemfase: efter at arbejdshypotesen er fremsat, men før den deraf afledte statistiske hypotese er formuleret. Faktisk er det ofte en meget vigtig motivation for valg af model, at den tillader en præcis formulering af en hypotese, relateret til den oprindelige arbejdshypotese. I parametriske sammenhænge, hvor Θ R k, er der to typer af hypoteser, der ofte forekommer. Hvis θ = (θ 1,..., θ k ) er den fulde parameter, betragter man en hypotese af formen eller H : θ 1 = = θ i, H : θ 1 = = θ i = 0, for et passende i mellem 1 og k. Mere abstrakt foretrækker man som regel at formulere sine hypoteser ved hjælp af en parameterfunktion τ : Θ R m, hvor hypotesen er af formen H : τ(θ) = ψ 0, for et passende ψ 0 R m. Hypotesens indhold er altså at den sande parameter befinder sig i originalmængden τ 1 ({ψ 0 }). Fordelen ved denne måde at specificere en delmængde af Θ på, er at man indbygger en kvantitativ måde at tale om afvigelser fra hypotesen: jo længere den sande τ-værdi ligger fra ψ 0, jo mere forkert er hypotesen. Definition 8.3 Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E), og antag at parametermængden Θ er en åben delmængde af R k. Hvis τ : R k R k m er en surjektiv, lineær afbildning, siger vi at H : τ(θ) = 0, er en lineær hypotese af dimension m, mens H : τ(θ) = ψ 0, for et vilkårligt ψ 0 R k m er en affin hypotese af dimension m.

5 8.1. Hvad er en hypotese? 47 En lineær hypotese er specielt en affin hypotese. Skulle man have behov derfor, kan en affin hypotese altid reformuleres som en affin hypotese ved en affin omparametrisering af den oprindelige model. Begge begreber er afhængige af den konkrete parametrisering. Skifter man parametrisering, vil de lineære og affine hypoteser i almindelighed høre op med at være lineære og affine: reparametriseringen vil som regel gøre hypoteserne krumme i større eller mindre grad. Definition 8.4 Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E), og antag at parametermængden Θ er en åben delmængde af R k. En glat hypotese af dimension m har formen H : τ(θ) = ψ 0, for et ψ 0 R k m, hvor τ : R k R k m er en C -afbildning, og hvor alle punkter i hypotesen er regulære for τ, altså at Dτ(θ) har rang k m hvis τ(θ) = ψ 0. Affine og lineære hypoteser er oplagt glatte. Det er sjældent at man i praksis ser på hypoteser, der ikke er affine, men klassen af glatte hypoteser har den teoretiske fordel at den ikke afhænger (særlig meget) af den konkrete parametrisering: Omparametriserer man sin model med en C -diffeomorfi, vil glatte hypoteser vedblive at være glatte. Eksempel 8.5 Hvis vi ser på afbildningen τ : R R givet ved τ(x, y) = x + y, konstaterer vi at billedmængden er [0, ). Der er to slags niveaukurver: for r > 0 er τ 1 ({r}) en cirkel med radius r - prototypen på en etdimensional delmængde af planen. Derimod er τ 1 ({0}) en etpunktsmængde, bestående af selve nulpunktet. Og ingen vil vist finde på at påstå at en etpunktsmængde i planen har dimension 1 - hvis den har en dimension, må det være 0.

6 48 Kapitel 8. Test af statistiske hypoteser Den kvalitative forskel i originalmængdernes karakter reflekteres i den første afledte af τ: Dτ(x, y) = ( x ; y ). Alle andre steder end i nulpunktet har Dτ rang 1 - men i nulpunktet har den rang 0. I ikke-parametriske sammenhænge, hvor Θ er uendeligdimensional, kan hypoteserne forekomme mere indviklede. Hvis modellen foreskriver at X 1,..., X n er uafhængige reelle variable, men potentielt med forskellige fordelinger, så kan hypotesen være at de alle har samme fordeling - uden at man specificerer hvilken fordeling der er tale om. En finere hypotese kan være at denne fælles fordeling er symmetrisk omkring medianen. Og en endnu finere hypotese kan være at den fælles fordeling er symmetrisk om 0. På trods af at disse hypotesers på overfladen kan virke mere tekniske, falder ikke-parametriske test ofte ganske naturligt ud. Og på mange måder fremtræder testteori i sin reneste og simpleste form i ikke-parametriske modeller. Vi vil diskuterer ikke-parametriske test i afsnit 8.7 og i en række opgaver. 8. Styrkefunktionen af et test Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). Hvis man har opstillet en statistisk hypotese H : θ Θ 0, der altså er en påstand om en modelforenkling i forhold til den oprindelige model, så vil man ønske at sammenholde den med data, for at se om den simplere beskrivelse dækker virkeligheden. Det foregår ved hjælp af et test. Når man tester en hypotese, kan man komme til at begå to typer fejl: man kan komme til at afvise hypotesen selv om den er sand. Det kaldes en fejl af type I, og muligheden for type I fejl betragtes i de fleste sammenhænge som et meget alvorligt problem. Vi har allerede, i forbindelse med konkordansundersøgelser, beskæftiget os en del med denne type fejl, og vi ved at man ikke kan slippe uden om problemet, kun søge at minimere det. Den anden type fejl man kan begå, er hvis man accepterer hypotesen selv om den er falsk. Dette kaldes en fejl af type II. De to typer fejl er knyttet sammen på en uheldig måde, sådan at hvis man gør meget ud af at gardere sig mod den ene type fejl, så åbner man op for mulighederne for den anden type fejl.

7 8.. Styrkefunktionen af et test 49 Når type I fejl opfattes som de værste, er det på grund af statistiske hypotesers konservative karakter: en accepteret hypotese vil lede til at man opretholder status quo, mens en forkastet hypotese ofte vil lede til at man ændrer arbejdsgang. I forbindelse med afprøvning af en ny type medicin, vil man sammenligne effekten af den nye medicin med den medicin der allerede er i brug. Hypotesen vil da være at de to typer medicin virker lige godt. Hvis denne hypotese accepteres, så vil konklusionen være business as usual : man vil fortsætte med at give det gamle medikament i alle praktiske sammenhænge. Hvis hypotesen forkastes, vil eksperimentet derimod ofte føre til en anbefaling af at man går væk fra det gamle medikament, og erstatter det af det nye. En type I fejl i dette eksempel, betyder at man anbefaler en udskiftning af medicintypen, skønt udskiftningen i virkeligheden ingen effekt har. Lægevidenskabens historie er fuld af påståelighed og kvaksalveri (det er først i moderne tid at lægerne er begyndt at kurere flere patienter end de slår ihjel), og moderne medicin er meget fokuseret på at undgå kvaksalveri - slagordet er evidensbaseret behandling, og det skal i høj grad forstås som et kampråb mod type I fejl. En type II fejl betyder at man holder fast i den gamle medicin, skønt den nye er mere effektiv. Det er selvfølgelig uheldigt, især hvis effekten er markant, men det betragtes som mindre uetisk end at ryge ud ad tangenten med en forkert behandling. Og fejlen bliver forhåbentlig opdage siden hen. Hvis en fejlagtig behandling først er indført, kan det tage århundreder at udrydde den igen. Generelt ønsker man derfor at kontrollere niveauet for type I fejl. Samtidig ønsker man naturligvis så få type II fejl som muligt, men dette ønske har lavere prioritet. Hvis vi har afgrænset en acceptmængde A X, og en dertil hørende kritisk mængde K = X \ A for hypotesen H, så vil niveauet for begge typer fejl beskrives af testets styrkefunktion γ : Θ [0, 1], givet ved γ(θ) = P θ (X K). Styrkefunktionen er altså sandsynligheden for at komme til at afvise hypotesen, betragtet som funktion af parameteren θ. Type I fejlene beskrives af γ-værdier over Θ 0 - disse sandsynligheder bør være så lave som muligt. Type II fejlene beskrives af γ-værdier over Θ \ Θ 0, disse bør være så høje som muligt. Vi definerer størrelsen af testet som sup γ K (θ). θ Θ 0

8 50 Kapitel 8. Test af statistiske hypoteser Som regel kender man ikke størrelsen præcist, men man ved måske at sup γ K (θ) α (8.) θ Θ0 for et passende α (0, 1). I så fald taler man om test på niveau α. Hvis testets faktiske størrelse er væsentligt mindre end det nominelle niveau, siges testet at være konservativt. Det ville være fint nok, hvis det ikke var fordi det øger muligheden for at begå fejl af type II. Et godt test på niveau α opfylder at γ K (θ) er stor for θ Θ \ Θ 0 - man taler da om at testet har stor styrke (under alternativet). Hvis testet er konservativt, vil det have ringe styrke, i hvert fald overfor alternativer tæt på hypotesen, se f.eks. figur 8.1. En sammenligning af to test på niveau α foregår ved at sammenligne styrkefunktionerne på Θ \ Θ 0. Desværre er det næsten altid sådan at det ene test har størst styrke i visse områder af alternativet, mens det andet test har størst styrke i andre. Der findes ikke noget enkelt test, der er bedre end alle andre. Hvilket test man vil foretrække, afhænger derfor helt af hvilke afvigelser fra hypotesen man er mest på vagt overfor. Og der er plads til megen kreativitet, når der skal konstrueres test med stor styrke overfor helt specifikke alternativer. Eksempel 8.6 Lad X 1,..., X n være uafhængige og identisk fordelte stokastiske variable med P p (X i = 1) = p, P p (X i = 0) = 1 p. Vi ønsker at teste den simple hypotese H : p = 1. på et 5% niveau. Det er naturligt at basere argumentionen på summen S n = X X n, der er binomialfordelt med længde n og successandsynlighed p. Under hypotesen er S således binomialfordelt med længde n og successandsynlighed 1/. Eftersom hypotesen er simpel, er et test ækvivalent med et konkordansområde. For den symmetriske binomialfordeling er et naturligt konkordansområde A n = {c n,..., n c n }

9 8.. Styrkefunktionen af et test 51 med tilhørende kritisk område K n = {0, 1,..., c n 1} {n c n + 1,..., n 1, n}. (8.3) Her er c n bestemt så stor som muligt, under den betingelse at P p (S n K n ) 0.05 hvis p = 1. Det foregår helt som i eksempel Man finder f.eks. at c 10 =, at c 100 = 40 og at c 1000 = 469. PSfrag replacements P(S n Kn) p Figur 8.1: Styrkefunktion for test af symmetri i den simple møntkastmodel, for n = 10 (fuldt optrukket linie), n = 100 (stiplet linie) og n = 1000 (prikket linie). Testet er baseret på det kritiske område K n fra (8.3). Den vandrette linie svarer til testets nominelle styrke på 5%. Styrkefunktionen er tegnet op i figur 8.1 for forskellige værdier af n. Vi ser at kvaliteten af testet forbedres dramatisk med stigende n. For n = 10 betyder diskretiseringsfænomener at testets faktiske størrelse er klart under de nominelle 5%. Endvidere er der en ganske betydelig risiko for type II fejl: selv hvis det sande p er så markant uden for hypotesen som p = 0., er der over 50% sandsynlighed for observere en S 10 -værdi indenfor acceptområdet, og dermed er der stor sandsynlighed for at man kommer til at acceptere hypotesen. For n = 1000 er diskretiseringsfænomenerne ikke længere synlige, så testets størrelse stemmer fint overens med de nominelle 5%. Og man skal ikke ret langt væk fra hypotesen, før der er stor sikkerhed for at den forkastes. Læseren bør i øvrigt prøve at forestille sig hvordan styrkefunktionen ser ud for

10 5 Kapitel 8. Test af statistiske hypoteser n = det var dette test vi udførte i eksempel 1.1, skønt vi ikke formulerede det på den måde, og skønt vi da ikke havde eksplicitte alternativer. I eksempel 8.6 faldt det relativt let at afgrænse et fornuftigt kritisk område. Det er fordi eksemplet er kunstigt let: parameteren er étdimensional og hypotesen er simpel. Realistiske eksempler involverer altid flerdimensionale parametre og sammensatte hypoteser. Som vi skal se, vil blot en lille modifikation af eksempel 8.6 give vanskeligheder i en helt anden klasse. Eksempel 8.7 Mange mennesker arbejder lang tid hver dag ved en computerskærm, og det er et almindeligt problem at refleksioner fra skærmen opleves som en stor gene. Moderne skærme kan i et vist omfang justeres, sådan at brugeren har mulighed for at beskytte sig selv mod refleksionerne. For at undersøge om de nye skærme vitterligt har den ønskede effekt, har man foranstaltet et eksperiment: 130 mennesker, hvoraf halvdelen arbejdede ved ældre, ikke-justerbare skærme, mens den anden halvdel arbejdede ved justerbare skærme, blev spurgt om de havde gener af skærmrefleksioner. Svarene er opsummeret i tabel 8.1. Ingen gener Gener Gammel skærm Justerbar skærm 7 38 Tabel 8.1: Data fra undersøgelse af gener fra skærmrefleksioner. En model der tillader en præcis formulering af den underliggende problemstilling er møntkastmodellen med to mønter. Lad X 1,..., X 65, Y 1,..., Y 65 være uafhængige variable, og lad P(X i = 1) = p 1, P(X i = 0) = 1 p 1, P(Y i = 1) = p, P(Y i = 0) = 1 p. (8.4) Udfaldet 1 symboliserer at forsøgspersonen oplever gener ved skærmrefleksioner, udfaldet 0 symboliserer at vedkommende ikke oplever ubehag. Vi lader endvidere X erne svare til personer med gamle skærme, mens Y erne svarer til personer med justerbare skærme. Når vi får brug for at referere til sandsynlighedsmålet bestemt ved (8.4), skriver vi P p1,p. I denne ramme kan den underliggende forestilling om at de justerbare skærme mindsker generne ved refleksion, udtrykkes i påstanden p 1 > p. Den statistiske tilgang til

11 8.. Styrkefunktionen af et test 53 at undersøge denne påstand, er at formulere hypotesen H : p 1 = p. Det er en sammensat hypotese, for vi siger ikke noget om hvad den fælles værdi af p 1 og p skal være. Der er et frit etdimensionalt spillerum inden i det oprindelige todimensionale parameterområde. Hvis hypotesen H accepteres, så fortolker vi det på den måde at forsøget ikke understøtter forestillingen om at de justerbare skærme gør en forskel. Hvis man er mere forsigtig, formulerer man det på den måde at en eventuel forskel må være lille, for vi kan ikke få øje på den. Hvis vi derimod forkaster hypotesen, siger vi at der er signifikant forskel på p 1 og p, og vi kan bekræfte forestillingen bag forsøget. Formentlig, i hvert fald, for den blotte forkastelse af H tillader jo i princippet at p 1 < p ligeså vel som at p 1 > p. Men fortolkningen af en forkastet hypotese er i regelen ret ligetil. Eksperimentet har repræsentationsrum X = {0, 1} 65 {0, 1} 65. Vi vælger at basere testet af H på størrelsen X Y = 65 i=1 X i Modellen foreskriver at både X og Y er binomialfordelte med længde 65, og potentielt med forskellige successandsynligheder. Men hvis de to successandsynligheder er ens, vil X Y formentlig være lille. Vi fortolker derfor små værdier af X Y som værende i overensstemmelse med hypotesen, mens store værdier er kritiske. Derfor konstruerer vi et acceptområde af formen hvor vi har indført betegnelserne 65 i=1 Y i. A c = {(x, y) x y c}, (8.5) x = 65 i=1 x i, y = 65 i=1 y i.

12 54 Kapitel 8. Test af statistiske hypoteser PSfrag replacements y x Figur 8.: Acceptområdet A c fra (8.5) med c = 10, tegnet op i (x, y )-planen. Acceptområdet er området mellem de to stiplede linier. De faktiske observationer fra tabel 8.1 er repræsenteret som en firkant. Hvordan skal vi vælge afgrænsningen? Det fundamentale er betingelse (8.), lad os sige med α = Den mest oplagte fremgangsmåde er simpelthen at undersøge funktionen p P p,p ( X Y c) for forskellige værdier af c, sådan som det er gjort på figur 8.3. Man finder ved denne undersøgelse at P p,p ( X Y 11) for alle p (0, 1), og at dette c er det mindste med den ønskede egenskab. Det betyder at vi vil opfatte en X Y -værdi på 1 eller derover som kritiske for hypotesen H. Bemærk det ubehagelige fænomen at sandsynligheden for at gøre en observation i acceptområdet varierer under hypotesen. Hvis det fælles p er 0.5, vil sandsynligheden for at gøre en observation i A være tæt på 95%. Men hvis det fælles p er meget lille (eller meget stort), vil den tilsvarende sandsynlighed være stort set 100%. Testet bliver konservativt, og det bliver svært at se at p 1 p, hvis begge sandsynligheder er små (eller store). Bemærk også at X Y -værdien for data i tabel 8.1 lige præcis er 1, så på baggrund af de gjorte observationer kan vi forkaste H.

13 8.. Styrkefunktionen af et test 55 PSfrag replacements P( X Y c) p PSfrag replacements P( X Y c) p Figur 8.3: Sandsynligheden for under hypotesen H at gøre en observation i acceptområdet A c som funktion af den fælles successandsynlighed p. Den vandrette streg repræsenterer en sandsynlighed på Til venstre er c = 5, til højre er c = 10. Vi ser at der er behov for et c en smule større end 10 hvis (8.) skal opfyldes. Faktisk er c = 11 stor nok. En mere overslagsagtig måde at finde det kritiske område på, baserer sig på normalfordelingsapproksimationer. Hvis den fælles sandsynlighed er p, så er X N(65 p, 65 p(1 p)) og tilsvarende for Y. Da X og Y er uafhængige, er X Y N(0, 130 p(1 p)). Denne approksimation leder til en kritisk værdi på p(1 p). Dette maksimeres for p = 1/, hvor det er Overslagsregningerne leder os derfor også til at bruge 1 som den mindste kritiske X Y -observation. Lad os undersøge styrken af testet af H, baseret på det kritiske område K 11 = {(x, y) x y > 11}. Vi interesserer os altså for styrkefunktionen γ(p 1, p ) = P p1,p ( X Y > 11). (8.6) Denne styrkefunktionen er optegnet i figur 8.4. Hvis der indgik flere subjekter i undersøgelsen, ville man naturligvis få en skarpere aftegnet dal. Bemærk hvordan dalen vider sig ud i diagonalens ender, og faktisk synker fra niveauet 0.05 til niveauet 0. Hvis p 1 p, men begge sandsynligheder er tæt på nul

14 p 56 Kapitel 8. Test af statistiske hypoteser γ PSfrag replacements p 1 Figur 8.4: Styrkefunktionen (8.6) for et test af hypotesen H ved hjælp af det kritiske område K 11. (eller en), så bliver det svært at afsløre at H er falsk. Denne effekt opstår fordi vi måler overensstemmelsen mellem observation og hypotese ved hjælp af størrelsen X Y. I praksis vil man bruge andre målestokke uden en tilsvarende defekt. 8.3 Teststørrelser I praksis vil man ofte foretage afgrænsningen mellem acceptområde og kritisk område ved hjælp af en teststørrelse q : X R hvor man er i stand til at fortolke q-værdien. Typisk forsøger man at konstruere teststørrelsen sådan at q(x) er lille, hvis x er i god overensstemmelse med hypotesen, og sådan at q(x) er stor, hvis x er i dårlig overensstemmelse med hypotesen. Men teststørrelser med andre fortolkninger forekommer også. Hvis vi har konstrueret en teststørrelse q med standardfortolkningen om at småt er godt for hypotesen, så leder det naturligt til acceptområdet A = {x X q(x) < z},

15 8.3. Teststørrelser 57 for et passende z, der er rettet ind, så testet får det ønskede niveau. Vi skal altså bestemme z så P θ (q(x) < z) 1 α for alle θ Θ 0. Bemærk at kun parametrene under hypotesen indgår, når man skal afgrænse stort fra småt. Vi har allerede set eksempler på hvordan man bruger teststørrelser. I eksempel 8.6 forekom det naturligt at erstatte sekvensen af 0 ere og 1 ere (X 1,..., X n ) af summen S = X X n, fordi afvigelser af S fra den forventede værdi n/ kunne forstås som afvigelser fra hypotesen om at successandsynligheden er 1/. Tilsvarende, i eksempel 8.7 forekom det om ikke naturligt, så dog nogenlunde meningsfuldt, at erstatte de to sekvenser (X 1,..., X n ) og (Y 1,..., Y n ) med størrelsen X Y, fordi afvigelser af denne størrelse fra nul, kunne forstås som afvigelse fra hypotesen om at de to successandsynligheder er ens. Muligheden for at fortolke den anvendte teststørrelse er essentiel. Derfor er det svært at give generelle retningslinier for hvordan man skal vælge teststørrelser - det afhænger af det konkrete problem. Vi skal i afsnit 8.5 diskutere en generel procedure til at finde teststørrelser. Men i konkrete problemer kan ad hoc teststørrelser ofte fungere bedre (dvs. at testet får større styrke mod de alternativer man er bange for) end de teststørrelser, der er udledt efter generelle principper. En virkeligt vellykket teststørrelse q er niveaukonstant. Det vil sige at fordelingen af q(x) under P θ ikke afhænger af det konkrete θ, så længe θ blot ligger i Θ 0. I så fald kommer testet ud på at foretage en konkordansundersøgelse af den gjorte q- værdi mod q(x)-fordelingen under hypotesen. Det kan munde ud i en accept/forkast konklusion, eller det kan munde ud i en p-værdi, som i afsnit 1.6. Det er på den anden side vigtigt at fordelingen af q(x) under P θ faktisk varierer med θ: Når vi ser på parametre i alternativet Θ\Θ 0 skulle vi gerne få helt andre fordelinger frem, ellers vil testet have forsvindende styrke, og kan ikke bruges til noget. Mange i praksis anvendte teststørrelser er strengt taget ikke niveaukonstante. Men de er approksimativt niveaukonstante. I et typisk tilfælde er q(x) approksimativt χ - fordelt med k frihedsgrader under P θ for alle θ Θ 0. Det betyder at fordelingerne næppe er ens, og der er sikkert ingen af dem der faktisk er χ -fordelte. Men man kan med fornuft udføre en approksimativ konkordansundersøgelse, hvis man er opmærksom på de forskelle mellem nominelle og faktiske niveauer, det introducerer.

16 58 Kapitel 8. Test af statistiske hypoteser To teststørrelser q 1, q : X R (med tilhørende fortolkninger) kaldes ækvivalente hvis de for alle niveauer α (0, 1) fører til samme acceptområde A α X. Hvis de to teststørrelser er ækvivalente, siger man nogle gange at q 1 -testet kan udføres som et q -test (og omvendt). Hvis q : X (0, ) er en teststørrelse med fortolkningen at små q-værdier er i overensstemmelse med hypotesen, mens store q-værdier ikke er det, og hvis φ : (0, ) (0, ) er en voksende, bijektiv afbildning, så er q og φ q ækvivalente teststørrelser. Hvis ψ : (0, ) (0, ) er en aftagende, bijektiv afbildning, så er q og ψ q også ækvivalente, blot man husker at ψ q har den modsatte fortolkning af q: små værdier er i dårlig overensstemmelse med hypotesen, mens store værdier er i fin overensstemmelse. Eksempel 8.8 Betragt den simple normalfordelingsmodel, hvor X 1,..., X n er uafhængige reelle stokastiske variable, der hver især er N(ξ, σ )-fordelt med ukendt middelværdi og varians. Vi ønsker at teste hypotesen H : ξ = 0. (8.7) Det tekniske udgangspunkt for vores undersøgelse er de to størrelser X = 1 n n X i og SSD = i=1 n (X i X ), i=1 som er uafhængige, henholdsvis N(ξ, σ /n)-fordelt og χ -fordelt med n 1 frihedsgrader og skalaparameter σ. Hvis hypotesen er sand, vil vi forvente at X er omtrent nul. Men hvor stor en afvigelse fra nul, der er acceptabel, afhænger jo i høj grad af hvor stor σ er. Vi kan få information om σ ud fra SSD-størrelsen, og derfor skal vi vurdere størrelsen af X i forhold til SSD. Detaljerne i sammenvejningen kan foregå på forskellige måder, og det leder frem til tre klassiske teststørrelser. Den ældste teststørrelse er T-teststørrelsen T = n X SSD/(n 1), hvor værdier langt fra nul (både positive og negative) opfattes som kritiske for hypotesen. Normeringen af T-størrelsen sikrer at hvis hypotesen er sand, så følger T en

17 8.3. Teststørrelser 59 T-fordeling med n 1 frihedsgrader, uanset hvad det sande σ er, så teststørrelsen er niveaukonstant. Student indførte i 1907 T-fordelingen, netop for at studere denne teststørrelse, og han gjorde mere: han tabellerede fordelingen. Dermed gjorde han det praktisk muligt at udføre T-testet - indtil da havde man simpelthen ganske vist brugt T-størrelsen, men man havde lukket øjnene og ladet som om den var standard normalfordelt, en handlemåde der giver problemer med for mange type I fejl i forhold til det nominelle niveau α, især hvis n er lille. Acceptområdet for testet af H, baseret på T, på niveau α er givet ved at z α < T < z α, hvor z α er 1 α -fraktilen i t-fordelingen med n 1 frihedsgrader. Dette område kommer til verden ud fra et centralt konkordansområde for t-fordelingen. Vi kan indføre den såkaldte ikke-centrale t-fordeling med k frihedsgrader og ikkecentralitetsparameter η som fordelingen af U + η V, (8.8) hvor U og V er uafhængige, reelle variable, sådan at U er N(0, 1)-fordelt, mens V er χ -fordelt med k frihedsgrader og skalaparameter 1/k. Hvis η = 0, er (8.8) den sædvanlige operative procedure til at fremstille en variabel med en klassisk t-fordeling. Man kan ikke udtrykke tætheden for ikke-centrale t-fordelinger i termer af elementære funktioner, men numerisk evaluering er mulig, og disse fordelinger er indbygget i en række computerpakker. Hvis man skriver teststørrelsen T op på formen T = (X σ ξ) + n ξ σ, SSD/σ (n 1) n ser man at T (såvel indenfor som udenfor hypotesen) følger en ikke-central t- fordeling med n 1 frihedsgrader og ikke-centralitetsparameter n η = σ ξ. Man kan derfor finde styrkefunktionen for testet baseret på T, ved at udregne U + n ξ (ξ, σ ) P z σ α < < z α V, (8.9)

18 60 Kapitel 8. Test af statistiske hypoteser hvor U og V er uafhængige, reelle variable, sådan at U er N(0, 1)-fordelt, mens V er χ -fordelt med n 1 frihedsgrader og skalaparameter 1/(n 1). Det er teknisk muligt at finde denne styrkefunktion, hvis man har adgang til fordelingsfunktionerne for de ikke-centrale t-fordelinger, se figur γ PSfrag replacements σ ξ 1 3 Figur 8.5: Styrkefunktionen (8.9) for et test af hypotesen (8.7) ved et T-test, i tilfældet med n = 10. Jo større n, jo snævrere ved dalen blive. Men den vil altid udvide sig, når man går i retning af større σ. En lidt anden måde at teste hypotesen H på, er ved at foretage sammenvejningen af X og S S D ved hjælp af F-størrelsen F = n X SSD/(n 1). Man kan observere at F = T. Fortolkningen af F-størrelsen er naturligvis at store F-værdier er kritiske for hypotesen, mens små F-værdier anses for at være i fin overensstemmelse med H. Under hypotesen følger F en F-fordeling med (1, n 1) frihedsgrader. Acceptområdet for testet af H, baseret på F, på niveau α er givet ved at F < z α, hvor z α er 1 α-fraktilen i F-fordelingen med (1, n 1) frihedsgrader.

19 8.3. Teststørrelser 61 Det kan synes som om F-størrelsen ikke bringer meget nyt i forhold til T-størrelsen, og F-testet er da også ækvivalent med T-testet. Men i mere komplicerede normalfordelingsmodeller, med flerdimensionale middelværdiparametre, kan det være svært at finde naturlige generaliseringer af T-størrelsen, hvorimod det ofte er muligt at finde generaliserede F-størrelser. Fisher indførte F-fordelingen i 190 erne, netop i forbindelse med test i normalfordelinger. Og igen var den store indsats i virkeligheden at han tabellerede fordelingerne, og dermed gjorde F-testet praktisk muligt. Det er vanskeligt i dag helt at begribe hvor stor en rolle disse tabeller har spillet tidligere. I dag tabellerer computerpakkerne på et øjeblik enhver kendt eller ukendt fordeling. Men i de tider hvor alt måtte regnes i hånden, var det et voldsomt slid at fremstille tabeller, og ikke en opgave man gerne påtog sig. Visse udviklinger i statistikkens historie forekommer underlige, set med moderne briller, men kan forstås på den måde at man gjorde store krumspring for at kunne udnytte allerede fremstillede tabeller, frem for at skulle udarbejde nye. Eftersom T-størrelsen og F-størrelsen ikke står i en bijektiv og monoton forbindelse med hinanden, kan man måske komme i tvivl om hvorvidt de to måder at lave testet på, vitterligt er ækvivalente. For at være konkrete, kan vi sige at n = 10, og at vi tester på niveau 5%. Vi finder at 97.5%-fraktilen i T-fordelingen med 9 frihedsgrader er.6. Når vi udfører testet for hypotesen (8.7) som et T-test, får vi derfor acceptområdet A T = {(x 1,..., x 10 ).6 < T(x 1,..., x 10 <.6}. Tilsvarende kan 95%-fraktilen i en F-fordeling med frihedsgrader (1, 9) slås op til at være 5.117, og dermed bliver acceptområdet, når testet udføres som et F-test, A F = {(x 1,..., x 10 ) F(x 1,..., x 10 ) < 5.117}. De to acceptområder indeholder præcis de samme x-sekvenser, fordi T = F og fordi.6 = Så om man udfører testet på den ene eller den anden måde, kan være irrelevant: man får samme svar på om hypotesen accepteres eller forkastes. Man kan endda ved tilsvarende argumenter overbevise sig om at de to måder at teste på fører til samme p-værdi. En tredie sammenvejning af X og S S D er B-størrelsen B = SSD SSD + nx.

20 6 Kapitel 8. Test af statistiske hypoteser Man skal måske stirre lidt længere på denne størrelse, før man synes den giver mening, end man skulle med de to første teststørrelser. Men det er i hvert fald klart at n 1 B = F + n 1. Så B er en aftagende funktion af F. Dermed er små B-værdier kritiske for hypotesen - og B-testet og F-testet er ækvivalente. Under hypotesen følger B-størrelsen en B- fordeling med (n 1, 1) frihedsgrader (bemærk: frihedsgrader, ikke formparametre), og acceptområdet for testet af H, baseret på B, på niveau α er derfor givet ved at z α < B, hvor z α er α-fraktilen i B-fordelingen med (n 1, 1) frihedsgrader. Også B-størrelsen (og B-fordelingen) er indført af Fisher i forbindelse med hypotesetest i større normalfordelingsmodeller. Eksempel 8.9 Betragt data fra eksempel.13, hvor en forsøgsperson har fået målt sin reaktionstid 50 gange. Vi antager at disse 50 observationer, benævnt x 1,..., x 50, er realisationer af uafhængige stokastiske variable X 1,..., X 50, der alle er N(ξ, σ )- fordelt med ukendt middelværdi ξ og varians σ. Vi vil interessere os for hypotesen H : ξ = 60 ms. I dette tilfælde er n = 50, og vi finder de summariske størrelser n x i = 13646, i=1 n x i = i=1 Heraf finder vi at x = n = 7.9, SSD = n x i n x = i=1 De naturlige estimatorer fra eksempel 4.4 er ˆξ = x = 7.9, ˆσ = S S D n 1 = Et test af hypotesen H kan foregå på baggrund af regningerne i eksempel 8.8. Formelt er den aktuelle affine hypotese ganske vist lidt forskellig fra den lineære hypotese

21 8.3. Teststørrelser 63 (8.7), men forskellen elimineres ved en datatransformation. Vi betragter observationerne Y i = X i 60, i = 1,..., n. Ifølge modellen er Y i erne uafhængige og normalfordelte med varians σ, og et test af hypotesesen H kommer nu ud på at teste om Y i ernes middelværdi er nul. Eftersom SSD-størrelsen for Y i erne og X i erne er den samme, betrager vi T-teststørrelsen T = n Y SSD/(n 1) = n (X 60) SSD/(n 1) = 3.13 hvilket er 99.85% fraktil i t-fordelingen med 49 frihedsgrader. Vi kunne nøjes med at sige at denne T-størrelse er markant større end 97.5% fraktilen i den relevante T-fordeling, og derfor må vi forkaste hypotesen: ξ er signifikant større end 60. Antal Reaktionstid (ms) Figur 8.6: Et histogram over data fra eksempel.13, sammen med den middelværdi, der postuleres i eksempel 8.9 (den fede linie), den empiriske middelværdi (den stiplede linie) og et 95% konfidensinterval (tynde linier) for middelværdien, baseret på en normalfordelingsmodel. I almindelighed vil man dog foretrække at få oplyst p-værdien, sådan som det fremgik af diskussionen i afsnit 1.6. Her er p-værdien ( ) = (husk at der er et bidrag fra den nedre hale), og den fortæller at hypotesen ikke blot er forkastet på et 5% niveau, men faktisk forkastet med et brag. Måske endda med et overraskende stort brag, når man sammenligner med figur 8.6, hvor vi har optegnet et histogram

22 64 Kapitel 8. Test af statistiske hypoteser over data, sammen med den postulerede middelværdi på 60. På tegningen har vi tilføjet et 95% konfidensinterval for ξ, regnet ud som i eksempel 7.9. Den postulerede ξ-værdi på 60 ligger ganske vist udenfor konfidensintervallet - men så langt uden for synes man måske heller ikke at den ligger. Men konklusionen er altså at hvor 60 vil være en ganske rimelig observation at gøre, så er de faktisk gjorte observationer systematisk en smule højere. Ikke alle sammen, men de fleste. Og derfor er 60 et helt urimeligt lavt bud på det sande ξ. Som en træning i at bruge de forskellige ækvivalente teststørrelser fra eksempel 8.8 udregner vi F-teststørrelsen for Y i erne til 9.83, og det er 99.7% fraktil i F-fordelingen med (1, 49) frihedsgrader. Her er det kun store værdier der er kritiske, så p-værdien er = som før. Tilsvarende udregner vi B-størrelsen for Y i erne til 0.833, der er 0.3% fraktil i B- fordelingen med (49, 1) frihedsgrader. Eftersom det er små B-værdier der er kritiske, konstaterer vi igen at testet giver en p-værdi på Testproblemet i eksempel 8.9 er usædvanligt at støde på i praksis. Normalt har man ikke på forhånd en konkret værdi, som man ønsker at sammenligne et middelværdiestimat med. Langt almindeligere er det såkaldte tostikprøve problem, hvor man har uafhængige observationer fra to grupper, og hvor spørgsmålet er om de to grupper er ens. Eksempel 8.10 Lad X 1,..., X n, Y 1,..., Y m være indbyrdes uafhængige stokastiske variable. Antag at X i N(ξ, σ ) mens Y j N(η, σ ). Den grundliggende hypotese for tostikprøve problemet kan nu formuleres som H : ξ = η. Bemærk at vi på forhånd antager at variansen i de to grupper er ens. Hvis denne antagelse er groft forkert, vil nedenstående teknik ikke føre noget godt med sig. På den anden side: hvis varianserne i de to grupper vitterligt er forskellige, så er det i sig selv en forskel på grupperne, og det giver i så fald næppe mening at interessere sig for om middelværdierne er ens. Vi indfører følgende størrelser: X = 1 n n X i, SSD X = i=1 n (X i X ), i=1

23 8.3. Teststørrelser 65 og tilsvarende Y og SSD Y. Det er klart at X N (ξ, σ n ), Y N ) (η, σ, m mens SSD X og SSD Y er χ -fordelt med skalaparameter σ og n 1 hhv. m 1 frihedsgrader. Det er endvidere klart at disse fire variable er uafhængige. Den naturlige estimator for ξ er X, og den naturlige estimator for η er Y. Derfor er det interessant at undersøge om X Y afviger mere fra nul end man vil forvente under hypotesen. Idet ( ( 1 X Y N 0, σ n + 1 )) m under hypotesen, skal vi sammenholde X Y med et estimat for σ. Og det bedste estimat vi kan finde på, den estimator der har mindst varians, opnår vi ved at poole SSD-størrelserne, det vil sige at vi baserer estimatet på SSD X + SSD Y, der er χ -fordelt med n + m frihedsgrader og skalaparameter σ. Derfor bruger vi teststørrelsen ( ) X Y T = nm n+m (SSDX + SSD Y )/(n + m ), (8.10) der under hypotesen er T-fordelt med n + m frihedsgrader. Acceptområdet for testet af H, baseret på T på niveauet α, er givet ved at z α < T < z α hvor z α er (1 α )-fraktilen i en T-fordeling med n + m frihedsgrader. I elementære fremstillinger af praktisk statistik kommer dette såkaldt uparrede T- test ofte til at fremstå som den vigtigste statistiske teknik overhovedet. Og der er en vis rimelighed i dette synspunkt, i og med at tostikprøve problemet er meget ofte forekommende - specielt i små forsøg, hvor eksperimentatoren selv kan håndtere den statistiske bearbejdning. Mere komplicerede forsøg kræver derimod en større teoretisk forståelse og mere avancerede statistiske modeller. I disse noter er vi tilbøjelige til at betragte tostikprøve problemet med normalfordelte data som et specielt eksempel på en etsidet variansanalyse, der igen er et specielt eksempel på den lineære normale model. Den lineære normale model er overskriften for en fælles matematisk behandling af en forbavsende bred klasse af modeller, og denne behandling er temaet for anden del af notesættet.

24 66 Kapitel 8. Test af statistiske hypoteser Ser man på tostikprøve problemet på denne måde, er det naturligere at skrive F- og B-teststørrelser op. Vi vil ikke skrive disse teststørrelser op her, men blot gøre opmærksom på at det er muligt at finde sådanne teststørrelser, og at de som i eksempel 8.8 er ækvivalente med T-teststørrelsen. Eksempel 8.11 Den specifikke fekunditet for en bananfluehun måles som det gennemsnitlige antal æg om dagen hun lægger i de første 14 dage af sit liv. I tabel 8. er opgjort resultatet fra et eksperiment, hvor man har registreret den specifikke fekunditet for 5 hunner fra en speciel avlsstamme, der er gjort resistent overfor DDT. Som kontrol har man også registreret den specifikke fekunditet for 5 hunner fra en standard laboratoriestamme. Spørgsmålet er om den DDT resistente stamme har en nedsat fekunditet i forhold til det normale. DDT resistent Standard Tabel 8.: Den specifikke fekunditet for 5 bananflue hunner fra en DDT resistent stamme, overfor den specifikke fekunditet for 5 hunner fra en standard laboratoriestamme. Et dotplot af data fra tabel 8. er optegnet i figur 8.7. Der er tilføjet et 95% konfidensområde for middelværdiparameteren for hver gruppe - dette konfidensområde er baseret på en normalfordelingsmodel for hver gruppe for sig, og det poolede variansestimat indgår således ikke. Vi betegner målingerne fra den DDT resistente stamme med x 1,..., x n og målingerne fra standardstammen som y 1,..., y n med n = 5. Vi ser disse målinger som realiseringer af uafhængige stokastiske variable X 1,..., X n og Y 1,..., Y n, alle normalfordelte med fælles ukendt varians σ, og med en middelværdi hørende til hver gruppe, ξ hørende til den DDT resistente stamme, og η hørende til standard stammen. Vi finder

25 8.3. Teststørrelser 67 Resistente Normale Fekunditet Figur 8.7: Et dotplot for data fra tabel 8.. De to markerede områder er 95% konfidensområder, baseret på observationer fra hver sin gruppe - der indgår ikke et poolet variansestimat, men et variansestimat for hver gruppe for sig. at Det poolede variansestimat er x = 5.3, y = 33.4, SSD x = 1450, SSD y = ˆσ = SSD x + SSD y n = 70., der - uanset om de to middelværdier er ens eller ej - stammer fra en χ -fordeling med n frihedsgrader og skalaparameter σ /(n ). Vi udregner T-teststørrelsen (8.10) for hypotesen om at de to middelværdiparametre er ens, og finder ( ) x y T = n (SSDx + SSD y )/(n ) = 3.4, der er 0.06% fraktil i T-fordelingen med 48 frihedsgrader. Hypotesen om at de to middelværdier skulle være ens bliver altså afvist med et brag - vi får en p-værdi på 1. promille. Man kan godt aflæse denne meget kraftige signifikans ud fra konfidensområderne på figur 8.7. Hvis de to middelværdier skal være ens, så ligger den fælles værdi formentlig der hvor de to konfidensområder næsten når sammen. Men hvis den fælles middelværdi faktisk befinder sig der, så har vi fået atypisk små observationer i den

26 68 Kapitel 8. Test af statistiske hypoteser ene gruppe og atypisk store observationer i den anden. Moralen er at der skal være et substantielt overlap mellem konfidensområderne på en tegning som figur 8.7, hvis man skal kunne acceptere at de to grupper er ens. En anden god morale i dette eksempel er at der ikke skal forfærdeligt mange observationer til, før man kan se forskel på to grupper. Hvis figur 8.7 var optegnet uden konfidensområder, ville det faktisk ikke være så nemt at se forskel på de to grupper med det blotte øje. Det er jo på ingen måde sådan at de to grupper ligger separeret fra hinanden. Men den typiske observation for den resistente gruppe ligger altså lidt lavere end den typiske observation for standardgruppen. Man kan godt fornemme dette forhold grafisk. Men det formelle statistiske test afslører med piber og trommer at denne forskubbelse under ingen omstændigheder kan skyldes tilfældighed. 8.4 Test og konfidensområder I diskussionen af test har vi indtil nu undladt at drage parallelerne mellem test og konfidensområder. Men de to begreber er selvfølgelig nøje forbundne. Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E), og lad τ : Θ Ψ være en parameterfunktion. At konstruere et konfidensområde for τ er stort set det samme som at lave et simultant test af alle hypoteser af formen H ψ : τ(θ) = ψ. (8.11) Antag at vi har et (1 α)-konfidensområde for τ, altså en afbildning D : X Ψ så For fast ψ Ψ sætter vi P θ (τ(θ) D(X)) 1 α for alle θ Θ. A ψ = {x X ψ D(x)}. Udsagnet om dækningsgraden for D(x) kan læses som P θ (X A ψ ) 1 α hvis τ(θ) = ψ. Så A ψ -mængden er acceptområdet for et test at hypotesen (8.11), et test på niveau α. Ved denne måde at lave test på, accepterer vi hypotesen (8.11) hvis og kun hvis ψ ligger i observerede konfidensområde.

27 8.4. Test og konfidensområder 69 Antag omvendt at vi for hvert ψ Ψ har et testområde A ψ for et test af hypotesen (8.11) på niveau α, og sæt D(x) = {ψ Ψ x A ψ } for alle x X. Udsagnet om testniveauet kan oversættes til at disse D(x)-mængder udgør et (1 α)- konfidensområde for τ. Fremgangsmåden ved denne konstruktion af et konfidensområde er at lade det observerede konfidensområde bestå af de ψ-værdier der overlever et test af hypotesen (8.11). Eksempel 8.1 Lad os vende tilbage til tostikprøveproblemet, som diskuteret i eksempel Udgangspunktet er uafhængige variable X 1,..., X n, Y 1,..., Y m, hvor vi antager at X i N(ξ, σ ), Y j N(η, σ ). Det kan være meget godt at afgøre om ξ = η. Men det er meget mere spændende at producere et 95%-konfidensområde for parameterfunktionen α = ξ η. Hvis 0 ligger inde i konfidensområdet for α, så kan vi acceptere hypotesen om at de to grupper er ens, hvis 0 ligger uden for konfidensområdet forkastes denne hypotese. Så det primitive ja/nej svar, som testbegrebet lægger op til, kan gives ud fra konfidensområdet. Men uanset hvad man konkluderer, giver konfidensområdet usammenligneligt bedre information. I tilfælde af at hypotesen bliver forkastet, får vi præcis information om hvor stor forskellen er mellem de to grupper. Og hvis hypotesen accepteres, er bredden af konfidensområdet et udtryk for hvor stor vægt vi kan tillægge testet: hvis konfidensområdet er bredt, så er det udførte forsøg principielt ude af stand til at se om grupperne skulle være forskellige - testet har for ringe styrke til at kunne afsløre en egentlig forskel. Det er ikke vanskeligt at udvide argumentationen bag det uparrede T-test, så regningerne kan bruges til at konstruere et konfidensområde for α. I første omgang reparametriserer vi måske modellen, og får antager at Dernæst indser vi at størrelsen X i N(η + α, σ ), Y j N(η, σ ). nm n+m ( X Y α ) (SSDX + SSD Y )/(n + m ),

28 70 Kapitel 8. Test af statistiske hypoteser er t-fordelt med n + m frihedsgrader uanset hvad den sande parameter er, og på baggrund af denne pivot kan vi konstruere følgende konfidensinterval for α: n + m X SSD X + SSD Y n + m SSD X + SSD Y Y q, X Y + q nm n + m nm n + m. Her er q 97.5% fraktilen for en t-fordeling med n + m frihedsgrader. Sætter vi tallene fra eksempel 8.11 ind, får vi et konfidensområde for gruppeforskellen på ( ) 1.86, Vi ser at konfidensområdet kun når halvvejs fra midtpunktet ind mod nul, og får dermed lejlighed til at rekapitulere den meget klare konklusion fra eksempel 8.11 om en signifikant gruppeforskel. Fortegnet for gruppeforskellen betyder at den DDTresistente avlsstamme har en lavere fekunditet end standardstammen. Sammenhængen mellem konfidensområder for τ og test af hypoteser af formen 8.11 er ikke kun abstrakt, men gælder på det helt konkrete plan. Konstruktion af konfidensområder forløber som regel via en afbildning Z : Ψ X R, sådan at fordelingen af kombinanten (θ, x) Z(τ(θ), x) under P θ ikke varierer langs niveaukurver for τ. Har man sådan et Z, så er x Z(ψ, x) en niveaukonstant teststørrelse for hypotesen om at τ(θ) = ψ. Og omvendt - har man en samling niveaukonstante teststørrelse for alle disse hypoteser, kan de strikkes sammen til en kombinant, der er velegnet til at fremstille konfidensområder for τ. Når vi i kapitel 7 konstruerede konfidensområder ved hjælp af kvotientteststørrelser og Waldteststørrelser, så har disse kombinanter naturligvis navne, der skal minde om deres udspring indenfor hypotesetestningen. 8.5 Kvotienttest Den generelle forståelse af sammenhængen mellem test og konfidensområder for parameterfunktioner, antyder at følgende definition kan være nyttig:

29 8.5. Kvotienttest 71 Definition 8.13 Lad (ν θ ) θ Θ være en domineret statistisk model på (X, E), og lad der være givet en delmængde Θ 0 Θ. Kvotientteststørrelsen for hypotesen H : θ Θ 0, er teststørrelsen q(x) = sup θ Θ 0 L x (θ) sup ϑ Θ L x (ϑ). Ved brug af kvotientteststørrelsen, vil små værdier af q fortolkes som kritiske for hypotesen H, mens værdier tæt på 1 giver anledning til at hypotesen accepteres. Den oprindelige definition af kvotientteststørrelser i definition 3.1, svarer med denne formulering til kvotientteststørrelserne for alle de simple hypoteser. Tilsvarende svarer kvotientteststørrelserne ud fra en profillikelihoodfunktion, se p. 5, til kvotientteststørrelserne for test at hypoteserne af formen (8.11). Eksempel 8.14 Lad X 1,..., X n være indbyrdes uafhængige og identisk normalt fordelte stokastiske variable med middelværdi ξ og varians σ. Vi ønsker at teste hypotesen H : ξ = 0 ved hjælp af et kvotienttest. Ifølge eksempel 4.18 er likelihoodfunktionen L(ξ, σ ) = 1 (σ ) n/ e 1 σ (SSD+n(X ξ) ), hvor X = 1 ni=1 n X i og SSD = n i=1 (X i X ), og denne funktion maksimeres af (ˆξ, σˆ ) = (X, SSD n ). Maksimum af likelihoodfunktionen er derfor L (ˆξ, σˆ ) ( n ) n/ = e n/. SSD Under hypotesen H er likelihoodfunktionen L(0, σ ) = 1 (σ ) n/ e 1 σ (SSD+nX ), der maksimeres af σ = SSD+nX n. Maksimum af likelihoodfunktionen under hypotesen er således L ( n/ 0, σ ) n = SSD + nx e n/.

30 7 Kapitel 8. Test af statistiske hypoteser Dermed er kvotientteststørrelsen n/ SSD Q = SSD + nx. Hvis hypotesen er sand, så afhænger fordelingen af Q ikke af den ukendte parameter σ - denne parameter optræder nemlig som skalaparameter i både tæller og nævner, og forkorter derfor ud. Altså er Q niveaukonstant. Til gengæld er fordelingen af Q ikke en af standardfordelingerne. Men vi bemærker at Q /n præcis er B-teststørrelsen fra eksempel 8.8. Idet x x /n er en strengt voksende transformation, konstaterer vi at Q og B er ækvivalente teststørrelser. Og da B-størrelsen er ækvivalent med både F- og T-teststørrelser, kan kvotienttestet gennemføres ved hjælp af en vilkårlig af disse ad hoc teststørrelser. Eksempel 8.15 Lad Y 1 og Y være indbyrdes uafhængige χ -fordelte stokastiske variable med kendt antal frihedsgrader n 1 hhv. n, og til gengæld med ukendte skalaparametre β 1 og β. Vi ønsker at opstille et kvotienttest for hypotesen H : β 1 = β. Renset for irrelevante konstanter er likelihoodfunktionen L(β 1, β ) = β n 1 1 e Y1 β 1 β n e Y β. Denne funktion antager sit maksimum for ˆβ 1 = Y 1 n 1 og ˆβ = Y n, og dette maksimum er n 1 n n1 n n 1 n Y1 Y e n 1 e n. Under hypotesen H er maksimaliseringsestimatoren og maksimum af likelihoodfunktionen er ˆβ = Y 1 + Y n 1 + n, (n 1 + n ) n 1 +n (Y 1 + Y ) n 1 +n e n 1 +n.

31 8.5. Kvotienttest 73 Kvotientteststørrelsen for hypotesen H er derfor Q = (n 1 + n ) n1+n n 1 n n1 n n 1 n Y1 Y (Y 1 + Y ) n 1 +n ( = c Y 1 Y 1 + Y ) n 1 ( 1 Y 1 Y 1 + Y hvor c er en kendt konstant. Hvis hypotesen H er sand, så afhænger fordelingen af Q ikke af den ukendte fælles værdi af β 1 og β. Til gengæld er fordelingen af Q ikke en standardfordeling. Vi bemærker at Q er en funktion af V = Y 1 Y 1 + Y, der under hypotesen er B-fordelt med (n 1, n ) frihedsgrader. Det er dog ikke en monoton transformation, så de to teststørrelser er ikke ækvivalente. Små værdier af Q opnås både for små og store værdier af V, så hvis vi vil udføre kvotienttestet ved hjælp af V, skal vi konstruere et centralt konkordansområde for B-fordelingen. Det er ikke trivielt at konstruere det rigtige område, det bør i princippet være et interval af formen (v 1, v ) hvor ) n, v 1 n 1 (1 v1 ) n = v n 1 (1 v ) n. (8.1) Normalt springer man dog over hvor gærdet er lavest, og konstruerer et symmetrisk konkordansområde for B-fordelingen. Det test man i virkeligheden laver, er i så fald ikke helt så tæt beslægtet med kvotienttestet, som man ynder at lade som om. Det gør sådan set heller ikke noget, der er ingen der garanterer at kvotienttestet er specielt effektivt. Kvotienttest teknologien skal først og fremmest forstås som en mekanisk metode til at generere teststørrelser. Hvis vi varierer på metoden undervejs, er det ikke noget stort ideologisk problem. Eksempel 8.16 En indvending mod konklusionen i eksempel 8.11 kunne være at variansen i de to grupper måske ikke er ens. Det kunne godt i figur 8.7 se ud som om standard stammen har en anelse større variabilitet end den DDT resistente stamme. Lad os et øjeblik antage at målingerne fra den DDT resistente stamme er en realisation af uafhængige stokastiske variabel X 1,..., X n, alle N(ξ, σ 1 )-fordelte. Lad os tilsvarende antage at målingerne fra standard stammen er en realisation af uafhængige stokastiske variable Y 1,..., Y n, alle N(η, σ )-fordelte. I begge grupper er n = 5. Vi ønsker i så fald at teste hypotesen H : σ 1 = σ.

32 74 Kapitel 8. Test af statistiske hypoteser Vi kan basere undersøgelsen på de to SSD-størrelser SSD X og SSD Y, der under modellen begge er χ -fordelte med n 1 frihedsgrader og med skalaparametre σ 1 hhv. σ. Udregner vi V-størrelsen fra eksempel 8.15 fås v = SSD x SSD x + SSD y = = Det er 5% fraktil i B-fordelingen med (4, 4) frihedsgrader, og dermed får testet af H, gennemført som et symmetrisk V-test, en p-værdi på 50%. Der er således ingen signifikant forskel på de to varianser. Man kan bemærke at fordi de to grupper har lige mange observationer, er den relevante B-fordeling symmetrisk om 0.5. Endepunkterne for et symmetrisk konkordansområde vil derfor automatisk opfylde (8.1), og det er således et ægte kvotienttest vi har gennemført. Som det har været antydet i eksemplerne, er det i de fleste tilfælde håbløst at forsøge at finde den eksakte fordeling af en kvotientteststørrelse under hypotesen: det vil stort set aldrig være en kendt fordeling. Endvidere vil kvotientteststørrelsen sjældent være niveaukonstant - skønt den har været det i eksemplerne. Heldigvis den asymptotiske teori at falde tilbage på. Sætning 8.17 (Wilks sætning) Lad Y 1,..., Y n være uafhængige identisk fordelte variable, hver med fordeling ν θ = f θ µ, hvor θ Θ. Antag at Θ er en åben delmængde af R k, og at Θ 0 Θ er en glat hypotese af dimension m. Under passende regularitetsforudsætninger vil log Q(Y 1,..., Y n ) = log sup θ Θ 0 L Y1,...,Y n (θ) sup θ Θ L Y1,...,Y n (θ) konvergerer i fordeling mod en χ -fordeling med k m frihedsgrader, hvis den sande parameter ligger i Θ 0. Antallet af frihedsgrader for den asymptotiske χ -fordeling i Wilks sætning, svarer til faldet i dimension mellem den fulde parametermængde Θ og den reducerede paramtermængde Θ 0. Wilks sætning generaliserer både sætning 5. og sætning 7.10.

33 8.5. Kvotienttest 75 Beviset er ganske vanskeligt: ud over den asymptotiske teori, skal man have et vist styr over den geometri, der er involveret i beskrivelsen af glatte hypoteser. Eksempel 8.18 Lad Y 1,..., Y k være indbyrdes uafhængige stokastiske variable, der er Γ-fordelte med kendte formparametre λ 1,..., λ k og ukendte skalaparametre β 1,..., β k. Vi ønsker at teste hypotesen H : β 1 = = β k. Tætheden for fordelingen af (Y 1,..., Y k ) er k i=1 1 Γ(λ i )β λ i i hvorfor likelihoodfunktionen er (proportional med) y λ i 1 i e yi β i, (8.13) L(β 1,..., β k ) = k i=1 1 β λ i i e Y i β i. Denne funktion maksimeres af ( ˆβ 1,..., ˆβ k ) = (Y 1 /λ 1,..., Y k /λ k ) og maksimum er L(Y 1 /λ 1,..., Y k /λ k ) = Under hypotesen H er likelihoodfunktionen k i=1 λ λ i i Y λ i i e λ i. L(β) = k i=1 1 Y i β λ e i β = 1 β λ e hvor β repræsenterer den fælles skalaparameter, hvor λ = λ i + og Y = Y i. Maksimaliseringsestimatoren er ˆβ = Y /λ, og maksimum af likelihoodfunktionen er L(Y /λ ) = λ λ e λ. λ Y Kvotientteststørrelsen for test af hypotesen H er derfor Q = λ λ ki=1 Y λ i ki=1 i (Y i /λ i ) λ i ki=1 λ λ = i λ Y i (Y /λ ) λ. (8.14) Man kan se at fordelingen af Q under hypotesen H ikke afhænger af den ukendte parameter β - det er en skalaparameter, der forkorter ud overalt - men derudover er Y β,

34 76 Kapitel 8. Test af statistiske hypoteser det højst begrænset hvad man kan sige om fordelingen. Så meget desto bedre er det at vi kan henvise til Wilks sætning, der fortæller at log Q = λ log(y /λ ) k λ i log(y i /λ i ) under hypotesen er approksimativt χ -fordelt med k 1 frihedsgrader. Approksimationen vil sædvanligvis være god, hvis alle formparametrene λ 1,..., λ k er store. i=1 8.6 Styrkeovervejelser ved design Udover at sammenligne forskellige teststørrelser, bruger man styrkefunktioner til at opnå en indikation af, hvor mange gentagelser, man skal have af et tilfældigt eksperiment, for at kunne drage bestemte konklusioner. Eksempel 8.19 Antag at den sande successandsynlighed i et binomialeksperiment med længde n er p = 0.4, og antag at vi tester hypotesen H : p = 0.5, ved hjælp af proceduren fra eksempel 8.6. Det fremgår af figur 8.1 at hvis n = 10, så kan vi godt opgive at få hypotesen afvist, selv om den er falsk - den vil med 95% sandsynlighed blive accepteret. Men hvis n = 100, så er der omkring 50% sandsynlighed for at få aflivet hypotesen. Og hvis n = 1000, så er det sikkert som amen i kirken at den falske hypotese afsløres. I praksis gebærder man sig ofte på følgende måde: hvis man ønsker at teste hypotesen H : θ Θ 0, så fastholder man et helt specifikt alternativ θ A Θ 0. Lad N N være et udtryk for størrelsen af eksperimentet, og antag at vi for hvert N har en teststørrelse q N, sådan at de forskellige teststørrelser naturligt opfattes som samme teststørrelse i forskellige dimensioner. Antallet af succeser i et binomialeksperiment, er en sådan familie af teststørrelser. Beregn for hvert N et kritisk område K N på niveau 5%, og find den tilhørende styrkefunktion γ N. Vælg det mindste N så γ N (θ A ) 0.80.

35 8.6. Styrkeovervejelser ved design 77 Bemærk at alle disse regninger kan gennemføres før forsøget udføres - de handler ikke om data, de handler kun om modellen. Og derfor er det muligt at skrue ens eksperiment sammen på en sådan måde at der er mindst 80% sandsynlighed for at afvise hypotesen H, hvis den sande parameter vitterligt er θ A. Hvis der skal være nogen mening i det, må det være fordi θ A betyder noget specielt. Ofte udfører man et piloteksperiment før det egentlige eksperiment, og udfra dette piloteksperiment vil man som regel kunne komme med et relativt kvalificeret bud på hvad den sande parameter er. Piloteksperimentet er som regel for lille til at man kan afvise en meningsfuld hypotese H, men når man nogenlunde ved hvad den sande parameter er, kan man designe hovedforsøget sådan at det vil være i stand til at afsløre H som falsk. En anden situation, hvor man meningsfuldt kan vælge et helt specifikt alternativ, er forbundet med begrebet en relevant forskel. I medicinske sammenhænge taler man gerne om en klinisk relevant forskel, i andre sammenhænge sætter man givetvis andre ord på. Vi kan belyse begrebet i forbindelse med sammenligning af en ny og en gammel type medicin. Hypotesen er, som vi før har set, at de to typer medicin virker lige godt. Men hvis denne hypotese afvises, vil det ikke nødvendigvis bevirke at man skifter medicintype: der skal være et fornuftigt forhold mellem den effektforbedring man opnår, og de omkostninger (af praktisk og økonomisk art) man udsætter sig for. Omkostningerne er (mere eller mindre) kendte på forhånd, og man kan derfor regne ud hvor meget bedre den nye medicin skal virke, før man vil gå over til den. Herefter kan man bestemme størrelsen af afprøvningseksperimentet, så man er rimelig sikker på at hvis den faktiske forskel på medikamenternes effekt er så stor at den er klinisk relevant, så vil hypotesen om at der ingen forskel er blive afvist. Eksempel 8.0 Før eksperimentet med bananfluers fekunditet fra eksempel 8.11 kunne man ved ad hoc overvejelser (eller piloteksperimenter, hvor man så på en håndfuld bananfluer) være kommet til den overbevisning, at fekunditeten for en tilfældig bananfluehun fra en standardstamme til en rimelig approksimation er normalfordelt med en middelværdi på 35 og en standardafvigelse på 10. Vi ønsker at designe forsøget, der skal undersøge forskellen mellem den DDTresistente stamme og standardstammen, sådan at hvis den DDT-resistente stamme har en middelfekunditet på 5, så skal det med 80% sandsynlighed kunne slås fast at de to grupper ikke er ens. I denne sammenhæng betyder design udelukkende hvor mange bananfluer af de to forskellige typer, man skal inkludere i forsøget.

36 78 Kapitel 8. Test af statistiske hypoteser Når vi gennemfører eksperimentet, har vi stokastiske variable X 1,..., X n, Y 1,..., Y n der er uafhængige, og hvor vi antager at og vi vil teste hypotesen X i N(ξ, σ ), Y i N(ξ + α, σ ), for i = 1,..., n, Vi tester hypotesen ved hjælp af teststørrelsen ( ) X Y H : α = 0. (8.15) n T n = (SSDX + SSD Y )/(n ), der under hypotesen er T-fordelt med n frihedsgrader. Vi accepterer derfor hypotesen, hvis z n < T n < z n, hvor z n er 97.5% fraktilen i en T-fordeling med n frihedsgrader. Hvis hypotesen ikke er sand, er påstanden om at T n er T-fordelt forkert. I så tilfælde er T n ikkecentralt T-fordelt, med n frihedsgrader, og ikke-centralitetsparameter η n = n σ α, (8.16) se formel (8.8). Hvis vi tror på at α = 5 og σ = 100, som der blev lagt op til i ovenstående ad hoc overvejelser, er ikke-centralitetsparameteren altså n η n = 8. Ved hjælp af fordelingsfunktionerne for de ikke-centrale T-fordelinger, kan man udregne sandsynligheden γ n for at forkaste hypotesen som funktion af n. Vi er altså interesserede i styrkefunktionens værdi over parametrene α = 10, σ = principielt burde vi også angive ξ, men denne parameter er helt forsvundet i regningerne, den indgår ikke i fordelingen af T n. Bemærk at alt ved testet varierer med gruppestørrelsen: antal frihedsgrader, ikkecentralitetsparameteren η n og afskæringsværdien z n. Resultatet er optegnet i figur 8.8. Vi ser at γ n som forventet vokser med n. Første gang styrkefunktionen kommer over 80%, er for n = 17. På baggrund af disse overvejelser, vil vi foreslå at eksperimentet gennemføres med en gruppestørrelse på mindst 17 - og der sker utvivlsomt ingen skade ved at gøre

37 8.6. Styrkeovervejelser ved design 79 PSfrag replacements γn n Figur 8.8: Styrkefunktion γ n over α = 10, σ = 100 for et test af hypotesen (8.15), set som funktion af gruppestørrelsen n. Første gang γ n kommer over 80% er for n = 17. grupperne lidt større. Dette overslag er naturligvis meget afhængigt af hvad vi tror om det faktiske α-værdi. Hvis vi tror at den sande α-værdi er 5 (hhv. ), og stadig ønsker at kunne afsløre at α ikke er nul med 80% sandsynlighed, viser tilsvarende regninger at vi skal bruge gruppestørreler på mindst 64 (hhv. 394). Ofte angriber man styrkeproblemstillingen mere overslagsmæssigt. Man er kun interesseret i et skøn over hvor stort eksperimentet skal være for at opnå en givet styrke, så man kan godt slække lidt på præcisionen i regningerne. I praksis vil man altid gøre eksperimentet noget større, end hvad styrkeberegningerne dikterer. Dels for at gardere sig mod at visse deleksperimenter ikke fører til noget resultat (en bananflue kunne komme ulykkeligt af dage, inden den begynder at lægge æg, eller optegnelserne om dens æglægning kunne forsvinde i rodet på forskerens skrivebord, eller... ), og dels fordi selve det specifikke alternativ som fører til beregningen af N har en skønsmæssig karakter. Sådanne løse betragtninger kunne i dette eksempel se sådan ud: En T-fordeling med et stort antal frihedsgrader, er til en god approksimation en standard normalfordeling, og derfor vil afskæringsværdierne z n stort set være altså 97.5%-fraktilen for en standard normalfordeling.

38 80 Kapitel 8. Test af statistiske hypoteser Tilsvarende er en ikke-central T-fordeling med et stort antal frihedsgrader og ikkecentralitetsparameter η til en god approksimation en N(η, 1)-fordeling - nævneren i (8.8) varierer kun en ubetydelighed omkring 1, og bidrager derfor stort set ikke til brøkens variabilitet. Hvis vi lader U være en standard normalfordelt variabel, kan sandsynligheden for at hypotesen forkastes approksimativt skrives γ n P( U + η n > 1.96) = P(U + η n > 1.96) + P(U + η n < 1.96) = 1 Φ(1.96 η n ) + Φ( 1.96 η n ) 1 Φ(1.96 η n ). Her er Φ fordelingsfunktionen for standard normalfordelingen, og vi har udnyttet at ikke-centralitetsparameteren η n er stor for stort n, sådan at vi har kunnet droppe den ene halesandsynlighed. Hvis γ n > 0.8, skal vi altså have at det vil sige at 0. > Φ(1.96 η n ) η n > 1.96 Φ 1 (0.) =.80. Indrages formen (8.16) af ikke-centralitetsparameteren, bliver betingelsen n > σ α Indsætter vi σ = 100 og α = 10, 5 og, fås betingelserne n > 15.7, n > 6.8 og n > 39.5, i ganske god overensstemmelse med de eksperimentstørrelser vi beregnede ved eksakte metoder. Eksempel 8.1 Lad os sige at vi gerne vil reproducere eksperimentet fra eksempel 8.7. I eksemplet fandt vi en signifikant forskel på to primærsandsynligheder på et 5% niveau, og de to sandsynligheder estimeredes til 50/65 = 0.77 og 38/65 = Hvis vi tager disse estimater alvorligt, kan vi imidlertid aflæse af figur 8.4 at styrken af det udførte eksperiment kun er ca. 55%. Gentager vi eksperimentet i præcis samme form, er der således kun en fifty-fifty chance for at vi kan reproducere eksperimentets konklusion! Hvis vi vil være sikrere på at reproducere den signifikante forskel på primærsandsynlighederne, så må vi forstørre eksperimentet. En meningsfuld grund til at reproducere eksperimentet, kunne være at vi ønskede at gennemføre testet på et 1% niveau (visse videnskabelige tidsskrifter insisterer på kun

39 8.6. Styrkeovervejelser ved design 81 at publicere resultater der er signifikante på et 1%-niveau). Det ville føre til lidt andre regninger end de følgende, hvor vi igen nøjes med at teste på et 5% niveau. Lad os sige at vi ønsker hypotesen om ens sandsynligheder afvist med sandsynlighed 80%, hvis de sande primærsandsynligheder er 0.77 hhv Lad antallet af observationer i hver af de to grupper være N. Analogt med regningerne i eksempel 8.7 bruger vi teststørrelsen N N Q = S X S Y = X i Y i. Under hypotesen om ens primærsandsynligheder er S X S Y approksimativt normalfordelt med middelværdi 0 og en vis varians. Analogt med regningerne i eksempel 8.7 finder vi endvidere skønsmæssigt at N c N = 1.96 (8.17) er den mindste Q-værdi der vil føre til at hypotesen afvises. Hvis de sande parametre er (p 1, p ), så er S X S Y N ( N(p 1 p ), N(p 1 (1 p 1 ) + p (1 p )) ). Sandsynligheden for at forkaste hypotesen om ens primærsandsynligheder er derfor P N(p1 (1 p 1 ) + p (1 p )) U + N(p 1 p ) N 1.96, hvor U er en standard normalfordelt variabel. Lad os indføre betegnelsen r = p 1 (1 p 1 ) + p (1 p ). Hvis p 1 > p vil S X S Y være positiv (i hvert fald for stort N). Betingelsen for en styrke på 80% i (p 1, p ) bliver således N P 1.96 < N N r U + N(p 1 p ) < 1.96 = 0., i=1 i=1 eller ( 1.96 P p 1 p 1.96 N < U < p ) 1 p N = 0.. r r r r Bemærk at 1.96 p 1 p r r N i de fleste tilfælde er markant negativ. Dermed bliver betingelsen i praksis at ( P U < 1.96 p ) 1 p N = 0., r r

40 8 Kapitel 8. Test af statistiske hypoteser det vil sige at 1.96 r p 1 p r N = For (p 1, p ) = (0.77, 0.58) løses denne ligning let, og giver N = (8.18) Vi kommer således ved disse skønsmæssige regninger frem til at hvis de estimerede primærsandsynligheder fra det første eksperiment mirakuløst skulle være de sande sandsynligheder, og hvis der er 110 individer i hver gruppe, så er der 80% sandsynlighed for at afvise den falske hypotese om at primærsandsynlighederne er ens. En omhyggelig summation af binomialsandsynligheder (regningen er ikke særlig avanceret, men lidt besværlig, og den kan umuligt gennemføres i hånden) viser at for N = 110 er den mindste Q-størrelse der fører til afvisning af hypotesen 16, og for sandsynligheden (p 1, p ) = (0.77, 0.58) er sandsynligheden for at observere en så stor (eller større) Q-værdi 76.1%. Vores overslagsregninger har dermed fundet et N, der ved nærmere eftersyn viser sig at være lidt for lille. Den kritiske approksimation er (8.17), der ikke tager hensyn til at den mindste observerbare Q-værdi der fører til afvisning, må være et helt tal. Yderligere summation af binomialsandsynligheder viser at for både N = 115 og N = 116 er den mindste Q-værdi der fører til afvisning af hypotesen 16. Og for sandsynligheden (p 1, p ) = (0.77, 0.58) er sandsynligheden for at observere en så stor (eller større) Q-værdi 79.5%, hhv. 80.%. Heraf konkluderer vi at den søgte størrelse af eksperimentet er N = 116. Disse eksakte regninger med binomialsandsynligheder er - skønt de giver det korrekte svar på det stillede spørgsmål - urimeligt pedantiske. Man er kun interesseret i et overslag over hvor stort eksperimentet skal være for at opnå en givet styrke, så derfor er de regnerier, der ledte frem til (8.18) rigeligt præcise. I praksis vil man altid gøre eksperimentet en del større, dels for at gardere sig mod at visse deleksperimenter ikke fører til noget resultat (tænk på en person, som nægter at svare på det stillede spørgsmål - et meget almindeligt fænomen i spørgeskemaundersøgelser). Og dels fordi selve det specifikke alternativ som fører til beregningen af N har en skønsmæssig karakter.

41 8.7. Ikke-parametrisk test Ikke-parametrisk test I visse videnskabelige miljøer er der en stærk forkærlighed for såkaldt ikkeparametriske eller fordelingsfri test. Disse begreber dækker over test udført i meget store og diffuse modeller, hvor man går direkte til angreb på testproblemet, som regel uden at bekymre sig om at estimere modellens parametre. Fordelen ved de store modeller er at man ikke behøver at bekymre sig så meget om modelkontrol: modellen er så fleksibel, at den nok skal passe med data, uanset hvordan de ser ud. Bruger man en snævrere parametrisk model, risikerer man jo at modellen ikke passer med data. Og i så fald er analysen af modellen muligvis misvisende i forhold til det udførte eksperiment. Vi vil fokusere på tostikprøve problemet som en prototype på et problem, hvor fordelingsfri test kan forekomme at være attraktive. Lad X 1,..., X n og Y 1,..., Y m være reelle stokastiske variable, der repræsenterer to måleserier. Vi antager at de eksperimentelle omstændigheder er så ens som overhovedet muligt indenfor hver måleserie, men at der er en eller anden systematisk forskel på de eksperimentelle omstændigheder mellem de to serier. Målet med eksperimentet er at undersøge om denne systematiske forskel har indflydelse på måleresultaterne. Vi antager at variablene X 1,..., X n, Y 1,..., Y m er uafhængige, vi antager at X i erne er identisk fordelte med fordelingsfunktion F, og vi antager at Y j erne er identisk fordelte med fordelingsfunktion G. Hvis F betegner mængden af fordelingsfunktioner på R, har vi således specificeret en statistisk model på R n+m, parametriseret ved at (F, G) F F. Interessen knytter sig til hypotesen H : F = G om at der ikke er forskel på de to grupper. Denne model er så fleksibel, at den er svær at problematisere. Den kaldes ofte fordelingsfri, fordi vi ikke forsøger at lægge restriktioner på hvilken fordeling variablene har. Ved dårligt udførte eksperimenter kan det naturligvis hænde at målingerne inden for den enkelte serie ikke er uafhængige og identisk fordelte. Man kan f.eks. forestille sig et kemisk eksperiment, hvor temperaturen får lov at ændre sig i løbet af eksperimentserien. Man kan også forestille sig at en ingrediens genbruges fra deleksperiment til deleksperiment, og efterhånden taber i styrke. Eller man kan forestille sig at deleksperimenterne forløber samtidig, og på uhensigtsmæssig vis får lov at påvirke

42 84 Kapitel 8. Test af statistiske hypoteser hinanden. Men hvis eksperimentatoren har håndværket i orden, så skal modellen nok passe. Til gengæld er modellen ikke særlig informativ - hvis hypotesen H er forkert, er det ganske svært at sige noget begavet om hvad forskellen på F og G består i. I eksempel 8.10 analyserede vi tostikprøve problemet ud fra en meget mindre model, hvor vi antog at såvel F som G er normalfordelinger, og hvor vi oven i købet antog at variansen for F og G er den samme. Denne lille model kan man sagtens forestille sig er forkert - i mange eksperimenter er det faktisk svært at tage modellen helt alvorligt, f.eks. fordi alle målingerne vides at være ikke-negative heltal, sådan som det essentielt er tilfældet i eksempel Til gengæld er den lille model informativ - hvis hypotesen H er forkert, kan vi sige ganske præcist hvori forskellen på F og G består: den ene fordeling fremkommer ud fra den anden ved et additivt skift, og størrelsen af dette additive skift kan estimeres. Dette estimat vil formentlig være meget vigtigere i det videre videnskabelige arbejde, end den blotte konklusion om at H forkastes. Man kan også vende den lille models restriktive karakter til en fordel. Hvis man med god samvittighed vil udføre det uparrede T-test fra eksempel 8.10, så må man kontrollere forudsætningerne. Det involverer at finde de empiriske fordelinger i hver gruppe, og undersøge om de nogenlunde svarer til normalfordelinger. Hvis de ikke gør det, og i særdeleshed hvis de to empiriske fordelinger ikke har samme form, så har man en vigtig konklusion, og de videre undersøgelser skal rettes mod at beskrive disse forskelle. At kontrollere forudsætningerne for T-testet involverer også at undersøge om varianserne i de to grupper er ens, f.eks. ved et formelt test som i eksempel Hvis varianserne er forskellige, er der ingen mening i at gå videre med T-testet. Men i så fald har vi jo også allerede konstateret en vigtig forskel på grupperne. Men lad os nu vende tilbage til den store fordelingsfri model, og se på hvad vi overhovedet kan gøre for at teste hypotesen H. Ofte vil man basere testet på den kombinatoriske struktur af målingerne, altså på information om hvordan målingerne fra de to grupper ligger i forhold til hinanden på den reelle akse. Man ser bort fra den metriske struktur, altså information om den præcise placering af målingerne, og forholder sig kun til den kombinatoriske struktur. Hvis både F og G er kontinuerte, ser man at fordelingsfunktionen for variable af formen X i X j, X i Y j og Y i Y j alle er kontinuerte. I særdeleshed har disse fordelingsfunktioner ikke punktmasse i 0, og der er derfor sandsynlighed nul for at få to ens observationer (ofte kaldet ties) i datamaterialet. Den kombinatoriske struktur kan i så fald opsummeres i observationernes range: vi ordner hele datamaterialet, og

43 8.7. Ikke-parametrisk test 85 giver den mindste observation rang 1, den næstmindste rang osv. Hvis vi lader Z i = X i hvis i = 1,..., n Y i n hvis i = n + 1,..., n + m, betegne de betragtede variable stillet op i en lang række, så er den formelle definition af Z i s rang: n+m R i = 1 (Z j Z i ), i = 1,..., n + m, j=1 hvor vi tæller op hvor mange observationer, der er mindre end eller lig Z i. Hvis vi insisterer på at F og G er kontinuerte, sådan at ties ikke forekommer, så er sekvensen af range (R 1,..., R n+m ) en permutation af tallene 1,..., n + m. Mængden af sådanne permutationer er den symmetriske gruppe af orden n + m, skrevet S n+m. Lad os formelt indføre afbildningen R : R n+m S n+m der sender en observationssekvens over i de tilhørende range. Lemma 8. Under hypotesen H er R(X 1,..., Y m ) ligefordelt på S n+m. BEVIS: Hvis (r 1,..., r n+m ) er en konkret permutation, så er udsagnet at (R 1,..., R n+m ) = (r 1,..., r n+m ) simpelthen et udsagn om at Z i erne er placeret i en speciel rækkefølge. Hvis (r 1,..., r n+m ) er den trivielle permutation (1,..., n + m), så er udsagnet om at (R 1,..., R n+m ) = (r 1,..., r n+m ) simpelthen det samme som at sige at Z 1 < Z < < Z n+m. Men under hypotesen er Z i erne ombyttelige, så den ene rækkefølge er præcis lige så sandsynlig som den anden. Og det oversættes til at enhver permutation har samme sandsynlighed for at blive ramt af R. Der er præcis (n + m)! permutationer i S n+m, så vi har at 1 P((R 1,..., R n+m ) = (r 1,..., r n+m )) = (n + m)! for alle permutationer (r 1,..., r n+m ) S n+m.

44 86 Kapitel 8. Test af statistiske hypoteser Bemærk indholdet af dette lemma: det fortæller i virkeligheden at R er en niveaukonstant teststørrelse for hypotesen H. Det eneste ubehagelige ved denne teststørrelse er at den ikke har værdier på R, hvor man relativt nemt kan udpege områder som gode eller dårlige. Tværtimod har R værdier i en væmmelig diskret mængde af permutationer. Et test baseret på denne teststørrelse skal altså udpege visse permutationer som typiske og visse som urimelige for hypotesen H. I praksis kan en sådan afgrænsning bedst ske på baggrund af en fortolkelig transformation S n+m R. Den måske mest oplagte form en sådan transformation kan tage, fører til Wilcoxons rangssumstørrelse, n W Wilcoxon = R i, hvor man finder summen af rangene for alle observationer i den første gruppe. Under hypotesen H vil vi forvente at disse range fordeler sig ligeligt blandt de n + m + 1 mulige range. Man viser let (se opgave 8.5) at under hypotesen H er i=1 ER i = n + m + 1, VR i = (n + m) 1. (8.19) 1 Man viser endvidere at Cov(R i, R j ) = n + m og heraf følger at hvis hypotesen H er sand, så er, (8.0) EW Wilcoxon = n n + m + 1, VW Wilcoxon = n m n + m + 1. (8.1) 1 Hvis hypotesen H er sand, vil vi altså forvente at W Wilcoxon falder i et område omkring n n+m+1, et område hvis bredde væsentligst er bestemt af ovennævnte varians. Der er tre muligheder for at afgrænse et præcist acceptområde: 1) Man kan tabellere fordelingen af W Wilcoxon under hypotesen. Sådanne tabeller er anført mange steder, og i særdeleshed er de indbygget i de fleste større computerpakker, i hvert fald for beherskede værdier af n og m. ) Man kan simulere fordelingen af W Wilcoxon under hypotesen. Det er hurtigt og let at generere et stort antal variable med den ønskede fordeling. 3) Man kan udnytte at W Wilcoxon under hypotesen stort set er normalfordelt med middelværdi og varians bestemt ved (8.1).

45 8.7. Ikke-parametrisk test 87 I princippet må de to første metoder vel foretrækkes. Men normalfordelingsapproksimationen er ekstremt god, selv for små gruppestørrelser, så i praksis er det som regel den man bruger. Man accepterer derfor hypotesen H på et 5% niveau hvis W Wilcoxon n n + m + 1 < 1.96 n m n + m Eksempel 8.3 I et eksperiment har man målt kabelstyrken for kabler, fremstillet ved hjælp af en vis fusionsproces, og sammenholdt med med kabelstyrken for kabler fremstillet ved en standardmetode. Måleresultaterne er anført i tabel 8.3. Standard Fusion Tabel 8.3: Trækstyrke af kabler, fremstillet ved to forskellige metoder. Vi ønsker at teste en hypotese om at der ingen forskel er trækstyrken af kabler, fremstillet ved hjælp af de to metoder, og vi vil gennemføre testet ved hjælp af Wilcoxons rangsumstørrelse. Rangene for målingerne i tabel 8.3 bliver Standard Fusion Dermed er ransummen for standardgruppen W = 56. Begge gruppestørrelser er 8, så hvis de to grupper er ens (og hvis normalfordelingsapproksimationen står til troende), burde dette være en observation fra en normalfordeling med middelværdi 68 og varians Vi kan slå op at 56 er 10%-fraktil i denne normalfordeling. Så testet får en p-værdi op 0.0 (husk den anden hale). På det foreliggende grundlag kan vi således ikke tillade os at konkludere at de to fremstillingsmetoder giver kabler af forskellige trækstyrke.

46 88 Kapitel 8. Test af statistiske hypoteser Hvis vi ikke insisterer på at både F og G er kontinuerte, så kan vi ikke på forhånd udelukke ties. I så fald er rang et mere problematisk begreb, fordi flere observationer måske bør tildeles samme rang. Ties er hyppigt forekommende i virkelige data, så dette problem er i højeste grad reelt. Man løser det gerne ved at tildele observationerne en gennemsnitsrang - hvis to observationer er lig hinanden, og mindre end alle andre, så giver man dem begge rang 3/, i stedet for at give den ene rang 1 og den anden rang. I så fald skal man være opmærksom på at den udviklede teori formelt set ikke dækker den situation man betragter. Alternativt kan man holde styr over de forskellige muligheder for tildeling af range, og regne en W Wilcoxon -størrelse ud for hver mulighed. Man forestiller sig gerne at de observerede ties er udtryk for den nødvendige diskretisering, når data skrives ned med endeligt mange decimaler, men at observationerne i virkeligheden har fornuftige range - vi kender dem blot ikke helt. Hvis der kun er få ties, spreder de mulige W Wilcoxon -størrelser sig over et lille område, og som regel vil alle disse W Wilcoxon - størrelser føre til at H accepteres, eller også vil de alle føre til at H forkastes. Hvis der derimod er mange ties, giver tilgangen gerne problemer, og det er således ikke anbefalelsesværdigt at bruge den på data fra eksempel.15, hvor de censurerede variable er en form for ties. Det officielle argument for at bruge Wilcoxons rangsum som teststørrelse i tostikprøve problemet er som sagt at fordelingen af teststørrelsen under hypotesen H er udledt uden forudsætninger om de indgående fordelinger, og man gør sig derfor ikke skyldig i en fejlantagelse, når man tester på denne måde. Et ofte hørt argument mod Wilcoxons rangsum og for det uparrede T-test, er at hvis antagelserne bag T-testet vitterligt er opfyldt, så udnytter T-testet observationerne bedre, og dermed får T-testet større styrke end et test baseret på Wilcoxons rangsum. Begge disse argumenter forklæder sig som matematiske påstande. Men de har ikke megen matematisk substans, de har i virkeligheden mest ideologisk karakter. Også uden normalfordelingsantagelsen vil T-teststørrelsen give god intuitiv mening som teststørrelse for hypotesen H, og man kan give argumenter baseret på den centrale grænseværdisætning, der fortæller at under H vil T-teststørrelsen være approksimativt N(0, 1)-fordelt, uanset hvad den fælles fordeling af X erne og Y erne er, blot de indgående gruppestørrelser er store. I så fald er T-fordelingen med n + m frihedsgrader også stort set en N(0, 1)-fordeling, så den fejl man begår ved at holde T-størrelsen op mod en T-fordeling er forsvindende. Omvendt, hvis man finder styrkefunktionen for Wilcoxon-testet under normalfordelingsantagelsen, så viser den sig

47 8.7. Ikke-parametrisk test 89 at være stort set uskelnelig fra styrkefunktionen for T-testet - måske en anelse dårligere, men der skal lup til at se det. Et anderledes sundt argument for den parametriske tilgang fremfor den ikkeparametriske, er at selve testet kun er et blandt flere aspekter i behandlingen af data. Opbygningen af den parametriske model, overvejelser omkring modeltilpasning, estimation, konfidensområder etc., spiller en langt større rolle for forståelsen af den videnskabelige problemstilling end det formelle test. Og denne omhyggelige diskussion af forholdet mellem teori og virkelighed er kun mulig i rammen af en parametrisk model. Lad os afslutte dette afsnit med at præsentere flere testproblemstillinger der i princippet kan behandles såvel parametrisk som ikke-parametrisk. Det simpleste problem af denne art er etstikprøve problemet. Her har man uafhængige, identisk fordelte stokastiske variable X 1,..., X n, med fælles ukendt fordelingsfunktion F og median ξ. Problemet går ud på at undersøge hypotesen H : ξ = 0. Det var essentielt dette problem vi behandlede i en parametrisk ramme i eksempel 8.8. Forskellige forslag til ikke-parametriske behandlinger vil blive givet i opgaver. I problemet med parrede observationer, er situationen at man har en række observationer X 11, X 1,..., X n1, X n, der er af formen X i1 = U i1 + ξ i, X i = U i + ξ i + α, hvor U i j erne er uafhængige og identisk fordelte stokastiske variable med ukendt fordelingsfunktion F. Her er ξ i et ukendt reelt tal, der siger noget om niveauet af det i te par, mens α repræsenterer en generel forskel på første og anden observation i hvert par. Problemet går ud på at undersøge hypotesen H : α = 0, altså at der ikke er nogen systematisk forskel på de to observationer i et par. Hvis man antager at U i j erne alle er N(0, σ )-fordelte, er dette problem et specielt eksempel på en tosidet variansanalyse. Uden parametriske antagelser om U i j erne står man med et såkaldt semiparametrisk problem, fordi parametriseringen både har en endeligdimensional og en uendeligdimensional komponent, og den uendeligdimensionale komponent mest har karakter af at være en støjparameter.

48 90 Kapitel 8. Test af statistiske hypoteser Som et eksempel på situationen med parrede observationer, kan man forsøge at sammenligne nedbørsmængden over et større landområde i to år. Målingerne X i j kan her svare til nedbørsmængden ved målestation i i år j. Nogle målestationer ligger så de generelt får meget regn, andre ligger i tørrere områder. Disse forskelle repræsenteres af ξ i erne, mens α er et udtryk for den systematiske forskel mellem de to år. Danner vi differenserne Y i = X i1 X i kan vi oversætte problemet med parrede observationer til et etstikprøve problem. Angribes dette etstikprøve problem med et T-test, taler man i lærebogssammenhæng ofte om et parret T-test. Man skriver gerne teststørrelsen op ved hjælp at de oprindelige X i j -variable, og gør et stort nummer ud af at skelne mellem hvornår man skal bruge et parret T-test og hvornår man skal bruge et uparret T-test. Svaret er at man skal bruge det parrede test hvis man er nervøs for om der er forskel på parrene (altså hvis ξ i erne virkelig er nødvendige), mens man skal bruge det uparrede test, hvis man tror på at parrene er ens. Hvis der ikke er nogen naturlig kobling mellem målingerne i et par, vil man sædvanligvis foretrække det uparrede test. Den sidste problemstilling vi vil trække op, handler om at undersøge uafhængighed. Vi har igen reelle stokastiske variable X 11, X 1,..., X n1, X n, og antagelsen er nu at parrene (X i1, X i ) er uafhængige, identisk fordelte todimensionale stokastiske variable. Parametermængden er alle de mulige fordelinger et sådant par kan have, altså Pr(R, B ). Den interessante hypotese er H : X i1 og X i er uafhængige. Hypotesen parametriseres nemmest ved Pr(R) Pr(R) og den underforståede indlejring i Pr(R, B ) givet ved (µ, ν) µ ν. Forkastes hypotesen om uafhængighed, tages det blandt lægmænd ofte som et udtryk for kausal afhængighed mellem variablene, oftest i form af et løfte om en interventionseffekt: hvis man tvinger den ene variabel til at antage bestemte værdier, vil den anden variabel automatisk følge med. Der kan ikke advares nok mod denne faldgrube. Et eksempel kunne være samvariationen mellem cholesterol-indhold i blodet og blodtrykket. Det er velkendt at disse størrelser ikke er uafhængige, personer med højt cholesteroltal har ofte forhøjet blodtryk og vice versa. Denne sammenhæng har ført til det (i hvert fald i USA) udbredte helbredsråd om at undgå æg - cholesterol findes primært i æg. Tankegangen bag rådet har været, at nedsatte man indtagelsen af cholesterol, så sænkede man givetvis blodtrykket. Fejlen i argumentationen er at der

49 8.8. Opgaver 91 aldrig er etableret en årsagskæde, der sikrer at en justering af den ene variabel overhovedet har en effekt på den anden variabel. Det kan udmærket tænkes at både højt cholesteroltal og højt blodtryk i virkeligheden er to udtryk for en dybereliggende tredie faktor, f.eks. af hormonal karakter. Justeringen af cholesterolindholdet i føden vil ikke i sig selv ændre på de hormonelle forhold, og dermed vil det ikke have nogen indflydelse på blodtrykket. 8.8 Opgaver OPGAVE 8.1. Gennemfør et ikke-parametrisk test ved hjælp af Wilcoxons rangsumstørrelse for om der er forskel på den specifikke fekunditet for de to bananfluestammer, tabelleret i tabel 8.. OPGAVE 8.. En række studerende højde er blevet målt, resultaterne er angivet i tabel 8.4. Kvinder Mænd Tabel 8.4: Højdemålinger for 57 studerende, fordelt på køn. Undersøg ved såvel parametriske som ikke-parametriske metoder om der er forskel på højden i de to grupper. OPGAVE 8.3. To laboranter udfører henholdsvis 10 og 14 gentagne bestemmelser af fiberindholdet i prøver af sojakager. Analyseresultaterne, angivet i procent fiberindhold af sojakagen, er angivet i tabel 8.5. Det forudsættes, at alle 4 prøver stammer fra samme homogene parti. Undersøg om de to laboranter måler det samme. Undersøgelsen skal gennemføres både parametrisk (ved et uparret T-test) og ikke-parametrisk (ved Wilcoxons rangsumstørrelse).

50 9 Kapitel 8. Test af statistiske hypoteser Laborant A Laborant B Tabel 8.5: To laboranters analyser af fiberindholdet i sojakager. OPGAVE 8.4. Denne opgave handler om trækstyrkemålingerne fra eksempel 8.3. SPGM 8.4(a). Undersøg ud fra data i tabel 8.3 om der er forskel på trækstyrken for kabler, fremstillet på de to måder, ved hjælp af et uparret T-test. SPGM 8.4(b). Hvis vi betragter målingerne i tabel 8.3 som et piloteksperiment, hvor mange kabler vil du så anbefale at man måler trækstyrken for i det endelige eksperiment? Lad dig lede af overvejelserne i eksempel 8.0. OPGAVE 8.5. Lad (R 1,..., R n ) være ligefordelt på den symmetriske gruppe S n, som i lemma 8.. Vis at ER 1 = n + 1, ER 1 Vis herudfra (8.19), (8.0) og (8.1). (n + 1)(n + 1) =, ER 1 R = 6 (n + 1)(3n + ). 1 OPGAVE 8.6. (MANN-WHITNEY TEST I TOSTIKPRØVE PROBLEMET). I visse fremstillinger af tostikprøve problemet (med observationer X 1,..., X n og Y 1,..., Y m i de to grupper) foretrækker man at undersøge hypotesen om at de to grupper er ens ved hjælp af Mann-Whitney teststørrelsen W Mann-Whitney = n i=1 m 1 (Xi < Y j ) j=1 hvor både store og små værdier er kritiske. Vis, at W Wilcoxon = nm + n(n + 1) W Mann-Whitney. Gør rede for at Mann-Whitney teststørrelsen og Wilcoxons rangsum er ækvivalente teststørrelser for hypotesen om at grupperne er ens. Vink: rangen for X i er R i = n k=1 1 (Xk X i ) + m j=1 1 (Y j X i ).

51 8.8. Opgaver 93 OPGAVE 8.7. (FORTEGNSTESTET I ETSTIKPRØVE PROBLEMET). Lad X 1,..., X n være uafhængige, identisk fordelte observationer med ukendt fordelingsfunktion F. Vi antager at den sande fordelingsfunktion er kontinuert og har en entydigt bestemt median ξ. Vi ønsker at undersøge hypotesen H : ξ = 0. En simpel teststørrelse for denne hypotese er S = n i=1 1 {Xi >0}. med både små og store værdier kritiske. Et test for hypotesen om at ξ = 0 baseret på S, kaldes naturligt nok et fortegnstest. SPGM 8.7(a). Find fordelingen af S hvis ξ vitterligt er nul. Til kontrol af en løbende produktion af kobbertråd udtages med passende mellemrum 9 stykker tråd af ens længde. Stykkerne vejes, og måleresultaterne, angivet i gram, er anført i tabel 8.6. Man tilstræber en produktstandard svarende til en median-vægt af trådstykkerne på g Tabel 8.6: Kvalitetsmålinger af tykkelsen af produceret kobbertråd. SPGM 8.7(b). Undersøg ved hjælp af et fortegnstest om den udførte kvalitetskontrol giver anledning til indgreb i processen. OPGAVE 8.8. (WILCOXONS RANGTESTSTØRRELSE FOR ENSTIKPRØVER). Lad X 1,..., X n være uafhængige, identisk fordelte observationer med ukendt fordelingsfunktion F. Vi antager at den sande fordelingsfunktion er kontinuert, har en entydigt bestemt median ξ og at fordelingen er symmetrisk omkring ξ. Vi ønsker at undersøge hypotesen H : ξ = 0. Her kan man benytte Wilcoxons rangteststørrelse: V Wilcoxon = i j 1 {Xi +X j >0}

52 94 Kapitel 8. Test af statistiske hypoteser med både store og små værdier kritiske. På engelsk kaldes denne størrelse Wilcoxons signed-rank statistic, hvilket gør det lidt nemmere at skelne den fra Wilcoxons rank statistic W Wilcoxon, end de danske betegnelser gør. SPGM 8.8(a). Gør rede for at V Wilcoxon formelt kan fortolkes i forhold til Mann- Whitneys teststørrelse W Mann-Whitney (se opgave 8.6) udregnet på de to virtuelle grupper af observationer X 1,..., X n og X 1,..., X n ud fra følgende formel: V Wilcoxon = S + W Mann-Whitney. Her er S fortegnsteststørrelsen fra opgave 8.7. SPGM 8.8(b). Vis at hvis ξ = 0, så vil fordelingsfunktionen F opfylde at F( x) = 1 F(x) for alle x R. Gør rede for at der i så fald findes en strengt voksende fraktilfunktion q, så q(1 p) = q(p) for alle p (0, 1). SPGM 8.8(c). Gør rede for at hvis ξ = 0, så vil fordelingen af V Wilcoxon ikke afhænge af den sande fordelingsfunktion F. Vink: Vi kan tænke os X i erne frembragt som q(u i ), hvor U 1,..., U n er uafhængige, ligefordelte variable på (0, 1), og hvor q er en fraktilfunktion for F. Vis at rangtesttørrelsen udregnet på baggrund af X i erne, er den samme som rangteststørrelsen udregnet på baggrund af U i erne. SPGM 8.8(d). Vis, at hvis ξ = 0 så er EV Wilcoxon = n(n+1) 4. SPGM 8.8(e). Vis ved kraftig brug af symmetriargumenter, at hvis ξ = 0 så er Var(1 {Xi +X j >0}) = = 1 4 (8.) mens Cov(1 {Xi +X i >0}, 1 {Xi +X j >0}) = = 1, i j (8.3) 8 og Cov(1 {Xi +X j1 >0}, 1 {Xi +X j >0}) = = 1 1, i j 1, i j, j 1 j. (8.4)

53 8.8. Opgaver 95 SPGM 8.8(f). Vis, at hvis ξ = 0 så er Var(V Wilcoxon ) = Cov(1 {Xi +X j >0}, 1 {Xk +X l >0}) = ( ( n n + i j k l )) ( n ) 1 ( n ) = n(n + 1)(n + 1). 4 Under hypotesen om at ξ = 0 er V Wilcoxon approksimativt normalfordelt med ovennævnte middelværdi og varians, og approksimationen er ekstremt god, selv for små værdier af n. I praksis udregner man ikke V Wilcoxon ud fra definitionen, men på baggrund af følgende betragtninger: SPGM 8.8(g). Lad X (1) < < X (n) være de ordnede værdier af X i erne, og lad R + i være rangen af X i blandt X 1,..., X n. Vis, at V Wilcoxon = 1 {Xi +X j >0} = = i j i j 1 {X(i) +X ( j) >0} n 1 {X( j) >0} {i = 1,..., j X (i) X ( j) } = j=1 n R + j. j=1 X j >0 Teststørrelsen fremkommer således ved at finde rangene af de absolutte værdier af observationerne og derefter bestemme summen af rangene for de positive observationer. OPGAVE 8.9. Analyser datamaterialet i tabel 8.6, både ved hjælp af Wilcoxons rangteststørrelse, og ved hjælp af parametriske metoder. OPGAVE På et laboratorium måles trækstyrken for stof, som har været gennem forskellige vaskeprocesser. Målingerne foretages af to laboranter, og man er nu interesseret i at undersøge, om de udfører forsøget ens. Man har derfor foretaget et kontroleksperiment, idet man har klippet 15 stykker af en rulle stof, hver af disse har man delt i 10 mindre stykker og givet 5 til hver laborant. Som mål for trækstyrken af hvert af de 15 stykker har man for hver laborant taget gennemsnittet af de 5 resultater. Man har opnået følgende resultater:

54 96 Kapitel 8. Test af statistiske hypoteser A B A B På grundlag af disse gennemsnit skal det vurderes om resultater af en måling afhænger af hvilken laborant, der har udført forsøget. OPGAVE På 11 forsøgsstationer er der i perioden fra 1930 til 1935 gennemført en række ensartede landbrugsforsøg. Før og efter forsøgsrækken har man målt jordens indhold af klorkalium (KCl): Forsøgsstation KCl KCl Forsøgsstation KCl KCl Har forsøgene medført en påviselig ændring i jordens indhold af klorcalium? OPGAVE 8.1. (KENDALLS TAU). Når man skal belyse spørgsmålet om uafhængighed mellem målte talpar (X 1, Y 1 ),..., (X n, Y n ), benytter man ofte et kombinatorisk konkordansbegreb. Vi siger at to observationspar (X i, Y i ) og (X j, Y j ) er i konkordans hvis X i X j og Y i Y j har samme fortegn. To observationspar der ikke er i konkordans, er i diskordans. Vi definerer for i < j C i j = ( 1 {Xi >X j } 1)( 1 {Yi >Y j } 1). SPGM 8.1(a). Hvilke værdier kan C i j antage? Hvad siger C i j -værdien om konkordans/diskordans af observationsparret (X i, Y i ) og (X j, Y j )? Vi antager at fremover at parrene (X 1, Y 1 ),..., (X n, Y n ) er uafhængige og identisk fordelte. Den marginale fordeling af X i erne har fordelingsfunktion F, den marginale fordeling af Y i erne har fordelingsfunktion G. En teststørrelse for hypotesen om uaf-

55 8.8. Opgaver 97 hængighed mellem X i og Y i er Kendalls tau, τ = ( n med både store og små værdier kritiske. ) 1 SPGM 8.1(b). Lad T være antallet af par (i, j), i < j, hvor de tilhørende observationspar (X i, Y i ) og (X j, Y j ) er i konkordans. Vis, at τ = i< j C i j 4T n(n 1) 1. SPGM 8.1(c). Hvilken afvigelse fra hypotesen om uafhængighed måler τ? Hvad er de mulige τ-værdier? SPGM 8.1(d). Gør rede for at hvis X i erne og Y i erne er uafhængige, så vil fordelingen af τ ikke afhænger af F og G. SPGM 8.1(e). Vis ved brug af symmetriargumenter, at hvis X i erne og Y i erne er uafhængige så er Eτ = 0. SPGM 8.1(f). Vis for i < j og k < l, at hvis X i erne og Y i erne er uafhængige så er 1, i = k, j = l 1 3, i = k, j l eller i k, j = l E(1 {Xi >X j }1 {Xk >X l }) = 1 6, j = k eller i = l 1 4, ellers. SPGM 8.1(g). Vis at hvis X i erne og Y i erne er uafhængige så er mens det for i < j < k gælder at Var(C i j ) = 1, Cov(C i j, C ik ) = Cov(C ik, C jk ) = Cov(C i j, C jk ) = 1 9. SPGM 8.1(h). Vis at hvis X i erne og Y i erne er uafhængige så er Var(τ) = ( n ) {( n ) ( n + 3 ) } 6 (n + 5) = 9 9n(n 1). (8.5)

56 98 Kapitel 8. Test af statistiske hypoteser Fordelingen af τ under hypotesen om uafhængighed er tabelleret forskellige steder. Men i praksis bruger man oftest en normalfordelingsapproksimation med middelværdi 0 og varians (8.5). OPGAVE (SPEARMANS RANGKORRELATION). Antag at de todimensionale variable (X 1, Y 1 ),..., (X n, Y n ) er uafhængige og identisk fordelte. Den marginale fordeling af X i erne har fordelingsfunktion F, den marginale fordeling af Y i erne har fordelingsfunktion G. Lad R 1,..., R n være rangene af X 1,..., X n og Q 1,..., Q n rangene af Y 1,..., Y n. En teststørrelse for hypotesen om uafhængighed mellem X i erne og Y i erne er Spearmans rangkorrelationskoefficient ni=1 (R i n+1 ρ = )(Q i n+1 ) ni=1 (i n+1. ) SPGM 8.13(a). Fortolk ρ som en korrelation, og gør rede for at variations-området er indeholdt i [ 1, 1]. SPGM 8.13(b). Vis, at ρ = 1 1 n(n + 1)(n 1) n i S, i=1 hvor S = n i=1 R i Q i. Teststørrelserne ρ og S er således ækvivalente. (Både små og store værdier af ρ og S er kritiske). SPGM 8.13(c). Gør rede for at hvis X i erne og Y i erne er uafhængige, så vil fordelingen af ρ ikke afhænge af F og G. SPGM 8.13(d). Vis ved kraftig brug af symmetriargumenter, at hvis X i erne og Y i erne er uafhængige, så er for i j ER i = n + 1, ER i = (n + 1)(n + 1) (n + 1)(3n + ), ER i R j =. 6 1 SPGM 8.13(e). Vis, at hvis X i erne og Y i erne er uafhængige, så er ES = Gør herudfra rede for at n(n + 1) 4, Var(S ) = n (n + 1) (n 1). 144 Eρ = 0, Var(ρ) = 1 n 1.

57 8.8. Opgaver 99 Fordelingen af ρ er tabelleret forskellige steder. Men i praksis bruger man oftest en normalfordelingsapproksimation med middelværdi 0 og varians 1/(n 1). OPGAVE For at undersøge om der var hold i den almindelige antagelse, at encellede individer frembragt ved celledeling er identiske (og identiske med modercellen) foretog J.Y. Simpson følgende forsøg: Man målte længde af individer frembragt ved ukønnet deling af 0 individer af arten Paramaecium caudatum, idet man skelnede imellem om de nye individer stammede fra modercellens forende eller bagende, og målte følgende længder (angivet i µ): Celle nr Forreste afkom Bageste afkom Celle nr Forreste afkom Bageste afkom Understøtter data antagelsen om encellede individer frembragt ved celledeling er identiske?

58 300 Kapitel 8. Test af statistiske hypoteser

Vis mere