Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk faktor analyse bliver gyldige, skal data opfylde de grundlæggende antagelser: Alle observationer skal være indbyrdes uafhængige. Observationerne i hver enkelt gruppe/celle skal stamme fra samme (tilnærmelsesvis) normalfordelte population. Populationerne skal have (tilnærmelsesvis) samme varians. Medens det ofte er intuitivt klart at målingerne er uafhængige, er det straks sværere at argumentere for at normalfordelingsantagelsen er opfyldt. I det følgende gennemgår vi nogle grafiske metoder der kan benyttes til at checke normalfordelingsantagelsen og antagelsen om ens varianser. Hvis der er gentagne målinger i hver gruppe, kan hypotesen om ens varianser testes med Bartlett s test, men det er alligevel en god ide at supplere med en kontroltegning. 1 Residualer og fittede værdier For at undersøge om modelantagelserne er opfyldt får vi brug for at udregne nogle interessante tal; de fittede værdier og de studentificerede residualer. De fittede værdier er estimater for målingernes middelværdier. Til hver måling, X, svarer én fittet værdi, ˆX, der er estimatet for middelværdien i den population målingen kommer fra. Fittede værdier betegnes typisk med samme navne som målingerne med en hat over. Hvordan de fittede værdier helt præcist ser ud afhænger af såvel model som data 1
Eksempel I den ensidede variansanalyse er de fittede værdier gruppegennemsnittene, ˆX ij0 = X i = 1 n i X ij n i der jo estimerer gruppemiddelværdierne µ i. Bemærk at målinger fra samme gruppe har samme fittede værdi. Eksempel I to- og tresidet variansanalyse med gentagelser er de fittede værdier cellegennemsnittene, f.eks. i tresidet variansanalyse: j=1 ˆX ijkl0 = X ijk = 1 n ijkl n ijk l=1 X ijkl der estimerer cellemiddelværdierne µ ijk. Målinger fra samme celle har samme fittede værdi. I flersidet variansanalyse uden gentagelser og i hierarkiske flerfaktor modeller er de fittede værdier typisk sværere at beregne. Vi giver ingen formler, men viser nedenfor hvordan man kan få SAS til at beregne de fittede værdier. Residualerne er de værdier man får ved at trække de fittede værdier fra målingerne. Residualet hørende til en måling X er altså defineret som R = X ˆX. De studentiserede residualer er residualerne divideret med en estimeret standardafvigelse: R s R. Hvis modelantagelserne er rigtige vil de studentiserede residualer være approksimativt uafhængige og standard normalfordelte (det vil sige normalfordelte med middelværdi 0 og varians 1). Det er netop denne egenskab vi vil udnytte til at undersøge om modelantagelserne er korrekte. Fittede værdier og studentiserede residualer kan udregnes i SAS ved at tilføje en OUTPUT-sætning til et PROC GLM-program. Følgende program udregner f.eks. fittede værdier og studentiserede residualer for en tosidet variansanalyse uden vekselvirkning. De udregnede værdier udskrives ikke men lægges i datasættet kontrol under variabelnavnene fittet og stdres. PROC GLM DATA=datanavn ; 2
CLASS a b; MODEL x = a b /SS1; OUTPUT OUT=kontrol PREDICTED=fittet STUDENT=stdres ; PROC GLM kan naturligvis også udregne fittede værdier og studentiserede residualer for andre modeller end den tosidede variansanalyse uden vekselvirkning, man skal blot ændre i CLASS- og MODEL-linierne på passende vis. 1.1 Histogrammer og QQ-plot For at efterprøve normalfordelingsantagelsen kan man sammenligne de studentiserede residualer med tal fra en standard normalfordeling. En mulighed er at indtegne normalfordelingskurven på et histogram over de studentiserede residualer og se om kurven passer med formen på histogrammet. Denne metode fungerer klart bedst for store datasæt hvor histogrammets kasser er forholdsvis smalle. En mere præcis sammenligning får man ved at tegne de studentiserede residualers fraktiler (quantiles på engelsk, se Zar afsnit 3.3) op mod teoretiske fraktiler fra standard normalfordelingen. Hvis modelantagelserne er rigtige vil punkterne ligge nogenlunde på en ret linie gennem (0, 0) med hældning 1. Histogrammer og QQ-plot kan tegnes i SAS med følgende programmer. Det antages at de studentiserede residualer ligger i datasættet kontrol under variabelnavnet stdres. PROC UNIVARIATE DATA=kontrol NOPRINT; HISTOGRAM stdres /NORMAL (MU=0 SIGMA=1); PROC UNIVARIATE DATA=kontrol NOPRINT; QQPLOT stdres /NORMAL (MU=0 SIGMA=1); 3
1.2 Residualplot En anden meget nyttig tegning er residualplottet hvor de studentiserede residualer tegnes om mod de fittede værdier. Hvis modellen er rigtig skal punkterne fordele sig nogenlunde symmetrisk omkring koordinatsystemets første akse og eventuelle afvigelser skal være af tilfældig karakter. Residual-plottet kan (i modsætning til histogrammet og QQ-plottet) give en ide om at målingerne ikke har samme varians. Residualer fra samme gruppe/celle vil nemlig ligge på samme lodrette linie, og man kan derfor ofte se på residualplottet hvis gruppe/celle-varianserne er meget forskellige. Residualplot kan tegnes i SAS med følgende kommando. Det antages at de fittede værdier og de studentiserede residualer ligger i datasættet kontrol under variabelnavnene fittet og stdres. PROC GPLOT DATA=kontrol ; PLOT stdres *fittet /VREF=0 VREF=-1.96 VREF=1.96; 1.3 Outliers En ting man skal holde udkig efter på residual- og QQ-plottene er såkaldte outliers. Outliers er målinger med særligt store eller små studentiserede residualer. Hvis en måling har en numerisk stor residualværdi, ligger den pågældende måling langt fra sin fittede værdi og er altså dårligt beskrevet af modellen. Vi ved også at i en standard normalforldelt population ligger 95% af værdierne mellem -1,96 og 1,96, og numerisk større værdier forekommer endnu sjældnere. Mange outliers og særligt store residualværdier bør derfor vække mistanke. De kan være tegn på at modellen er forkert eller at der er opstået fejl ved indsamling eller indtastning af data. 1.4 Nogle eksempler Her følger eksempler på histogrammer, QQ-plot og residualplot både for en model hvor modelantagelserne er langt fra at være opfyldt og for en hvor de ser ud til at holde. Eksempel I Opgave 12.4 i Zar indeholder et datamateriale, hvor målingerne 4
udelukkende består af nuller og et-taller og som derfor tydeligvis ikke er normalfordelte. Lad os se om det fremgår af modelkontrollen, hvis vi fejlagtigt prøver at lave en tosidet variansanalyse med bog og professor som faktorer. Figur 1: Histogram og QQ-plot over residualer fra opgave 12.4. Histogrammet giver ikke grund til bekymring. QQ-plottet er lettere trappeformet og ser ikke alt for kønt ud, men da datamaterialet ikke er specielt stort kunne afvigelserne måske godt være tilfældige. Figur 2: Residualplot for data fra opgave 12.4. 5
Der er tilgengæld ikke megen tilfældighed at se på residualplottet. Punkterne, der burde fordele sig symmetrisk omkring første aksen på en tilfældig måde, ligger næsten alle på to rette linier. Det er således helt klart at modelantagelserne ikke er opfyldt. Eksempel II Opgave 14.1 i Zar indeholder målinger af størrelsen x og af tre faktorer A,B ogc. Figur 3 og 4 viser kontroltegninger for den model vi testede os frem til ved øvelserne, hvor der er vekselvirkning mellem faktorerne A og C og hvor der er hovedvirkningen af faktoren B som ikke vekselvirker med de andre faktorer. Figur 3: Histogram og QQ-plot over residualer fra opgave 14.1. Alt i alt ser graferne rimeligt pæne ud. Vi bemærker nogle afvigende punkter i nederste venstre hjørne på QQ-plottet, men de er ikke værre end at vi med god samvittighed kan bruge modellen. 6
Figur 4: Residualplot for data fra opgave 14.1. 7