Modelkontrol i Faktor Modeller

Relaterede dokumenter
Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

1 Hb SS Hb Sβ Hb SC = , (s = )

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

To-sidet variansanalyse

En Introduktion til SAS. Kapitel 5.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Eksamen i Statistik for biokemikere. Blok

Program. 1. Flersidet variansanalyse 1/11

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse

Regressionsanalyse i SAS

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Eksempel , opg. 2

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Reeksamen i Statistik for Biokemikere 6. april 2009

To samhørende variable

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. Flersidet variansanalyse og hierarkiske modeller. Eksempel: iltoptag for krabber. Eksempel: iltoptag for krabber.

Statistik Lektion 4. Variansanalyse Modelkontrol

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Reeksamen i Statistik for biokemikere. Blok

Normalfordelingen og Stikprøvefordelinger

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Module 4: Ensidig variansanalyse

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Opgaver til kapitel 3

Løsning til eksamen d.27 Maj 2010

Løsning til øvelsesopgaver dag 4 spg 5-9

Modul 11: Simpel lineær regression

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

MPH specialmodul Epidemiologi og Biostatistik

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

Modul 6: Regression og kalibrering

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Løsning eksamen d. 15. december 2008

Note til styrkefunktionen

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Tema. Dagens tema: Indfør centrale statistiske begreber.

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Analyse af en lineær regression med lav R 2 -værdi

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Nanostatistik: Opgavebesvarelser

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Schweynoch, Se eventuelt

Module 9: Residualanalyse

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Klasseøvelser dag 2 Opgave 1

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Ensidet variansanalyse

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

To-sidet varians analyse

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Nanostatistik: Opgaver

Løsning til eksaminen d. 14. december 2009

Statistik for Biokemikere Projekt

Kapitel 4 Sandsynlighed og statistiske modeller

Produkt og marked - matematiske og statistiske metoder

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kapitel 4 Sandsynlighed og statistiske modeller

Forelæsning 11: Envejs variansanalyse, ANOVA

Multipel Lineær Regression

Eksamen i Statistik og skalavalidering

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Kapitel 7 Forskelle mellem centraltendenser

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Transkript:

Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk faktor analyse bliver gyldige, skal data opfylde de grundlæggende antagelser: Alle observationer skal være indbyrdes uafhængige. Observationerne i hver enkelt gruppe/celle skal stamme fra samme (tilnærmelsesvis) normalfordelte population. Populationerne skal have (tilnærmelsesvis) samme varians. Medens det ofte er intuitivt klart at målingerne er uafhængige, er det straks sværere at argumentere for at normalfordelingsantagelsen er opfyldt. I det følgende gennemgår vi nogle grafiske metoder der kan benyttes til at checke normalfordelingsantagelsen og antagelsen om ens varianser. Hvis der er gentagne målinger i hver gruppe, kan hypotesen om ens varianser testes med Bartlett s test, men det er alligevel en god ide at supplere med en kontroltegning. 1 Residualer og fittede værdier For at undersøge om modelantagelserne er opfyldt får vi brug for at udregne nogle interessante tal; de fittede værdier og de studentificerede residualer. De fittede værdier er estimater for målingernes middelværdier. Til hver måling, X, svarer én fittet værdi, ˆX, der er estimatet for middelværdien i den population målingen kommer fra. Fittede værdier betegnes typisk med samme navne som målingerne med en hat over. Hvordan de fittede værdier helt præcist ser ud afhænger af såvel model som data 1

Eksempel I den ensidede variansanalyse er de fittede værdier gruppegennemsnittene, ˆX ij0 = X i = 1 n i X ij n i der jo estimerer gruppemiddelværdierne µ i. Bemærk at målinger fra samme gruppe har samme fittede værdi. Eksempel I to- og tresidet variansanalyse med gentagelser er de fittede værdier cellegennemsnittene, f.eks. i tresidet variansanalyse: j=1 ˆX ijkl0 = X ijk = 1 n ijkl n ijk l=1 X ijkl der estimerer cellemiddelværdierne µ ijk. Målinger fra samme celle har samme fittede værdi. I flersidet variansanalyse uden gentagelser og i hierarkiske flerfaktor modeller er de fittede værdier typisk sværere at beregne. Vi giver ingen formler, men viser nedenfor hvordan man kan få SAS til at beregne de fittede værdier. Residualerne er de værdier man får ved at trække de fittede værdier fra målingerne. Residualet hørende til en måling X er altså defineret som R = X ˆX. De studentiserede residualer er residualerne divideret med en estimeret standardafvigelse: R s R. Hvis modelantagelserne er rigtige vil de studentiserede residualer være approksimativt uafhængige og standard normalfordelte (det vil sige normalfordelte med middelværdi 0 og varians 1). Det er netop denne egenskab vi vil udnytte til at undersøge om modelantagelserne er korrekte. Fittede værdier og studentiserede residualer kan udregnes i SAS ved at tilføje en OUTPUT-sætning til et PROC GLM-program. Følgende program udregner f.eks. fittede værdier og studentiserede residualer for en tosidet variansanalyse uden vekselvirkning. De udregnede værdier udskrives ikke men lægges i datasættet kontrol under variabelnavnene fittet og stdres. PROC GLM DATA=datanavn ; 2

CLASS a b; MODEL x = a b /SS1; OUTPUT OUT=kontrol PREDICTED=fittet STUDENT=stdres ; PROC GLM kan naturligvis også udregne fittede værdier og studentiserede residualer for andre modeller end den tosidede variansanalyse uden vekselvirkning, man skal blot ændre i CLASS- og MODEL-linierne på passende vis. 1.1 Histogrammer og QQ-plot For at efterprøve normalfordelingsantagelsen kan man sammenligne de studentiserede residualer med tal fra en standard normalfordeling. En mulighed er at indtegne normalfordelingskurven på et histogram over de studentiserede residualer og se om kurven passer med formen på histogrammet. Denne metode fungerer klart bedst for store datasæt hvor histogrammets kasser er forholdsvis smalle. En mere præcis sammenligning får man ved at tegne de studentiserede residualers fraktiler (quantiles på engelsk, se Zar afsnit 3.3) op mod teoretiske fraktiler fra standard normalfordelingen. Hvis modelantagelserne er rigtige vil punkterne ligge nogenlunde på en ret linie gennem (0, 0) med hældning 1. Histogrammer og QQ-plot kan tegnes i SAS med følgende programmer. Det antages at de studentiserede residualer ligger i datasættet kontrol under variabelnavnet stdres. PROC UNIVARIATE DATA=kontrol NOPRINT; HISTOGRAM stdres /NORMAL (MU=0 SIGMA=1); PROC UNIVARIATE DATA=kontrol NOPRINT; QQPLOT stdres /NORMAL (MU=0 SIGMA=1); 3

1.2 Residualplot En anden meget nyttig tegning er residualplottet hvor de studentiserede residualer tegnes om mod de fittede værdier. Hvis modellen er rigtig skal punkterne fordele sig nogenlunde symmetrisk omkring koordinatsystemets første akse og eventuelle afvigelser skal være af tilfældig karakter. Residual-plottet kan (i modsætning til histogrammet og QQ-plottet) give en ide om at målingerne ikke har samme varians. Residualer fra samme gruppe/celle vil nemlig ligge på samme lodrette linie, og man kan derfor ofte se på residualplottet hvis gruppe/celle-varianserne er meget forskellige. Residualplot kan tegnes i SAS med følgende kommando. Det antages at de fittede værdier og de studentiserede residualer ligger i datasættet kontrol under variabelnavnene fittet og stdres. PROC GPLOT DATA=kontrol ; PLOT stdres *fittet /VREF=0 VREF=-1.96 VREF=1.96; 1.3 Outliers En ting man skal holde udkig efter på residual- og QQ-plottene er såkaldte outliers. Outliers er målinger med særligt store eller små studentiserede residualer. Hvis en måling har en numerisk stor residualværdi, ligger den pågældende måling langt fra sin fittede værdi og er altså dårligt beskrevet af modellen. Vi ved også at i en standard normalforldelt population ligger 95% af værdierne mellem -1,96 og 1,96, og numerisk større værdier forekommer endnu sjældnere. Mange outliers og særligt store residualværdier bør derfor vække mistanke. De kan være tegn på at modellen er forkert eller at der er opstået fejl ved indsamling eller indtastning af data. 1.4 Nogle eksempler Her følger eksempler på histogrammer, QQ-plot og residualplot både for en model hvor modelantagelserne er langt fra at være opfyldt og for en hvor de ser ud til at holde. Eksempel I Opgave 12.4 i Zar indeholder et datamateriale, hvor målingerne 4

udelukkende består af nuller og et-taller og som derfor tydeligvis ikke er normalfordelte. Lad os se om det fremgår af modelkontrollen, hvis vi fejlagtigt prøver at lave en tosidet variansanalyse med bog og professor som faktorer. Figur 1: Histogram og QQ-plot over residualer fra opgave 12.4. Histogrammet giver ikke grund til bekymring. QQ-plottet er lettere trappeformet og ser ikke alt for kønt ud, men da datamaterialet ikke er specielt stort kunne afvigelserne måske godt være tilfældige. Figur 2: Residualplot for data fra opgave 12.4. 5

Der er tilgengæld ikke megen tilfældighed at se på residualplottet. Punkterne, der burde fordele sig symmetrisk omkring første aksen på en tilfældig måde, ligger næsten alle på to rette linier. Det er således helt klart at modelantagelserne ikke er opfyldt. Eksempel II Opgave 14.1 i Zar indeholder målinger af størrelsen x og af tre faktorer A,B ogc. Figur 3 og 4 viser kontroltegninger for den model vi testede os frem til ved øvelserne, hvor der er vekselvirkning mellem faktorerne A og C og hvor der er hovedvirkningen af faktoren B som ikke vekselvirker med de andre faktorer. Figur 3: Histogram og QQ-plot over residualer fra opgave 14.1. Alt i alt ser graferne rimeligt pæne ud. Vi bemærker nogle afvigende punkter i nederste venstre hjørne på QQ-plottet, men de er ikke værre end at vi med god samvittighed kan bruge modellen. 6

Figur 4: Residualplot for data fra opgave 14.1. 7