Program Flersidet variansanalyse og hierarkiske modeller Helle Sørensen E-mail: helle@math.ku.dk StatBK (Uge 50, mandag) Flersidet ANOVA 1 / 19 StatBK (Uge 50, mandag) Flersidet ANOVA 2 / 19 Eksempel: iltoptag for krabber Eksempel: iltoptag for krabber Data fra Zar, Biostatistical Analysis, eksempel 14.1. Iltoptag for 72 krabber Tre forskellige arter (1, 2, 3) Tre temperaturer (lav, medium, høj) Begge køn Fire krabber per kombination af art, temperatur og køn Interesseret i effekten af art, køn og især temperatur på iltoptaget. For alle de følgende modeller vil vi antage følgende: Iltoptag for en krabbe af art i, køn j ved temperatur k er normalfordelt med middelværdi µ ijk og spredning σ. Bemærk antagelsen om ens spredning: checkes med residualplot. Hvordan skal µ ijk afhænge af i, j og k (art, køn, temperatur)? Lad os et kort øjeblik betragte den additive model, kun med hovedeffekter af art, køn og temperatur: µ ijk = µ + α i + β j + γ k I proc glm i SAS: model iltoptag = art kon tmp; Hvillke antagelser ligger der i denne model? Hvordan kan vi komme væk fra disse antagelser? StatBK (Uge 50, mandag) Flersidet ANOVA 3 / 19 StatBK (Uge 50, mandag) Flersidet ANOVA 4 / 19
Model med vekselvirkninger Modelreduktion Skal tage højde for at en effekt af en faktor kan afhænge af en af de andre faktorer, eller begge. Skal altså inddrage vekselvirkninger! Tofaktorvekselvirkninger (første orden): art*kon, art*tmp, kon*tmp Trefaktorvekselvirkningen (anden orden): art*kon*tmp Modellen med trefaktorvekselvirkning: µ ijk = µ + α i + β j + γ k + δ ij + η ik + φ jk + ψ ijk Svarer til ensidet variansanalyse med 3 2 3 = 18 grupper. Krabber: fit af model og residualplot. Er modellen rimelig? Ønsker at gøre modellen simplere ved at fjerne ikke-signifikante led. Starter med at teste om trefaktorvekselvirkningen art*kon*tmp er signifikant. Dette svarer til H 0 : φ ijk = 0 for alle i,j,k. Hvis trefaktorvekselvirkningen er signifikant, kan vi ikke komme videre! Hvis trefaktorvekselvirkningen ikke er signifikant, undersøger vi om tofaktorvekselvirkningerne er signifikante. Dette svarer fx. til hypotesen H 0 : δ ij = 0 for alle i,j. Hvis en faktor ikke indgår i en signifikant vekselvirkning kan vi teste for hovedeffekten. Dette svarer fx. til H 0 : α i = 0. Krabber: Udfør modelreduktionen! Hvilke led kan vi reducere væk? Hvilke led er signifikante? Hvad bliver slutmodellen? StatBK (Uge 50, mandag) Flersidet ANOVA 5 / 19 StatBK (Uge 50, mandag) Flersidet ANOVA 6 / 19 Krabber: test og slutmodel Krabber: effekt af temperatur Konklusioner på test: art*køn*tmp ikke-signifikant (p = 0.22) køn*tmp ikke-signifikant (p = 0.11 eller p = 0.10) art*kon signifikant (p = 0.01) art*tmp signifikant (p < 0.0001) Slutmodellen er derfor: µ ijk = µ + α i + β j + γ k + δ ij + η ik Vekselvirkninger kan evt. illustreres med vekselvirkningsgrafer. Bemærk: på grund af de signifikante vekselvirkinger giver det ikke mening at teste for hovedeffekter. Vi har påvist at effekten af temperatur på iltoptaget er forskellige for arterne. Bliver derfor nødt til at angive effekten af temperatur for hver art. Hvordan ser modellen ud hvis vi analyserer en art ad gangen? For eksempel får vi for art 1: hoj middel : 0.63 (0.34, 0.91) middel lav : 0.75 (0.46, 1.04) hoj lav : 1.38 (1.09, 1.66) StatBK (Uge 50, mandag) Flersidet ANOVA 7 / 19 StatBK (Uge 50, mandag) Flersidet ANOVA 8 / 19
Vigtigt! Bemærkninger Det er meningsløst at teste for hovedeffekten af en hovedeffekt hvis den indgår i vekselvirkning med andre faktorer. For eksempel meningsløst at undersøge om der er en effekt af temperature hvis vi har fastslået at effekten af temperatur afhænger at arten. SAS rapporterer et test, men det må I aldrig bruge! Bliver i stedet nødt til at undersøge effekten af temperatur for hver art for sig. Tilsvarende meningsløst at teste for en tofaktorvekselvirkning hvis trefaktorvekselvirkningen er signifikant. Tresidet variansanalyse uden gentagelser: Kun en observationer per kombination af de tre faktorer Kan ikke inddrage trefaktorvekselvirkningen i analysen Kan i stedet starte med modellen med de tre tofaktorvekselvirkninger Tresidet variansanalyse med tomme celler: Ikke alle kombinationer af de tre faktorer indgår i forsøget Kan være umuligt (og eller kunstigt) at teste for vekselvirkninger Det er i øvrigt ikke altid klart at alle vekselvirkninger skal med i modellen. Generelt råd: tag vekselvirkninger med i det omfang de giver mening fra et biokemisk (fagligt) synspunkt. StatBK (Uge 50, mandag) Flersidet ANOVA 9 / 19 StatBK (Uge 50, mandag) Flersidet ANOVA 10 / 19 Eksempel: kolesterolkoncentration Startmodel og test for effekt af undergrupper Data fra Zar, eksempel 15.1. Kolesterolkoncentration i blod for 12 kvinder Tre medikamenter: 1, 2 og 3 Hvert medikament findes i to varianter I alt seks varianter: 1A, 1Q, 2D, 2B, 3L, 3S Observationer fra to kvinder for hver variant Først og fremmest interesseret i om der er forskel på medikamenterne. Men den undersøgelse giver kun mening hvis der ikke er forskel på varianterne indenfor medikament. Varianterne svarer til en underinddeling af medikamenterne. Vi taler om hierarkiske faktorer, og om grupper og undergrupper. I modellerne nedenfor antages følgende: observationen for en kvinde fra medikament (gruppe) i og variant (undergruppe) j er normalfordelt med middelværdi µ ij og spredning σ. Hvordan skal µ ij afhænge af i (medikament) og j (variant)? Som udgangspunkt lader vi middelværdien afhænge af varianten, dvs. µ ij afhænger både af i og j. Kan så undersøge om forskellen mellem varianterne udelukkende skyldes de forskellige medikamenter. Dette svarer til at de to varianter indenfor medikament ikke er forskellige. Hypotesen er H 0 : µ ij = α i eller µ 1A = µ 1Q, µ 2D = µ 2B, µ 3L = µ 3S Dette svarer til at vi kan slå varianterne sammen inden for medikament. StatBK (Uge 50, mandag) Flersidet ANOVA 11 / 19 StatBK (Uge 50, mandag) Flersidet ANOVA 12 / 19
Test for effekt af gruppe Kolesterol Hvis hypotesen om at der ikke forskel på undergrupper /varianter) indenfor grupper (medikamenter), har vi µ ij = α i Dette svarer til en ensidet variansanalyse. Nu giver det mening at teste om grupperne (medikamenterne) er forskellige: H 0 : α 1 = α 2 = α 3 I proc glm i SAS: model konc = med medvar; Altså gruppe før undergruppe SAS tester bagfra Konklusioner: Ikke signifikant forskel på varianter indenfor medikament (p = 0.80) Klar signifikant forskel på medikamenterne (p = 0.0002 eller p = 0.0021) Medikament 2 > medikament 3 > medikament 1 (alle parvise forskelle er signifikante) StatBK (Uge 50, mandag) Flersidet ANOVA 13 / 19 StatBK (Uge 50, mandag) Flersidet ANOVA 14 / 19 Vigtigt: meningsfulde hypoteser Faktordiagrammer Det er meningsløst et teste for en gruppeeffekt hvis der er signifikant effekt af undergrupperne. For eksempel meningsløst at undersøge om medikamenterne er forskellige hvis varianterne er forskellige indenfor medikament. Det svarer fuldstændigt til problemstillingen i den tresidede analyse: hovedeffekter svarer til grupper vekselvirkninger svarer til varianter Generel regel: Test aldrig for en grov faktor (grov inddeling) så længe der er en finere faktor (finere inddeling) med i modellen. Faktordiagrammer kan hjælpe os til at holde styr på sammenhænge mellem faktorer. Diagram over alle relevante faktorer, incl. vekselvirkninger Pil fra en faktor A til en faktor B hvis A svarer til en finere enddeling af observationerne end B. Alternativ formulering: pil fra A til B hvis det er sådan at hvis jeg kender værdien af A så kender jeg også værdien af B. Lav faktordiagrammer for krabber og kolesterol. Reglen er nu: Test aldrig for en faktor A hvis der findes signifikante faktorer som peger på A. StatBK (Uge 50, mandag) Flersidet ANOVA 15 / 19 StatBK (Uge 50, mandag) Flersidet ANOVA 16 / 19
Eksempel: havreål Havreål: model mm. Eksempel på mere kompliceret eksperiment med hierarkiske faktorer. Data fra Cochran og Cox, Experimental designs. antallet af havreål (en art skadedyr) på marlplots med havre plottene inddelt i fire marker/blokke fire skadedyrsmidler (CN, CS, CM, CN) eller ingenting To doser (1, 2) eller ingenting specielt altså behandlet eller ikke-behandlet Interesseret i effekten af skadedyrsmidlerne, herunder brugen af forskellige doser. Faktorer og deres hierarkiske struktur: Hvilke faktorer er relevante for analysen? Er der hierarkiske faktorer? Faktordiagram? Hvilke hypoteser kan vi teste hvornår? En anden problemstilling: antal havreål som respons uacceptabelt residualplot log(antal havreål) som respons fint residualplot Mere om transformation af data på mandag! StatBK (Uge 50, mandag) Flersidet ANOVA 17 / 19 StatBK (Uge 50, mandag) Flersidet ANOVA 18 / 19 Resumé og lidt om fremtiden Overvejelser ved forsøg/data med flere faktorer: Hvilke hovedeffekter og vekselvirkninger skal med i modellen? Forholder nogle af faktorerne sig hierarkisk til hinanden? Faktordiagram og meningsfulde hypoteser: Overblik over faktorer og relevante hypoteser via faktordiagram Test aldrig for en faktor så længe der er finere faktorer (svarende til finere inddeling) i modellen. Dette gælder også for vekselvirkninger. De sidste gange inden jul: Torsdag d. 11/12: Start på lineær regression Mandag d. 15/12: Transformation (eks.: havreål), projekt fra 2006. Torsdag d. 18/12: Mere lineær regression og så juleferie. StatBK (Uge 50, mandag) Flersidet ANOVA 19 / 19