Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: ensidet variansanalyse Y ij = µ + α i + ǫ ij. Problem: tager ikke hensyn til variation mellem biler/chauffører parret t-test: test for middelværdi nul af differenser D j = Y 2j Y 1j blocking. Y ij = µ + α i + β j + ǫ ij hvor β j effekt af bil/chauffør. NB: test for µ 1 = µ 2 i en model med blocking er ækvivalent med parret t-test! Ulempe ved blocking: indfører 12 parametre β j for effekter som vi vil korrigere for, men som ikke i sig selv er interessante. 2/12

Tilfældige effekter Obs. og blok-effekter QQ-plot for estimater af block-effekter β j : Normal Q Q Plot gas 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 Sample Quantiles 4.5 5.0 5.5 6.0 6.5 7.0 2 4 6 8 10 12 block 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles Idé: Anskue β j (eller evt. α i ) som stikprøve fra normalfordeling. Model: Y ij = µ + α i + B j + ǫ ij hvor B j N(0, σ 2 B ) og ǫ ij N(0, σ 2 ) og uafhængige. Så undgåes de 12 β j. 3/12

Dekomposition af varians Var(Y ij ) = Var(µ + α i + B j + ǫ ij ) = Var(B j ) + Var(ǫ ij ) = σ 2 B + σ2 σ 2 B og σ2 : varianskomponenter. Estimation af varianskomponenter (table 13.14 og side 557 øverst samt table 13.17, alt sammen afsnit 13.13 samt side 540-541): ˆσ 2 = s 2 = SSE (k 1)(b 1), ˆσ2 B = s2 2 s2, s2 2 = SSB k b 1 I eksemplet er b = 12 og k = 2. Her fås estimaterne: σ 2 = 0, 0195, σ 2 B = 1, 0286. Bemærk: langt den største del af variansen kommer fra blokkene! 4/12

Random factor vs. fixed factor Fixed factor: en faktor vælges til at være fast, når vi er interesserede i om der er forskel mellem lige præcis de grupper vi vælger. Eksempel: to typer af dæk. Random factor: en faktor vælges til at være tilfældig, hvis grupperne udgør en stikprøve af en større population, og vi bare er interesseret i om grupperne generelt er ens. Eksempel: 12 biler vælges tilfældigt ud af vilkårligt mange - her er vi ikke interesseret i at sammenligne bil 1 og 2, men vi kunne godt være interesseret i om der generelt er forskel. Konklusioner omkring en tilfældig faktor gælder for hele populationen, ikke kun stikprøven. Bemærk: parvis sammenligning (Tukey s test) kun giver mening for en fixed factor. 5/12

Transformation af data For både lineær regression og variansanalyse gælder: normalfordelte fejl varianshomogenitet respons lineær funktion af forklarende variable Hvis en eller flere af disse ikke er opfyldt for et datasæt, kan det ofte hjælpe at transformere data. Eksempler på transformationer: y = log(y) eller y = exp(y) - de kan anvendes på y eller x. Lige præcis hvilke transformationer der skal bruges afhænger af data, men der kan gives nogle guidelines, MEN det er altid vigtigt at tænke sig om når en transformation vælges. 6/12

Transformation ved variansheterogenitet Stigende varians forekommer ofte ved stigende y, dvs et plot af prediktioner vs residualer får en trompetform. Dette kan ofte forbedres ved at se på y = log(y) (x beholdes utransformeret). Andre fordele: Sommetider forbedres en skæv normalfordeling for residualerne. Det kan være mere passende at arbejde på log-skala hvis y kun kan være positiv, da normalfordeling kan give både positive of negative værdier. 7/12

Tælle-data For Poisson-fordeling er EX = VarX = λ. Her vil Y approximativt have konstant varians. Faktisk er (approx.) Y N( λ, 1 4 ) når λ er stor. Dvs. for tælledata kan y = y (x beholdes utransformeret) ofte give Approksimativ varianshomogenitet Approksimativ normalfordeling 8/12

Prediktions- og konfidensintervaller Når prediktions- eller konfidensintervaller er fundet for transformeret y kan de transformeres tilbage til y. Tilbagetransformering efter log-tranformationen: P(L < log Y < U) = 95% P(exp(L) < Y < exp(u)) = 95% Generelt: hvis man har tranformeret y = g(y) skal man bruge den inverse transformation y = g 1 (y ) for at kunne sige noget om det originale data. 9/12

Fra ikke-lineære til lineære sammenhænge Hvis man fra teori kender en funktionel sammenhæng kan denne viden benyttes til at finde passende transformationer: Exponentialfunktion: y = α exp(βx) log y = log α + βx Dvs. brug transformationen y = log(y) og behold x. Potensfunktion: y = αx β log y = log α + β log x Dvs. brug transformationen y = log(y) og x = log(x). Flere eksempler på side 426. Et scatterplot af x mod y kan også bruges til at identificere en passende funktion - sammenlign evt. med tegningerne på 427 for at finde en passende funktion. 10/12

Opsummering Vi vælger en transformation alt efter hvad der passer bedst på data, mht. linearitet, varianshomogenitet, og normalfordeling af residualer. Vi arbejder derefter med den transformerede model - estimation, model checking, osv. Men vi skal transformere tilbage for at få meningsfyldte konklusioner. 11/12

Næste gang Næste gang skal I selv gennemgå variansanalyse med flere faktorer - flersidet variansanalyse. I har allerede set et special tilfælde: Variansanalyse med blocking. Generelt kan vi dog have et hvilket som helst antal faktorer og vi kan være interesserede i dem alle, samt alle deres vekselvirkninger. 12/12