Basal statistik. 21. oktober 2008

Relaterede dokumenter
Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Besvarelse af vitcap -opgaven

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Besvarelse af juul2 -opgaven

k normalfordelte observationsrækker (ensidet variansanalyse)

Opgavebesvarelse, Basalkursus, uge 2

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Besvarelse af opgave om Vital Capacity

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Eksamen i Statistik for Biokemikere, Blok januar 2009

Generelle lineære modeller

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Multipel Lineær Regression

Besvarelse af opgave om Vital Capacity

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Modul 11: Simpel lineær regression

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Vejledende besvarelse af hjemmeopgave, efterår 2018

Lineær regression i SAS. Lineær regression i SAS p.1/20

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Reeksamen i Statistik for Biokemikere 6. april 2009

Lineær og logistisk regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Vejledende besvarelse af hjemmeopgave

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Eksamen i Statistik for biokemikere. Blok

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Regressionsanalyse i SAS

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Opgavebesvarelse, brain weight

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences

Vejledende besvarelse af hjemmeopgave, efterår 2017

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgavebesvarelse, brain weight

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

1 Multipel lineær regression

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

1 Multipel lineær regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Reeksamen i Statistik for biokemikere. Blok

Logistisk Regression - fortsat

MPH specialmodul Epidemiologi og Biostatistik

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Vejledende besvarelse af hjemmeopgave, forår 2018

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Multipel regression 22. Maj, 2012

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Eksamen i Statistik for biokemikere. Blok

En Introduktion til SAS. Kapitel 5.

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Vejledende besvarelse af hjemmeopgave, efterår 2016

Statistik Lektion 16 Multipel Lineær Regression

Statistiske Modeller 1: Kontingenstabeller i SAS

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences

Faculty of Health Sciences. Basal statistik. Logaritmer, Repetition, Kovariansanalyse, Interaktion. Lene Theil Skovgaard. 1.

Faculty of Health Sciences. Basal statistik. Logaritmer, Repetition, Kovariansanalyse, Interaktion. Lene Theil Skovgaard. 12.

Morten Frydenberg 26. april 2004

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Module 12: Mere om variansanalyse

Morten Frydenberg 14. marts 2006

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Postoperative komplikationer

Vejledende besvarelse af hjemmeopgave, forår 2015

Statistik Lektion 4. Variansanalyse Modelkontrol

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Opgavebesvarelse, Basalkursus, uge 3

Forelæsning 11: Kapitel 11: Regressionsanalyse

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Vejledende besvarelse af hjemmeopgave, forår 2017

Statistik Lektion 17 Multipel Lineær Regression

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Dagens Tekst. Sammenligning Flere Grupper F Basal Statistik Variansanalyse. Basal Statistik - Variansanalyse 1

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

1 Hb SS Hb Sβ Hb SC = , (s = )

Transkript:

Basal statistik 21. oktober 2008

Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Parametriseringer Kovariansanalyse

Esben Budtz-Jørgensen, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet Slides af Lene Theil Skovgaard og Esben findes på, http://staff.pubhealth.ku.dk/~ebj/basal08_2

Den generelle lineære model, oktober 2008 1 Repetition af multipel regressionsanalyse Outcome: Y Forklarende variable, kovariater: X 1,, X k Model: Y = β 0 + β 1 x 1 + + β k x k + ǫ (Generel) lineær model: En model, der kan skrives op som ovenfor, med hvad som helst som x er. SAS Analyst: Statistics/ANOVA/Linear models SAS programmering: GLM

Den generelle lineære model, oktober 2008 2 Eksempel: Ensidet varians-analyse Identifikation af k grupper vha dummy variable: x 1 er 1 hvis person er i første gruppe og 0 ellers x 2 er 1 hvis person er i anden gruppe og 0 ellers. x k 1 er 1 hvis person er i k-1 gruppe og 0 ellers Model: Y = β 0 + β 1 x 1 + + β k 1 x k 1 + ǫ

Den generelle lineære model, oktober 2008 3 Med denne kodning vil β 0 svare til niveauet for k te gruppe; β 1 er forskel i niveau mellem første og k te gruppe; β 2 er forskel i niveau mellem anden og k te gruppe; osv... Det er netop den kodning der bruges i SAS, når gruppe-variabel angives som kategorisk ( Statistics/Anova/Linear Models/Class ). Bemærk: Ved omkodning af grupper kan man få vilkårlige forskelle frem! Dette skrives som en NOTE i SAS-outputtet.

Den generelle lineære model, oktober 2008 4 SAS output fra øvelsesopgaven Alder ved gang Standard Parameter Estimate Error t Value Pr > t Intercept 12.35000000 B 0.67815216 18.21 <.0001 grp 1-2.22500000 B 0.91822236-2.42 0.0255 grp 2-0.97500000 B 0.91822236-1.06 0.3016 grp 3-0.64166667 B 0.91822236-0.70 0.4931 grp 4 0.00000000 B... NOTE: The X X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations. Terms whose estimates are followed by the letter B are not uniquely estimable. Denne NOTE er altså ikke farlig!

Den generelle lineære model, oktober 2008 5 Eksempel: Tosidet varians-analyse (uden interaktion) k 1 k 2 grupper, identificeret ved to Class-variable med hhv k 1 og k 2 niveauer. Default parametrisering: Et niveau (intercept) for referencegruppen (sidste niveau af samtlige indgående faktorer) (k 1 1) parametre, der beskriver forskelle til sidste niveau af faktor nr. 1 (k 2 1) parametre, der beskriver forskelle til sidste niveau af faktor nr. 2 Faktorerne indgår additivt

Den generelle lineære model, oktober 2008 6 Tosidet variansanalyse uden interaktion i SAS SAS output fra øvelsesopgaven Sædkvalitet, efter transformation med 10-tals logaritmen: The GLM Procedure Class Level Information Class Levels Values sas_ansat 2 ja nej abstid 3 1 2 3 Number of Observations Used 188 Source DF Type III SS Mean Square F Value Pr > F sas_ansat 1 1.32546710 1.32546710 6.47 0.0118 abstid 2 1.25619157 0.62809578 3.07 0.0490

Den generelle lineære model, oktober 2008 7 Standard Parameter Estimate Error t Value Pr > t Intercept 1.921020681 B 0.07138491 26.91 <.0001 sas_ansat ja -0.186905638 B 0.07348387-2.54 0.0118 sas_ansat nej 0.000000000 B... abstid 1-0.187233951 B 0.08873769-2.11 0.0362 abstid 2-0.145921066 B 0.07473457-1.95 0.0524 abstid 3 0.000000000 B...

Den generelle lineære model, oktober 2008 8 Fortolkning: SAS-ansatte har en signifikant lavere sædkoncentration end økologer med samme abstinenstid. Forskellen på logaritmisk-skala er 0.187, svarende til at de SAS-ansattes sædkoncentration generelt kun udgør 10 0.187 = 65% af økologernes koncentrationsniveau. 95% sikkerhedsintervallet for denne forskel er angivet af SAS til ( 0.332, 0.042), og når dette tilbagetransformeres, fås: (10 0.332, 10 0.042 ) = (47%; 91%)

Den generelle lineære model, oktober 2008 9 Fittede værdier (ŷ) Bemærk: forskel mellem SAS-ansatte og landmænd er her uafhængig af abstinenstider

Den generelle lineære model, oktober 2008 10 Vekselvirkning (interaktion), tænkt eksempel: To inddelingskriterier: køn og rygestatus Outcome: FEV 1 Effekten af rygning afhænger af køn Forskellen på kønnene afhænger af rygestatus

Den generelle lineære model, oktober 2008 11 Eksempel: Rygnings effekt på fødselsvægt

Den generelle lineære model, oktober 2008 12 Interaktion/vekselvirkning mellem mængden og varigheden af rygningen Der er effekt af mængden, men kun hvis man har røget længe. Der er effekt af varigheden, og denne effekt øges med mængden. Effekten af mængden afhænger af varigheden og effekten af varigheden afhænger af mængden

Den generelle lineære model, oktober 2008 13 Interaktion i eksemplet om sædkvalitet Her tilføjes to interaktionsparametre, der beskriver: hvordan effekten af den ene faktor modificeres, når vi går fra referencegruppen for den anden faktor til et af de andre niveauer Interaktionen repræsenterer synergi-effekten mellem variabel 1 og 2, og er et symmetrisk koncept. I epidemiologiske termer: Variabel 1 modificerer effekten af variabel 2 og kaldes derfor også en effekt modifikator.

Den generelle lineære model, oktober 2008 14 For eksemplet med sædkoncentration: Source DF Type III SS Mean Square F Value Pr > F sas_ansat 1 0.91298917 0.91298917 4.45 0.0363 abstid 2 1.25068088 0.62534044 3.05 0.0499 sas_ansat*abstid 2 0.34579420 0.17289710 0.84 0.4323 Bemærk: Når der er interaktion, giver det ikke længere mening at tolke de marginale effekter (dvs. effekten af den ene variable, uden samtidig at angive hvad niveauet af den anden er)

Den generelle lineære model, oktober 2008 15 Standard Parameter Estimate Error t Value Pr > t Intercept 1.940623988 B 0.09060587 21.42 <.0001 sas_ansat ja -0.214288035 B 0.10708469-2.00 0.0469 sas_ansat nej 0.000000000 B... abstid 1-0.327004862 B 0.15909868-2.06 0.0413 abstid 2-0.106028838 B 0.14504016-0.73 0.4657 abstid 3 0.000000000 B... sas_ansat*abstid ja 1 0.205230452 B 0.19177988 1.07 0.2860 sas_ansat*abstid ja 2-0.052366937 B 0.16929581-0.31 0.7574 sas_ansat*abstid ja 3 0.000000000 B... sas_ansat*abstid nej 1 0.000000000 B... sas_ansat*abstid nej 2 0.000000000 B... sas_ansat*abstid nej 3 0.000000000 B...

Den generelle lineære model, oktober 2008 16 Modellen tillader at niveauet i hver gruppe varierer frit. Som I kan se af outputtet bruger SAS en kompliceret parametrisering ved beskrivelse disse gruppeniveauer. Det skal forstås som følger: For lang abstinenstid (niveau 3) er den estimerede forskel mellem SAS-ansatte og økologiske landmænd: 0.2143 Hvordan er denne forskel ved mellem-lang abstinenstid (niveau 2)? Den øges med 0.0524 til i alt 0.2143 0.0524 = 0.2667 Ved niveau 1? Den øges med 0.2052 til i alt 0.2143 + 0.2052 = 0.0091

Den generelle lineære model, oktober 2008 17 Udregning af det estimerede niveau i hver celle abstinenstid erhverv 1:kort 2:mellem 3:lang 1.9406 1.9406 1.9406-0.2143-0.2143-0.2143 sas-ansatte -0.3270-0.1060 +0.2052-0.0524 = 1.6046 = 1.5679 = 1.7263 1.9406 1.9406 1.9406 landmænd -0.3270-0.1060 = 1.6136 = 1.8346 reference

Den generelle lineære model, oktober 2008 18 Direkte udregning af disse estimater i SAS: Udelad begge faktorerne sas_ansat og abstid fra modellen (men bibehold interaktionen). Kryds af i no intercept Dette ændrer ikke modellen, kun måden, den præsenteres på: Source DF Type III SS Mean Square F Value Pr > F sas_ansat*abstid 6 546.9143780 91.1523963 444.14 <.0001 Standard Parameter Estimate Error t Value Pr > t sas_ansat*abstid ja 1 1.604561542 0.09060587 17.71 <.0001 sas_ansat*abstid ja 2 1.567940178 0.06608112 23.73 <.0001 sas_ansat*abstid ja 3 1.726335953 0.05707633 30.25 <.0001 sas_ansat*abstid nej 1 1.613619126 0.13077831 12.34 <.0001 sas_ansat*abstid nej 2 1.834595151 0.11325734 16.20 <.0001 sas_ansat*abstid nej 3 1.940623988 0.09060587 21.42 <.0001

Den generelle lineære model, oktober 2008 19 Fortolkning af p-værdien for vekselvirkningsleddet Udelad begge faktorerne sas_ansat og abstid fra modellen (men bibehold interaktionen). Kryds af i no intercept Source DF Type III SS Mean Square F Value Pr > F sas_ansat*abstid 6 546.9143780 91.1523963 444.14 <.0001 Nu er vekselvirkningen stærkt signifikant? Fortolkning af p-værdien for vekselvirkningsleddet ændres når hovedvirkningerne udelades. Ovenstående F-test tester ikke kun vekselvirkningen. Der testes om niveauet i alle celler er nul - dvs en meget kraftigere reduktion af modellen.

Den generelle lineære model, oktober 2008 20 Men: Outcome var jo logaritmetransformeret Vi skal transformere tilbage: sas_ansat abstid på log 10 -skala tilbagetransformeret 1: kort 1.6046 40.2 ja 2: mellem 1.5679 37.0 3: lang 1.7263 53.3 1: kort 1.6136 41.1 nej 2: mellem 1.8346 68.3 3: lang 1.9406 87.2

Den generelle lineære model, oktober 2008 21 Sådan ser de fittede værdier (ŷ) ud grafisk

Den generelle lineære model, oktober 2008 22 Fittede værdier (ŷ) i den reducerede model uden interaktion

Den generelle lineære model, oktober 2008 23 SAS-udregning af forskelle for hver abstinenstid: Udelad faktoren sas_ansat fra modellen (men bibehold interaktionen). Standard Parameter Estimate Error t Value Pr > t Intercept 1.940623988 B 0.09060587 21.42 <.0001 abstid 1-0.327004862 B 0.15909868-2.06 0.0413 abstid 2-0.106028838 B 0.14504016-0.73 0.4657 abstid 3 0.000000000 B... sas_ansat*abstid ja 1-0.009057584 B 0.15909868-0.06 0.9547 sas_ansat*abstid ja 2-0.266654973 B 0.13112566-2.03 0.0434 sas_ansat*abstid ja 3-0.214288035 B 0.10708469-2.00 0.0469 sas_ansat*abstid nej 1 0.000000000 B... sas_ansat*abstid nej 2 0.000000000 B... sas_ansat*abstid nej 3 0.000000000 B...

Den generelle lineære model, oktober 2008 24 På den oprindelige skala kan vi nu udregne effekten af at være SAS-ansat, for hver abstinenstid for sig, ved at benytte ovenstående estimater som potens med grundtal 10 (fordi vi oprindeligt tog 10-tals logaritmer): Niveau 1: 10 0.0091 = 0.98 Niveau 2: 10 0.2667 = 0.54 Niveau 3: 10 0.2143 = 0.61 altså svarende til en reduktion på hhv. 2, 46 og 39% for SAS-ansatte i forhold til økologiske landmænd.

Den generelle lineære model, oktober 2008 25 Fortolkning af p-værdien for vekselvirkningsleddet Udelad faktoren sas_ansat fra modellen (men bibehold interaktionen). Dette ændrer ikke modellen, kun måden, den præsenteres på: Source DF Type III SS Mean Square F Value Pr > F abstid 2 1.25068088 0.62534044 3.05 0.0499 sas_ansat*abstid 3 1.67126130 0.55708710 2.71 0.0463 test af sas-ansat*abstid: vekselvirkningsmodel mod model der kun tillader responsen at afhænge af abstid. dvs udover vekselvirkningen prøver vi at fjerne hovedvirkningen af sas-ansat.

Den generelle lineære model, oktober 2008 26 Forskellige parametriseringer i SAS Udelad faktor (men bibehold interaktionen) Modellen ændres ikke Smart fordi outputtet nu indeholder relevante effekter MEN testet for interaktion findes kun i det output hvor begge hovedvirkninger er med

Den generelle lineære model, oktober 2008 27 Modelreduktion - kvadratsummer For generelle lineære modeller er det ikke altid tilstrækkeligt at lave t-test på regressionskoefficienter. I stedet bruges F test til sammenligning af kvadratsummer. Modelkvadratsum, SS model = i (ŷ i ȳ) 2 Forklaret variation: Hvor meget varierer de predikterede værdier? (stort er godt, men pas på fortolkningen af selve størrelsen!) Residualkvadratsum SS resid = i (y i ŷ i ) 2 Tilbageblevet variation: Hvor store er modelafvigelserne? (småt er godt, og her kan størrelsen fortolkes!)

Den generelle lineære model, oktober 2008 28 Modelreduktion - F test Vi skal sammenligne to modeller: Den oprindelige (nr. 1) og den simplere (hypotesen, nr. 2) Kan vi forsvare at bruge den simpleste af dem? Beskriver den data tilstrækkeligt godt? NB: Modellerne skal være nestede, dvs. den ene fremkommer af den anden, typisk ved at sætte parametre til nul ( fjerne effekter ). Se på ændring i model-kvadratsum: Hvor meget mindre forklares af den simplere model? SS = SS(Model 1 ) SS(Model 2 )

Den generelle lineære model, oktober 2008 29 Flere parametre kan forklare (lidt) mere variation: SS > 0 Spørgsmålet er: Hvor meget mere? Hvor stor må SS blive, inden vi erklærer testet signifikant?

Den generelle lineære model, oktober 2008 30 Størrelsen af SS skal ses i forhold til ændringen i antallet af parametre: DF = DF 2 DF 1 og vurderes i forhold til den allerede eksisterende residualvariation MS(Residual): MS = SS/ DF F = MS MS(Residual) F( DF, DF 1)

Den generelle lineære model, oktober 2008 31 Tosidet anova Dependent Variable: lkonc Sum of Source DF Squares Mean Square F Value Pr > F Model 5 2.91775922 0.58355184 2.84 0.0169 Error 182 37.35287772 0.20523559 Corrected Total 187 40.27063694 Model 1: med interaktion DF 1 = 182

Den generelle lineære model, oktober 2008 32 Model 1: med interaktion Hypotesen, model 2: uden interaktion MS = 0.1729, DF = 2, DF 1 = 182 Source DF Type I SS Mean Square F Value Pr > F sas_ansat 1 1.31577345 1.31577345 6.41 0.0122 abstid 2 1.25619157 0.62809578 3.06 0.0493 sas_ansat*abstid 2 0.34579420 0.17289710 0.84 0.4323 Source DF Type III SS Mean Square F Value Pr > F sas_ansat 1 0.91298917 0.91298917 4.45 0.0363 abstid 2 1.25068088 0.62534044 3.05 0.0499 sas_ansat*abstid 2 0.34579420 0.17289710 0.84 0.4323 F = 0.1729 0.2052 = 0.84 F(2, 182)

Den generelle lineære model, oktober 2008 33 Bemærk at der er 2 slags kvadratsummer! De sikre råd: Brug altid Type III med mindre du er helt sikker på, hvad du gør Test kun en relevant virkning af gangen Hvis reduceret model accepteres, lav da ny analyse for denne model. Se ikke på hovedvirkninger, der indgår i vekselvirkninger!

Den generelle lineære model, oktober 2008 34 Fittede værdier (ŷ) i den reducerede model uden interaktion

Den generelle lineære model, oktober 2008 35 Fittede værdier (ŷ) i model med interaktion

Den generelle lineære model, oktober 2008 36 Et nyt begreb: Kovariansanalyse er blot en (historisk betinget) betegnelse for en generel lineær model med netop en gruppering (Class-variabel) og netop en kvantitativ variabel (kovariat, forklarende variabel). Formålet med at inddrage en ekstra kovariat fjerne bias f.eks at korrigere for en evt. højdeforskel ved sammenligning af lungefunktion for rygere og ikke-rygere øge styrken ved at nedbringe den uforklarede del af variationen, f.eks. ved at inddrage alder som kovariat i en randomiseret undersøgelse

Den generelle lineære model, oktober 2008 37 Bias ved sammenligning af grupper forekommer hvis der er i grupperne er forskel på fordelingen af en betydningsfuld kovariat (kaldes ofte en confounder) Gruppe/behandling Outcome Conf ounder

Den generelle lineære model, oktober 2008 38 Eksempel om lungekapacitet, TLC 32 patienter skal have foretaget hjerte/lunge transplantation TLC (Total Lung Capacity) bestemmes ved hjælp af helkrops plethysmografi Er der forskel på mænd og kvinder? OBS SEX AGE HEIGHT TLC 1 F 35 149 3.40 2 F 11 138 3.41 3 M 12 148 3.80.......... 30 M 25 180 8.10 31 M 22 173 8.70 32 M 25 171 9.45

Den generelle lineære model, oktober 2008 39 Tydelig kønsforskel for såvel TLC som HEIGHT Kan højdeforskellen alene forklare forskellen i lungekapacitet?

Den generelle lineære model, oktober 2008 40 Relation mellem tlc og height: sex height lung capacity Eller er der også en selvstændig kønseffekt?

Den generelle lineære model, oktober 2008 41 Kovariansanalyse: Sammenligning af parallelle regressionslinier Model: y gi = α g + βx gi + ε gi g = 1, 2; i = 1,, n g α 2 α 1 er den forventede forskel i respons mellem de to grupper for fastholdt værdi af x. Vi har justret for x.

Den generelle lineære model, oktober 2008 42 Hvad sker der, hvis vi glemmer x i modellen?

Den generelle lineære model, oktober 2008 43 Kovariansanalyse: Model: y gi = α g + βx gi + ǫ gi g = 1, 2; i = 1,...,n g Og hvad er det så, der sker, hvis vi glemmer x i modellen? 1. Bias. Hvis x 1 x 2, bliver forskellen forkert vurderet. 2. Inefficiens. Selv om x 1 = x 2, mister vi styrke (spredning for stor).

Den generelle lineære model, oktober 2008 44 Men skal linierne nødvendigvis være parallelle? Mere generel model: y gi = α g + β g x gi + ε gi Når β 1 β 2, siger vi, at der er vekselvirkning = interaktion. Det betyder: Effekten af højde (x) afhænger af kønnet (g) Forskellen på kønnene afhænger af højden Her kan man ikke udtale sig om en generel effekt af højde eller køn.

Den generelle lineære model, oktober 2008 45 I forsøg på at skaffe varianshomogenitet, logaritmerer vi tlc... men det bliver ikke rigtigt godt...

Den generelle lineære model, oktober 2008 46 Specifikation af model Model med vekselvirkning: I SAS Analyst: Statistics/ANOVA/Linear models indsætte height som kvantitativ variabel indsætte sex som kategorisk (Class-variabel) Under Model-knap kan man indsætte cross -led

Den generelle lineære model, oktober 2008 47 Output Dependent Variable: ltlc Sum of Source DF Squares Mean Square F Value Pr > F Model 3 0.27230446 0.09076815 13.05 <.0001 Error 28 0.19478293 0.00695653 Corrected Total 31 0.46708739 R-Square Coeff Var Root MSE ltlc Mean 0.582984 10.85524 0.083406 0.768346 Source DF Type I SS Mean Square F Value Pr > F sex 1 0.13626303 0.13626303 19.59 0.0001 height 1 0.13451291 0.13451291 19.34 0.0001 height*sex 1 0.00152852 0.00152852 0.22 0.6429

Den generelle lineære model, oktober 2008 48 Source DF Type III SS Mean Square F Value Pr > F sex 1 0.00210426 0.00210426 0.30 0.5867 height 1 0.13597107 0.13597107 19.55 0.0001 height*sex 1 0.00152852 0.00152852 0.22 0.6429 Standard Parameter Estimate Error t Value Pr > t Intercept -.2190181620 B 0.35221658-0.62 0.5391 sex F -.2810587157 B 0.51102682-0.55 0.5867 sex M 0.0000000000 B... height 0.0060473650 B 0.00201996 2.99 0.0057 height*sex F 0.0014344422 B 0.00306016 0.47 0.6429 height*sex M 0.0000000000 B...

Den generelle lineære model, oktober 2008 49 Omregning til de to linier: Linie for mænd (reference gruppen): log10(lung capacity) = 0.219 + 0.00605 height Linie for kvinder: log10(lung capacity) = 0.219 + ( 0.281) + (0.00605 + 0.00143) height = 0.500 + 0.00748 height

Den generelle lineære model, oktober 2008 50 SAS-udregning af de to linier Bibehold interaktionen sex*height Udelad den marginale effekt height Udelad intercept (under Model) Source DF Type III SS Mean Square F Value Pr > F sex 2 0.01537968 0.00768984 1.11 0.3451 height*sex 2 0.13604143 0.06802071 9.78 0.0006 Standard Parameter Estimate Error t Value Pr > t sex F -.5000768777 0.37025922-1.35 0.1876 sex M -.2190181620 0.35221658-0.62 0.5391 height*sex F 0.0074818072 0.00229877 3.25 0.0030 height*sex M 0.0060473650 0.00201996 2.99 0.0057

Den generelle lineære model, oktober 2008 51 Fortolkning af p-værdien for vekselvirkningsleddet Bibehold interaktionen sex*height Udelad den marginale effekt height Udelad intercept Source DF Type III SS Mean Square F Value Pr > F sex 2 0.01537968 0.00768984 1.11 0.3451 height*sex 2 0.13604143 0.06802071 9.78 0.0006 Nu er vekselvirkningen stærkt signifikant? Fortolkning af p-værdien for vekselvirkningsleddet ændres når en af hovedvirkningerne udelades. Ovenstående F-test tester ikke kun vekselvirkningen. Der testes ned til en model der kun tillader at responsniveauet at afhænge af sex.

Den generelle lineære model, oktober 2008 52 Forskellige parametriseringer i SAS Udelad height, men bibehold interaktionen: height*sex Modellen ændres ikke Smart fordi outputtet angiver de to regressionslinjer direkte MEN testet for interaktion findes kun i det output hvor begge hovedvirkninger er med

Den generelle lineære model, oktober 2008 53 Modelreduktion Vi kunne ikke se nogen vekselvirkning og udelader den af modellen Source DF Type III SS Mean Square F Value Pr > F sex 1 0.00968023 0.00968023 1.43 0.2415 height 1 0.13451291 0.13451291 19.87 0.0001 Standard Parameter Estimate Error t Value Pr > t Intercept -.3278068826 B 0.26135206-1.25 0.2198 sex F -.0421012632 B 0.03520676-1.20 0.2415 sex M 0.0000000000 B... height 0.0066723630 0.00149683 4.46 0.0001 Bemærk: Nu er kønseffekten forsvundet

Den generelle lineære model, oktober 2008 54 I dette eksempel så vi Fortolkning Den observerede forskel i (log 10 ) lungekapacitet mellem mænd og kvinder kunne godt tilskrives højdeforskellen mellem kønnene. Der kan dog stadig være en kønsforskel op til 0.0421 ± 2.045 0.0352 = ( 0.030, 0.114), svarende til intervallet (0.933, 1.300) for ratio en, dvs. op til en 30% øget lungefunktion hos mænd

Den generelle lineære model, oktober 2008 55 Husk modelkontrol:

Den generelle lineære model, oktober 2008 56 Det kan også forekomme, at Tilsyneladende ens grupper (f.eks. blodtryk hos mænd og kvinder) udviser forskelle, når der bliver korrigeret for inhomogeniteter (f.eks. fedmegrad) Man skal huske alle variable med potentiel betydning for outcome!... uden at gå for meget på fisketur!!

Den generelle lineære model, oktober 2008 57 Eksempel: Fedmegrad og blodtryk obese: vægt/idealvægt bp: systolisk blodtryk obs sex obese bp 1 male 1.31 130 2 male 1.31 148 3 male 1.19 146 4 male 1.11 122........ 101 female 1.64 136 102 female 1.73 208

Den generelle lineære model, oktober 2008 58 Illustration af blodtryk vs. fedmegrad

Den generelle lineære model, oktober 2008 59 Marginale sammenligninger af kønnene (t-tests): Først outcome, logaritmeret blodtryk, lbp Statistics Lower CL Upper CL Lower CL Variable sex N Mean Mean Mean Std Dev Std Dev lbp female 58 2.0806 2.0969 2.1132 0.0524 0.062 lbp male 44 2.0873 2.1037 2.1201 0.0445 0.0539 lbp Diff (1-2) -0.03-0.007 0.0165 0.0515 0.0587 T-Tests Variable Method Variances DF t Value Pr > t lbp Pooled Equal 100-0.58 0.5625 lbp Satterthwaite Unequal 98.1-0.59 0.5549 Equality of Variances Variable Method Num DF Den DF F Value Pr > F lbp Folded F 57 43 1.32 0.3383 Vi ser ikke nogen signifikant forskel på mænd og kvinder.

Den generelle lineære model, oktober 2008 60 og så kovariaten, logaritmeret fedmegrad, lobese Statistics Lower CL Upper CL Lower CL Variable sex N Mean Mean Mean Std Dev Std Dev lobese female 58 0.1184 0.1396 0.1608 0.0683 0.0807 lobese male 44 0.0534 0.0725 0.0917 0.052 0.063 lobese Diff (1-2) 0.0379 0.0671 0.0963 0.0647 0.0736 T-Tests Variable Method Variances DF t Value Pr > t lobese Pooled Equal 100 4.56 <.0001 lobese Satterthwaite Unequal 99.9 4.71 <.0001 Equality of Variances Variable Method Num DF Den DF F Value Pr > F lobese Folded F 57 43 1.64 0.0913 Her ses en signifikant forskel i fedmegrad for mænd og kvinder, så hvis fedmegrad også hænger sammen med blodtryk...

Den generelle lineære model, oktober 2008 61 Og der er en sammenhæng mellem fedmegrad og blodtryk: sex=female sex=male Spearman Correlation Coefficients, N = 58 Prob > r under H0: Rho=0 Spearman Correlation Coefficients, N = 44 Prob > r under H0: Rho=0 bp obese bp obese bp 1.00000 0.49121 <.0001 obese 0.49121 1.00000 <.0001 bp 1.00000 0.24828 0.1042 obese 0.24828 1.00000 0.1042

Den generelle lineære model, oktober 2008 62 Når vi sammenligner blodtryk kønnene imellem, må vi må derfor korrigere for fedmegrad, først med vekselvirkning: Dependent Variable: lbp R-Square Coeff Var Root MSE lbp Mean 0.161679 2.588486 0.054354 2.099830 Source DF Type I SS Mean Square F Value Pr > F lobese 1 0.03809379 0.03809379 12.89 0.0005 sex 1 0.01597238 0.01597238 5.41 0.0221 lobese*sex 1 0.00177193 0.00177193 0.60 0.4405 Source DF Type III SS Mean Square F Value Pr > F lobese 1 0.03920980 0.03920980 13.27 0.0004 sex 1 0.01252714 0.01252714 4.24 0.0421 lobese*sex 1 0.00177193 0.00177193 0.60 0.4405

Den generelle lineære model, oktober 2008 63 Standard Parameter Estimate Error t Value Pr > t Intercept 2.087171366 B 0.01257865 165.93 <.0001 lobese 0.227981122 B 0.13158758 1.73 0.0863 sex female -0.039290663 B 0.01908066-2.06 0.0421 sex male 0.000000000 B... lobese*sex female 0.123097524 B 0.15894836 0.77 0.4405 lobese*sex male 0.000000000 B... Ingen signifikant vekselvirkning, vi udelader den.

Den generelle lineære model, oktober 2008 64 Model uden vekselvirkning (parallelle linier): Dependent Variable: lbp Source DF Type I SS Mean Square F Value Pr > F lobese 1 0.03809379 0.03809379 12.95 0.0005 sex 1 0.01597238 0.01597238 5.43 0.0218 Source DF Type III SS Mean Square F Value Pr > F lobese 1 0.05290402 0.05290402 17.98 <.0001 sex 1 0.01597238 0.01597238 5.43 0.0218 Standard Parameter Estimate Error t Value Pr > t Intercept 2.081052655 B 0.00976800 213.05 <.0001 lobese 0.312347032 0.07366198 4.24 <.0001 sex female -0.027765105 B 0.01191694-2.33 0.0218 sex male 0.000000000 B... Så kom der pludselig en signifikant kønsforskel

Den generelle lineære model, oktober 2008 65 Illustration af blodtryk vs. fedmegrad

Den generelle lineære model, oktober 2008 66 Metoder til at undgå bias Matchning. Dvs. udvælge individer, således at de er nogenlunde ens med hensyn til de vigtige forstyrrende kovariater. (Dette kan gøres parvist eller i større grupper) Randomisering. Dvs. trække lod om behandling (gruppe) NB: Dette kan naturligvis kun lade sig gøre, hvis grupperne er noget, man selv bestemmer over. Korrektion Dvs. at medtage den skævt fordelte variabel som kovariat, altså: en kovariansanalyse

Den generelle lineære model, oktober 2008 67 Metoder til at øge styrken flere observationer/personer øg spredning i eksponeringen design-ændring (f.eks fra uparret til parret) inddrage vigtige forklarende variable (kovariater) Men pas på med at gå for meget på fisketur!!