Basal statistik. 30. oktober 2007

Relaterede dokumenter
Basal statistik. 30. oktober Den generelle lineære model

Basal statistik. 21. oktober 2008

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Besvarelse af vitcap -opgaven

Besvarelse af juul2 -opgaven

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Eksamen i Statistik for Biokemikere, Blok januar 2009

Generelle lineære modeller

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Lineær regression i SAS. Lineær regression i SAS p.1/20

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Multipel Lineær Regression

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Lineær og logistisk regression

Modul 11: Simpel lineær regression

Reeksamen i Statistik for Biokemikere 6. april 2009

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Opgavebesvarelse, Basalkursus, uge 2

MPH specialmodul Epidemiologi og Biostatistik

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Besvarelse af opgave om Vital Capacity

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Regressionsanalyse i SAS

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

En Introduktion til SAS. Kapitel 5.

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Opgavebesvarelse, brain weight

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

k normalfordelte observationsrækker (ensidet variansanalyse)

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

1 Hb SS Hb Sβ Hb SC = , (s = )

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Basal statistik. 30. januar 2007

Besvarelse af opgave om Vital Capacity

Opgavebesvarelse, brain weight

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Multipel regression 22. Maj, 2012

Morten Frydenberg 26. april 2004

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Eksamen i Statistik for biokemikere. Blok

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Statistik Lektion 16 Multipel Lineær Regression

Logistisk Regression - fortsat

Reeksamen i Statistik for biokemikere. Blok

1 Multipel lineær regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

1 Multipel lineær regression

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Morten Frydenberg 14. marts 2006

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Ikke-parametriske tests

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Vejledende besvarelse af hjemmeopgave

Vejledende besvarelse af hjemmeopgave, efterår 2018

Statistiske Modeller 1: Kontingenstabeller i SAS

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Statistik Lektion 17 Multipel Lineær Regression

Dagens Tekst. Sammenligning Flere Grupper F Basal Statistik Variansanalyse. Basal Statistik - Variansanalyse 1

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Vejledende besvarelse af hjemmeopgave, efterår 2016

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences

Faculty of Health Sciences. Basal statistik. Logaritmer, Repetition, Kovariansanalyse, Interaktion. Lene Theil Skovgaard. 1.

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Eksamen i Statistik for biokemikere. Blok

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og Biostatistik

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Faculty of Health Sciences. Basal statistik. Logaritmer, Repetition, Kovariansanalyse, Interaktion. Lene Theil Skovgaard. 12.

2. januar 2015 Proj.nr Version 1 LRK/EHBR/EVO/CCM/MT. Rapport

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Logistisk regression

Løsning til øvelsesopgaver dag 4 spg 5-9

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Vejledende besvarelse af hjemmeopgave, forår 2018

Eksamen i Statistik for biokemikere. Blok

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Transkript:

Basal statistik 30. oktober 2007

Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer

Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet e-mail: L.T.Skovgaard@biostat.ku.dk http://staff.pubhealth.ku.dk/~lts/basal07_2

Den generelle lineære model, oktober 2007 1 Multipel regressionsanalyse (Repetition) Generel form: Y = β 0 + β 1 x 1 + + β k x k + ǫ Ide: x erne kan være hvadsomhelst! De behøver ikke være kvantitative (højde, vægt...) Begrebet lineær model dækker over en model der kan skrives op som ovenfor med hvad som helst som x er. SAS Analyst: Statistics/ANOVA/Linear models

Den generelle lineære model, oktober 2007 2 Eksempel: Ensidet varians-analyse Identifikation af k grupper vha dummy variable: x 1 er 1 hvis person er i første gruppe og 0 ellers x 2 er 1 hvis person er i anden gruppe og 0 ellers. x k 1 er 1 hvis person er i k-1 gruppe og 0 ellers model: Y = β 0 + β 1 x 1 + + β k 1 x k 1 + ǫ Med denne kodning vil β 0 svare til niveau for k te gruppe; β 1 er forskel i niveau mellem første og k te gruppe; β 2 er forskel i niveau mellem anden og k te gruppe; osv...

Den generelle lineære model, oktober 2007 3 Ensidet variansanalyse i SAS Det er netop den kodning der bruges i SAS, når gruppe-variabel angives som kategorisk ( Statistics/Anova/Linear Models/Class ). Standard Parameter Estimate Error t Value Pr > t Intercept 11.37500000 B 0.61906539 18.37 <.0001 Traening Aktiv -1.25000000 B 0.87549067-1.43 0.1696 Traening Ingen 0.33333333 B 0.87549067 0.38 0.7076 Traening Kontrol 0.97500000 B 0.91822236 1.06 0.3016 Traening Passiv 0.00000000 B... SAS output fra den velkendte øvelsesopgave Alder ved gang Bemærk: Ved omkodning af gruppe niveauer kan man få en vilkårlig forskel frem!

Den generelle lineære model, oktober 2007 4 Eksempel: Tosidet varians-analyse uden interaktion k 1 k 2 grupper, identificeret ved to Class-variable med hhv k 1 og k 2 niveauer: x (1) i z (2) j er 1 hvis person antager i te level af første variabel og 0 ellers er 1 hvis person antager j te level af anden variabel og 0 ellers Model: Y = µ + α 1 x (1) 1 + + α k1 1x (1) k 1 1 + β 1z (2) 1 + + β k2 1z (2) k 2 1 + ǫ. µ svarer til niveau for gruppe med k 1 te level hhv k 2 te level af første hhv anden variabel; α i er forskel i niveau mellem personer med hhv i te level og k 1 te level af første variabel; β j er forskel i niveau mellem personer med hhv j te level og k 2 te level af anden variabel.

Den generelle lineære model, oktober 2007 5 Tosidet variansanalyse uden interaktion i SAS Igen er det den kodning der bruges i SAS, når variable angives som kategoriske ( Statistics/Anova/Linear Models/Class ). Standard Parameter Estimate Error t Value Pr > t Intercept 4.423313583 B 0.16436984 26.91 <.0001 abstid 1-0.431122104 B 0.20432607-2.11 0.0362 abstid 2-0.335995670 B 0.17208271-1.95 0.0524 abstid 3 0.000000000 B... sas_ansat ja -0.430366136 B 0.16920287-2.54 0.0118 sas_ansat ne 0.000000000 B... SAS output fra den velkendte øvelsesopgave Sædkvalitet

Den generelle lineære model, oktober 2007 6 Eksempel: Tosidet variansanalyse med interaktion Ekstra dummy variabel Model: vi,j = x (1) i z (2) j Y =µ + α 1 x (1) 1 + + α k1 1x (1) k 1 1 + β 1z (2) 1 + + β k2 1z (2) k 2 1 + γ 1 v 1,1 + + γ (k1 1) (k 2 1)v k 1 1,k 2 1 + ǫ. γ erne er den del af forskel i niveau mellem personer der kan tilskrives synergi-effekten mellem variabel 1 og 2. I epidemiologiske termer: Variabel 1 modificerer effekten af variabel 2. Bemærk: Når der er interaktion, giver det ikke længere mening at tolke α er og β er som overall forskelle i niveauer!

Den generelle lineære model, oktober 2007 7 Tosidet variansanalyse med interaktion i SAS Igen er det den kodning der bruges i SAS, når variable angives som kategoriske ( Statistics/Anova/Linear Models/Class ) og vekselvirkning inkluderes ( Statistics/Anova/Linear Models/Model/Cross ). Standard Parameter Estimate Error t Value Pr > t Intercept 4.468451867 B 0.20862773 21.42 <.0001 sas_ansat ja -0.493416436 B 0.24657162-2.00 0.0469 sas_ansat ne 0.000000000 B... abstid 1-0.752956521 B 0.36633825-2.06 0.0413 abstid 2-0.244140421 B 0.33396731-0.73 0.4657 abstid 3 0.000000000 B...

Den generelle lineære model, oktober 2007 8 sas_ansat*abstid ja 1 0.472560578 B 0.44158949 1.07 0.2860 sas_ansat*abstid ja 2-0.120579329 B 0.38981800-0.31 0.7574 sas_ansat*abstid ja 3 0.000000000 B... sas_ansat*abstid ne 1 0.000000000 B... sas_ansat*abstid ne 2 0.000000000 B... sas_ansat*abstid ne 3 0.000000000 B... Source DF Type I SS Mean Square F Value Pr > F sas_ansat 1 6.97609675 6.97609675 6.41 0.0122 abstid 2 6.66019970 3.33009985 3.06 0.0493 sas_ansat*abstid 2 1.83336563 0.91668282 0.84 0.4323 Source DF Type III SS Mean Square F Value Pr > F sas_ansat 1 4.84057554 4.84057554 4.45 0.0363 abstid 2 6.63098257 3.31549128 3.05 0.0499 sas_ansat*abstid 2 1.83336563 0.91668282 0.84 0.4323

Den generelle lineære model, oktober 2007 9 Generelt: Mere parametrisering µ ij = µ + α i + β j + γ ij. I eksempel ovenfor: Niveau for sas ansat ne med abstid 1 = 4.468 + ( 0.753), Niveau for sas ansat ne med abstid 2 = 4.468 + ( 0.244), Niveau for sas ansat ne med abstid 3 = 4.468, Niveau for sas ansat ja med abstid 1 = 4.468 + ( 0.493) + ( 0.753) + 0.473, Niveau for sas ansat ja med abstid 2 = 4.468 + ( 0.493) + ( 0.244) + ( 0.121), Niveau for sas ansat ja med abstid 3 = 4.468 + ( 0.493).

Den generelle lineære model, oktober 2007 10 Men: Outcome var jo logaritmetransformeret! Vi skal transformere tilbage: Frem med log, tilbage med exp sas_ansat abstid på log-skala tilbagetransformeret 1: kort 3.72 41.1 nej 2: mellem 4.22 68.3 3: lang 4.47 87.2 1: kort 3.69 40.2 ja 2: mellem 3.61 37.0 3: lang 3.98 53.3

Den generelle lineære model, oktober 2007 11 Sådan ser de fittede værdier (ŷ) ud rent grafisk

Den generelle lineære model, oktober 2007 12 Tænkt eksempel på vekselvirkning (interaktion): To inddelingskriterier: køn og rygestatus Outcome: FEV 1 Effekten af rygning afhænger af køn Forskellen på kønnene afhænger af rygestatus

Den generelle lineære model, oktober 2007 13 Mulige forklaringer: biologisk forskel på effekt af rygning holder vist ikke i praksis, men eksemplet er jo også blot tænkt måske ryger kvinderne ikke helt så meget antal pakkeår confounder for køn måske virker rygningen som en relativ (%-vis) nedsættelse af FEV 1 kunne undersøges ved en longitudinel undersøgelse

Den generelle lineære model, oktober 2007 14 Eksempel: Rygnings effekt på fødselsvægt

Den generelle lineære model, oktober 2007 15 Interaktion/vekselvirkning mellem mængden og varigheden af rygningen Der er effekt af mængden, men kun hvis man har røget længe. Der er effekt af varigheden, og denne effekt øges med mængden. Effekten af mængden afhænger af... og effekten af varigheden afhænger af...

Den generelle lineære model, oktober 2007 16 Modelreduktion - kvadratsummer Når man arbejder med mere komplicerede lineære modeller (f.eks. Class-variable med mere end 2 niveauer), så er det ikke tilstrækkeligt at lave t test på regressionskoefficienter. I stedet bruges F test til sammenligning af kvadratsummer. Modelkvadratsum i (ŷ i ȳ) 2 Forklaret variation: Hvor meget varierer de predikterede værdier? (stort er godt, men pas på fortolkningen af selve størrelsen!) Residualkvadratsum i (y i ŷ i ) 2 Tilbageblevet variation: Hvor store er modelafvigelserne? (småt er godt)

Den generelle lineære model, oktober 2007 17 Skematiseret= Variansanalysetabel DF Model k Residual n k 1 Total n 1 Sum Sq i (ŷ i ȳ) 2 i (y i ŷ i ) 2 i (y i ȳ) 2 Mean Sq = Sum Sq/DF F = Mean Sq(Model) Mean Sq(Residual) Sædkoncentration, 6 grupper: oeko*abstinenstid Sum of Source DF Squares Mean Square F Value Pr > F Model 5 15.4696621 3.0939324 2.84 0.0169 Error 182 198.0411518 1.0881382 Corrected Total 187 213.5108139

Den generelle lineære model, oktober 2007 18 Modelreduktion - F test Vi skal sammenligne to modeller: Kan vi nøjes med at bruge den simpleste af dem? NB: Modellerne skal være nestede, dvs. den ene fremkommer af den anden, typisk ved at sætte parametre til nul ( fjerne effekter ). Se på ændring i kvadratsum. Hvor meget mindre forklares af den simplere model? Sum Sq = Sum Sq(Model 1 ) Sum Sq(Model 2 ) Sum Sq > 0, altid (flere parametre kan forklare mere variation). Hvor stor må den blive? F = Mean Sq Mean Sq(Residual) Mean Sq = Sum Sq/ DF

Den generelle lineære model, oktober 2007 19 Variansanalysetabel Source DF Type I SS Mean Square F Value Pr > F sas_ansat 1 6.97609675 6.97609675 6.41 0.0122 abstid 2 6.66019970 3.33009985 3.06 0.0493 sas_ansat*abstid 2 1.83336563 0.91668282 0.84 0.4323 Source DF Type III SS Mean Square F Value Pr > F sas_ansat 1 4.84057554 4.84057554 4.45 0.0363 abstid 2 6.63098257 3.31549128 3.05 0.0499 sas_ansat*abstid 2 1.83336563 0.91668282 0.84 0.4323 Bemærk at der er 2 slags kvadratsummer! (I virkeligheden er der 4...) Brug altid Type III og test kun en relevant virkning af gangen (ingen hovedvirkninger, der indgår i vekselvirkninger!). Hvis reduceret model accepteres, lav da ny analyse for denne model.

Den generelle lineære model, oktober 2007 20 Fittede værdier (ŷ) i den reducerede model uden interaktion

Den generelle lineære model, oktober 2007 21 Et nyt begreb: Kovariansanalyse er blot en betegnelse for en (generel) lineær model med netop en gruppering (Class-variabel) og en kvantitativ variabel. Formålet kan være at fjerne bias eller at øge styrken i undersøgelsen. Bias ved sammenligning af grupper Forekommer, hvis der er forskel på fordelingen af en betydningsfuld kovariat i to grupper Eksempel: Sammenligning af lungefunktion hos mænd og kvinder de er jo ikke lige høje

Den generelle lineære model, oktober 2007 22 Metoder til at undgå bias Matchning. Dvs. udvælge individer, således at de er nogenlunde ens med hensyn til de vigtige forstyrrende kovariater. (Dette kan gøres parvist eller i større grupper) Randomisering. Dvs. trække lod om behandling (gruppe) NB: Dette kan naturligvis kun lade sig gøre, hvis grupperne er noget, man selv bestemmer over. Men læg mærke til følgende: Selv om fordelingen af kovariater er ens i de to grupper, kan det være af stor betydning at medtage dem i analysen. Det giver større styrke!

Den generelle lineære model, oktober 2007 23 Eksempel om lungekapacitet, TLC 32 patienter skal have foretaget hjerte/lunge transplantation TLC (Total Lung Capacity) bestemmes ved hjælp af helkrops plethysmografi Er der forskel på mænd og kvinder? OBS SEX AGE HEIGHT TLC 1 F 35 149 3.40 2 F 11 138 3.41 3 M 12 148 3.80.......... 30 M 25 180 8.10 31 M 22 173 8.70 32 M 25 171 9.45

Den generelle lineære model, oktober 2007 24 Box plots til sammenligning af kønnene: Tydelig kønsforskel for såvel TLC som HEIGHT

Den generelle lineære model, oktober 2007 25 Marginale sammenligninger (t-tests) Variable: TLC SEX N Mean Std Dev Std Error -------------------------------------------------------------------------- F 16 5.19812500 1.30082138 0.32520534 M 16 6.97687500 1.43801585 0.35950396 Variances T DF Prob> T --------------------------------------- Unequal -3.6693 29.7 0.0009 Equal -3.6693 30.0 0.0009 For H0: Variances are equal, F = 1.22 DF = (15,15) Prob>F = 0.7028 Variable: HEIGHT SEX N Mean Std Dev Std Error ----------------------------------------------------------------------- F 16 160.81250000 9.36816417 2.34204104 M 16 174.06250000 10.66126165 2.66531541 Variances T DF Prob> T --------------------------------------- Unequal -3.7344 29.5 0.0008 Equal -3.7344 30.0 0.0008 For H0: Variances are equal, F = 1.30 DF = (15,15) Prob>F = 0.6228

Den generelle lineære model, oktober 2007 26 Relation mellem tlc og height: Kan højdeforskellen alene forklare forskellen i lungekapacitet?

Den generelle lineære model, oktober 2007 27 Kovariansanalyse Sammenligning af parallelle regressionslinier Model: y gi = α g + βx gi + ǫ gi g = 1, 2; i = 1,...,n g Hvad sker der, hvis vi glemmer x i modellen? 1. Bias. Hvis x 1 x 2, bliver forskellen forkert vurderet. 2. Inefficiens. Selv om x 1 = x 2, mister vi styrke (spredning for stor).

Den generelle lineære model, oktober 2007 28 Illustration af kovariansanalyse

Den generelle lineære model, oktober 2007 29 Bemærk: Selv om fordelingen af kovariater er ens i de to grupper, kan det være af stor betydning at medtage dem i analysen. Det giver større styrke! Uden x i modellen: Ingen særlig forskel på grupperne Med x i modellen: Tydelig forskel på grupperne

Den generelle lineære model, oktober 2007 30 Vekselvirkning Hvem siger, at linierne nødvendigvis skal være parallelle? Mere generel model: y gi = α g + β g x gi + ǫ gi g = 1,2; i = 1,...,n g Når β 1 β 2, siger vi, at der er vekselvirkning, eller interaktion. Det betyder: Effekten af højde afhænger af kønnet Forskellen på kønnene afhænger af højden Her kan man ikke udtale sig om en generel effekt af højde eller køn.

Den generelle lineære model, oktober 2007 31 Relation mellem tlc og height:

Den generelle lineære model, oktober 2007 32 I forsøg på at skaffe varianshomogenitet, logaritmerer vi tlc... men det hjælper ikke rigtigt...

Den generelle lineære model, oktober 2007 33 Specifikation af model Model med vekselvirkning: I SAS Analyst: Statistics/ANOVA/Linear models indsætte height som kvantitativ variabel indsætte sex som kategorisk (Class-variabel) Under Model-knap kan man indsætte cross -led

Den generelle lineære model, oktober 2007 34 Output Dependent Variable: ltlc Sum of Source DF Squares Mean Square F Value Pr > F Model 3 0.27230446 0.09076815 13.05 <.0001 Error 28 0.19478293 0.00695653 Corrected Total 31 0.46708739 R-Square Coeff Var Root MSE ltlc Mean 0.582984 10.85524 0.083406 0.768346 Source DF Type I SS Mean Square F Value Pr > F sex 1 0.13626303 0.13626303 19.59 0.0001 height 1 0.13451291 0.13451291 19.34 0.0001 height*sex 1 0.00152852 0.00152852 0.22 0.6429

Den generelle lineære model, oktober 2007 35 Source DF Type III SS Mean Square F Value Pr > F sex 1 0.00210426 0.00210426 0.30 0.5867 height 1 0.13597107 0.13597107 19.55 0.0001 height*sex 1 0.00152852 0.00152852 0.22 0.6429 Standard Parameter Estimate Error t Value Pr > t Intercept -.2190181620 B 0.35221658-0.62 0.5391 sex F -.2810587157 B 0.51102682-0.55 0.5867 sex M 0.0000000000 B... height 0.0060473650 B 0.00201996 2.99 0.0057 height*sex F 0.0014344422 B 0.00306016 0.47 0.6429 height*sex M 0.0000000000 B...

Den generelle lineære model, oktober 2007 36 Omregning til de to linier: Linie for mænd: log10(lung capacity) = 0.219 + 0.00605 height Linie for kvinder: log10(lung capacity) = 0.219 + ( 0.281) + (0.00605 + 0.00143) height = 0.500 + 0.00748 height

Den generelle lineære model, oktober 2007 37 SAS-udregning af de to linier Bibehold interaktionen sex*height Udelad den marginale effekt height Udelad intercept (under Model) Output: Dependent Variable: ltlc Sum of Source DF Squares Mean Square F Value Pr > F Model 4 19.16369633 4.79092408 688.69 <.0001 Error 28 0.19478293 0.00695653 Uncorrected Total 32 19.35847926

Den generelle lineære model, oktober 2007 38 Source DF Type III SS Mean Square F Value Pr > F sex 2 0.01537968 0.00768984 1.11 0.3451 height*sex 2 0.13604143 0.06802071 9.78 0.0006 Standard Parameter Estimate Error t Value Pr > t sex F -.5000768777 0.37025922-1.35 0.1876 sex M -.2190181620 0.35221658-0.62 0.5391 height*sex F 0.0074818072 0.00229877 3.25 0.0030 height*sex M 0.0060473650 0.00201996 2.99 0.0057

Den generelle lineære model, oktober 2007 39 Modelreduktion Vi kunne ikke se nogen vekselvirkning og udelader den af modellen Dependent Variable: ltlc Sum of Mean Source DF Squares Square F Value Pr > F Model 2 0.27077594 0.13538797 20.00 0.0001 Error 29 0.19631145 0.00676936 Corrected Total 31 0.46708739 R-Square C.V. Root MSE LTLC Mean 0.579712 10.70821 0.08228 0.76835 Source DF Type I SS Mean Square F Value Pr > F sex 1 0.13626303 0.13626303 20.13 0.0001 height 1 0.13451291 0.13451291 19.87 0.0001

Den generelle lineære model, oktober 2007 40 Source DF Type III SS Mean Square F Value Pr > F sex 1 0.00968023 0.00968023 1.43 0.2415 height 1 0.13451291 0.13451291 19.87 0.0001 Standard Parameter Estimate Error t Value Pr > t Intercept -.3278068826 B 0.26135206-1.25 0.2198 sex F -.0421012632 B 0.03520676-1.20 0.2415 sex M 0.0000000000 B... height 0.0066723630 0.00149683 4.46 0.0001 Bemærk: Nu er kønseffekten forsvundet!

Den generelle lineære model, oktober 2007 41 I dette eksempel så vi Fortolkning Den observerede forskel i (log 10 ) lungekapacitet mellem mænd og kvinder kan tilskrives højdeforskellen mellem kønnene. Der kan dog stadig være en kønsforskel op til 0.0421 ± 2.045 0.0352 = ( 0.030,0.114), svarende til intervallet (0.933, 1.300) for ratio en, dvs. op til en 30% øget lungefunktion hos mænd

Den generelle lineære model, oktober 2007 42 Det kan også forekomme, at Tilsyneladende ens grupper (f.eks. blodtryk hos mænd og kvinder) udviser forskelle, når der bliver korrigeret for inhomogeniteter (f.eks. fedmegrad) Man skal huske alle variable med potentiel betydning for outcome!

Den generelle lineære model, oktober 2007 43 Husk modelkontrol, f.eks:

Den generelle lineære model, oktober 2007 44 Tænkt eksempel på relaterede kovariater (confounding): Kolesterol vs. chokoladespisning og køn... Kolesterol og chokoladespisning er positivt relaterede for hvert køn separat negativt relaterede for mennesker Ingen særlig kønsforskel i kolesterol og dog...

Den generelle lineære model, oktober 2007 45 Eksempel: Fedmegrad og blodtryk obese: vægt/idealvægt bp: systolisk blodtryk OBS SEX OBESE BP 1 male 1.31 130 2 male 1.31 148 3 male 1.19 146 4 male 1.11 122........ 101 female 1.64 136 102 female 1.73 208

Den generelle lineære model, oktober 2007 46 Marginale sammenligninger af kønnene (t-tests): Først outcome, logaritmeret blodtryk, lbp Statistics Lower CL Upper CL Lower CL Variable sex N Mean Mean Mean Std Dev Std Dev lbp female 58 2.0806 2.0969 2.1132 0.0524 0.062 lbp male 44 2.0873 2.1037 2.1201 0.0445 0.0539 lbp Diff (1-2) -0.03-0.007 0.0165 0.0515 0.0587 T-Tests Variable Method Variances DF t Value Pr > t lbp Pooled Equal 100-0.58 0.5625 lbp Satterthwaite Unequal 98.1-0.59 0.5549 Equality of Variances Variable Method Num DF Den DF F Value Pr > F lbp Folded F 57 43 1.32 0.3383 Vi ser ikke nogen udtalt forskel på mænd og kvinder.

Den generelle lineære model, oktober 2007 47 og så kovariaten, logaritmeret fedmegrad, lobese Statistics Lower CL Upper CL Lower CL Variable sex N Mean Mean Mean Std Dev Std Dev lobese female 58 0.1184 0.1396 0.1608 0.0683 0.0807 lobese male 44 0.0534 0.0725 0.0917 0.052 0.063 lobese Diff (1-2) 0.0379 0.0671 0.0963 0.0647 0.0736 T-Tests Variable Method Variances DF t Value Pr > t lobese Pooled Equal 100 4.56 <.0001 lobese Satterthwaite Unequal 99.9 4.71 <.0001 Equality of Variances Variable Method Num DF Den DF F Value Pr > F lobese Folded F 57 43 1.64 0.0913 Her ses en oplagt forskel i fedmegrad for mænd og kvinder, så hvis fedmegrad også hænger sammen med blodtryk...

Den generelle lineære model, oktober 2007 48 Og det gør den, i hvert fald for kvinder: sex=female The CORR Procedure 2 Variables: bp obese sex=male The CORR Procedure 2 Variables: bp obese Spearman Correlation Coefficients, N = 58 Prob > r under H0: Rho=0 Spearman Correlation Coefficients, N = 44 Prob > r under H0: Rho=0 bp obese bp obese bp 1.00000 0.49121 <.0001 obese 0.49121 1.00000 <.0001 bp 1.00000 0.24828 0.1042 obese 0.24828 1.00000 0.1042

Den generelle lineære model, oktober 2007 49 Model med vekselvirkning: Dependent Variable: lbp Sum of Source DF Squares Mean Square F Value Pr > F Model 3 0.05583810 0.01861270 6.30 0.0006 Error 98 0.28952497 0.00295434 Corrected Total 101 0.34536306 R-Square Coeff Var Root MSE lbp Mean 0.161679 2.588486 0.054354 2.099830 Source DF Type I SS Mean Square F Value Pr > F lobese 1 0.03809379 0.03809379 12.89 0.0005 sex 1 0.01597238 0.01597238 5.41 0.0221 lobese*sex 1 0.00177193 0.00177193 0.60 0.4405

Den generelle lineære model, oktober 2007 50 Source DF Type III SS Mean Square F Value Pr > F lobese 1 0.03920980 0.03920980 13.27 0.0004 sex 1 0.01252714 0.01252714 4.24 0.0421 lobese*sex 1 0.00177193 0.00177193 0.60 0.4405 Standard Parameter Estimate Error t Value Pr > t Intercept 2.087171366 B 0.01257865 165.93 <.0001 lobese 0.227981122 B 0.13158758 1.73 0.0863 sex female -0.039290663 B 0.01908066-2.06 0.0421 sex male 0.000000000 B... lobese*sex female 0.123097524 B 0.15894836 0.77 0.4405 lobese*sex male 0.000000000 B... Ingen tydelig vekselvirkning, vi udelader den.

Den generelle lineære model, oktober 2007 51 Model uden vekselvirkning (parallelle linier): Dependent Variable: lbp Sum of Source DF Squares Mean Square F Value Pr > F Model 2 0.05406617 0.02703308 9.19 0.0002 Error 99 0.29129690 0.00294239 Corrected Total 101 0.34536306 R-Square Coeff Var Root MSE lbp Mean 0.156549 2.583248 0.054244 2.099830 Source DF Type I SS Mean Square F Value Pr > F lobese 1 0.03809379 0.03809379 12.95 0.0005 sex 1 0.01597238 0.01597238 5.43 0.0218

Den generelle lineære model, oktober 2007 52 Source DF Type III SS Mean Square F Value Pr > F lobese 1 0.05290402 0.05290402 17.98 <.0001 sex 1 0.01597238 0.01597238 5.43 0.0218 Standard Parameter Estimate Error t Value Pr > t Intercept 2.081052655 B 0.00976800 213.05 <.0001 lobese 0.312347032 0.07366198 4.24 <.0001 sex female -0.027765105 B 0.01191694-2.33 0.0218 sex male 0.000000000 B... Så kom der pludselig en rimeligt tydelig kønsforskel!!

Den generelle lineære model, oktober 2007 53 Illustration af blodtryk vs. fedmegrad

Den generelle lineære model, oktober 2007 54 Outcome= Forklarende variable = Kovariater Respons Dikotom Kategorisk Kategoriske og kontinuerte Dikotom Ordinal ikke basalt odds ratio er, prediktion af sandsynlighed for event 2*2-tabeller 2*k-tabeller Logistisk regression odds ratio er, prediktion af sandsynligheder for f.eks. stadier f.eks. proportional odds modeller Kvantitativ forskelle i niveau for behandlinger, køn etc. med Normalf. parret/uparret ensidet/tosidet Multipel regression residualer T-test Variansanalyse Kovariansanalyse uden Normalf. desværre kun let at teste, dvs. ingen estimater residualer Mann-Whitney Kruskal-Wallis Robust multipel ikke alt basalt Wilcoxon signed rank Friedman regression Censureret hazard ratio er, effekt på dødsintensiteter ikke basalt Log-rank test Cox regression Multi-level struktur af tidsforløb, forskel på behandlingsgrupper ikke basalt Varianskomponentmodeller Modeller for gentagne målinger