Generelle lineære modeller

Relaterede dokumenter
Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Multipel Lineær Regression

Logistisk Regression - fortsat

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Eksamen i statistik 2009-studieordning

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 16 Multipel Lineær Regression

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Besvarelse af vitcap -opgaven

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4

Statistik & Skalavalidering

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

Kvant Eksamen December timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Statistik Lektion 17 Multipel Lineær Regression

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Synopsis til eksamen i Statistik

Eksamen i Statistik for Biokemikere, Blok januar 2009

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Eksamen i Statistik og skalavalidering

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

SYNOPSIS TIL EKSAMEN I STATISTIK OG SKALAVALIDERING

KA 4.2 Kvantitative Forskningsmetoder Forår 2010

Basal statistik. 30. oktober 2007

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Basal statistik. 30. oktober Den generelle lineære model

Modul 11: Simpel lineær regression

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Ikke-parametriske tests

Reeksamen i Statistik for Biokemikere 6. april 2009

Logistisk regression

Klasseøvelser dag 2 Opgave 1

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

To-sidet varians analyse

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Lineær regression i SAS. Lineær regression i SAS p.1/20

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Basal statistik. 21. oktober 2008

Forelæsning 11: Kapitel 11: Regressionsanalyse

3. SPSS Output. Descriptives. [DataSet1] C:\Users\Thomas\Desktop\Eservice_i_produktgruppen_Bekldning.sav

Regressionsanalyse i SAS

To-sidet variansanalyse

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Statistik og skalavalidering. Opgave 1

Konfidensintervaller og Hypotesetest

Basal Statistik - SPSS

Basal Statistik - SPSS

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance

Reeksamen i Statistik for biokemikere. Blok

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Opgavebesvarelse, brain weight

Eksempel , opg. 2

Vejledende besvarelse af hjemmeopgave, efterår 2018

Module 12: Mere om variansanalyse

Anvendt Statistik Lektion 7. Simpel Lineær Regression

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Besvarelse af juul2 -opgaven

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Vejledende besvarelse af hjemmeopgave, efterår 2018

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Opgavebesvarelse, Basalkursus, uge 2

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

En Introduktion til SAS. Kapitel 5.

Vejledende besvarelse af hjemmeopgave, efterår 2018

Epidemiologi og Biostatistik

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Eksamen i Statistik for biokemikere. Blok

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

(studienummer) (underskrift) (bord nr)

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Transkript:

Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal med en middelværdi, der afhænger af X erne og en varians, der er uafhængig af X erne: E(Y X 1,..,X k ) = f(x 1,..,X k ) = α k + i= 1 β X k k - De uafhængige variable kan være kategorivariable eller kvantitative. - Kategoriske variable omkodes som dummy variable. - Interaktioner kan tilføjes i form af produkt-variable. 1

Forskellige specialtilfælde Uafhængige variable Én binær variabel Én kategorivariabel med mere end to kategorier Analysen omtales som t-test Ensidet variansanalyse To eller flere kategorivariable To- eller flersidede variansanalyser En eller flere kvantitative variable Både kategorivariable og kvantitative variable Lineær regression Generelle lineære modeller 2

Generelle lineære modeller i praksis En analyse af effekten af køn, alder, rygevaner, fysisk aktivitet og kontrol over eget helbred på BMI Data fra Sundby95 undersøgelsen Afhængig: BMI Uafhængige: Alder Køn Rygevaner Opfattelse af selv at kunne gøre noget for helbredet Fysisk aktivitet i fritiden Fysisk aktivitet i arbejdet 3

Det overordnede problem: Hvilken betydning har de afhængige variable for BMI Er der interaktioner mellem effekten af de uafhængige Variable? Underordnede problemer: Er relationen mellem alder og BMI lineær? Er den betingede fordeling af BMI og de andre variable normal? Er varianserne homogene? 4

Analyseplanen Indledende databeskrivelse Univariat Bivariat Den indledende analyse kan give ideer til den egentlige analyse, men skal ikke i sig selv føre til egentlige analyseresultater pga. risikoen for confounding. Den egentlige analyse Trinvis modelsøgning Modelkontrol Estimation af parametre i den endelige model 5

Univariate analyser BMI Et advarselssignal: Den marginale BMI fordeling er skæv. Skævheden behøver dog ikke at være et problem, fordi fordelingen er en sum af fordelingerne i mange forskellige grupper 6

Alder Aldersfordelingen er bestemt ikke normal. Dette er dog ikke noget problem, fordi der ikke er noget krav om at de uafhængige variable skal være normalfordelte. Køn Køn Valid Missing Total 1 Mand 2 Kvinde Total 9 Cumulative Frequency Percent Valid Percent Percent 1225 44,7 45,4 45,4 1471 53,6 54,6 100,0 2696 98,3 100,0 46 1,7 2742 100,0 7

Rygevaner ryger du 40 30 Percent 20 10 0 ja, dagligt ja, ikke dagligt nej, holdt op for nylig nej, holdt op tidligere nej, aldrig ryger du Advarsel: Relativt få personer i kategori 2 og 3. Overvej at slå kategori 1 og 2 sammen til en ja-kategori og 3 og 4 sammen til en kategori med de tidligere rygere. (Afprøves i forbindelse med ensidede variansanalyser) 8

Kontrol over helbredet Kan man gøre noget selv for at bevare et godt helbred? 100 80 Percent 60 40 20 0 egen indsats vigtig egen indsats af nogen betydning tro ikke på egen indsats Kan man gøre noget selv for at bevare et godt helbred? Advarsel: Meget få, der ikke tror på effekten af egen indsats. Indholdsmæssigt er denne gruppe så speciel, at det vil være forkert at slå den sammen med midterkategorien. Der er dog så få i denne gruppe, at det må forudses, at det vil være vanskeligt at påvise statistisk at der skulle være forskel på denne gruppe og de to andre. 9

Fysisk aktivitet fysisk aktivitet i fritid 70 60 50 Percent 40 30 20 10 0 meget noget lidt slet ikke fysisk aktivitet i fritid fysisk aktivitet i hovedbeskæftigelse 50 40 Percent 30 20 10 0 meget noget lidt slet ikke fysisk aktivitet i hovedbeskæftigelse Overvej at slå meget og noget sammen til en kategori 10

Lineær regressionsanalyse af alderens betydning 50,00 40,00 bmi 30,00 20,00 R Sq Quadratic =0,091 10,00 20,00 40,00 60,00 80,00 100,00 alder Scatterplottet afslører en klar kvadratisk tendens, hvor BMI først stiger og derefter falder. Denne tendens bør inddrages i analyserne 11

For at prøve nødvendigheden af at beskrive relationen mellem BMI og alder ved en ikke-lineær relation beregnes ALDERSQR = Alder 2 ALDERCUB = Alder 3 der begge inddrages i den lineære regressionsanalyse. Regressionsmodellen: BMI = α + β 1 Alder + β 2 ALDERSQR + β 3 ALDERCUB + ε Hvis β 3 = 0 er relationen lineær eller kvadratisk Hvis β 2 = 0 og β 3 = 0 er relationen lineær Residualerne skal stadig være normale og der må ikke være systematiske tegn på variansheterogenitet 12

Analysen: Model 1 (Constant) alder aldersqr aldercub a. Dependent Variable: bmi Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. 20,427 1,261 16,200,000,039,087,192,442,659,003,002 1,270 1,388,165-3,0E-005,000-1,268-2,536,011 Signifikant effekt af det kubiske led. En kvadratisk model er derfor ikke tilstrækkelig til at beskrive sammenhængen mellem alder og BMI. ALDER og ALDERSQR bør fortsat være en del af modellen selvom de ikke er signifikante. 13

Residualplots Histogram Dependent Variable: bmi 250 200 Frequency 150 100 50 0-4 -2 0 2 4 Regression Standardized Residual 6 Mean = -1,96E-14 Std. Dev. = 0,999 N = 2.579 Normal P-P Plot of Regression Standardized Residual 1,0 Dependent Variable: bmi 0,8 Expected Cum Prob 0,6 0,4 0,2 0,0 0,0 0,2 0,4 0,6 Observed Cum Prob 0,8 1,0 Residualerne er ikke normalfordelte! 14

Varianshomogenitet? Scatterplot Dependent Variable: bmi 6 Regression Standardized Residual 4 2 0-2 -4-2 -1 0 1 Regression Standardized Predicted Value 2 Ingen åbenlyse tegn på variansheterogenitet 15

Forsøg at transformere den afhængige variabel, hvis der er tegn på ikke-normale residualer eller heterogene residualer Logaritmetransformationer eller kvadratrødder er erfaringsmæssigt fornuftige ting at forsøge med. Lineær regression af ln(bmi) Unstandardized Coefficients Coefficients a Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 3,001,051 58,947,000 alder,003,004,370,852,394 aldersqr 7,27E-005,000,896,979,328 aldercub -1,0E-006,000-1,067-2,135,033 a. Dependent Variable: lnbmi Der er stadig brug for et 3. grads led 16

Residualplots Histogram Dependent Variable: lnbmi 300 250 Frequency 200 150 100 50 0-6 -4-2 0 2 4 6 Mean = 1,73E-14 Std. Dev. = 0,999 N = 2.579 Regression Standardized Residual 17

Normal P-P Plot of Regression Standardized Residual 1,0 Dependent Variable: lnbmi 0,8 Expected Cum Prob 0,6 0,4 0,2 0,0 0,0 0,2 0,4 0,6 0,8 1,0 Observed Cum Prob Perfekt tilpasning til normalfordelingen De efterfølgende analyser vil derfor også inddrage logaritmerne til BMI 18

Kønsforskelle? (t-test) bmi lnbmi Køn 1 Mand 2 Kvinde 1 Mand 2 Kvinde Group Statistics Std. Error N Mean Std. Deviation Mean 1183 24,4579 3,40099,09888 1398 23,0877 3,85049,10298 1183 3,1879,13329,00388 1398 3,1265,15739,00421 Independent Samples Test bmi lnbmi Equal variances assumed Equal variances not assumed Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (2-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper 19,677,000 9,499 2579,000 1,37022,14425 1,08737 1,65307 9,598 2574,263,000 1,37022,14277 1,09027 1,65017 37,442,000 10,582 2579,000,06138,00580,05001,07276 10,728 2578,998,000,06138,00572,05017,07260 Stærk evidens, både for variansheterogenitet og forskellige middelværdier 19

BMI og ln(bmi) i forhold til rygevaner bmi lnbmi 1,0 ja, dagligt 2,0 ja, ikke dagligt 3,0 nej, holdt op for nylig 4,0 nej, holdt op tidligere 5,0 nej, aldrig Total 1,0 ja, dagligt 2,0 ja, ikke dagligt 3,0 nej, holdt op for nylig 4,0 nej, holdt op tidligere 5,0 nej, aldrig Total Descriptives 95% Confidence Interval for Mean N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum 897 23,4164 3,62781,12113 23,1787 23,6542 13,67 43,87 188 23,1531 3,40384,24825 22,6634 23,6428 11,63 34,53 70 23,3521 2,86848,34285 22,6682 24,0361 18,25 33,39 439 24,8173 3,99798,19081 24,4423 25,1924 17,01 41,29 925 23,6202 3,69363,12145 23,3818 23,8585 15,32 44,29 2519 23,7140 3,71887,07410 23,5687 23,8592 11,63 44,29 897 3,1421,14884,00497 3,1324 3,1519 2,62 3,78 188 3,1315,14643,01068 3,1104 3,1526 2,45 3,54 70 3,1435,12007,01435 3,1149 3,1721 2,90 3,51 439 3,1994,15410,00735 3,1849 3,2138 2,83 3,72 925 3,1508,14843,00488 3,1412 3,1603 2,73 3,79 2519 3,1545,15013,00299 3,1487 3,1604 2,45 3,79 20

Test of Homogeneity of Variances bmi lnbmi Levene Statistic df1 df2 Sig. 2,616 4 2514,034 1,209 4 2514,305 Klart mindre færre problemer med variansheterogeniteten for logaritmen til BMI ANOVA bmi lnbmi Between Groups Within Groups Total Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 690,310 4 172,577 12,711,000 34133,590 2514 13,577 34823,900 2518 1,142 4,286 12,912,000 55,611 2514,022 56,754 2518 Klart signifikant forskel på grupperne 21

Multiple Comparisons Dependent Variable: lnbmi Bonferroni (I) ryger du 1,0 ja, dagligt 2,0 ja, ikke dagligt 3,0 nej, holdt op for nylig 4,0 nej, holdt op tidligere 5,0 nej, aldrig (J) ryger du 2,0 ja, ikke dagligt 3,0 nej, holdt op for nylig 4,0 nej, holdt op tidligere 5,0 nej, aldrig 1,0 ja, dagligt 3,0 nej, holdt op for nylig 4,0 nej, holdt op tidligere 5,0 nej, aldrig 1,0 ja, dagligt 2,0 ja, ikke dagligt 4,0 nej, holdt op tidligere 5,0 nej, aldrig 1,0 ja, dagligt 2,0 ja, ikke dagligt 3,0 nej, holdt op for nylig 5,0 nej, aldrig 1,0 ja, dagligt 2,0 ja, ikke dagligt 3,0 nej, holdt op for nylig 4,0 nej, holdt op tidligere *. The mean difference is significant at the.05 level. Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound,01062,01193 1,000 -,0229,0441 -,00136,01846 1,000 -,0532,0505 -,05726*,00866,000 -,0816 -,0329 -,00864,00697 1,000 -,0282,0109 -,01062,01193 1,000 -,0441,0229 -,01198,02082 1,000 -,0705,0465 -,06788*,01296,000 -,1043 -,0315 -,01926,01190 1,000 -,0527,0142,00136,01846 1,000 -,0505,0532,01198,02082 1,000 -,0465,0705 -,05590*,01914,035 -,1097 -,0021 -,00728,01844 1,000 -,0591,0445,05726*,00866,000,0329,0816,06788*,01296,000,0315,1043,05590*,01914,035,0021,1097,04862*,00862,000,0244,0728,00864,00697 1,000 -,0109,0282,01926,01190 1,000 -,0142,0527,00728,01844 1,000 -,0445,0591 -,04862*,00862,000 -,0728 -,0244 Gruppen, der er hold op for nylig er ikke forskellige fra rygerne. Der er til gengæld klar forskel på aldrig og tidligere rygere. De tre første kategorier slås sammen til en i de efterfølgende analyser 22

Analyser af ln(bmi) i forhold til andre variable Uafhængig variabel Kontrol over eget helbred Fysisk aktivitet i fritid Fysisk aktivitet på arbejde Resultat Meget svag evidens for effekt. Ingen tegn på variansheterogenitet Ingen forskel på meget og noget aktiv, der derfor slås sammen, men tegn på heterogene varianser Ingen forskel på meget og noget aktiv, der derfor slås sammen. Varianserne er homogene. 23

Analyse ved hjælp af generelle lineære modeller De kategoriske variable Between-Subjects Factors Køn Kan man gøre noget selv for at bevare et godt helbred? ryger3 fysisk aktivitet i fritid aktarb3 1 2 1,0 2,0 3,0 3,00 4,00 5,00 2,00 3,00 4,00 2,00 3,00 4,00 Value Label N Mand 1024 Kvinde 1167 egen indsats vigtig 1862 egen indsats af nogen betydning 313 tro ikke på egen indsats 16 ja 999 tidligere 363 aldrig 829 meget/noget aktiv 449 lidt aktiv 1457 ikke aktiv 285 meget/noget aktiv 550 lidt aktiv 547 ikke aktiv 1094 24

Analysestrategier 1. Baglæns trinvis modelsøgning uden vekselvirkninger 2. Inklusion af vekselvirkninger enten en ad gangen eller trinvis med alle vekselvirkninger af en bestemt orden inde 1. Baglæns modelsøgning med alle vekselvirkninger af en vis orden. Husk det hierarkiske princip. 2. Afprøvning af faktorer, der blev elimineret i starten for at være sikker på, at der ikke skete nogle fejl i begyndelsen. 25

Analyse ved hjælp af generelle lineære modeller i SPSS Analyze -> General linear models Univariate Kategoriske variable i feltet Fixed factors Kvantitative variable i feltet Covariate(s) 26

Definition af modellen Overfør variable fra venstre til højre felt som enten main effects eller Interactions Model ledene kan flyttes tilbage, hvis modellen skal forenkles 27

Options Tilvælg: Descriptive statistics Parameter estimates Homogenitets test Spread versus level plots 28

Analyse uden vekselvirkninger Dependent Variable: lnbmi Source Corrected Model Intercept køn loc ryger3 aktfrit3 aktarb3 alder aldersqr aldercub Error Total Corrected Total Tests of Between-Subjects Effects Type III Sum of Squares df Mean Square F Sig. 7,320 a 12,610 32,688,000 57,533 1 57,533 3082,908,000 2,146 1 2,146 114,975,000,019 2,009,502,605,577 2,289 15,465,000,081 2,040 2,163,115,134 2,067 3,583,028,003 1,003,162,687,072 1,072 3,869,049,158 1,158 8,441,004 40,646 2178,019 21768,491 2191 47,966 2190 a. R Squared =,153 (Adjusted R Squared =,148) Kontrol over veget helbred uden betydning. (Fjernes) Alder 3 har stærkt signifikant betydning Aktivitet i fritiden har ikke signifikant betydning Levene's Test of Equality of Error Variances a Dependent Variable: lnbmi F df1 df2 Sig. 1,987 107 2083,000 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept+køn+loc+ryger3+aktfrit3+aktarb3 +alder+aldersqr+aldercub Variansheterogenitet 29

Analyse uden kontrol over eget helbred Dependent Variable: lnbmi Source Corrected Model Intercept køn ryger3 aktfrit3 aktarb3 alder aldersqr aldercub Error Total Corrected Total Tests of Between-Subjects Effects Type III Sum of Squares df Mean Square F Sig. 7,418 a 10,742 39,258,000 61,741 1 61,741 3267,544,000 2,175 1 2,175 115,135,000,570 2,285 15,095,000,093 2,047 2,463,085,160 2,080 4,237,015,009 1,009,491,484,097 1,097 5,140,023,194 1,194 10,266,001 41,532 2198,019 21962,450 2209 48,949 2208 a. R Squared =,152 (Adjusted R Squared =,148) Fysisk aktivitet i fritiden stadig ikke signifikant. Fjernes! Levene's Test of Equality of Error Variances a Dependent Variable: lnbmi F df1 df2 Sig. 2,856 53 2155,000 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept+køn+ryger3+aktfrit3+aktarb3+al der+aldersqr+aldercub Heterogene varianser. Se, hvad der sker, når fritidsaktiviteterne fjernes. 30

Analyse uden fysisk aktivitet i fritiden Dependent Variable: lnbmi Source Corrected Model Intercept køn ryger3 aktarb3 alder aldersqr aldercub Error Total Corrected Total Tests of Between-Subjects Effects Type III Sum of Squares df Mean Square F Sig. 7,284 a 8,910 48,033,000 62,311 1 62,311 3287,263,000 2,349 1 2,349 123,941,000,587 2,293 15,471,000,126 2,063 3,320,036,005 1,005,240,624,081 1,081 4,255,039,170 1,170 8,969,003 41,967 2214,019 22097,650 2223 49,251 2222 a. R Squared =,148 (Adjusted R Squared =,145) Alt er signifikant Levene's Test of Equality of Error Variances a Dependent Variable: lnbmi F df1 df2 Sig. 2,463 17 2205,001 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept+køn+ryger3+aktarb3+alder+alde rsqr+aldercub Stadig heterogene varianser 31

Spread versus Level Spread vs. Level Plot of lnbmi 0,17 Spread (Standard Deviation) 0,16 0,15 0,14 0,13 0,12 3,10 3,15 3,20 3,25 Level (Mean) Groups: køn * ryger3 * aktarb3 Varianserne er mindst der hvor ln(bmi) værdien forventes at være høj. Kan det skyldes, at det var en dårlig ide at bruge logaritmen til BMI? 32

Analyse med BMI i stedet for logaritmen til BMI Levene's Test of Equality of Error Variances a Dependent Variable: bmi F df1 df2 Sig. 1,669 17 2205,042 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept+køn+ryger3+aktarb3+alder+alde rsqr+aldercub Kun svag evidens mod varianshomogenitet! Variansheterogeniteten i de ensidede variansanalyser ser altså ud til at være konsekvenser af konfounding. 33

Test af faktorernes betydning Dependent Variable: bmi Source Corrected Model Intercept køn ryger3 aktarb3 alder aldersqr aldercub Error Total Corrected Total Tests of Between-Subjects Effects Type III Sum of Squares df Mean Square F Sig. 4188,444 a 8 523,556 44,618,000 3295,419 1 3295,419 280,839,000 1167,936 1 1167,936 99,533,000 338,649 2 169,325 14,430,000 65,813 2 32,906 2,804,061 8,208 1 8,208,699,403 67,993 1 67,993 5,794,016 129,887 1 129,887 11,069,001 25979,467 2214 11,734 1266956,164 2223 30167,911 2222 a. R Squared =,139 (Adjusted R Squared =,136) Fysisk aktivitet uden betydning. Den fjernes. 34

Analyse uden fysisk aktivitet i arbejdet Heterogene varianser Levene's Test of Equality of Error Variances a Dependent Variable: bmi F df1 df2 Sig. 5,255 5 2501,000 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept+køn+ryger3+alder+aldersqr+aldercub Tilbage til modellen med fysisk aktivitet 35

Parameterestimater: Dependent Variable: bmi Parameter Intercept [køn=1] [køn=2] [ryger3=3,00] [ryger3=4,00] [ryger3=5,00] [aktarb3=2,00] [aktarb3=3,00] [aktarb3=4,00] alder aldersqr aldercub Parameter Estimates 95% Confidence Interval B Std. Error t Sig. Lower Bound Upper Bound 21,568 1,333 16,180,000 18,954 24,182 1,468,147 9,977,000 1,179 1,757 0 a..... -,606,163-3,726,000 -,925 -,287,433,221 1,957,050 -,001,867 0 a.....,422,179 2,361,018,071,772,172,181,950,342 -,183,528 0 a..... -,079,094 -,836,403 -,263,106,00485,002014 2,407,016,001,009 -,00004,0000133-3,327,001-7,01E-005-1,81E-005 a. This parameter is set to zero because it is redundant. Mænds BMI er 1,5 point større end kvinders. Rygere har -0.6 point mindre og tidligere rygere 0.4 point mere end aldrig rygere. Personer, der er fysisk aktive på deres arbejde, har 0.4 point mere end personer, der slet ikke er fysisk aktive. Der er i øvrigt en pæn monoton tendens. Alderseffekt = -0.79Alder + 0.00485Alder 2 0.00004 Alder 3 36

For at afprøve de overraskende resultater vedrørende den fysiske aktivitet afprøves modeller, hvor det antages, at der kan være interaktion mellem den fysiske aktivitet og andre variable: Dependent Variable: bmi Source Corrected Model Intercept køn ryger3 alder aldersqr aldercub aktarb aktfrit3 køn * aktarb køn * aktfrit3 ryger3 * aktarb ryger3 * aktfrit3 aktarb * aktfrit3 aktarb * alder aktfrit3 * alder aktarb * aldersqr aktfrit3 * aldersqr aktarb * aldercub aktfrit3 * aldercub Error Total Corrected Total Tests of Between-Subjects Effects Type III Sum of Squares df Mean Square F Sig. 4966,608 a 47 105,673 9,113,000 608,329 1 608,329 52,463,000 437,378 1 437,378 37,720,000 226,858 2 113,429 9,782,000 5,530 1 5,530,477,490,071 1,071,006,938,071 1,071,006,938 36,745 3 12,248 1,056,367 42,066 2 21,033 1,814,163 29,527 3 9,842,849,467 26,102 2 13,051 1,126,325 31,532 6 5,255,453,843 273,453 4 68,363 5,896,000 63,254 6 10,542,909,487 35,556 3 11,852 1,022,382 40,686 2 20,343 1,754,173 34,415 3 11,472,989,397 26,684 2 13,342 1,151,317 33,938 3 11,313,976,403 17,339 2 8,670,748,474 25057,530 2161 11,595 1259735,720 2209 30024,138 2208 a. R Squared =,165 (Adjusted R Squared =,147) Bemærk, den højsignifikante interaktion mellem effekten af rygning og effekten af fysisk aktivitet i fritiden! 37

Trinvis elimination af ikke signifikante interaktioner: Rygning*fysisk aktivitet i arbejdet ryger først Dependent Variable: bmi Source Corrected Model Intercept køn ryger3 alder aldersqr aldercub aktarb aktfrit3 køn * aktarb køn * aktfrit3 ryger3 * aktfrit3 aktarb * aktfrit3 aktarb * alder aktfrit3 * alder aktarb * aldersqr aktfrit3 * aldersqr aktarb * aldercub aktfrit3 * aldercub Error Total Corrected Total Tests of Between-Subjects Effects Type III Sum of Squares df Mean Square F Sig. 4935,077 a 41 120,368 10,396,000 616,662 1 616,662 53,263,000 441,536 1 441,536 38,136,000 498,269 2 249,134 21,518,000 5,543 1 5,543,479,489,112 1,112,010,922,021 1,021,002,966 39,340 3 13,113 1,133,335 43,001 2 21,501 1,857,156 30,739 3 10,246,885,448 26,513 2 13,257 1,145,318 286,920 4 71,730 6,195,000 61,168 6 10,195,881,508 36,972 3 12,324 1,064,363 42,091 2 21,045 1,818,163 35,845 3 11,948 1,032,377 27,516 2 13,758 1,188,305 35,968 3 11,989 1,036,376 17,382 2 8,691,751,472 25089,061 2167 11,578 1259735,720 2209 30024,138 2208 a. R Squared =,164 (Adjusted R Squared =,149) Ud med aktarb3*aktfrit3 38

Slutmodellen Dependent Variable: bmi Source Corrected Model Intercept køn ryger3 alder aldersqr aldercub aktfrit3 ryger3 * aktfrit3 aktfrit3 * alder aktfrit3 * aldersqr aktarb3 Error Total Corrected Total Tests of Between-Subjects Effects Type III Sum of Squares df Mean Square F Sig. 4678,696 a 18 259,928 22,459,000 2442,632 1 2442,632 211,058,000 1048,068 1 1048,068 90,559,000 505,266 2 252,633 21,829,000,799 1,799,069,793 39,511 1 39,511 3,414,065 87,245 1 87,245 7,538,006 42,939 2 21,469 1,855,157 305,743 4 76,436 6,605,000 83,177 2 41,588 3,593,028 84,278 2 42,139 3,641,026 81,857 2 40,928 3,536,029 25345,442 2190 11,573 1259735,720 2209 30024,138 2208 a. R Squared =,156 (Adjusted R Squared =,149) En kompliceret slutmodel: Signifikant effekt af fysisk aktivitet på arbejdet. Interaktion mellem effekten af fysisk aktivitet i fritiden og både rygevaner og alder. 39

Parameter estimater Dependent Variable: bmi Parameter Intercept [køn=1] [køn=2] [ryger3=3,00] [ryger3=4,00] [ryger3=5,00] alder aldersqr aldercub [aktfrit3=2,00] [aktfrit3=3,00] [aktfrit3=4,00] [ryger3=3,00] * [aktfrit3=2,00] [ryger3=3,00] * [aktfrit3=3,00] [ryger3=3,00] * [aktfrit3=4,00] [ryger3=4,00] * [aktfrit3=2,00] [ryger3=4,00] * [aktfrit3=3,00] [ryger3=4,00] * [aktfrit3=4,00] [ryger3=5,00] * [aktfrit3=2,00] [ryger3=5,00] * [aktfrit3=3,00] [ryger3=5,00] * [aktfrit3=4,00] Parameter Estimates 95% Confidence Interval B Std. Error t Sig. Lower Bound Upper Bound 19,136 2,177 8,789,000 14,866 23,406 1,437,151 9,516,000 1,141 1,734 0 a..... -2,453,458-5,352,000-3,352-1,554,709,602 1,178,239 -,471 1,888 0 a.....,108,129,839,402 -,144,360,003,002 1,109,268 -,002,007-4,0E-005,000-2,746,006-6,78E-005-1,13E-005 3,176 2,123 1,496,135 -,986 7,339 2,284 1,585 1,441,150 -,825 5,393 0 a..... 2,062,581 3,551,000,923 3,202 2,132,500 4,267,000 1,152 3,112 0 a..... -,443,773 -,573,567-1,959 1,073 -,311,660 -,472,637-1,605,983 0 a..... 0 a..... 0 a..... 0 a..... [aktfrit3=2,00] * alder -,227,104-2,177,030 -,432 -,023 [aktfrit3=3,00] * alder -,177,069-2,541,011 -,313 -,040 [aktfrit3=4,00] * alder 0 a..... [aktfrit3=2,00] * aldersqr,002,001 1,989,047 3,31E-005,005 [aktfrit3=3,00] * aldersqr,002,001 2,568,010,000,003 [aktfrit3=4,00] * aldersqr 0 a..... [aktarb3=2,00],476,180 2,643,008,123,829 [aktarb3=3,00],211,183 1,154,249 -,147,569 [aktarb3=4,00] 0 a..... a. This parameter is set to zero because it is redundant. 40

Tolkning af parameterestimater Køn: 1.4 point til mændene Fysisk aktivitet i arbejdet: Monoton tendens. Personer med megen fysisk aktivitet har 0.5 BMI point end personer uden fysisk aktivitet. Effekten af alder og rygning påvirkes af fysisk aktivitet i fritiden. 41

Effekt af rygning og fritidsaktiviteter Parametre Ryger: Ryger Tidligere Adrig Fritid Hovedvirkning -2.453 0.709 0.000 Meget 3.178 2.062-0.443 0.000 aktiv Aktiv 2.284 2.132-0.311 0.000 Inaktiv 0.000 0.000 0.000 0.000 Samlet effekt Ryger: Ryger Tidligere Adrig Fritid Meget 2.787 3.444 3.178 aktiv Aktiv 1.963 2.682 2.284 Inaktiv -2.453 0.709 0.000 42

Alderseffekten modificeres af fritidsaktiviteten Effekten i reference kategorien er bestemt ved hovedvirkningen: 0.108*Alder + 0.0026*Alder 2 0.00004*Alder 3 Effekten blandt dem der er meget aktive: (0.108-0.227)*Alder + (0.0026+0.0023)*Alder 2 0.00004*Alder 3 Fysisk aktiv i fritiden Meget aktiv Noget aktiv Inaktiv Alderseffekt -0.119*Alder + 0.0049*Alder 2 0.00004*Alder 3-0.069*Alder + 0.0043*Alder 2 0.00004*Alder 3 0.108*Alder + 0.0026*Alder 2 0.00004*Alder 3 43

7 0 6 9 6 8 6 7 6 6 6 5 6 4 6 3 6 2 6 1 6 0 5 9 5 8 5 7 5 6 5 5 5 4 5 3 5 2 5 1 5 0 4 9 4 8 4 7 4 6 4 5 4 4 4 3 4 2 4 1 4 0 3 9 3 8 3 7 3 6 3 5 3 4 3 3 3 2 3 1 3 0 2 9 2 8 2 7 2 6 2 5 2 4 2 3 2 2 2 1 2 0 1 9 1 8 Alder 8 6 4 2 0 Mean effekt1 noget aktive inaktive 44