Vejledende besvarelse af hjemmeopgave

Relaterede dokumenter
Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november)

Besvarelse af vitcap -opgaven

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Eksamen i Statistik for Biokemikere, Blok januar 2009

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Vejledende besvarelse af hjemmeopgave, efterår 2018

Vejledende besvarelse af hjemmeopgave, efterår 2017

Reeksamen i Statistik for Biokemikere 6. april 2009

Vejledende besvarelse af hjemmeopgave, forår 2016

Vejledende besvarelse af hjemmeopgave, forår 2018

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Postoperative komplikationer

Vejledende besvarelse af hjemmeopgave, forår 2017

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

k normalfordelte observationsrækker (ensidet variansanalyse)

Vejledende besvarelse af hjemmeopgave, forår 2015

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Afdeling for Anvendt Matematik og Statistik December 2006

Vejledende besvarelse af hjemmeopgave, efterår 2015

Vejledende besvarelse af hjemmeopgave, efterår 2016

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Besvarelse af opgave om Vital Capacity

Opgavebesvarelse, Basalkursus, uge 2

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Besvarelse af juul2 -opgaven

Opgavebesvarelse, Basalkursus, uge 3

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Besvarelse af opgave om Vital Capacity

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Opgavebesvarelse, brain weight

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Løsning til opgave i logistisk regression

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences

Generelle lineære modeller

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 12. september / 116

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 10. september / 116

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Reeksamen i Statistik for biokemikere. Blok

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Eksamen i Statistik for biokemikere. Blok

Opgavebesvarelse, korrelerede målinger

Basal statistik. 21. oktober 2008

Opgavebesvarelse, brain weight

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Regressionsanalyse i SAS

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

MPH specialmodul Epidemiologi og Biostatistik

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

Lineær regression i SAS. Lineær regression i SAS p.1/20

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Opgavebesvarelse, logistisk regression

Vejledende besvarelse af hjemmeopgave, forår 2018

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

En Introduktion til SAS. Kapitel 5.

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Løsning til eksaminen d. 14. december 2009

Multipel Lineær Regression

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Modul 11: Simpel lineær regression

Eksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Kommentarer til øvelser i basalkursus, 2. uge

Logistisk Regression - fortsat

Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (

Klasseøvelser dag 2 Opgave 1

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (

Lineær og logistisk regression

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Løsning til øvelsesopgaver dag 4 spg 5-9

Epidemiologi og Biostatistik

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Statistiske Modeller 1: Kontingenstabeller i SAS

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Vejledende besvarelse af hjemmeopgave, efterår 2018

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Transkript:

Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin D status i Europa, har man i fire europæiske lande (Danmark, Polen, Finland og Irland) foretaget målinger på en række personer, såvel mænd og kvinder som unge piger. Vi skal her beskæftige os med et udpluk af data vedrørende kvinderne og undersøge, hvor store forskelle, der er mellem de fire lande samt om disse forskelle helt eller delvis kan forklares udfra forskelligheder i andre variable, såsom body mass index, solvaner og vitamin D indtaget fra kosten. På hjemmesiden http://staff.pubhealth.ku.dk/~lts/basal13_2/hjemmeopgave.html ligger diverse oplysninger på i alt 213 kvinder, nemlig registreringer af lbnr Et internt løbenummer, til brug ved sletning af en observation (se nedenfor) land: Landet, koderne er (1: Danmark, 2: Polen, 3: Finland, 4: Irland) dk: Indikator for, at kvinden er dansk (1: dansk, 0: ikke dansk) vitd: Vitamin D i en blodprøve, nmol/l bmi: Body mass index vitdintake: Indtag af vitamin D, bestemt ud fra kosten alder: Kvindens alder sol: Solvaner, koderne er (0: undgår sol, 1: indifferent eller soldyrker) Samtlige observationer er benyttet til denne besvarelse. 1

Spørgsmål: 1. Kan vitamin D niveauet antages at være ens i de fire lande? Foretag et test af identitet af alle fire middelværdier under et, samt parvise sammenligninger landene imellem, passende korrigeret for at undgå massesignifikans. Allerførst skal vi indlæse data og lave en tegning, f.eks. et boxplot af fordelingen af vitamin D i de 4 lande. For overskuelighedens skyld indføres en ny variabel country, der angiver landene, så de kan genkendes. Desuden laver vi ved samme lejlighed et par logaritmetransformationer, fordi vi kan få brug for dem senere. FILENAME navn URL "http://staff.pubhealth.ku.dk/~lts/ basal13_2/hjemmeopgave/hjemmeopgave1.txt"; data a1; infile navn firstobs=2; input lbnr land dk vitd bmi vitdintake alder sol; lvitd=log10(vitd); lvitdintake=log10(vitdintake); if land=1 then country= 1:DK ; if land=2 then country= 2:PL ; if land=3 then country= 3:SF ; if land=4 then country= 4:EI ; /* to alternativer til at tegne boxplot */ proc sgplot data=a1; vbox vitd / category=country; proc sort data=a1; by country; proc boxplot data=a1; plot vitd*country; 2

Vi ser her rimeligt ens værdier for Danmark, Finland og Irland, medens Polen synes at have noget lavere værdier (og samtidig noget lavere spredning). Vi foretager nu en ensidet variansanalyse ved hjælp af GLM, incl. Levenes test for varianshomogenitet, samt parvise sammenligninger (korrigeret for massesignifikans ved hjælp af Tukey korrektion). ods graphics on; proc glm plots=diagnostics data=a1; class country; model vitd=country; means country / hovtest=levene tukey cldiff; ods graphics off; Da vi bruger ods-systemet og tilføjer plots=diagnostics, får vi også nogle modelkontroltegninger, som kommenteres efterfølgende. Men selv outputtet bliver (let beskåret) The GLM Procedure Class Level Information Class Levels Values country 4 1:DK 2:PL 3:SF 4:EI 3

Number of Observations Read 213 Number of Observations Used 213 Dependent Variable: vitd Sum of Source DF Squares Mean Square F Value Pr > F Model 3 10373.99129 3457.99710 10.06 <.0001 Error 209 71874.40589 343.89668 Corrected Total 212 82248.39718 R-Square Coeff Var Root MSE vitd Mean 0.126130 43.04626 18.54445 43.08028 Source DF Type III SS Mean Square F Value Pr > F country 3 10373.99129 3457.99710 10.06 <.0001 Levene s Test for Homogeneity of vitd Variance ANOVA of Squared Deviations from Group Means Sum of Mean Source DF Squares Square F Value Pr > F country 3 3934223 1311408 5.84 0.0008 Error 209 46968190 224728 Tukey s Studentized Range (HSD) Test for vitd NOTE: This test controls the Type I experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 209 Error Mean Square 343.8967 Critical Value of Studentized Range 3.66256 Comparisons significant at the 0.05 level are indicated by ***. Difference country Between Simultaneous 95% Comparison Means Confidence Limits 4:EI - 3:SF 0.017-9.932 9.965 4:EI - 1:DK 0.841-9.148 10.830 4:EI - 2:PL 15.446 5.867 25.024 *** 3:SF - 4:EI -0.017-9.965 9.932 3:SF - 1:DK 0.825-8.462 10.111 3:SF - 2:PL 15.429 6.586 24.272 *** 1:DK - 4:EI -0.841-10.830 9.148 1:DK - 3:SF -0.825-10.111 8.462 1:DK - 2:PL 14.604 5.716 23.493 *** 2:PL - 4:EI -15.446-25.024-5.867 *** 2:PL - 3:SF -15.429-24.272-6.586 *** 2:PL - 1:DK -14.604-23.493-5.716 *** Vi ser her en klar afvisning af hypotesen af ens middelværdier i de fire lande (F=10.06, P < 0.0001), men kan vi nu stole på det? Formentlig, men konfidensgrænser på de parvise sammenligninger er måske ikke helt gode, da vi fra Levenes test kan se, at der næppe er samme spredning i de fire grupper (P=0.0008) 4

Derfor gentages analysen med logaritmetransformeret outcome, når vi lige er færdig med at fortolke resultaterne fra outputtet ovenfor (fordi I jo ikke bliver bedt om at logaritmere). Angiv estimat og tilhørende 95% konfidensinterval for forskellen mellem Danmark og Polen. Estimatet for forskellen er 14.604, men hvad konfidensintervallet er, afhænger af, hvilken korrektion, man benytter til kontrol for massesignifikans. Vi har ovenfor benyttet Tukey, og så bliver konfidensintervallet (5.716, 23.493), som altså viser, at der er signifikant forskel på de to lande, også efter at have taget højde for de mange (i alt 6) sammenligninger. Er det fornuftigt (eller måske ligefrem nødvendigt) at logaritmetransformere vitamin D målingerne? Svaret skal begrundes med baggrund i modelforudsætningerne, men man behøver ikke at foretage en sådan transformation. Programstumpen ovenfor producerede en modelkontroltegning som viser lidt trompetform i plottet af residualer mod predikterede værdier, samt en anelse hængekøjefacon på fraktildiagrammet. 5

Det med trompetfaconen hænger sammen med den manglende varianshomogenitet, idet Levenes test som allerede bemærket er signifikant, svarende til, at der ikke er ens spredninger i de 4 lande (P = 0.0008). Ser vi på simple summariske mål (gennemsnit og spredninger i de 4 lande), ser vi også at højt gennemsnit følges med stor spredning og vice versa (se nedenfor), hvilket også kunne understøtte en logaritmetransformation. proc means data=a1; class country; var vitd; The MEANS Procedure Analysis Variable : vitd N country Obs N Mean Std Dev Minimum Maximum ------------------------------------------------------------------------- 1:DK 53 53 47.1660377 22.7829216 11.4000000 93.6000000 2:PL 65 65 32.5615385 12.4644832 5.4000000 60.3000000 3:SF 54 54 47.9907407 18.7247114 5.2000000 96.6000000 4:EI 41 41 48.0073171 20.2221214 17.0000000 110.4000000 ------------------------------------------------------------------------- I indlæsningsbidden havde vi allerede tilføjet en linie, hvor den logaritmetransformerede variabel lvitd blev defineret. Vi kan nu benytte denne i stedet for vitd i variansanalysen (samme kode i øvrigt) og finder så figuren samt outputtet 6

The GLM Procedure Class Level Information Class Levels Values country 4 1:DK 2:PL 3:SF 4:EI Number of Observations Read 213 Number of Observations Used 213 Dependent Variable: lvitd Sum of Source DF Squares Mean Square F Value Pr > F Model 3 1.17152172 0.39050724 8.38 <.0001 Error 209 9.74324953 0.04661842 Corrected Total 212 10.91477124 R-Square Coeff Var Root MSE lvitd Mean 0.107334 13.64313 0.215913 1.582576 Source DF Type III SS Mean Square F Value Pr > F country 3 1.17152172 0.39050724 8.38 <.0001 Levene s Test for Homogeneity of lvitd Variance ANOVA of Squared Deviations from Group Means Sum of Mean Source DF Squares Square F Value Pr > F country 3 0.0143 0.00476 0.66 0.5768 Error 209 1.5038 0.00720 Tukey s Studentized Range (HSD) Test for lvitd NOTE: This test controls the Type I experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 209 Error Mean Square 0.046618 Critical Value of Studentized Range 3.66256 Comparisons significant at the 0.05 level are indicated by ***. Difference country Between Simultaneous 95% Comparison Means Confidence Limits 4:EI - 3:SF 0.00275-0.11308 0.11858 4:EI - 1:DK 0.02892-0.08738 0.14522 4:EI - 2:PL 0.17064 0.05912 0.28216 *** 3:SF - 4:EI -0.00275-0.11858 0.11308 3:SF - 1:DK 0.02617-0.08195 0.13429 3:SF - 2:PL 0.16789 0.06493 0.27085 *** 1:DK - 4:EI -0.02892-0.14522 0.08738 1:DK - 3:SF -0.02617-0.13429 0.08195 1:DK - 2:PL 0.14173 0.03824 0.24521 *** 2:PL - 4:EI -0.17064-0.28216-0.05912 *** 2:PL - 3:SF -0.16789-0.27085-0.06493 *** 2:PL - 1:DK -0.14173-0.24521-0.03824 *** 7

Vi ser nu, at Levenes test bliver godkendt (P=0.58), og at figuren med residualer mod predikterede værdier ser bedre ud. Til gengæld er fraktildiagrammet værre end før, idet det nu afviger den modsatte vej, altså svarende til en hale af små værdier. Vi har altså overtransformeret. På Boxplottet kan vi se, at specielt Polen, og tildels Finland har nogle personer med meget lave værdier af logaritmeret vitamin D. Estimatet for forskellen Danmark vs. Polen er 0.14173, med konfidensinterval (0.03824, 0.24521). Tilbagetransformeret til ratio er giver dette en faktor 10 0.14173 = 1.39, altså at Danmark ligger 39% højere end Polen, med konfidensgrænser (10 0.0.03824, 10 0.24521 )=(1.09, 1.76), altså svarende til et sted mellem 9% og 76% højere. 2. Foretag nu sammenligningen af Danmark og Polen direkte, dvs. uden at inddrage de øvrige lande. Når der kun er to lande, bliver sammenligningen til et simpelt T-test (selv om man stadig ville kunne bruge GLM ligesom ovenfor). Vi udfører det først med den utransformerede variabel: proc ttest data=a1; where land in (1,2); class country; var vitd; 8

og får outputtet (igen let beskåret) The TTEST Procedure Variable: vitd country N Mean Std Dev Std Err Minimum Maximum 1:DK 53 47.1660 22.7829 3.1295 11.4000 93.6000 2:PL 65 32.5615 12.4645 1.5460 5.4000 60.3000 Diff (1-2) 14.6045 17.8438 3.3024 country Method Mean 95% CL Mean Std Dev 1:DK 47.1660 40.8863 53.4458 22.7829 2:PL 32.5615 29.4730 35.6501 12.4645 Diff (1-2) Pooled 14.6045 8.0636 21.1454 17.8438 Diff (1-2) Satterthwaite 14.6045 7.6536 21.5554 Method Variances DF t Value Pr > t Pooled Equal 116 4.42 <.0001 Satterthwaite Unequal 76.764 4.18 <.0001 Equality of Variances Method Num DF Den DF F Value Pr > F Folded F 52 64 3.34 <.0001 Vi finder (selvfølgelig) igen samme estimerede forskel mellem Danmark og Polen (14.6045), men denne gang er konfidensintervallet udregnet på baggrund af spredningerne i disse to lande alene. Desuden korrigerer vi her ikke for massesignifikans, da vi kun foretager en enkelt sammenligning. Vi finder konfidensintervallet (7.6536, 21.5554), altså noget smallere end i spørgsmål 1. Vi konstaterer også igen den forskellige spredning i de to lande, og derfor er konfidensintervallet ovenfor baseret på satterth og ikke Pooled. Er resultatet nogenlunde det samme som ovenfor? Begrund evt. forskelle. Som anført ovenfor finder vi et noget smallere konfidensinterval, dels fordi spredningen i disse to lande er i den lave ende og dels fordi vi ikke har Tukey korrigeret (da vi jo kun laver en enkelt sammenligning). 9

Foretag også sammenligningen efter at have logaritmetransformeret vitamin D målingerne, og husk at give en forståelig præsentation af resultatet (dvs. tilbagetransformation af såvel estimat som konfidensinterval). Foretager vi det tilsvarende test på de logaritmerede værdier, finder vi: The TTEST Procedure Variable: lvitd country N Mean Std Dev Std Err Minimum Maximum 1:DK 53 1.6136 0.2450 0.0336 1.0569 1.9713 2:PL 65 1.4719 0.2078 0.0258 0.7324 1.7803 Diff (1-2) 0.1417 0.2252 0.0417 country Method Mean 95% CL Mean Std Dev 1:DK 1.6136 1.5461 1.6811 0.2450 2:PL 1.4719 1.4204 1.5234 0.2078 Diff (1-2) Pooled 0.1417 0.0592 0.2243 0.2252 Diff (1-2) Satterthwaite 0.1417 0.0577 0.2258 Method Variances DF t Value Pr > t Pooled Equal 116 3.40 0.0009 Satterthwaite Unequal 102.31 3.34 0.0012 Equality of Variances Method Num DF Den DF F Value Pr > F Folded F 52 64 1.39 0.2100 Estimatet for forskellen Danmark vs. Polen er stadig 0.1417, nu med konfidensinterval (0.0592, 0.2243), som tilbagetransformeret til ratio er giver (10 0.0.0592, 10 0.2243 )=(1.14,1.68), altså svarende til et sted mellem 14% og 68% højere. Det er noget snævrere end det, vi fandt i spørgsmål 1, af samme årsager som før. I det efterfølgende vil vi udelukkende se på kvinder fra Danmark og Polen. For at slippe for hele tiden at tilføje where land in (1,2); hver gang man kører en ny procedure, kan man eventuelt nu indføje en sætning if land in (3,4) then delete; oppe i indlæsningsbidden, eller i et nyt data step. 10

3. Er der forskel på body mass index hos kvinderne i Danmark og Polen? Kvantificer denne forskel og overvej (uden at lave statistisk analyse) om en sådan forskel kunne tænkes at forklare forskellen i vitamin D niveau i de to lande. Her er der igen lagt op til et T-test, men vi ser lige på en tegning først: Bortset fra en enkelt outlier (en ret kraftig Polsk kvinde), ser fordelingerne pæne ud, med ret ens spredninger. Vi finder sammenligningen (kode udeladt, da det blot er en ny variabel, vi ser på): The TTEST Procedure Variable: bmi country N Mean Std Dev Std Err Minimum Maximum 1:DK 53 26.5348 4.3084 0.5918 18.6550 37.1470 2:PL 65 28.9401 4.2016 0.5211 18.5570 43.7890 Diff (1-2) -2.4053 4.2498 0.7865 country Method Mean 95% CL Mean Std Dev 1:DK 26.5348 25.3472 27.7223 4.3084 2:PL 28.9401 27.8990 29.9812 4.2016 Diff (1-2) Pooled -2.4053-3.9631-0.8475 4.2498 Diff (1-2) Satterthwaite -2.4053-3.9680-0.8426 Method Variances DF t Value Pr > t Pooled Equal 116-3.06 0.0028 Satterthwaite Unequal 110.12-3.05 0.0029 Equality of Variances Method Num DF Den DF F Value Pr > F Folded F 52 64 1.05 0.8426 11

Vi ser en pæn varianshomogenitet, samt at polske kvinder har et noget højere body mass index end danske kvinder (28.9 mod 26.5, P=0.003, CI for forskel 0.85-3.96). Da et højt body mass index sædvanligvis hænger sammen med et lavt vitamin D niveau (dette skal vi se på i det følgende), kunne denne forskel muligvis forklare de polske kvinders lave vitamin D niveau. 4. Se nu på de danske kvinder alene, og find en fornuftig beskrivelse af sammenhængen mellem body mass index og vitamin D niveau. Hvad er det forventede niveau af vitamin D for en dansk kvinde med BMI=25? Her skal vi se på en relation mellem to kvantitative variable, dvs. der lægges op til at foretage en lineær regression. Først skal vi dog se på et scatterplot, hvor der er indlagt en regressionslinie proc sgplot data=a1; where land=1; reg x=bmi y=vitd; Vi ser ikke rigtig nogen sammenhæng, men når man nu bliver bedt om at beskrive sammenhængen, er det naturligt at forsøge sig med en 12

lineær regressionsanalyse. Her bruger vi GLM, men kunne ligeså godt have valgt REG. Endvidere benytter vi igen ods-systemet til at få nem modelkontrol, og vi tilføjer en estimate-sætning for at kunne udtale os om en kvinde med bmi=25: ods graphics on; proc glm plots=diagnostics data=a1; where land=1; model vitd=bmi / solution clparm; estimate "bmi=25" intercept 1 bmi 25; ods graphics off; Herved fås det (let beskårede) output: The GLM Procedure Dependent Variable: vitd Sum of Source DF Squares Mean Square F Value Pr > F Model 1 319.72033 319.72033 0.61 0.4379 Error 51 26671.47854 522.97017 Corrected Total 52 26991.19887 R-Square Coeff Var Root MSE vitd Mean 0.011845 48.48519 22.86854 47.16604 Standard Parameter Estimate Error t Value Pr > t bmi=25 48.0493349 3.33819807 14.39 <.0001 Parameter 95% Confidence Limits bmi=25 41.3476226 54.7510472 Standard Parameter Estimate Error t Value Pr > t Intercept 62.43758159 19.78251856 3.16 0.0027 bmi -0.57552987 0.73607352-0.78 0.4379 Parameter 95% Confidence Limits Intercept 22.72251840 102.15264478 bmi -2.05325912 0.90219939 som viser en svag negativ, men insignifikant sammenhæng. Hældningsestimatet er -0.58, med konfidensinterval (-2.05, 0.90). 13

Ved hjælp af estimate-sætningen i koden ovenfor, finder vi den estimerede værdi af vitamin D for en dansk kvinde med et body mass index på 25 til at være 48.05 (= 62.44 + 25 ( 0.5755)). Og hvad er normalområdet (referenceområdet) for sådanne kvinder? For at udregne normalområdet for sådanne kvinder, skal vi have fat i estimatet for spredningen omkring regressionslinien, som er 22.87 (RootMSE), og vi udregner da 48.05 ± 2 22.87 = (2.31, 93.79) altså et meget bredt interval, som det også ses af figuren nedenfor. Vi må konkludere, at bmi ikke rigtig dur som prediktor for vitamin D status, og det højere bmi hos Polske kvinder kan altså næppe forklare deres lave vitamin D status. 5. Samme spørgsmål som ovenfor, bare for Polen? Vi foretager nu den samme analyse som ovenfor, blot for Polen (land=2) 14

Igen ser vi ikke nogen udpræget sammenhæng, men bemærker et par potentielt indflydelsesrige observationer. Vi foretager regressionsanalysen og finder outputtet The GLM Procedure Dependent Variable: vitd Sum of Source DF Squares Mean Square F Value Pr > F Model 1 472.778339 472.778339 3.15 0.0810 Error 63 9470.475508 150.325008 Corrected Total 64 9943.253846 R-Square Coeff Var Root MSE vitd Mean 0.047548 37.65396 12.26071 32.56154 Standard Parameter Estimate Error t Value Pr > t bmi=25 35.1102857 2.09241533 16.78 <.0001 Parameter 95% Confidence Limits bmi=25 30.9289273 39.2916441 Standard Parameter Estimate Error t Value Pr > t Intercept 51.28222390 10.66520267 4.81 <.0001 bmi -0.64687753 0.36476142-1.77 0.0810 Parameter 95% Confidence Limits Intercept 29.96951700 72.59493079 bmi -1.37579506 0.08204001 15

og altså igen en svag negativ, men insignifikant sammenhæng. Hældningsestimatet er -0.65, med konfidensinterval (-1.38, 0.08). Ved hjælp af estimate-sætningen i koden ovenfor, finder vi den estimerede værdi af vitamin D for en polsk kvinde med et body mass index på 25 til at være 35.11, altså en del lavere end den tilsvarende danske kvinde, som vi fandt i sidste spørgsmål. Dette viser (som vi også allerede har konstateret pga den manglende sammenhæng mellem body mass og vitamin D), at den højere body mass index, som vi fandt i Polen, ikke kan forklare forskellen i vitamin D niveau. Og hvad er normalområdet (referenceområdet) for sådanne kvinder? For at udregne normalområdet for sådanne kvinder, skal vi have fat i estimatet for spredningen omkring regressionslinien, som er 12.26 (RootMSE), og vi udregner da 35.11 ± 2 12.26 = (10.59, 59.63) altså et knap så bredt interval i forhold til det for danske kvinder, fordi spredningen blandt polske kvinder er en del mindre. 16

6. Giv et estimat (med 95% konfidensinterval) for forskellen i vitamin D niveau for de to kvinder (en dansk og en polsk), begge med BMI=25. Fra de to separate regressionsanalyser i spørgsmål 4 og 5 har vi allerede et estimat for denne forskel, nemlig 48.05 35.11 = 12.94, men for at finde konfidensintervallet for denne forskel, er vi nødt til at analysere de to lande samlet, altså udføre en multipel regressionsanalyse. Hvis det skal svare helt til spørgsmål 4 og 5, skal denne analyse endvidere inkludere en interaktion (vekselvirkning) mellem bmi og land, idet der jo ovenfor var tale om to (lidt) forskellige hældninger. Derfor begynder vi med den model, og da interaktionen viser sig absolut ikke at være nær signifikans, fortsætter vi med den model, som I blev bedt om at udføre (den multiple regression med to kovariater, bmi og dk) ods graphics on; proc glm plots=diagnostics data=a1; where land in (1,2); class country; model vitd=country bmi country*bmi / solution clparm; estimate "dk vs. pl, bmi=25" country 1-1 country*bmi 25-25; ods graphics off; ods graphics on; proc glm plots=diagnostics data=a1; where land in (1,2); model vitd=dk bmi / solution clparm; estimate "dk vs. pl, bmi ens" dk 1; ods graphics off; Outputtet fra modellen med interaktion giver, som det ses nedenfor, en P-værdi P = 0.93 for test af ingen interaktion, dvs. test af ens hældninger for de to lande. Bemærk estimate-sætningen ovenfor, som er noget sværere end dem, I har set tidligere. De specielt interesserede må læse på SAS s hjemmesider for mere information, men I kan i hvert fald se, at vi får det samme resultat som den simple fratrækning af værdierne fra spørgsmål 4 og 5. 17

The GLM Procedure Class Level Information Class Levels Values country 2 1:DK 2:PL Number of Observations Read 118 Number of Observations Used 118 The GLM Procedure Dependent Variable: vitd Sum of Source DF Squares Mean Square F Value Pr > F Model 3 7019.52299 2339.84100 7.38 0.0001 Error 114 36141.95404 317.03468 Corrected Total 117 43161.47703 R-Square Coeff Var Root MSE vitd Mean 0.162634 45.51362 17.80547 39.12119 Source DF Type I SS Mean Square F Value Pr > F country 1 6227.024320 6227.024320 19.64 <.0001 bmi 1 789.848895 789.848895 2.49 0.1172 bmi*country 1 2.649776 2.649776 0.01 0.9273 Source DF Type III SS Mean Square F Value Pr > F country 1 82.6863263 82.6863263 0.26 0.6106 bmi 1 777.8243662 777.8243662 2.45 0.1200 bmi*country 1 2.6497756 2.6497756 0.01 0.9273 Standard Parameter Estimate Error t Value Pr > t dk vs. pl, bmi=25 12.9390492 3.99863132 3.24 0.0016 Parameter 95% Confidence Limits dk vs. pl, bmi=25 5.0177914 20.8603071 Standard Parameter Estimate Error t Value Pr > t Intercept 51.28222390 B 15.48841169 3.31 0.0012 country 1:DK 11.15535769 B 21.84339004 0.51 0.6106 country 2:PL 0.00000000 B... bmi -0.64687753 B 0.52972036-1.22 0.2245 bmi*country 1:DK 0.07134766 B 0.78042035 0.09 0.9273 bmi*country 2:PL 0.00000000 B... Parameter 95% Confidence Limits Intercept 20.59979963 81.96464816 country 1:DK -32.11622975 54.42694513 country 2:PL.. bmi -1.69624949 0.40249443 bmi*country 1:DK -1.47465904 1.61735437 bmi*country 2:PL.. NOTE: The X X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations. Terms whose estimates are followed by the letter B are not uniquely estimable. 18

Figuren med de to ikke-parallelle linier (man kan ikke lige se det på øjemål, så ens er deres hældninger) er Hvordan passer denne forskel med den, vi fandt i spørgsmål 1 (eller 2)? Vink: Man kan her benytte en model med to kovariater, nemlig dk og bmi. Når vi kun har de to lande, Danmark og Polen, vil variablen dk blot angive forskellen mellem Danmark og Polen, for fastholdt bmi. Rigtig mange af jer har ladet jer narre af, at jeg beder om forskellen specifikt for bmi=25 og har prøvet at lave diverse fantasifulde estimate-sætninger, men det er altså slet ikke nødvendigt her, da den søgte forskel er den samme for alle værdier af bmi. Hvis man endelig vil have en estimate-sætning, skal den være som vist nedenfor, altså simpelthen 1 gange estimatet for variablen dk : ods graphics on; proc glm plots=diagnostics data=a1; where land in (1,2); model vitd=dk bmi / solution clparm; estimate "dk vs. pl, bmi ens" dk 1; ods graphics off; Vi finder så outputtet 19

The GLM Procedure Dependent Variable: vitd Sum of Source DF Squares Mean Square F Value Pr > F Model 2 7016.87322 3508.43661 11.16 <.0001 Error 115 36144.60382 314.30090 Corrected Total 117 43161.47703 R-Square Coeff Var Root MSE vitd Mean 0.162573 45.31696 17.72853 39.12119 Source DF Type I SS Mean Square F Value Pr > F dk 1 6227.024320 6227.024320 19.81 <.0001 bmi 1 789.848895 789.848895 2.51 0.1157 Source DF Type III SS Mean Square F Value Pr > F dk 1 4655.914820 4655.914820 14.81 0.0002 bmi 1 789.848895 789.848895 2.51 0.1157 Standard Parameter Estimate Error t Value Pr > t dk vs. pl, bmi ens 13.1276163 3.41079938 3.85 0.0002 Parameter 95% Confidence Limits dk vs. pl, bmi ens 6.3714792 19.8837534 Standard Parameter Estimate Error t Value Pr > t Intercept 50.33092807 11.42281970 4.41 <.0001 dk 13.12761628 3.41079938 3.85 0.0002 bmi -0.61400630 0.38732331-1.59 0.1157 Parameter 95% Confidence Limits Intercept 27.70452066 72.95733548 dk 6.37147916 19.88375341 bmi -1.38121924 0.15320663 hvoraf det fremgår, at den søgte forskel estimeres til 13.13, med konfidensinterval (6.37, 19.88). Vi er altså ret sikre på, at danske kvinder ligger mindst 6 enheder højere end polske kvinder med samme bmi. Sammenligner vi med resultatet fra spørgsmål 2, ser vi at estimat og tilhørende konfidensinterval blot er rykket en anelse ned mod 0, men ikke noget, der rigtigt forslår noget. Den tilhørende tegning af fittet (de to parallelle linier) bliver 20

som næsten ikke er til at skelne fra figuren ovenfor af de to ikkeparallelle linier. 7. Lav en tabel til sammenligning af solvanerne i Danmark og Polen. Solvanerne er angivet som en binær (dikotom) variable, så vi skal her se på en 2 gange 2 tabel. Hvis vi følger det sædvanlige setup, skal landene være rækker, og vi skal udregne rækkeprocenter, χ 2 -test og odds ratio: proc freq data=a1; where land in (1,2); table country*sol / nopercent nocol chisq relrisk; med outputtet The FREQ Procedure Table of country by sol country sol Frequency Row Pct 0 1 Total ---------+--------+--------+ 1:DK 14 39 53 26.42 73.58 ---------+--------+--------+ 2:PL 26 39 65 40.00 60.00 ---------+--------+--------+ Total 40 78 118 21

Statistics for Table of country by sol Statistic DF Value Prob ------------------------------------------------------ Chi-Square 1 2.4045 0.1210 Likelihood Ratio Chi-Square 1 2.4336 0.1188 Continuity Adj. Chi-Square 1 1.8365 0.1754 Mantel-Haenszel Chi-Square 1 2.3842 0.1226 Phi Coefficient -0.1427 Contingency Coefficient 0.1413 Cramer s V -0.1427 Fisher s Exact Test ---------------------------------- Cell (1,1) Frequency (F) 14 Left-sided Pr <= F 0.0872 Right-sided Pr >= F 0.9603 Table Probability (P) 0.0475 Two-sided Pr <= P 0.1709 Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits ----------------------------------------------------------------- Case-Control (Odds Ratio) 0.5385 0.2451 1.1827 Cohort (Col1 Risk) 0.6604 0.3852 1.1321 Cohort (Col2 Risk) 1.2264 0.9496 1.5839 Sample Size = 118 Er der signifikant forskel på solvanerne i de to lande? Nej, det er der ikke. χ 2 -testet giver P=0.12, samstemmende med Fishers eksakte test, der giver P=0.17. Angiv odds ratio (med 95% konfidensinterval) for at foretrække sol, for en dansk kvinde i forhold til en polsk. Den estimerede odds ratio ovenfor er for ikke at foretrække sol, så den skal inverteres. Dette kunne vi gøre enten på lommeregner, eller ved at bytte om på 0 og 1, f.eks. ved at definere skygge=1-sol; og så køre tabellen igen med denne nye variabel: 22

The FREQ Procedure Table of country by skygge country skygge Frequency Row Pct 0 1 Total ---------+--------+--------+ 1:DK 39 14 53 73.58 26.42 ---------+--------+--------+ 2:PL 39 26 65 60.00 40.00 ---------+--------+--------+ Total 78 40 118 Statistics for Table of country by skygge Statistic DF Value Prob ------------------------------------------------------ Chi-Square 1 2.4045 0.1210 Likelihood Ratio Chi-Square 1 2.4336 0.1188 Continuity Adj. Chi-Square 1 1.8365 0.1754 Mantel-Haenszel Chi-Square 1 2.3842 0.1226 Phi Coefficient 0.1427 Contingency Coefficient 0.1413 Cramer s V 0.1427 Fisher s Exact Test ---------------------------------- Cell (1,1) Frequency (F) 39 Left-sided Pr <= F 0.9603 Right-sided Pr >= F 0.0872 Table Probability (P) 0.0475 Two-sided Pr <= P 0.1709 Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits ----------------------------------------------------------------- Case-Control (Odds Ratio) 1.8571 0.8455 4.0792 Cohort (Col1 Risk) 1.2264 0.9496 1.5839 Cohort (Col2 Risk) 0.6604 0.3852 1.1321 Sample Size = 118 Vi finder så en odds ratio på 1.86, med konfidensinterval (0.85, 4.08). Da 1 ligger i dette konfidensinterval, er der ingen signifikant forskel på de to lande, men vi kan dog ikke udelukke, at odds for at kunne lide sol er helt op til 4 gange større for danske kvinder i sammenligning med polske. 23

Ser det ud som om solvaner kan forklare noget af forskellen i vitamin D niveau? (Her ønskes blot en vurdering baseret på sund fornuft, som ikke behøves at blive underbygget af statistiske analyser. I kan dog benytte modeller som skitseret ovenfor i spørgsmål 6, hvis I har overskud til det). Polske kvinder er ikke helt så solglade som danske kvinder, så umiddelbart kan det godt tænkes, at dette kunne forklare noget af deres lavere vitamin D status, også selv om forskellen ikke er signifikant. Vi prøver lige... ods graphics on; proc glm plots=diagnostics data=a1; where land in (1,2); class sol; model vitd=dk sol / solution clparm; ods graphics off; og finder outputtet The GLM Procedure Class Level Information Class Levels Values sol 2 0 1 Number of Observations Read 118 Number of Observations Used 118 The GLM Procedure Dependent Variable: vitd Sum of Source DF Squares Mean Square F Value Pr > F Model 2 7434.15313 3717.07657 11.96 <.0001 Error 115 35727.32390 310.67238 Corrected Total 117 43161.47703 R-Square Coeff Var Root MSE vitd Mean 0.172240 45.05462 17.62590 39.12119 Source DF Type III SS Mean Square F Value Pr > F dk 1 5350.002001 5350.002001 17.22 <.0001 sol 1 1207.128811 1207.128811 3.89 0.0511 24

Standard Parameter Estimate Error t Value Pr > t Intercept 35.29222028 B 2.58817444 13.64 <.0001 dk 13.67709790 3.29585659 4.15 <.0001 sol 0-6.82670455 B 3.46326420-1.97 0.0511 sol 1 0.00000000 B... Parameter 95% Confidence Limits Intercept 30.16554483 40.41889573 dk 7.14864031 20.20555550 sol 0-13.68676438 0.03335529 sol 1.. NOTE: The X X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations. Terms whose estimates are followed by the letter B are not uniquely estimable. Vi ser, at heller ikke de (lidt) forskellige solvaner kan forklare forskellen mellem landene. Estimatet for forskellen ændrer sig ikke meget i forhold til hverken spm. 2 eller spm. 6. 8. Kan kostsammensætningen forklare noget af forskellen på Danmark og Polen? Er der forskel på vitamin D indtaget i de to lande? Her lægges der igen op til et T-test, men først en figur 25

Vi ser her ret skæve fordelinger, så når vi sammenligner niveauerne i de to lande, gør vi det på logaritmisk skala: T-testet giver The TTEST Procedure Variable: lvitdintake country N Mean Std Dev Std Err Minimum Maximum 1:DK 53 0.7938 0.4117 0.0565-0.0996 1.4392 2:PL 65 0.7534 0.4040 0.0501-0.2757 1.5065 Diff (1-2) 0.0404 0.4075 0.0754 country Method Mean 95% CL Mean Std Dev 1:DK 0.7938 0.6803 0.9072 0.4117 2:PL 0.7534 0.6533 0.8535 0.4040 Diff (1-2) Pooled 0.0404-0.1090 0.1897 0.4075 Diff (1-2) Satterthwaite 0.0404-0.1094 0.1901 Method Variances DF t Value Pr > t Pooled Equal 116 0.54 0.5934 Satterthwaite Unequal 110.42 0.53 0.5942 Equality of Variances Method Num DF Den DF F Value Pr > F Folded F 52 64 1.04 0.8807 26

og altså ingen signifikant forskel på Danmark og Polen (P=0.59). Har forskellen et fortegn, der kunne tyde på, at det forklarer noget af den fundne forskel i vitamin D indholdet i blodet? Da danske kvinder ses at indtage lidt større mængder af vitamin D, går forskellen den rigtige vej for at forklare forskellen i vitamin D indhold i blodet, men... Prøv evt. at tilføje vitamin D indtaget som ekstra kovariat i en af de tidligere modeller, og sammenlign igen de to kvinder med BMI=25, denne gang forudsat at de har samme vitamin D indtag. Konklusion? Her skal vi bestemme os for, hvordan vitamin D indtaget skal indgå i modellen. Ovenfor blev det logaritmetransformeret, forsi vi så, at fordelingen var ret skæv, men nu skal den fungere som kovariat, og så er der ikke noget krav om en bestemt fordeling. Hvis vi kører en model med vitd som outcome og vitdintake (og bmi) som forklarende variabel (altså begge utransformerede), får vi som en del af model checket nedenstående plot af residualer mod vitdintake 27

Da dette synes at vise en bue, vælges det at lade vitdintake logaritmetransformere. Det vil da være naturligt også at logaritmetransformere vitd, hvilket vi jo også tidligere har gjort. Efterfølgende modelkontrol må så vise, om denne model er OK. Da bmi har så lille effekt, kunne vi også se på plots af original observationer af vitd mod vitdintake som mildest taget heller ikke ser overbevisende lineært ud. Bedre ser det ud, når begge er logaritmeret: Vi kører derfor modellen 28

proc glm plots=(diagnostics residuals) data=a1; where land in (1,2); model vitd=dk bmi vitdintake / solution clparm; og får outputtet The GLM Procedure Dependent Variable: lvitd Sum of Source DF Squares Mean Square F Value Pr > F Model 3 2.76080667 0.92026889 28.28 <.0001 Error 114 3.70958671 0.03254023 Corrected Total 117 6.47039338 R-Square Coeff Var Root MSE lvitd Mean 0.426683 11.74748 0.180389 1.535556 Source DF Type III SS Mean Square F Value Pr > F dk 1 0.35543033 0.35543033 10.92 0.0013 bmi 1 0.06902085 0.06902085 2.12 0.1480 lvitdintake 1 2.02204828 2.02204828 62.14 <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 1.393586879 0.12332789 11.30 <.0001 dk 0.114731453 0.03471487 3.30 0.0013 bmi -0.005762412 0.00395662-1.46 0.1480 lvitdintake 0.325299794 0.04126657 7.88 <.0001 Parameter 95% Confidence Limits Intercept 1.149275282 1.637898475 dk 0.045961556 0.183501350 bmi -0.013600449 0.002075625 lvitdintake 0.243551038 0.407048550 der viser en overbevisende effekt af vitamin D indtaget (P < 0.0001), kvantificeret ved hældningen 0.325 (0.244, 0.407). Da analysen er foretaget med beege disse variable logaritmetransformeret, svarer denne hældning til en potens, således at hvis man fordobler sit indtag, så vil vitamin D indholdet i blodet stige med en faktor 2 0.325 = 1.25, altså en 25% forøgelse, med konfidensgrænser (2 0.244, 2 0.407 ) = (1.18, 1.33) Nogle enkelte fik den ide at se på, om der skulle være en interaktion mellem vitdintake og land. Hvis man ignorere såvel bmi som sol og blot tegner en regressionslinie for hvert land for sig, finder man nedenstående plot, som kraftigt tyder i den retning: 29

Når vi skal sætte tal på disse højst forskellige linier, gør vi kovariaten dk til en class-variabel (det betyder ikke noget, så længe der kun er to værdier, men det letter overskueligheden af outputtet): proc glm plots=(diagnostics residuals) data=a1; where land in (1,2); class dk sol; model vitd=dk bmi sol vitdintake vitdintake*dk / solution clparm; og får outputtet The GLM Procedure Class Level Information Class Levels Values dk 2 0 1 sol 2 0 1 Number of Observations Read 118 Number of Observations Used 118 Dependent Variable: lvitd Sum of Source DF Squares Mean Square F Value Pr > F Model 5 3.03862902 0.60772580 19.83 <.0001 Error 112 3.43176436 0.03064075 Corrected Total 117 6.47039338 R-Square Coeff Var Root MSE lvitd Mean 0.469620 11.39946 0.175045 1.535556 30

Source DF Type III SS Mean Square F Value Pr > F dk 1 0.01517676 0.01517676 0.50 0.4830 bmi 1 0.05743485 0.05743485 1.87 0.1737 sol 1 0.07007720 0.07007720 2.29 0.1333 lvitdintake 1 1.99003263 1.99003263 64.95 <.0001 lvitdintake*dk 1 0.20030408 0.20030408 6.54 0.0119 Standard Parameter Estimate Error t Value Pr > t Intercept 1.427126494 B 0.11727040 12.17 <.0001 dk 0 0.049726676 B 0.07065608 0.70 0.4830 dk 1 0.000000000 B... bmi -0.005275812 0.00385346-1.37 0.1737 sol 0-0.052681174 B 0.03483508-1.51 0.1333 sol 1 0.000000000 B... lvitdintake 0.428851948 B 0.05940622 7.22 <.0001 lvitdintake*dk 0-0.204796032 B 0.08009886-2.56 0.0119 lvitdintake*dk 1 0.000000000 B... Parameter 95% Confidence Limits Intercept 1.194770222 1.659482765 dk 0-0.090269295 0.189722646 dk 1.. bmi -0.012910957 0.002359333 sol 0-0.121702415 0.016340066 sol 1.. lvitdintake 0.311146140 0.546557755 lvitdintake*dk 0-0.363501662-0.046090401 lvitdintake*dk 1.. som viser, at der faktisk er signifikant forskel på hældningerne i de to lande, da Danmark har en hældning, der er 0.205 større end Polen (P=0.012). Der er en begrundet mistanke om, at denne forskel i hældning skyldes en mere præcis registrering af vitamin D indtaget i Danmark. Det er nemlig sådan, at hvis der er fejl/støj på kovariat-værdierne, så vil sammenhængen tage sig svagere ud. Men alt i alt må man sige, at vi indtil videre ikke har fundet de vise sten til forklaring af forskellen på vitamin D niveauet i Danmark og Polen. Reference: Andersen R, et.al.: Teenage girls and elderly women living in northern Europe have low winter vitamin D status. Eur J Clin Nutr. 2005 Apr;59(4):533-41. 31