1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.



Relaterede dokumenter
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Besvarelse af vitcap -opgaven

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Reeksamen i Statistik for Biokemikere 6. april 2009

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Eksamen i Statistik for Biokemikere, Blok januar 2009

Generelle lineære modeller

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Lineær regression i SAS. Lineær regression i SAS p.1/20

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen i Statistik for biokemikere. Blok

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Modelkontrol i Faktor Modeller

Eksamen i Statistik for biokemikere. Blok

Regressionsanalyse i SAS

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Multipel Lineær Regression

Besvarelse af juul2 -opgaven

En Introduktion til SAS. Kapitel 5.

Vejledende besvarelse af hjemmeopgave, efterår 2018

Løsning eksamen d. 15. december 2008

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Modul 11: Simpel lineær regression

1 Hb SS Hb Sβ Hb SC = , (s = )

Løsning til eksaminen d. 14. december 2009

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Løsning til eksaminen d. 29. maj 2009

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Basal statistik. 30. januar 2007

Phd-kursus i Basal Statistik, Opgaver til 2. uge

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

To-sidet varians analyse

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Konfidensintervaller og Hypotesetest

Forelæsning 11: Envejs variansanalyse, ANOVA

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Løsning til øvelsesopgaver dag 4 spg 5-9

Anvendt Statistik Lektion 7. Simpel Lineær Regression

MPH specialmodul Epidemiologi og Biostatistik

Vejledende besvarelse af hjemmeopgave, forår 2015

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Postoperative komplikationer

To samhørende variable

Epidemiologi og Biostatistik

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Besvarelse af opgave om Vital Capacity

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Statistik Lektion 17 Multipel Lineær Regression

Logistisk Regression - fortsat

Vejledende besvarelse af hjemmeopgave

Reeksamen i Statistik for biokemikere. Blok

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Statistik Lektion 4. Variansanalyse Modelkontrol

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Statistik Lektion 16 Multipel Lineær Regression

Vejledende besvarelse af hjemmeopgave, forår 2017

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Transkript:

Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller en af 4 doser af et aktivt anti-inflammatorisk stof, her kaldet X. Der anvendes et samlet index (Index) til beskrivelse af behandlingens effektivitet (et mål for en samlet forbedring af symptomerne), som er listet som talværdier under de enkelte 6 grupper. 1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. En passende arbejdstegning kan f.eks. være at plotte data i et scatterplot, så man kan få et overblik over data inden der udføres analyser. En plot af data kan også give ideer til den videre analyse af data. Der kan uddrages følgende ting af scatterplottet : 1

Placebo har ca. samme værdier som behandlingen med Dose 1 (D1) af X, endda ligger Placebo måske en smule højere, det må vurderes ved nærmere analyse. Aspirin-behandlingen ser ud til på plottet at placere sig et sted i mellem Dose 2 af X (D2)og Dose 3 af X (D3), mest i nærheden af Dose 2. De 4 behandlinger med X i 4 forskellelige doser ser ud til at samle sig om en ret linie. Man kunne også have valgt at lave et boxplot som arbejdstegning, men i det aktuelle tilfælde med forholdsvis få observationer (45) er et scatterplot er bedre valg, da man kan se alle observationer på dette plot. 2. Lav en ensidet-variansanalyse til vurdering af om der er forskel på de 6 grupper. Selve beregningen suppleres selvfølgelig med en passende fortolkning af resultatet. Index-niveauet i grupperne sammenlignes vha. en ensidet variansanalyse. Her testes hypotesen µ PLA = µ ASP = µ d1 = µ d2 = µ d3 = µ d4 der siger at alle grupper har samme middelværdi. I Analyst kan dette f.eks gøres under Statistics / ANOVA / One- Way ANOVA. Index vægles som Dependent og gruppe som Independent. Output: The ANOVA Procedure Class Level Information Class Levels Values 2

gruppe 6 as d1 d2 d3 d4 p Number of Observations Read 45 Number of Observations Used 45 The ANOVA Procedure Dependent Variable: index Sum of Source DF Squares Mean Square F Value Pr > F Model 5 6104.838061 1220.967612 252.19 <.0001 Error 39 188.818384 4.841497 Corrected Total 44 6293.656444 R-Square Coeff Var Root MSE index Mean 0.969999 10.51230 2.200340 20.93111 Source DF Anova SS Mean Square F Value Pr > F gruppe 5 6104.838061 1220.967612 252.19 <.0001 P-værdien for gruppe er < 0.0001, dvs hypotesen forkastes. Middelværdien i de 6 grupper kan ikke antages at være ens. 3. Kontrol af model fra spg. 2. Er normalfordelingsantagelsen fornuftig? Er der varianshomogenitet? Følgende antagelser skal kunne siges at være opfyldt for at vi kan benytte resultatet fra den ensidede-variansanalyse: Observationerne skal kunne antages at være indbyrdes uafhængige. Observationerne skal kunne antages at være normalfordelte. Observationerne skal kunne antages at have samme varians σ 2. 1. antagelse Hvis observationerne skal kunne antages at være indbyrdes uafhængige, kræver det, at disse mennesker kun optræder en gang i forsøget, og at de ikke er indbyrdes i familie. I opgaveteksten er der ikke oplyst noget om dette, så vi må antage, at observationerne kan antages at være 3

indbyrdes uafhængige. 2. antagelse Observationerne kan antages at være normalfordelte, hvis fraktildiagrammer ser fornuftige ud. Vi starter med at lave et diagram særskilt for hver behandling, men man kan også lave en fælles tegning efter fratrækning af gruppegennemsnit ( dvs. af residualerne ). 4

5

Alle de 6 fraktildiagrammer ser pæne ud, men det ses, at de behandlinger med flest observationer (Aspirin, Placebo og Dose 2) ligger pæntest omkring normalfordelings-linien, mens de behandlinger med få observationer (Dose 1, 2 og 4) ligger mere spredt i forhold til linien. Dette er ganske naturligt, idet det afspejler sensitiviteten overfor enkeltobservationer i datamaterialet. Istedet for at opdele efter behandling kunne man også have lavet en fælles tegning efter fratrækning af gruppegennemsnit ( dvs. af residualerne ). Med denne metode er der observationer nok til at det giver 6

mening at lave et histogram. Et sådant er derfor inkluderet nedenfor: Igen ses en god overensstemmelse med normalfordelingen. Det kan derfor antages, at observationerne i hver gruppe følger en normalfordeling. Test for normalfordeling er også en mulighed til at afgøre dette spørgsmål, så nedenfor følger et test for normalfordeling, testet laves igen for hver gruppe for sig. The UNIVARIATE Procedure Fitted distribution for Index Behandling = Asp Parameters for Mormal Distribution Parameter Symbol Estimate Mean Mu 23.25455 Std Dev Sigma 2.95613 Goodness-of-fit Tests for Normal Distribution Test Statistic p Value Kolmogorov-Smirnov D 0.16945070 PR > D >0.150 Cramer-von Mises W-sq 0.05481201 Pr > W-sq >0.250 Anderson-Darling A-sq 0.36044742 Pr > A-sq >0.250 7

Behandling = Pla Parameters for Mormal Distribution Parameter Symbol Estimate Mean Mu 8.62222 Std Dev Sigma 1.83697 Goodness-of-fit Tests for Normal Distribution Test Statistic p Value Kolmogorov-Smirnov D 0.12857067 PR > D >0.150 Cramer-von Mises W-sq 0.02723921 Pr > W-sq >0.250 Anderson-Darling A-sq 0.19297768 Pr > A-sq >0.250 Behandling = D1 Parameters for Mormal Distribution Parameter Symbol Estimate Mean Mu 5.96 Std Dev Sigma 0.76354 Goodness-of-fit Tests for Normal Distribution Test Statistic p Value Kolmogorov-Smirnov D 0.20631312 PR > D >0.150 Cramer-von Mises W-sq 0.04832275 Pr > W-sq >0.250 Anderson-Darling A-sq 0.30861040 Pr > A-sq >0.250 Behandling = D2 Parameters for Mormal Distribution Parameter Symbol Estimate Mean Mu 17.94444 Std Dev Sigma 1.06079 Goodness-of-fit Tests for Normal Distribution Test Statistic p Value Kolmogorov-Smirnov D 0.12336351 PR > D >0.150 Cramer-von Mises W-sq 0.02274765 Pr > W-sq >0.250 Anderson-Darling A-sq 0.16219369 Pr > A-sq >0.250 Behandling = D3 Parameters for Mormal Distribution 8

Parameter Symbol Estimate Mean Mu 33.13333 Std Dev Sigma 3.00511 Goodness-of-fit Tests for Normal Distribution Test Statistic p Value Kolmogorov-Smirnov D 0.18724565 PR > D >0.150 Cramer-von Mises W-sq 0.03607680 Pr > W-sq >0.250 Anderson-Darling A-sq 0.22523359 Pr > A-sq >0.250 Behandling = D4 Parameters for Mormal Distribution Parameter Symbol Estimate Mean Mu 43.68 Std Dev Sigma 2.11825 Goodness-of-fit Tests for Normal Distribution Test Statistic p Value Kolmogorov-Smirnov D 0.21260141 PR > D >0.150 Cramer-von Mises W-sq 0.04710170 Pr > W-sq >0.250 Anderson-Darling A-sq 0.30287253 Pr > A-sq >0.250 På disse test for normalfordeling ses det, at de enkelte grupper kan antages at følge en normalfordeling 9

3. antagelse Antagelsen om ens varianser kan testes ved hjælp af Levene s test. Dette bør gøres sammen med variansanalysen i Analyst under A- NOVA / One-Way ANOVA / Test : Levene s test for varianshomogenitet ser på hypotesen : σ 2 PLA = σ2 ASP = σ2 D1 = σ2 D2 = σ2 D3 = σ2 D4 og giver her følgende resultat : The ANOVA Procedure Levene s Test for Homogeneity of index Variance ANOVA of Squared Deviations from Group Means Sum of Mean Source DF Squares Square F Value Pr > F gruppe 5 397.3 79.4502 2.09 0.0870 Error 39 1481.1 37.9778 Med en p-værdi på 0.087 kan hypotesen ikke afvises. Vi konkludere og at de 6 varianser ikke er signifikant forskellige. Dette er i overensstemmelse med kravet om varianshomogenitet. Ser vi på scatterplottet på s.1, ser vi, at specielt Dose 1 og Dose 2 har ret små varianser i forhold til de andre grupper. Ifølge Levene s tests kunne disse afvigelser godt være opstået tilfældigt. Istedet for at benytte Levene s test kunne vi have valgt Bartlett s test eller Brown-Forsythe test for varianshomogenitet. Begge disse test giver forkast af hypotesen. Er man usikker på om varianshomogeniteten holder kan man istedet teste hypotesen om ens middelværdier ved et såkladt Welch-test, Testet findes i Analyst under ANOVA / One-Way ANOVA / Test. The VAR Procedure Dependent Variable: Index Welsh s ANOVA for Index 10

DF F Value Pr > F Gruppe 5.00 356.65 <.0001 Error 15 6457 Dette Welsh-test giver ligeledes, at der er en klar forskel på de 6 behandlinger (p < 0.0001). Ved et Krushal-Wallis-test er det muligt at teste forskel på flere grupper uden at have en antagelse om, at data følger en normalfordeling. Da denne antagelse i dette tilfælde imidlertid er opfyldt, er det ikke relevant at anvende et Krushal-Wallis-test i dette tilfælde. 4. Sammenlign niveauet i placebo-gruppen med aspirin-gruppen. Her er der to muligheder. Enten kan vi bruge et uparret t-test eller også kan vi bruge ANOVA-modellen for alle 6 grupper. Hvis ANOVAmodellens forudsætninger er opfyldt er det bedre at bruge outputtet fra denne model. Analysen er stærkere end for et uparret t-test fordi ANOVA-modellen benytter information fra alle grupper til at estimere den fælles varians. Vi har tidligere set at ANOVA-modellen antagelser er nogenlunde opfyldt, men her benyttes begge metoder: Vi stater med det uparrede t-test: Uparret t-test i Analyst: under Hypothesis Tests / Two-Sample t-test for Means fåes følgende størrelser: T-test procedure Dependent Variable: Index Sample Statistics Group N Mean Std.Dev Std Error Asp 11 23.25455 2.9561 0.8913 Pla 9 8.62222 1.837 0.6123 Hypothesis Test : Null Hypothesis : MEAN(ASP) - MEAN(PLA) = 0 Alternative : MEAN(ASP) - MEAN(PLA) 0 If Variances Are t statistic Df PR > t Equal 12.914 18 <.0001 Not Equal 13.531 16.95 <.0001 95% Confidence Interval for the Difference between Two Means : 11

( 12.25, 17.01 ) Med denne analyses P-værdier ses det, at hypotesen om, at de 2 middelværdier er ens må forkastes, og der er dermed forskel på de 2 grupper. Fra scatterplottet og middelværdierne ses det, at det er Aspirin, der har de største Index-værdier. Forskellen på de 2 grupper estimeres til : 23.25-8.62 = 14.63. Med et konfidensinterval på : ( 12.25, 17.01 ) Man kan se på konfidensintervallet, at der er klar forskel på de 2 grupper. For at få analyseret forskellen i ANOVA- modellen klikkes Statistics / ANOVA / Linear Models. Herefter Statistics / Parameter Estimates. Endelig går jeg ud i koden og tilføjer clparm i linjen model index=gruppe / solution clparm; Del af output: Standard Parameter Estimate Error t Value Pr > t 95% Confidence Limits Intercept 8.62222222 B 0.73344674 11.76 <.0001 7.13868617 10.10575827 gruppe as 14.63232323 B 0.98897938 14.80 <.0001 12.63192363 16.63272284 gruppe d1-2.66222222 B 1.22729113-2.17 0.0362-5.14465285-0.17979160 gruppe d2 9.32222222 B 1.03725032 8.99 <.0001 7.22418542 11.42025903 gruppe d3 24.51111111 B 1.15968111 21.14 <.0001 22.16543465 26.85678757 gruppe d4 35.05777778 B 1.22729113 28.57 <.0001 32.57534715 37.54020840 gruppe p 0.00000000 B..... I overensstemmelse med det uparrede t-test ses at Aspirin-gruppen ligger 14.6 endheder over placebo og at denne forskel er statistisk signifikant (p < 0.0001). Sikkerhedsintervallet er her (12.63; 16.63), dvs lidt smallere end med det uparrede t-test. 5. Sammenlign niveauet i placebo-gruppen med henholdsvis Dose 1 og Dose 4-gruppen. Her benytter jeg output fra ANOVA-modellen. Jeg kunne også have valgt to uparrede t-test, men fordi forudsætningerne i ANOVAmodellen ser ud til at være opfyldt benytter jeg den. 12

Standard Parameter Estimate Error t Value Pr > t 95% Confidence Limits Intercept 8.62222222 B 0.73344674 11.76 <.0001 7.13868617 10.10575827 gruppe as 14.63232323 B 0.98897938 14.80 <.0001 12.63192363 16.63272284 gruppe d1-2.66222222 B 1.22729113-2.17 0.0362-5.14465285-0.17979160 gruppe d2 9.32222222 B 1.03725032 8.99 <.0001 7.22418542 11.42025903 gruppe d3 24.51111111 B 1.15968111 21.14 <.0001 22.16543465 26.85678757 gruppe d4 35.05777778 B 1.22729113 28.57 <.0001 32.57534715 37.54020840 gruppe p 0.00000000 B..... Heraf ses Placebo gruppen ligger 2.66 (95% CI: 0.180; 5.14) over D1-gruppen. Forskellen er statistisk signifikant med en p-værdi på 0.036. D4-gruppen ligger 35.05 (95% CI: 32.58; 37.54) over placebo-gruppen. Forskellen er statistisk signifikant med en p-værdi på < 0.0001. Korrektion for multipel testning: Opgaveteksten specificerer at det netop drejer sig om disse to sammenligninger: placebo mod d1 og d4. Det er derfor forkert at lave en Bonferroni-korrektion for de ialt 15 sammenligninger vi kunne have lavet. Det eneste Bonferroni-korrektionen gør er at p-værdierne ganges op med antallet af udførte tests. Her har vi lavet to tests, så hvis man vil korrigere for multipel testning er det mere rigtigt kun at gange med 2. 6. For de 4 grupper, der har modtaget det aktive stof X ønskes en beskrivelse af dosisafhængigheden: (a) Giv et estimat for effekten af en 10 mg forøgelse af dosis, baseret på en antagelse om en lineær sammenhæng mellem index og dosis. Som tidligere bemærket ser der ud til at være pæn linearitet mellem dosis af medicin X og Index. Først laves der derfor en ny variabel Dosis, der angiver hvilken dosis af medicin X den enkelte person har modtaget. Herunder er der et scatterplot, hvor Index er tegnet mod Dosis (NB Dosis=0 er Placebo-gruppen, og den medtages ikke i analysen i første omgang). 13

På baggrund af dette plot opstilles der nu en lineær regressionsmodel : Modellen er : Y i = α + βx i + ε i, ε i N(0, σ 2 ) hvor Y i er Index hvor X i er Dosis hvor α er skæringen med Y-aksen hvor β er hældningen af linien hvor ε i er afstanden til linien målt lodret På baggrund af denne model laves der regressionsanalysen i Analyst under Statistics / Regression / Linear. Herved får man følgende output : The REG Procedure Dependent Variable: Index Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 4368.67598 4368.67598 1034.55 <.0001 Error 23 97.12402 4.22278 Corrected Total 24 4465.80000 14

Root MSE 2.05494 R-Square 0.9783 Coeff Var 8.44265 Parameter Estimates Parameter Standard Variable Df Estimate Error t Value Pr> t Intercept 1-20.11437 1.44191-13.95 <.0001 Dosis 1 2.58456 0.08035 32.16 <.0001 95% Confidence Limits for Intercept : -23.09719, -17.13155 95% Confidence Limits for Dosis : 2.41833, 2,75078 Dermed fremkommer der estimater for både hældningen β (Dosis) og skæringen α (Intercept) i modellen, og det er nu muligt at beregne et estimat for effekten af en 10 mg s forøgelse af dosis. Vi har vores model : Y i = α + βx i + ε i Her svarer ˆβ til et estimat for ændringen på 1 mg af dosis, dvs hver gang dosis vokser med 1 mg forventer vi at Index vokser med 2.58. Et estimat for effekten af en 10 mg s forøgelse af dosis fås som 10 ˆβ = 25.84 Konfidensinterval for 10 ˆβ : (10 2.41833, 10 2.75078) Der skal her bemærkes at der selvfølelig bør lave modelkontrol for den lineære regression i form af residualplot osv. Residualerne ændrer sig når modellen ændres, dvs vi kan ikke bare henvise til resultaterne fra spørgsmål 3. Lineariteten testes i spørgsmål 6b. Residualplots er angivet nedenfor og de viser ikke tegn på at modellen skulle være misspecificeret. Dog ses af fraktil-diagrammet at residualernes fordeling passer lidt dårligere med normalfordelingsantagelsen end i spg 3, hvor vi ikke krævede en lineær sammenhæng mellem gruppe-niveauerne. 15

(b) Kan en lineær dosiseffekt forklare hele forskellen på de 4 aktivt behandlede grupper? Denne analyse er lidt speciel, men den er meget anvendelig og god at kende. Til analysen anvendes kun observationer for behandling med X, som under forrige spørgsmål, og man anvender desuden den nye variabel Dosis. Testet laves i Analyst under ANOVA / Linear Models. Index er stadig den afhængige, så den placeres i Dependent, og Gruppe sættes under Class, og til sidst sættes Dosis under Quantitative. Dette vil give et test af linearitet mellem Dosis og Index, idet man vurderer, om Gruppe kan testes væk. The GLM Procedure Class Level Information Class Levels Values Gruppe 4 d1,d2,d3,d4 Number of observations 25 Dependent Variable : Index Sum of Source DF Squares Mean Square F Value Pr> F Model 3 4391.364444 1463.788148 412.97 <.0001 Error 21 74.435556 3.544550 16

Corrected Total 24 4465.800000 R-Square 0.983332 Coeff Var 7.734994 Root MSE 1.882698 Index Mean 24.34 Source DF Type III SS Mean Square F Value Pr> F Gruppe 2 22.68846585 11.34423293 3.20 0.0612 Dosis 0 0.00000000 Det man skal kigge under, er Type III SS testet, hvor der er en p-værdi på 0.0612 for Gruppe, så det vil sige, at det er lige på kanten af, at en lineær dosiseffekt kan forklare hele forskellen. NB Hvis man ser på R 2 for den lineære regression, så er R 2 = 0.9783, og så kunne man argumentere, at med denne R 2 -værdi, så er langt det meste af forskellen mellem de 4 aktivt-behandlede grupper forklaret ved den lineære regression. Dette er imidlertid en forkert tolkning, da R 2 er afhængig af fordelingen af X-værdier, og dermed af datasættets design. Formel for R 2 (jævnfør overheadkopier fra 5. forelæsning : Regressionsanalyse ) : 1 R 2 xy = s 2 s 2 + ˆβ 2 s xx n 2 Hvis ˆβ 2 og s 2 fastholdes, ses følgende : Hvis s xx er stor, bliver 1 R 2 xy er tæt på 0 og dermed bliver R2 xy tæt på 1. Heraf ses, at R 2 xy kan gøres vilkårlig tæt på 1 ved at sprede x-erne. Det betyder, at korrelationen er meningsløs, når x-værdierne styres, og der er jo tilfældet her, hvor Dosis-værdien = x-værdien er selvvalgt. (c) Estimer index-niveauet ved dosis 0. Angiv sikkerhedsinterval. Interceptet angiver Index niveau ved dosis 0. Fra outputtet aflæses direkte 17

Intercept= -20.11 og 95% Confidence Limits for Intercept : (-23.10 ; -17.13) Vi har ingen data under dosis 10mg, vores estimat er derfor baseret på en ekstrapolation. (d) Passer placebo-gruppen ind i antagelsen om en lineær dosisafhængighed? Eftersom placebo-gruppen ingen medicin har taget, burde et estimat for denne gruppes middelværdi være mindre end den estimerede middelværdi for Dose 1-gruppen, men allerede fra scatterplottet ses, at dette ikke er tilfældet. Endvidere har vi set at placebo-gruppen klarer sig (signifikant) bedre end den laveste dosis-gruppe. Konklusionen må derfor være, at placebo-gruppen ikke passer ind i antagelsen om en lineær afhængighed. 7. Tilsidst sammenlignes aspirin-behandling med X-behandling: (a) Sammenlign niveauet aspirin-gruppen med hver af de fire X-dosis grupper. Her benytter jeg igen ANOVA-modellen med alle grupper. Alternativt kunne jeg have lavet 4 uparrede t-tests. I ANOVA-outputtet vælger SAS placebo-gruppen som reference, men jeg vil jo sammenligne Aspirin-gruppen med 4 andre grupper. Jeg vælger derfor et nyt navn til Aspirin-gruppen: z:aspiri. Herved bliver Aspirin-gruppen valgt som reference-gruppe: Standard Parameter Estimate Error t Value Pr > t Intercept 23.25454545 B 0.66342753 35.05 <.0001 gruppe placebo -14.63232323 B 0.98897938-14.80 <.0001 gruppe x10-17.29454545 B 1.18677525-14.57 <.0001 gruppe x15-5.31010101 B 0.98897938-5.37 <.0001 gruppe x20 9.87878788 B 1.11671494 8.85 <.0001 gruppe x25 20.42545455 B 1.18677525 17.21 <.0001 gruppe z:aspiri 0.00000000 B... Parameter 95% Confidence Limits 18

Intercept 21.91263661 24.59645430 gruppe placebo -16.63272284-12.63192363 gruppe x10-19.69502498-14.89406593 gruppe x15-7.31050061-3.30970141 gruppe x20 7.62001870 12.13755705 gruppe x25 18.02497502 22.82593407 gruppe z:aspiri.. Estimeret forskel mellem dosis 10 gruppen og Aspirin-gruppen er -17.29 med sikkerhedsinterval ( 19.70; 14.89). Forskellen er stærkt signifikant (p < 0.0001). Estimeret forskel mellem dosis 15 gruppen og Aspirin-gruppen er -5.31 med sikkerhedsinterval ( 7.31; 3.31). Forskellen er stærkt signifikant (p < 0.0001). Estimeret forskel mellem dosis 20 gruppen og Aspirin-gruppen er 9.88 med sikkerhedsinterval (7.62; 12.14). Forskellen er stærkt signifikant (p < 0.0001). Estimeret forskel mellem dosis 25 gruppen og Aspirin-gruppen er 20.43 med sikkerhedsinterval (18.02; 22.83). Forskellen er stærkt signifikant (p < 0.0001). Hvis man skulle korrigere for multipel testning kunne man gange p-værdierne med 4. Det ville ændre ikke konklusionerne. (b) Hvilken X-dosis svarer aspirin-behandlingen til? Resultaterne i 7a viser at aspirin-behandlingen svarer til en X- dosis mellem 15 og 20 mg. Et mere præcist estimat kan opnås ved at benytte den estimerede lineære sammenhæng mellem dosis og index, som vi fandt i spørgsmål 6: index = 20.11 + 2.58 dosis Index-niveauet i aspirin-gruppen er 23.25. For at finde dosis svarende til denne respons skal vi altså løse ligningen: 23.25 = 20.11+ 2.58 dosis, hvilket giver: dosis = (23.25 + 20.11)/2.58 = 16.78mg 19

En korrekt beregning af et sikkerhedsinterval for denne dosis kræver at der tages hensyn til estimations-usikkerheden i asprin-niveauet, interceptet samt hældningsestimatet. En sådan beregning ligger u- denfor rammerne af dette kursus. Samlet konklusion om aspirinbehandlingen af reumatoid arthrit: Ud fra de analyser, der er gennemgået tidligere i denne opgave i spm 2, kan man sige, at aspirinbehandling af reumatoid arthrit for Index-værdien virker omtrent som en mellemting mellem Dose 2 og Dose 3, og den ligger klart over placebo. Hvis f.eks. X er et nyt og dyrt behandlingsmiddel i forhold til aspirin, er det en opvejning af ø- konomi og forbedringen af helbredstilstanden hos den enkelte person, men aspirin kan med fordel bruges som erstatning for X ved de lettere symptomer på baggrund af analyserne i denne opgave. Reference: Woolson, R.F. & Clarke, W.R.: Statistical methods for the analysis of biomedical data. 2ed., Wiley, 2002 (Opgave 10.4 side 409) 20