Besvarelse af juul2 -opgaven

Relaterede dokumenter
Besvarelse af opgave om Vital Capacity

Besvarelse af vitcap -opgaven

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Lineær regression i SAS. Lineær regression i SAS p.1/20

Besvarelse af opgave om Vital Capacity

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Reeksamen i Statistik for Biokemikere 6. april 2009

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Reeksamen i Statistik for biokemikere. Blok

Opgavebesvarelse, brain weight

Basal statistik. 21. oktober 2008

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Eksamen i Statistik for Biokemikere, Blok januar 2009

Basal statistik. 30. oktober 2007

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Basal statistik. 30. oktober Den generelle lineære model

k normalfordelte observationsrækker (ensidet variansanalyse)

Eksamen i Statistik for biokemikere. Blok

Opgavebesvarelse, brain weight

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Regressionsanalyse i SAS

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

En Introduktion til SAS. Kapitel 6.

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Restsaltmængdernes afhængighed af trafikken,

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Besvarelse af opgave om Vital Capacity

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Løsning til opgave i logistisk regression

Reeksamen i Statistik for biokemikere. Blok

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Generelle lineære modeller

Besvarelse af opgave om Vital Capacity

Kapitel 11 Lineær regression

Modul 11: Simpel lineær regression

1 Multipel lineær regression

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

1 Multipel lineær regression

Logistisk Regression - fortsat

Vejledende besvarelse af hjemmeopgave

Skriftlig eksamen Science statistik- ST501

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Multipel Lineær Regression

Vejledende besvarelse af hjemmeopgave, forår 2015

2. januar 2015 Proj.nr Version 1 LRK/EHBR/EVO/CCM/MT. Rapport

Alternativ estimering af nøgletal for arbejdstidsforbruget til Produktionsgrenstatistikken Andersen, Johnny Michael

Vejledende besvarelse af hjemmeopgave, efterår 2018

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Anvendt Statistik Lektion 7. Simpel Lineær Regression

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Basal Statistik - SPSS

Vejledende besvarelse af hjemmeopgave, efterår 2016

To-sidet varians analyse

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Multipel regression 22. Maj, 2012

Opgavebesvarelse, korrelerede målinger

To samhørende variable

Kvant Eksamen December timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Statistik Lektion 16 Multipel Lineær Regression

Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse. Lene Theil Skovgaard. 8. oktober 2018

ELISA. ELISA (enzyme-linked immunosorbent assay) forsøg bruges til at detektere og kvantificere stoffer såsom proteiner, peptider, antistoffer o.lig.

Eksamen i Statistik for biokemikere. Blok

Postoperative komplikationer

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Module 3: Statistiske modeller

Vejledende besvarelse af hjemmeopgave, efterår 2015

Basal Statistik - SPSS

Basal Statistik - SPSS

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Lineær og logistisk regression

Phd-kursus i Basal Statistik, Opgaver til 2. uge

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Vejledende besvarelse af hjemmeopgave, forår 2017

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Kommentarer til øvelser i basalkursus, 2. uge

Transkript:

Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium 1). Dette kræver lidt forberedelse. Først skal vi beregne en transformeret variabel med Data/Transform (husk Edit/Mode/Edit først). Hvis man markerer søjlen (klik på navnet) først og så vælger (Y ) fra menuen kommer den til at hedde igf1_sqrt. Dernæst skal vi sætte et filter (Where clause) med Data/Filter/Subset Data, hvor vi klikker os frem til tanner EQ 1. Derefter vælger vi bare Statistics/Regression/Simple og angiver under Variables sex som BYvariabel. Where tanner EQ 1 --------------------------------------------- sex=1 --------------------------------------------- The REG Procedure : MODEL1 Analysis of Variance Mean Source DF Squares Square F Value Pr > F 1 190 1041.76482 162.60458 1041.76482 7.17160 145.26 <.0001 Corrected Total 191 2404.6940 Root MSE 2.67798 R-Square 0.4 Dependent Mean 1.5611 Adj R-Sq 0.40 Coeff Var 19.74750 Parameter Estimates Parameter Variable DF Estimate t Value Pr > t Intercept 1 8.5082 0.46198 18.41 <.0001 age 1 0.64564 0.0557 12.05 <.0001 --------------------------------------------- sex=2 --------------------------------------------- The REG Procedure : MODEL1 Analysis of Variance Mean Source DF Squares Square F Value Pr > F 1 10.556 10.556 21.79 <.0001 117 556.14202 4.755 Corrected Total 118 659.69566 Root MSE Dependent Mean 2.18022 14.8298 R-Square Adj R-Sq 0.1570 0.1498 Coeff Var 14.7077 Parameter Estimates Parameter Variable DF Estimate t Value Pr > t Intercept 1 10.70551 0.9047 11.8 <.0001 age 1 0.47612 0.10201 4.67 <.0001 Dvs. for drengene har vi regressionslinjen igf1 = 8.50 + 0.65 alder og for pigerne igf1 = 10.71 + 0.47 alder 1

Spørgsmål Undersøg om regressionslinjerne er ens for de to køn, og om der samlet set er en effekt af alder. Vi laver en samlet analyse (kovariansanalyse) med Statistics/ANOVA/Linear s ligesom i vitcap -opgaven. Where tanner EQ 1 Number of observations 515 NOTE: Due to missing values, only 11 observations can be used in this analysis. 07 1262.481601 1918.746605 420.827200 6.249989 67. <.0001 Corrected Total 10 181.228206 0.96854 17.80074 2.499998 14.0445 age 1 1210.00701 1210.00701 19.60 <.0001 sex 1 41.7867 41.7867 6.62 0.0106 age*sex 1 11.099228 11.099228 1.78 0.186 age 1 485.9917992 485.9917992 77.76 <.0001 sex 1 24.0018800 24.0018800.84 0.0509 age*sex 1 11.0992276 11.0992276 1.78 0.186 Parameter Estimate t Value Pr > t Intercept 10.70550527 B 1.0742720 10.2 <.0001 age 0.47611991 B 0.11696968 4.07 <.0001 sex 1-2.2016886 B 1.1249952-1.96 0.0509 age*sex 1 0.16952499 B 0.12721167 1. 0.186 age* Bemærk at vekselvirkningsleddet ikke er signifikant. Det vil sige, vi kan antage at linjerne er parallelle (har samme hældning). Hvis vi ser på Type I kvadrat summerne kan vi se at sex er signifikant hvis vi fjerner vekselvirkningsleddet. Spørgsmål 4 Gentag spørgsmål 2 og for postpubertale (alder > 25år). Her behøver vi sådan set bare at ændre filteret (til age GT 25) og køre samme analyser. Vi springer de separate analyser over og går direkte til kovariansanalysen. NOTE: Due to missing values, only 122 observations can be used in this analysis. 2

118 295.8000794 61.04418 98.6000265.059689 2.2 <.0001 Corrected Total 121 656.844212 0.4506 12.4052 1.749197 14.10242 age 1 292.944166 292.944166 95.74 <.0001 sex 1 2.7404911 2.7404911 0.90 0.459 age*sex 1 0.1154220 0.1154220 0.04 0.846 age 1 214.182457 214.182457 70.05 <.0001 sex 1 0.00425 0.00425 0.01 0.9174 age*sex 1 0.1154220 0.1154220 0.04 0.846 Parameter Estimate t Value Pr > t Intercept 18.61218479 B 0.876994 22.22 <.0001 age -0.09924047 B 0.0202587-4.90 <.0001 sex 1-0.11184551 B 1.07626806-0.10 0.9174 age*sex 1-0.0047155 B 0.02427869-0.19 0.846 age* Vekselvirkningsleddet var insignifikant, så vi fjerner det og får NOTE: Due to missing values, only 122 observations can be used in this analysis. 2 295.6846574 147.842287 48.71 <.0001 119 61.158768.049476 Corrected Total 121 656.844212 0.450160 12.527 1.742110 14.10242 age 1 292.944166 292.944166 96.52 <.0001 sex 1 2.7404911 2.7404911 0.90 0.49 age 1 257.9914012 257.9914012 85.01 <.0001 sex 1 2.7404911 2.7404911 0.90 0.49 Parameter Estimate t Value Pr > t Intercept 18.74299561 B 0.49601584 7.79 <.0001 age -0.1025272 0.01111981-9.22 <.0001 sex 1-0.1090792 B 0.2718485-0.95 0.49 Vi ser at sex ikke er signifikant, medens age er klart signifikant uanset om sex først fjernes

fra modellen (Type I SS) eller ej (Type III SS). Spørgsmål 5 Forklar hvorfor en lineær regression af igf1 overfor alder ville være misvisende, hvis man analyserede hele materialet på en gang. Læg mærke til fortegnet! igf1 stiger med alderen for de små og falder med alderen for de voksne. Hvis man blander dem sammen får man en næsten vandret regressionslinje, som selvfølgelig slet ikke beskriver data. I har vel husket at tegne!? (se næste side) Spørgsmål 6 Udvid analysen i spørgsmål 4 til en multipel regressionsanalyse, idet højde, vægt og BMI = vægt/højde 2 inddrages. Her skal man lige først ind i Data/Transform og udføre beregningen af bmi = weight/(height/100)**2 NOTE: Due to missing values, only 6 observations can be used in this analysis. 5 20.764128 4.1528257 0.91 0.4901 0 17.498018 4.582767 Corrected Total 5 158.262401 0.11201 15.00666 2.140859 14.26606 age 1 16.8605065 16.8605065.58 0.068 sex 1 0.00000008 0.00000008 0.00 0.9999 height 1 2.5466890 2.5466890 0.56 0.4618 weight 1 1.440276 1.440276 0.1 0.5789 bmi 1 0.886094 0.886094 0.08 0.770 age 1 16.078881 16.078881.50 0.0712 sex 1 1.751010 1.751010 0.8 0.5412 height 1 0.21285905 0.21285905 0.05 0.808 weight 1 0.50556028 0.50556028 0.11 0.7421 bmi 1 0.886094 0.886094 0.08 0.770 Parameter Estimate t Value Pr > t Intercept 1.41710988 B 72.628872 0.4 0.6684 age -0.0669517 0.0579197-1.87 0.0712 sex 1-0.9184848 B 1.47848712-0.62 0.5412 height -0.0946297 0.4910620-0.22 0.808 weight 0.19709090 0.5942815 0. 0.7421 bmi -0.4769516 1.6849214-0.29 0.770 4

Figur 1: Hele Juul-materialet. Det ses at der ikke er noget der bliver signifikant. Type I kvadratsummerne kan bruges til successiv modelreduktion. Men hov!: Alderen ser heller ikke ud til at være signifikant nu. Lige før var den klart signifikant! Hvordan gik det til? Sagen er at variansanalyseskemaet beregnes på de data der indgår i den fulde model, og der indgår kun 6 observationer i den mod 122 nå vi kun ser på alder og køn. Vægt og højde er kun registreret på et fåtal af personerne. Det er en effekt man skal være på vagt overfor, især når man har mange kovariater. 5