Vejledende besvarelse af hjemmeopgave, forår 2016

Størrelse: px
Starte visningen fra side:

Download "Vejledende besvarelse af hjemmeopgave, forår 2016"

Transkript

1 Vejledende besvarelse af hjemmeopgave, forår 2016 Udleveret 1. marts, afleveres senest ved øvelserne i uge 13 (29. marts-1. april) Denne opgave fokuserer på at beskrive niveauet af hormonet AMH (højt niveau af dette afspejler mange umodne follikler i æggestokkene, og dermed høj fertilitet). Specielt ønsker vi at se på afhængigheden af alder, samt effekten af P-pille indtagelse. På hjemmesiden ligger data fra 732 (ikke 736, som der stod i opgaven) kvinder, med i alt 6 variable. Forslag til variabelnavne er angivet i 1. linie, og betydningen af disse er: idnr: Kvindens løbenummer, observationsnummer alder: Kvindens alder amh: Koncentrationen af hormonet AMH, i pmol/l ppiller: Tager kvinden P-piller: (0=nej, 1=ja) rygning: Ryger kvinden: (0=nej, 1=ja) bmi: Body mass index, i 3 grupper: (underv, normal, overv) Reference: JG Bentzen et. al. (2012): Ovarian reserve parameters: a comparison between users and non-users of hormonal contraception. Reproductive BioMedicine Online, 25, Opgaven er at udtale sig om niveauet af hormonet AMH, samt forklarende variable til beskrivelse af dette, se også den indledende tekst til opgaven. Der er i nedenstående besvarelse ikke udeladt nogen observationer. Der er anvendt ods graphics i mange sammenhænge, hvor det (for nogle) ikke vil være nødvendigt at skrive dette. 1

2 1. Beskriv fordelingen af AMH, opdelt efter om kvinden tager P-piller eller ej: Først skal vi jo have læst data ind, og det gør vi direkte fra hjemmesiden: data a1; infile " URL firstobs=2; input idnr alder amh ppiller bmi$ rygning; logamh=log10(amh); ung=(alder<35); (a) Lav først en grafisk illustration. Da vi har rigtigt mange observationer, vil et scatterplot nok blive lidt uoverskueligt, så vi starter med at se på boxplot af AMH, opdelt efter variablen ppiller: ods graphics on; proc sgplot data=a1; vbox amh / group=ppiller; ods graphics off; Disse boxplots viser tydeligt, at fordelingen af AMH er skæv, med hale mod de høje værdier. Hvis vi bare skulle sammenligne fordelingerne, behøvede dette ikke at betyde så meget, men når vi skal konstruere normalområder er det fatalt med en sådan udtalt skævhed. 2

3 Vi forsøger derfor at opnå bedre tilpasning til normalfordelingen ved at logaritmere AMH, som vist i indlæsningsbidden ovenfor. Her er anvendt 10-tals logaritmer. Herefter laver vi et nyt boxplot: ods graphics on; proc sgplot data=a1; vbox logamh / group=ppiller; ods graphics off; På denne logaritmiske skala ser fordelingen en del mere symmetrisk ud, dog nu med tegn på hale mod de lave værdier, således at en normalfordeling heller ikke passer helt perfekt på denne skala. Vi kan også vurdere det ved hjælp af fraktildiagrammer, igen for hver P-pille gruppe for sig. Dette gøres faktisk lettest ved at benytte sig af de automatiske plots fra et T-test til sammenligning af de to gruppers middelværdi, selv om dette egentlig først hører til i næste spørgsmål. ods graphics on; proc ttest plots=all data=a1; class ppiller; var logamh; ods graphics off; Herved får vi (bl.a.) plottene 3

4 Disse fraktildiagrammer viser også ret tydeligt en afvigelse fra normalfordelingen, da begge kurver ligner omvendte hængekøjer svarende til overtransformation. Dette husker vi lige til det senere spørgsmål 1c. (b) Udregn dernæst passende valgte summary statistics, som om du skulle lave en Tabel 1 til en artikel, og forklar kort hvorfor du vælger netop disse. I en sædvanlig Tabel 1 går det ud på at præsentere sit datamateriale, og hvis fokus er på indtagelsen af P-piller, vil man ofte opdele i de to grupper. Hvis man udregner summary statistics uden at specificere nærmere, hvilke størrelser, man vil fokusere på, kan man bruge koden nedenfor, med tilhørende output proc means data=a1; class ppiller; var alder amh logamh; The MEANS Procedure N ppiller Obs Variable N Mean Std Dev Minimum Maximum alder amh logamh

5 1 228 alder amh logamh Til beskrivelse af skæve fordelinger (som AMH) er gennemsnittet imidlertid ikke altid optimalt, og SD er svært at anvende til noget. Desuden er minimum og maximum ikke gode, hvis man vil sammenligne de to grupper, da de har vidt forskellig størrelse (ekstremerne bliver mere ekstreme i store samples). Vi fjerne derfor minimum og maximum, men supplerer med medianen: proc means N mean median stddev data=a1; class ppiller; var alder amh logamh; The MEANS Procedure N ppiller Obs Variable N Mean Median Std Dev alder amh logamh alder amh logamh Ser vi på selve den utransformerede AMH, ses gennemsnittet at være en del større end medianen, svarende til den højreskæve fordeling, vi så ovenfor. Vi bør derfor præsentere medianen som det bedste udtryk for en typisk værdi af AMH. For den logaritmerede AMH (logamh) ses meget bedre overensstemmelse mellem median og gennemsnit, svarende til de rimeligt pæne boxplots og fraktildiagrammer ovenfor. På denne skal tør vi derfor godt angive gennemsnit og spredninger, og også evt. normalområder, som vi udregner nedenfor. Vi kunne dog også vælge at præsentere medianer og kvartiler i stedet, samt fordelingen af BMI og rygning: 5

6 proc means N median Q1 Q3 data=a1; class ppiller; var alder amh logamh; proc freq data=a1; tables ppiller*rygning ppiller*bmi / nopercent nocol; der giver outputtet The MEANS Procedure N Lower Upper ppiller Obs Variable N Median Quartile Quartile alder amh logamh alder amh logamh The FREQ Procedure Table of ppiller by rygning ppiller rygning Frequency Row Pct 0 1 Total Total Table of ppiller by bmi ppiller bmi Frequency Row Pct normal overv underv Total Total

7 Herefter kunne vi sammenfatte til en mulig Tabel 1 : N=228 N=504 Gruppe P-piller JA P-piller NEJ median (Q1-Q3) median (Q1-Q3) AMH (10.65, 30.60) (10.71, 32.85) Alder 29.2 (26.9, 32.6) 33.7 (30.9, 36.9) Antal (procent) Antal (procent) Undervægtig 4 (1.75%) 13 (2.58%) Normalvægtig 180 (78.95%) 383 (75.99%) Overvægtig 44 (19.30%) 108 (21.43%) Rygere 48 (21.05%) 103 (20.44%) Ikke-rygere 180 (78.95%) 401 (79.56%) (c) Udregn herefter et normalområde (referenceområde) for hver gruppe for sig, baseret på en normalfordelingsantagelse, på passende valgt skala. Det er klart, at vi på baggrund af overvejelserne ovenfor vælger at udregne normalområder på logaritmisk skala, fordi vi her bedst kan forsvare en normalfordelingsantagelse. Vi benytter derfor gennemsnit og spredninger af de logaritmerede værdier, som udregnet ovenfor, og benytter den velkendte formel: Derved finder vi gennemsnit ± 2 spreding Ikke P-pille brugere: ± = (0.5336, ) P-pille brugere: ± = (0.5142, ) men disse grænser er jo på log 10 -skala, så vi må tilbagetransformere dem for at kunne forstå dem. Vi tilbagetransformerer endepunkterne af intervallet ved at benytte tallene som tier-potenser: 7

8 Ikke P-pille brugere : ( , ) = (3.42, 98.99) pmol/l P-pille brugere : ( , ) = (3.27, 92.17) pmol/l Hvis vi sammenligner disse normalområder med Boxplottene fra spørgsmål 1, ser vi, at de går meget langt op mod de høje værdier i forhold til, hvad man umiddelbart ville gætte på. Dette skyldes afvigelsen fra normalfordelingen, og vi prøver derfor at regne normalområder ud direkte ved hjælp af fraktiler i stedet for. For at få 95% normalområder, skal vi bruge 2 1%- og 97 1 %- fraktilen: 2 2 proc univariate noprint data=a1; class ppiller; var amh; output out=spm1c pctlpts= pctlpre=frak_ pctlname=lower upper; proc print data=spm1c; hvorved vi får outputtet frak_ frak_ Obs ppiller lower upper Vi ser, at disse normalområder, udregnet direkte ud fra fraktilerne, er en del smallere end de normalfordelingsbaserede, specielt har de lavere højre-endepunkter. Dette skyldes formentlig en håndfuld af de mindste AMH-koncentrationer, der gør den logaritmerede fordeling en smule skæv med hale mod venstre. Der vil blive kommenteret lidt på dette igen senere i besvarelsen. (d) Kan man sige, at det er usædvanligt at træffe på en kvinde med et AMH niveau på 100 pmol/l, hvis hun ikke tager P-piller? 8

9 En kvinde, der ikke tager P-piller, vil altså typisk (med 95% sandsynlighed, hvis normalfordelingsantagelsen holder) have en AMHkoncentration under 99 pmol/l, så hvis hendes koncentration måles til 100 pmol/l, er hun en smule usædvanlig. Hvis vi sammenligner med normalområderne udregnet ud fra empiriske fraktiler, er hun endnu mere usædvanlig, da disse grænser kun går op til Der er dog her ikke taget hensyn til kvindens alder, og man kunne godt forestille sig, at værdien 100 pmol/l var mindre usædvanlig, hvis det drejede sig om en ung kvinde. 2. Lav en passende illustration til sammenligning af AMH hos kvinder, der tager hhv. ikke tager P-piller, og foretag et test for identitet af middelværdierne i de to fordelinger, igen på passende valgt skala: Her betyder skalaen ikke helt så meget som da vi lavede normalområder ovenfor, men alligevel vil vi blive på logaritmeskala. Vi har allerede set box-plottet ovenfor ods graphics on; proc sgplot data=a1; vbox logamh / group=ppiller; ods graphics off; 9

10 (a) Er der evidens for forskel på middelværdierne i de to grupper? Da der er tale om to grupper, der intet har med hinanden at gøre, og da vi med rimelighed kan arbejde i normalfordelingen, bliver der her tale om et uparret T-test: ods graphics on; proc ttest plots=all data=a1; class ppiller; var logamh; ods graphics off; hvorved vi får outputtet The TTEST Procedure Variable: logamh ppiller N Mean Std Dev Std Err Minimum Maximum Diff (1-2) ppiller Method Mean 95% CL Mean Std Dev Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F Vi bemærker, at der ikke er tegn på forskellige varianser i de to grupper, og det er derfor ligeyldigt, hvilket T-test, vi vælger at se på. De giver i øvrigt også næsten præcis det samme, nemlig en P-værdi på 0.39, altså ingen evidens for forskel i AMH blandt brugere og ikke-brugere af P-piller. (b) Angiv estimatet (med 95% konfidensinterval) for effekten af P- piller på AMH, i form af en procentuel nedsættelse af AMH hos 10

11 P-pille brugere. Kan der tænkes at være betydelige forskelle? Estimat og konfidensinterval for forskelle i niveau for AMH aflæses direkte af outputtet ovenfor, og det angiver forskellen ikke-p-pille brugere minus P-pille brugere. Det er , med CI=( , ), men det er jo på logaritmeskala, så vi må tilbagetransformere: = 1.06, CI = ( , ) = (0.93, 1.21) Måske er det mere naturligt at udregne det den anden vej, altså P-pille brugere i forhold til ikke P-pille brugere, og så skal vi skifte fortegn: = 0.94, CI = ( , ) = (0.83, 1.08) Her læser vi, at P-pille brugere i gennemsnit har et ca. 6% reduceret niveau af AMH, men at konfidensintervallet strækker sig lige fra en reduktion på ca. 17% til et forøget niveau på omkring 8%. Det lyder som en ret betydelig potentiel forskel i mine ører... (c) Kunne aldersforskelle tænkes at spille en rolle ved denne sammenligning? Umiddelbart ja, da P-pille brugere formentlig er yngre end ikke-ppille brugere. Det så vi faktisk allerede ovenfor i forbindelse med summary statistics i spørgsmål 1b, men nedenfor ser vi det også ud fra et boxplot af alderen i de to grupper: ods graphics on; proc sgplot data=a1; vbox alder / group=ppiller; ods graphics off; 11

12 Det betyder, at alderen kan være en confounder for P-pille brug, hvis altså alderen også har en effekt på niveauet af AMH. Og det har den, som vi skal se nedenfor. 3. Er der evidens for aldersforskel mellem P-pille brugere og ikke P-pille brugere? Kvantificer forskellen, med konfidensinterval, og kommenter igen på spørgsmål 2c i lyset af dette. Her ser vi på, om der er evidens for den forskel, vi ser på boxplottene ovenfor, og det udføres som et uparret T-test: ods graphics on; proc ttest plots=all data=a1; class ppiller; var alder; ods graphics off; hvorved vi får outputtet The TTEST Procedure Variable: alder ppiller N Mean Std Dev Std Err Minimum Maximum Diff (1-2) ppiller Method Mean 95% CL Mean Std Dev Diff (1-2) Pooled Diff (1-2) Satterthwaite

13 Method Variances DF t Value Pr > t Pooled Equal <.0001 Satterthwaite Unequal <.0001 Equality of Variances Method Num DF Den DF F Value Pr > F Folded F Her ses klart en signifikant aldersforskel på de to grupper (P < ), og den estimerede aldersforskel er 3.7 år, med et konfidensinterval på ca. (3.1, 4.3) år. 4. Hvis vi skiller ved 35 år, og kalder kvinderne hhv. gamle og unge, hvor stor en procentdel af materialet er så unge? Vi har i forbindelse med indlæsningen defineret variablen ung ved hjælp af sætningen ung=(alder<35); Bemærk, at kvinder på netop 35 år ved denne definition kommer til at tilhøre kategorien af gamle, altså ung=0. Bemærk endvidere, at hvis der var missing values for alder, så var man nødt til at supplere med en sætning såsom if alder<0 then ung=.; For at finde antallet af unge, tablellerer vi nu denne nye variabel: proc freq data=a1; table ung / list; hvorved vi får tabellen The FREQ Procedure Cumulative Cumulative ung Frequency Percent Frequency Percent

14 Af tabellen ovenfor fremgår det, at der er 504 unge ud af de 732 kvinder, svarende til 68.85%. (a) Foretag et χ 2 -test (eller Fishers eksakte test) for identitet af de to sandsynligheder. Dette spørgsmål er lidt uklart formuleret, med mindre, man læser lidt videre i spørgsmålet... Det drejer sig om sandsynligheden for at bruge P-piller, i hver af de to aldersgrupper. Vi opstiller derfor 2-gange-2 tabellen med aldersgrupperne som rækker og P-pille brug (ja/nej) som søjler. Desuden beder vi om et χ 2 -test (og dermed automatisk også et Fishers eksakt test) samt om diverse kvantificeringer af forskellen på de to sandsynligheder for at benytte P-piller. Herudover undertrykker vi søjleprocenter (nocol) og overall tabelprocenter (nopercent): proc freq data=a1; table ung*ppiller / nopercent chisq riskdiff relrisk nocol; hvorved vi får en hel del output, her lettere beskåret, idet bl.a. Column 1 Risk Estimates er slettet, fordi vi vil udtale os om sandsynligheden for at bruge P-piller og ikke sandsynligheden for ikke at bruge P-piller. The FREQ Procedure Table of ung by ppiller ung ppiller Frequency Row Pct 0 1 Total Total Statistics for Table of ung by ppiller 14

15 Statistic DF Value Prob Chi-Square <.0001 Likelihood Ratio Chi-Square <.0001 Continuity Adj. Chi-Square <.0001 Fisher s Exact Test Two-sided Pr <= P <.0001 Statistics for Table of ung by ppiller Column 2 Risk Estimates (Asymptotic) 95% (Exact) 95% Risk ASE Confidence Limits Confidence Limits Row Row Total Difference Difference is (Row 1 - Row 2) Odds Ratio and Relative Risks Statistic Value 95% Confidence Limits Odds Ratio Relative Risk (Column 1) Relative Risk (Column 2) Sample Size = 732 Vi bemærker, at sandsynlighederne for P-pille brug er estimeret til 14.04% for de gamle, men er helt oppe på 38.89% for de unge. Differensen er = 24.85%point Kan vi detektere en forskel på sandsynlighederne for at være P- pille bruger for unge og gamle? Såvel χ 2 -testet som Fishers eksakte test er helt enige om at forkaste hypotesen om ens sandsynligheder for P-pille brug i de to aldersgrupper, idet P-værdien er virkelig lille, P < (b) Angiv estimater med tilhørende konfidensgrænser for sammenligningen af sandsynlighederne for unge og gamle, dels i form af differensen på sandsynlighederne og dels i form af relativ risiko (og evt. odds ratio). Formuler også konklusionen i ord. 15

16 Differensen mellem de to sandsynligheder (nederste linie i Column 2 Risk Estimates), nærmere bestemt sandsynligheden for de unge minus sandsynligheden for de gamle, estimeres ganske rigtigt til 24.85%point, som vi også selv udregnede ovenfor. I outputtet får vi i tilgift 95% konfidensgrænser på dette tal, nemlig CI=(18.65%, 31.05%). Bemærk, at vi i denne aflæsning har skiftet fortegn på alle tallene, idet outputtet angiver differensen Row1 - Row2, som er den omvendte af den mere naturlige vej, som vi har valgt. Den relative risiko er ligeledes angivet som Row1 vs. Row2, og derfor er den (for Column 2, som stadig er den relevante at se på) mindre end 1, nemlig Vi skal altså invertere den for at få et mundret resultat: 1 = som betyder, at de unge har 2.77 gange større risiko for at være P-pille brugere, sammenlignet med de gamle. Konfidensgrænserne for dette tal fås ligeledes ved at invertere: 1 CI=(, 1 ) = (1.97, 3.89) Vi kunne slippe for denne invertering ved at bytte rundt på rækkerne i tabellen. Det vises nedenfor. Hvis vi i stedet benytter odds ratio, får vi estimatet 3.90, med CI=(2.58, 5.90). Dette tal angiver, at de unge har næsten 4 gange så høje odds for at være P-pille brugere, sammenlignet med de gamle. Bemærk, at odds ratio i dette tilfælde afviger en del fra den relative risiko på 2.77, og det skyldes, at P-pille brug ikke er et sjældent fænomen. Hvis vi skal bytte om på rækkerne i tabellen, gøres det nemt ved at definere aldersgrupperne omvendt, altså som gammel=(alder ge 35); Bemærk, at vi ikke skriver gammel=(alder > 35); 16

17 idet kvinder på præcis 35 år i så tilfælde ville blive defineret som unge, hvorved vi altså ikke ville få det samme resultat som ovenfor. Med denne nye variabel får vi nedenstående output The FREQ Procedure Table of gammel by ppiller gammel ppiller Frequency Row Pct 0 1 Total Total Statistics for Table of gammel by ppiller Statistic DF Value Prob Chi-Square <.0001 Likelihood Ratio Chi-Square <.0001 Continuity Adj. Chi-Square <.0001 Fisher s Exact Test Two-sided Pr <= P <.0001 Statistics for Table of gammel by ppiller Column 2 Risk Estimates (Asymptotic) 95% (Exact) 95% Risk ASE Confidence Limits Confidence Limits Row Row Total Difference Difference is (Row 1 - Row 2) Odds Ratio and Relative Risks Statistic Value 95% Confidence Limits Odds Ratio Relative Risk (Column 1) Relative Risk (Column 2) Sample Size =

18 Som man kan se af den nederste del af output, har vi herved fået inverteret den relative risiko (og i øvrigt odds ratio). Ellers er outputtet ret uforandret. 5. Tegn nu (de passende transformerede) værdier af AMH op mod kvindens alder, med symboler svarende til P-pille brug, og indlæg regressionslinier for hver gruppe for sig. Da vi tidligere har set en tendens til skævhed i fordelingen af AMH, vil vi forvente, at vi også her skal anvende logaritmerede værdier. Her benytter vi proc sgplot til at lave figuren: ods graphics on; proc sgplot data=a1; reg Y=logamh X=alder / group=ppiller; ods graphics off; som giver en figur med røde og blå symboler for hhv. P-pille brugere og ikke-p-pille brugere, og med regressionslinier med tilsvarende farve: Vi bemærker en faldende tendens i den logaritmerede værdi af AMH, en tendens, der ser ret ens ud for de to grupper. Vi bemærker også, at de røde observationer generelt ligger længere til venstre i plottet, svarende til, at P-pille brugere generelt er lidt yngre end ikke-p-pille brugere (som vi allerede så det i tabel 1). 18

19 Vi ser endvidere, at der er en række observationer, der falder ret langt under linierne (igen en afspejling af den skæve fordeling), og nogle af disse kunne evt. gå hen og være indflydelsesrige. Men udover dette, ser antagelserne til brug for en regressionsanalyse fornuftig ud: Residualerne er nogenlunde symmetriske omkring de respektive linier, og variansen er nogenlunde konstant. Vi tager modelkontrollen (tegningerne) i forbindelse med spørgsmål 5b. (a) Kvantificer det forventede procentuelle fald i AMH svarende til en forøgelse af alderen på 5 år, for hver af de to grupper for sig, og kommenter på resultatet. Vi kan se af figuren ovenfor, at der er tale om et fald med alderen, men for at kvantificere dette, er vi nødt til at lave en lineær regressionsanalyse, her i proc glm. For at kunne gøre det for hver gruppe for sig, sorterer vi først datasættet, så alle ppiller=0 kommer først, efterfulgt af ppiller=1. proc sort data=a1; by ppiller; ods graphics on; proc glm data=a1; by ppiller; model logamh=alder / clparm; estimate "fald på 5 aar" alder 5; estimate "niveau ved alder 30" intercept 1 alder 30; ods graphics off; Herved får vi rigtigt meget output, og det er beskåret temmeligt kraftigt nedenfor: ppiller=0 The GLM Procedure Number of Observations Read 504 Number of Observations Used 504 Dependent Variable: logamh R-Square Coeff Var Root MSE logamh Mean

20 Standard Parameter Estimate Error t Value Pr > t fald på 5 aar <.0001 niveau ved alder <.0001 Parameter 95% Confidence Limits fald på 5 aar niveau ved alder Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 alder <.0001 Parameter 95% Confidence Limits Intercept alder ppiller=1 The GLM Procedure Number of Observations Read 228 Number of Observations Used 228 Dependent Variable: logamh R-Square Coeff Var Root MSE logamh Mean Standard Parameter Estimate Error t Value Pr > t fald på 5 aar <.0001 niveau ved alder <.0001 Parameter 95% Confidence Limits fald på 5 aar niveau ved alder Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 alder <.0001 Parameter 95% Confidence Limits Intercept alder Hældningen i disse regressionsanalyser kvantificerer det forventede årlige fald i log 10 (AMH), men vi ønsker at kvantificere effekten af 5 år. Det kunne vi opnå ved simpelthen at gange (såvel estimat som tilhørende konfidensinterval) med 5, men for at indøve bruges af estimate-sætninger, er der her lavet en, der blot foretager denne gangning med 5 (se koden over regressionsoutputtet ovenfor). 20

21 Herved ser vi, at effekten af 5 år kan opsummeres som i nedenstående tabel, der også tilbagetransformerer effekten til original skala: Gruppe Effekt af 5 år på log 10 -skala Tilbagetransformeret effekt Ikke P-pille brugere ( , ) 0.70 (0.64, 0.76) P-pille brugere ( , ) 0.62 (0.55, 0.69) Fortolkningen er, at for P-pille brugere falder AMH-niveauet med 38% på 5 år (faktoren 0.62), medens der for ikke P-pille brugere kun er tale om et fald på 30% (faktoren 0.7). Konfidensintervallerne er dog noget overlappende, så vi kan ikke umiddelbart udtale os om, hvorvidt de er signifikant forskellige. (b) Er der evidens for forskelle i alderseffekten i de to grupper? For at undersøge dette, skal vi først gøre os klart, at spørgsmålet går på, om de to hældninger ovenfor er signfikant forskellige, altså om alderseffekten afhænger af, om man er P-pille bruger eller ej. Dette er netop spørgsmålet om, hvorvidt der er interaktion mellem variablene ppiller og alder, eller ej. For at undersøge dette, bygger vi en samlet model for alle kvinder, med to forskellige hældninger, dvs. med effekter af såvel ppiller, alder samt interaktionen ppiller*alder. Samtidig laver vi nogle modelkontroltegninger, fordi modellen nu er blevet en anelse for kompliceret til at kunne vurderes ud fra det indledende plot. ods graphics on; proc glm plots=(diagnosticspanel Residuals(smooth)) data=a1; class ppiller; rygning; model logamh = alder ppiller ppiller*alder / solution clparm; estimate P-piller nej, 30 aar intercept 1 alder 30 ppiller 1 0 alder*ppiller 30 0; estimate P-piller ja, 30 aar intercept 1 alder 30 ppiller 0 1 alder*ppiller 0 30; estimate differens ved 30 aar ppiller 1-1 alder*ppiller 30-30; output out=ny p=yhat r=residual cookd=cook; ods graphics off; 21

22 Herved får vi rigtigt meget output, og igen er det noget beskåret: The GLM Procedure Class Level Information Class Levels Values ppiller Number of Observations Read 732 Number of Observations Used 732 Dependent Variable: logamh R-Square Coeff Var Root MSE logamh Mean Source DF Type III SS Mean Square F Value Pr > F alder <.0001 ppiller alder*ppiller Standard Parameter Estimate Error t Value Pr > t P-piller nej, 30 aar <.0001 P-piller ja, 30 aar <.0001 differens ved 30 aar <.0001 Parameter 95% Confidence Limits P-piller nej, 30 aar P-piller ja, 30 aar differens ved 30 aar Standard Parameter Estimate Error t Value Pr > t Intercept B <.0001 alder B <.0001 ppiller B ppiller B... alder*ppiller B alder*ppiller B... Parameter 95% Confidence Limits Intercept alder ppiller ppiller 1.. alder*ppiller alder*ppiller 1.. Testet for ens hældninger aflæses på linien alder*ppiller, og P- værdien ses at være 0.11, altså ingen signifikans. I hvert fald ikke, hvis vi holder os til et 5% signifikansniveau. 22

23 Vi kan således ikke i dette materiale påvise en forskel i alderseffekt for de to grupper, omend der synes at være tendens til en større effekt i P-pille gruppen. Der er dog nogen, der er fortalere for at bibeholde interaktioner (vel at mærke sådan nogle, som man på forhånd har noteret interesse for), som har P-værdier under 0.15, og i så fald skal vi ikke smide ppiller*alder ud... I hvert fald skal vi nu lige se på modelkontrol af denne model med to ikke-parallelle linier. Denne er lavet ved hjælp af option plots=(diagnosticspanel Residuals(smooth)) i ovenstående kørsel, og vi finder figurerne Vi ser ikke her nogen særlige tegn på problemer med modelanta- 23

24 gelserne, i hvert fald ikke udover tendensen til en hale med små residualer, som vi allerede tidligere har bemærket. Dette bør dog ikke give anledning til bekymring her. Vi fortsætter først opgavebesvarelsen med interaktionen ppiller*age, men ser også efterfølgende på, hvordan den videre analyse ville se ud, hvis interaktionen blev udeladt af modellen. Den estimerede forskel i hældninger (P-pille brugere vs. ikke P- pille brugere) er ret vanskelig at fortolke. Den estimeres til ( , ), og svarende til 5 år bliver det (som angivet i estimate-sætningen) til , med CI=( , ). Når vi tilbagetransformerer denne differens, får vi = 0.886, svarende til, at P-pille brugere falder med 11.4% oveni det fald, som P-pille brugere oplever (0.62=0.7*0.886). Konfidensintervallet bliver ( , ) = (0.763, 1.265), således at det også kan tænkes, at P-pille brugerne oplever et mindre fald end ikke-p-pille brugere. (c) Hvor stor er den forventede forskel i AMH for P-pille brugere og ikke-p-pille brugere, ved en alder på 30 år? Dette spørgsmål relaterer sig til en forskel i selve niveauet af AMH, og vi benytter estimate-sætningen i koden ovenfor. estimate differens ved 30 aar ppiller 1-1 alder*ppiller 30-30; Begrundelsen for denne noget komplicerede estimate-sætning er som følger: Niveau for: P-pille brugere ved alder 30 år: α 1 + β 1 30 Ikke-P-pille brugere ved alder 30 år: α 0 + β 0 30 Forskel: Forskel: P-pille minus ikke-p-pille brugere: (α 1 α 0 )+(β 1 β 0 ) 30 Output fra denne estimate-sætning bliver 24

25 Standard Parameter Estimate Error t Value Pr > t differens ved 30 aar <.0001 Parameter 95% Confidence Limits differens ved 30 aar Vi finder altså en estimeret forskel på i ikke P-pille brugernes favør, med CI=(0.0818, ). Dette skal også tilbagetransformeres til selve koncentrationsskalaen, og giver så den estimerede ratio = 1.38, med konfidensinterval ( , ) = (1.21, 1.59) Dette skal fortolkes som, at ikke-p-pille brugere ved 30-års alderen ligger 38% højere end P-pille brugerne, med konfidensinterval fra 21% til 59% over. Hvis vi ønsker at udtale os den omvendte vej, skal vi skifte fortegn, og har så forskellen , med CI=( , ). Når vi tilbagetransformerer dette til selve koncentrationsskalaen, får vi den estimerede ratio til = 0.72, med konfidensinterval ( , ) = (0.63, 0.83) Dette skal fortolkes som, at P-pille brugere ved 30-års alderen ligger 28% lavere end ikke-p-pille brugerne, med konfidensinterval fra 17% til 37% under. Forklar forskellen til resultatet fra spørgsmål 2b. I spørgsmål 2b fik vi en væsentlig mindre forskel mellem de to grupper, nemlig at P-pille brugere i gennemsnit har et ca. 6% reduceret niveau af AMH, med et konfidensintervallet fra 17% under til 8% over, og med en P-værdi på Grunden til, at vi nu kan se en forskel på de to grupper (P-piller ja/nej) skyldes to ting: Confounding fra alderen: Den direkte sammenligning af de to grupper med T-test i spørgsmål 2b sammenligner unge P- pille brugere med lidt ældre ikke-p-pille brugere (niveauerne ved de to lodrette streger i plottet nedenfor, som angiver aldersgennemsnittene). P-pille brugerne har derfor nogenlunde 25

26 ligeså højt niveau som ikke-p-pille brugerne, fordi de er yngre. En noget mindre residualspredning, når kovariaten alder inddrages i modellen (s = i spm. 5b mod s = 0.365i spm. 2b). Vi sammenfatter i en tabel: Model Reduktion i AMH P-pille brugere vs. ikke P-pille brugere P-værdi T-test (spm. 2b) -6% (-17%, +8%) 0.39 Med interaktion (spm 5b) -28% (-37%, -17%) < Uden interaktion (spm 5b) -30% (-38%, -20%) < (kommer senere) Nu ser vi på, hvad der var sket, hvis vi havde udeladt den insignifikante interaktion ppiller*age fra spørgsmål 5b: 26

27 ods graphics on; proc glm plots=(diagnosticspanel Residuals(smooth)) data=a1; class ppiller; rygning; model logamh = alder ppiller / solution clparm; ods graphics off; som giver os outputtet The GLM Procedure Class Level Information Class Levels Values ppiller rygning Number of Observations Read 732 Number of Observations Used 732 Dependent Variable: logamh R-Square Coeff Var Root MSE logamh Mean Source DF Type III SS Mean Square F Value Pr > F alder <.0001 ppiller <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept B <.0001 alder <.0001 ppiller B <.0001 ppiller B... Parameter 95% Confidence Limits Intercept alder ppiller ppiller

28 samt figuren Hvis vi her skal finde differensen mellem en P-pille bruger og en ikke-p-pille bruger på 30 år, så må vi erkende, at det med de 30 år er en ligegyldig information, idet der i denne model er lige stor forskel på sådan to personer, uanset hvilken alder, de har (fordi linierne er parallelle). Svaret er derfor at finde i selve estimatet for ppiller: , med CI=(0.0965, ). Ligesom tidligere, skal dette også tilbagetransformeres til selve koncentrationsskalaen, og giver så den estimerede ratio = 1.42, med konfidensinterval ( , ) = (1.25, 1.63) Dette skal fortolkes som, at ikke-p-pille brugere generelt ligger 42% højere end P-pille brugerne, med konfidensinterval fra 25% til 63% over. Hvis vi ønsker at udtale os den omvendte vej, skal vi skifte fortegn, og har så forskellen , med CI=( , ). Når vi tilbagetransformerer dette til selve koncentrationsskalaen, får vi den estimerede ratio til = 0.70, med konfidensinterval ( , ) = (0.62, 0.80) 28

29 Dette skal fortolkes som, at P-pille brugere ved 30-års alderen ligger 30% lavere end ikke-p-pille brugerne, med konfidensinterval fra 20% til 38% under. Der er ikke den helt store forskel til de værdier, vi fandt i modellen med interaktion. (d) Er der nogen indflydelsesrige observationer, vi bør se nærmere på og evt. udelade? I givet fald skal dette begrundes, og I kan evt. foretage en ny analyse. Nogen ændringer i konklusionen? I koden ovenfor havde vi output-sætningen output out=ny p=yhat r=residual cookd=cook; så det nye datasæt ny indeholder (bl.a.) variablen cook, der angiver indflydelsen af den enkelte observation på de 4 parameterestimater i modellen. Vi kan nu plotte Cooks afstand mod forskellige variable for at få en ide om, hvilke observationer, der har stor indflydelse. Vi plotter mod såvel alder som hormonniveauet AMH. ods graphics on; proc sgplot data=ny; scatter Y=cook X=alder / group=ppiller; ods graphics off; ods graphics on / imagename="spm5d2"; proc sgplot data=ny; scatter Y=cook X=amh / group=ppiller; ods graphics off; og får derved figurerne 29

30 Vi ser, at der er en enkelt observation med en meget stor indflydelse, samt måske et par stykker mere med en ret stor indflydelse. Observationen med den største indflydelse ses at være rød, svarende til en P-pille bruger, samt at have et meget lavt niveau af AMH. For at få mere information kan vi skrive ud, hvilke observationer, der har et højt niveau af Cooks afstand: proc print data=ny; where cook>0.02; r p r e p y l s a i g o i i l l n g y d c O d d a l b i a u h u o b n e m e m n m n a a o s r r h r i g h g t l k normal overv normal normal og her ser vi, at kvinden med den største indflydelse er en gammel (39.9 årig) P-pille bruger med et meget lavt niveau af AMH. Faktisk kunne man allerede se hende på scatterplottet helt fra starten. 30

31 (e) Lav passende figurer til belysning af residualernes fordeling, opdelt efter de to resterende variable: rygning og BMI-gruppe. Er der tegn på nogen sammenhænge her? Der er 3 bmi-grupper og 2 ryger-grupper, så i alt er der 6 grupper. Vi kan tegne Boxplots for hver af de 6 grupper under et ved hjælp af nedenstående konstruktion: proc sort data=ny; by bmi rygning; ods graphics on; proc sgplot data=ny; vbox residual / category=bmi group=rygning; ods graphics off; Der ses ikke nogen voldsomme tegn på forskelle mellem de 6 grupper, måske dog med undtagelse af en tendens til mindre residualer for de undervægtige (som der dog kun er 17 af i alt...). Det kunne altså tyde på, at de undervægtige har et lavere niveau af AMH end de øvrige. Vi vil gå videre med dette i næste spørgsmål. 6. Er der evidens for effekt af BMI på niveauet af AMH? Eller af rygning? 31

32 Vi bygger videre på modellen fra spørgsmål 5, og vi efterspørger således en sammenligning af personer med forskellig bmi (hhv rygning), men samme alder, samme P-pille gruppe og samme rygestatus (hhv. bmi). ods graphics on; proc glm plots=(diagnostics residuals(smooth)) data=a1; class ppiller bmi rygning; model logamh = alder ppiller ppiller*alder bmi rygning / solution clparm; ods graphics off; og får nedenstående output (igen beskåret) The GLM Procedure Class Level Information Class Levels Values ppiller bmi 3 normal overv underv rygning Number of Observations Read 732 Number of Observations Used 732 R-Square Coeff Var Root MSE logamh Mean Source DF Type III SS Mean Square F Value Pr > F alder <.0001 ppiller alder*ppiller bmi rygning Standard Parameter Estimate Error t Value Pr > t Intercept B <.0001 alder B <.0001 ppiller B ppiller B... alder*ppiller B alder*ppiller B... bmi normal B bmi overv B bmi underv B... rygning B rygning B... Parameter 95% Confidence Limits Intercept alder ppiller ppiller

33 alder*ppiller alder*ppiller 1.. bmi normal bmi overv bmi underv.. rygning rygning 1.. Det ses, at hverken bmi eller rygning er signifikante som sådan i ovenstående model (P=0.06 hhv. P=0.54), men bmi er dog tæt på. Ser vi nærmere på estimaterne for bmi, ses det, at de undervægtige har en tendens til at have et lavere hormon-niveau end de øvrige grupper, som vi netop så ovenfor i residualplottene. Man kunne fortsætte med at undersøge diverse interaktioner, men dette bør man kun gøre, hvis der er en formodning om en sådan interaktion, altså hvis man på forhånd har en forklaring på en sådan og har nedfældet den som en hypotese, man ville undersøge med dette materiale. I modsat fald er der tale om en fisketur, og så kan den kun give anledning til spekulationer, der senerehen skal vurderes i nye undersøgelser. Hvis vi udelader den insignifikante variabel rygning, har vi koden ods graphics on; proc glm plots=(diagnostics residuals(smooth)) data=a1; class ppiller bmi rygning; model logamh = alder ppiller ppiller*alder bmi / solution clparm; lsmeans bmi / adjust=tukey cl pdiff; ods graphics off; Bemærk den ekstra sætning til sammenligning af alle 3 bmi-grupper indbyrdes, med Tukey-korrektion for massesignifikans. Vi finder outputtet The GLM Procedure Class Level Information Class Levels Values ppiller bmi 3 normal overv underv rygning Number of Observations Read 732 Number of Observations Used

34 Dependent Variable: logamh R-Square Coeff Var Root MSE logamh Mean Source DF Type III SS Mean Square F Value Pr > F alder <.0001 ppiller alder*ppiller bmi Standard Parameter Estimate Error t Value Pr > t Intercept B <.0001 alder B <.0001 ppiller B ppiller B... alder*ppiller B alder*ppiller B... bmi normal B bmi overv B bmi underv B... Parameter 95% Confidence Limits Intercept alder ppiller ppiller 1.. alder*ppiller alder*ppiller 1.. bmi normal bmi overv bmi underv.. Least Squares Means Adjustment for Multiple Comparisons: Tukey-Kramer logamh LSMEAN bmi LSMEAN Number normal overv underv Least Squares Means for effect bmi Pr > t for H0: LSMean(i)=LSMean(j) Dependent Variable: logamh i/j logamh bmi LSMEAN 95% Confidence Limits normal overv underv

35 Least Squares Means for Effect bmi Difference Simultaneous 95% Between Confidence Limits for i j Means LSMean(i)-LSMean(j) Selv om bmi-grupperne stadig ikke adskiller sig signifikant fra hinanden overordnet set (P=0.06), finder vi en meget kneben signifikant forskel på overvægtige og undervægtige (gruppe 2 og 3), med P= efter Tukey-korrektion. Det tilhørende estimat for forskellen er med CI=( , ). Denne skal tilbagetransformeres: = 1.59, CI = ( , ) = (1.002, 2.54) Her læser vi, at overvægtige estimeres til et AMH-niveau, der ligger 59% over de undervægtige, men med meget brede konfidensgrænser. Nedenfor er vist en figur af de predikterede værdier (modellen), der nu består af 6 linier, der 3 og 3 er parallelle (bmi indgår ikke i nogen interaktion). Her ses de to nederste linier at svare til de undervægtige. 35

Vejledende besvarelse af hjemmeopgave, forår 2017

Vejledende besvarelse af hjemmeopgave, forår 2017 Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2018

Vejledende besvarelse af hjemmeopgave, efterår 2018 Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2018

Vejledende besvarelse af hjemmeopgave, forår 2018 Vejledende besvarelse af hjemmeopgave, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2017

Vejledende besvarelse af hjemmeopgave, efterår 2017 Vejledende besvarelse af hjemmeopgave, efterår 2017 Udleveret 3. oktober 2017, afleveres senest ved øvelserne i uge 44 (31. okt.-2. nov. 2017) På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_2/hjemmeopgave/hjemmeopgave.txt

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2015

Vejledende besvarelse af hjemmeopgave, efterår 2015 Vejledende besvarelse af hjemmeopgave, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. oktober) En undersøgelse blandt fødende kvinder i Massachusetts (ref.) søger

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke

Læs mere

Vejledende besvarelse af hjemmeopgave

Vejledende besvarelse af hjemmeopgave Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2015

Vejledende besvarelse af hjemmeopgave, forår 2015 Vejledende besvarelse af hjemmeopgave, forår 2015 En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls. På hjemmesiden

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter

Læs mere

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2016

Vejledende besvarelse af hjemmeopgave, efterår 2016 Vejledende besvarelse af hjemmeopgave, efterår 2016 Udleveret 4. oktober, afleveres senest ved øvelserne i uge 44 (1.-4. november) Normal aktivitet af enzymet plasma kolinesterase er en forudsætning for

Læs mere

Eksamen i Statistik for Biokemikere, Blok januar 2009

Eksamen i Statistik for Biokemikere, Blok januar 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer, Repetition, Kovariansanalyse, Interaktion Lene Theil Skovgaard 1. oktober 2018 Parret sammenligning af målemetoder,

Læs mere

Faculty of Health Sciences. Basal statistik. Logaritmer, Repetition, Kovariansanalyse, Interaktion. Lene Theil Skovgaard. 1.

Faculty of Health Sciences. Basal statistik. Logaritmer, Repetition, Kovariansanalyse, Interaktion. Lene Theil Skovgaard. 1. Faculty of Health Sciences Basal statistik Logaritmer, Repetition, Kovariansanalyse, Interaktion Lene Theil Skovgaard 1. oktober 2018 1 / 92 Logaritmer og kovariansanalyse Parret sammenligning af målemetoder,

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (

Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 ( Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (28.-30. oktober) En stor undersøgelse søger at afdække forhold

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

Faculty of Health Sciences. Basal statistik. Logaritmer, Repetition, Kovariansanalyse, Interaktion. Lene Theil Skovgaard. 12.

Faculty of Health Sciences. Basal statistik. Logaritmer, Repetition, Kovariansanalyse, Interaktion. Lene Theil Skovgaard. 12. Faculty of Health Sciences Basal statistik Logaritmer, Repetition, Kovariansanalyse, Interaktion Lene Theil Skovgaard 12. februar 2018 1 / 88 Logaritmer og kovariansanalyse Parret sammenligning af målemetoder,

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30.

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. oktober) En undersøgelse blandt fødende kvinder

Læs mere

Opgavebesvarelse, Basalkursus, uge 2

Opgavebesvarelse, Basalkursus, uge 2 Opgavebesvarelse, Basalkursus, uge 2 Opgave 1. Filen "space.txt" fra hjemmesiden ser således ud: salt pre post 1 71 61 1 65 59 1 52 47 1 68 65......... 0 52 77 0 54 80 0 52 79 Data indlæses i 3 kolonner,

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.txt på hjemmesiden indeholder datamateriale til belysning af forskellen i sædkvalitet mellem SAS-ansatte og mænd, der lever

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity I filen cadmium.txt ligger observationer fra et eksempel omhandlende lungefunktionen hos arbejdere i cadmium industrien (hentet fra P. Armitage & G. Berry: Statistical

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Opgavebesvarelse, korrelerede målinger

Opgavebesvarelse, korrelerede målinger Opgavebesvarelse, korrelerede målinger I 18 familier bestående af far, mor og 3 børn (i veldefinerede aldersintervaller, med child1 som det ældste barn og child3 som det yngste) har man registreret antallet

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity hentet fra P. Armitage & G. Berry: Statistical methods in medical research. 2nd ed. Blackwell, 1987. Spørgsmål 1: Indlæs data og konstruer en faktor (klassevariabel)

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer, Repetition, Kovariansanalyse, Interaktion Lene Theil Skovgaard 4. oktober 2016 Parret sammenligning, målemetoder med

Læs mere

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 7. februar 2017 Sammenligning af to grupper: T-test Dimensionering af undersøgelser

Læs mere

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017 Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 7. februar 2017 1 / 96 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2018

Vejledende besvarelse af hjemmeopgave, forår 2018 Vejledende besvarelse af hjemmeopgave, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2017

Vejledende besvarelse af hjemmeopgave, forår 2017 Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

CLASS temp medie; MODEL rate=temp medie/solution; RUN; Ugeopgave 2.1 Bakterieprøver fra patienter transporteres ofte til laboratoriet ved stuetemperatur samt mere eller mindre udsat for luftens ilt. Dette er især uheldigt for prøver som indeholder anaerobe

Læs mere

Opgavebesvarelse, logistisk regression

Opgavebesvarelse, logistisk regression Opgavebesvarelse, logistisk regression Data ligger i rop.xls på kursushjemmesiden: http://staff.pubhealth.ku.dk/ jufo/courses/logistic/ Når du har gemt data på din computer, kan det indlæses i SAS med

Læs mere

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse Sammenligning af to grupper: T-test Dimensionering af undersøgelser Sammenligning af flere end

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Besvarelse af juul2 -opgaven

Besvarelse af juul2 -opgaven Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium

Læs mere

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse Sammenligning af to grupper: T-test Dimensionering af undersøgelser Sammenligning af flere end

Læs mere

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 10. september / 116

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 10. september / 116 Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 10. september 2018 1 / 116 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering

Læs mere

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 12. september / 116

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 12. september / 116 Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 12. september 2017 1 / 116 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering

Læs mere

Regressionsanalyse i SAS

Regressionsanalyse i SAS Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse

Læs mere

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015 Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet

Læs mere

Afdeling for Anvendt Matematik og Statistik December 2006

Afdeling for Anvendt Matematik og Statistik December 2006 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 i SAS (Zar kapitel 23) PROC FREQ PROC CATMOD

Læs mere

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par

Læs mere

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. marts, afleveres senest ved øvelserne i uge 14 (2.-4.

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. marts, afleveres senest ved øvelserne i uge 14 (2.-4. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2013 Udleveret 12. marts, afleveres senest ved øvelserne i uge 14 (2.-4.april) I forbindelse med reagensglasbehandling blev 100 par randomiseret

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2018

Vejledende besvarelse af hjemmeopgave, efterår 2018 Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2007. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 8 sider.

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik Januar 2007 2 Regressionsanalyse med GLM Sammenligning af regressionslinier

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Basal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences

Basal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences Faculty of Health Sciences En- og to-stikprøve problemer One- and two-sample problems: Basal Statistik T-tests. Lene Theil Skovgaard 17. september 2013 1 / 67 Sammenligning af to situationer: Parret t-test

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 1. uge

Phd-kursus i Basal Statistik, Opgaver til 1. uge Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Wright For 17 patienter er der målt peak expiratory flow rate (maksimal udåndingshastighed, i l/min) på to forskellige måder, dels ved at anvende

Læs mere

Faculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013

Faculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013 Faculty of Health Sciences Basal Statistik T-tests. Lene Theil Skovgaard 17. september 2013 1 / 67 En- og to-stikprøve problemer One- and two-sample problems: Sammenligning af to situationer: Parret t-test

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 musekuld er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12 mus

Læs mere

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere. Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes

Læs mere

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1 (a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.sav på hjemmesiden indeholder datamateriale til belysning af forskellen i sædkvalitet mellem SAS-ansatte og mænd, der lever

Læs mere

Lineær og logistisk regression

Lineær og logistisk regression Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2006. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 6 sider.

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2018

Vejledende besvarelse af hjemmeopgave, efterår 2018 Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2017

Vejledende besvarelse af hjemmeopgave, efterår 2017 Vejledende besvarelse af hjemmeopgave, efterår 2017 Udleveret 3. oktober 2017, afleveres senest ved øvelserne i uge 44 (31. okt.-2. nov. 2017) På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_2/hjemmeopgave/hjemmeopgave.txt

Læs mere

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere