Vejledende besvarelse af hjemmeopgave, efterår 2018

Størrelse: px
Starte visningen fra side:

Download "Vejledende besvarelse af hjemmeopgave, efterår 2018"

Transkript

1 Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og deres helbredsforhold, og vi skal se på et par aspekter af dette. På hjemmesiden ligger oplysninger om 7 variable på 299 krigsveteraner (et udpluk af et meget større materiale), og disse er: idnr: Løbenummer for veteranen alder: Veteranens alder ved andersøgelsen (år) bpright: Systolisk blodtryk på højre arm (mm) bpleft: Systolisk blodtryk på venstre arm (mm) fev1: Lungefunktionsmål (l/min) ryger: 3 kategorier for rygning: current, never og ex alkuge: Antal genstande pr. uge I de første 4 spørgsmål fokuserer vi på blodtrykket i de to arme: 1. Er det rimeligt at vurdere forskellen på blodtrykket på højre og venstre arm ud fra differenser på selve blodtryks-skalaen? Eller skal forskellen måske hellere ses relativt til niveauet? Først definerer vi differensen af blodtrykket mellem de to arme (højre minus venstre), og ligeledes gennemsnittet af disse, for derefter at tegne et Bland-Altman plot: hj=read.table( " header=t) hj$dif=hj$bpright-hj$bpleft hj$bpsnit=(hj$bpright+hj$bpleft)/2 plot(hj$bpsnit, hj$dif, main="spm 1") abline(a=0, b=0, col="red",lty=1) 1

2 hvorved vi får figuren: SPM 1 hj$bpsnit hj$dif Da denne figur ikke viser udpræget tegn på noget mønster, men snarere et mere eller mindre vandret bånd, vil vi anse differensen for at være et udmærket udtryk for sideforskelle i blodtryk, da disse åbenbart er rimeligt ens over hele skalaen. Der synes dog at kunne spores en lille tendens til øget spredning for de højeste blodtryk, men en tilsvarende figur lavet efter logaritmetransformation viser stort set samme billede, så vi vil derfor ikke komplicere analyserne med at foretage logaritmetransformation. Desuden viser en figur af kvadratroden af de numeriske forskelle i blodtryk heller ikke nogen synderlig afhængighed af niveauet. Figuren er lavet således: scatter.smooth(hj$bpsnit,sqrt(abs(hj$dif)), lpars=list(col="red",lwd=2)) hvorved vi får: 2

3 hj$bpsnit sqrt(abs(hj$dif)) Bemærk, hvad der ikke spørges om i dette spørgsmål: Fordelingen af blodtryk på hver af siderne, og egentlig heller ikke noget om fordelingen af differenserne før i spørgsmål 2 (og endnu mere i spørgsmål 3). 2. Kvantificer forskellen i blodtryk på højre og venstre arm, med konfidensinterval. Er der signifikant forskel? Kan vi udelukke en middelforskel på 10 mm på de to sider? I lyset af svaret på ovenstående spørgsmål, arbejder vi videre med blodtrykket uden at transformere. Når vi skal sammenligne blodtrykket på højre og venstre side, skal vi derfor se på et parret T-test, eller blot et test for middelværdi 0 for differenserne. Vi udfører førstnævnte nedenfor, men checker lige først, om differenserne er rimeligt normalfordelte ved at tegne histogram og/eller fraktildiagram: hist(hj$dif) qqnorm(hj$dif) qqline(hj$dif) 3

4 Histogram of hj$dif hj$dif Frequency Normal Q Q Plot Theoretical Quantiles Sample Quantiles Da disse på ingen måde giver anledning til bekymring, fortsætter vi til T-testet: t.test(hj$bpright,hj$bpleft,paired=t) som giver outputtet: > t.test(hj$bpright,hj$bpleft,paired=t) Paired t-test data: hj$bpright and hj$bpleft t = , df = 298, p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of the differences Heraf aflæser vi: Forskellen på blodtrykket på højre og venstre side estimeres til 1.38 mm, med konfidensinterval CI=(0.59 mm, 2.17 mm). Forskellen er signifikant, idet konfidensintervallet ikke indeholder 0. P-værdien angives til P= En forskel på 10 mm (til en af siderne) falder langt udenfor konfidensintervallet, så ja, det kan vi udelukke. 4

5 Bemærk, at der i dette spørgsmål ikke bør siges noget om hverken fordelingen af blodtryk på hver af de to sider, og der bør helt sikkert heller ikke laves et uparret T-test! Ligeledes har normalområdet ingen plads her, det kommer først i spørgsmål I ambulatoriet har vi en veteran, der har et blodtryk på 135 mm på højre side, men kun 122 på venstre side. Er det så usædvanligt, at der må laves en nærmere undersøgelse af dette individ? Forskellen på de to sider ses her at være 13 mm (højre er højest, derfor en positiv differens i henhold til definitionen), og spørgsmålet er, om dette er usædvanligt? For at svare på dette, skal vi udregne et normalområde for differensen, og til dette skal vi bruge gennemsnit og spredning (da vi tidligere har set, at fordelingen af differenserne ser rigtigt pænt normalfordelte ud). Vi udregner normalområdet som > mean(hj$dif)+c(-2,0,2)*sd(hj$dif) [1] eller med den præcise fraktil (det korrekte 2-tal ): > mean(hj$dif)+qt(0.975,298)*c(-1,0,1)*sd(hj$dif) [1] Ud fra dette normalområde kan vi se, at det ikke er voldsomt ekstremt at have et 13 mm højere blodtryk på højre side end på venstre side. Hvis vi ikke rigtigt tør tro på normalfordelingsantagelsen, kan vi i stedet udregne de empiriske fraktiler: quantile(hj$dif, probs = c(0.025,0.05,0.95,0.975)) hvorved vi får outputtet: > quantile(hj$dif, probs = c(0.025,0.05,0.95,0.975)) 2.5% 5% 95% 97.5%

6 Her ser vi samstemmende, at sideforskellen på 13 mm (med det største på højre side) ikke er ekstremt. Hvis det have været omvendt, så det var venstre side, der lå 13 mm højere end højre side, så ville det faktisk være lidt usædvanligt... Bemærk, at det i dette spørgsmål er helt forkert at benytte konfidensinterval til at vurdere enkeltpersoner! 4. Lav en gruppering af personerne, baseret på, om den numeriske differens på blodtrykket overstiger 10 mm eller ej (kald f.eks. variablen sideforskel, med værdierne stor/lille). Undersøg, om et alkoholforbrug på 10 genstande eller derover pr. uge (her kaldet drankere) giver større risiko for en stor sideforskel. Kan risikoen ligefrem være fordoblet hos drankere? Vi skal lave nogle nye variable ved at dikotomisere (Bemærk, at jeg i nedenstående har ladet en numerisk sideforskel på 10 betyde stor. En del af jer har ladet denne værdi været lille og får så nogle lidt andre antal): hj$dranker=as.numeric(hj$alkuge>=10) hj$side <- findinterval(abs(hj$dif), c(10)) hj$sideforskel <- factor(hj$side,levels=0:1, labels=c("lille", "stor")) og herefter ser vi på sammenhængen mellem det at være dranker (jeg beklager den noget overdrevne sprogbrug) og det at have en stor sideforskel, i form af en to-gange-to tabel: spm4=table(hj$dranker,hj$sideforskel) Først ser vi på tabellen med tilhørende rækkeprocenter: spm4 prop.table(spm4,1)*100 6

7 som giver outputtet > spm4 lille stor > prop.table(spm4,1)*100 lille stor Af rækkeprocenterne ses, at risikoen for stor sideforskel er 19.05% for folk, der ikke er drankere, men kun 13.24% for drankere, så umiddelbart går forskellen i den modsatte retning af forventet (ud fra spørgsmålets ordlyd). Et test for uafhængighed (ingen forskel på drankere og ikke-drankere) giver > chisq.test(spm4) Pearson s Chi-squared test with Yates continuity correction data: spm4 X-squared = , df = 1, p-value = og dermed ingen signifikant forskel. Det er ikke nødvendigt at lave et eksakt test, da de forventede værdier her på ingen måde er lave: > chisq.test(spm4)$expected lille stor men derfor kan vi jo godt gøre det alligevel: > fisher.test(spm4) Fisher s Exact Test for Count Data 7

8 data: spm4 p-value = alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: sample estimates: odds ratio og vi bekræftes da også i, at der ikke er nogen forskel at finde (P=0.37). Kan vi så udelukke at der kan være en sammenhæng? Næh, men vi kan kvantificere den mulige sammenhæng, f.eks. ved at udregne den relative risiko for stor sideforskel, for drankere (1, nederste række nedenfor) vs. ikke-drankere (0, øverste række nedenfor). Denne udregning kræver pakken epitools: install.packages("epitools") library("epitools") epitab(spm4,method="riskratio") hvorved vi får: > epitab(spm4,method="riskratio") $tab lille p0 stor p1 riskratio lower upper p.value NA NA NA $measure [1] "wald" $conf.level [1] 0.95 $pvalue [1] "fisher.exact" Denne relative risiko estimeres altså til 0.695, hvilket betyder, at risikoen for en stor sideforskel er ca. 30.5% mindre hos drankere i forhold til hos ikke-drankere. Men sikkerhedsintervallet er (0.358, 1.350), dvs. den relative risiko kunne også være op til 1.350, hvilket svarer til en større risiko for drankere på op til 35% højere end hos ikke-drankere. 8

9 En faktor 2 kommer vi altså ikke op på, når spørgsmålet går på drankere vs. ikke-drankere. Men vi kan på den anden side ikke udelukke, at ikkedrankere har dobbelt så stor risiko for stor sideforskel, fordi 1 2 faktisk er indeholdt i konfidensintervallet ovenfor. I dette spørgsmål er der mange, der får vendt konklusionen på hovedet, fordi de ikke selv først regner størrelserne ud. Man kan let blive snydt af, hvilken vej, resultaterne vender i programudskrifterne. Bemærk også, at vi her ikke har med små sandsynligheder at gøre, og derfor er odds ratio ikke tæt på relativ risiko. Nu kommer nogle spørgsmål, der fokuserer på lungefunktionen: 5. Beskriv lungefunktionens relation til rygning ved at sammeligne de 3 rygergrupper. Hvor stor er den estimerede forskel mellem nuværende rygere og aldrigrygere? I første omgang ser vi på et Boxplot af lungefunktionen, opdelt på de 3 grupper: boxplot(fev1~ryger, data=hj,main="spm 5", col=c("red","blue","darkgreen")) hvilket giver figuren: SPM current ex never 9

10 Her ses rimeligt symmetriske fordelinger, så vi vil med sindsro gå videre til at foretage en ensidet variansanalyse til sammenligning af grupperne. Først vil vi dog lige udregne nogle summariske mål i form af gennemsnit og spredning: gennemsnit=tapply(hj$fev1,hj$ryger,mean) sd=tapply(hj$fev1,hj$ryger,sd) N=tapply(hj$fev1,hj$ryger,length) hvorved vi får > cbind(n,gennemsnit,sd) N gennemsnit sd current ex never Disse størrelser giver ikke noget helt klart billede af forskelle, og slet ikke i en forståelig rækkefølge, fordi det ser ud som om ex-rygerne klarer sig bedst mht lungefunktion. For at foretage en egentlig sammenligning mellem de tre grupper, kaster vi os nu ud i den ensidede variansanalyse, incl. test for varianshomogenitet, som i R umiddelbart er Bartletts test: bartlett.test(fev1~ryger, data=hj) model5 = lm(fev1~ryger, data=hj) Herved får vi > bartlett.test(fev1~ryger, data=hj) Bartlett test of homogeneity of variances data: fev1 by ryger Bartlett s K-squared = , df = 2, p-value = > summary(model5) 10

11 Call: lm(formula = fev1 ~ ryger, data = hj) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** rygerex ** rygernever Residual standard error: on 296 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 2 and 296 DF, p-value: > confint(model5) 2.5 % 97.5 % (Intercept) rygerex rygernever Vi bemærker i outputtet ovenfor, at Bartletts test for varianshomogenitet ikke bliver godkendt (P=0.043), så variansanalysen er ikke helt pålidelig. Hvis vi i stedet checker med Levenes test, får vi imidlertid noget andet (også noget andet end det, vi får i SAS...): > install.packages("car") > library(car) > levenetest(fev1~ryger, data=hj) Levene s Test for Homogeneity of Variance (center = median) Df F value Pr(>F) group Under alle omstændigheder ser boxplotett ikke ud til at have synderligt forskellige varianser, og en evt signifikant forskel kan skyldes de relativt store grupper. Testet for identitet af de 3 middelværdier giver i ANOVA P=0.0042, og den største forskel ses at være mellem ex-rygere og nuværende rygere, men det er ikke den forskel, vi søger. Forskellen mellem aldrig-rygere og nuværende rygere estimeres til i aldrig-rygernes favør, med 11

12 CI=(-0.018, 0.356), og P=0.077, altså ikke signifikant. Pga de uens varianser, checker vi lige med et Welch test, om signifikansen hænger på antagelsen om identiske varianser. Da Welch testet (se nedenfor) giver P=0.0030, føler vi os dog ret sikre på, at middelværdierne i de 3 grupper ikke er ens. > oneway.test(fev1 ~ ryger, data=hj) One-way analysis of means (not assuming equal variances) data: fev1 and ryger F = , num df = 2.00, denom df = , p-value = Hvis vi havde valgt kun at se på de to relevante grupper, kunne vi i stedet benytte et T-test, der kun involverer disse to grupper, og hvor vi får et konfidensinterval, der ikke er baseret på antagelsen om ens varianser: t.test(hj$fev1[hj$ryger=="current"],hj$fev1[hj$ryger=="never"]) som giver os nedenstående output: > t.test(hj$fev1[hj$ryger=="current"],hj$fev1[hj$ryger=="never"]) Welch Two Sample t-test data: hj$fev1[hj$ryger == "current"] and hj$fev1[hj$ryger == "never"] t = , df = , p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y Forskellen mellem aldrig-rygere og nuværende rygere estimeres her igen til i aldrig-rygernes favør, men nu med et lidt bredere konfidensinterval CI=(-0.036, 0.374), og P=0.11, altså endnu mindre i retning af signifikans. 12

13 6. Er det fornuftigt at foretage ovenstående sammenligning, eller kan der være confounding pga f.eks. alder? Begrund svaret, f.eks. ved at angive det forventede fald i FEV 1 over en 10-årig periode. Man er vist generelt enige om, at lungefunktionen falder med alderen, så hvis de 3 rygergrupper udviser forskelle i aldersfordelingen, så er alder en confounder for sammenligningen af lungefunktionen i de tre rygergrupper. Vi laver derfor et Boxplot af aldersfordelingerne samt udregner nogle summariske mål for alderen i de tre grupper: boxplot(alder~ryger, data=hj,main="spm 6",col=c("red","blue","darkgreen")) gennemsnit=tapply(hj$alder,hj$ryger,mean) sd=tapply(hj$alder,hj$ryger,sd) N=tapply(hj$alder,hj$ryger,length) Vi får så plottet SPM current ex never og de tilhørende summariske størrelser: > cbind(n,gennemsnit,sd) N gennemsnit sd current ex never

14 Her ses små forskelle i alder, idet rygerne er ca 1 år yngre end aldrigrygerne. Vi forventer således ikke den helt store confounding fra alder, men må dog erkende, at den forskel, vi fandt i spørgsmål 5 formentlig er undervurderet, fordi vi har sammenlignet nogle unge rygere med nogle ældre aldrig-rygere. Faktisk er der næsten signifikant forskel på aldersfordelingerne (specielt hvis vi kun sammenligner rygere med aldrig-rygere), hvilket man kan se ved at foretage en ensidet variansanalyse af alder i de tre grupper: model6 = lm(alder~ryger, data=hj) som giver outputtet (kraftigt beskåret): > summary(model6) Call: lm(formula = alder ~ ryger, data = hj) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** rygerex rygernever * --- Residual standard error: on 296 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: 2.72 on 2 and 296 DF, p-value: Nu er det bare ikke en evt signifikant forskel på alderen i de tre grupper, der er afgørende, men derimod den faktiske forskel (som altså var ca 1 år) samt alderens effekt på outcome (fev1). Denne effekt ser vi nu på, først for hele materialet under et: model.reg=lm(fev1~alder, data=hj) summary(model.reg) 5*(coefficients(model.reg)[2]) 5*(confint(model.reg)[2,]) 14

15 som giver outputtet: > summary(model.reg) Call: lm(formula = fev1 ~ alder, data = hj) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** alder * --- Residual standard error: on 297 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 1 and 297 DF, p-value: > 5*(coefficients(model.reg)[2]) alder > 5*(confint(model.reg)[2,]) 2.5 % 97.5 % Fra dette output ses fev1 at falde med pr. år, eller over en 5-årig periode (Jeg har vist det for 5 år mere, selv om jeg i opgaven foreslog det lidt nemmere, nemlig for 10 år mere). Konfidensintervallet for dette sidste estimat ses at være CI=(0.017, 0.321). Nu gør vi det samme for hver af rygergrupperne for sig (da analysen ovenfor jo helt negligerer effekten af rygning): current = hj[hj$ryger=="current",] ex = hj[hj$ryger=="ex",] never = hj[hj$ryger=="never",] reg.current=lm(fev1~alder, data=current) reg.ex=lm(fev1~alder, data=ex) reg.never=lm(fev1~alder, data=never) hvorefter vi estimerer faldet i fev1 over en 5-årig periode for hver af de 3 grupper: > summary(reg.current) Call: 15

16 lm(formula = fev1 ~ alder, data = current) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-12 *** alder * --- Residual standard error: on 137 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: 4.78 on 1 and 137 DF, p-value: > 5*(coefficients(reg.current)[2]) alder > 5*(confint(reg.current)[2,]) 2.5 % 97.5 % > summary(reg.ex) Call: lm(formula = fev1 ~ alder, data = ex) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-07 *** alder Residual standard error: on 87 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 1 and 87 DF, p-value: > 5*(coefficients(reg.ex)[2]) alder > 5*(confint(reg.ex)[2,]) 2.5 % 97.5 % > summary(reg.never) Call: lm(formula = fev1 ~ alder, data = never) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) 16

17 (Intercept) ** alder Residual standard error: on 69 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 1 and 69 DF, p-value: > 5*(coefficients(reg.never)[2]) alder > 5*(confint(reg.never)[2,]) 2.5 % 97.5 % Disse resultater kan sammenfattes i en tabel som f.eks. Rygergruppe Effekt af 5 år Residualspredning P Current (-0.402, ) Never (-0.618, 0.239) Ex (-0.471, 0.075) Alle (-0.321, 0.017) Disse estimater ser umiddelbart ikke særligt forskellige ud, og det, at kun estimatet for nuværende rygere er signifikant forskellig fra 0, kan ikke tages som udtryk for forskellighed. Godt nok er den estimerede linie stejlest i denne gruppe, men signifikansen beror mest på det store antal i denne gruppe (139 mod 89 hhv 71 i de to andre grupper) og til en vis grad også på den mindre residualspredning i denne gruppe. En figur med de 3 linier indtegnet laves ved: plot(hj$alder, hj$fev1, main="spm 7", pch=as.numeric(hj$ryger), col=as.numeric(hj$ryger), cex.lab=1.5) model.current = lm(fev1 ~ alder, data=current) abline(model.current, col="red", lwd=2) model.ex = lm(fev1 ~ alder, data=ex) abline(model.ex, col="green", lwd=2) model.never = lm(fev1 ~ alder, data=never) abline(model.never, col="blue", lwd=2) legend(31, 2.9, legend=c("current", "ex", "never"), col=c("red", "green", "blue"), lty=1, cex=0.7) 17

18 hvorved vi får figuren: SPM 7 hj$fev current ex never hj$alder hvor det på øjemål er temmelig svært at se, at linierne ikke er parallelle. 7. Hvor stor er den estimerede forskel i lungefunktion mellem nuværende rygere og aldrig-rygere, når der justeres for alder? Forklar forskellen til svaret i spørgsmål 5, og husk at lave en illustration af den anvendte model. Vi skal nu undersøge effekten af rygning, korrigeret for den lille aldersforskel, eller helt præcist: forskellen på nuværende rygere og aldrigrygere, på samme alder. Vi gør dette ved hjælp af en kovariansanalyse, med dertil hørende illustrationer, og vi inddrager ikke interaktion i denne model, da vi ovenfor så meget tæt på parallelle linier: model7 = lm(fev1~ryger+alder, data=hj) Figuren, der illustrerer modellen kan laves ud fra predikterede værdier ny.current = data.frame(alder=30:45,ryger="current") pred.current = predict(model7, ny.current) ny.ex = data.frame(alder=30:45,ryger="ex") pred.ex = predict(model7, ny.ex) ny.never = data.frame(alder=30:45,ryger="never") pred.never = predict(model7, ny.never) plot(hj$alder, hj$fev1, main="spm 7", pch=as.numeric(hj$ryger), col=as.numeric(hj$ryger), cex.lab=1.5) 18

19 lines(ny.current$alder, pred.current, type = "l", col="red") lines(ny.ex$alder, pred.ex, type = "l", col="green") lines(ny.never$alder, pred.never, type = "l", col="blue") legend(31, 2.9, legend=c("current", "ex", "never"), col=c("red", "green", "blue"), lty=1, cex=0.7) hvorved vi får: SPM 7 hj$alder hj$fev1 current ex never og modelkontrollen udføres ved delvist at benytte de automatiske tegninger: par(mfrow=c(2,2)) plot(model7,which=1, cex.lab=1.5) plot(model7,which=2, cex.lab=1.5) plot(model7,which=3, cex.lab=1.5) plot(model7,which=4, cex.lab=1.5) 19

20 Fitted values Residuals Residuals vs Fitted Theoretical Quantiles Standardized residuals Normal Q Q Fitted values Standardized residuals Scale Location Obs. number Cook's distance Cook's distance og for specifikt at checke lineariteten: with(hj, scatter.smooth(alder, resid(model7), main="spm 7", ylab="residualer", xlab="alder", cex.lab=1.5, lpars = list(col = "red", lwd = 3, lty = 3))) SPM 7 alder residualer Ingen af disse figurer giver anledning til bekymring, og vi ser derfor på output fra kovariansanalysen: > summary(model7) Call: 20

21 lm(formula = fev1 ~ ryger + alder, data = hj) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** rygerex *** rygernever * alder ** --- Residual standard error: on 295 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: 6.14 on 3 and 295 DF, p-value: > confint(model7) 2.5 % 97.5 % (Intercept) rygerex rygernever alder > 5*(coefficients(model7)[4]) alder > 5*(confint(model7)[4,]) 2.5 % 97.5 % Vi bemærker, at der nu ses en kraftigere signifikant forskel på de 3 rygergrupper (P= nu mod P= i spørgsmål 5), og det skyldes dels, at nuværende rygere var lidt yngre end de andre og dels at alderen har reduceret residualspredningen, så standard errors på parameterestimaterne er blevet mindre. Det reviderede estimat for forskellen mellem aldrig-rygere og rygere ses at være 0.198, med konfidensinterval CI=(0.012, 0.385), P= Endvidere får vi et estimat for alderseffekten, der nu er poolet fra alle tre rygergrupper (under antagelse, af at denne effekt er ens i alle grupper). Dette er ( , ), svarende til et fald på over en 5-årig periode, CI=(0.052, 0.354), P= Hvis vi her vælger kun at se på de to berørte grupper, benytter vi et subset af data: grp2 <- subset(hj, ryger=="current" ryger=="never") model7ny = lm(fev1~ryger+alder, data=grp2) 21

22 og finder så figuren SPM 7 grp2$fev current never grp2$alder med det tilhørende output > summary(model7ny) Call: lm(formula = fev1 ~ ryger + alder, data = grp2) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-13 *** rygernever * alder * --- Residual standard error: on 207 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 2 and 207 DF, p-value: > confint(model7ny) 2.5 % 97.5 % (Intercept) rygernever alder > 5*(coefficients(model7ny)[3]) alder > 5*(confint(model7ny)[3,]) 2.5 % 97.5 % Estimatet for forskellen mellem aldrig-rygere og rygere er nu 0.199, med konfidensinterval CI=(0.011, 0.387), altså næsten uforandret. Estimatet for alderseffekten, der nu kun er poolet fra de to udvalgte rygergrupper er , CI=( , ), svarende til et fald på over en 5-årig periode, CI=(0.023, 0.388), P=

23 Vi sammenfatter forskellen på nuværende rygere og aldrig-rygere fra de forskellige analyser: current vs. never Estimeret forskel P ANOVA, spm (-0.356, 0.018) 0.08 T-test, spm. 5 ens varianser (-0.357, 0.019) 0.08 ens varianser (-0.374, 0.036) 0.11 ANCOVA, spm. 7 3 grupper (-0.385, ) grupper (-0.387, ) Som det også tidligere er bemærket, vurderes effekten af rygning til at være lidt større, når der korrigeres for alder, fordi vi i første omgang sammenlignede nogle lidt yngre rygere med nogle lidt ældre ikke-rygere og derfor fik maskeret lidt af effekten. Fordi nogle af jer har undersøgt, om der skulle være interaktion mellem alder og rygning (altså ikke-parallele linier), indsættes her kode og output for dette, i versionen, hvor vi kun betragter de to udvalgte grupper: model.interaktion = lm(fev1~ryger+alder+ryger:alder, data=grp2) Herved finder vi: > summary(model.interaktion) Call: lm(formula = fev1 ~ ryger + alder + ryger:alder, data = grp2) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-11 *** rygernever alder rygernever:alder Residual standard error: on 206 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 3 and 206 DF, p-value: og dermed absolut ingen indikation af forskellige alderseffekter (P=0.92). 23

Vejledende besvarelse af hjemmeopgave, efterår 2018

Vejledende besvarelse af hjemmeopgave, efterår 2018 Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2018

Vejledende besvarelse af hjemmeopgave, efterår 2018 Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.dat er en let modificeret udgave af oeko.txt på hjemmesiden, blot med variabelnavnet sas.ansat i stedet for sas_ansat.

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity I filen cadmium.txt ligger observationer fra et eksempel omhandlende lungefunktionen hos arbejdere i cadmium industrien (hentet fra P. Armitage & G. Berry: Statistical

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (

Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 ( Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (28.-30. oktober) En stor undersøgelse søger at afdække forhold

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby

Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby Vi betragter et lille uddrag af det såkaldte Sundby95-materiale, der er en stor undersøgelse af københavnernes sundhed. Det totale datasæt

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Opgave 1: Graft vs. Host disease

Opgave 1: Graft vs. Host disease Opgave 1: Graft vs. Host disease Denne opgave er baseret på opgave 12.3 fra DG Altman, p. 361. Data omhandler knoglemarvstransplantation af 37 leukæmipatienter, og outcome er forekomst af graft versus

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl Reeksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 13-08-2018 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3. Model Program (8.15-10): 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. Bruger nu to indices: i = 1,...,k for gruppenr. og j = 1,...,n i for observation indenfor gruppe. k = 3 grupper: µ 1

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse i R. Lene Theil Skovgaard 23. september 2019 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse i R. Lene Theil Skovgaard. 25. februar 2019

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse i R. Lene Theil Skovgaard. 25. februar 2019 Faculty of Health Sciences Basal Statistik Regressionsanalyse i R. Lene Theil Skovgaard 25. februar 2019 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer, Kovariansanalyse, Interaktion, i R Lene Theil Skovgaard 4. marts 2019 Parret sammenligning af målemetoder, med logaritmer

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2017

Vejledende besvarelse af hjemmeopgave, forår 2017 Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag

Læs mere

Opgavebesvarelse, korrelerede målinger

Opgavebesvarelse, korrelerede målinger Opgavebesvarelse, korrelerede målinger I 18 familier bestående af far, mor og 3 børn (i veldefinerede aldersintervaller, med child1 som det ældste barn og child3 som det yngste) har man registreret antallet

Læs mere

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse Øvelser i epidemiologi og biostatistik, 12. april 21 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse 1. Belys ud fra data ved 5 års follow-up den fordom, at der er flere

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30.

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. oktober) En undersøgelse blandt fødende kvinder

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2017

Vejledende besvarelse af hjemmeopgave, forår 2017 Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 14. december 2013 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2017

Vejledende besvarelse af hjemmeopgave, efterår 2017 Vejledende besvarelse af hjemmeopgave, efterår 2017 Udleveret 3. oktober 2017, afleveres senest ved øvelserne i uge 44 (31. okt.-2. nov. 2017) På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_2/hjemmeopgave/hjemmeopgave.txt

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Forelæsning 11: Envejs variansanalyse, ANOVA

Forelæsning 11: Envejs variansanalyse, ANOVA Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher Kursus 02323: Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2016

Vejledende besvarelse af hjemmeopgave, forår 2016 Vejledende besvarelse af hjemmeopgave, forår 2016 Udleveret 1. marts, afleveres senest ved øvelserne i uge 13 (29. marts-1. april) Denne opgave fokuserer på at beskrive niveauet af hormonet AMH (højt niveau

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 22 sider. Skriftlig prøve: 13. december 2010 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse 1. Hvor stor en andel af deltagerne var mænd? Var der samme andel i de tre randomiseringsgrupper?.

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.sav på hjemmesiden indeholder datamateriale til belysning af forskellen i sædkvalitet mellem SAS-ansatte og mænd, der lever

Læs mere

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5 02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5 Opgave 5.117, side 171 (7ed: 5.116 side 201 og 6ed: 5.116 side 197) I denne opgave skal vi benytte relationen mellem den log-normale fordeling

Læs mere

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. marts, afleveres senest ved øvelserne i uge 14 (2.-4.

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. marts, afleveres senest ved øvelserne i uge 14 (2.-4. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2013 Udleveret 12. marts, afleveres senest ved øvelserne i uge 14 (2.-4.april) I forbindelse med reagensglasbehandling blev 100 par randomiseret

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse i R Lene Theil Skovgaard 11. februar 2019 1 / 116 Sammenligning af to grupper: T-test Dimensionering

Læs mere

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse i R. Lene Theil Skovgaard. 11. februar / 116

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse i R. Lene Theil Skovgaard. 11. februar / 116 Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse i R Lene Theil Skovgaard 11. februar 2019 1 / 116 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2018

Vejledende besvarelse af hjemmeopgave, forår 2018 Vejledende besvarelse af hjemmeopgave, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige

Læs mere

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere. Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes

Læs mere

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse i R. Lene Theil Skovgaard. 11. marts 2019

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse i R. Lene Theil Skovgaard. 11. marts 2019 Faculty of Health Sciences Basal Statistik Multipel regressionsanalyse i R. Lene Theil Skovgaard 11. marts 2019 1 / 86 Multipel lineær regression Regression med to kvantitative kovariater: Eksempel om

Læs mere

Basal Statistik. Multipel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Basal Statistik. Multipel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences Faculty of Health Sciences Multipel lineær regression Basal Statistik Multipel regressionsanalyse i R. Lene Theil Skovgaard 11. marts 2019 Regression med to kvantitative kovariater: Eksempel om ultralyd

Læs mere

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares) Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus

Læs mere

Kommentarer til øvelser i basalkursus, 2. uge

Kommentarer til øvelser i basalkursus, 2. uge Kommentarer til øvelser i basalkursus, 2. uge Opgave 2. Vi betragter målinger af hjertevægt (i g) og total kropsvægt (målt i kg) for 10 normale mænd og 11 mænd med hjertesvigt. Målingerne er taget ved

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2018

Vejledende besvarelse af hjemmeopgave, forår 2018 Vejledende besvarelse af hjemmeopgave, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige

Læs mere

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse Faculty of Health Sciences SPSS APPENDIX SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 12. september 2017 med instruktioner til SPSS-analyse svarende til

Læs mere

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22. Faculty of Health Sciences SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 22. januar 2018 1 / 20 SPSS APPENDIX med instruktioner til SPSS-analyse svarende

Læs mere

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse Faculty of Health Sciences SPSS APPENDIX SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 11. februar 2019 med instruktioner til SPSS-analyse svarende til nogle

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance Plot af B j + ǫ ij (Y ij µ α i )): Program: res 4 2 0 2 B1 B2 B3 B4 B5 1. vi starter med at gennemgå opgave 3 side 513. 2. nyt: to-sidet variansanalyse 1 2 3 4 5 block σ 2 : within blocks variance σb 2

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2019

Vejledende besvarelse af hjemmeopgave, forår 2019 Vejledende besvarelse af hjemmeopgave, forår 2019 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (26. marts.-28. marts). På hjemmesiden http://staff.pubhealth.ku.dk/~lts/basal19_1/hjemmeopgave.html

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2017

Vejledende besvarelse af hjemmeopgave, efterår 2017 Vejledende besvarelse af hjemmeopgave, efterår 2017 Udleveret 3. oktober 2017, afleveres senest ved øvelserne i uge 44 (31. okt.-2. nov. 2017) På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_2/hjemmeopgave/hjemmeopgave.txt

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

Eksempel , opg. 2

Eksempel , opg. 2 Faktorer En faktor er en gruppering/inddeling af målinger/observationer pga. Tilsigtede variationer i en eller flere forsøgsparametre Nødvendige (potentielle) blok-effekter såsom gentagne målinger på samme

Læs mere

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren Faculty of Life Sciences Program Sammenligning af grupper Ensidet ANOVA Claus Ekstrøm E-mail: ekstrom@life.ku.dk Sammenligning af to grupper: tre eksempler Sammenligning af mere end to grupper: ensidet

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 17 sider. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

Vejledende besvarelse af hjemmeopgave

Vejledende besvarelse af hjemmeopgave Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin

Læs mere

Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget?

Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget? Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget? Udarbejdet af frivillige Frederik Carl Windfeld og Kim Alexander Byrial Juárez Jensen samt sekretariatet i Transparency

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

Eksamen i Statistik for Biokemikere, Blok januar 2009

Eksamen i Statistik for Biokemikere, Blok januar 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet

Læs mere

Ikke-parametriske tests

Ikke-parametriske tests Ikke-parametriske tests 2 Dagens menu t testen Hvordan var det nu lige det var? Wilcoxson Mann Whitney U Kruskall Wallis Friedman Kendalls og Spearmans correlation 3 t-testen Patient Drug Placebo difference

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Opgavebesvarelse, Basalkursus, uge 2

Opgavebesvarelse, Basalkursus, uge 2 Opgavebesvarelse, Basalkursus, uge 2 Opgave 1. Filen "space.txt" fra hjemmesiden ser således ud: salt pre post 1 71 61 1 65 59 1 52 47 1 68 65......... 0 52 77 0 54 80 0 52 79 Data indlæses i 3 kolonner,

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser Mantel-Haensel analyser Stratificerede epidemiologiske analyser 1 Den epidemiologiske synsvinkel: 1) Oftest asymmetriske (kausale) sammenhænge (Eksposition Sygdom/død) 2) Risikoen vurderes bedst ved hjælp

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Hjemmeopgave, efterår 2009

Hjemmeopgave, efterår 2009 Hjemmeopgave, efterår 2009 Basal statistik for sundhedsvidenskabelige forskere Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-29. oktober) I alt 112 piger har fået målt bone mineral

Læs mere

Appendiks Økonometrisk teori... II

Appendiks Økonometrisk teori... II Appendiks Økonometrisk teori... II De klassiske SLR-antagelser... II Hypotesetest... VII Regressioner... VIII Inflation:... VIII Test for SLR antagelser... IX Reset-test... IX Plots... X Breusch-Pagan

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.-27 marts) Garvey et al. interesserer sig for sammenhængen mellem

Læs mere