Phd-kursus i Basal Statistik, Opgaver til 2. uge

Størrelse: px
Starte visningen fra side:

Download "Phd-kursus i Basal Statistik, Opgaver til 2. uge"

Transkript

1 Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.dat er en let modificeret udgave af oeko.txt på hjemmesiden, blot med variabelnavnet sas.ansat i stedet for sas_ansat. Den indeholder datamateriale til belysning af forskellen i sædkvalitet mellem SAS-ansatte og mænd, der lever økologisk (i det følgende ofte blot omtalt som økologer). Variablene er (i den nævnte rækkefølge): sas.ansat: ansat i SAS (ja/nej) abstid: abstinenstid (1: kort, 2: medium, 3: lang) (et mål for længden af seksuel afholdenhed) konc: sædkoncentrationen (mill/ml) Formålet med opgaven er at undersøge, om der er forskel på de to populationsgruppers sædkoncentrationsniveau. Vi indlæser data i data framen oeko: oeko <- read.table("oeko.dat", header=t) 1. Lav en passende illustration af data. En umiddelbar optegning af sædkoncentration mod abstinenstid, med farveangivelse for grupperne kan udføres ved at skrive som nedenfor: plot(oeko$abstid,oeko$konc,pch=as.numeric(oeko$sas.ansat), col=as.numeric(oeko$sas.ansat), main="sædkoncentration", cex.lab=1.5) hvorved vi får figuren 1

2 Heraf ses, at sædkoncentration næppe er normalfordelt inden for hver gruppe, og vi laver derfor en logaritmetransformation (her er brugt log10). Samtidig skiller vi observationerne ud i 6 grupper, så vi bedre kan se, hvad der er hvad, og benytter nu Boxplots til at illustrere fordelingerne: oeko$lkonc=log10(oeko$konc) boxplot(lkonc~abstid*sas.ansat, data=oeko, col=(c("gold","darkgreen","red")), main="sædkoncentration") På denne skala ser både normalfordelingsantagelse og varianshomogenitet rimelig fornuftig ud, omend ikke perfekt. 2

3 2. Vi skal nu kvantificere niveauet af sædkoncentration for de to grupper af mænd og sammenligne disse niveauer, i første omgang uden at tage hensyn til abstinenstiden. Overvej, om der skal logaritmetransformeres, når I svarer på nedenstående spørgsmål: (a) Giv et estimat for nivauet af sædkoncentrationen for hver af de to grupper af mænd. Husk et 95% konfidensinterval. Som estimat for niveauet vil vi jo umiddelbart anvende gennemsnittet, men da fordelingen er skæv, vil det nok være mere passende at benytte medianen, eller at transformere til logaritmisk skala, så de nedenstående beregninger er foretaget på den logaritmetransformerede sædkoncentration (log 10 ): gennemsnit=tapply(oeko$lkonc,oeko$sas.ansat,mean) median=tapply(oeko$lkonc,oeko$sas.ansat,median) sd=tapply(oeko$lkonc,oeko$sas.ansat,sd) sem=tapply(oeko$lkonc,oeko$sas.ansat,sd)/ sqrt(tapply(oeko$lkonc,oeko$sas.ansat,length)) df=tapply(oeko$lkonc,oeko$sas.ansat,length)-1 lower=gennemsnit-qt(0.975,df)*sem upper=gennemsnit+qt(0.975,df)*sem cbind(gennemsnit,median,sd,sem, df, lower,upper) hvorved vi får gennemsnit median sd sem df lower upper ja nej Tilsvarende kunne vi have gjort for de utransformerede værdier, 3

4 og sammenfattet i en tabel ser det således ud Data Gruppe gennemsnit SEM 95% konfidensinterval utransformeret SAS (59.22, 83.35) Øko (76.99, ) log10-transformeret SAS (1.568, 1.729) Øko (1.719, 1.950) tilbagetransformeret SAS (36.98, 53.58) Øko (52.36, 89.13) Til sammenligning kan det anføres, at medianerne i de to grupper er hhv. 48 (SAS-ansatte) og 69 (økologer), hvilket ses at passe en del bedre med de estimater, der fremkommer ved at tilbagetransforme gennemsnittene på logaritmisk skala, i forhold til de gennemsnit, der er lavet direkte på den utransformerede skala. (b) Sammenlign de to estimater og de to tilhørende konfidensintervaller fundet ovenfor, og giv en intuitiv vurdering af, hvorvidt der er forskel på de to grupper eller ej. På såvel de utransformerede som de logaritmetransformerede gennemsnit ses, at økologerne har et højere niveau af sædkoncentrationen end de SAS-ansatte. Der er nogen overlap mellem de tilhørende konfidensgrænser, men ikke ret meget for de logaritmetransformeredes vedkommende. Vi vil derfor nok forvente, at der er en faktisk forskel, men det ser vi på nedenfor. Bemærk pointen her: Der kan godt være signifikant forskel på to gruppers middelværdi, selv om konfidensintervallerne overlapper (lidt). Den omvendte vej gælder det dog, at hvis konfidensintervallerne ikke overlapper, så er der signifikant forskel. (c) Foretag nu en sammenligning af de to grupper, og kvantificer forskellen i sædkoncentration for grupperne, igen med 95% konfidensinterval. Når vi skal sammenligne de to grupper uden hensyntagen til abstinenstiden, drejer det sig blot om et T-test. Antagelserne er bedst på log-skala, så det er den, vi benytter. Vi laver også lige først et test for varianshomogenitet: 4

5 var.test(lkonc~sas.ansat,data=oeko) F test to compare two variances data: lkonc by sas.ansat F = , num df = 134, denom df = 52, p-value = alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: sample estimates: ratio of variances Med en P-værdi på 0.34 er der ikke tegn på forskel på spredningerne i de to grupper, men et test siger ikke alt, så i praksis vil man ofte benytte Welch test, eller i hvert fald sammenligne til dette. Når man laver T-test i R, får man i øvrigt Welch test som default, hvis man ikke specificerer var.equal=t, se begge versioner nedenfor: t.test(lkonc~sas.ansat,data=oeko) Welch Two Sample t-test data: lkonc by sas.ansat t = , df = , p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean in group ja mean in group nej t.test(lkonc~sas.ansat,data=oeko,var.equal=t) Two Sample t-test data: lkonc by sas.ansat t = , df = 186, p-value =

6 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean in group ja mean in group nej Fra det sidste T-test (med antagelse om ens varianser), ses det, at SAS-ansatte har en signifikant lavere sædkoncentration end økologer (P=0.013). Forskellen på logaritmisk-skala er = 0.186, svarende til at de SAS-ansattes sædkoncentration udgør i gennemsnit kun udgør = 0.65, dvs. 65% af økologernes koncentrationsniveau. 95% sikkerhedsintervallet for denne forskel er angivet til ( 0.332, 0.040), og når dette tilbagetransformeres, fås: ( , ) = (0.47, 0.91) svarende til (47%; 91%) af økologernes koncentrationsniveau. (d) Er der signifikant forskel på de to gruppers sædkoncentration? Ja, på et sædvanligt 5% signifikansniveau er der forskel, da P= Lav nu en underopdeling af de to grupper, baseret på længden af abstinenstiden og udregn passende summary statistics for de nu i alt 6 grupper. Vi arbejder videre på log-skala, og skal nu dele op efter 2 variable. Ved at benytte en add-on pakke ved navn Rmisc, kan dette gøres ret simpelt: install.packages("rmisc") library(rmisc) summaryse(oeko, measurevar="lkonc", groupvars=c("sas.ansat","abstid")) sas.ansat abstid N lkonc sd se ci 1 ja

7 2 ja ja nej nej nej (a) Ser det ud som om abstinenstiden har indflydelse på sædkoncentrationen? Og i givet fald, ser denne indflydelse så ens ud i grupperne? Mændene med den lange abstinenstid ses at have en noget højere sædkoncentration end dem med kort eller mellem abstinenstid. Forskellen på de to korte abstinenstider er lidt mere uklar, men noget kunne tyde på, at effekten af abstinenstid er mere udtalt for økologerne end for de SAS ansatte (altså at der kunne være en interaktion). (b) Ser det ud som om fordelingen af abstinenstider er den samme i de to grupper? Dette spørgsmål vedrører slet ikke sædkoncentrationen, men udelukkende de to potentielle forklarende variable. Hvis disse to forklarende variable har relation til hinanden, altså hvis abstinenstiden i nogen grad afhænger af om man er SASansat eller økolog, så kan abstinenstiden virke som en confounder for sammenligningen mellem de to grupper af mænd, således at vores estimat fra spørgsmål 2c bliver et misvisende udtryk for selve effekten af at leve økologisk. Vi vil lave en simpel tabel, så som: > tabel=table(oeko$sas.ansat,oeko$abstid) > tabel ja nej

8 og tilføje rækkeprocenter, så vi får fordelingen på de 3 abstinenstider i hver af de to grupper: prop.table(tabel,1)* ja nej Der synes ikke at være nogen særlig forskel på disse fordelinger (man kunne lave et χ 2 -test for dette, det lærer I i næste uge). 4. Benyt en variansanalysemodel til at besvare følgende: (a) Find et estimat for forskellen i sædkoncentration mellem de to populationer af mænd, for fastholdt værdi af abstinenstid. Hvis abstinenstiden har en effekt på sædkoncentrationen (som det ser ud til, at den har) og hvis den også var relateret til SAS-ansat ja/nej (som det ikke ser ud til, at den er), så ville estimatet fra spørgsmål 2c som nævnt godt nok give en sammenligning af de to grupper af mænd, men det ville ikke give et retvisende indtryk af selve effekten af den økologiske levevis. For at vurdere effekten af selve den økologiske levevis, skal vi sammenligne SAS-ansatte med økologer, under forudsætning af samme abstinenstid, og det er præcis hvad en (additiv) tosidet variansanalysemodel gør. Vi udfører denne ved at benytte proceduren lm, men da vi skal udnytte resultaterne på forskellig vis bagefter, giver vi først et navn til modellen og ser bagefter på udvalgte dele af denne: > anova2=lm(lkonc~as.factor(abstid)+as.factor(sas.ansat),data=oeko) > summary(anova2) Call: lm(formula = lkonc ~ as.factor(abstid) + as.factor(sas.ansat), data = oeko) 8

9 Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** as.factor(abstid) as.factor(abstid) * as.factor(sas.ansat)nej * --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 184 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 3 and 184 DF, p-value: For at få konfidensgrænser på parameterestimaterne, skriver vi > confint(anova2) 2.5 % 97.5 % (Intercept) as.factor(abstid) as.factor(abstid) as.factor(sas.ansat)nej og for at få det overordnede test af abstinenstidseffekten (med 2 frihedsgrader), skriver vi > anova(anova2) Analysis of Variance Table Response: lkonc Df Sum Sq Mean Sq F value Pr(>F) as.factor(abstid) as.factor(sas.ansat) * Residuals Signif. codes: 0 *** ** 0.01 *

10 Begge kovariater ses at være signifikante, abstinenstiden dog lige på kanten (P=5.0%). For abstid ses de to laveste abstinenstider at ligge nogenlunde på samme niveau (niveau 1 er reference, og svarer altså til et 0), mens sædkoncentrationen er højere for mænd med lang abstinenstid, ganske som vi konkluderede ud fra gennemsnittene ovenfor. Endvidere ses, at SAS-ansatte har en signifikant lavere sædkoncentration end økologer med samme abstinenstid. Forskellen på logaritmisk-skala er 0.187, svarende til at de SAS-ansattes sædkoncentration udgør i gennemsnit kun udgør = 65% af økologernes koncentrationsniveau. 95% sikkerhedsintervallet for denne forskel er angivet til ( 0.332, 0.042), og når dette tilbagetransformeres, fås: ( , ) = (47%; 91%) altså (med den valgte nøjagtighed) fuldstændig det samme som det ukorrigerede estimat fra spørgsmål 2c. De tilhørende predikterede værdier for sædkoncentrationen ses i figuren nedenfor, først på logaritmeskala, og bagefter tilbagetransformeret. Figurerne er dannet ved at skrive interaction.plot(oeko$abstid,oeko$sas.ansat,predict(anova2), type="b",cex.lab=1.5) interaction.plot(oeko$abstid,oeko$sas.ansat,10^(predict(anova2)), type="b", cex.lab=1.5) 10

11 Bemærk, at de predikterede værdier på den højre figur er tilbagetransformeret til den oprindelige skala, og på denne skala er der ikke additivitet. Når effekterne er additive på logaritmisk skala, er de multiplkative på den oprindelige skala. Modelkontrollen. Varianshomogenitet? Vi kan checke antagelsen om ens varians i alle 6 grupper ved at bruge Bartletts test, som om vi havde at gøre med en ensidet variansanalyse (one-way ANOVA), der sammenligner alle de 6 grupper under et: > bartlett.test(oeko$lkonc~interaction(as.factor(oeko$abstid), as.factor(oeko$sas.ansat))) Bartlett test of homogeneity of variances data: oeko$lkonc by interaction(as.factor(oeko$abstid), as.factor(oeko$sas.ansat)) Bartlett s K-squared = , df = 5, p-value = Antagelsen om ens varianser ser altså ikke helt urimelig ud (P=0.08). Vi kunne også se på figuren i øverste venstre hjørne nedenfor. Det er et plot af residualer mod predikterede=forventede værdier, og det bør ikke udvise nogen form for struktur (bortset fra, at det jo ligner søjler, da der kun er 6 forskellige predikterede værdier i denne model). Vi ser ingen tendens til trompetfacon eller anden form for struktur. Varianshomogeniteten kan også vurderes ud fra plottet nederst til venstre, hvor den udglattede kurve ikke bør vise nogen trend (det lærer I om senere). 11

12 Normalfordelingsantagelsen? QQ-plottet ovenfor viser, at logaritmetransformationen har bevirket en skævhed til den anden side, så normalfordelingsantagelsen er tvivlsom. Teknisk note: En bedre overensstemmelse kan opnås efter en kubikrodstranformation (f(konc) = konc 1/3 ). De overordnede konklusioner ændres dog ikke. Til gengæld kan parametrene i den nye model ikke direkte fortolkes (forskellene kan ikke kvantificeres på en enkel måde), så vi foretrækker at fortsætte på logaritmisk skala og glæde os over det rimeligt store datamateriale, der nedsætter behovet for en perfekt normalfordeling, så længe vi afholder os fra at lave normalområder. (b) Sammenhold ovenstående estimat med det tilsvarende fra spørgsmål 2a og kommenter. Kan man sige, at forskelle i sædkoncentration i de to grupper 12

13 skyldes forskelle i deres abstinenstider? Denne sammenligning er allerede kommenteret ovenfor. Der er ikke nævneværdig confounding at spore, så vi må konkludere, at forskellen i sædkvalitet ikke kan forklares ud fra forskelle i abstinenstid, men må søges andetsteds, evt. i selve den økologiske levevis. (c) Er der evidens for, at abstininstiden har en forskellig effekt på sædkoncentrationen i de to populationer? En model, der tillader effekten af abstinenstid at afhænge af SASansat ja/nej, er en model med et interaktionsled (vekselvirkningsled). Koden bliver derfor nu udbygget til > veksel=lm(lkonc~as.factor(abstid)*as.factor(sas.ansat),data=oeko) > summary(veksel) Call: lm(formula = lkonc ~ as.factor(abstid) * as.factor(sas.ansat), data = oeko) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value (Intercept) as.factor(abstid) as.factor(abstid) as.factor(sas.ansat)nej as.factor(abstid)2:as.factor(sas.ansat)nej as.factor(abstid)3:as.factor(sas.ansat)nej Pr(> t ) (Intercept) <2e-16 *** as.factor(abstid) as.factor(abstid) as.factor(sas.ansat)nej as.factor(abstid)2:as.factor(sas.ansat)nej as.factor(abstid)3:as.factor(sas.ansat)nej Signif. codes: 0 *** ** 0.01 * Residual standard error: on 182 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 5 and 182 DF, p-value: > confint(veksel) 2.5 % 97.5 % (Intercept)

14 as.factor(abstid) as.factor(abstid) as.factor(sas.ansat)nej as.factor(abstid)2:as.factor(sas.ansat)nej as.factor(abstid)3:as.factor(sas.ansat)nej > anova(veksel) Analysis of Variance Table Response: lkonc Df Sum Sq Mean Sq F value Pr(>F) as.factor(abstid) as.factor(sas.ansat) * as.factor(abstid):as.factor(sas.ansat) Residuals Signif. codes: 0 *** ** 0.01 * Hypotesen om ingen vekselvirkning kan accepteres med P = 43.2%. De predikterede forløb ses i figuren nedenfor, og vi bemærker, at de ser meget anderledes ud end de tilsvarende for den additive model. Hvis vi bare skulle udtale os udfra figuren, ville vi således gætte på, at der var interaktion mellem SAS-ansat og abstinenstid, men figuren viser jo heller ikke usikkerhederne, og disse er altså så store, at vi ikke kan påstå at have evidens for en interaktion. Til gengæld kan vi selvfølgelig heller ikke afvise, at der kunne være en interaktion, som vi bare ikke finder på grund af et for lille datamateriale. 14

15 Opgave 2: Space shuttle Et studie involverer de 26 astronauter, der deltog på de første 8 rejser med space shuttle (Bungo et.al., 1985). På frivillig basis konsumerede 17 af disse astronauter store mængder af salt og væske inden landingen, i et forsøg på at imødegå space deconditioning (salt=1). De 9 øvrige indtog intet specielt (salt=0). Tabellen nederst viser pulsen (slag pr. minut) før og efter flyvningen for hver af de 26 astronauter. Filen "space.txt" fra hjemmesiden ser således ud: salt pre post

16 og vi indlæser i data framen sp, og samtidig laver vi variables salt om til en faktor med niveauerne S og C for salt hhv. kontrol: sp <- read.table(" header=t) sp$salt <- factor(sp$salt, levels=c(0,1), labels=c("c", "S")) 1. Sammenlign før- og efter-målingerne i salt -gruppen, og husk samtidig at lave passende illustrationer. Hvis vi skal foretage et parametrisk test (og det foretrækker vi, da det giver et konfidensinterval), bliver der tale om et parret t-test. Forudsætningen for dette er rimelig normalitet for differenserne, så vi starter med at udregne disse samt gennemsnittene, da vi skal bruge dem til at lave Bland-Altman plot som check af antagelser i forbindelse med det parrede T-test: sp$diff = sp$post - sp$pre sp$mean = (sp$pre + sp$post)/2 Derefter skal vi opdele data, da vi i første omgang kun ser på saltgruppen S. Vi gør det ved at opspalte vores data frame i to dele: sp.s = sp[sp$salt=="salt",] sp.c = sp[sp$salt=="control",] Et histogram og et fraktildiagram for differenserne i salt-gruppen kan nu laves ved at skrive: hist(sp.s$diff) qqnorm(sp.s$diff) qqline(sp.s$diff) 16

17 som giver figurerne Vi ser her ingen særlige tegn på afvigelse fra normalfordelingen (men det betyder ikke, at vi har stor tiltro til denne antagelse, da der er tale om et ganske lille materiale). En anden vigtig forudsætning er, at differenserne er lige store over hele skalaen, altså at der ikke er nogen sammenhæng mellem differenser og niveau. Dette undersøges ved et Bland-Altman plot, som simpelthen er et scatterplot af differenser mod gennemsnit: plot(sp.s$mean, sp.s$diff, abline(0,0,lty=2,col="red"), xlab="gennemsnit", ylab="differens", main="bland-altman plot") 17

18 Da dette heller ikke viser udprægede tegn på sammenhæng (eller er der måske lidt trompetfacon??), vil vi fortsætte med et parret t-test. Vi udfører t-testet ved at skrive > t.test(sp.s$pre, sp.s$post, paired=t) Paired t-test data: sp.s$pre and sp.s$post t = , df = 16, p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of the differences P-værdien for test af identiske middelværdier for puls før og efter flyvningen ses at være 0.017, hvilket er signifikant på et 5% niveau og altså viser, at der formentlig sker en pulsstigning. Hvis vi føler os usikre på normalfordelingsantagelsen, kunne vi i stedet udføre et non-parametrisk test (Wilcoxon signed-rank test), se kode og output nedenfor. Herved finder vi en P-værdi på 0.028, som understøtter konklusionen fra t-testet: > wilcox.test(sp.s$pre, sp.s$post, paired=t) Wilcoxon signed rank test with continuity correction data: sp.s$pre and sp.s$post V = 25, p-value = alternative hypothesis: true location shift is not equal to 0 Warning messages: 1: In wilcox.test.default(sp.s$pre, sp.s$post, paired = T) : cannot compute exact p-value with ties 2: In wilcox.test.default(sp.s$pre, sp.s$post, paired = T) : cannot compute exact p-value with zeroes 18

19 2. Huskede du at give en kvantificering af effekten af flyvning på pulsen i salt -gruppen? Med konfidensinterval! Udregning af et 95% konfidensinterval for middelværdien af pulsstigningen fås automatisk ved at udføre t-testet. Det ses at være (1.38,12.38), altså ganske bredt. Testet gav signifikans på et 5% niveau, svarende til, at 0 ikke er inkluderet i konfidensintervallet. Vi er altså noget usikre på, hvor stor denne pulsstigning er, men den er næppe af afgørende betydning. 3. Sammenlign effekten af flyvning i de to grupper. Hvilken konklusion opnås for effekten af saltindtagelse? Husk konfidensinterval! Vi skal nu se på en sammenligning af differenserne i de to grupper. I kontrolgruppen har vi kun 9 personer, hvilket simpelthen er for lidt selv til grafiske illustrationer af fordelingen. Vi tillader os derfor (i hvert fald til en start) at gå ud fra, at differenserne post-pre er ligeså normalfordelte i denne gruppe som i salt -gruppen. En illustration af differenserne i de to grupper gøres bedst ved et scatterplot, da der er så få observationer: stripchart(sp$diff ~ sp$salt, vertical=true, pch=1, ylab="differens", xlab="gruppe", cex.lab=1.5) 19

20 På trods af den ikke så pæne fordeling i kontrolgruppen, fortsætter vi alligevel med at basere en sammenligning af de to gruppers differenser på et uparret t-test: > t.test(sp.s$diff, sp.c$diff, paired=f) Welch Two Sample t-test data: sp.s$diff and sp.c$diff t = , df = 17.26, p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y Vi ser, at P-værdien for sammenligning af middelværdierne for differenserne i de to grupper er 0.024, svarende til, at de er signifikant forskellige på et 5% niveau. Det betyder, at de astronauter, der ikke traf nogen foranstaltninger havde en mere udtalt pulsøgning end de, der gjorde noget. Denne øgede stigning er estimeret til 10.56, med et 95% konfidensinterval på (1.60, 19.53). Ikke særligt overbevisende, men alligevel... 20

21 Det tilsvarende non-parametriske test giver > wilcox.test(sp.s$diff, sp.c$diff, paired=f) Wilcoxon rank sum test with continuity correction data: sp.s$diff and sp.c$diff W = 36.5, p-value = alternative hypothesis: true location shift is not equal to 0 Warning message: In wilcox.test.default(sp.s$diff, sp.c$diff, paired = F) : cannot compute exact p-value with ties Vi finder altså også en signifikans i det non-parametriske test (P-værdien er mod i T-testet). 4. To astronauter deltog i to forskellige flyvninger og optræder altså i datamaterialet to gange. Spiller det nogen rolle? Vi ved ikke hvilke par af observationer, der stammer fra samme astronauter, så helt konkret kan vi ikke stille noget op med vores viden. Men hvis vi havde kunnet identificere dem, ville det nok være klogest kun at benytte første flyvetur for disse. Hvis pulsøgningen er meget personspecifik skaber det nemlig problemer for antagelsen om uafhængighed mellem observationerne, at der er flere målinger for hver person. Herudover kunne man tænke sig at det er nogle selekterede personer, der tager afsted flere gange at personer, der allerede har været afsted en gang, er blevet varigt ændret, så de anden gang adskiller sig fra de øvrige Den konkrete betydning for analyseresultaterne er svær at sige ret meget om. Det afhænger f.eks. af om personerne er med i samme gruppe begge gange: Hvis de er med i samme gruppe, bliver variationen indenfor grupper for lille, og dermed kan man lettere finde en (måske ikkeeksisterende) forskel på de to grupper (type 1 fejl). 21

22 Hvis de er med i hver sin gruppe, bliver grupperne for ens, og vi får dermed sværere ved at se en evt. forskel (type 2 fejl). Sådanne problemer med manglende uafhængighed vil blive nærmere omtalt i kursets sidste uge. 5. Kommenter frivilligheden i opdelingen i de to grupper og hvordan dette kunne tænkes at påvirke fortolkningen af resultaterne. Frivilligheden i gruppeopdelingen kan tænkes at skabe problemer, som kan gå begge veje Måske er det de overforsigtige/velovervejede, der tager deres forholdsregler, og hvis disse samtidig er i fysisk bedst form, kan de tænkes i forvejen at ville opleve en mindre pulsstigning eller måske er det dem med en kendt risiko for pulsstigning, der vælger at tage forholdsregler, og så er det sandsynligt, at forskellen på de to grupper bliver mindre udtalt. For at få en valid sammenligning, burde grupperne have været randomiseret. En lille indsigt i en evt. skævvridning kan fås ved at sammenligne preværdierne i de 2 grupper. Bemærk, at et t-test nu vil kræve normalitet af disse pre-målinger i hver gruppe og ikke som tidligere kun af differenserne. Vi finder Mann-Whitney (Kruskal-Wallis) test: P=0.94 T-test, med ens varianser: P=0.92 T-test, med forskellige varianser: P=0.92 Der er altså ikke her nogen indikation af selektion. 22

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.sav på hjemmesiden indeholder datamateriale til belysning af forskellen i sædkvalitet mellem SAS-ansatte og mænd, der lever

Læs mere

Opgavebesvarelse, Basalkursus, uge 2

Opgavebesvarelse, Basalkursus, uge 2 Opgavebesvarelse, Basalkursus, uge 2 Opgave 1. Filen "space.txt" fra hjemmesiden ser således ud: salt pre post 1 71 61 1 65 59 1 52 47 1 68 65......... 0 52 77 0 54 80 0 52 79 Data indlæses i 3 kolonner,

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.txt på hjemmesiden indeholder datamateriale til belysning af forskellen i sædkvalitet mellem SAS-ansatte og mænd, der lever

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2018

Vejledende besvarelse af hjemmeopgave, efterår 2018 Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby

Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby Vi betragter et lille uddrag af det såkaldte Sundby95-materiale, der er en stor undersøgelse af københavnernes sundhed. Det totale datasæt

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 22 sider. Skriftlig prøve: 13. december 2010 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Forelæsning 11: Envejs variansanalyse, ANOVA

Forelæsning 11: Envejs variansanalyse, ANOVA Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity I filen cadmium.txt ligger observationer fra et eksempel omhandlende lungefunktionen hos arbejdere i cadmium industrien (hentet fra P. Armitage & G. Berry: Statistical

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test) Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalse, ANOVA Peder Bacher DTU Compute, Dnamiske Sstemer Bgning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lngb Danmark e-mail:

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 15. december 2008 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Basal statistik. 16. september 2008

Basal statistik. 16. september 2008 Basal statistik 16. september 2008 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation sammenligning af to grupper uparret t-test

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 14. december 2013 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse Faculty of Health Sciences SPSS APPENDIX SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 12. september 2017 med instruktioner til SPSS-analyse svarende til

Læs mere

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22. Faculty of Health Sciences SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 22. januar 2018 1 / 20 SPSS APPENDIX med instruktioner til SPSS-analyse svarende

Læs mere

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse Faculty of Health Sciences SPSS APPENDIX SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 11. februar 2019 med instruktioner til SPSS-analyse svarende til nogle

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt

Læs mere

Basal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences

Basal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences Faculty of Health Sciences En- og to-stikprøve problemer One- and two-sample problems: Basal Statistik T-tests. Lene Theil Skovgaard 17. september 2013 1 / 67 Sammenligning af to situationer: Parret t-test

Læs mere

Ikke-parametriske tests

Ikke-parametriske tests Ikke-parametriske tests 2 Dagens menu t testen Hvordan var det nu lige det var? Wilcoxson Mann Whitney U Kruskall Wallis Friedman Kendalls og Spearmans correlation 3 t-testen Patient Drug Placebo difference

Læs mere

Faculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013

Faculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013 Faculty of Health Sciences Basal Statistik T-tests. Lene Theil Skovgaard 17. september 2013 1 / 67 En- og to-stikprøve problemer One- and two-sample problems: Sammenligning af to situationer: Parret t-test

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Basal statistik. 18. september 2007

Basal statistik. 18. september 2007 Basal statistik 18. september 2007 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation sammenligning af to grupper uparret t-test

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse

Læs mere

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015 Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet

Læs mere

Eksempel: To metoder, som forventes at skulle give samme resultat: MF: Transmitral volumetric flow, bestemt ved Doppler ekkokardiografi

Eksempel: To metoder, som forventes at skulle give samme resultat: MF: Transmitral volumetric flow, bestemt ved Doppler ekkokardiografi En- og to-stikprøve problemer 1 En- og to-stikprøve problemer 2 Basal statistik 13. februar 2007 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Basal statistik 19. september Eksempel: To metoder, som forventes at skulle give samme resultat:

Basal statistik 19. september Eksempel: To metoder, som forventes at skulle give samme resultat: En- og to-stikprøve problemer, september 2006 1 Basal statistik 19. september 2006 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

Basal statistik. 18. september 2007

Basal statistik. 18. september 2007 Basal statistik 18. september 2007 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation sammenligning af to grupper uparret t-test

Læs mere

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 17 sider. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (

Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 ( Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (28.-30. oktober) En stor undersøgelse søger at afdække forhold

Læs mere

Kommentarer til øvelser i basalkursus, 2. uge

Kommentarer til øvelser i basalkursus, 2. uge Kommentarer til øvelser i basalkursus, 2. uge Opgave 2. Vi betragter målinger af hjertevægt (i g) og total kropsvægt (målt i kg) for 10 normale mænd og 11 mænd med hjertesvigt. Målingerne er taget ved

Læs mere

Opgavebesvarelse, korrelerede målinger

Opgavebesvarelse, korrelerede målinger Opgavebesvarelse, korrelerede målinger I 18 familier bestående af far, mor og 3 børn (i veldefinerede aldersintervaller, med child1 som det ældste barn og child3 som det yngste) har man registreret antallet

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl Reeksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 13-08-2018 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3. Model Program (8.15-10): 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. Bruger nu to indices: i = 1,...,k for gruppenr. og j = 1,...,n i for observation indenfor gruppe. k = 3 grupper: µ 1

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget?

Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget? Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget? Udarbejdet af frivillige Frederik Carl Windfeld og Kim Alexander Byrial Juárez Jensen samt sekretariatet i Transparency

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2018

Vejledende besvarelse af hjemmeopgave, efterår 2018 Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

To-sidet varians analyse

To-sidet varians analyse To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),

Læs mere

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance Plot af B j + ǫ ij (Y ij µ α i )): Program: res 4 2 0 2 B1 B2 B3 B4 B5 1. vi starter med at gennemgå opgave 3 side 513. 2. nyt: to-sidet variansanalyse 1 2 3 4 5 block σ 2 : within blocks variance σb 2

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 21 sider. Skriftlig prøve: 27. maj 2010 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Institut for Epidemiologi og Socialmedicin Institut for Biostatistik. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Opgave 1 Læs afsnit.1 i An Introduction to Medical Statistics, specielt

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression Program Indhold af kursus i overskrifter 1. overblik over kursus (opgaver fra sidst samt huspriser som eksempler). 2. p-værdi 3. uformel evaluering 1. sandsynlighedsregning sandsynlighedsfordelinger (normal,

Læs mere

Appendiks Økonometrisk teori... II

Appendiks Økonometrisk teori... II Appendiks Økonometrisk teori... II De klassiske SLR-antagelser... II Hypotesetest... VII Regressioner... VIII Inflation:... VIII Test for SLR antagelser... IX Reset-test... IX Plots... X Breusch-Pagan

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 30. maj 2006 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

Eksempel , opg. 2

Eksempel , opg. 2 Faktorer En faktor er en gruppering/inddeling af målinger/observationer pga. Tilsigtede variationer i en eller flere forsøgsparametre Nødvendige (potentielle) blok-effekter såsom gentagne målinger på samme

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et

Læs mere

Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 6. november 2007 Forsøgsplanlægning Stikprøvestørrelse 1 41 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren Faculty of Life Sciences Program Sammenligning af grupper Ensidet ANOVA Claus Ekstrøm E-mail: ekstrom@life.ku.dk Sammenligning af to grupper: tre eksempler Sammenligning af mere end to grupper: ensidet

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2018

Vejledende besvarelse af hjemmeopgave, forår 2018 Vejledende besvarelse af hjemmeopgave, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 4. november 2008 Forsøgsplanlægning Stikprøvestørrelse 1 46 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2018

Vejledende besvarelse af hjemmeopgave, efterår 2018 Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 ( Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (10.-12. april) I et randomiseret forsøg sammenlignes vitamin D behandling

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 15. december 2012 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen Kursus 02402/02323 Introducerende Statistik Forelæsning 10: Envejs variansanalyse, ANOVA Oversigt 1 Intro: Regneeksempel og TV-data fra B&O 2 Model og hypotese Per Bruun Brockhoff DTU Compute, Statistik

Læs mere

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9 Indhold 1 Ensidet variansanalyse 2 1.1 Estimation af middelværdier............................... 3 1.2 Estimation af standardafvigelse............................. 3 1.3 F-test for ens middelværdier...............................

Læs mere