Opgavebesvarelse, korrelerede målinger

Størrelse: px
Starte visningen fra side:

Download "Opgavebesvarelse, korrelerede målinger"

Transkript

1 Opgavebesvarelse, korrelerede målinger I 18 familier bestående af far, mor og 3 børn (i veldefinerede aldersintervaller, med child1 som det ældste barn og child3 som det yngste) har man registreret antallet af infektioner over et bestemt tidsinterval. Familierne er inddelt efter, hvor tæt, de bor sammen, angivet ved faktoren crowding, som har 3 niveauer, uncrowded, crowded og overcrowded. Data ses i tabellen nedenfor: og de ligger i det såkaldte lange format på hjemmesiden. Vi ønsker at undersøge, om boligforholdene har betydning for antallet af infektioner, samt om visse familiemedlemmer er mere udsat end andre. 1

2 1. Indlæs data i det midlertidige datasæt swabs, og overvej strukturen i disse: Vi indlæser i det lidt kortere navn sw og laver den numeriske family om til en faktor: sw <- read.table(" header=t) sw$family<-as.factor(sw$family) Herefter skaffer vi os et overblik ved at lave summary: summary(sw) > summary(sw) crowding family name swabs crow :30 1 : 5 child1:18 Min. : overcrow:30 2 : 5 child2:18 1st Qu.: uncrow :30 3 : 5 child3:18 Median : : 5 father:18 Mean : : 5 mother:18 3rd Qu.: : 5 Max. : (Other):60 Vi har totalt set 90 observationer (18 familier, hver med 5 medlemmer), og 4 variable: crowding, family, name og swabs. (a) Hvad er outcome? Det er variablen swabs, som angiver antallet af infektioner over en vis periode. Vi skal analysere denne i normalfordelingsbaserede modeller, selv om dette måske ikke er helt rimeligt. Kommentarer til dette gives til sidst. 2

3 (b) Hvilke kovariater har vi? Vi er interesserede i at evaluere effekten af boligforhold (crowding) samt status i familien (name). Men vi er også nødt til at tage hensyn til, at personerne hænger sammen 5 og 5 i familier. (c) - og hvordan skal effekten af disse beskrives i modellen? dvs. hvilke er systematiske, og hvilke er tilfældige? Kovariaterne crowding og name er systematiske effekter, medens family er en tilfældig (random) effect, som er nestet i crowding. Vi er ikke interesserede i disse specifikke familier, de er bare repræsentanter for familier i al almindelighed. 2. Lav en (eller flere) arbejdstegning(er), der så vidt muligt indeholder al informationen i data. Her er lavet tre spaghetti-plots, et for hver af de 3 typer af boligforhold (crowding), således at man kan se hver af de 18 familier. Denne konstruktion kræver installation af pakken lattice, og for at få tegnet linierne på fornuftig vis, sørger vi for at sortere dataframen først: library(lattice) sw <- sw[order(sw$crowding, sw$name),] xyplot(swabs~name crowding,group=family,type= l,data=sw) 3

4 uncrow swabs crow 0 overcrow child1 child2 child3 father mother name Vi ser her generelt højere værdier for overcrow, måske mest for de mindste børn. 3. Fit en passende varianskomponentmodel til disse data, dvs. en model, der specificerer samme korrelation mellem alle familiemedlemmer i samme familie. Her er tale om en mixed model, med de ovenfor specificerede effekter, og vi vil benytte funktionen lme. Derfor skal vi først have fat i den ekstra pakke nlme: install.packages("nlme") library(nlme) 4

5 For at få uncrow som reference, skriver vi sw <- within(sw, crowding <- relevel(crowding, ref = "uncrow")) hvorefter vi fitter den additive varianskomponentmodel: model1 = lme(swabs ~ crowding + name, data=sw, random=~1 family) og får outputtet (beskåret) > summary(model1) Linear mixed-effects model fit by REML Data: sw AIC BIC loglik Random effects: Formula: ~1 family (Intercept) Residual StdDev: Fixed effects: swabs ~ crowding + name Value Std.Error DF t-value p-value (Intercept) crowdingcrow crowdingovercrow namechild namechild namefather namemother Standardized Within-Group Residuals: Min Q1 Med Q3 Max Number of Observations: 90 Number of Groups: 18 5

6 > intervals(model1) Approximate 95% confidence intervals Fixed effects: lower est. upper (Intercept) crowdingcrow crowdingovercrow namechild namechild namefather namemother attr(,"label") [1] "Fixed effects:" Random Effects: Level: family lower est. upper sd((intercept)) Within-group standard error: lower est. upper > anova(model1) numdf dendf F-value p-value (Intercept) <.0001 crowding name <.0001 Den fittede model kan illustreres ved at tegne de predikterede værdier, som her er personspecifikke, dvs. de inkluderer de tilfældige effekter for hver familie: xyplot(predict(model1)~name crowding,group=family,type= l,data=sw) 6

7 overcrow predict(model1) 20 uncrow crow child1 child2 child3 father mother name Fra outputtet ovenfor ses en signifikant effekt af crowding (P=0.019), og fra de tilhørende estimater ses, at der er flest infektioner, når man bor trangt og færre, når man bor bedre, som forventet. Der er ligeledes en (stærkt) signifikant forskel på antal infektioner blandt de 5 typer af familiemedlemmer (P < ), idet de mindste børn har flest, og forældrene har færrest. Den automatiske modelkontrol plot(model1) giver en tegning af residualer mod forventede værdier: 7

8 Fitted values Standardized residuals Her er tale om de betingede (conditional) residualer, hvor de personspecifikke predikterede værdier (se den tidligere figur) er fratrukket observationerne. Vi kan desuden få et check af normalfordelingstilpasningen ved at skrive: par(mfrow=c(1,2)) hist(resid(model1)) qqnorm(resid(model1)) qqline(resid(model1),col="red",lwd=2) Histogram of resid(model1) resid(model1) Frequency Normal Q Q Plot Theoretical Quantiles Sample Quantiles 8

9 Hvis vi vil se på prediktioner på gruppeniveau, med tilhørende residualer, må vi i stedet fitte den samme model på en anden måde, nemlig med en Compound Symmetry kovariansstruktur: model1.cs = gls(swabs ~crowding + name, data=sw, correlation = corcompsymm(form=~1 family)) og derefter tegne de tilhørende fittede værdier med xyplot(predict(model1.cs)~name,group=family,type= l,data=sw) 15 predict(model1.cs) 10 5 child1 child2 child3 father mother name Den automatiske modelkontrol plot(model1.cs) giver her en tegning af de sædvanlige residualer mod de sædvanlige forventede værdier: 9

10 Fitted values Standardized residuals samt checket for normalfordelingen: Histogram of resid(model1.cs) resid(model1.cs) Frequency Normal Q Q Plot Theoretical Quantiles Sample Quantiles På begge plots af residualer mod fittede værdier kan man se en tendens til trompetfacon, så modellen er ikke helt god. Mere om det til allersidst i besvarelsen. (a) Hvad er estimatet for denne korrelation mellem familiemedlemmer i samme familie? Korrelationen estimeres ud fra de to varianskomponenter, til =

11 (b) Giv et estimat (med konfidensinterval) for forskellen på overcrowded og uncrowded. Da uncrowded er referenceniveau for crowding, kan vi direkte aflæse estimatet for denne sammenligning på linien overcrow. Det er 5.60(1.73), dvs. med 95% konfidensinterval på (1.91, 9.29). (c) Giv også et estimat (med konfidensinterval) for forskellen på ældste og yngste barn. Da det for name er det ældste barn, der er reference, får vi ligeledes direkte, at det yngste barn er mere belastet af infektioner end det ældste, med en forskel estimeret til 7.28 (1.61), med 95% konfidensinterval på (4.06, 10.49). 4. Er der evidens for forskellig effekt af trange boligforhold for de enkelte familienmedlemmer? Ovenfor fittede vi en model, der havde en effekt af boligforhold, der var antaget at være den samme for alle familiemedlemmer, idet der var tale om en additiv model, dvs. uden interaktion (vekselvirkning). Vi ser nu på en model med interaktion, for at se, om denne har signifikant betydning model.int <- lme(swabs ~crowding + name + crowding*name, data=sw, random=~1 family) og vi finder P-værdierne: > anova(model.int) numdf dendf F-value p-value (Intercept) <.0001 crowding

12 name <.0001 crowding:name Der ses tydeligvis ingensomhelst indikation af interaktion, dvs. effekten af boligforhold synes at betyde nogenlunde det samme for alle typer af familiemedlemmer (P=0.94). Figuren nedenfor illustrerer de predikterede værdier i modellen med interaktion (faktisk blot gennemsnit af 6 familier). Der ses en svag tendens til, at effekten af boligforhold er mindst for fædrene, men dette er som nævnt ovenfor, absolut ikke signifikant. 15 predict(model.int) 10 5 child1 child2 child3 father mother name Figuren er dannet med > model.int = gls(swabs ~crowding + name + crowding*name, + data=sw, correlation = corcompsymm(form=~1 family)) xyplot(predict(model.int)~name,group=family,type= l,data=sw) 5. Lav en illustration af de fittede værdier i den model, I ender med. 12

13 Da der ikke er nogen signifikant interaktion, vil vi udelade interaktionsleddet igen, og ender således med modellen fra spørgsmål 3. De predikterede værdier i denne model har vi allerede set. Da dette er en additiv model, er der tale om 3 parallelle kurver. 6. Overvej, om det var fornuftigt, at benytte den anvendte kovariansstruktur. Prøv at fitte modellen med en ustruktureret kovarians og se, hvordan resultaterne ændrer sig. Man kunne sagtens forestille sig, at der var større variation mellem nogle typer af familiemedlemmer (på tværs af familier) end mellem andre. Det oprindelige spaghettiplot i spørgsmål 2 tyder på en noget større variation mellem de små børn end f.eks. mellem fædre. Desuden kunne man forestille sig, at der var større korrelation mellem børnene indbyrdes, samt mellem mødre og børn, simpelthen fordi det muligvis kunne være begrænset, hvor meget faderen opholdt sig i familien. Vi kan undersøge disse ting ved at benytte en helt generel kovarinsstruktur i stedet for den compound symmetry, som benyttes, når man ser det som en varianskomponentmodel. Vi udelader den ubetydelige interaktionen og opskriver den additive model med ustruktureret kovarians: model.un = gls(swabs ~crowding + name, data=sw, corr = corsymm(form=~1 family), weights = varident(form = ~ 1 name), method="reml") og får herefter resultaterne > summary(model.un) Generalized least squares fit by REML Model: swabs ~ crowding + name 13

14 Data: sw AIC BIC loglik Correlation Structure: General Formula: ~1 family Parameter estimate(s): Correlation: Variance function: Structure: Different standard deviations per stratum Formula: ~1 name Parameter estimates: child1 child2 child3 father mother Coefficients: Value Std.Error t-value p-value (Intercept) crowdingcrow crowdingovercrow namechild namechild namefather namemother Standardized residuals: Min Q1 Med Q3 Max Residual standard error: Degrees of freedom: 90 total; 83 residual > confint(model.un) 2.5 % 97.5 % (Intercept) crowdingcrow crowdingovercrow

15 namechild namechild namefather namemother > anova(model.un) Denom. DF: 83 numdf F-value p-value (Intercept) <.0001 crowding e-04 name <.0001 I lighed med resultaterne fra spørgsmål 3, finder vi her, at der er en signifikant effekt af crowding (P= mod før 0.019), og fra de tilhørende estimater ses, at der er flest infektioner, når man bor trangt og færre, når man bor bedre, som forventet. Der er ligeledes en (stærkt) signifikant forskel på de 5 typer af familiemedlemmer (P < ), idet de mindste børn har flest, og forældrene har færrest. I ouputtet ovenfor (under Correlation:) kan man se den estimerede korrelationsmatrix, men det er vanskeligt at overskue, i hvilken rækkefølge, de er skrevet ud. Vi benytter derfor følgende kommandoer for at udtrække informationen: #Kovariansmatrix Sigma <- getvarcov(model.un) rownames(sigma) <- unique(sw$name) colnames(sigma) <- unique(sw$name) #Korrelationsmatrix Corr <- cov2cor(getvarcov(model.un)) rownames(corr) <- unique(sw$name) colnames(corr) <- unique(sw$name) hvorefter vi udskriver de to matricer: 15

16 > Sigma Marginal variance covariance matrix child1 child2 child3 father mother child child child father mother Standard Deviations: > Corr Marginal variance covariance matrix child1 child2 child3 father mother child child child father mother Standard Deviations: Fra diagonalen i variansmatricen (Sigma) ser vi, at der er mindst variation mellem fædre og størst variation mellem de yngste børn. Da det samme er tilfældet for selve niveauet af målingerne, kunne man fristes til at analysere logaritmer, men da der er ægte nuller i materialet, kan dette ikke lade sig gøre. Fra korrelationsmatricen (Corr) ser vi, at de største korrelationer forekommer mellem mor og ældste barn (0.34), samt mellem yngste barn og dets søskende (0.41 resp. 0.46). Korrelationen mellem far og mor estimeres til at være negativ (-0.29), men nu skal man jo ikke overfortolke... Vi kan sammenligne de to kovariansstrukturer ved at skrive > anova(model.un, model1.cs) Model df AIC BIC loglik Test L.Ratio p-value model.un model1.cs vs

17 hvorved vi ser, at P-værdien bliver Modellen med den mere generelle kovariansstruktur fitter altså signifikant bedre end den simple. Estimatet for effekten af overcrow vs. uncrow ses at være 4.72 (1.14), hvor vi i spørgsmål 3 fik 5.60 (1.73). Grunden til, at vi får et lidt andet estimat end i den tidligere model er, at familiemedlemmerne nu vægter lidt anderledes i vurderingen af den enkelte families niveau, pga de uens varianser. Tilsvarende er estimatet for forskellen på yngste og ældste barn 7.28 (1.54) mod før 7.28 (1.61). Her er det kun konfidensintervallet, der har ændret sig, fordi alle personer med samme status i familien vægtes ens i begge modeller. 7. Hvilke betragtninger tror I, der ligger til grund for valget af design i denne undersøgelse? Et alternativ kunne jo være blot at undersøge et tilfældigt udpluk af personer. Dette design giver bedre mulighed for at sammenligne familiemedlemmer, fordi der er tale om parrede sammenligninger. Herved slipper vi ved denne sammenligning for den store variation, man må forvente at finde mellem familier, pga. genetik, madvaner mv. Til gengæld får man en mere upræcis vurdering af effekten af boligforhold, fordi korrelationen mellem familiemedlemmer af samme familie nedsætter mængden af uafhængig information. Hvis I herefter har tid, skal I prøve at se, om I kan opnå nogle af ovenstående resultater med traditionelle analysemetoder: 8. Udregn gennemsnitligt antal infektioner for hver familie Dette kunne sikkert gøres smartere, men her er valgt blot at gemme gennemsnittene i den løse variabel mswabs, som defineres ved mswabs <- aggregate(sw$swabs, by=list(sw$family), FUN=mean)[,2] Herefter danner vi blot den tilhørende vektor crowding direkte, omdanner den til faktoren Fcrowding og definerer med det samme niveauet uncrow som reference til brug for den senere analyse: 17

18 crowding <- c(rep("overcrow",6), rep("crow",6), rep("uncrow",6)) Fcrowding <- factor(c(rep("overcrow",6), rep("crow",6), rep("uncrow",6))) Fcrowding <- relevel(fcrowding, ref = "uncrow") Vi har nu 18 observationer, en for hver familie: > cbind(crowding,mswabs) crowding mswabs [1,] "overcrow" "12.4" [2,] "overcrow" "19.6" [3,] "overcrow" "12.2" [4,] "overcrow" "13.6" [5,] "overcrow" "12.4" [6,] "overcrow" "5.8" [7,] "crow" "10.6" [8,] "crow" "10.6" [9,] "crow" "8" [10,] "crow" "7.6" [11,] "crow" "11.2" [12,] "crow" "11.6" [13,] "uncrow" "4.8" [14,] "uncrow" "9" [15,] "uncrow" "6.6" [16,] "uncrow" "9.8" [17,] "uncrow" "4.4" [18,] "uncrow" "7.8" 9. Brug de nydannede data til at vurdere effekten af boligforhold (a) Hvilken type analyse er der tale om her? Husk en figur til illustration. Vi skal sammenligne det gennemsnitlige antal infektioner i de 18 familier (mswabs), og familierne er inddelt i 3 grupper, angivet ved boligforholdene, crowding. Der er således tale om en ensidet variansanalyse. En passende figur kunne være et scatterplot, da vi har så få observationer (hvis vi havde haft flere, ville et Box Plot være mere rimeligt): 18

19 tekst <- c("uncrow","crow","overcrow") par(mfrow=c(1,1)) plot(as.numeric(fcrowding),mswabs, xaxt="n",xlab=,col="blue") axis(1, at = 1:3, labels=tekst) mswabs uncrow crow overcrow Nu laver vi den ensidede variansanalyse model.mswabs <- lm(mswabs ~ Fcrowding) som giver os outputtet > summary(model.mswabs) Call: lm(formula = mswabs ~ Fcrowding) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) 19

20 (Intercept) e-05 *** Fcrowdingcrow Fcrowdingovercrow ** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 15 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: on 2 and 15 DF, p-value: > confint(model.mswabs) 2.5 % 97.5 % (Intercept) Fcrowdingcrow Fcrowdingovercrow > anova(model.mswabs) Analysis of Variance Table Response: mswabs Df Sum Sq Mean Sq F value Pr(>F) Fcrowding * Residuals Signif. codes: 0 *** ** 0.01 * Vi finder, ligesom i spørgsmål 3, at der er en signifikant effekt af boligforhold på antallet af infektioner, P= (b) Giv igen et estimat (med konfidensinterval) for forskellen på overcrowded og uncrowded, og sammenlign med det ovenfor fundne (spm. 3b). Da uncrowded er referenceniveau for crowding, kan vi igen direkte aflæse estimatet for denne sammenligning på linien Fcrowdingovercrow. Det er 5.60(1.73), dvs. med 95% konfidensinterval på (1.91, 9.29), altså ganske som vi fandt i mixed effects -modellen fra spørgsmål 3. 20

21 (c) Hvorfor kan vi ikke udfra denne analyse sige noget om forskelle på familiemedlemmer? Vi regner her på gennemsnit over 5 familiemedlemmer, så vi kan derfor ikke sige noget om de indbyrdes forskelle på disse ud fra denne analyse. 10. Nu ser vi et øjeblik væk fra faktoren crowding og betragter bare de 18 familier, som om de var tilfældige stikprøver fra samme population. Vi går altså tilbage til det oprindelige datasæt, sw: (a) Lav en tosidet variansanalyse med faktorerne family og name. Her behøver vi blot at bruge lm: anova2 <- lm(swabs ~ factor(family) + name, data=sw) og finder outputtet: > summary(anova2) Call: lm(formula = swabs ~ factor(family) + name, data = sw) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.057e e e-05 *** factor(family) e e * factor(family) e e factor(family) e e factor(family) e e factor(family) e e * factor(family) e e factor(family) e e factor(family) e e factor(family) e e factor(family) e e factor(family) e e factor(family) e e * factor(family) e e factor(family) e e factor(family) e e factor(family) e e * 21

22 factor(family) e e namechild e e *** namechild e e e-05 *** namefather e e namemother e e Signif. codes: 0 *** ** 0.01 * Residual standard error: on 68 degrees of freedom Multiple R-squared: ,Adjusted R-squared: F-statistic: 5.46 on 21 and 68 DF, p-value: 4.356e-08 > anova(anova2) Analysis of Variance Table Response: swabs Df Sum Sq Mean Sq F value Pr(>F) factor(family) ** name e-09 *** Residuals Signif. codes: 0 *** ** 0.01 * Her ser vi en tydelig signifikant forskel på de 18 familier (P=0.001), men en endnu tydeligere forskel på familiemedlemmerne (P < ). (b) Er der evidens for forskelle på de 5 familiemedlemmer? Ja, som nævnt ovenfor er dette meget tydeligt (P < ). De yngste børn ser ud til at være de mest sensitive. (c) Giv igen et estimat (med konfidensinterval) for forskellen på ældste og yngste barn, og sammenlign med det tidligere fundne (spm. 3c). Her finder vi ligesom før, at det ældste barn er mindre belastet af infektioner end det yngste, med en forskel estimeret til 7.28 (1.61), ganske som i spørgsmål 3c. 11. Kan vi vurdere interaktionen mellem crowding og name uden at benytte varianskomponentmodellen? Ja, det kan man faktisk godt, men det kræver, at man bibeholder familien som fixed effect, altså benytter koden 22

23 anova3 <- lm(swabs ~ factor(crowding) + factor(family) + name +factor(crowding)*name, data=sw) der vil give outputtet > anova(anova3) Analysis of Variance Table Response: swabs Df Sum Sq Mean Sq F value Pr(>F) factor(crowding) *** factor(family) name e-08 *** factor(crowding):name Residuals Signif. codes: 0 *** ** 0.01 * som ses at give det samme resultat som i spørgsmål Diskuter hvad der sker med de forskellige analysetyper, hvis der mangler nogle observationer. Det afhænger meget af, hvorfor sådanne observationer mangler. Hvis vi bare er kommet til at smide informationen væk, vil mixed model stadig give fornuftige svar og udnytte alle forhåndenværende observationer. Men den ensidede variansanalyse på gennemsnittene for hver familie vil ikke længere give det samme resultat, den vil faktisk være forkert. Hvor meget forkert, den er, afhænger af, hvilken observation, der mangler. Hvis f.eks. det yngste barn fra en overcrowded familie mangler, vil denne familie se ud til at have et ret lavt antal gennemsnitlige infektioner, og derved vil effekten af boligforhold blive undervurderet. 23

24 Hvis en observation mangler fordi den f.eks. er meget høj, så er der ikke nogen måde at redde det på! Det kaldes informative missing, og det er anledning til mange fejl og mistolkninger. Konklusioner: Der er en signifikant forskel på familier (P=0.01), men det interessrerer os sådan set ikke. Denne faktor optræder i modellen som en tilfældig effekt, som gør det muligt at vurdere effekten af boligforhold. Der er en effekt af boligforhold (crowding) på antallet af infektioner (P=0.019), og effekten af denne kan kvantificeres med proc mixed, eller ved hjælp af ensidet variansanalyse på simple familie-gennemsnit, det sidste dog kun i tilfælde af fuldstændigt datasæt, dvs. ingen manglende værdier. Der er signifikant forskel på antallet af infektioner hos de forskellige typer af familiemedlemmer (P < ). Der er flest infektioner blandt de yngste børn, og færrest hos forældrene. Men: Vi har hele vejen antaget, at det er rimeligt at lave normalfordelingsbaserede analyser, og dette ser ikke rigtigt fornuftigt ud, f.eks. fordi et antal altid er ikke-negativt, og her har vi endda en del 0 er. Man kunne forsøge sig med en kvadratrodstransformation, men det giver vanskeligheder ved fortolkningen. Hvis man ønsker at udregne prediktionsområder for antallet af infektioner, skal man i hvert fald gøre et eller andet anderledes end ovenfor, og dette kunne være at modellere antallene som Poissonfordelte. Dette er dog ikke en del af dette kursus. 24

Opgavebesvarelse, korrelerede målinger

Opgavebesvarelse, korrelerede målinger Opgavebesvarelse, korrelerede målinger I 18 familier bestående af far, mor og 3 børn (i veldefinerede aldersintervaller, med child1 som det ældste barn og child3 som det yngste) har man registreret antallet

Læs mere

Opgavebesvarelse, korrelerede målinger

Opgavebesvarelse, korrelerede målinger Opgavebesvarelse, korrelerede målinger I 18 familier bestående af far, mor og 3 børn (i veldefinerede aldersintervaller, med child1 som det ældste barn og child3 som det yngste) har man registreret antallet

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance

Plot af B j + ǫ ij (Y ij µ α i )): σ 2 : within blocks variance. σb 2 : between blocks variance Plot af B j + ǫ ij (Y ij µ α i )): Program: res 4 2 0 2 B1 B2 B3 B4 B5 1. vi starter med at gennemgå opgave 3 side 513. 2. nyt: to-sidet variansanalyse 1 2 3 4 5 block σ 2 : within blocks variance σb 2

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Basal statistik. Korrelerede målinger. En gennemgående antagelse hidtil. Eksempel: Calcium tilskud. Faculty of Health Sciences

Basal statistik. Korrelerede målinger. En gennemgående antagelse hidtil. Eksempel: Calcium tilskud. Faculty of Health Sciences Faculty of Health Sciences Korrelerede målinger Basal statistik Korrelerede målinger i R Lene Theil Skovgaard 8. april 2019 med visse uløste problemer Tilfældige effekter Varianskomponentmodeller Modeller

Læs mere

Faculty of Health Sciences. Basal statistik. Korrelerede målinger i R. Lene Theil Skovgaard. 8. april / 114

Faculty of Health Sciences. Basal statistik. Korrelerede målinger i R. Lene Theil Skovgaard. 8. april / 114 Faculty of Health Sciences Basal statistik Korrelerede målinger i R Lene Theil Skovgaard 8. april 2019 1 / 114 Korrelerede målinger med visse uløste problemer Tilfældige effekter Varianskomponentmodeller

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2018

Vejledende besvarelse af hjemmeopgave, efterår 2018 Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares) Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.dat er en let modificeret udgave af oeko.txt på hjemmesiden, blot med variabelnavnet sas.ansat i stedet for sas_ansat.

Læs mere

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher Kursus 02323: Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity I filen cadmium.txt ligger observationer fra et eksempel omhandlende lungefunktionen hos arbejdere i cadmium industrien (hentet fra P. Armitage & G. Berry: Statistical

Læs mere

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Indlæsning og

Læs mere

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3. Model Program (8.15-10): 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. Bruger nu to indices: i = 1,...,k for gruppenr. og j = 1,...,n i for observation indenfor gruppe. k = 3 grupper: µ 1

Læs mere

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Korrelerede målinger. Lene Theil Skovgaard 8. april 2019 1 / 21 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Plots: s. 3, 4,

Læs mere

Kommentarer til øvelser i basalkursus, 2. uge

Kommentarer til øvelser i basalkursus, 2. uge Kommentarer til øvelser i basalkursus, 2. uge Opgave 2. Vi betragter målinger af hjertevægt (i g) og total kropsvægt (målt i kg) for 10 normale mænd og 11 mænd med hjertesvigt. Målingerne er taget ved

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences APPENDIX Basal Statistik - SPSS Korrelerede målinger. Lene Theil Skovgaard 8. april 2019 med instruktioner til SPSS-analyse svarende til nogle af slides Plots: s. 3, 4, 7, 11-12

Læs mere

Introduktion til GLIMMIX

Introduktion til GLIMMIX Introduktion til GLIMMIX Af Jens Dick-Nielsen jens.dick-nielsen@haxholdt-company.com 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.

Læs mere

Forelæsning 11: Envejs variansanalyse, ANOVA

Forelæsning 11: Envejs variansanalyse, ANOVA Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9 Indhold 1 Ensidet variansanalyse 2 1.1 Estimation af middelværdier............................... 3 1.2 Estimation af standardafvigelse............................. 3 1.3 F-test for ens middelværdier...............................

Læs mere

Eksamen i Statistik for Biokemikere, Blok januar 2009

Eksamen i Statistik for Biokemikere, Blok januar 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet

Læs mere

Kursus 02402/02323 Introducerende Statistik

Kursus 02402/02323 Introducerende Statistik Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 15. december 2008 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i Da er r i = e i ˆσ ei t(n 3) (tæt på N(0,1) hvis n ikke alt for lille). Program 1. lineær regression: opgave 3 og 13 (sukker-temperatur). 2. studentiserede residualer, multipel regression. Tommelfinger-regel:

Læs mere

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse Faculty of Health Sciences SPSS APPENDIX SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 12. september 2017 med instruktioner til SPSS-analyse svarende til

Læs mere

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22. Faculty of Health Sciences SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 22. januar 2018 1 / 20 SPSS APPENDIX med instruktioner til SPSS-analyse svarende

Læs mere

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse Faculty of Health Sciences SPSS APPENDIX SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 11. februar 2019 med instruktioner til SPSS-analyse svarende til nogle

Læs mere

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt enote 5: Simpel lineær regressions analse Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression To variable: og Beregn mindstekvadraters estimat af ret linje Inferens med

Læs mere

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression Program Indhold af kursus i overskrifter 1. overblik over kursus (opgaver fra sidst samt huspriser som eksempler). 2. p-værdi 3. uformel evaluering 1. sandsynlighedsregning sandsynlighedsfordelinger (normal,

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere. Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 32 Konsekvenser af Heteroskedasticitet Antag her (og i resten) at MLR.1 til MLR.4 er opfyldt. Antag MLR.5 ikke er opfyldt, dvs. vi har heteroskedastiske

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet Antag vi har model: y = β 0 + β 1 x 2 + + β k x k + u. Vi ønsker

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 34 Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Antag vi har model: Vi ønsker at teste hypotesen y = β 0 + β 1 x

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

To-sidet variansanalyse

To-sidet variansanalyse Program 1. To-sidet variansanalyse 2. Hierarkisk princip 3. Tre (og flere) sidet variansanalyse 4. Variansanalyse med blocking 5. Flersidet variansanalyse med tilfældige faktorer 6. En oversigtsslide til

Læs mere

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren Faculty of Life Sciences Program Sammenligning af grupper Ensidet ANOVA Claus Ekstrøm E-mail: ekstrom@life.ku.dk Sammenligning af to grupper: tre eksempler Sammenligning af mere end to grupper: ensidet

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 ( Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (10.-12. april) I et randomiseret forsøg sammenlignes vitamin D behandling

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 14. december 2013 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

To-sidet varians analyse

To-sidet varians analyse To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),

Læs mere

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi

Læs mere

Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget?

Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget? Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget? Udarbejdet af frivillige Frederik Carl Windfeld og Kim Alexander Byrial Juárez Jensen samt sekretariatet i Transparency

Læs mere

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 15. december 2006 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 15. december 2012 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl Reeksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 13-08-2018 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test) Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalse, ANOVA Peder Bacher DTU Compute, Dnamiske Sstemer Bgning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lngb Danmark e-mail:

Læs mere

Appendiks Økonometrisk teori... II

Appendiks Økonometrisk teori... II Appendiks Økonometrisk teori... II De klassiske SLR-antagelser... II Hypotesetest... VII Regressioner... VIII Inflation:... VIII Test for SLR antagelser... IX Reset-test... IX Plots... X Breusch-Pagan

Læs mere