Klasseaktiviteter Dag 4

Størrelse: px
Starte visningen fra side:

Download "Klasseaktiviteter Dag 4"

Transkript

1 Klasseaktiviteter Dag 4 Bemærk at jeg i denne løsning ikke altid har output med. Tanken er, at I skal se løsningen og selv prøve at køre kommandoerne (og dermed undgår jeg også at dette dokument bliver alt for langt). Opgave Vi indlæser rmr.dbf data i R: library( foreign ) d <- read.dbf( 'rmr.dbf' ) head( d ) Og undersøger for en god ordens skyld for manglende observationer: summary( d ) Der er ingen missing values. 1.2 Vi er interesseret i at modellere stofskifte som funktion af kropsvægten. Derfor bliver rmr vores respons (Y) og bw vores forklarende variabel (X). Plottet laves med: plot(d$bw, d$rmr, xlab="body weight", ylab="resting metabolic rate" )

2 1.3 Vi formulerer en model for at beskrive forholdet mellem kropsvægt og stofskifte. Da plottet viser en lineær trend, fitter vi rmr som en lineær funktion af body weight: lm1 <- lm( rmr ~ bw, data=d ) summary( lm1 ) Vi finder et intercept på med tilhørende SE på Interceptet svarer til middelværdien vi får ved at ekstrapolere regressionslinien til en person med en body weight på 0 og har derfor ikke nogen fortolkning. Vi får en hældning på 7.06 kcal pr. dag pr. kilo med tilhørende SE på Effekten af kropsvægt er højsignifikant, da p-værdien er mindre end Konfidensintervallet bestemmes ved kommandoen confint(): confint( lm1 ) Dvs for hvert ekstra kilo øges RMR med 7.06 kcal pr dag, 95% CI (5.09;9.03 ), p< Vi tilføjer den prædikterede regressionslinje, samt konfidensintervallet til plottet i opgave 1.2. Først skal vi definere en dataframe med den forklarende variabel, som er bw. Vi er interesserede i

3 at få fittet en linje over det samme body weight interval som tidligere og benytter kommandoen range, til at finde dette interval. range( d$bw ) Intervallet for bw er (43.1;143.3) og vi laver derfor en dataframe som indeholder en bw-variabel som løber fra 43 til 143. newbw <- data.frame( bw=43:143 ) Vi kan nu regne konfidens- og prædiktionsintervallet ved brug af predict: clim <- predict(lm1, newbw, interval="confidence") plim <- predict(lm1, newbw, interval="prediction") Og vi plotter disse op mod vores data ved hjælp af plot() og matlines(): plot( d$rmr~d$bw, xlab="body weight", ylab="resting metabolic rate" ) matlines( newbw$bw, clim, lty=c(1,2,2), col=c(1,"red","red") ) matlines( newbw$bw, plim, lty=c(1,2,2), col=c(1,"blue","blue") ) 1.5 For at finde det forventede stofskifte for en kvinde med en vægt på 70 kg kan vi igen benytte predict(). Først skal vi danne et nyt datasæt ved brug af data.frame(), hvor den forklarende variabel sættes lig 70.

4 bw70 <- data.frame( bw=70 ) predict( lm1, bw70, interval="confidence" ) Her er den første værdi fit prædikteret RMR for en kvinde på 70 kg. Mere lavpraktisk kunne man indsætte tallet 70 i sin estimerede regressionsmodel: *70 og få det samme resultat. For at konkludere om der er en forskel i stofskifte for mænd og kvinder med en vægt på 70 kg kan vi sammenligne deres konfidensintervaller. Konfidensintervallet for kvinder på 70 kg findes til ( ; ) kcal/dag, mens konfidensintervallet for mænd på 70 kg er oplyst at være (1360;1452) kcal/dag. Da intervallerne ikke overlapper er der forskel på det gennemsnitlige stofskifte for mænd og kvinder på 70 kg. Denne sammenligning kan også besvares ud fra plottet i samme opgave, hvor vi tilføjer et punkt (et grønt +) som angiver det nedre konfidensinterval for mænd. plot( d$rmr~d$bw, xlab="body weight", ylab="resting metabolic rate" ) matlines( newbw$bw, clim, lty=c(1,2,2), col=c(1,"red","red")) matlines( newbw$bw, plim, lty=c(1,2,2), col=c(1,"blue","blue")) points( 70, 1360, pch=3, col='green' )

5 Uden den helt store nøjagtighed kan vi se at den nedre grænse for mænds konfidensinterval ikke ligger i kvinders konfidensinterval. 1.6 Vi bestemmer den prædikterede RMR for en kvinde på 80 kg. For at få finde et 95%-prædiktionsinterval (normalområde) for rmr skriver vi interval="prediction" i vores predict-kommando. bw80 <- data.frame( bw=80 ) predict( lm1, bw80, interval="prediction" ) Estimatet for en kvinde på 80 kg er kcal/dag med et prædiktionsinterval på ( ; ). Med en rmr på 950 kcal pr. dag ligger kvinden uden for vores 95% interval. Hun bliver derfor diagnosticeret med et for lavt stofskifte. Vi ser på plottet med prædiktionsintervallet og ser at bredden på vores prædiktionsinterval er over 500 ligegyldigt hvilken vægt kvinden har. Grænserne ser ret konstante ud og for vores kvinde på 80 kg er bredden af prædiktionsintervallet =644.8 kcal/dag. Vi kan derfor ikke have en nøjagtighed på +/-250 kcal/dag. Vores prædiktionsgrænser giver et billede af spredningen for vores variabel (her rmr) og det vil derfor ikke være muligt at få et smallere prædiktionsinterval, fordi denne spredning er 'biologisk'. Også selvom vi får flere kvinder med i forsøget. 1.7 Vi evaluerer vores models antagelser (normalitet, linearitet og homogenitet): Vi starter med at vurdere normaliteten og laver et QQ-plot: plot( lm1, which=2, pch=19)

6 Der er muligvis en svag hængekøjeform (som muligvis kan forbedres ved at logaritmetransformere rmr). For at undersøge den lineære antagelse laver vi et plot af residualerne mod den forklarende variabel. Idet vi kun har en variabel i spil her, er det det samme som at plotte residualerne som funktion af de fitted værdier / prædiktionerne (dvs i stedet for som funktion af bw plotter vi som funktion af bw, dvs det er bare en anden skala). plot( lm1, which=1, pch=19 )

7 Men vi kunne lave plottet selv som funktion af bw ved at benytte residualerne og selv lave plottet vha. scatter.smooth()-kommandoen: scatter.smooth( residuals(lm1) ~ d$bw, lpars=list(col='red',lwd=2) ) abline( h=0, col='grey', lwd=.5 )

8 Der er lidt støj i halerne, men det er forventeligt, da data er tyndt besat her og kurven derfor bliver usikkert bestemt. Plottet af residualerne mod fittede værdier ovenfor benyttes til at vurdere homogeniten og her er der ikke umiddelbart nogle tegn på afvigelser. Vi kan supplere vurderingen af linearitet ved et kvadratledstest: d$bw2 <- d$bw^2 lm2 <- lm( rmr ~ bw + bw2, data=d) summary(lm2) Med en p-værdi på 0.46 er der ikke noget tegn på, at associationen mellem body weight og rmr ikke skulle være lineær. Opgave Vi indlæser data og undersøger, om der er nogle missing values: d <- read.dbf('vitamind.dbf') summary(d)

9 Da der ikke er angivet NA's for nogle af variablene i ovenstående summary, har vi altså ikke nogen missing values. Antallet af deltagere fra hvert land fås med table(d$country) dvs 54 finske og 65 polske kvinder. 2.2 For hvert land laver vi en illustration af associationen mellem BMI og vitamin D. Vi sørger for at gøre plottene sammenlignelige ved at vælge samme x- og y-akse og sætte plottene ved siden af hinanden med par(mfrow=c(1,2)) dfi <- subset(d, country==2) dpo <- subset(d, country==6) par(mfrow=c(1,2)) scatter.smooth( dfi$vitd ~ dfi$bmi, pch=19, xlim=c(18,44),ylim=c(0,100), lpars=c(lwd=2,col=2)) scatter.smooth( dpo$vitd ~ dpo$bmi, pch=19, xlim=c(18,44),ylim=c(0,100), lpars=c(lwd=2,col=4) )

10 Associationen ser meget lineær ud for Finland, hvorimod den for Polen ikke er helt så entydig. Vi noterer også, at spredningen ser ud til at være større for de finske kvinder. 2.3 Vi udfører en simpel lineær regression for hvert land for sig og husker også at bestemme konfidensinterval: lm0.fi <- lm( vitd ~ bmi, data=dfi ) summary(lm0.fi) confint(lm0.fi) lm0.po <- lm( vitd ~ bmi, data=dpo ) summary(lm0.po) confint(lm0.po) I begge tilfælde ser vi en negativ association, som dog ikke er signifikant. Vi undersøger om antagelsen om normalfordeling, varianshomogenitet og linearitet er opfyldt for hvert land for sig: Finland: par(mfrow=c(1,2)) plot(lm0.fi,which=2) plot(lm0.fi,which=1) Polen: par(mfrow=c(1,2)) plot(lm0.po,which=2) plot(lm0.po,which=1) Begge qq-plots er nydelige, mens der er lidt slinger i residualplottet for Polen. Der er dog ikke tegn på, at variansen falder eller stiger med værdien af de fittede (prædikterede) værdier, hvorfor varianshomogeniteten ikke ser ud til at kunne anfægtes. At kurven krummer kan skyldes, at associationen mellem BMI og vitamin D muligvis ikke er lineær som funktion af BMI for de polske kvinder (jvf scatter plottet ovenfor). Denne afvigelse er dog næppe signifikant. Vi supplerer med et formelt test for linearitet for hver gruppe (bemærk her at jeg ikke definerer kvadratet på BMI i datasættet, men sætter R til selv at regne den ud i lm() ved at sætte et I() omkring): summary( lm( vitd ~ bmi+i(bmi*bmi), data=dfi ) ) summary( lm( vitd ~ bmi+i(bmi*bmi), data=dpo ) ) Bemærk at et andengradspolynomie ikke er den bedste funktion til at finde en afvigelse fra linearitet for de polske kvinder grundet de to kvinder med meget høj BMI og meget lav vitamin D.

11 2.4 Vi laver nu en illustration af de to estimerede regressionslinier. Igen stiller vi plottene ved siden af hinanden, så linierne er lettere at sammenligne: par(mfrow=c(1,2)) plot( dfi$vitd ~ dfi$bmi, pch=19, xlim=c(18,44),ylim=c(0,100) ) abline( lm0.fi, lwd=2, col=2 ) plot( dpo$vitd ~ dpo$bmi, pch=19, xlim=c(18,44),ylim=c(0,100) ) abline( lm0.po, lwd=2, col=4 ) Vi ser at linierne ser nogenlunde parallelle ud, men at linien for de finske kvinder ser ud til at ligge højere. 2.5 Vi formulerer nu en multivariabel model på det samlede materiale. Land er en kvalitativ variabel og skal derfor indgå som en faktor. lm1 <- lm( vitd ~ factor(country)+bmi, data=d ) summary(lm1) Vi bemærker at der er en forskel på 15 i vitamin D niveauet mellem de to lande (Polen ligger lavest). Forskellen er højsignifikant. Vi bemærker også, at hældningen nu er blevet signifikant -

12 vitamin D falder med 0.78 for en stigning af BMI på 1. Det skyldes, at vi nu kan estimere hældningen pba et større materiale, end når vi ser på hvert materiale for sig. Husk konfidensintervaller her når tallene rapporteres! En anden måde at fitte modellen på er ved at lave en dummy-variabel for land. En dummyvariabel er en variabel, som kun har kode 0 og 1. For en sådan variabel er det ligegyldigt om vi betragter den som kvantitativ og laver regression på den eller sætter den ind i analysen som en faktor (hvorfor??). Hvis vi vil have Finland som reference kan vi definere d$polen <-0 d$polen[ d$country==6 ] <- 1 og derefter benytte denne variabel som en regressionsvariabel: lm1a <- lm( vitd ~ polen+bmi, data=d ) summary(lm1a) Vi får samme resultat, hvis vi sætter factor() omkring Polen (fordi laveste niveau 0 bliver referencen). 1. Sammenligning af en finsk og en polsk kvinde hver med et BMI på 25: a+c*25 - (a+b+c*25) = -b = således at den finske har et forventet vitamin D niveau som er 15 enheder højere end den finske. Vi kan lave den samme sammenligning for to kvinder hver især med et BMI på 30 - og får igen de Sammenligning af to finske kvinder med BMI på hhv 25 og 30: a+c*30 - (a+c*25) = 5*c = 5*(-.78) = Dvs den 'tykke kvinde' har et forventet vitamin D niveau som er 3.9 lavere end den 'normalvægtige kvinde'. 3. Samme sammenligning for Polske kvinder: a+b+c*30 - (a+b+c*25) = 5*c = 5*(-.78) = Vi inkluderer nu også alder i modellen: lm3 <- lm( vitd ~ factor(country) + bmi +age, data=d ) summary(lm3) og ser at der - justeret for land og bmi - ikke er nogen association mellem alder og vitamin D niveau. 2.7 Vi har antaget, at både alder og BMI kan indgå lineært i modellen. Vi har ovenfor undersøgt BMi for hvert land for sig i en model hvor vi ikke to højde for alder. Vi udfører nu et check baseret på hele materialet. Vi ser derfor på residualplottene:

13 scatter.smooth( residuals(lm3) ~ d$bmi, lpars = c(lwd=2) ) scatter.smooth( residuals(lm3) ~ d$age, lpars = c(lwd=2) )

14 hvor vi ikke ser nogen tydelig tendens til krumninger (måske lidt slinger for BMI (som nok stammer fra de polske kvinder)). Vi supplerer med kvadratledstest (her tilføjes begge kvadratled på en gang, og vi forsøger at fjerne dem en af gangen): lm4 <- lm( vitd ~ factor(country) + bmi + age + I(age*age) + I(bmi*bmi), data=d ) summary( lm4 ) og ser at vi må fjerne kvadratleddet for alder med p=0.85. lm5 <- lm( vitd ~ factor(country) + bmi + age + I(bmi*bmi), data=d ) summary( lm5 ) Heller ingen problemer med lineariten for BMI. Vores endelige model er derfor den, hvor både alder og BMI indgår lineært (lm3). 2.8 Vi vil nu prædiktere en regressionsline for polske kvinder på 72 år. Vi illustrerer den for passende valgte BMI-værdier, her mellem 20 og 40 (skal helst passe med data range, så vi ikke ekstrapolerer vores model): pdata <- data.frame( age=72, country=6, bmi=20:40) p1 <- predict( lm3, newdata=pdata, interval='prediction') p2 <- predict( lm3, newdata=pdata, interval='confidence')

15 plot( 20:40, p1[,1], ylim=c(-20,100), type='l') matlines( 20:40, p1, lwd=2, col=c(1,2,2), lty=1) matlines( 20:40, p2, lwd=2, col=c(1,4,4), lty=2) Vi ser, at referenceområdet i den tunge ende af BMI-skala'en ryger under 0. Det giver selvfølgelig ikke mening, da man ikke kan have negative vitamin D niveauer. En måde at undgå dette på er ved at logaritme-transformere outcome. Når man regner tilbage til den oprindelige skala med antilog (potens) får man altid noget positivt. Vi kan prøve: d$logvitd <- log(d$vitd) lm3a <- lm( logvitd ~ factor(country) + bmi +age, data=d ) p1 <- exp( predict( lm3a, newdata=pdata, interval='prediction') ) p2 <- exp( predict( lm3a, newdata=pdata, interval='confidence') ) plot( 20:40, p1[,1], ylim=c(-20,100), type='l') matlines( 20:40, p1, lwd=2, col=c(1,2,2), lty=1) matlines( 20:40, p2, lwd=2, col=c(1,4,4), lty=2) abline( h=0, col='gray')

16 og ser at referenceområdet nu holder sig pænt over 0. NB: Selve den prædikterede kurve (den sorte) kan ikke længere fortolkes som en middelværdi - men svarer faktisk til medianen! Undersøger du hvordan modellen passer med logaritmetransformationen, vil du se at normalfordelingsantagelsen bliver problematisk. Og derfor giver referenceområdet ikke mening, fordi dette beregnes under forudsætningen af en normalfordeling. Vi kan derfor ikke lave et fornuftigt referenceområde på baggrund af nogle af disse modeller! Opgave 3 # 3.2 d0 <- read.dbf('framingham.dbf') d <- subset( d0, sex==1 ) # 3.3 scatter.smooth( d$sbp ~ d$chol, lpars = c(lwd=2, col='red') ) scatter.smooth( d$sbp ~ d$age, lpars = c(lwd=2, col='red') ) # 3.4 lm1 <- lm( sbp ~ age+chol, data=d) summary(lm1) confint( lm1 ) # CI for icp (age) indeholder (.49) -> ingen signifikant forskel

17 # Nedre grænse CI chol fra artiklen *.043=0.08. Dvs CI'erne overlapper i halen # Supplerer derfor med et formelt test: T=( ) / sqrt( ^ ^2 ) 2*pnorm( T ) # og vi må afvise at hældningerne er ens / de har en større hældning end vores. # Vi ved intet om populationerne og kan derfor ikke diskutere hvorfor # 3.5 lm2 <- lm( sbp ~ I(age/10)+chol, data=d) summary(lm2) # 3.6 plot( lm1, which=2 ) plot( lm1, which=1 ) scatter.smooth( residuals(lm1) ~ d$chol, lpars = c(lwd=2, col='red') ) scatter.smooth( residuals(lm1) ~ d$age, lpars = c(lwd=2, col='red') ) # lav også gerne kvadratledstest... # 3.7 lm3 <- lm( log(sbp) ~ I(age/10)+chol, data=d) plot( lm3, which=2 ) # lidt bedre men absolut ikke perfekt plot( lm3, which=1 ) # også lidt bedre (ikke så tæt i bunden / ikke så flagrende værdier for oven) scatter.smooth( residuals(lm3) ~ d$chol, lpars = c(lwd=2, col='red') ) scatter.smooth( residuals(lm3) ~ d$age, lpars = c(lwd=2, col='red') ) # og kvadratledstest her... # Effekter omregnet til procent (4.87% hhv 0.04%) 100*( exp(coef(lm3))-1 ) # effekten af chol er meget lille: men det giver ikke mening at omregne fra mmol/l til mol/l # fordi chol-skalaen derved sprænges (max værdi er 386) 100*( exp(confint(lm3))-1 ) # 3.8 # Jeg ville vælge log, fordi modellen passer en anelse bedre. Omvendt er det måske # standard i litteraturen ikke at bruge log - i så fald er det et godt argument # for at lade være, fordi forbedringen med log ikke var stor

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Lineær og logistisk regression

Lineær og logistisk regression Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher Kursus 02323: Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 4. Variansanalyse Modelkontrol Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november)

Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) Hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin D status i Europa, har man

Læs mere

Kursus 02402/02323 Introducerende Statistik

Kursus 02402/02323 Introducerende Statistik Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares) Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus

Læs mere

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling Faculty of Health Sciences Regressionsanalyse Simpel lineær regression, 28-2-2013 Lene Theil Skovgaard Biostatistisk Afdeling 1 / 67 Simpel lineær regression Regression og korrelation Simpel lineær regression

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data. Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data. 1 / 32 Motivation Eksempel: Savings = β 0 + β 1 Income + u Vi ved allerede, hvordan vi estimerer regresseionlinjen:

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Institut for Epidemiologi og Socialmedicin Institut for Biostatistik. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Opgave 1 Læs afsnit.1 i An Introduction to Medical Statistics, specielt

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt enote 5: Simpel lineær regressions analse Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression To variable: og Beregn mindstekvadraters estimat af ret linje Inferens med

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Træningsaktiviteter dag 3

Træningsaktiviteter dag 3 Træningsaktiviteter dag 3 I træningsaktiviteterne skal I arbejde videre med Framingham data og risikoen for hjertesygdom. I skal dels lave MH-analyser som vi gjorde i timerne og dels lave en multipel logistisk

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (

Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 ( Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (28.-30. oktober) En stor undersøgelse søger at afdække forhold

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Opgaver til kapitel 3

Opgaver til kapitel 3 Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity I filen cadmium.txt ligger observationer fra et eksempel omhandlende lungefunktionen hos arbejdere i cadmium industrien (hentet fra P. Armitage & G. Berry: Statistical

Læs mere

For at få 8 linjer ud, skal dette specifiseres i kommandoen ved at sætte antal lig 8 n=8:

For at få 8 linjer ud, skal dette specifiseres i kommandoen ved at sætte antal lig 8 n=8: Klasseøvelser dag 1 Opgave 1 1.1. Vi gemmer først dbase filen "perulung.dbf" i den relevante mappe og derefter sættes working directory til denne mappe ved at vælge menuen Session -> Set Working Directory

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

Morten Frydenberg 14. marts 2006

Morten Frydenberg 14. marts 2006 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik 1 RESUME: 2 2. gang: 2006 Institut for Biostatistik, Århus Universitet MPH 1. studieår Specialmodul 4 Cand. San. uddannelsen

Læs mere

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt.

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Besvarelse af juul2 -opgaven

Besvarelse af juul2 -opgaven Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium

Læs mere

Morten Frydenberg 26. april 2004

Morten Frydenberg 26. april 2004 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Indlæsning og

Læs mere

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller Hvad skal vi lave? 1 Kovariansanalyse Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning 2 Sammenligning af modeller 3 Mere generelle modeller PSE (I17) ASTA - 14. lektion

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby

Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby Vi betragter et lille uddrag af det såkaldte Sundby95-materiale, der er en stor undersøgelse af københavnernes sundhed. Det totale datasæt

Læs mere

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Institut for Folkesundhed Afdeling for Biostatistik Afdeling for Epidemiologi. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Opgave 1 Udgangspunktet for de følgende spørgsmål er artiklen:

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 musekuld er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12 mus

Læs mere

Øvelser til basalkursus, 2. uge

Øvelser til basalkursus, 2. uge Øvelser til basalkursus, 2. uge Opgave 1 Vi betragter igen Sundby95-materialet, og skal nu forbedre nogle af de ting, vi gjorde sidste gang. 1. Gå ind i ANALYST vha. Solutions/Analysis/Analyst. 2. Filen

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30.

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. oktober) En undersøgelse blandt fødende kvinder

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 ( Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (10.-12. april) I et randomiseret forsøg sammenlignes vitamin D behandling

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Kvadratisk regression

Kvadratisk regression Kvadratisk regression Helle Sørensen Institut for Matematiske Fag Københavns Universitet Juli 2011 I kapitlet om lineær regression blev det vist hvordan man kan modellere en lineær sammenhæng mellem to

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Lineære sammenhænge, residualplot og regression

Lineære sammenhænge, residualplot og regression Lineære sammenhænge, residualplot og regression Opgave 1: Er der en bagvedliggende lineær sammenhæng? I mange sammenhænge indsamler man data som man ønsker at undersøge og afdække eventuelle sammenhænge

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse i R. Lene Theil Skovgaard 23. september 2019 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse i R. Lene Theil Skovgaard. 25. februar 2019

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse i R. Lene Theil Skovgaard. 25. februar 2019 Faculty of Health Sciences Basal Statistik Regressionsanalyse i R. Lene Theil Skovgaard 25. februar 2019 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Kovariansanalyse. Lene Theil Skovgaard 1. oktober 2018 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Bland-Altman plot,

Læs mere

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345) Kursus 4: Besvarelser til øvelses- og hjemmeopgaver i uge 11 Opgave 11.4 side 316 (7ed: 11.4, side 35 og 6ed: 11., side 345) Opgaven består i at foretage en regressionsanalse. Først afbildes data som i

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvalitative egenskaber og dummyvariabler Kvantitative metoder 2 Dummyvariabler 28. marts 2007 Vi har (hovedsagligt) set på kvantitative variabler (løn, priser, forbrug, indkomst, )... Men hvad med kvalitative

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 32 Konsekvenser af Heteroskedasticitet Antag her (og i resten) at MLR.1 til MLR.4 er opfyldt. Antag MLR.5 ikke er opfyldt, dvs. vi har heteroskedastiske

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER Undervisningseffekten udregnes som forskellen mellem den forventede og den faktiske karakter i 9. klasses afgangsprøve. Undervisningseffekten udregnes

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Kovariansanalyse. Lene Theil Skovgaard 3. oktober 2017 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Bland-Altman plot,

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere