Klasseøvelser dag 2 Opgave 1

Relaterede dokumenter
Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Phd-kursus i Basal Statistik, Opgaver til 2. uge

For at få 8 linjer ud, skal dette specifiseres i kommandoen ved at sætte antal lig 8 n=8:

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr)

Besvarelse af opgave om Vital Capacity

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

(studienummer) (underskrift) (bord nr)

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Forelæsning 11: Kapitel 11: Regressionsanalyse

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Generelle lineære modeller

(studienummer) (underskrift) (bord nr)

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Konfidensintervaller og Hypotesetest

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Vejledende besvarelse af hjemmeopgave, efterår 2018

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Løsning til eksaminen d. 14. december 2009

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

En Introduktion til SAS. Kapitel 5.

Opgavebesvarelse, brain weight

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

(studienummer) (underskrift) (bord nr)

Forelæsning 11: Envejs variansanalyse, ANOVA

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Løsning eksamen d. 15. december 2008

Transparency International Danmark på Roskilde Festival 2018: Har indsatsen nyttet noget?

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

(studienummer) (underskrift) (bord nr)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Besvarelse af vitcap -opgaven

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Reeksamen i Statistik for Biokemikere 6. april 2009

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Klasseaktiviteter Dag 4

k normalfordelte observationsrækker (ensidet variansanalyse)

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Den endelige besvarelse af opgaverne gøres ved at udfylde nedenstående skema. Aflever KUN skemaet!

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Reeksamen i Statistik for biokemikere. Blok

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Eksempel , opg. 2

Løsning til eksaminen d. 29. maj 2009

Kursus 02402/02323 Introducerende Statistik

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

MPH specialmodul Epidemiologi og Biostatistik

Eksamen i Statistik for Biokemikere, Blok januar 2009

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

To-sidet varians analyse

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

(studienummer) (underskrift) (bord nr)

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Appendiks Økonometrisk teori... II

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

(studienummer) (underskrift) (bord nr)

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

(studienummer) (underskrift) (bord nr)

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby

Modelkontrol i Faktor Modeller

Eksamen i Statistik for biokemikere. Blok

Opgavebesvarelse, korrelerede målinger

Løsning til eksamen d.27 Maj 2010

Multipel Lineær Regression

1 Hb SS Hb Sβ Hb SC = , (s = )

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Ikke-parametriske tests

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Forsøgsplanlægning Stikprøvestørrelse

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Transkript:

Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d <- read.dbf( 'oxygen.dbf' ) head( d ) X agegr po2 1 1 old 9.4 2 2 old 10.3 3 3 old 10.5 4 4 old 11.0 5 5 old 11.3 6 6 old 11.4 summary( d ) X agegr po2 Min. : 1.0 old :15 Min. : 9.40 1st Qu.: 7.5 young:12 1st Qu.:11.50 Median :14.0 Median :12.20 Mean :14.0 Mean :12.15 3rd Qu.:20.5 3rd Qu.:12.85 Max. :27.0 Max. :14.30 Vi bemærker at vi har 3 variable og ingen manglende værdier (NA'er). Derudover ser vi, at aldersvariablen har to grupper (ung og gammel) 1.2. Vi laver et strip-chart: stripchart( d$po2 ~ d$agegr )

Der er observationer som ligger ovenpå hinanden i stripchartet. Ved at bruge method="jitter" bliver observationer som ligger oveni hinanden fordelt ud. Derudover kan vertical=t også benyttes for at plotte vertikalt: stripchart(d$po2 ~ d$agegr,method="jitter", vertical=t, ylab='po2' )

1.3. Vi beregner konfidensintervaller for de to grupper. Da antallet i hver gruppe er lille, skal vi helst benytte t-fordelingen. Vi får brug for at finde 2.5%-fraktilen i t-fordelingen men er først nødt til at kende antallet af frihedsgrader. Vi laver derfor en tabel af aldersvariablen: table( d$agegr ) old young 15 12 Dvs. vi skal slå op i t-fordelingen med hhv. 12-1=11 og 15-1=14 frihedsgrader. Vi kan enten slå op bag i KS eller få R til at bestemme dem ved kommandoerne q1 <- qt( 0.025, df=11 ) q1 [1] -2.200985 q2 <- qt( 0.025, df=14 ) q2 [1] -2.144787 og har samtidigt gemt værdierne i q1 og q2.

Vi bestemmer nu mean og SE for hver gruppe m1 <- mean( d$po2[d$agegr=="young"] ) se1 <- sd( d$po2[d$agegr=="young"] ) / sqrt(12) m2 <- mean( d$po2[d$agegr=="old"] ) se2 <- sd( d$po2[d$agegr=="old"] ) / sqrt(15) og beregner CI'erne: m1 + q1* se1 [1] 12.19238 m1 - q1* se1 [1] 13.40762 m2 + q2* se2 [1] 11.02022 m2 - q2* se2 [1] 12.23311 Vi finder intervallerne til (12.19;13.41) for young gruppen og (11.02;12.23) for old gruppen. Dette kunne også være gjort nemmere ved et kald til t.test(), som automatisk giver os konfidensintervallet for middelværdien: d1 <- subset( d, agegr=="young" ) d2 <- subset( d, agegr=="old" ) t.test( d1$po2 ) One Sample t-test data: d1$po2 t = 46.366, df = 11, p-value = 5.749e-14 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 12.19238 13.40762 sample estimates: mean of x 12.8 t.test( d2$po2 ) One Sample t-test

data: d2$po2 t = 41.12, df = 14, p-value = 5.295e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 11.02022 12.23311 sample estimates: mean of x 11.62667 1.4. Vi laver et t-test for at teste hypotesen om at de middelværdien i de to grupper er ens: t.test( d$po2 ~ d$agegr, var.equal=true ) Two Sample t-test data: d$po2 by d$agegr t = -2.9233, df = 25, p-value = 0.007254 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -1.9999655-0.3467012 sample estimates: mean in group old mean in group young 11.62667 12.80000 Med en p-værdi på 0.007 afvises hypotesen om at de to middelværdier er ens. Forskellen mellem de to grupper er: m1 -m2 [1] 1.173333 Dvs. oxygen trykket for de yngre ligger 1.17 højere end trykket for de ældre. Et 95% CI for denne forskel finder vi af kaldet til t-test ovenfor til (0.35;2.00). 1.5. Vi laver nu analysen som en ensidet variansanalyse ved brug af lm(), summary() og confint()- kommandoerne. m1 <- lm( po2~agegr, data=d ) summary( m1 ) Call: lm(formula = po2 ~ agegr, data = d)

Residuals: Min 1Q Median 3Q Max -2.2267-0.6133 0.0000 0.6367 2.2733 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 11.6267 0.2676 43.451 < 2e-16 *** agegryoung 1.1733 0.4014 2.923 0.00725 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 1.036 on 25 degrees of freedom Multiple R-squared: 0.2548, Adjusted R-squared: 0.2249 F-statistic: 8.546 on 1 and 25 DF, p-value: 0.007254 confint( m1 ) 2.5 % 97.5 % (Intercept) 11.0755786 12.177755 agegryoung 0.3467012 1.999966 Vi ser, at vi får præcis samme værdier som ovenfor (estimeret forskel, CI, p-værdi). 1.6. Vi undersøger antagelsen om normalitet og varianshomogenitet grafisk: hist( residuals(m1) )

stripchart( residuals(m1) ~ d$agegr, vertical=t, pch=19, method='jitter')

Med så få observationer er det ofte svært at afvise disse antagelser - og der er da heller ikke noget her, som tyder på at antagelserne er problematiske. Undersøgelsen af varianshomogenitet kan vi supplere med et formelt test: bartlett.test( d$po2 ~ d$agegr ) Bartlett test of homogeneity of variances data: d$po2 by d$agegr Bartlett's K-squared = 0.21439, df = 1, p-value = 0.6434 Hypotesen om at varianserne er ens, kan derfor ikke afvises (p=0.64). Opgave 2 2.1. Vi indlæser data: d <- read.dbf( 'folate.dbf' ) head( d ) folate group 1 243 I 2 251 I 3 275 I 4 291 I 5 347 I 6 354 I summary( d ) folate group Min. :206.0 I :8 1st Qu.:249.5 II :9 Median :274.0 III:5 Mean :283.2 3rd Qu.:305.5 Max. :392.0 Vi har to variable og ingen missing values. 2.2 Antal deltagere i hver gruppe table( d$group )

2.3. I II III 8 9 5 Vi danner et grafisk overblik ved brug af stripchart: stripchart( d$folate ~ d$group, method="jitter", vertical=t ) 2.4. Vi beregner gennemsnittet i hver gruppe mi <- mean( d$folate[ d$group=='i']) mii <- mean( d$folate[ d$group=='ii']) miii <- mean( d$folate[ d$group=='iii']) mi [1] 316.625 mii [1] 256.4444 miii

[1] 278 og kan nu beregne forskellen mellem gruppe II og I, III og I samt III og II mii-mi [1] -60.18056 miii-mi [1] -38.625 miii-mii [1] 21.55556 2.5 Et t-test hvor vi sammenligner gruppe II mod I kan vi gøre ved at 1. lave det i hånden, dvs selv bestemme mean og SD og beregne CI samt t-teststørrelse ved brug af formlerne givet i slides. 2. definere et subset kun indeholdende de to grupper og lave et t-test på dette datasæt: d0 <- subset(d, group=='i' group=='ii') # eller: d0 <- subset(d, group!='iii') table( d0$group ) I II III 8 9 0 bartlett.test( d0$folate ~ d0$group ) Bartlett test of homogeneity of variances data: d0$folate by d0$group Bartlett's K-squared = 1.4506, df = 1, p-value = 0.2284 t.test( d0$folate ~ d0$group, var.equal=t ) Two Sample t-test data: d0$folate by d0$group t = 2.5582, df = 15, p-value = 0.02184 alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval: 10.03871 110.32240 sample estimates: mean in group I mean in group II 316.6250 256.4444 3. Bruge [] til at plukke de rette observationer ud (her bliver syntaksen meget tung): t.test( d$folate[ d$group == 'I' d$group == 'II'] ~ d0$group[ d$group == 'I' d$group == 'II'], var.equal=t ) Two Sample t-test data: d$folate[d$group == "I" d$group == "II"] by d0$group[d$group == "I" d$group == "II"] t = 2.5582, df = 15, p-value = 0.02184 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 10.03871 110.32240 sample estimates: mean in group I mean in group II 316.6250 256.4444 Vi finder at gruppe II ligger 60.2 lavere end gruppe I, 95% CI 10.0 til 110.3, p=0.02. 2.6. Vi formulerer en model for hvordan middelværdien afhænger af, hvilken gruppe patienten tilhører (svarende til at hver gruppe har sin egen middelværdi) m1 <- lm( folate ~ group, data=d ) summary( m1 ) Call: lm(formula = folate ~ group, data = d) Residuals: Min 1Q Median 3Q Max -73.625-35.361-4.444 35.625 75.375 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 316.62 16.16 19.588 4.65e-14 *** groupii -60.18 22.22-2.709 0.0139 * groupiii -38.62 26.06-1.482 0.1548 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 45.72 on 19 degrees of freedom Multiple R-squared: 0.2809, Adjusted R-squared: 0.2052 F-statistic: 3.711 on 2 and 19 DF, p-value: 0.04359 Vi ser af output at gruppe I er referencegruppen, dvs vi får estimeret forskellen mellem gruppe II og I samt forskellen mellem III og I. Interceptet, dvs middelværdien i gruppe I, er således 316.62. Gruppe II ligger 60.18 enheder lavere end gruppe I, mens gruppe III kun ligger 38.62 enheder lavere end gruppe I. Præcis de samme tal som vi fandt ved selv at beregne gruppegennemsnittene og forskelle herimellem ovenfor i spørgsmål 3. 2.7. Vi tester om der overhovedet er en sammenhæng mellem ventilationsgruppe og folatniveau. Vi kan lave et overall test for association ved brug af kommandoen aov() aov1 <- aov( m1 ) summary( aov1 ) Df Sum Sq Mean Sq F value Pr(>F) group 2 15516 7758 3.711 0.0436 * Residuals 19 39716 2090 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Med en borderline p-værdi på 0.04 kan vi vælge at afvise nul-hypotesen om ingen effekt af ventilationsgruppen på folatniveauerne. Vi konstaterer, at der er en forskel mellem mindst to af grupperne. 2.8. Forskellen mellem grupperne fandt vi i spørgsmål 3 ovenfor fra vores summary. ``` Der tilhørende konfidensinterval regnes som: confint( m1 ) 2.5 % 97.5 % (Intercept) 282.79237 350.45763 groupii -106.67905-13.68206 groupiii -93.17847 15.92847 Vi bemærker at 0 indgår i konfidensintervallet for group III, hvilket også stemmer overens med at vi i vores summary ovenfor fandt p=0.15 for sammenligningen af gruppe III mod gruppe I. Vi bemærker at konfidensintervallet for sammenligningen af gruppe II mod gruppe I ikke er identisk med det vi fandt, da vi så isoleret på data fra gruppe I og II i spørgsmål 5. Det skyldes, at vi nu også bruger information fra gruppe III til at bestemme variansen på observationerne. Vi får

dermed et bedre bud på den fælles varians - og derfor er det bedre at lave testet byggende på observationer fra alle tre grupper. 2.9. Vi kan sammenligne alle grupperne parvist og tager højde for multipel testning: TukeyHSD( aov1 ) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = m1) $group diff lwr upr p adj II-I -60.18056-116.61904-3.74207 0.0354792 III-I -38.62500-104.84037 27.59037 0.3214767 III-II 21.55556-43.22951 86.34062 0.6802018 Med p-værdier på hhv. 0.32 og 0.68 er der ingen forskel mellem III-I og III-II, mens der fortsat er en forskel mellem I og II. 2.10. Normalfordelingsantagelsen vurderes ved et histogram hist( residuals(m1) )

som måske ser lidt flad ud. Varianshomogeniteten undersøges ved et stripchart stripchart(residuals(m1) ~ d$group, vertical=true, pch = 21, method = "jitter", ylab = "Residual", xlab = "Gruppe", group.names = c("i", "II", "III"))

såvel som Bartlett's test bartlett.test(d$folate ~ d$group) Bartlett test of homogeneity of variances data: d$folate by d$group Bartlett's K-squared = 2.0951, df = 2, p-value = 0.3508 og der er intet tegn på, at antagelsen om ens varianser i de tre grupper skulle være problematisk (p=0.35). Opgave 3 3.1. Vi indlæser intake data: d <- read.dbf( 'intake.dbf' ) head( d ) X pre post 1 1 5260 3910 2 2 5470 4220 3 3 5640 3885 4 4 6180 5160

5 5 6390 5645 6 6 6515 4680 dim( d ) [1] 11 3 summary( d ) X pre post Min. : 1.0 Min. :5260 Min. :3885 1st Qu.: 3.5 1st Qu.:5910 1st Qu.:4450 Median : 6.0 Median :6515 Median :5265 Mean : 6.0 Mean :6754 Mean :5433 3rd Qu.: 8.5 3rd Qu.:7515 3rd Qu.:6382 Max. :11.0 Max. :8770 Max. :7335 Vi har 3 variable, 11 observationer og ingen NA's. 3.2. Vi bruger plot() til at danne et overblik over sammenhængen mellem de to pre- og post intag (bemærk at vi aldrig ville sætte post-målingerne på x-aksen (hvorfor?)): par(las=1) plot( d$pre, d$post, xlab='pre', ylab='post' )

Vi ser umiddelbart en mulig lineær sammenhæng - jo højere pre-, jo højere postindtag. 3.3. For at teste om der er forskel på pre og post indtag, kan vi lave et one-sample t-test på differenserne. Her er nul-hypotesen, at middelværdien af differenserne er 0. d$diff <- d$post - d$pre t.test( d$diff ) One Sample t-test data: d$diff t = -11.941, df = 10, p-value = 3.059e-07 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -1566.838-1074.072 sample estimates: mean of x -1320.455 Med en p-værdi på <0.0001 afvises nul-hypotesen. Der er altså forskel på middel pre- og post indtag. Imidlertid kunne vi have sparet os besvaret med at definere differensen idet man i t.test()- kommandoen kan benytte et argument paired=t, som fortæller R, at målingerne er parrede. t.test( d$post, d$pre, paired=t ) Paired t-test data: d$post and d$pre t = -11.941, df = 10, p-value = 3.059e-07 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -1566.838-1074.072 sample estimates: mean of the differences -1320.455 Vi får helt samme resultat som vores eget t-test baseret på differenserne. 3.4 Betingelserne for at udføre denne analyse er, pga den lille stikprøve, at differenserne kan antages normalfordelte. Med så lille en stikprøve kan vi aldrig afgøre dette. Nogle gange er vi måske så helige at vide det fra tidligere lignende data.

Ser vi på et histogram af residualerne (observeret værdi minus gennemsnit) er der ikke noget tegn på at residualerne skulle være voldsomt skævt fordelt. hist( d$diff - mean(d$diff) ) Når betingelsen om normalfordeling ikke er opfyldt, vil man ofte i stedet lave et ikke-parametrisk test. Denne type tests tager vi fat på næste gang.