Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller) og dernæst en alternativ, ækvivalent argumentation (f.eks. baseret på test). Det er selvfølgelig altid fuldt tilstrækkeligt at angive en af de to korrekte argumentationer. Ligeledes er konfidensintervaller angivet både på formen a ± b og på formen [a b, a + b]. Igen er det fuldt tilstrækkeligt at angive konfidensintervaller på en af de to måder. Opgave 1 a) Vi antager, som beskrevet i opgaven, at logaritmen til dioxinniveauet er normalfordelt med middelværdi µ og spredning σ. Vi antager endvidere at målingerne er uafhængige. Fra SAS-udskriften kan vi aflæse et 95% konfidensinterval for middelværdien til [1.0024, 1.7459]. Alternativt kan man fra SAS-udskriften aflæse estimatet x = 1.3741 for middelværdien og estimatet 0.1776 for spredningen på gennemsnittet (standard error). Ved opslag i tabellen for t-fordelingen med 19 frihedsgrader findes den kritiske værdi for et test på niveau 5% til t 19,0.975 = 2.093. Et 95% konfidensinterval kan derfor findes som 1.3741 ± 2.093 0.1776 = 1.3741 ± 0.3717, der også kan skrives som [1.0024, 1.7458] 1. b) Ved opslag i tabellen for t-fordelingen med 19 frihedsgrader findes den kritiske værdi for et test på niveau 1% til t 19,0.995 = 2.861. Et 99% konfidensinterval kan derfor findes som ovenfor 1.3741 ± 2.861 0.1776 = 1.3741 ± 0.5081, der også kan skrives som [0.8660, 1.8822]. c) Vi opstiller nu nul-hypotesen H 0 : µ = 1.1 mod alternativet at µ 1.1. Eftersom 1.1 ligger i 95% konfidensintervallet accepteres (godkendes) hypotesen H 0 ved et test på niveau 5%. 1 Forskellen på sidste decimal i det øvre bånd skyldes formodentlig afrunding. Internt regner SAS med flere decimaler end der rapporteres. 1

Alternativt kan vi udregne t-teststørrelsen 1.3741 1.1 0.1776 = 1.5434, der også kan aflæses af SAS-udskriften. Som ovenfor er den kritiske værdi ved test på niveau 5% t 19,0.975 = 2.093 så hypotesen accepteres da t = 1.5434 < 2.093. Vi kan ligeledes aflæse p-værdien fra SAS-udskriften til 0.1392 > 0.05. Opgave 2 a) Vi laver først en to-sidet variansanalyse med to faktorer, probe og lrp. Vi konstaterer, at der for hver kombination af værdierne af lrp og probe er 4 observationer. Det betyder, at vi kan opstille en model med vekselvirkning mellem de to faktorer og efterfølgende teste den additive model mod alternativet, at der er en vekselvirkning. Dvs. vi opstiller først nul-hyposesen H 0 : der er ingen vekselvirkning mellem probe og lrp og hvis denne hypotese accepteres opstilles dernæst nul-hypotesen H 1 : der er ingen hovedvirkning af lrp. Fra SAS-udskriften aflæses det at F-teststørrelsen for H 0 er F = 0.31 med en p-værdi på 0.9822 > 0.05, så vi accepterer H 0 ved test på niveau 5%. Fra SASudskriften aflæses det ligeledes at F-teststørrelsen for H 1 er F = 231.01 med en p-værdi < 0.0001 < 0.05, så vi forkaster H 1 ved test på niveau 5%. Konklusionen på baggrund af denne analyse er derfor, at der ikke er en signifikant vekselvirkning mellem probe og lrp, men at der er en signifikant hovedvirkning af lrp. Dvs. der er forskel på ekspressionen af SerA i de to stammer. b) Faktorstrukturdiagram: probe array probe lrp probe array lrp 1 Vi konstaterer, at der for hver kombination af faktorerne probe og array kun er en observation, så vi kan ikke teste, om der er en vekselvirkning mellem de to faktorer. Vi tager derfor udgangspunkt i modellen givet ved en hovedvirkning af array og en vekselvirkning mellem probe og lrp, dvs. modellen, der kan skrives som H 0 : der er ingen hovedvirkning af array. 2

Fra SAS-udskriften aflæses det, at F-teststørrelsen for test af H 0 er F = 23.63, p-værdien er < 0.0001 < 0.05, og vi forkaster derfor på niveau 5% hypotesen om, at der ikke er en hovedvirkning af array. c) Eftersom array er en finere faktor en lrp, og eftersom vi på baggrund af b) ikke kan fjerne hovedvirkningen af array mod alternativet at der kun er vekselvirkningen probe lrp så kan man ikke teste for en hovedvirkning af lrp. En signifikant hovedvirkning af lrp kan i a), ud fra vores analyser, også skyldes hovedeffekten af array. Dvs. vi kan ikke på baggrund af ovenstående analyser opretholde konklusionen, at der er forskel på ekspressionen af SerA i de to stammer. d) Stadig med udgangspunkt i modellen opstiller vi nul-hypotesen H 0 : der er ingen vekselvirkning mellem probe og lrp. Fra SAS-udskriften aflæser vi, at F-teststørrelsen for test af H 0 er F = 0.89 og p-værdien er 0.5577 > 0.05. Dvs. vi accepterer H 0 ved et test på niveau 5%. Effekten af probe afhænger derfor ikke af, hvilken stamme vi ser på. e) Idet vi har accepteret H 0 ovenfor kan vi nu opstille H 1 : der er ingen hovedvirkning af probe. Fra SAS-udskriften aflæser vi, at F-teststørrelsen for test af H 1 er F = 22.03 og p-værdien er < 0.0001 < 0.05. Dvs. vi forkaster H 1 ved et test på niveau 5%. Konklusionen er, at der er en effekt af probe, og vi ender altså med den additive model array + probe. f) Det er en forudsætning for analyserne i b), d) og e) at logaritmen til ekspressionsmålingerne kan antages at være uafhængige og normalfordelte med samme varians. Endvidere er det en forudsætning at modellen givet kan beskrive middelværdien af log-ekspressionsmålingerne. Det er f.eks. en forudsætning, at der ikke er en vekselvirkning mellem probe og array. Opgave 3 a) Vi lader X betegne tid målt i timer og Y CO-niveauet og tager udgangspunkt i den lineære regressionsmodel Y = β 0 + β 1 X + ɛ 3

for ɛ er normalfordelt med middelværdi 0 og spredning σ. Fra SAS-udskriften aflæses ˆβ 0 = 45.205 ˆβ1 = 6.007, dvs. den estimerede regressionslinje er y = 45.205 6.007x Estimatet for spredningen på ˆβ 1 (standard error) aflæses fra SAS-udskriften til 1.844, og den kritiske værdi for t-fordelingen med 10 frihedsgrader for et test på niveau 5% findes ved opslag til 2.228. Et 95% konfidensinterval for β 1 er derfor 6.007 ± 2.228 1.844 = 6.007 ± 4.108, der også kan skrives som [ 10.115, 1.899]. b) Estimatet for middelværdien en time efter at personen røg en cigaret findes ved at sætte x = 1 i den estimerede regressionslinje, dvs. Fra SAS-udskriften aflæser vi at ˆµ Y X=1 = 45.205 6.007 = 39.198. x = 1.8792 12 i=1 (x i x) 2 = 25.7573. samt at estimatet for σ er 9.3570. Den estimerede spredning på ˆµ Y X=1 er derfor 1 9.3570 12 + (1 1.8792)2 25.7573 = 3.150. Den kritiske værdi for t-fordelingen med 10 frihedsgrader for et test på niveau 5% er som ovenfor 2.228, og et 95% konfidensinterval for µ Y X=1 findes til 39.198 ± 2.228 3.150 = 39.198 ± 7.018, der også kan skrives som [32.180, 46.216]. c) Vi opstiller nu nul-hypotesen H 0 : β 1 = 0. Fra a) kan vi se, at 0 ikke ligger i 95% konfidensintervallet for β 1, dvs. med et test på niveau 5% forkaster vi H 0 og kan derfor ikke antage at hældningen er 0. Alternativt kan vi fra SAS-udskriften aflæse t-teststørrelsen for H 0 til 3.26 og p-værdien til 0.0086 < 0.05. Det giver selvfølgelig samme konklusion at vi på niveau 5% forkaster hypotesen. 4

Opgave 4 a) Vi tager som udgangspunkt at procentdelen af rodceller med svampe til tidspunkt i, i = A, B, C, D, er normalfordelt med middelværdi µ i og spredning σ i. Vi opstiller nul-hypotesen H 0 : σ 2 A = σ 2 B = σ 2 C = σ 2 D om varianshomogenitet i de 4 grupper. Fra SAS-udskriften aflæses test-størrelsen for Bartlett s test til 0.9770 og p-værdien til 0.8068 > 0.05. Vi accepterer derfor hypotesen ved et test på niveau 5%. Vi kan altså antage, at der er samme varians i de fire grupper. b) Vi har som udgangspunkt en ensidet variansanalyse med ens varians i grupperne. H 0 : µ A = µ B = µ C = µ D om at middelværdierne ikke varierer med tiden. Fra SAS-udskriften aflæses F- teststørrelsen til F = 1.92 og p-værdien til 0.1677 > 0.05. Vi accepterer altså H 0 ved et test på niveau 5% og konkluderer, at procentdelen af rodceller ikke varierer med tiden. c) På baggrund af a) og b) antager vi nu, at alle 20 målinger stammer fra en normalfordeling med middelværdi µ og spredning σ. Fra SAS-udskriften aflæses estimatet for µ til ˆµ = 41.85 og estimatet for σ (kvadratroden af Corrected Total/DF) aflæses til 700.55 s = = 6.072. 19 H 0 : µ = 32 og udregner t-teststørrelsen 41.85 32 6.072/ 20 = 7.25. Den kritiske værdi for t-testet på niveau 5% med 19 frihedsgrader er t 19,0.975 = 2.093. Eftersom t = 7.25 > 2.093 forkastes H 0 på niveau 5%, og data er således ikke forenelige med en hypotese om, at procentdelen af rodceller med svampe er 32. Alternativt kan man benytte Root MSE på 5.675 som estimatet for σ med 16 frihedsgrader. Det giver teststørrelsen 41.85 32 5.675/ 20 = 7.76. Den kritiske værdi for t-testet på niveau 5% med 16 frihedsgrader er t 16,0.975 = 2.120, og vi får samme konklusion - vi forkaster hypotesen. 5