Eksamen i Statistik for biokemikere. Blok

Relaterede dokumenter
Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Eksamen i Statistik for biokemikere. Blok

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Reeksamen i Statistik for biokemikere. Blok

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

1 Hb SS Hb Sβ Hb SC = , (s = )

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Nanostatistik: Opgavebesvarelser

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Løsning til eksamen d.27 Maj 2010

Reeksamen i Statistik for biokemikere. Blok

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Modul 12: Regression og korrelation

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Besvarelser til øvelsesopgaver i uge 6

Module 4: Ensidig variansanalyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

k normalfordelte observationsrækker (ensidet variansanalyse)

Modelkontrol i Faktor Modeller

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Vejledende besvarelser til opgaver i kapitel 14

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Løsning eksamen d. 15. december 2008

Løsninger til kapitel 9

Eksamen i Statistik for biokemikere. Blok

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Løsning til eksaminen d. 14. december 2009

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Eksempel , opg. 2

Vejledende løsninger kapitel 8 opgaver

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Forelæsning 11: Kapitel 11: Regressionsanalyse

Reeksamen i Statistik for Biokemikere 6. april 2009

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

(studienummer) (underskrift) (bord nr)

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Opgaver til kapitel 3

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Konfidensintervaller og Hypotesetest

(studienummer) (underskrift) (bord nr)

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Kapitel 7 Forskelle mellem centraltendenser

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

To-sidet varians analyse

Løsning til eksaminen d. 29. maj 2009

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 8. Multipel Lineær Regression

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Forsøgsplanlægning Stikprøvestørrelse

Module 12: Mere om variansanalyse

Skriftlig eksamen Science statistik- ST501

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Nanostatistik: Konfidensinterval

Stastistik og Databehandling på en TI-83

Program. Flersidet variansanalyse og hierarkiske modeller. Eksempel: iltoptag for krabber. Eksempel: iltoptag for krabber.

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Test nr. 5 af centrale elementer 02402

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Multipel Lineær Regression

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

(studienummer) (underskrift) (bord nr)

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

En Introduktion til SAS. Kapitel 5.

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Note om Monte Carlo metoden

Modul 11: Simpel lineær regression

Lineære normale modeller (4) udkast

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Transkript:

Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller) og dernæst en alternativ, ækvivalent argumentation (f.eks. baseret på test). Det er selvfølgelig altid fuldt tilstrækkeligt at angive en af de to korrekte argumentationer. Ligeledes er konfidensintervaller angivet både på formen a ± b og på formen [a b, a + b]. Igen er det fuldt tilstrækkeligt at angive konfidensintervaller på en af de to måder. Opgave 1 a) Vi antager, som beskrevet i opgaven, at logaritmen til dioxinniveauet er normalfordelt med middelværdi µ og spredning σ. Vi antager endvidere at målingerne er uafhængige. Fra SAS-udskriften kan vi aflæse et 95% konfidensinterval for middelværdien til [1.0024, 1.7459]. Alternativt kan man fra SAS-udskriften aflæse estimatet x = 1.3741 for middelværdien og estimatet 0.1776 for spredningen på gennemsnittet (standard error). Ved opslag i tabellen for t-fordelingen med 19 frihedsgrader findes den kritiske værdi for et test på niveau 5% til t 19,0.975 = 2.093. Et 95% konfidensinterval kan derfor findes som 1.3741 ± 2.093 0.1776 = 1.3741 ± 0.3717, der også kan skrives som [1.0024, 1.7458] 1. b) Ved opslag i tabellen for t-fordelingen med 19 frihedsgrader findes den kritiske værdi for et test på niveau 1% til t 19,0.995 = 2.861. Et 99% konfidensinterval kan derfor findes som ovenfor 1.3741 ± 2.861 0.1776 = 1.3741 ± 0.5081, der også kan skrives som [0.8660, 1.8822]. c) Vi opstiller nu nul-hypotesen H 0 : µ = 1.1 mod alternativet at µ 1.1. Eftersom 1.1 ligger i 95% konfidensintervallet accepteres (godkendes) hypotesen H 0 ved et test på niveau 5%. 1 Forskellen på sidste decimal i det øvre bånd skyldes formodentlig afrunding. Internt regner SAS med flere decimaler end der rapporteres. 1

Alternativt kan vi udregne t-teststørrelsen 1.3741 1.1 0.1776 = 1.5434, der også kan aflæses af SAS-udskriften. Som ovenfor er den kritiske værdi ved test på niveau 5% t 19,0.975 = 2.093 så hypotesen accepteres da t = 1.5434 < 2.093. Vi kan ligeledes aflæse p-værdien fra SAS-udskriften til 0.1392 > 0.05. Opgave 2 a) Vi laver først en to-sidet variansanalyse med to faktorer, probe og lrp. Vi konstaterer, at der for hver kombination af værdierne af lrp og probe er 4 observationer. Det betyder, at vi kan opstille en model med vekselvirkning mellem de to faktorer og efterfølgende teste den additive model mod alternativet, at der er en vekselvirkning. Dvs. vi opstiller først nul-hyposesen H 0 : der er ingen vekselvirkning mellem probe og lrp og hvis denne hypotese accepteres opstilles dernæst nul-hypotesen H 1 : der er ingen hovedvirkning af lrp. Fra SAS-udskriften aflæses det at F-teststørrelsen for H 0 er F = 0.31 med en p-værdi på 0.9822 > 0.05, så vi accepterer H 0 ved test på niveau 5%. Fra SASudskriften aflæses det ligeledes at F-teststørrelsen for H 1 er F = 231.01 med en p-værdi < 0.0001 < 0.05, så vi forkaster H 1 ved test på niveau 5%. Konklusionen på baggrund af denne analyse er derfor, at der ikke er en signifikant vekselvirkning mellem probe og lrp, men at der er en signifikant hovedvirkning af lrp. Dvs. der er forskel på ekspressionen af SerA i de to stammer. b) Faktorstrukturdiagram: probe array probe lrp probe array lrp 1 Vi konstaterer, at der for hver kombination af faktorerne probe og array kun er en observation, så vi kan ikke teste, om der er en vekselvirkning mellem de to faktorer. Vi tager derfor udgangspunkt i modellen givet ved en hovedvirkning af array og en vekselvirkning mellem probe og lrp, dvs. modellen, der kan skrives som H 0 : der er ingen hovedvirkning af array. 2

Fra SAS-udskriften aflæses det, at F-teststørrelsen for test af H 0 er F = 23.63, p-værdien er < 0.0001 < 0.05, og vi forkaster derfor på niveau 5% hypotesen om, at der ikke er en hovedvirkning af array. c) Eftersom array er en finere faktor en lrp, og eftersom vi på baggrund af b) ikke kan fjerne hovedvirkningen af array mod alternativet at der kun er vekselvirkningen probe lrp så kan man ikke teste for en hovedvirkning af lrp. En signifikant hovedvirkning af lrp kan i a), ud fra vores analyser, også skyldes hovedeffekten af array. Dvs. vi kan ikke på baggrund af ovenstående analyser opretholde konklusionen, at der er forskel på ekspressionen af SerA i de to stammer. d) Stadig med udgangspunkt i modellen opstiller vi nul-hypotesen H 0 : der er ingen vekselvirkning mellem probe og lrp. Fra SAS-udskriften aflæser vi, at F-teststørrelsen for test af H 0 er F = 0.89 og p-værdien er 0.5577 > 0.05. Dvs. vi accepterer H 0 ved et test på niveau 5%. Effekten af probe afhænger derfor ikke af, hvilken stamme vi ser på. e) Idet vi har accepteret H 0 ovenfor kan vi nu opstille H 1 : der er ingen hovedvirkning af probe. Fra SAS-udskriften aflæser vi, at F-teststørrelsen for test af H 1 er F = 22.03 og p-værdien er < 0.0001 < 0.05. Dvs. vi forkaster H 1 ved et test på niveau 5%. Konklusionen er, at der er en effekt af probe, og vi ender altså med den additive model array + probe. f) Det er en forudsætning for analyserne i b), d) og e) at logaritmen til ekspressionsmålingerne kan antages at være uafhængige og normalfordelte med samme varians. Endvidere er det en forudsætning at modellen givet kan beskrive middelværdien af log-ekspressionsmålingerne. Det er f.eks. en forudsætning, at der ikke er en vekselvirkning mellem probe og array. Opgave 3 a) Vi lader X betegne tid målt i timer og Y CO-niveauet og tager udgangspunkt i den lineære regressionsmodel Y = β 0 + β 1 X + ɛ 3

for ɛ er normalfordelt med middelværdi 0 og spredning σ. Fra SAS-udskriften aflæses ˆβ 0 = 45.205 ˆβ1 = 6.007, dvs. den estimerede regressionslinje er y = 45.205 6.007x Estimatet for spredningen på ˆβ 1 (standard error) aflæses fra SAS-udskriften til 1.844, og den kritiske værdi for t-fordelingen med 10 frihedsgrader for et test på niveau 5% findes ved opslag til 2.228. Et 95% konfidensinterval for β 1 er derfor 6.007 ± 2.228 1.844 = 6.007 ± 4.108, der også kan skrives som [ 10.115, 1.899]. b) Estimatet for middelværdien en time efter at personen røg en cigaret findes ved at sætte x = 1 i den estimerede regressionslinje, dvs. Fra SAS-udskriften aflæser vi at ˆµ Y X=1 = 45.205 6.007 = 39.198. x = 1.8792 12 i=1 (x i x) 2 = 25.7573. samt at estimatet for σ er 9.3570. Den estimerede spredning på ˆµ Y X=1 er derfor 1 9.3570 12 + (1 1.8792)2 25.7573 = 3.150. Den kritiske værdi for t-fordelingen med 10 frihedsgrader for et test på niveau 5% er som ovenfor 2.228, og et 95% konfidensinterval for µ Y X=1 findes til 39.198 ± 2.228 3.150 = 39.198 ± 7.018, der også kan skrives som [32.180, 46.216]. c) Vi opstiller nu nul-hypotesen H 0 : β 1 = 0. Fra a) kan vi se, at 0 ikke ligger i 95% konfidensintervallet for β 1, dvs. med et test på niveau 5% forkaster vi H 0 og kan derfor ikke antage at hældningen er 0. Alternativt kan vi fra SAS-udskriften aflæse t-teststørrelsen for H 0 til 3.26 og p-værdien til 0.0086 < 0.05. Det giver selvfølgelig samme konklusion at vi på niveau 5% forkaster hypotesen. 4

Opgave 4 a) Vi tager som udgangspunkt at procentdelen af rodceller med svampe til tidspunkt i, i = A, B, C, D, er normalfordelt med middelværdi µ i og spredning σ i. Vi opstiller nul-hypotesen H 0 : σ 2 A = σ 2 B = σ 2 C = σ 2 D om varianshomogenitet i de 4 grupper. Fra SAS-udskriften aflæses test-størrelsen for Bartlett s test til 0.9770 og p-værdien til 0.8068 > 0.05. Vi accepterer derfor hypotesen ved et test på niveau 5%. Vi kan altså antage, at der er samme varians i de fire grupper. b) Vi har som udgangspunkt en ensidet variansanalyse med ens varians i grupperne. H 0 : µ A = µ B = µ C = µ D om at middelværdierne ikke varierer med tiden. Fra SAS-udskriften aflæses F- teststørrelsen til F = 1.92 og p-værdien til 0.1677 > 0.05. Vi accepterer altså H 0 ved et test på niveau 5% og konkluderer, at procentdelen af rodceller ikke varierer med tiden. c) På baggrund af a) og b) antager vi nu, at alle 20 målinger stammer fra en normalfordeling med middelværdi µ og spredning σ. Fra SAS-udskriften aflæses estimatet for µ til ˆµ = 41.85 og estimatet for σ (kvadratroden af Corrected Total/DF) aflæses til 700.55 s = = 6.072. 19 H 0 : µ = 32 og udregner t-teststørrelsen 41.85 32 6.072/ 20 = 7.25. Den kritiske værdi for t-testet på niveau 5% med 19 frihedsgrader er t 19,0.975 = 2.093. Eftersom t = 7.25 > 2.093 forkastes H 0 på niveau 5%, og data er således ikke forenelige med en hypotese om, at procentdelen af rodceller med svampe er 32. Alternativt kan man benytte Root MSE på 5.675 som estimatet for σ med 16 frihedsgrader. Det giver teststørrelsen 41.85 32 5.675/ 20 = 7.76. Den kritiske værdi for t-testet på niveau 5% med 16 frihedsgrader er t 16,0.975 = 2.120, og vi får samme konklusion - vi forkaster hypotesen. 5