Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Relaterede dokumenter
Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

k normalfordelte observationsrækker (ensidet variansanalyse)

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Besvarelse af vitcap -opgaven

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Reeksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Eksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for Biokemikere 6. april 2009

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Forelæsning 11: Kapitel 11: Regressionsanalyse

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Reeksamen i Statistik for biokemikere. Blok

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Lineær regression i SAS. Lineær regression i SAS p.1/20

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 4

Eksamen i Statistik for biokemikere. Blok

Tema. Dagens tema: Indfør centrale statistiske begreber.

Skriftlig eksamen Science statistik- ST501

Regressionsanalyse i SAS

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Besvarelse af juul2 -opgaven

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Eksamen i Statistik for Biokemikere, Blok januar 2009

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

En Introduktion til SAS. Kapitel 5.

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Anvendt Statistik Lektion 7. Simpel Lineær Regression

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Matematisk Modellering 1 Cheat Sheet

Den lineære normale model

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Besvarelse af opgave om Vital Capacity

Løsning eksamen d. 15. december 2008

Module 12: Mere om variansanalyse

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Opgavebesvarelse, brain weight

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Modul 11: Simpel lineær regression

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Statistiske Modeller 1: Kontingenstabeller i SAS

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Løsning til eksamen d.27 Maj 2010

Modul 6: Regression og kalibrering

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

Løsning til eksaminen d. 29. maj 2009

Vejledende besvarelse af hjemmeopgave, efterår 2017

Opgavebesvarelse, brain weight

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Referat : af Gruppearbejde Økonometri1 øvelsestime ugeseddel 7 dato 26/3 2003, Hold 4

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Forelæsning 11: Envejs variansanalyse, ANOVA

To samhørende variable

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Modul 12: Regression og korrelation

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Økonometri Lektion 1 Simpel Lineær Regression 1/31

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

To-sidet varians analyse

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Multipel Lineær Regression

En Introduktion til SAS. Kapitel 6.

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

1 Hb SS Hb Sβ Hb SC = , (s = )

Kapitel 12 Variansanalyse

Transkript:

Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået følgende emner vedrørende analyse af normalfordelte data (tallene i parentes angiver sider i BG): Test for lineær regression (p. 133 20 134 12 ) Notation i forbindelse med en følge af hypoteser (p. 134 11 138 4 ) Lineære normale modeller (p. 177 1 186 1 ) Desuden har jeg gennemgået den udleverede note om test for lineær regression (kan downloades fra kursets hjemmeside under slides, navnet på filen er f8.bemaerk.pdf). Teoretisk øvelser i ugen 3. - 7. marts. Eventuelt manglende opgaver fra sidst. Derefter følgende: 1) Eksamen, Statistik α, Vinteren 2000/2001, Opgave 3. 2) Eksamen, Matematisk Modellering 1, Forår 2007, Opgave 4 (kan regnes efter torsdagsforelæsningen). Statistik Laboratorium den 3. marts. Her kan I få hjælp til at regne den obligatoriske opgave og de opgaver, der er stillet til de teoretiske øvelser i ugen 3. - 7. marts. Forelæsningerne torsdag den 28. februar og tirsdag den 4. marts. Omhandler sammenligning af regressionslinjer (Afsnit 4.2). Derefter går vi i gang med Kapitel 7 om multinomialfordelingen. I uge 10 er jeg til konference i Tyskland, Jørgen Granfeldt tager tirsdagsforelæsningen i den uge. Øvrige bemærkninger. Når man gennemregner en lineær normal model M, får man blandt andet brug for at beregne frihedsgraderne f og det middelværdirette variansskøn s 2 under M. Her er f defineret som f = n d, hvor d er dimensionen af underrummet L der hører til M. I praksis kan vi tænke på d som antal parametre i middelværdien under M. Vi lader P betegne projektionen på L og sætter SSD = x P (x) 2. Det middelværdirette variansskøn fremkommer da som s 2 = SSD og der gælder s 2 σ 2 χ 2 (f)/f. Benytter f man proc glm kan f, SSD og s 2 aflæses i Error-linjen. Lad os forestille os at vi ønsker at teste fra en lineær normal model M fra til en lineær normal model M til. Det er vigtigt at M til er en delmodel af M fra. (Mere præcist at L til L fra ). Vi kan da gennemregne disse to modeller og betegner frihedsgrader, SSD og variansskøn med f 0fra, SSD 0fra, s 2 0fra og 1

f 0til, SSD 0til, s 2 0til. F -testet for M til under M fra kan beregnes via til-og-fra-formlen: F (x) = (SSD 0til SSD 0fra )/(f 0til f 0fra ) s 2 0fra F (f 0til f 0fra, f 0fra ) hvor store værdier er kritiske. Frihedsgraderne i nævneren er lig med frihedsgraderne under fra -modellen; i tælleren er frihedsgraderne lig med forskellen i antal parametre under de to modeller. Vi har benyttet til-og-fra-formlen på side 134 hvor fra -modellen er k normalfordelte observationsrækker og til -modellen er en lineær regression. Hvis til -modellen accepteres, kan vi lade denne model overtage rollen som fra - model og definere en ny til -model. Vedrørende konfidensinterval for variansen σ 2 og spredningen σ. Lad os forestille os, at vi har en lineær normal model hvor det middelværdirette variansskøn s 2 har f frihedsgrader. Det vil sige, at s 2 σ 2 χ 2 (f)/f. Når man skal finde et konfidensinterval for variansen, kan ligning (3.15), side 61, benyttes. Skal man finde et konfidensinterval for spredningen benyttes (3.16), side 62. Venlig hilsen Eva 2

Statistik Side 3 2) Undersøg, om det kan antages, at variansen for tiderne er den samme i de to heat. 3) Undersøg, om det kan antages, at middelværdien for tiderne er den samme i de to heat. 4) Angiv estimat og 95% konfidensinterval for middelværdien af differensen mellem tiderne i de to heat. Opgave 3 Data fra denne opgave stammer fra et fysikforsøg til at bestemme tyngdeaccelerationen. Et pendul er konstrueret ved at ophænge et lille, tungt metallegeme i en stærk tråd af ubetydelig vægt. Pendullængden bestemmes som afstanden fra trådens fastgørelsessted til metallegemets tyngdepunkt. Pendulet bringes i svingninger med en amplitude, der ikke overstiger 10 % af pendulets længde, og tiden for en svingning måles. Målingerne foretages for 5 værdier af pendullængden L. Idet T betegner tiden for en svingning og g betegner tyngdeaccelerationen, er sammenhængen mellem T og L givet ved formlen T =2 s L g som kan omskrives til T 2 = 42 g L: Hvis man tegner T 2 op mod L vil man forvente, at punkterne ligger pænt på en ret linje med hældning 4 2 =g, og forsøget giver således mulighed for at bestemme tyngdeaccelerationen. Resultaterne af dette forsøg udført af en elev er gengivet i Tabel 1. L 175.2 151.5 126.4 101.7 77.0 T 2.7 2.5 2.3 2.0 1.8 Tabel 1: I første række er angivet de 5 værdier af L i cm og i anden række de tilhørende værdier af T i sekunder. I den følgende analyse antages at pendullængden L er bestemt uden fejl, mens kvadraterne T 2 af svingningstiderne opfattes som realisationer af uafhængige normalfordelte stokastiske variable.

Statistik Side 4 Endvidere er analysen baseret på modellen, at der er lineær regression af T 2 på L, det vil sige T 2 j N ( + L j 2 ) j =1 ::: 5 (1) hvor j nummererer de fem målinger som eleven har foretaget. 1) Tegn en graf af sammenhørende værdier (L j,t 2 ) og estimer parametrene i modellen (1). j I besvarelsen af dette spørgsmål må standardberegningerne i Tabel 2 benyttes. T 2 L S 26.07 631.8 USS 146.6883 85896.14 SP 3549.019 Tabel 2: Standardberegninger påmålingerne for elev 1. 2) Undersøg, om det kan antages, at afskæringen for regressionslinjen er 0. 3) Undersøg, om det kan antages, at hældningen for regressionslinjen er i overensstemmelse med den teoretiske værdi 4 2 g s2 =0:04024 cm : Opgave 4 Fysikforsøget, som blev beskrevet i Opgave 3, blev udført af 9 elever. Data fra forsøget er gengivet i Tabel 3. De data, der blev analyseret i Opgave 3, stammede fra elev 1. I denne opgave skal der udføres en samlet analyse af forsøget for alle 9 elever baseret på regressionsmodellen T 2 N ( ij i + i L ij 2 ) i =1 ::: 9 j =1 ::: 5 (2) i hvor i referer til elev nr i, ogj indicerer de 5 målinger, hver elev har foretaget. I Tabel 4 på side 6 er angivet variansskønnene i modellen (2) for alle 9 elever. 1) Vis, at det kan antages, at eleverne måler med samme varians. 2) Vis, at det kan antages, at der er samme hældning i regressionslinjerne for de 9 elever. 3) Undersøg, om det kan antages, at der er samme afskæring af andenaksen af regressionslinjerne for de 9 elever.

Matematisk Modellering 1 Side 4 Opgave 4 I denne opgave skal vi studere en generel metode til at lave vævssnit. Man tilstræber at lave disse snit med lige stor afstand, således at afstanden mellem det i te og det (i + 1) te snit er en konstant β. For at undersøge i hvor høj grad dette er muligt, har man lavet 2 serier af vævssnit og bestemt den aktuelle position af alle vævssnittene. Lad x hi være positionen, målt i millimeter, for det i te snit i den h te serie, h = 1, 2, i = 1,..., n h. Her er n 1 = 15 og n 2 = 14. Vi vil da i det følgende arbejde under modellen M : x hi N(α h + β h t hi, σ 2 h ), h = 1, 2, i = 1,..., n h, hvor t hi = i er nummeret på det i te snit inden for den h te serie. Denne model siger altså, at vi inden for hver vævsserie har en lineær regression af position på nummer. Man forventer at β 1 = β 2 = β, den tilstræbte afstand mellem nabosnit. Derimod har man ikke nogen grund til at tro at α 1 = α 2. Spørgsmålene i denne opgave kan besvares ved hjælp af SAS udskrifterne side 5-9. Datasættet to snit har 29 observationer og 3 variable. Variablen serie angiver nummeret på vævsserien; variablen nummer angiver nummeret på vævssnittet inden for den pågældende serie; variablen position angiver den aktuelle position af vævssnittet. (1) Vis ved et test, at det kan antages, at de to varianser σ 2 1 og σ2 2 er ens. (2) Vis ved et test, at det kan antages, at de to regressionslinjer har samme hældning, dvs. β 1 = β 2 = β. (3) Vis ved et test, at det ikke kan antages, at α 1 og α 2 er ens. I begge vævsserier er det tilstræbt, at afstanden mellem nabosnit er 2.5mm. (4) Undersøg, om den fælles hældning β kan antages at være 2.5mm.

Matematisk Modellering 1 Side 5 Nedenstående udskrift viser indholdet af datasættet to snit. The SAS System Obs serie nummer position 1 1 1 0.44 2 1 2 2.49 3 1 3 4.72 4 1 4 7.45 5 1 5 9.85 6 1 6 11.73 7 1 7 14.98 8 1 8 17.37 9 1 9 20.02 10 1 10 22.76 11 1 11 25.06 12 1 12 27.88 13 1 13 30.19 14 1 14 32.59 15 1 15 34.98 16 2 1 0.63 17 2 2 3.17 18 2 3 5.93 19 2 4 7.09 20 2 5 10.91 21 2 6 12.50 22 2 7 15.46 23 2 8 18.22 24 2 9 20.55 25 2 10 22.99 26 2 11 25.74 27 2 12 27.75 28 2 13 30.30 29 2 14 33.26

Matematisk Modellering 1 Side 6 Modellen M gennemregnes med programstumpen TITLE1 Modellen M ; PROC GLM DATA=to_snit; MODEL position=nummer; BY serie; RUN; TITLE1; Nedenfor ses en lille del af output: Modellen M ----------------------------------- serie=1 ------------------------------------ Number of observations 15 Modellen M ----------------------------------- serie=1 ------------------------------------ Dependent Variable: position Sum of Source DF Squares Mean Square F Value Pr > F Model 1 1770.962401 1770.962401 20825.6 <.0001 Error 13 1.105492 0.085038 Corrected Total 14 1772.067893 Modellen M ----------------------------------- serie=2 ------------------------------------ Number of observations 14 Modellen M ----------------------------------- serie=2 ------------------------------------ Dependent Variable: position Sum of Source DF Squares Mean Square F Value Pr > F Model 1 1420.275450 1420.275450 9701.61 <.0001 Error 12 1.756750 0.146396 Corrected Total 13 1422.032200

Matematisk Modellering 1 Side 7 Programstumpen PROC GLM DATA=to_snit; CLASS serie; MODEL position=nummer serie serie*nummer/ss1; RUN; giver anledning til følgende output: Class Level Information Class Levels Values serie 2 1 2 Number of observations 29 Dependent Variable: position Sum of Source DF Squares Mean Square F Value Pr > F Model 3 3195.318372 1065.106124 9303.08 <.0001 Error 25 2.862242 0.114490 Corrected Total 28 3198.180614 R-Square Coeff Var Root MSE position Mean 0.999105 1.974313 0.338363 17.13828 Source DF Type I SS Mean Square F Value Pr > F nummer 1 3193.458268 3193.458268 27893.0 <.0001 serie 1 1.826611 1.826611 15.95 0.0005 nummer*serie 1 0.033493 0.033493 0.29 0.5934

Matematisk Modellering 1 Side 8 Programstumpen PROC GLM DATA=to_snit; CLASS serie; MODEL position=nummer serie/ss1 SOLUTION; RUN; giver anledning til nedenstående output: Class Level Information Class Levels Values serie 2 1 2 Dependent Variable: position Number of observations 29 The SAS System Sum of Source DF Squares Mean Square F Value Pr > F Model 2 3195.284879 1597.642440 14344.8 <.0001 Error 26 2.895735 0.111374 Corrected Total 28 3198.180614 R-Square Coeff Var Root MSE position Mean 0.999095 1.947267 0.333728 17.13828 Source DF Type I SS Mean Square F Value Pr > F nummer 1 3193.458268 3193.458268 28673.2 <.0001 serie 1 1.826611 1.826611 16.40 0.0004 Standard Parameter Estimate Error t Value Pr > t Intercept -2.057044335 B 0.14247726-14.44 <.0001 nummer 2.507605911 0.01481408 169.27 <.0001 serie 1-0.503136289 B 0.12423824-4.05 0.0004 serie 2 0.000000000 B... NOTE: The X X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations. Terms whose estimates are followed by the letter B are not uniquely estimable.

Matematisk Modellering 1 Side 9 Programstumpen PROC GLM DATA=to_snit; MODEL position=nummer/ss1; RUN; giver som en del af output følgende: Dependent Variable: position Number of observations 29 Sum of Source DF Squares Mean Square F Value Pr > F Model 1 3193.458268 3193.458268 18258.6 <.0001 Error 27 4.722346 0.174902 Corrected Total 28 3198.180614