Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået følgende emner vedrørende analyse af normalfordelte data (tallene i parentes angiver sider i BG): Test for lineær regression (p. 133 20 134 12 ) Notation i forbindelse med en følge af hypoteser (p. 134 11 138 4 ) Lineære normale modeller (p. 177 1 186 1 ) Desuden har jeg gennemgået den udleverede note om test for lineær regression (kan downloades fra kursets hjemmeside under slides, navnet på filen er f8.bemaerk.pdf). Teoretisk øvelser i ugen 3. - 7. marts. Eventuelt manglende opgaver fra sidst. Derefter følgende: 1) Eksamen, Statistik α, Vinteren 2000/2001, Opgave 3. 2) Eksamen, Matematisk Modellering 1, Forår 2007, Opgave 4 (kan regnes efter torsdagsforelæsningen). Statistik Laboratorium den 3. marts. Her kan I få hjælp til at regne den obligatoriske opgave og de opgaver, der er stillet til de teoretiske øvelser i ugen 3. - 7. marts. Forelæsningerne torsdag den 28. februar og tirsdag den 4. marts. Omhandler sammenligning af regressionslinjer (Afsnit 4.2). Derefter går vi i gang med Kapitel 7 om multinomialfordelingen. I uge 10 er jeg til konference i Tyskland, Jørgen Granfeldt tager tirsdagsforelæsningen i den uge. Øvrige bemærkninger. Når man gennemregner en lineær normal model M, får man blandt andet brug for at beregne frihedsgraderne f og det middelværdirette variansskøn s 2 under M. Her er f defineret som f = n d, hvor d er dimensionen af underrummet L der hører til M. I praksis kan vi tænke på d som antal parametre i middelværdien under M. Vi lader P betegne projektionen på L og sætter SSD = x P (x) 2. Det middelværdirette variansskøn fremkommer da som s 2 = SSD og der gælder s 2 σ 2 χ 2 (f)/f. Benytter f man proc glm kan f, SSD og s 2 aflæses i Error-linjen. Lad os forestille os at vi ønsker at teste fra en lineær normal model M fra til en lineær normal model M til. Det er vigtigt at M til er en delmodel af M fra. (Mere præcist at L til L fra ). Vi kan da gennemregne disse to modeller og betegner frihedsgrader, SSD og variansskøn med f 0fra, SSD 0fra, s 2 0fra og 1
f 0til, SSD 0til, s 2 0til. F -testet for M til under M fra kan beregnes via til-og-fra-formlen: F (x) = (SSD 0til SSD 0fra )/(f 0til f 0fra ) s 2 0fra F (f 0til f 0fra, f 0fra ) hvor store værdier er kritiske. Frihedsgraderne i nævneren er lig med frihedsgraderne under fra -modellen; i tælleren er frihedsgraderne lig med forskellen i antal parametre under de to modeller. Vi har benyttet til-og-fra-formlen på side 134 hvor fra -modellen er k normalfordelte observationsrækker og til -modellen er en lineær regression. Hvis til -modellen accepteres, kan vi lade denne model overtage rollen som fra - model og definere en ny til -model. Vedrørende konfidensinterval for variansen σ 2 og spredningen σ. Lad os forestille os, at vi har en lineær normal model hvor det middelværdirette variansskøn s 2 har f frihedsgrader. Det vil sige, at s 2 σ 2 χ 2 (f)/f. Når man skal finde et konfidensinterval for variansen, kan ligning (3.15), side 61, benyttes. Skal man finde et konfidensinterval for spredningen benyttes (3.16), side 62. Venlig hilsen Eva 2
Statistik Side 3 2) Undersøg, om det kan antages, at variansen for tiderne er den samme i de to heat. 3) Undersøg, om det kan antages, at middelværdien for tiderne er den samme i de to heat. 4) Angiv estimat og 95% konfidensinterval for middelværdien af differensen mellem tiderne i de to heat. Opgave 3 Data fra denne opgave stammer fra et fysikforsøg til at bestemme tyngdeaccelerationen. Et pendul er konstrueret ved at ophænge et lille, tungt metallegeme i en stærk tråd af ubetydelig vægt. Pendullængden bestemmes som afstanden fra trådens fastgørelsessted til metallegemets tyngdepunkt. Pendulet bringes i svingninger med en amplitude, der ikke overstiger 10 % af pendulets længde, og tiden for en svingning måles. Målingerne foretages for 5 værdier af pendullængden L. Idet T betegner tiden for en svingning og g betegner tyngdeaccelerationen, er sammenhængen mellem T og L givet ved formlen T =2 s L g som kan omskrives til T 2 = 42 g L: Hvis man tegner T 2 op mod L vil man forvente, at punkterne ligger pænt på en ret linje med hældning 4 2 =g, og forsøget giver således mulighed for at bestemme tyngdeaccelerationen. Resultaterne af dette forsøg udført af en elev er gengivet i Tabel 1. L 175.2 151.5 126.4 101.7 77.0 T 2.7 2.5 2.3 2.0 1.8 Tabel 1: I første række er angivet de 5 værdier af L i cm og i anden række de tilhørende værdier af T i sekunder. I den følgende analyse antages at pendullængden L er bestemt uden fejl, mens kvadraterne T 2 af svingningstiderne opfattes som realisationer af uafhængige normalfordelte stokastiske variable.
Statistik Side 4 Endvidere er analysen baseret på modellen, at der er lineær regression af T 2 på L, det vil sige T 2 j N ( + L j 2 ) j =1 ::: 5 (1) hvor j nummererer de fem målinger som eleven har foretaget. 1) Tegn en graf af sammenhørende værdier (L j,t 2 ) og estimer parametrene i modellen (1). j I besvarelsen af dette spørgsmål må standardberegningerne i Tabel 2 benyttes. T 2 L S 26.07 631.8 USS 146.6883 85896.14 SP 3549.019 Tabel 2: Standardberegninger påmålingerne for elev 1. 2) Undersøg, om det kan antages, at afskæringen for regressionslinjen er 0. 3) Undersøg, om det kan antages, at hældningen for regressionslinjen er i overensstemmelse med den teoretiske værdi 4 2 g s2 =0:04024 cm : Opgave 4 Fysikforsøget, som blev beskrevet i Opgave 3, blev udført af 9 elever. Data fra forsøget er gengivet i Tabel 3. De data, der blev analyseret i Opgave 3, stammede fra elev 1. I denne opgave skal der udføres en samlet analyse af forsøget for alle 9 elever baseret på regressionsmodellen T 2 N ( ij i + i L ij 2 ) i =1 ::: 9 j =1 ::: 5 (2) i hvor i referer til elev nr i, ogj indicerer de 5 målinger, hver elev har foretaget. I Tabel 4 på side 6 er angivet variansskønnene i modellen (2) for alle 9 elever. 1) Vis, at det kan antages, at eleverne måler med samme varians. 2) Vis, at det kan antages, at der er samme hældning i regressionslinjerne for de 9 elever. 3) Undersøg, om det kan antages, at der er samme afskæring af andenaksen af regressionslinjerne for de 9 elever.
Matematisk Modellering 1 Side 4 Opgave 4 I denne opgave skal vi studere en generel metode til at lave vævssnit. Man tilstræber at lave disse snit med lige stor afstand, således at afstanden mellem det i te og det (i + 1) te snit er en konstant β. For at undersøge i hvor høj grad dette er muligt, har man lavet 2 serier af vævssnit og bestemt den aktuelle position af alle vævssnittene. Lad x hi være positionen, målt i millimeter, for det i te snit i den h te serie, h = 1, 2, i = 1,..., n h. Her er n 1 = 15 og n 2 = 14. Vi vil da i det følgende arbejde under modellen M : x hi N(α h + β h t hi, σ 2 h ), h = 1, 2, i = 1,..., n h, hvor t hi = i er nummeret på det i te snit inden for den h te serie. Denne model siger altså, at vi inden for hver vævsserie har en lineær regression af position på nummer. Man forventer at β 1 = β 2 = β, den tilstræbte afstand mellem nabosnit. Derimod har man ikke nogen grund til at tro at α 1 = α 2. Spørgsmålene i denne opgave kan besvares ved hjælp af SAS udskrifterne side 5-9. Datasættet to snit har 29 observationer og 3 variable. Variablen serie angiver nummeret på vævsserien; variablen nummer angiver nummeret på vævssnittet inden for den pågældende serie; variablen position angiver den aktuelle position af vævssnittet. (1) Vis ved et test, at det kan antages, at de to varianser σ 2 1 og σ2 2 er ens. (2) Vis ved et test, at det kan antages, at de to regressionslinjer har samme hældning, dvs. β 1 = β 2 = β. (3) Vis ved et test, at det ikke kan antages, at α 1 og α 2 er ens. I begge vævsserier er det tilstræbt, at afstanden mellem nabosnit er 2.5mm. (4) Undersøg, om den fælles hældning β kan antages at være 2.5mm.
Matematisk Modellering 1 Side 5 Nedenstående udskrift viser indholdet af datasættet to snit. The SAS System Obs serie nummer position 1 1 1 0.44 2 1 2 2.49 3 1 3 4.72 4 1 4 7.45 5 1 5 9.85 6 1 6 11.73 7 1 7 14.98 8 1 8 17.37 9 1 9 20.02 10 1 10 22.76 11 1 11 25.06 12 1 12 27.88 13 1 13 30.19 14 1 14 32.59 15 1 15 34.98 16 2 1 0.63 17 2 2 3.17 18 2 3 5.93 19 2 4 7.09 20 2 5 10.91 21 2 6 12.50 22 2 7 15.46 23 2 8 18.22 24 2 9 20.55 25 2 10 22.99 26 2 11 25.74 27 2 12 27.75 28 2 13 30.30 29 2 14 33.26
Matematisk Modellering 1 Side 6 Modellen M gennemregnes med programstumpen TITLE1 Modellen M ; PROC GLM DATA=to_snit; MODEL position=nummer; BY serie; RUN; TITLE1; Nedenfor ses en lille del af output: Modellen M ----------------------------------- serie=1 ------------------------------------ Number of observations 15 Modellen M ----------------------------------- serie=1 ------------------------------------ Dependent Variable: position Sum of Source DF Squares Mean Square F Value Pr > F Model 1 1770.962401 1770.962401 20825.6 <.0001 Error 13 1.105492 0.085038 Corrected Total 14 1772.067893 Modellen M ----------------------------------- serie=2 ------------------------------------ Number of observations 14 Modellen M ----------------------------------- serie=2 ------------------------------------ Dependent Variable: position Sum of Source DF Squares Mean Square F Value Pr > F Model 1 1420.275450 1420.275450 9701.61 <.0001 Error 12 1.756750 0.146396 Corrected Total 13 1422.032200
Matematisk Modellering 1 Side 7 Programstumpen PROC GLM DATA=to_snit; CLASS serie; MODEL position=nummer serie serie*nummer/ss1; RUN; giver anledning til følgende output: Class Level Information Class Levels Values serie 2 1 2 Number of observations 29 Dependent Variable: position Sum of Source DF Squares Mean Square F Value Pr > F Model 3 3195.318372 1065.106124 9303.08 <.0001 Error 25 2.862242 0.114490 Corrected Total 28 3198.180614 R-Square Coeff Var Root MSE position Mean 0.999105 1.974313 0.338363 17.13828 Source DF Type I SS Mean Square F Value Pr > F nummer 1 3193.458268 3193.458268 27893.0 <.0001 serie 1 1.826611 1.826611 15.95 0.0005 nummer*serie 1 0.033493 0.033493 0.29 0.5934
Matematisk Modellering 1 Side 8 Programstumpen PROC GLM DATA=to_snit; CLASS serie; MODEL position=nummer serie/ss1 SOLUTION; RUN; giver anledning til nedenstående output: Class Level Information Class Levels Values serie 2 1 2 Dependent Variable: position Number of observations 29 The SAS System Sum of Source DF Squares Mean Square F Value Pr > F Model 2 3195.284879 1597.642440 14344.8 <.0001 Error 26 2.895735 0.111374 Corrected Total 28 3198.180614 R-Square Coeff Var Root MSE position Mean 0.999095 1.947267 0.333728 17.13828 Source DF Type I SS Mean Square F Value Pr > F nummer 1 3193.458268 3193.458268 28673.2 <.0001 serie 1 1.826611 1.826611 16.40 0.0004 Standard Parameter Estimate Error t Value Pr > t Intercept -2.057044335 B 0.14247726-14.44 <.0001 nummer 2.507605911 0.01481408 169.27 <.0001 serie 1-0.503136289 B 0.12423824-4.05 0.0004 serie 2 0.000000000 B... NOTE: The X X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations. Terms whose estimates are followed by the letter B are not uniquely estimable.
Matematisk Modellering 1 Side 9 Programstumpen PROC GLM DATA=to_snit; MODEL position=nummer/ss1; RUN; giver som en del af output følgende: Dependent Variable: position Number of observations 29 Sum of Source DF Squares Mean Square F Value Pr > F Model 1 3193.458268 3193.458268 18258.6 <.0001 Error 27 4.722346 0.174902 Corrected Total 28 3198.180614