Kursus 4: Besvarelser til øvelses- og hjemmeopgaver i uge 11 Opgave 11.4 side 316 (7ed: 11.4, side 35 og 6ed: 11., side 345) Opgaven består i at foretage en regressionsanalse. Først afbildes data som i følgende figur, der viser de undersøgte emners forlængelse i afhængighed af den belastning, de har været udsat for. Samtidig er indtegnet en linie som model for den teoretiske sammenhæng. 1 9 8 Linie : = α + β x 7 6 5 4 3 1 1 3 4 5 6 7 x Data ligger ndeligt omkring linien, hvorfor det er rimeligt at bentte modellen For de viste data er xi =1, x i =91, Y i = α + βx i + ɛ i ; i =1,.., 6 i = 311, i = 19855, xi i = 134 S xx = (x i x) =91 1 /6=17.5, S x = (x i x)( i ) = 134 (1 311)/6 = 53.5 og S = ( i ) = 19855 311 /6 = 3734.83 β = S x /S xx =14.49 og α = β x =1.13 Dvs ŷ = 1.13 + 14.49 x Vi bør altid estimere variansen for de tilfældige afvigelser, ɛ i. Hertil benttes formlen for kvadratafvigelsessummen mellem data, i, og de tilsvarende punkter på denberegnede linie, ŷ i : (i ŷ i ) = S Sx/S xx =6.7 hvor de skønnede regressionsværdier altså står for ŷ i = α + βx i. Endelig finder vi så σ ɛ (i ŷ i ) = = 6.7 =15.68 = 3.96 n 6 For regressionslinien kan man beregne f.eks et 95% konfidensinterval for liniens beliggenhed. Vi har formlen side 349 (34): 1 I[ (x )] 1 α = α+ βx i ± σ ɛ t(n ) α/ n + (x x) S xx 1
Hvis man beregner intervallet for alle x -værdier fås et plot som følger 1 9 8 Linie : = α + β x 7 6 5 interval for x =3.5 4 3 1 Med 95% konfidensinterval 1 3 4 5 6 7 x For alle x -værdier kan man beregne f.eks et 95% prediktionsinterval for en enkelt målings beliggenhed. Vi har formlen side 35 (343): I[ (x )+ɛ] 1 α = α+ βx i ± σ ɛ t(n ) α/ 1+ 1 n +(x x) S xx Hvis man beregner intervallet for alle x -værdier fås et plot som følger 1 9 8 Linie : = α + β x 7 6 5 4 interval for x =3.5 3 1 Med 95% prediktionsinterval 1 3 4 5 6 7 x Det er vigtigt at holde de to intervaller ude fra hinanden. Konfidensintervallet udtaler sig om den teoretiske sammenhængs (liniens) beliggenhed. Prediktionsintervallet udtaler sig om, hvor man kan forvente en fremtidig observation vil falde. Specielt er der bedt om forudsigelse af for x =3.5. Man finder ŷ(3.5) = 1.13 + 14.49 3.5 = 51.86 95% konfidensintervallet for (3.5) er, idet t(4).5 =.776 og σ ɛ =3.96, I[ (3.5) ].95 = 51.86 ± 3.96.776 1 (3.5 1/6) + 6 17.5 = 51.85 ± 4.49 95% prediktionsintervallet for (3.5) er tilsvarende I[ (3.5) + ɛ ].95 = 51.86 ± 3.96.776 1+ 1 6 +(3.5 1/6) 17.5 = 51.85 ± 11.87
Opgave 11.5, side 316 (7ed: 11.5, side 353 og 6ed: 11.3, side 345) Fortsætter opgave 11.4 : a) Der bedes om et konfidensinterval for hældningskoefficienten β. Det generelle resultat, man anvender er (igen) baseret på t-fordelingen: s β = s ɛ S xx t(n ) hvorfor P r { t(n ) α/ s ɛ S xx t(n ) α/ } =1 α P r { β s ɛ S xx t(n ) α/ β β + s ɛ Sxx t(n ) α/ } =1 α og I [ β ] 1 α = β ± s ɛ Sxx t(n ) α/ For α =.5 fås I [ β ].95 = 14.49 ± 3.96 17.5.776 = 14.49 ±.6 Man kan på helt samme måde finde et 95% konfidensinterval for afskæringen for regressionslinien = α + βx, dvs for α (se også side 346 (339)): I [ α ].95 = α ± s ɛ t(n ).5 1 n + (x) S xx =1.13 ± 1.34 b) Der bedes endelig om et interval for måleresultatet for ét emne, og det er netop prediktionsintervallet - som her ønskes for x =3.5. Dette er besvaret i løsningen til opgave 11.. Resultatet var I [ (3.5)+ɛ ].95 = 51.86 ± 3.96.776 1+ 1 6 +(3.5 1/6) 17.5 = 51.85 ± 11.87 Opgave 11.6, 11.7 11.8 side 316 (7ed: side 353 og 6ed: 11.4, 11.5 og 11.6, side 345) Data ligger ndeligt omkring en linie, hvorfor det er rimeligt at bentte modellen Y i = α + βx i + ɛ i ; i =1,.., 6 3
For de viste data er xi =36, x i = 34, i = 17, i = 1, xi i = 71 S xx = (x i x) = 34 36 /6=88., S x = (x i x)( i ) = 71 (36 17)/6 =79. og S = 1 17 /6=9.83 β = S x /S xx =.8977 og α = β x =1.45 Vi estimerer variansen af de tilfældige afvigelser, ɛ i. Hertil benttes ŷ i = α + βx i og formlen (i ŷ i ) = S Sx /S xx =1.91 og endelig σ ɛ = (i ŷ i ) = 1.91 =5.48 =.34 n 6 4 35 3 5 15 1 5 5 1 15 Figuren viser data, den estimerede regressionslinie, konfidensinterval for linien, I [ (x)].95, og prediktionsinterval for enkeltmålinger, I [ (x)+ɛ].95. x ŷ(x) I [ (x) ].95 I [ (x)+ɛ].95 1. 14 13.34 ± 4.36 ± 7.83. 13 14.4 ± 3.84 ± 7.55 3. 15.14 ± 3.37 ± 7.3 4. 16.4 ±.99 ± 7.15 5. 15 16.94 ±.74 ± 7.5 6. 17.83 ±.65 ± 7. 7. 1 18.73 ±.74 ± 7.5 8. 19.63 ±.99 ± 7.15 9. 3.53 ± 3.37 ± 7.3 1. 1.4 ± 3.84 ± 7.55 11..3 ± 4.36 ± 7.83 1. 1 3. ± 4.93 ± 8.16 13. 4.1 ± 5.53 ± 8.53 14. 5. ± 6.14 ± 8.94 I praksis bør man altid kontrollere, at afvigelserne fra den teoretiske regressionslinie faktisk kan tænkes at stamme fra en normalfordeling. Den hppigst anvendte og enkleste metode er at optegne et normalfordelingsplot for de beregnede afvigelser mellem 4
data og den skønnede regressionslinie, dvs for residualerne ɛ i = i ŷ i Data ordnes efter residualernes størrelse Data Linie Residualer i ŷ i ɛ i 13 14.4 1.4 1 18.73 +.7 3.53 +.47 14 13.34 +.66 15 16.94 1.94 1 3.. Data Linie Residualer Orden Sandsnlighed Normal score i ŷ i ɛ (i) (i) p i =(i.5)/n z i 1 3.. 1.833 1.38 15 16.94 1.94.5.67 13 14.4 1.4 3.4167.1 14 13.34 +.66 4.5833.1 1 18.73 +.7 5.75.67 3.53 +.47 6.9167 1.38 5 4 3 Residualer 1 1 3 4 Normal scores 5 1.5 1.5.5 1 1.5 Hvis residualernes gennemsnit kaldes ɛ og deres estimerede standardafvigelse kaldes σ ɛ, går linien gennem punktet (, ɛ ) og har hældningkoefficienten σ ɛ. I vores tilfælde er ɛ = og vi fandt σ ɛ =.34. I en sædvanlig regressionsanalse (hvor der er et konstantled) vil residualernes gennemsnit iøvrigt altid være (ligesom i regressionsanalsen). Figuren viser ikke nogen påfaldende afvigelser, men antallet af observationer er lille i dette eksempel, så det vil under alle omstædigheder være vanskeligt af efterprøve normalfordelingsantagelsen særligt effektivt. Eksemplets primære formål er at vise teknikken. Vi fortsætter nu med opgaven: 5
I teksten til opgave 11.7 (11.5) anmodes der om at undersøge estimatet for hældningskoefficenten β. Vi har s β = s ɛ S xx t(n ) Vi ønsker at teste H : β 1. mod H 1 : β < 1. t(4) α=.5 1.1.13 Vi har estimeret β =.8977, σ ɛ = s ɛ =.34 og beregnet S xx =88.. Heraf findes t-værdien for β =1.:.8977 1. t = 88. = 1.1.34 og denne værdi er ikke beliggende i det kritiske område, som markeret i figuren. Vi kan altså ikke afvise H på det foreliggende grundlag. Man kan naturligvis også teste liniens afskæring α ved hjælp af t = α α α α = s α s 1 ɛ + t(n ) (x) n S xx For eksempel H : α 1. mod H 1 : α > 1. 1.45 1. t =.34 1/6+6. /88. =1.38 som kræves større end +.13 for kunne afvise H vedettestpå5%niveau. t(4) 1.38.13 6
Dec4.9 Idet forklaringsgraden er lig med korrelationen-i-anden, fås den ønskede forklaringsgrad som.949 =.961 = 9.1%. altså ersvaret1. Dec4.1 Det korrekte svar er 5. Skulle man prøve at udtrkke det ønskede tal: som funktion af VOL B får man: VOL A = α + βsurf A = α + β(surf B + ) VOL A = α + β( VOL B α + ) = VOL B + β β som jo IKKE er et af svarmulighederne. Man SKAL bruge informationen om hældningen for at kunne finde det ønskede tal. Dec4.11 (Ikke en regressions-opgave) Idet populations-spredningen estimeres til 117, vil man forvente at 95% af populationen ligger inden for ca. plus/minus sdanne spredninger, eller mere præcist 1.96, så det korrekte svar er 4. Dec4.19 Idet b = SS x, og s x SS = SS xx/(n 1) xx bliverdetkorrektesvar4. Dec4. Formlen for den ønskede varians står øverst side 346 (339), så svaret bliver altså. Dec4.1 Vi skal bruge limits of prediction. Ingen af intervallerne i svar og 4 passer med formlen side 35 (343). så vimå aflæse p figuren for en x-værdi p 11 - de derste grænser, idet prædiktionsintervaller altid er bredere end estimationsintervaller. Altså er svaret 3. 7
Ropg 1.3.1 Modellen er givet ved: Y i = α + βx i + ε i hvor Y i er eksamenskarakter og x i årskarakter for skole i. Det antages at ε i er uafhængige og normalfordelt med (samme) varians σ. Linien estimeres ved at estimere hhv. α og β: (se side i Splus-noten) a =.495, b =.7194 Idet P-værdierne ud for disse to estimater er (særdeles) små, så er begge estimater klart signifikant forskellig fra! Man kan aflæse standard error (stikprøve-spredningen) for hældningskoefficienten b til at være.. Et 95% konfidensinterval kan således opnås ved:.7194 ± 1.96. idet med 1553 frihedsgrader er t-fraktilen i praksis det samme som z-fraktilen (boksen nederst side 346 anvendes). Intervallet bliver altså: [.676,.763] Idet R =.45 OG idet b er positiv, bliver korrelationskoefficienten mellem årskarakterer og eksamenskarakterer r =.45 =.634 Man kan IKKE aflæse den øvre kvartil for eksamens-karaktererne, men kun øvre kvartil for residualerne:.811. 8