Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Relaterede dokumenter
02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Løsning til eksamen d.27 Maj 2010

Løsning eksamen d. 15. december 2008

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

(studienummer) (underskrift) (bord nr)

Besvarelser til øvelsesopgaver i uge 6

Eksamen i Statistik for biokemikere. Blok

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Kapitel 11 Lineær regression

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Opgaver til kapitel 3

Modelkontrol i Faktor Modeller

Løsning til eksaminen d. 29. maj 2009

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

1 Hb SS Hb Sβ Hb SC = , (s = )

Løsning til eksaminen d. 14. december 2009

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

(studienummer) (underskrift) (bord nr)

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Løsninger til kapitel 14

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

(studienummer) (underskrift) (bord nr)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Opgavebesvarelse, brain weight

Modul 12: Regression og korrelation

Modul 11: Simpel lineær regression

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Multipel Lineær Regression

Modul 6: Regression og kalibrering

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Opgavebesvarelse, brain weight

En Introduktion til SAS. Kapitel 5.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Danmarks Tekniske Universitet Side?? af 20 sider

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

2 X 2 = Antal mygstik på enpersoniløbetaf1minut

(studienummer) (underskrift) (bord nr)

Opgavebesvarelse, brain weight

Kursus 02402/02323 Introducerende Statistik

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

(studienummer) (underskrift) (bord nr)

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Kapitel 12 Variansanalyse

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Statistik i GeoGebra

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Perspektiver i Matematik-Økonomi: Linær regression

Kapitel 12 Variansanalyse

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

Danmarks Tekniske Universitet Side 1 af 19 sider

Løsninger til kapitel 9

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Nanostatistik: Opgavebesvarelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

(studienummer) (underskrift) (bord nr)

Den lineære normale model

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

1 Multipel lineær regression

(studienummer) (underskrift) (bord nr)

Module 9: Residualanalyse

Transkript:

Kursus 4: Besvarelser til øvelses- og hjemmeopgaver i uge 11 Opgave 11.4 side 316 (7ed: 11.4, side 35 og 6ed: 11., side 345) Opgaven består i at foretage en regressionsanalse. Først afbildes data som i følgende figur, der viser de undersøgte emners forlængelse i afhængighed af den belastning, de har været udsat for. Samtidig er indtegnet en linie som model for den teoretiske sammenhæng. 1 9 8 Linie : = α + β x 7 6 5 4 3 1 1 3 4 5 6 7 x Data ligger ndeligt omkring linien, hvorfor det er rimeligt at bentte modellen For de viste data er xi =1, x i =91, Y i = α + βx i + ɛ i ; i =1,.., 6 i = 311, i = 19855, xi i = 134 S xx = (x i x) =91 1 /6=17.5, S x = (x i x)( i ) = 134 (1 311)/6 = 53.5 og S = ( i ) = 19855 311 /6 = 3734.83 β = S x /S xx =14.49 og α = β x =1.13 Dvs ŷ = 1.13 + 14.49 x Vi bør altid estimere variansen for de tilfældige afvigelser, ɛ i. Hertil benttes formlen for kvadratafvigelsessummen mellem data, i, og de tilsvarende punkter på denberegnede linie, ŷ i : (i ŷ i ) = S Sx/S xx =6.7 hvor de skønnede regressionsværdier altså står for ŷ i = α + βx i. Endelig finder vi så σ ɛ (i ŷ i ) = = 6.7 =15.68 = 3.96 n 6 For regressionslinien kan man beregne f.eks et 95% konfidensinterval for liniens beliggenhed. Vi har formlen side 349 (34): 1 I[ (x )] 1 α = α+ βx i ± σ ɛ t(n ) α/ n + (x x) S xx 1

Hvis man beregner intervallet for alle x -værdier fås et plot som følger 1 9 8 Linie : = α + β x 7 6 5 interval for x =3.5 4 3 1 Med 95% konfidensinterval 1 3 4 5 6 7 x For alle x -værdier kan man beregne f.eks et 95% prediktionsinterval for en enkelt målings beliggenhed. Vi har formlen side 35 (343): I[ (x )+ɛ] 1 α = α+ βx i ± σ ɛ t(n ) α/ 1+ 1 n +(x x) S xx Hvis man beregner intervallet for alle x -værdier fås et plot som følger 1 9 8 Linie : = α + β x 7 6 5 4 interval for x =3.5 3 1 Med 95% prediktionsinterval 1 3 4 5 6 7 x Det er vigtigt at holde de to intervaller ude fra hinanden. Konfidensintervallet udtaler sig om den teoretiske sammenhængs (liniens) beliggenhed. Prediktionsintervallet udtaler sig om, hvor man kan forvente en fremtidig observation vil falde. Specielt er der bedt om forudsigelse af for x =3.5. Man finder ŷ(3.5) = 1.13 + 14.49 3.5 = 51.86 95% konfidensintervallet for (3.5) er, idet t(4).5 =.776 og σ ɛ =3.96, I[ (3.5) ].95 = 51.86 ± 3.96.776 1 (3.5 1/6) + 6 17.5 = 51.85 ± 4.49 95% prediktionsintervallet for (3.5) er tilsvarende I[ (3.5) + ɛ ].95 = 51.86 ± 3.96.776 1+ 1 6 +(3.5 1/6) 17.5 = 51.85 ± 11.87

Opgave 11.5, side 316 (7ed: 11.5, side 353 og 6ed: 11.3, side 345) Fortsætter opgave 11.4 : a) Der bedes om et konfidensinterval for hældningskoefficienten β. Det generelle resultat, man anvender er (igen) baseret på t-fordelingen: s β = s ɛ S xx t(n ) hvorfor P r { t(n ) α/ s ɛ S xx t(n ) α/ } =1 α P r { β s ɛ S xx t(n ) α/ β β + s ɛ Sxx t(n ) α/ } =1 α og I [ β ] 1 α = β ± s ɛ Sxx t(n ) α/ For α =.5 fås I [ β ].95 = 14.49 ± 3.96 17.5.776 = 14.49 ±.6 Man kan på helt samme måde finde et 95% konfidensinterval for afskæringen for regressionslinien = α + βx, dvs for α (se også side 346 (339)): I [ α ].95 = α ± s ɛ t(n ).5 1 n + (x) S xx =1.13 ± 1.34 b) Der bedes endelig om et interval for måleresultatet for ét emne, og det er netop prediktionsintervallet - som her ønskes for x =3.5. Dette er besvaret i løsningen til opgave 11.. Resultatet var I [ (3.5)+ɛ ].95 = 51.86 ± 3.96.776 1+ 1 6 +(3.5 1/6) 17.5 = 51.85 ± 11.87 Opgave 11.6, 11.7 11.8 side 316 (7ed: side 353 og 6ed: 11.4, 11.5 og 11.6, side 345) Data ligger ndeligt omkring en linie, hvorfor det er rimeligt at bentte modellen Y i = α + βx i + ɛ i ; i =1,.., 6 3

For de viste data er xi =36, x i = 34, i = 17, i = 1, xi i = 71 S xx = (x i x) = 34 36 /6=88., S x = (x i x)( i ) = 71 (36 17)/6 =79. og S = 1 17 /6=9.83 β = S x /S xx =.8977 og α = β x =1.45 Vi estimerer variansen af de tilfældige afvigelser, ɛ i. Hertil benttes ŷ i = α + βx i og formlen (i ŷ i ) = S Sx /S xx =1.91 og endelig σ ɛ = (i ŷ i ) = 1.91 =5.48 =.34 n 6 4 35 3 5 15 1 5 5 1 15 Figuren viser data, den estimerede regressionslinie, konfidensinterval for linien, I [ (x)].95, og prediktionsinterval for enkeltmålinger, I [ (x)+ɛ].95. x ŷ(x) I [ (x) ].95 I [ (x)+ɛ].95 1. 14 13.34 ± 4.36 ± 7.83. 13 14.4 ± 3.84 ± 7.55 3. 15.14 ± 3.37 ± 7.3 4. 16.4 ±.99 ± 7.15 5. 15 16.94 ±.74 ± 7.5 6. 17.83 ±.65 ± 7. 7. 1 18.73 ±.74 ± 7.5 8. 19.63 ±.99 ± 7.15 9. 3.53 ± 3.37 ± 7.3 1. 1.4 ± 3.84 ± 7.55 11..3 ± 4.36 ± 7.83 1. 1 3. ± 4.93 ± 8.16 13. 4.1 ± 5.53 ± 8.53 14. 5. ± 6.14 ± 8.94 I praksis bør man altid kontrollere, at afvigelserne fra den teoretiske regressionslinie faktisk kan tænkes at stamme fra en normalfordeling. Den hppigst anvendte og enkleste metode er at optegne et normalfordelingsplot for de beregnede afvigelser mellem 4

data og den skønnede regressionslinie, dvs for residualerne ɛ i = i ŷ i Data ordnes efter residualernes størrelse Data Linie Residualer i ŷ i ɛ i 13 14.4 1.4 1 18.73 +.7 3.53 +.47 14 13.34 +.66 15 16.94 1.94 1 3.. Data Linie Residualer Orden Sandsnlighed Normal score i ŷ i ɛ (i) (i) p i =(i.5)/n z i 1 3.. 1.833 1.38 15 16.94 1.94.5.67 13 14.4 1.4 3.4167.1 14 13.34 +.66 4.5833.1 1 18.73 +.7 5.75.67 3.53 +.47 6.9167 1.38 5 4 3 Residualer 1 1 3 4 Normal scores 5 1.5 1.5.5 1 1.5 Hvis residualernes gennemsnit kaldes ɛ og deres estimerede standardafvigelse kaldes σ ɛ, går linien gennem punktet (, ɛ ) og har hældningkoefficienten σ ɛ. I vores tilfælde er ɛ = og vi fandt σ ɛ =.34. I en sædvanlig regressionsanalse (hvor der er et konstantled) vil residualernes gennemsnit iøvrigt altid være (ligesom i regressionsanalsen). Figuren viser ikke nogen påfaldende afvigelser, men antallet af observationer er lille i dette eksempel, så det vil under alle omstædigheder være vanskeligt af efterprøve normalfordelingsantagelsen særligt effektivt. Eksemplets primære formål er at vise teknikken. Vi fortsætter nu med opgaven: 5

I teksten til opgave 11.7 (11.5) anmodes der om at undersøge estimatet for hældningskoefficenten β. Vi har s β = s ɛ S xx t(n ) Vi ønsker at teste H : β 1. mod H 1 : β < 1. t(4) α=.5 1.1.13 Vi har estimeret β =.8977, σ ɛ = s ɛ =.34 og beregnet S xx =88.. Heraf findes t-værdien for β =1.:.8977 1. t = 88. = 1.1.34 og denne værdi er ikke beliggende i det kritiske område, som markeret i figuren. Vi kan altså ikke afvise H på det foreliggende grundlag. Man kan naturligvis også teste liniens afskæring α ved hjælp af t = α α α α = s α s 1 ɛ + t(n ) (x) n S xx For eksempel H : α 1. mod H 1 : α > 1. 1.45 1. t =.34 1/6+6. /88. =1.38 som kræves større end +.13 for kunne afvise H vedettestpå5%niveau. t(4) 1.38.13 6

Dec4.9 Idet forklaringsgraden er lig med korrelationen-i-anden, fås den ønskede forklaringsgrad som.949 =.961 = 9.1%. altså ersvaret1. Dec4.1 Det korrekte svar er 5. Skulle man prøve at udtrkke det ønskede tal: som funktion af VOL B får man: VOL A = α + βsurf A = α + β(surf B + ) VOL A = α + β( VOL B α + ) = VOL B + β β som jo IKKE er et af svarmulighederne. Man SKAL bruge informationen om hældningen for at kunne finde det ønskede tal. Dec4.11 (Ikke en regressions-opgave) Idet populations-spredningen estimeres til 117, vil man forvente at 95% af populationen ligger inden for ca. plus/minus sdanne spredninger, eller mere præcist 1.96, så det korrekte svar er 4. Dec4.19 Idet b = SS x, og s x SS = SS xx/(n 1) xx bliverdetkorrektesvar4. Dec4. Formlen for den ønskede varians står øverst side 346 (339), så svaret bliver altså. Dec4.1 Vi skal bruge limits of prediction. Ingen af intervallerne i svar og 4 passer med formlen side 35 (343). så vimå aflæse p figuren for en x-værdi p 11 - de derste grænser, idet prædiktionsintervaller altid er bredere end estimationsintervaller. Altså er svaret 3. 7

Ropg 1.3.1 Modellen er givet ved: Y i = α + βx i + ε i hvor Y i er eksamenskarakter og x i årskarakter for skole i. Det antages at ε i er uafhængige og normalfordelt med (samme) varians σ. Linien estimeres ved at estimere hhv. α og β: (se side i Splus-noten) a =.495, b =.7194 Idet P-værdierne ud for disse to estimater er (særdeles) små, så er begge estimater klart signifikant forskellig fra! Man kan aflæse standard error (stikprøve-spredningen) for hældningskoefficienten b til at være.. Et 95% konfidensinterval kan således opnås ved:.7194 ± 1.96. idet med 1553 frihedsgrader er t-fraktilen i praksis det samme som z-fraktilen (boksen nederst side 346 anvendes). Intervallet bliver altså: [.676,.763] Idet R =.45 OG idet b er positiv, bliver korrelationskoefficienten mellem årskarakterer og eksamenskarakterer r =.45 =.634 Man kan IKKE aflæse den øvre kvartil for eksamens-karaktererne, men kun øvre kvartil for residualerne:.811. 8