Modul 11: Simpel lineær regression

Relaterede dokumenter
Modul 12: Regression og korrelation

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Modul 6: Regression og kalibrering

Module 3: Statistiske modeller

Module 4: Ensidig variansanalyse

1 Hb SS Hb Sβ Hb SC = , (s = )

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

To samhørende variable

Multipel Lineær Regression

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Lineær regression i SAS. Lineær regression i SAS p.1/20

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Statistik Lektion 16 Multipel Lineær Regression

Kapitel 11 Lineær regression

Regressionsanalyse i SAS

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Reeksamen i Statistik for Biokemikere 6. april 2009

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri Lektion 1 Simpel Lineær Regression 1/31

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Konfidensintervaller og Hypotesetest

Eksamen i Statistik for Biokemikere, Blok januar 2009

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Løsning eksamen d. 15. december 2008

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Modelkontrol i Faktor Modeller

Module 12: Mere om variansanalyse

Opgavebesvarelse, brain weight

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Opgavebesvarelse, brain weight

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

To-sidet varians analyse

Simpel Lineær Regression: Model

Eksamen i Statistik for biokemikere. Blok

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Besvarelse af vitcap -opgaven

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

To-sidet variansanalyse

Reeksamen i Statistik for biokemikere. Blok

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

En Introduktion til SAS. Kapitel 5.

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Basal statistik. 30. oktober 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Basal statistik. 30. oktober Den generelle lineære model

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Epidemiologi og Biostatistik

Statistik Lektion 4. Variansanalyse Modelkontrol

Simpel Lineær Regression

Generelle lineære modeller

Besvarelse af juul2 -opgaven

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Lineære normale modeller (4) udkast

Eksempel , opg. 2

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Kapitel 12 Variansanalyse

k normalfordelte observationsrækker (ensidet variansanalyse)

MPH specialmodul Epidemiologi og Biostatistik

Statistik Formelsamling. HA Almen, 1. semester

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Tema. Dagens tema: Indfør centrale statistiske begreber.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

En Introduktion til SAS. Kapitel 6.

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Løsning til eksaminen d. 29. maj 2009

Transkript:

Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt.................................... 1 11.1.2 Eksempel 17.1 fra Zar............................ 6 11.2 Regression med gentagelser............................. 12 11.2.1 Oversigt.................................... 12 11.2.2 Eksempel 17.8 fra Zar............................ 17 11.1 Regression uden gentagelser Bemærk: i modulerne om regression og korrelation vil vi kalde signifikansiveauet for δ. f.eks. δ = 5%. 11.1.1 Oversigt Variable: X (uafhængig variabel) og Y (responsvariabel) X kontrolleret: betyder at værdien af X kan varieres frit i eksperimentet, f.eks. X = koncentration, strømstyrke, vægt, længde, tidsinterval etc. Der er tale om en årsagssammenhæng: når X øges vil Y have en tendens til at gå op eller at gå ned. Der ønskes en prediktion af Y ud fra X (her giver det ikke mening at prediktere X ud fra Y ). X ikke kontrolleret: betyder at X og Y begge er stokastiske X og Y er på lige fod. Der er ikke nogen klar årsagssammenhæng. Vælg Y som den variabel der ønskes predikteret ud fra X. Analysen er dog den samme uanset om X er kontrolleret eller ej.

11.1 Regression uden gentagelser 2 Model: Y i = α + βx i + ǫ i Y i : Den i-te værdi af den afhængige (respons) variabel. X i : Den i-te værdi af den uafhængige, forklarende variabel. α: Konstantled. Repræsenterer E(Y ) ved X = 0. β: Hældning. Repræsenterer ændringen i E(Y ) ved en forøgelse af X med 1 enhed. ǫ i : Den i-te statistisk fejl (residual). i: Observationsnummer; i = 1,2,...,n. Stikprøveregressionslinie (fittet linie): Ŷ = a + bx, hvor a angiver skæringen med Y -aksen, og b angiver hældningen på linien. Evalueres den fittede linie for hver observation fås de fittede værdier: Ŷ i = a + bx i Lad x i = X i X og y i = Y i Ȳ, så er estimaterne for β og α henholdsvis: b = n x iy i n x2 i og a = Ȳ b X den fittede linie går igennem punktet ( X, Ȳ ), hvilket let ses: Modelforudsætninger: a + b X = = Ȳ Ȳ b X + b X 1. ǫ i N(0,σ 2 ), hvor σ 2 kaldes residualvariansen. 2. ǫ i -erne er uafhængige stokastiske variable. 3. Lineær sammenhæng mellem Y og X. De statistiske fejl estimeres ved residualerne ˆǫ i = e i = Y i Ŷi, altså de lodrette afvigelser mellem de observerede og de fittede værdier. Mindste kvadraters princip: a og b er valgt så de minimerer kvadratsummen af residualerne: n n ( ) 2 e 2 i = Y i Ŷi = n (Y i a bx i ) 2

11.1 Regression uden gentagelser 3 Modelkontrol: Check normalitet f.eks. ved at indtegne de standardiserede residualer i et normalfordelingsplot. Man kan også bruge et histogram. Check for varianshomogenitet ved at plotte residualerne e i, mod X i eller mod Ŷ i Residualerne skal ligge som en sky omkring den vandrette linie gennem 0 (summen af residualerne er altid 0). Manglende linearitet viser sig i residualplottene i form af en u-fomet eller omvendt u-formet sammenhæng. Vær også på vagt over for outliers (ekstremer i Y -retningen) eller indflydelsesrige observationer (ekstremer i X-retningen), som nogen gange kan ændre analysens konklusioner drastisk. Checkes ved at udregne Cook s D i, som bør være mindre end 1. ANOVA-tabel: Source SS DF M S F p Regression SSR 1 MSR = SSR MSR 1 MSE Error SSE n 2 MSE = SSE n 2 Total SST n 1 s 2 Y X = MSE er estimatet for residualvariansen σ2. Residualer og kvadratsummer: For residualerne gælder der ) ) Y i (Y Ȳ = i Ŷi + (Ŷi Ȳ Tilsvarende gælder der hvor SST = SSE + SSR SST = SSE = SSR = n ( Yi Ȳ ) 2 n ( ) 2 Y i Ŷi n ) 2 (Ŷi Ȳ Denne opsplitning af kvadratsummen følger (matematisk set) fordi a og b er fundet ved mindste kvadraters princip. Vurdering af modellen:

11.1 Regression uden gentagelser 4 I. Determinationskoefficienten, r 2 r 2 udtrykker hvor stor en del af variationen i Y, der kan forklares af den uafhængige variabel, X. r 2 = 1 SSE SST = (udtrykkes ofte i %). Bemærk også r 2 altså en voksende funktion af F. II. Test af de enkelte parametre Nulhypotese H 0 : α 0 og β 0 er konstanter. Alternativ hypotese H A : SST SSE SST = SSR SST, 0 r2 1 = 1 SSE SST SSE = 1 SSE + SSR 1 = 1 = 1 SSE SSE + SSR SSE 1 1 + 1 n 2 F Om: α β a) α = α 0 β = β 0 b) α α 0 β β 0 c) α α 0 β β 0 Om: α β a) α α 0 β β 0 b) α < α 0 β < β 0 c) α > α 0 β > β 0 Advarsel: Det giver kun mening at teste hypoteser om α hvis 0 ligger inden for eller nær range for X. Teststørrelser: T = a α0 s a T = b β0 s b

11.1 Regression uden gentagelser 5 Begge T er t-fordelt med n 2 frihedsgrader. Beslutningsregel: Forkast H 0, hvis p-værdi < signifikansniveauet δ. Konfidensinterval for β på niveau δ er givet ved hvor b ± t δ(2),n 2 s b s b = s Y X n x2 i Konfidensinterval for α på niveau δ er givet ved a ± t δ(2),n 2 s a hvor s a = s Y X 1 n + X2 n x2 i Anvendelse af modellen til prediktion: Lad X være en given værdi af den uafhængige variabel. X bør vælges inden for range for X, dvs. man skal være varsom med extrapolationer. I. Punktestimat Ŷ = a + bx estimerer værdien af E(Y ) = α + βx. Kaldes prediktionen af den nye værdi Y svarende til X. II. Prediktionsinterval hvor Ŷ ± t δ(2),n 2 (sŷ ) 1 ( ) sŷ 1 = s (1 Y X + 1n ( ) ) X X 2 + n x2 i Bruges til at forudse hvor den nye observation Y vil ligge. III. Konfidensinterval for α + βx: Ŷ ± t δ(2),n 2 sŷ hvor ( ( ) 2 ) sŷ = s 1 X X Y X n + n x2 i Bruges til at indkredse den teoretiske værdi af regressionslinien bedste muligt.

11.1 Regression uden gentagelser 6 11.1.2 Eksempel 17.1 fra Zar Data og analysemetode: Data er vingelængde for 13 spurve i forskellig alder (Zar, eks. 17.1, p. 326): Alder (dage) Vingelængde (cm) X Y 3.0 1.4 4.0 1.5 5.0 2.2 6.0 2.4 8.0 3.1 9.0 3.2 10.0 3.2 11.0 3.9 12.0 4.1 14.0 4.7 15.0 4.5 16.0 5.2 17.0 5.0 Vingelængden antages at afhænge positivt af alderen. Et plot af de to variable viser en tendens til lineær sammenhæng. Vi vil derfor lave en simpel lineær regressionsanalyse. Model: Y i = α + βx i + ǫ i Y : Den afhængige variabel, vingelængde. X: Den uafhængige, forklarende variabel, alder. Hvis vi har mulighed for frit at vælge spurve af en hvilken som helst alder kan vi tale om at X er kontrolleret. Hvis der er tale om en tilfældig stikprøve af en given population af spurve med forskellige aldre er X ikke kontrolleret. Om det ene eller det andet er tilfældet ændrer dog ikke på analysen. α: Angiver den forventede værdi af Y, når alderen er 0. Da 0 ligger uden for range for X, er α ikke interessant i sig selv. β: Repræsenterer ændringen i den forventede vingelængde ved en forøgelse af X på 1 dag. Vi forventer, at β > 0. ǫ i : Residual. i: Observationsnummer, i = 1,2,...,13. Stikprøveregressionslinie: Regressionsanalyse giver flg. estimerede linie (se SASkørsel): Ŷ = 0.713095 + 0.270229 X Dvs. hver gang alderen øges med 1 dag, øges den forventede vingelængde med 0.27 cm. b er således positiv som forventet. Modelforudsætninger:

11.1 Regression uden gentagelser 7 1. ǫ i N(0,σ 2 ) 2. ǫ i -erne er uafhængige stokastiske variable. 3. Linearitet Disse forudsætninger undersøges senere. Vurdering af modellen: I. Determinationskoefficienten, r 2 r 2 = SSR SST = 0.9733 dvs. 97% af variationen i Y, vingelængden, kan forklares af alderen. Dette giver mening i vokseperioden, men gælder givetvis ikke for voksne fugle, hvor slutvingelængden kan tænkes at afhænge af forskellige genetiske og miljømæssige faktorer. II. Test af de enkelte parametre Nulhypotese H 0 : β 0 Alternativ hypotese H A : β > 0 Teststørrelse: T = b s b = 20.027 T t-fordelt med n 2 = 11 frihedsgrader. p-værdi = 0.0001 (p-værdien i SAS er for et tosidet test, men det er irrelevant her med så lille en værdi). p-værdien er således mindre end ethvert rimeligt valg af signifikansniveuet δ. Vi må derfor afvise H 0, dvs. der er en positiv, signifikant sammenhæng, hvilket svarer til vores forventning. Modelkontrol: 1. Check normalitet ved at indtegne de standardiserede, estimerede residualer i et histogram. Histogrammet skal være klokkeformet, symmetrisk omkring 0. Denne forudsætning synes at være opfyldt. 2. Check for varianshomogenitet ved at plotte e i mod X i. Residualerne skal ligge som en sky omkring den vandrette linie gennem 0 Dette synes nogenlunde at være tilfældet. 3. Linearitet kan ikke testes, da vi ikke har gentagelser (se næste afsnit). Men scatterplottet viser en pæn lineær sammenhæng. 4. Alle værdier af Cook s D i, er mindre end 1, så outliers ser ikke ud til at være et problem. Vi kan konkludere, at forudsætningerne således synes opfyldte. Konklusion: Der er en signifikant positiv sammenhæng mellem vingelængden og alder.

11.1 Regression uden gentagelser 8 SAS-output: Plot of Y*X. Legend: A = 1 obs, B = 2 obs, etc. Y 6 A 5 A A A A 4 A A A A 3 A A 2 A A 1 ----------------------------------------------------------- 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 X

11.1 Regression uden gentagelser 9 Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model 1 19.13221 19.13221 401.087 0.0001 Error 11 0.52471 0.04770 C Total 12 19.65692 Root MSE 0.21841 R-square 0.9733 Dep Mean 3.41538 Adj R-sq 0.9709 C.V. 6.39475 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP 1 0.713095 0.14790445 4.821 0.0005 X 1 0.270229 0.01349312 20.027 0.0001 Dep Var Predict Std Err Lower95% Upper95% Lower95% Upper95% Obs Y Value Predict Mean Mean Predict Predict 1 1.4000 1.5238 0.112 1.2768 1.7707 0.9833 2.0642 2 1.5000 1.7940 0.101 1.5715 2.0166 1.2643 2.3237 3 2.2000 2.0642 0.091 1.8647 2.2638 1.5438 2.5847 4 2.4000 2.3345 0.081 2.1559 2.5130 1.8217 2.8473 5 3.1000 2.8749 0.066 2.7290 3.0209 2.3726 3.3773 6 3.2000 3.1452 0.062 3.0086 3.2817 2.6454 3.6449 7 3.2000 3.4154 0.061 3.2821 3.5487 2.9165 3.9142 8 3.9000 3.6856 0.062 3.5490 3.8222 3.1859 4.1853 9 4.1000 3.9558 0.066 3.8099 4.1018 3.4535 4.4582 10 4.7000 4.4963 0.081 4.3177 4.6749 3.9835 5.0091 11 4.5000 4.7665 0.091 4.5670 4.9661 4.2460 5.2870 12 5.2000 5.0368 0.101 4.8142 5.2593 4.5070 5.5665 13 5.0000 5.3070 0.112 5.0600 5.5540 4.7666 5.8474 14. 4.2261 0.073 4.0657 4.3864 3.7193 4.7328 Std Err Student Cook s Obs Residual Residual Residual -2-1-0 1 2 D 1-0.1238 0.187-0.661 * 0.078 2-0.2940 0.194-1.519 *** 0.315 3 0.1358 0.199 0.683 * 0.049

11.1 Regression uden gentagelser 10 4 0.0655 0.203 0.323 0.008 5 0.2251 0.208 1.082 ** 0.059 6 0.0548 0.209 0.262 0.003 7-0.2154 0.210-1.026 ** 0.044 8 0.2144 0.209 1.024 ** 0.046 9 0.1442 0.208 0.693 * 0.024 10 0.2037 0.203 1.005 ** 0.081 11-0.2665 0.199-1.341 ** 0.187 12 0.1632 0.194 0.843 * 0.097 13-0.3070 0.187-1.638 *** 0.481 14.... Sum of Residuals 0 Sum of Squared Residuals 0.5247 Predicted Resid SS (Press) 0.7767 Plot of RESID*X. Legend: A = 1 obs, B = 2 obs, etc. 0.3 A A 0.2 A A A A 0.1 R A e A s i d 0.0 u a l -0.1 A

11.1 Regression uden gentagelser 11-0.2 A A -0.3 A A ---------------------------------------------- 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 X Frequency 4 **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** 3 **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** 2 **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** ****

11.2 Regression med gentagelser 12 **** **** **** 1 **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** -------------------------------------------------------------------- -2.5-2.0-1.5-1.0-0.5 0.0 0.5 1.0 1.5 2.0 2.5 Studentized Residual 11.2 Regression med gentagelser 11.2.1 Oversigt Antag nu at der er gentagelser, dvs. gentagne målinger af Y for hver værdi af X. Betyder at X er kontrolleret, da vi ellers ikke kan holde X-værdien fast i forbindelse med gentagelserne. Der er altså tale om en årsagssammenhæng: Y forklares ud fra X. Model: Y ij = α + βx i + ǫ ij i: Gruppenummer: i = 1,2,...,k j: Observationsnummer inden for gruppe; j = 1,2,...,n i. n i : Antal replikationer i den i-te gruppe. Bør være mindst 2, men enkelte grupper kan have n i = 1. n: Samlet stikprøvestørrelse n = n 1 + + n k. Y ij : Den j-te værdi i den i-te gruppe af den afhængige (respons) variabel. X i : Den i-te værdi af den uafhængige, forklarende variabel, som er ens for alle n i data i gruppe i. α: Konstantled. Repræsenterer E(Y ) ved X = 0. β: Hældning. Repræsenterer ændringen i E(Y ) ved en forøgelse af X med 1 enhed. ǫ ij : Den j-te statistisk fejl i gruppe i. Bemærk: regressionsmodeller svarer i bund og grund til ubalancerede forsøg, og der er ikke noget krav om at n i erne skal være ens.

11.2 Regression med gentagelser 13 Stikprøveregressionslinie (fittet linie): Ŷ = a + bx, hvor a angiver skæringen med Y -aksen, og b angiver hældningen på linien. Fittede værdier (fælles for alle n i observationer i gruppe i): Lad x i = X i X og y ij = Y ij Ȳ, hvor Ŷ i = a + bx i Ȳ = 1 n k n i j=1 Y ij Bemærk at dobbeltsummen har n led, dvs. summationen er over alle n observationer. For X fås: X = 1 k n i X i n altså det vægtede gennemsnit af X i -erne. Så er mindste kvadraters estimaterne for β og α henholdsvis: b = k ni j=1 x iy ij k n ix 2 i og a = Ȳ b X Estimaterne er som før, bortset fra at den nye notation tvinger os til at erstatte summen med enten en dobbeltsum eller en vægtet sum. den fittede linie går igen igennem punktet ( X, Ȳ ). Modelforudsætninger: 1. ǫ ij N(0,σ 2 ), hvor σ 2 kaldes residualvariansen. 2. ǫ ij -erne er uafhængige stokastiske variable, både inden for grupper og mellem grupper. 3. Lineær sammenhæng mellem Y og X. De statistiske fejl estimeres ved residualerne ˆǫ ij = e ij = Y ij Ŷi, altså de lodrette afvigelser mellem de observerede og de fittede værdier. Modelkontrol: Check normalitet f.eks. ved at indtegne de standardiserede residualer i et normalfordelingsplot. Man kan også bruge et histogram.

11.2 Regression med gentagelser 14 Hvis n i -erne alle er passende store (mindst 20) bør man lave et separat normalfordelingsplot for hver af de k grupper. Man skal særlig være på vagt overfor systematiske afvigelser fra rette linier i de k plot. Check for varianshomogenitet ved at plotte residualerne e ij, mod X i eller mod Ŷi. Residualerne skal ligge som en sky omkring den vandrette linie gennem 0 (summen af residualerne er altid 0). Manglende linearitet viser sig i residualplottene i form af en u-fomet eller omvendt u-formet sammenhæng. Bartlett s test for varianshomogenitet kan udføres ligesom ved ensidig variansanalyse, baseret på de k variansestimater s 2 1,...,s2 k, forudsat alle n i > 1. Outliers og indflydelsesrige observationer kan checkes ved at udregne Cook s D ij (n ialt) som bør være mindre end 1. ANOVA-tabel: Source SS DF M S F p Regression SSR 1 MSR = SSR MSR 1 MSE Ikke-linearitet SSL k 2 MSL = SSL MSL k 2 MSE Error SSE n k MSE = SSE n k Total SST n 1 s 2 p = MSE er estimatet for residualvariansen σ2, ligesom i ensidig variansanalyse. Det svarer til at poole de k estimater s 2 1,...,s2 k. Residualer og kvadratsummer: For residualerne gælder der Y ij Ȳ = ( Y ij Ȳi) ) ) + (Ȳi Ŷi + (Ŷi Ȳ Tilsvarende kan man vise at hvor vi har Den totale kvadratsum: SST = SSE + SSL + SSR SST = k n i ( Yij Ȳ ) 2 j=1 Kvadratsum inden for grupper (pure error): SSE = k n i ( Yij Ȳi) 2 j=1

11.2 Regression med gentagelser 15 Kvadratsum for afvigelse fra linearitet (lack of fit): Kvadratsum for regression: SSL = SSR = k n i (Ȳi Ŷi k ) 2 ) 2 n i (Ŷi Ȳ Forudsætter igen at vi bruger mindste kvadraters princip ved estimation af α og β. Vurdering af modellen: I. Determinationskoefficienten, r 2 r 2 udtrykker hvor stor en del af variationen i Y, der kan forklares af den uafhængige variabel, X. r 2 = SSR SST, 0 r2 1 (udtrykkes ofte i %). Bemærk også r 2 SSE + SSL = 1 SSE + SSL + SSR 1 = 1 1 + SSR SSE+SSL hvilket viser at r 2 er en voksende funktion af F-testen for regression baseret på den poolede varians (se nedenfor), altså F = hvor DFE = n k og DFL = k 2. II. Test af de enkelte parametre Nulhypotese H 0 : α 0 og β 0 er konstanter. Alternativ hypotese H A : MSR SSE+SSL DFE+DFL Om: α β a) α = α 0 β = β 0 b) α α 0 β β 0 c) α α 0 β β 0 Om: α β a) α α 0 β β 0 b) α < α 0 β < β 0 c) α > α 0 β > β 0

11.2 Regression med gentagelser 16 Advarsel: Det giver kun mening at teste hypoteser om α hvis 0 ligger inden for eller nær range for X. Teststørrelser: T = a α0 s a T = b β0 s b Begge T er t-fordelt med n 2 frihedsgrader. Beslutningsregel: Forkast H 0, hvis p-værdi < signifikansniveauet δ. Konfidensinterval for β på niveau δ er givet ved hvor b ± t δ(2),n 2 s b s b = s Y X k n ix 2 i Konfidensinterval for α på niveau δ er givet ved a ± t δ(2),n 2 s a hvor s a = s 1 Y X n + X 2 k n ix 2 i Anvendelse af modellen til prediktion: Lad X være en given værdi af den uafhængige variabel. X bør vælges inden for range for X, dvs. man skal være varsom med extrapolationer. I. Punktestimat Ŷ = a + bx estimerer værdien af E(Y ) = α + βx. Kaldes prediktionen af den nye værdi Y svarende til X. II. Prediktionsinterval hvor Ŷ ± t δ(2),n 2 (sŷ ) 1 ( ) sŷ 1 = s (1 Y X + 1n ( ) ) X X 2 + k n ix 2 i Bruges til at forudse hvor den nye observation Y vil ligge.

11.2 Regression med gentagelser 17 III. Konfidensinterval for α + βx: Ŷ ± t δ(2),n 2 sŷ hvor ( ( ) 2 ) sŷ = s 1 X X Y X n + k n ix 2 i Bruges til at indkredse den teoretiske værdi af regressionslinien bedste muligt. Bemærk: Det poolede variansskøn under antagelse af lineær sammenhæng er: s 2 Y X som har DFE + DFL = n 2 frihedsgrader. 11.2.2 Eksempel 17.8 fra Zar = SSE + SSL DFE + DFL Data og analysemetode: Data er alder (år) og systolisk blodtryk (mm Hg), (Zar, eks. 17.2, p. 346): Alder (år) Blodtryk (mm Hg) n i X Y 30 108, 110, 106 3 40 125, 120, 118, 119 4 50 132, 137, 134 3 60 148, 151, 146, 147, 144 5 70 162, 156, 164, 158, 159 5 Et plot af de to variable (Zar figur 17.9) viser en pæn lineær sammenhæng. Model: Y ij = α + βx i + ǫ ij i: Aldersgruppe: i = 1,2,...,5 j: Observationsnummer inden for aldersgruppe; j = 1,2,...,n i. n i : Antal personer (replikationer) i den i-te aldersgruppe. n: Samlet stikprøvestørrelse n = 3 + 4 + 3 + 5 + 5 = 20. Y ij : Den j-te persons blodtryk i den i-te aldersgruppe. X i : Værdien af alderen i den i-te aldersgruppe (alle personer i gruppen antages at have samme alder). α: Konstantled. Repræsenterer gennemsnitligt blodtryk ved alder 0. Da 0 ligger uden for det betragtede aldersinterval er α ikke interessant i sig selv. β: Hældning. Repræsenterer den gennemsnitlige ændringen i blodtryk per år.

11.2 Regression med gentagelser 18 ǫ ij : Den j-te statistisk fejl i gruppe i, altså differensen mellem den j-te persons blodtryk i den i-te gruppe og denne gruppes middelblodtryk. Stikprøveregressionslinie: Regressionsanalyse giver flg. estimerede linie: Ŷ = 68.79 + 1.303 X Dvs. for hvert år øges det forventede blodtryk med 1.303 mm Hg. Som referenceblodtryk kan f.eks. bruges det forventede blodtryk ved 45 år, som er Ŷ 45 = 68.79 + 1.303 45 = 127.425 Modelforudsætninger: 1. ǫ ij N(0,σ 2 ) 2. ǫ ij -erne er uafhængige stokastiske variable. 3. Linearitet. Disse forudsætninger ser ud til at være opfyldt. ANOVA-tabel: Source SS DF M S F p Regression 6750.29 1 6750.29 863.21 p < 0.0005 Ikke-linearitet 1.64 3 0.55 0.070 p > 0.25 Error 117.27 15 7.82 Total 6869.20 19 s 2 p = 7.82 er estimatet for residualvariansen σ2. Bemærk: Zar laver F-testet for linearitet baseret på det poolede variansskøn s 2 Y X = 6.61 med 18 frihedsgrader, hvilket giver samme resultat. Vurdering af modellen: I. Determinationskoefficienten, r 2 r 2 = SSR SST = 0.98 dvs. 98% af variationen i Y, blodtryk, kan forklares af alderen. II. Test af de enkelte parametre Nulhypotese H 0 : β 0

11.2 Regression med gentagelser 19 Alternativ hypotese H A : β > 0 Teststørrelse: T = b s b T t-fordelt med 18 frihedsgrader, hvis s 2 Y X bruges. Udeladt. Modelkontrol: Udeladt. Konklusion: Der er en signifikant positiv sammenhæng mellem vingelængden og alder.