Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier Forudsigelser Model : Yi=β +β xi + ei i =,...,n Restleddene e,,e n er uafhængige og N(, σ )-fordelte. Med forudsigelse af responsvariablen betegnes en estimation af middelværdien af responsvariablen for given værdi x af den forklarende variabel. Dvs. en forudsigelse er givet som ŷ =β ˆ +β ˆ x =α+β ˆ ˆ x x
hvor αˆ, βˆ ˆ og β er middelrette estimatorer for α, β og β, og hvor ˆα og ˆβ er stokastisk uafhængige. Vi finder derfor at ( x x) var[ yˆ ] = var ˆ ˆ ( x x) α+β =σ + n SAK x Denne varians angiver usikkerheden vedr. regressionslinien for x = x. Man kan derfor teste, om regressionslinien går gennem punktet (x, y ), altså teste nulhypotesen H : y = y = β + β x ved et t-test med teststørrelsen T = S n ŷ + y ( x x) SAK der under H er t(n-)-fordelt, se tabel uge 4 I. x Imidlertid er man ofte interesseret i at bestemme et forudsigelsesinterval, som en fremtidig y -værdi svarende til x = x vil falde i. Lad Y betegne den tilsvarende stokastiske variabel. Vi får da ( x x) var[ Y ˆ y] = σ + + n SAK x Således at ( α)% forudsigelsesintervallet bliver ŷ ± t s + /n+ x x /SAK α/ x
Dette estimerede interval om ŷ må opfattes som et interval, der med (-α)% sikkerhed indeholder y = y svarende til x = x. Ønskes i stedet et test for den hypotese, at en ny observation (x, y ) tilhører samme regressionsmodel som de øvrige observationer, kan det ske ved et hertil svarende t-test, dvs. et test med teststørrelse T = Y + + yˆ ( x x) S n SAK x ( ) t n Testet udføres på samme måde som andre t-test. Ved ekstrapolation, dvs. ved beregning af forudsigelser svarende til værdier af x, der ligger uden for variationsområdet for x erne, bør stor forsigtighed iagttages, især hvis den lineære sammenhæng ikke er teoretisk begrundet. 3
Eksempel Vi har ˆ ˆ ˆ SAK x= 57.9; β =.76; β =.9; σ = s =.675; Hvis x = 7: ŷ =.76 +.9 7= 6.4 [ ] PI = 6.4 ±.984.675.43 = 6.4 ±.7 = 4.7,8. Y yˆ 6 yˆ P( Y 6) = P = P( T.47) =.68 s.43 s.43 PI er forudsigelsesintervallet også kaldet PrediktionsIn terval. () Eksempel Hvis x = : ŷ =.76 +.9 = 9. [ ] PI = 9.±.984.675. = 9.±.6 = 7.5,.7 Y yˆ 6 yˆ P( Y 6) = P = P( T 3.73) s. s. Hvorfor er stikprøven temmelig uegnet til forudsigelser? 4
Fortolkning af regressionsmodel Udfra regressionsmodellen kan vi højest konkludere, at der tilsyneladende er en lineær sammenhæng mellem x og Y i det område, hvor vi har observationer af x og Y. Pas på med at ekstrapolere udover observationsområdet for x og Y at forudsige værdier af Y at konkludere mere fra den lineære sammenhæng end der er belæg for Fortolkning af x erne I regressionsmodellen forestiller man sig x i som en konstant, dvs. ikke som en observation af en stokastisk variabel. Alternativ: x i er en observation af X i, og regressionen beskriver den betingede fordeling af Y i givet x i : [ ] [ x ] EY X= x =β +β x i i i i var Y X i i i = = σ Det giver mulighed for også at modellere variationen i X i. 5
() Fortolkning af x erne Man kan f. eks. antage at (X i, Y i ) er todimensionalt normalfordelt (se kap. 4.). Det er ikke altid klart, hvilken variabel der skal være responsvariablen og hvilken, der skal være den forklarende variabel i regressionsanalysen. Ekstreme observationer En observation y i af Y i er ekstrem hvis og/eller punktet (x i, y i ) ligger langt fra den estimerede regressionslinie, så den standardiserede residual ê i er meget større end observationen y i bidrager voldsomt til parameterestimationen, dvs. estimaterne ændres kraftigt, hvis observationen udelades. Det opdages enten grafisk eller ved at gennemføre estimationen uden denne observation; Cook s afstand (se kap. 3, specielt figur 3.8 på side 445). 6
Transformationer Antag at modelkontrollen har vist at en model, der fremstiller y som en lineær funktion af x ikke er acceptabel. Man kan da søge at finde passende transformationer g og h således at g(y) = β + β h(x) + e hvor β= g y / h x og e'erne ukorrelerede samt e N, σ Ved valg af transformationer g og h kan man udover den grafiske analyse tage udgangspunkt i baggrundsviden om relationen mellem de variable. Tre eksempler herpå kan nævnes:. y = β + β log(x) + e for β >. Lad yi = i'te huss tan ds forbrugsudgifter xi = i'te huss tan ds samlede indkomst y y y/y β= = = y = indkomstelasticitet i y log x x / x x / x indkomstelasticiteten er omvendt proportional med forbruget. β. y =αx u log y = log α +β log x + e hvor α > og e = log(u). Lad 7
y= efterspurgt mængde x= pris log y y/y β= = = priselasticitet log x x / x efterspørgslens priselacitet er konstant. β 3. y =αe u log y = log α +β x + e x hvor α > og e = log(u). Lad y= folketal x = tid log y y/y y β = = = / y = relativ ændring x x x relativ ændring af folketallet er konstant. I de to sidstnævnte eksempler indgår den tilfældige fejl u multiplikativt. Det medfører at spredningen om g(y) vokser proportionalt med værdien af g(y). Dette at usikkerheden er procentiel, er meget almindelig i økonomiske sammenhænge, hvorfor de nævnte to modeller fra et økonomisk synspunkt kan anses for at være meget realistiske. 8
Opsummering om transformation Der er mindst tre forskellige grunde til at transformere data: Teorien siger, at sammenhængen er ikke-lineær I plottet af y mod x observeres en ikke-lineær sammenhæng Modelkontrollen afslører, at restleddene ikke har konstant varians I mange tilfælde opnås bedre overensstemmelse med modellen ved at bruge log(y) som respons og enten x eller måske log(x) som forklarende variabel. Sammenligning af regressionslinier Givet: Model: x, y i =,...,n x, y i =,...,n i i i i Y =β +β x + e i =,...,n Y =β +β x + e i =,...,n i i i i i i Nulhypotesen H : β = β kan afprøves forudsat e ji 'erne er stok. uafh. og normalford. j,i var[ ei ] =σ = var[ ei ] =σ Derfor testes først nulhypotesen H : σ = σ = σ overfor H : σ σ a a 9
De to empiriske regressionslinier estimeres ved ŷj =β ˆ j+β ˆ jx ˆ j = yj+βj xj x j, hvor j =,. ˆ SAP /SAK og s SRK / n β j = xjy xj j = j j Vi har under a H :σ =σ =σ at SRK χ S = σ j=, n n j j j j S og S er uafhængige, hvorfor testet udføres som et sædvanligt F-test. Lad os antage, at F-testet giver accept. Det medfører, at der kan dannes et fælles skøn s over restledsvariansen σ som s n s + n s SRK + SRK = = n + n n + n 4
Vi er nu klar til at teste nulhypotesen om regressionsliniernes parallelitet: H : β = β =β overfor H : β β b b Idet βˆ N β, σ /SAK x ˆ N, /SAK β β σ x U βˆ βˆ β ˆ ˆ β β β = = σ /SAK + /SAK σ /SAK + /SAK x x x x hvor sidste lighedstegn kun gælder under nulhypotesen. Imidlertid er σ ukendt, hvorfor den må erstattes med estimatoren S. Det medfører at vi under b H får βˆ T= t n+ n 4 S /SAK x βˆ + /SAK dvs. et sædvanligt t-test. Accepteres nulhypotesen kan den fælles hældning for de to regressionslinier estimeres ved ˆ ˆ ˆ SAK β + SAK β SAP + SAP β= = SAK + SAK SAK + SAK der er lineær i y i. Det bevirker at x x x x y x y x x x x ( ) β ˆ N β, σ / SAK + SAK x x
Tilbage er nu kun spørgsmålet om de teoretiske regressionslinier er sammenfaldende, dvs. afskærer samme stykke på y-aksen. Vi skal altså teste en nulhypotese om regressionsliniernes identitet. H : β =β overfor H : β β c c H : β β = overfor H : β β c c Først reestimeres akseafskæringerne på y-aksen. Vi får β ˆ = y β ˆ x j=, j j j hvorved den lodrette afstand mellem regressionslinierne estimeres ved β β βˆ β ˆ = y y βˆ x x Middelværdi og varians af den hertil svarende estimator bliver
E βˆ β ˆ =β β var βˆ β ˆ = var Y ˆ Y β x x = var Y + var Y + ( x x ) ˆ β = σ + + n n SAKx + SAKx x x var ˆ Da β β ˆ er lineær i y i følger af additionssætningen for normalfordelingen (AJKM sætn. 4.4) at βˆ β ˆ ~ N( β β, ( x x ) σ + + n n SAK + SAK x x ) Dvs. under nulhypotesen har vi βˆ β ˆ ~ N(, ( x x ) σ + + n n SAK + SAK x x ) således at teststørrelsen bliver en t-fordelt stokastisk variabel med n + n 4 frihedsgrader: Hvis både βˆ βˆ = + T t n n 4 ( x x) S + + n n SAK + SAK x x a b c H,Hog H accepteres betyder det, at materialet er fuldstændig homogent - der var ingen rund til at dele det op, det tilhører samme lineære model. Hvis c H forkastes, mens de øvrige 3
hypoteser accepteres, betyder det, at materialet har samme grundlæggende variabilitet og samme hældning, men forskelligt niveau. Hvis a H forkastes, må vi stoppe derved. b H forkastes, testes c H ikke. Hvis Opsummering Regressionsmodellen kan - i en vis udstrækning - bruges til at forudsige nye værdier. Pas på med at overfortolke modellen. Er der observationer, der bidrager i ekstrem grad til parameterestimaterne? Udelad dem eventuelt af analysen. Transformation kan være nødvendigt for at opnå tilfredsstillende overensstemmelse mellem data og model. En sammenligning af to regressionslinier kan foregå i tre trin () test af ens variabilitet om linierne, () test af liniernes parallelitet og (3) test af liniernes identitet. 4