Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression

Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende test: H 0 : β = β 2 = β 3 = = β k =0, dvs. modellen ikke er besværet værd. Til dette anvendes et F- test. H 0 : β j =0, dvs. der er ingen lineær sammenhæng mellem Y og X j. Vi sammenligner to modeller der adskiller sig ved om X j er med eller ej. Her anvendes et t- test.

Test for flere parametre - Partiel F-test Med fuld model menes en model, der indeholder forklarende variable af interesse. En reduceret model indeholder kun et udvalg (eller slet ingen) forklarende variable fra den fulde model. Ved et partielt F-test sammenlignesden fulde og den reducerede model.

Eksempel: Eksport til Fjernøsten Vi vil sammenligne følgende fulde og reducerede modeller Fulde model: Y β + β X + β X + β X + β + ε = 0 2 2 3 3 4 X 4 Reducerede model: Y β + β X + β + ε = 0 2 X 2 Kan vi acceptere den reducerede model?

Eksempel: Eksport til Fjernøsten Vi vil sammenligne følgende fulde og reducerede modeller Export M Lend Price Exch. Fulde model: y β + β x + β x + β x + β + ε = 0 2 2 3 3 4x4 Reducerede model: y = 0 3x3 β + β x + β + ε Er det besværet værd, at have x 2 og x 3 med?

Det partielle F-test H 0 : β 2 =β 4 =0 (givet at X H : β 2 og β 4 er ikke begge nul. Teststørrelse for partielt F-test: og X 3 er i modellen) ( SSER SSEF ) / r F[ r, n ( k + )] = MSEF hvor SSE R og SSE F er sum of squares for errors for hhv. den reducerede og den fulde model. MSE F = SSE F /[n-(k+)] er mean square error. k er antal parameter i den fulde model r antal parametre vi forsøger at fjerne (2 i eks.).

Eksempel: Eksport til Fjernøsten Fulde model: Export M Lend Price Exch. y = 0 2 2 3 3 4x4 β + β x + β x + β x + β + ε ANOVA b Model Regression Residual Total Sum of Squares df Mean Square F Sig. 32,946 4 8,237 73,059,000 a 6,990 62,3 39,936 66 Reducerede model: y = 0 3x3 β + β x + β + ε ANOVA b Model Regression Residual Total Sum of Squares df Mean Square F Sig. 32,940 2 6,470 50,673,000 a 6,996 64,09 39,936 66 SSE F = 6,990 SSE R = 6,996 MSE F = 0,3

Eksempel: Eksport til Fjernøsten Er det besværet værd, at have x 2 og x 3 med? Det partielle F-test F H 0 : β 2 =β 4 =0 (givet at X og X 2 H : β 2 og β 4 er ikke begge nul. ( SSE SSE ) / (6,996 6,990) / 2 0,3 R F [ r, n ( k + )] = = = MSEF Kritisk væ rdi : F 0,05,[2,62] r 3,4 er i modellen) P - værdi :0,97 0,027 Testen er ikke signifikant, dvs. vi accepterer H 0 hypotesen, dvs. den fulde model er ikke besværet værd.

Bemærkninger Partielle F-test, der kun omhandler en enkel parameter er ækvivalente med et t-test. Husk: En kvalitativ variabel med r niveauer, omkodes til (r-) 0/ dummy variable. En test for betydningen af den kvalitative variable svarer til et partielt F-test, hvor (r-) variable fjernes.

Modelsøgning En statistiske analyser involverer ofte et stort antal forklarende variable. For at få overblik over, hvilke forklarende variable, der har betydning for den afhængige variabel udføres en modelsøgning I en modelsøgning, søger man en model, der kun indeholder de forklarende variable der har en reel betydning for den afhængige variabel. Der findes et utal af måder at udføre modelsøgning. De mest almindelige er:

Modelsøgning: Prøv alle muligheder Vi udfører en regression på alle tænkelige kombinationer af forklarende variable. Har vi k forklarende variable giver det 2 k forskellige modeller. Ved k=4 forklarende variable har vi allerede 2 4 =6 modeller. Vi udvælger vores model blandt de 2 k modeller fx. den med største adjusted R 2 eller mindste MSE.

Modelsøgning: Forward søgning Vi starter med en tom model dvs. uden forklarende variable. Dernæst tilføjer vi den forklarende variabel, hvor den tilhørende parameter er den med det mest signifikante partielle F-test med en P-værdi over en given grænse, fx 0.05. Anden variabel vælges som den variabel blandt de resterende, hvor det tilsvarende partielle F-test har størst P-værdi over fx 0.05. Fortsætter indtil ingen af de tilbageværende variable har en F-test med P-værdi over 0.05.

Modelsøgning: Backward søgning Vi starter med en model, hvor alle forklarende variable af interesse er inkluderet. For alle variable fortager vi et partielt F-test for den tilsvarende parameter. Den parameter med højst P- værdi over fx 0.05 fjernes. For hver af de tilbageværende variable foretages et nyt partielt F-test. Igen fjernes den variabel, der har højst P-værdi over 0.05. Dette gentages indtil alle tilbageværende variable er signifikante, dvs. deres partielle F-test har P- værdier over 0.05.

Modelsøgning: Trinvis søgning Vi starter med den tomme model. Vi tilføjer den variabel, hvor det tilhørende partielle F-test har højest P-værdi over fx 0.05. Vi tilføjer den mest signifikante variabel blandt de tilbageværende. Vi veksler nu mellem at fjerne den mindst signifikante og tilføje en den mest signifikante variabel. I hvert trin skal vi beregne partielle F-test for alle variable.

Modelsøgning i SPSS I Linear Regression kan man i menuen Method bl.a. vælge mellem Enter (Uden søgning) Stepwise Backward Forward Independent indeholder variable af interesse.

Illustration af algoritmer Forward algoritmen Start: Den tomme model Test for at tilføje Backward algoritmen Start: Den fulde model Test for at fjerne Stepwise algoritmen Start: Den tomme model Test for at fjerne/tilføje Trin M Lend Price Exchange 0 2 Trin M Lend Price Exchange 0 2 Trin M Lend Price Exchange 0 2 3 (potentielt)

SPSS detaljer for forward algoritmen Model inkluderer M Model 2 Adjusted Std. Error of R R Square R Square the Estimate,775 a,60,595,49522,908 b,825,89,33062 Model 2 inkluderer M og Price Matchende rammer til højre illustrerer hvilke P-værdier, der konkurrerede om pladsen i hvert trin. Model 2 Model 2 (Constant) M (Constant) M Price Lend Price Exchange Lend Exchange Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig.,935,368 2,538,04,520,053,775 9,892,000-3,423,54-6,329,000,36,039,539 9,209,000,037,004,529 9,046,000 Excluded Variables c Collinearity Partial Statistics Beta In t Sig. Correlation Tolerance,427 a 7,255,000,672,987,529 a 9,046,000,749,800 -,39 a -,633,07 -,200,832,005 b,044,965,006,97,03 b,23,832,027,762

Logistisk Regression

Binær (0/) afhængig variabel Hvordan afhænger en 0/ variabel af forklarende variable? Eksempel: Et antal insekter udsættes for forskellige giftdoser. For hvert insekt har vi noteret Dosen (d) af insekt gift og Responsen (r): 0=Levende =Død. Dosis Respons 0 0 0 0 0 0 0, 0 0, 0, 0 0,2 0 0,2 0,2 0,4 0,4 0,4

Binær (0/) afhængig variabel Dosis (d) insekt gift. Respons (r): 0=Levende =Død Dosis Respons 0 0 0 0 0 0 0, 0 0, 0, 0 0,2 0 0,2 0,2 0,4 0,4 0,4 Lad os prøve med lineær regression

Bernouilli/Binomial Fordeling En variabel Y i er en Bernouilli-fordelt variabel med sandsynligheds-parameter p, hvis Y i kan tage værdierne 0 og og P( Y i P( Y i = ) = p = 0) = p (sandsynligheden for at = ) Antag at Y,,Y n er uafhængige Bernouilli variable med parameter p. Så er Y = Y + +Y n binomial fordelt B(n,p). Eksempel: p er sandsynligheden for at overleve bestemt dosis og Y i er vitalstatus for i te insekt. Y i

Eksempel: p er sandsynligheden for at overleve bestemt dosis og Y i er vitalstatus for i te insekt. Y er antal døde insekter ud af ti er B(0,p). Gennemsnits antal døde: E[Y]=np Gennemsnits andel døde: E[Y/n]=p

Insektgift: Forskellige doser For hver dose observeres antal døde blandt ti insekter. Dose #døde %døde 0 0 2 0 0 3 0 0 4 0 5 4 40 6 6 60 7 4 40 8 9 90 9 0 00 0 0 00 En binomal fordelte variable for hver dose med hver sit p. Dvs. for dose i er sandsynligheden for at dø p i.

Multipel Lineær Regression? p i : sandsynligheden for at dø af dosis i. y i : % døde ud af 0 Lineær model: p i = β 0 + β dosis i y i ε i = p i + ε i er normal fordelt.

Multipel Lineær Regression? Problemer: For dosis forudsiger (prædikterer) modellen et negativt antal døde. Frekvenser (antal døde) ikke normalfordelte Ikke samme varians: var(y i ) = p i (-p i )/0

Bemærk: p p p p p log 0 0 Sandsynlighed: Odds: Log-odds (logit): Ide: Lineær model for logit: ) exp( ) exp( log ) logit( 2 2 0 2 2 0 2 2 0 k k k k k k x x x x x x p x x x p p p β β β β β β β β β β β β + + + + + + + + + = + + + + = = L L L c

Logit og Invers Logit Transformation logit( p) = log p p p exp( η) = + exp( η) NB: logit strækker ]0,[ ud til hele den reelle talakse invers logit ligger altid mellem 0 og. og

Andel døde ud af ti p exp 6,286,029 dose exp 6,286,029 dose Parameter Estimates respons a Intercept dose a. The reference category is: 0. 95% Confidence Interval for Exp(B) B Std. Error Wald df Sig. Exp(B) Lower Bound Upper Bound -6,286,238 25,767,000,029,97 27,35,000 2,799,903 4,8 Hvad er sandsynlighed for at dø, hvis dosis er 5,7?

Dose-respons: Mere insektgift Hvert insekt (00 stk) sin dose. Respons (levende=0, død=) dose p = sandsynlighed for at dø. p

Eksempel: valg af transportmiddel til arbejde i forhold til alder Undersøge om valg af transportmiddel til/fra arbejde afhænger af alder. Logistisk regression hvor responsen 'Nej (kører ej bil)' er kodet som og 'Ja (kører bil)' er kodet som 0.

I SPSS Her er anvendt Analyze Regression Binary Logistic Minder i anvendelse om Analyze Regression Linear

Output fra multinomial regression: parameter estimater Bil_til_arbejde a Nej Intercept Alder a. The reference category is: Ja. Parameter Estimates 95% Confidence Interval for Exp(B) B Std. Error Wald df Sig. Exp(B) Lower Bound Upper Bound -,343,273,584,208,00,006 2,599,07,00,998,023 NB: reference kategori er 'Ja', dvs vi modellerer sandsynlighed for 'Nej', dvs. ikke at køre i bil.