Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Relaterede dokumenter
Multipel Lineær Regression

Logistisk Regression - fortsat

Statistik Lektion 16 Multipel Lineær Regression

Generelle lineære modeller

Logistisk regression. Logistisk regression. Probit model Fortolkning udfra latent variabel. Odds/Odds ratio

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Statistik II 4. Lektion. Logistisk regression

Statistik Lektion 17 Multipel Lineær Regression

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Morten Frydenberg 14. marts 2006

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Morten Frydenberg 26. april 2004

Statistik II 1. Lektion. Analyse af kontingenstabeller

Forelæsning 11: Kapitel 11: Regressionsanalyse

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Konfidensintervaller og Hypotesetest

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Uge 13 referat hold 4

Løsning eksamen d. 15. december 2008

Module 3: Statistiske modeller

Løsning til opgave i logistisk regression

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Ikke-parametriske tests

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Kapitel 11 Lineær regression

Løsning til eksaminen d. 14. december 2009

To-sidet varians analyse

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Statistik Lektion 4. Variansanalyse Modelkontrol

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Logistisk regression

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

1 Regressionsproblemet 2

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Lineær regression i SAS. Lineær regression i SAS p.1/20

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Logistisk regression

Eksamen i statistik 2009-studieordning

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Kvant Eksamen December timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Appendices. Appendix 2: Questionnaire in StudSurvey. Appendix 3: Text presenting the electronic questionnaire. Appendix 4: Outputs from regressions

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Simpel Lineær Regression: Model

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Skriftlig eksamen Science statistik- ST501

Eksamen i Statistik for biokemikere. Blok

Module 12: Mere om variansanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Fokus på Forsyning. Datagrundlag og metode

Transkript:

Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression

Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende test: H 0 : β = β 2 = β 3 = = β k =0, dvs. modellen ikke er besværet værd. Til dette anvendes et F- test. H 0 : β j =0, dvs. der er ingen lineær sammenhæng mellem Y og X j. Vi sammenligner to modeller der adskiller sig ved om X j er med eller ej. Her anvendes et t- test.

Test for flere parametre - Partiel F-test Med fuld model menes en model, der indeholder forklarende variable af interesse. En reduceret model indeholder kun et udvalg (eller slet ingen) forklarende variable fra den fulde model. Ved et partielt F-test sammenlignesden fulde og den reducerede model.

Eksempel: Eksport til Fjernøsten Vi vil sammenligne følgende fulde og reducerede modeller Fulde model: Y β + β X + β X + β X + β + ε = 0 2 2 3 3 4 X 4 Reducerede model: Y β + β X + β + ε = 0 2 X 2 Kan vi acceptere den reducerede model?

Eksempel: Eksport til Fjernøsten Vi vil sammenligne følgende fulde og reducerede modeller Export M Lend Price Exch. Fulde model: y β + β x + β x + β x + β + ε = 0 2 2 3 3 4x4 Reducerede model: y = 0 3x3 β + β x + β + ε Er det besværet værd, at have x 2 og x 3 med?

Det partielle F-test H 0 : β 2 =β 4 =0 (givet at X H : β 2 og β 4 er ikke begge nul. Teststørrelse for partielt F-test: og X 3 er i modellen) ( SSER SSEF ) / r F[ r, n ( k + )] = MSEF hvor SSE R og SSE F er sum of squares for errors for hhv. den reducerede og den fulde model. MSE F = SSE F /[n-(k+)] er mean square error. k er antal parameter i den fulde model r antal parametre vi forsøger at fjerne (2 i eks.).

Eksempel: Eksport til Fjernøsten Fulde model: Export M Lend Price Exch. y = 0 2 2 3 3 4x4 β + β x + β x + β x + β + ε ANOVA b Model Regression Residual Total Sum of Squares df Mean Square F Sig. 32,946 4 8,237 73,059,000 a 6,990 62,3 39,936 66 Reducerede model: y = 0 3x3 β + β x + β + ε ANOVA b Model Regression Residual Total Sum of Squares df Mean Square F Sig. 32,940 2 6,470 50,673,000 a 6,996 64,09 39,936 66 SSE F = 6,990 SSE R = 6,996 MSE F = 0,3

Eksempel: Eksport til Fjernøsten Er det besværet værd, at have x 2 og x 3 med? Det partielle F-test F H 0 : β 2 =β 4 =0 (givet at X og X 2 H : β 2 og β 4 er ikke begge nul. ( SSE SSE ) / (6,996 6,990) / 2 0,3 R F [ r, n ( k + )] = = = MSEF Kritisk væ rdi : F 0,05,[2,62] r 3,4 er i modellen) P - værdi :0,97 0,027 Testen er ikke signifikant, dvs. vi accepterer H 0 hypotesen, dvs. den fulde model er ikke besværet værd.

Bemærkninger Partielle F-test, der kun omhandler en enkel parameter er ækvivalente med et t-test. Husk: En kvalitativ variabel med r niveauer, omkodes til (r-) 0/ dummy variable. En test for betydningen af den kvalitative variable svarer til et partielt F-test, hvor (r-) variable fjernes.

Modelsøgning En statistiske analyser involverer ofte et stort antal forklarende variable. For at få overblik over, hvilke forklarende variable, der har betydning for den afhængige variabel udføres en modelsøgning I en modelsøgning, søger man en model, der kun indeholder de forklarende variable der har en reel betydning for den afhængige variabel. Der findes et utal af måder at udføre modelsøgning. De mest almindelige er:

Modelsøgning: Prøv alle muligheder Vi udfører en regression på alle tænkelige kombinationer af forklarende variable. Har vi k forklarende variable giver det 2 k forskellige modeller. Ved k=4 forklarende variable har vi allerede 2 4 =6 modeller. Vi udvælger vores model blandt de 2 k modeller fx. den med største adjusted R 2 eller mindste MSE.

Modelsøgning: Forward søgning Vi starter med en tom model dvs. uden forklarende variable. Dernæst tilføjer vi den forklarende variabel, hvor den tilhørende parameter er den med det mest signifikante partielle F-test med en P-værdi over en given grænse, fx 0.05. Anden variabel vælges som den variabel blandt de resterende, hvor det tilsvarende partielle F-test har størst P-værdi over fx 0.05. Fortsætter indtil ingen af de tilbageværende variable har en F-test med P-værdi over 0.05.

Modelsøgning: Backward søgning Vi starter med en model, hvor alle forklarende variable af interesse er inkluderet. For alle variable fortager vi et partielt F-test for den tilsvarende parameter. Den parameter med højst P- værdi over fx 0.05 fjernes. For hver af de tilbageværende variable foretages et nyt partielt F-test. Igen fjernes den variabel, der har højst P-værdi over 0.05. Dette gentages indtil alle tilbageværende variable er signifikante, dvs. deres partielle F-test har P- værdier over 0.05.

Modelsøgning: Trinvis søgning Vi starter med den tomme model. Vi tilføjer den variabel, hvor det tilhørende partielle F-test har højest P-værdi over fx 0.05. Vi tilføjer den mest signifikante variabel blandt de tilbageværende. Vi veksler nu mellem at fjerne den mindst signifikante og tilføje en den mest signifikante variabel. I hvert trin skal vi beregne partielle F-test for alle variable.

Modelsøgning i SPSS I Linear Regression kan man i menuen Method bl.a. vælge mellem Enter (Uden søgning) Stepwise Backward Forward Independent indeholder variable af interesse.

Illustration af algoritmer Forward algoritmen Start: Den tomme model Test for at tilføje Backward algoritmen Start: Den fulde model Test for at fjerne Stepwise algoritmen Start: Den tomme model Test for at fjerne/tilføje Trin M Lend Price Exchange 0 2 Trin M Lend Price Exchange 0 2 Trin M Lend Price Exchange 0 2 3 (potentielt)

SPSS detaljer for forward algoritmen Model inkluderer M Model 2 Adjusted Std. Error of R R Square R Square the Estimate,775 a,60,595,49522,908 b,825,89,33062 Model 2 inkluderer M og Price Matchende rammer til højre illustrerer hvilke P-værdier, der konkurrerede om pladsen i hvert trin. Model 2 Model 2 (Constant) M (Constant) M Price Lend Price Exchange Lend Exchange Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig.,935,368 2,538,04,520,053,775 9,892,000-3,423,54-6,329,000,36,039,539 9,209,000,037,004,529 9,046,000 Excluded Variables c Collinearity Partial Statistics Beta In t Sig. Correlation Tolerance,427 a 7,255,000,672,987,529 a 9,046,000,749,800 -,39 a -,633,07 -,200,832,005 b,044,965,006,97,03 b,23,832,027,762

Logistisk Regression

Binær (0/) afhængig variabel Hvordan afhænger en 0/ variabel af forklarende variable? Eksempel: Et antal insekter udsættes for forskellige giftdoser. For hvert insekt har vi noteret Dosen (d) af insekt gift og Responsen (r): 0=Levende =Død. Dosis Respons 0 0 0 0 0 0 0, 0 0, 0, 0 0,2 0 0,2 0,2 0,4 0,4 0,4

Binær (0/) afhængig variabel Dosis (d) insekt gift. Respons (r): 0=Levende =Død Dosis Respons 0 0 0 0 0 0 0, 0 0, 0, 0 0,2 0 0,2 0,2 0,4 0,4 0,4 Lad os prøve med lineær regression

Bernouilli/Binomial Fordeling En variabel Y i er en Bernouilli-fordelt variabel med sandsynligheds-parameter p, hvis Y i kan tage værdierne 0 og og P( Y i P( Y i = ) = p = 0) = p (sandsynligheden for at = ) Antag at Y,,Y n er uafhængige Bernouilli variable med parameter p. Så er Y = Y + +Y n binomial fordelt B(n,p). Eksempel: p er sandsynligheden for at overleve bestemt dosis og Y i er vitalstatus for i te insekt. Y i

Eksempel: p er sandsynligheden for at overleve bestemt dosis og Y i er vitalstatus for i te insekt. Y er antal døde insekter ud af ti er B(0,p). Gennemsnits antal døde: E[Y]=np Gennemsnits andel døde: E[Y/n]=p

Insektgift: Forskellige doser For hver dose observeres antal døde blandt ti insekter. Dose #døde %døde 0 0 2 0 0 3 0 0 4 0 5 4 40 6 6 60 7 4 40 8 9 90 9 0 00 0 0 00 En binomal fordelte variable for hver dose med hver sit p. Dvs. for dose i er sandsynligheden for at dø p i.

Multipel Lineær Regression? p i : sandsynligheden for at dø af dosis i. y i : % døde ud af 0 Lineær model: p i = β 0 + β dosis i y i ε i = p i + ε i er normal fordelt.

Multipel Lineær Regression? Problemer: For dosis forudsiger (prædikterer) modellen et negativt antal døde. Frekvenser (antal døde) ikke normalfordelte Ikke samme varians: var(y i ) = p i (-p i )/0

Bemærk: p p p p p log 0 0 Sandsynlighed: Odds: Log-odds (logit): Ide: Lineær model for logit: ) exp( ) exp( log ) logit( 2 2 0 2 2 0 2 2 0 k k k k k k x x x x x x p x x x p p p β β β β β β β β β β β β + + + + + + + + + = + + + + = = L L L c

Logit og Invers Logit Transformation logit( p) = log p p p exp( η) = + exp( η) NB: logit strækker ]0,[ ud til hele den reelle talakse invers logit ligger altid mellem 0 og. og

Andel døde ud af ti p exp 6,286,029 dose exp 6,286,029 dose Parameter Estimates respons a Intercept dose a. The reference category is: 0. 95% Confidence Interval for Exp(B) B Std. Error Wald df Sig. Exp(B) Lower Bound Upper Bound -6,286,238 25,767,000,029,97 27,35,000 2,799,903 4,8 Hvad er sandsynlighed for at dø, hvis dosis er 5,7?

Dose-respons: Mere insektgift Hvert insekt (00 stk) sin dose. Respons (levende=0, død=) dose p = sandsynlighed for at dø. p

Eksempel: valg af transportmiddel til arbejde i forhold til alder Undersøge om valg af transportmiddel til/fra arbejde afhænger af alder. Logistisk regression hvor responsen 'Nej (kører ej bil)' er kodet som og 'Ja (kører bil)' er kodet som 0.

I SPSS Her er anvendt Analyze Regression Binary Logistic Minder i anvendelse om Analyze Regression Linear

Output fra multinomial regression: parameter estimater Bil_til_arbejde a Nej Intercept Alder a. The reference category is: Ja. Parameter Estimates 95% Confidence Interval for Exp(B) B Std. Error Wald df Sig. Exp(B) Lower Bound Upper Bound -,343,273,584,208,00,006 2,599,07,00,998,023 NB: reference kategori er 'Ja', dvs vi modellerer sandsynlighed for 'Nej', dvs. ikke at køre i bil.