Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller

Relaterede dokumenter
Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

Statikstik II 4. Lektion. Generelle Lineære Modeller

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Statistik Lektion 15 Mere Lineær Regression. Modelkontrol Prædiktion Multipel Lineære Regression

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelkontrol

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelsøgning Modelkontrol

Økonometri lektion 7 Multipel Lineær Regression. Testbaseret Modelkontrol

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Regressionsanalyse. Epidemiologi og Biostatistik. 1.Simpel lineær regression (Kapitel 11) systolisk blodtryk og alder

Kvantitative metoder 2

Økonometri 1. Test for heteroskedasticitet. Test for heteroskedasticitet. Dagens program. Heteroskedasticitet 26. oktober 2005

EKSAMEN I MATEMATIK-STATISTIK, 27. JANUAR 2006, KL 9-13

Økonometri 1. Heteroskedasticitet 27. oktober Økonometri 1: F12 1

Økonometri 1. Lineær sandsynlighedsmodel. Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)?

Logistisk regression. Logistisk regression. Probit model Fortolkning udfra latent variabel. Odds/Odds ratio

Lineær regressionsanalyse8

Morten Frydenberg Biostatistik version dato:

Økonometri 1 Efterår 2006 Ugeseddel 9

Statistik II 4. Lektion. Logistisk regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Økonometri 1. Interne evalueringer. Interne evalueringer. Dagens program. Heteroskedaticitet (Specifikation og dataproblemer) 2.

Repetition. Forårets højdepunkter

Kvantitative metoder 2

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Statistik Lektion 14 Simpel Lineær Regression. Simpel lineær regression Mindste kvadraters metode Kovarians og Korrelation

Anvendt Statistik Lektion 8. Multipel Lineær Regression

6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, fredag

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Økonometri 1. Lineær sandsynlighedsmodel (Wooldridge 8.5). Dagens program: Heteroskedasticitet 30. oktober 2006

Simpel Lineær Regression - repetition

Ugeseddel 8. Gruppearbejde:

Økonometri 1 Efterår 2006 Ugeseddel 13

Landbrugets efterspørgsel efter Kunstgødning. Angelo Andersen

Kvantitative metoder 2 Forår 2007 Ugeseddel 10

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

DLU med CES-nytte. Resumé:

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Rettevejledning til Økonomisk Kandidateksamen 2007I, Økonometri 1

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Kvantitative metoder 2

Kvantitative metoder 2

Bilag 6: Økonometriske

Kvantitative metoder 2

Multipel Lineær Regression

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Vi ønsker også at teste hypoteser om parametrene. F.eks: Kan µ tænkes at være 0 (eller anden fast, kendt værdi)? Eksempel: dollarkurser

Rettevejledning til Økonomisk Kandidateksamen 2005II, Økonometri 1

χ 2 -fordelte variable

Økonometri 1. For mange variable i modellen. For få variable. Dagens program. Den multiple regressionsmodel 21. september 2004

Statistik Lektion 4. Variansanalyse Modelkontrol

Økonometri 1. Avancerede Paneldata Metoder I 24.november F18: Avancerede Paneldata Metoder I 1

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Løsninger til kapitel 12

Estimation af CES - forbrugssystemet med og uden dynamik: -fcf/fcfv sammenhold med fcv/fcfv -fct/fcts sammenhold med fcs/fcts

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

TALTEORI Følger og den kinesiske restklassesætning.

Binomialfordelingen. Erik Vestergaard

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Statistik 9. gang 1 REGRESSIONSANALYSE. Korrelation (kontrol af model) Regression (tilpasning af model)

Forelæsning 11: Kapitel 11: Regressionsanalyse

Binomialfordelingen: april 09 GJ

Brugen af R^2 i gymnasiet

Statistik Lektion 16 Multipel Lineær Regression

Økonometri 1. Avancerede Paneldata Metoder II Introduktion til Instrumentvariabler 27. november 2006

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Udvikling af en metode til effektvurdering af Miljøstyrelsens Kemikalieinspektions tilsyn og kontrol

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Morten Frydenberg Biostatistik version dato:

Sandsynlighedsregning og statistik med binomialfordelingen

Kvantitative metoder 2 Forår 2007 Ugeseddel 9

Regressionsmodeller. Kapitel Ikke-lineær regression

Module 4: Ensidig variansanalyse

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Kvantitative metoder 2

Tabsberegninger i Elsam-sagen

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Morten Frydenberg Version: Thursday, 16 June 2011

Luftfartens vilkår i Skandinavien

Antag X 1,..., X n stokastiske variable med fælles middelværdi µ og varians σ 2. Hvis µ er ukendt estimeres σ 2 ved 1/36.

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Variansanalyse (ANOVA) Repetition, ANOVA Tjek af model antagelser Konfidensintervaller for middelværdierne Tukey s test for parvise sammenligninger

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

2. Sandsynlighedsregning

Beregning af strukturel arbejdsstyrke

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Husholdningsbudgetberegner

Note til Generel Ligevægt

Statistik II 1. Lektion. Analyse af kontingenstabeller

Økonometri 1. Funktionel form. Funktionel form (fortsat) Dagens program. Den simple regressionsmodel 14. september 2005

Indtjening, konkurrencesituation og produktudvikling i danske virksomheder

1 Regressionsproblemet 2

PRODUKTIONSEFFEKTEN AF AVL FOR HANLIG FERTILITET I DUROC

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Transkript:

Statkstk II 3. Lekton Multpel Logstsk regresson Generelle Lneære Modeller

Defntoner: Repetton Sandsynlghed for at Ja tl at være en god læser gvet at man er en dreng skrves: P( God læser Ja Køn Dreng) Sandsynlghed for at Ja tl at være en god læser gvet at man er en pge skrves: P( God læser Ja Køn Pge) 1 P(God læser Ja Køn Dreng) Oddset for at være svare Ja tl at være god læser gvet man er en dreng er ( doven notaton) P(Ja Dreng) Odds(Ja Dreng) 1 P(Ja Dreng) Oddset for at være svare Ja tl at være god læser gvet man er en dreng er ( doven notaton) P(Ja Dreng) Logt(Ja Dreng) ln( Odds(Ja Dreng) ) ln 1 P(Ja Dreng)

Hvs ngen afhængghed Hvs selvvurderng kke afhænger af kønnet må der gælder følgende: P ( Ja Dreng) P(Ja Pge) P( Ja Dreng) P(Ja Pge) 1 Odds ( Ja Dreng) Odds(Ja Pge) Odds( Ja Pge) Odds(Ja Dreng) 1 ( Odds(Ja Pge) Odds(Ja Dreng) ) 0 ln logt (Ja Pge) logt(ja Dreng) 0 Odds-rato Logt-forskel

Kategorsk forklarende varabel Eksempel: Sammenhængen ml. læsehastghed og selvvurderng? Sætnngslæsnng Hurtg 80 6.3% Langsom 80 28.1% Uskker 11 35.5% Total 171 11.2% Er du en god læser Nej Ja Total 1199 93.7% 205 71.9% 20 64.5% 1424 88.8% 1279 100.0% 285 100.0% 31 100.0% 1595 100.0% Odds for Ja gvet hastghed 1199/80 14.99 205/80 2.56 20/11 1.81 Logt for Ja gvet hastghed ln(14.99) 2.707 ln(2.56) 0.94 ln(1.81) 0.59

Logstsk Regressonsmodel Model: Logt(Ja Hastghed) α + β Hastghed Logt(Ja Hurtg) α + β Hurtg Logt(Ja Langsom) α + β Langsom Logt(Ja Uskker) α + β Uskker For reference-kategoren sæt β Hurtg 0.

Logt-forskelle Logt(Ja Langsom) - Logt(Ja Hurtg) (α + β Langsom ) - α β Langsom Logt(Ja Uskker) - Logt(Ja Hurtg) (α + β Uskker ) - α β Uskker Dvs. β Langsom og β Uskker er de to logt-forskelle af nteresse. Hypotesetest H 0 : β Langsom β Uskker 0 H 1 : β Langsom 0 og/eller β Uskker 0

Alternatv: Dummy-varable For hver kategor ntroducer en bnær varabel: x Hurtg, x Langsom og x Uskker. x Hurtg 0 altd nul (reference-kategor) x Langsom 1 hvs Hastghed Langsom x Langsom 0 hvs Hastghed Langsom x Uskker 1 hvs Hastghed Uskker x Uskker 0 hvs Hastghed Uskker

Dummy-varable: Nu Som Tabel Hastghed x Langsom x Uskker Hurtg 0 0 Langsom 1 0 Uskker 0 1

Dummy-varable Model: Eksempel: Bemærk struktur: Uskker Uskker Langsom Langsom Hurtg Hurtg x x x Hastghed Ja Logt β β β α + + + ) ( Langsom Uskker Langsom Hurtg Langsom Ja Logt β α β β β α + + + + 0 1 0 ) ( + + + + k k k k x x x x x Ja Logt β α β β α β 1 1 1 ),, (

Logstsk Regresson: Generel Form Med en omkodnng tl bnære dummy-varable kan den logstske regresson skrves på den generelle form: Logt( Y 1 Og som sandsynlghed: X ) α + βx P( Y 1 X ) e 1+ e α + β x α + β x exp α + βx 1+ exp α + βx

Skala forklarende varabel Eksempel: Afhængg varabel: Er du en god læser (Ja/Nej) Forklarende varable: Antal rgtge test (0 20) Plot: Andel Ja er for hver score.

Logstsk Regressonsmodel Model: Logt(Ja Score x) α + βx Sandsynlghed: P( Ja Score x) e 1+ e α + βx α + βx Plot: Logt(Ja Scorex)

Logstske funkton e 1+ x e x e 1+ e 1.5 0.5x 1.5 0.5x

Fortolknng af β Logt-forskel: Logt( Ja Score ( α + β ( x + 1) ) ( α + βx) α + βx + β α βx β Så hver gang score stger med 1 stger logt med β. x + 1) Logt( Ja Score x) Odds-rato: Odds( Ja Score x + 1) Odds( Ja Score x) e e ( x+ ) α + β 1 α + βx e β Så hver gang score stger med 1 ændres Odds et med en faktor e β.

Hypotesetest H 0 : β 0 H 1 : β 0 Ingen logt-lneær sammenhæng mellem selvvurderng og test-score. Der er en logt-lneær sammenhæng mellem selvvurderng og test-score. Teststørrelse: Wald ˆ β SE( ˆ) β 2 0 Jo større Wald jo mndre tror v på H 0. Hvor langt ude Wald er måles af p-værden. Hvs v afvser H 0 sger v at β er sgnfkant.

SPSS Output Estmerede model: Fortolknng: Odds et for at svare Ja ændres med en faktor exp(β) 1,208, hver gang scoren stger med 1. Dvs. at Odds et for Ja stger når score stger. Sandsynlgheder Logt( Ja Score x) 0.402 + 0. 189x ( 0.402 + 0.189 7) ( 0.402 + 0.189 7) exp P( Ja Score 7) 1+ exp 0.72

Modelkontrol: Ikke logt-lneær Udvd model med kke-lneært led, fx: Logt(Ja Scorex) α + β 1 x + β 2 x 2 Hvs β 2 kke er sgnfkant, så er en logt-lneær model passende.

Modelkontrol: Hosmer-Lemeshows χ 2 -test Ide: Sammenlgn observerede antal Ja er og forventede antal Ja er den tlpassede model. O x observerede antal personer med score x, der svarer Ja. N x antal personer med score x. E x forventede antal personer med score x, der svarer Ja. E x N x P( Ja Score x) N x e 1+ e α + βx α + βx

Modelkontrol: Hosmer-Lemeshows χ 2 -test Teststørrelse: 2 χ ( E O ) x E x x x 2 Hvs vores værder af a og b er korrekte gælder χ 2 ~ χ 2 Hvor df antal led summen ( df ) antal parametre modellen Hvs χ 2 er for stor tror v kke på modellen. Hvs den tlsvarende p-værd er < 0.05 er modelkontrollen kkset.

SPSS Output Da p-værden 0.246 > 0.05 kan v kke afvse H 0. Dvs. v kan kke afvse at modellen er korrekt. Data nddelt 10 grupper. Modellen har to parametre. Dvs. df 10-2 8.

Multpel Logstsk Regresson Ide: Mere end en forklarende varabel. Model: Logt ( Ja Køn, Hastghed ) α + β Køn + β Hastghed Reference-kategorer: Dreng og Hurtg Dvs: β Dreng 0 og β Hurtg 0 Eksempler Logt(Ja Dreng,Hurtg) α +β Dreng +β Hurtg α + 0 + 0 α Logt(Ja Pge,Langsom) α +β Pge +β Langsom

Logt-forskelle Sammenlgnng af logt for to personer af samme køn, med forskellg læsehastghed: Logt(Ja Køn,Langsom) Logt(Ja Køn,Hurtg) (α+β Køn +β Langsom ) (α+β Køn +β Hurtg ) β Langsom Dvs. β Langsom beskrver logt-forskellen mellem hurtg og langsom læser uanset kønnet.

Logt-forskelle Sammenlgnng af logt for to personer af forskellg køn, men med samme læsehastghed: Logt(Ja Pge,Hastghed) Logt(Ja Dreng,Hastghed) (α+β Pge +β Hastghed ) (α+β Dreng +β Hastghed ) β Pge. Dvs. β Pge beskrver logt-forskellen mellem pger og drenge uanset læsehastgheden.

Interakton / Vekselvrknng Hvad nu hvs logt-forskellen mellem pger og drenge faktsk afhænger af hastgheden at der er en nterakton? Indfør nteraktonsled β Køn,Hastghed. Model: Logt(Ja Køn,Hastghed) α + β Køn + β Hastghed + β Køn,Hastghed

Interakton / Vekselvrknng Parametere der refererer tl en eller flere referencekategorer sættes lg nul: β Dreng,Hurtg 0 β Dreng, Langsom 0 β Dreng, Uskker 0 β Pge, Hurtg 0 β Pge, Langsom 0 β Pge, Uskker 0

Logt Tabel Tabel over Logt(Ja Køn, Hastghed) Køn Dreng Pge Læsehastghed Hurtg α α+β Pge Langsom α+β Langsom α+β Pge +β Langsom +β Pge,Langsom Uskker α+β Uskker α+β Pge +β Uskker +β Pge,Uskker Bemærk: Hver celle har et ndvduelt logt. V kalder denne model den mættede model.

Logt-forskelle logt(ja pge,hurtg) logt(ja dreng,hurtg) β Pge logt(ja pge,uskker) logt(ja dreng,uskker) β Pge + β Pge,Uskker. Dvs. β Pge,Uskker er forskellen logt-forskellen mellem hurtge og uskre læsere. logt(ja Dreng,Uskker) logt(ja Dreng,Hurtg) β Uskker logt(ja Pge,Uskker) logt(ja Pge,Hurtg) β Uskker + β Pge,Uskker. Dvs. β Pge,Uskker er forskellen logt-forskellen mellem hurtge og uskre læsere.

Hypotse H 0 : β Pge,Langsom β Pge,Uskker 0 Dvs. der er ngen nterakton mellem Køn og Hastghed. H 1 : β Pge,Langsom 0 og/eller β Pge,Uskker 0 Dvs. der er nterakton mellem Køn og Hastghed.

SPSS *Klk* SPSS: Analyze Regresson Bnary Logstc Vekselvrknngsled tlføjes ved at vælge flere led og så klkke på >a*b> Husk at angve kategorske varable under Categorcal

SPSS: Output Vores model er for Logt for Ja Hurtg og Dreng er reference-kategorerne Det nteressante nput står efter Block 1: Method Enter H-L Test: p-værd 1, da modellen er mættet. Hverken køn eller hastghed*køn er sgnfkante.

Generel Lneær Model Y afhængg skala varabel X 1,,X k forklarende varable, skala eller bnære Model: Mddelværden af Y gvet X + k E( Y X ) α + β x + + β x α β x 1 1 Mere præcst: te observaton ud af n er gvet ved Y + β1x1, + + βk xk, α + ε x j, er j te forklarende varabel for te observaton. ε 1,,ε n er uafhængge og dentsk fordelt ε ~ N(0,σ 2 ) IID k k 1

Smpel lneær regresson GLM med én skala forklarende varabel (k1) Modellen er y ε + β1x 2 d N(0, σ α + ε ) Y Y ε E[Y X] α + β 1 X { β 1 Modellen sger: E(Y X) α + β 1 X α 0 1 V(Y X) σ 2 Y X ~ N(α + β 1 X, σ 2 ) X X

Endnu en tegnng Y Y α + β x 1 Y x ~N(α + β 1 x,σ 2 )..d. normalfordelte fejlled x 1 x 2 x 3 x 4 x 5 X

Estmaton Model: y α + β 1 x + ε ε er..d. N(0,σ 2 ) α, β 1 og σ 2 er modellens parametre ukendte! Estmaton af α og β 1 svarer tl at vælge den lnje, der passer bedst tl de observerede punkter. Estmerede regressons lnje yˆ a + b1 x a er estmat for α og b 1 er estmat for β 1. Y hat er estmat for E(Y X) Spørgsmål: Hvordan estmerer v α og β 1?

Resdual led e yˆ ( y ) er den lodrette afstanden fra den estmerede lne tl datapunktet (x,y ). Y Det observerede datapunkt Y ˆ a + b1 X Y Yˆ e Y Yˆ X, Y ) ( Y ˆ den forvendtede værd Den estmerede regressonslnje for Y gvet X X X

Mndste kvadraters metode V vl fnde a og b 1 så summen af de kvadrerede fejl blver mndst mulg. Dvs, v vl mnmere SSE er Sum of Squared Errors. Skrevet ud: SSE n 1 e 2 n n ˆ ( y a b1 x 2 2 e ( y y 1 1 ) n 1 ) 2 Bemærk: Funkton af to varable (a og b 1 ).

Mnmerng SSE er en funkton af a og b 1. SSE a b 1 V vl fnde a og b 1 så SSE er mndst mulg.

Test af hældnng (β 1 ) Test for om hældnngen, β 1 er forskellg fra nul: H : β 1 0 vs H1 : β1 0 0 Teststørrelse: t b1 SE( b 1 ) Numersk store værder af t er ufordelagtge for H 0. SE(b 1 ) er standardfejlen for estmatet b 1. Hvs H 0 er sand følger t en såkaldt t-fordelng med n-k- 1 frhedsgrader, hvor n er antal observatoner.

Test af hældnng (β 1 ) Vælg et sgnfkansnveau, typsk α0.05. Udregn teststørrelsen 0. 8 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 t-fordelng med n-2 frhedsgrader 0. 0 t 0 Orange område p-værd Bestem p-værden (SPSS). Beslutnng: Hvs p-værden < α afvses H 0. t

Fortolknng/Eksempler på H 0 Er der en lneær sammenhæng mellem X og Y? H 0 : β 1 0 ngen lneær sammenhæng H 1 : β 1 0 lneær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Konstant Y Usystematsk varaton Ikke-lneær sammenhæng Y Y Y X X X

SPSS Analyze General Lnear Models Unvarate Kategorske forklarende varable Skala forklarende varable

Eksempel Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estmerede model: yˆ 5,486 0. 290x Både skærng (α) og hældnng (β 1 ) er sgnfkante!