Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse
Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative og kategoriske forklarende variable. Normal-fordelt respons med samme varians. 2) Logistisk regression Binær afhængig variabel Kvantitative og kategoriske forklarende variable. Binomial-fordelt respons. For begge modeller har vi estimeret og fortolket på parameterværdier. Spørgsmål: Er de enkelte estimater udtryk for en reel sammenhæng eller blot tilfældighedernes spil?
Logistisk regression - repetition Lad y i være en binær variabel der enten er 0 eller 1. Definer P y i =1 = p i P y i =0 =1 p i Transformer Modeler logit p =ln p p 1 logit p i =a bx i Omskriv p i = exp a b x i 1 exp a b x i
Transport eksemplet - igen Logistisk regression: Er der sammenhæng mellem om man tager bilen til arbejde og ens alder. p i =P(Tager person i ikke bilen til arbejde) Model: logit(p) = a + b*alder Bil_til_arbejde a Nej Intercept Alder a. The reference category is: Ja. Parameter Estimates 95% Confidence Interval for Exp(B) B Std. Error Wald df Sig. Exp(B) Lower Bound Upper Bound -,343,273 1,584 1,208,010,006 2,599 1,107 1,010,998 1,023 Resultat: b=0.01, dvs. jo hører alder des større sandsynlighed for at man svarer 'Nej'. Men er sammenhængen signifikant???
Opstil to hypoteser: Den statistiske metode Nul-hypotesen H 0 ( H nul ) b=0, dvs. ingen sammenhæng mellem alder og svar. Alternativ-hypotesen H 1 Den modsatte hypotese, dvs. b 0, som betyder, at der er en sammenhæng. Bemærk: H 0 er altid mere restriktiv end H 1. Hvordan afgør vi, hvilken hypotese vi skal tro på? Svar: Likelihood Ratio test!
Likelihood funktion for en binomialfordelt variabel Y er binomialfordelt b(n,p). P(Y = y) = n y p y (1 p) n y Likelihoodfunktion L(p) er P(Y = y) opfattet som funktion af p : L(p) = n y p y ( 1 p) n y p y ( 1 p) n y ( n y er blot en konstant)
Eksempel: n=10 y=3 Eksempel (likelihood ratio): L(0.4)/L(0.6)>1 dvs. p=0.4 er mere trolig (likely) end p=0.6 NB: L(p) er maximal for p=3/10=0.33= maximum likelihood estimatet (MLE).
Likelihood ratio test Antag vi har observeret x fra b(n,p) Betragt hypotesenerne H 0 : p=0.5 H 1 : p 0.5. Under H1 estimeres p ved x/n (MLE) Hvis x/n fjern fra 0.5 er der evidens mod H 1. Dette er det ækvivalent med L(0.5) L( x / n) tæt på 0 L(0.5) 2log( L( x / n) L(0.5) log( ) stor negativ værdi L( x / n) stor positiv værdi
Likelihood ratio generelt Likelihood funktionen er generelt kompliceret og svær at maksimere men det er SPSS' problem! Lad L 0 og L 1 den maksimale opnåelige troelighed under hhv. H 0 og H 1. Da H 0 er mere restriktiv end H 1 har vi L 0 <L 1. Dvs. 2log L 0 L 1 = 2log L 0 2log L 1 er positiv, og jo større, jo mindre bevis er der for H 0. Under H 0 er ovenstående udtryk desuden χ 2 -fordelt ( chi i anden fordelt ) - deraf navnet i SPSS...
Transport-eksemplet igen igen SPSS udregner -2log(Likelihood Ratio) Effect Intercept Alder Model Fitting Criteria -2 Log Likelihood of Reduced Likelihood Ratio Tests Likelihood Ratio Tests Model Chi-Square df Sig. 259,806 1,591 1,207 260,839 2,624 1,105 The chi-square statistic is the difference in -2 log-likelihoods between the final model and a reduced model. The reduced model is formed by omitting an effect from the final model. The null hypothesis is that all parameters of that effect are 0. Sig. er signifikans sandsynligheden aka P-værdien. Generelt: Hvis P-værdien<0.05 forkast H 0 og accepter H 1 (dvs b 0). Hvis P-værdien>0.05 accepter H 0 (dvs b=0).
Fortolkning af P-værdien 1)Antag at H 0 er sand. 2)Indsaml hypotetisk nyt data. Da har P-værdien følgende fortolkninger: P-værdien er da sandynligheden for at -2log(LR) for nyt data er større end før. P-værdien er sandsynligheden at nyt data indeholder mindre bevis for H 0 end data. Hvis P-værdien er lille indeholder data usandsynlig lidt bevis for H 0.
Modelanalyse Hvis P-værdien er mindre end 0.05, så fjerner vi den pågældende variabel fra modellen og gentager analysen. Dog skal følgende være opfyldt Vi skal overholde det hirarkiske princip! Vi fjerner højereordens interaktioner først, Fx vil vi kun fjerne en Main effect, hvis variablen ikke indgår i en 2-way interaction - andet giver ikke mening! Den nye model skal (også) passe til data.
Eksempel Hvordan afhænger folks holdning til dødstraf af alder og race. Variable: cappun, binær (Favor/Oppose Cap.Punish.) age, kvantitativ/skala race, kategorisk (Whita, Black, Other) Mættet startmodel (alle interaktioner er med): p = P(Favor) logit(p) = age + race + age*race
Model Fitting Information Model Fitting Criteria Likelihood Ratio Tests Model -2 Log Likelihood Chi-Square df Sig. Intercept Only 481,685 Final 444,451 37,235 5,000 Effect Intercept race age race * age Model Fitting Criteria -2 Log Likelihood of Reduced Likelihood Ratio Tests Model Chi-Square df Sig. 444,451 a,000 0. 445,908 1,457 2,483 444,451 a,000 0. 445,528 1,077 2,583 Favor or Oppose Death a Penalty for Murder Favor Intercept [race=1] [race=2] [race=3] age [race=1] * age [race=2] * age [race=3] * age a. The reference category is: Oppose. Likelihood Ratio Tests The chi-square statistic is the difference in -2 log-likelihoods between the final model and a reduced model. The reduced model is formed by omitting an effect from the final model. The null hypothesis is that all parameters of that effect are 0. a. This reduced model is equivalent to the final model because omitting the effect does not increase the degrees of freedom. Parameter Estimates b. This parameter is set to zero because it is redundant. 95% Confidence Interval for Exp(B) B Std. Error Wald df Sig. Exp(B) Lower Bound Upper Bound,667,733,827 1,363,632,763,686 1,407 1,881,422 8,392,127,873,021 1,884 1,136,205 6,286 0 b.. 0.... -,005,017,074 1,786,995,962 1,030,007,018,167 1,683 1,007,973 1,043 -,003,020,029 1,865,997,958 1,036 0 b.. 0....
Effect Intercept race age Model Fitting Criteria -2 Log Likelihood of Reduced Likelihood Ratio Tests Likelihood Ratio Tests Model Chi-Square df Sig. 445,528 a,000 0. 481,226 35,698 2,000 445,557,028 1,866 The chi-square statistic is the difference in -2 log-likelihoods between the final model and a reduced model. The reduced model is formed by omitting an effect from the final model. The null hypothesis is that all parameters of that effect are 0. a. This reduced model is equivalent to the final model because omitting the effect does not increase the degrees of freedom. Favor or Oppose Death a Penalty for Murder Favor Intercept [race=1] [race=2] [race=3] age a. The reference category is: O ppose. b. This parameter is set to zero because it is redundant. Parameter Estimates 95% Confidence Interval for Exp(B) B Std. Error W ald df Sig. Exp(B) Lower Bound Upper Bound,454,292 2,422 1,120,935,262 12,758 1,000 2,546 1,525 4,253 -,049,301,027 1,870,952,528 1,717 0 b.. 0....,001,004,028 1,866 1,001,993 1,008
Effect Intercept race Model Fitting Criteria -2 Log Likelihood of Reduced Likelihood Ratio Tests Likelihood Ratio Tests Model Chi-Square df Sig. 445,557 a,000 0. 481,685 36,129 2,000 The chi-square statistic is the difference in -2 log-likelihoods between the final model and a reduced model. The reduced model is formed by omitting an effect from the final model. The null hypothesis is that all parameters of that effect are 0. a. This reduced model is equivalent to the final model because omitting the effect does not increase the degrees of freedom. Favor or Oppose Death a Penalty for Murder Favor Intercept [race=1] [race=2] [race=3] a. The reference category is: O ppose. b. This parameter is set to zero because it is redundant. Parameter Estimates 95% Confidence Interval for Exp(B) B Std. Error W ald df Sig. Exp(B) Lower Bound Upper Bound,480,250 3,693 1,055,939,260 13,022 1,000 2,558 1,536 4,260 -,046,300,024 1,878,955,530 1,720 0 b.. 0....
Generelle Lineære Modeller Samme principper som ovenfor kan anvendes for Generelle Lineære Modeller. I dette tilfælde anvendes en såkaldt F-test. Fortolkningen af P-værdien er uændret. Modelanalysen er ligeledes uændret.
SPSS: Analyze General Linear Models Univariate Eksempel: Cost = a + b*est.cost + c*est. Days + ε ε~n(0,σ 2 ) Test størrelser Tests of Between-Subjects Effects P-værdier Dependent Variable: Contract Cost Type III Sum Source of Squares df Mean Square F Sig. Corrected Model 864253452 a 2 432126725,9 4431,771,000 Intercept 15144,748 1 15144,748,155,694 daysest 218169,438 1 218169,438 2,237,136 dotest 300550150 1 300550149,6 3082,358,000 Error 22621520,9 232 97506,556 Total 1265132219 235 Corrected Total 886874973 234 a. R Squared =,974 (Adjusted R Squared =,974) Konklusion? Konsekvens?