Logistisk Regression - fortsat

Relaterede dokumenter
Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Generelle lineære modeller

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Konfidensintervaller og Hypotesetest

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Statistik II 4. Lektion. Logistisk regression

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Multipel Lineær Regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Besvarelse af vitcap -opgaven

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

To-sidet varians analyse

Statistik II 1. Lektion. Analyse af kontingenstabeller

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Løsning til opgave i logistisk regression

Morten Frydenberg 26. april 2004

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk regression

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Lineær og logistisk regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Morten Frydenberg 14. marts 2006

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Statistik Lektion 17 Multipel Lineær Regression

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Ikke-parametriske tests

Logistisk regression

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Dagens program. Praktisk information:

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Kvant Eksamen December timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Logistisk regression. Logistisk regression. Probit model Fortolkning udfra latent variabel. Odds/Odds ratio

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Simpel og multipel logistisk regression

Reeksamen i Statistik for Biokemikere 6. april 2009

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Forelæsning 11: Kapitel 11: Regressionsanalyse

Løsning til eksaminen d. 14. december 2009

Hypotesetests, fejltyper og p-værdier

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Besvarelse af juul2 -opgaven

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Statistik Lektion 16 Multipel Lineær Regression

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Statistiske Modeller 1: Kontingenstabeller i SAS

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Uge 13 referat hold 4

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Epidemiologi og Biostatistik

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Postoperative komplikationer

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Logistisk regression

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Eksamen i Statistik for Biokemikere, Blok januar 2009

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Appendiks Økonometrisk teori... II

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Module 12: Mere om variansanalyse

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Transkript:

Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse

Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative og kategoriske forklarende variable. Normal-fordelt respons med samme varians. 2) Logistisk regression Binær afhængig variabel Kvantitative og kategoriske forklarende variable. Binomial-fordelt respons. For begge modeller har vi estimeret og fortolket på parameterværdier. Spørgsmål: Er de enkelte estimater udtryk for en reel sammenhæng eller blot tilfældighedernes spil?

Logistisk regression - repetition Lad y i være en binær variabel der enten er 0 eller 1. Definer P y i =1 = p i P y i =0 =1 p i Transformer Modeler logit p =ln p p 1 logit p i =a bx i Omskriv p i = exp a b x i 1 exp a b x i

Transport eksemplet - igen Logistisk regression: Er der sammenhæng mellem om man tager bilen til arbejde og ens alder. p i =P(Tager person i ikke bilen til arbejde) Model: logit(p) = a + b*alder Bil_til_arbejde a Nej Intercept Alder a. The reference category is: Ja. Parameter Estimates 95% Confidence Interval for Exp(B) B Std. Error Wald df Sig. Exp(B) Lower Bound Upper Bound -,343,273 1,584 1,208,010,006 2,599 1,107 1,010,998 1,023 Resultat: b=0.01, dvs. jo hører alder des større sandsynlighed for at man svarer 'Nej'. Men er sammenhængen signifikant???

Opstil to hypoteser: Den statistiske metode Nul-hypotesen H 0 ( H nul ) b=0, dvs. ingen sammenhæng mellem alder og svar. Alternativ-hypotesen H 1 Den modsatte hypotese, dvs. b 0, som betyder, at der er en sammenhæng. Bemærk: H 0 er altid mere restriktiv end H 1. Hvordan afgør vi, hvilken hypotese vi skal tro på? Svar: Likelihood Ratio test!

Likelihood funktion for en binomialfordelt variabel Y er binomialfordelt b(n,p). P(Y = y) = n y p y (1 p) n y Likelihoodfunktion L(p) er P(Y = y) opfattet som funktion af p : L(p) = n y p y ( 1 p) n y p y ( 1 p) n y ( n y er blot en konstant)

Eksempel: n=10 y=3 Eksempel (likelihood ratio): L(0.4)/L(0.6)>1 dvs. p=0.4 er mere trolig (likely) end p=0.6 NB: L(p) er maximal for p=3/10=0.33= maximum likelihood estimatet (MLE).

Likelihood ratio test Antag vi har observeret x fra b(n,p) Betragt hypotesenerne H 0 : p=0.5 H 1 : p 0.5. Under H1 estimeres p ved x/n (MLE) Hvis x/n fjern fra 0.5 er der evidens mod H 1. Dette er det ækvivalent med L(0.5) L( x / n) tæt på 0 L(0.5) 2log( L( x / n) L(0.5) log( ) stor negativ værdi L( x / n) stor positiv værdi

Likelihood ratio generelt Likelihood funktionen er generelt kompliceret og svær at maksimere men det er SPSS' problem! Lad L 0 og L 1 den maksimale opnåelige troelighed under hhv. H 0 og H 1. Da H 0 er mere restriktiv end H 1 har vi L 0 <L 1. Dvs. 2log L 0 L 1 = 2log L 0 2log L 1 er positiv, og jo større, jo mindre bevis er der for H 0. Under H 0 er ovenstående udtryk desuden χ 2 -fordelt ( chi i anden fordelt ) - deraf navnet i SPSS...

Transport-eksemplet igen igen SPSS udregner -2log(Likelihood Ratio) Effect Intercept Alder Model Fitting Criteria -2 Log Likelihood of Reduced Likelihood Ratio Tests Likelihood Ratio Tests Model Chi-Square df Sig. 259,806 1,591 1,207 260,839 2,624 1,105 The chi-square statistic is the difference in -2 log-likelihoods between the final model and a reduced model. The reduced model is formed by omitting an effect from the final model. The null hypothesis is that all parameters of that effect are 0. Sig. er signifikans sandsynligheden aka P-værdien. Generelt: Hvis P-værdien<0.05 forkast H 0 og accepter H 1 (dvs b 0). Hvis P-værdien>0.05 accepter H 0 (dvs b=0).

Fortolkning af P-værdien 1)Antag at H 0 er sand. 2)Indsaml hypotetisk nyt data. Da har P-værdien følgende fortolkninger: P-værdien er da sandynligheden for at -2log(LR) for nyt data er større end før. P-værdien er sandsynligheden at nyt data indeholder mindre bevis for H 0 end data. Hvis P-værdien er lille indeholder data usandsynlig lidt bevis for H 0.

Modelanalyse Hvis P-værdien er mindre end 0.05, så fjerner vi den pågældende variabel fra modellen og gentager analysen. Dog skal følgende være opfyldt Vi skal overholde det hirarkiske princip! Vi fjerner højereordens interaktioner først, Fx vil vi kun fjerne en Main effect, hvis variablen ikke indgår i en 2-way interaction - andet giver ikke mening! Den nye model skal (også) passe til data.

Eksempel Hvordan afhænger folks holdning til dødstraf af alder og race. Variable: cappun, binær (Favor/Oppose Cap.Punish.) age, kvantitativ/skala race, kategorisk (Whita, Black, Other) Mættet startmodel (alle interaktioner er med): p = P(Favor) logit(p) = age + race + age*race

Model Fitting Information Model Fitting Criteria Likelihood Ratio Tests Model -2 Log Likelihood Chi-Square df Sig. Intercept Only 481,685 Final 444,451 37,235 5,000 Effect Intercept race age race * age Model Fitting Criteria -2 Log Likelihood of Reduced Likelihood Ratio Tests Model Chi-Square df Sig. 444,451 a,000 0. 445,908 1,457 2,483 444,451 a,000 0. 445,528 1,077 2,583 Favor or Oppose Death a Penalty for Murder Favor Intercept [race=1] [race=2] [race=3] age [race=1] * age [race=2] * age [race=3] * age a. The reference category is: Oppose. Likelihood Ratio Tests The chi-square statistic is the difference in -2 log-likelihoods between the final model and a reduced model. The reduced model is formed by omitting an effect from the final model. The null hypothesis is that all parameters of that effect are 0. a. This reduced model is equivalent to the final model because omitting the effect does not increase the degrees of freedom. Parameter Estimates b. This parameter is set to zero because it is redundant. 95% Confidence Interval for Exp(B) B Std. Error Wald df Sig. Exp(B) Lower Bound Upper Bound,667,733,827 1,363,632,763,686 1,407 1,881,422 8,392,127,873,021 1,884 1,136,205 6,286 0 b.. 0.... -,005,017,074 1,786,995,962 1,030,007,018,167 1,683 1,007,973 1,043 -,003,020,029 1,865,997,958 1,036 0 b.. 0....

Effect Intercept race age Model Fitting Criteria -2 Log Likelihood of Reduced Likelihood Ratio Tests Likelihood Ratio Tests Model Chi-Square df Sig. 445,528 a,000 0. 481,226 35,698 2,000 445,557,028 1,866 The chi-square statistic is the difference in -2 log-likelihoods between the final model and a reduced model. The reduced model is formed by omitting an effect from the final model. The null hypothesis is that all parameters of that effect are 0. a. This reduced model is equivalent to the final model because omitting the effect does not increase the degrees of freedom. Favor or Oppose Death a Penalty for Murder Favor Intercept [race=1] [race=2] [race=3] age a. The reference category is: O ppose. b. This parameter is set to zero because it is redundant. Parameter Estimates 95% Confidence Interval for Exp(B) B Std. Error W ald df Sig. Exp(B) Lower Bound Upper Bound,454,292 2,422 1,120,935,262 12,758 1,000 2,546 1,525 4,253 -,049,301,027 1,870,952,528 1,717 0 b.. 0....,001,004,028 1,866 1,001,993 1,008

Effect Intercept race Model Fitting Criteria -2 Log Likelihood of Reduced Likelihood Ratio Tests Likelihood Ratio Tests Model Chi-Square df Sig. 445,557 a,000 0. 481,685 36,129 2,000 The chi-square statistic is the difference in -2 log-likelihoods between the final model and a reduced model. The reduced model is formed by omitting an effect from the final model. The null hypothesis is that all parameters of that effect are 0. a. This reduced model is equivalent to the final model because omitting the effect does not increase the degrees of freedom. Favor or Oppose Death a Penalty for Murder Favor Intercept [race=1] [race=2] [race=3] a. The reference category is: O ppose. b. This parameter is set to zero because it is redundant. Parameter Estimates 95% Confidence Interval for Exp(B) B Std. Error W ald df Sig. Exp(B) Lower Bound Upper Bound,480,250 3,693 1,055,939,260 13,022 1,000 2,558 1,536 4,260 -,046,300,024 1,878,955,530 1,720 0 b.. 0....

Generelle Lineære Modeller Samme principper som ovenfor kan anvendes for Generelle Lineære Modeller. I dette tilfælde anvendes en såkaldt F-test. Fortolkningen af P-værdien er uændret. Modelanalysen er ligeledes uændret.

SPSS: Analyze General Linear Models Univariate Eksempel: Cost = a + b*est.cost + c*est. Days + ε ε~n(0,σ 2 ) Test størrelser Tests of Between-Subjects Effects P-værdier Dependent Variable: Contract Cost Type III Sum Source of Squares df Mean Square F Sig. Corrected Model 864253452 a 2 432126725,9 4431,771,000 Intercept 15144,748 1 15144,748,155,694 daysest 218169,438 1 218169,438 2,237,136 dotest 300550150 1 300550149,6 3082,358,000 Error 22621520,9 232 97506,556 Total 1265132219 235 Corrected Total 886874973 234 a. R Squared =,974 (Adjusted R Squared =,974) Konklusion? Konsekvens?