Introduktion til logistisk regression

Relaterede dokumenter
Logistisk regression 2

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Om analyse af kategoriske data fra arbejdsmiljøundersøgelse Svend Kreiner Biostatistisk afdeling

I dag. Normalfordelingen. Hvad skal vi bruge normalfordelingen til? Eksempel: hjerneceller hos marsvin

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Betinget hæftelse. Et regneeksempel

Arbejdsløsheden hastigt på vej mod en underfinansieret skattereform løser ikke krisen

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

FOLD BILLIE. Billie, se lige hvor langt mit papirfly kan flyve! 3 Fold de to hjørner indtil midten.

Energiens ligefordelingslov

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Kausalitet. Introduktion til samfundsvidenskabelig metode. Samfundsvidenskabelig metode. Hvad er metode? Hvad er kausalitet.

Kvantekosmologi med aftagende gravitation Forening af Mikrokosmos og Makrokosmos Hubble-parameteren forenet med Universets totale masse

Elektronens specifikke ladning

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Hvordan er trivslen blandt eleverne på skolen (fx i forhold til mobning)?

. k er en konstant. Endvidere antages det i d), at gx ( 0) 0. I e) antages det, at f er differentiabel i x 0 og g er differentiabel i y 0

Vedtægter for Oure Vandværk A.M.B.A.

Europaudvalget 2004 KOM (2004) 0360 Offentligt

Uddannelse og evne. Peter Stephensen Den økonomiske modelgruppe DREAM. DREAM Arbejdspapir 2017:1 September 2017

Halvårsrapport

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Lokalplanområdets placering i Haderslev

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Morten Frydenberg 26. april 2004

Korrekthed af Algoritmer

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

slagelse uddannelses- og karrierefestival

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Stil analyse af danske aktieinvesteringsforeninger

Dette spørgeskema indeholder derudover tre åbne spørgsmål, hvor I har mulighed for at lægge billet ind på konkurrencens øvrige priser:

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Bilag 4: Spørgeskemaundersøgelse, politikere

Holdningsundersøgelse, Skifergas

Halvårsrapport

Morten Frydenberg 14. marts 2006

Statistik II 4. Lektion. Logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression - fortsat

Praktiske oplysninger.

Kommentarer til. Faglige mål. RELATEREDE FORLØB TIL PROCENT i KLASSE. Matematrix og dette kapitel

Alders-mix udfordrer os alle på den gode måde

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Befolkningsprognose pr excl.flygtninge for perioden Dato

Notat. Forslag til ekstraordinære tiltag som kan imødekomme udgiftspresset for hele Social- og Sundhedsudvalgets område i 2015.

Hvidbog PFH sidst opdateret den, 12.september 2012

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Vi starter nu med punkt 1 på dagsordenen: valg af dirigent. Bestyrelsen peger på Einar Hoff. Er der andre forslag?

AARHUS MIDTBY. Vikingetiden Tema 1: Lille Torv. Store Torv. Domkirke. Magasin Bibliotek. Bispetorv. ARos. Musikhus. Rådhus.

Statistik over slagtedata vedrørende vejning og klassificering af Kvæg i Danmark i 2012

De fleste børn er klar til at sige farvel til bleen i to-treårsalderen. projek

Multipel Lineær Regression

Tillykke - du har fået en ekstra affaldsbeholder

BILAG. til forslaget. til EUROPA-PARLAMENTETS OG RÅDETS DIREKTIV. om begrænsning af visse luftforurenende emissioner fra mellemstore fyringsanlæg

Fleksibilitet på det danske arbejdsmarked med fokus på rådighed og jobtræning i dagpengesystemet

1 skaren af exp = den naturlige

Moderne Fysik 9 Side 1 af 6 Kernefysik og Stjerneliv

Analyse af de 3-åriges sprogvurderingsresultater. Møde i Børne- og Uddannelsesudvalget, december 2018

MADE IN SPACE Før besøget

Aarhus Midtby. Lydglimt om besættelsen. Kend Aarhus. Læs mere på internettet

- Medlemsundersøgelse, Danske Fysioterapeuter, Juni Danske Fysioterapeuter. Kvalitet i træning

S15 - RAMMER FOR ET CIVILT LUFTHAVNSOMRADE INDENFOR FLYVESTATION TIRSTRUPS OM&E

PRÆSENTATIONSBESKRIVELSE AF UDDANNELSESAFSNIT I PSYKIATRISKE CENTRE/ SYGEHUSPSYKIATRIEN

ET VARMT OG VENLIGT SAMFUND

AKADEMI FAG KURSUSCENTRETS UDBUD. Organisation og arbejdspsykologi Ledelse i praksis Erhvervsøkonomi Coacing i organisationer Projektstyring i praksis

Kære elever og forældre

Rettelsesoversigt - Håndbog for Almen praksis

KRESTON DANMARK Et landsdækkende samarbejde mellem uafhængige statsautoriserede revisionsvirksomheder.

Konjunkturblik: Branche-nøgletal for engroshandel med fødevarer

Afgørelser - Reg. nr.: Fredningen vedrører: Grævlingehøj. Domme. Taksations komm iss ionen. Naturklagenævnet

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

KURSUSCENTRETS UDBUD AKADEMI FAG

KRESTON DANMARK Et landsdækkende samarbejde mellem uafhængige statsautoriserede revisionsvirksomheder.

Vurdering af ansøgninger om medfinansiering af

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

- læsetræning på en sjov måde

1 skaren af exp = den naturlige

MU H. Musen siger. aktive remser og sproglege med de mindste. Lotte Salling. Lotte Salling har blandt andet udgivet bøgerne: Varenr.

Konjunkturblik: Branche-nøgletal for engroshandel med fødevarer

Logistisk regression

Gender. BirthYear. Region. Q1_Uddannelse. Hvad er dit køn? Kvinde Mand. Hvilket år er du født? Hvilken region er du bosat i?

StudieOrdning August 2011 Produktions Teknolog Uddannelsen

REFERAT/DAGSORDEN Ekstraordinært. Mikael F. Sørensen, Anja M. Jensen, Litha Skjolden, Jette Bjerg Brix, Jens Josephsen,

Afgørelser - Reg. nr.: Fredningen vedrører: Postgården. Domme. Taksations kom missionen. Naturklagenævnet

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Morten Frydenberg 25. april 2006

Afgørelser - Reg. nr.: Fredningen vedrører: Vrøgum Kær. Domme. Taksations komm iss ionen. Natu rklagenævnet

KRESTON DANMARK Et landsdækkende samarbejde mellem uafhængige danske statsautoriserede revisionsvirksomheder.

Ny KvægForskning. Herd Navigator på vej ud i verden. Side 5. Ti år med slagtekalveforsøg på KFC. Del 1: Kraftfoder, hø og halm.

Statistik II 1. Lektion. Analyse af kontingenstabeller

Uge 13 referat hold 4

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Afgørelser - Reg. nr.: Fredningen vedrører: Lynge Kirke. Domme. la ksations komm iss ion en. Naturklagenævnet. Overfredningsnævnet

Velkommen til DANMARKS SJOVESTE KLASSELOKALE

Politik for god trivsel på Efterskolen Helle

Bilag 1. AIDA-modellen: Sepstrups kampagneplatform:

Jais Nielsen streger og buer (elevark) to billedkunstlektioner

1.000 kr. Kval. Lån

Transkript:

Introduktion til logistisk rgrssion Indhold: Sandsynlighdr, odds og logits Logistisk rgrssion Dummy variabl Wald tst SPSS 1

Rgrssionsmodllr bskrivr hvorlds én afhængig variabl, Y, afhængr af n llr flr uafhængig variabl, X 1,..,X k Modllns sandsynlighdr D btingd sandsynlighdr af Y givt X 1,..,X k P(Yy X 1 x 1,..,X k x k ) Modlln bskrivr ikk fordlingn af X 1,..,X k 2

Logistisk rgrssion antagr at Y r binær Risiko for hjrtsygdom (Y) givt rygvanr (R) og forkomst af tidligr hjrtsygdom (T) Ingn hjrtsygdom : Y0 Hjrtsygdom : Y 1 P(Y 1 R r,t t) 1 + α+β r α+β +β r t +β +β t r,t + β r,t β r og β t omtals som hovdvirkningr β r,t omtals som intraktionn mllm ffktn af R og ffktn af T på Y 3

Problmt Statistisk modllr som f.ks. P(Y 1 R r,t t) 1 + α+β r α+β +β r t +β +β t r,t + β r,t skjulr d data, som modlln bskrivr, sålds at dt kan vær gansk vanskligt at gnnmsku, hvad dt gntlig r, dr forgår. F.ks., at dr r tal om ffktmodifikation, hvis nogn af værdirn af β r,t r forskllig fra 0. 4

Sandsynlighdr, odds og logits p sandsynlighdn for at nogt forkommr Odds p 1 p P 0.5 Odds 0.5 1 1:1 0.5 P 0.25 Odds 0.25 0.75 0.3333 1:3 P 0.95 Odds 0.95 0.05 19 19:1 5

Sandsynlighdrn kan brgns ud fra odds Odds p p 1 p Odds 1 + Odds Odds 10 p 10 1 + 10 0.0909 6

Logits Logit ln(odds) Odds logit Sandsynlighdr r drfor også funktionr af logits P 1 + log it log it 7

Sandsynlighdr, odds og logits p odds logits 0.00 0.000-0.05 0.053-2.944 0.10 0.111-2.197 0.15 0.176-1.735 0.20 0.250-1.386 0.25 0.333-1.099 0.30 0.429-0.847 0.35 0.538-0.619 0.40 0.667-0.406 0.45 0.818-0.201 0.50 1.000 0.000 0.55 1.222 0.201 0.60 1.500 0.406 0.65 1.857 0.619 0.70 2.333 0.847 0.75 3.000 1.099 0.80 4.000 1.386 0.85 5.667 1.735 0.90 9.000 2.197 0.95 19.000 2.944 1.00 - - 8

Stratificrd tabllr. Confoundr (Z) Eksposition (X) nj ja Sygdom Risiko Btingt sandsynlighd for sygdom Givt X og Z Z 1 nj a 1 b 1 p 1,nj ja c 1 d 1 p 1,ja Z 2 nj a 2 b 2 P 2,nj ja c 2 d 2 P 2,ja En logistisk rgrssionsmodl r n matmatisk modl, dr udtrykkr sandsynlighdrn som funktionr af Z og X 9

Sammnhæng mllm rygvanr og hjrtsygdomm Woodward (1999) tabl 4.16. Talln i parntsr r 95% konfidnintrvallr. hjrtsygdom risiko rlativ risiko Rygr nj ja p odds logit risikoratio oddsratio nj 3495 57 0.016 (0.012 0.020) ja 2112 75 0.034 (0.027 0.042) 0.016-4.135 rf rf 0.036-3.324 2.125 2.177 (1.54 3.09) χ 2 20.05 df 1 p 0.000 Omskriv sandsynlighdrn som funktionr af logits. 10

Ikk-rygr p i sandsynlighdn for hjrtsygdom, hvis man ikk rygr o i odds for hjrtsygdom, hvis man ikk rygr α i logit for hjrtsygdom, hvis man ikk rygr p i α i 1 + α i 11

rygr p r sandsynlighdn for hjrtsygdom, hvis man rygr o r odds for hjrtsygdom, hvis man rygr α r logit for hjrtsygdom, hvis man rygr p r αr 1 + α r 12

Omparamtricring To paramtr, dr angivr logits i d to gruppr: α r og α r Sæt α α i og β α r - α i sålds at α i α α r α+β Hrftr kan sandsynlighdrn omskrivs på følgnd måd: p i αi α αi 1+ 1+ α p r αr α+β αr 1+ 1+ α+β 13

β r forsklln på d to logit-værdir, β α r - α i Hvorlds skal dnn paramtr tolks? Brgning af odds-ratio værdir for 2 2 tabllr a b c d Odds ratio ad bc Tablln md modllns sandsynlighdr Rygr ikk Ingn hjrtsygdom 1 α 1+ Hjrtsyg dom 1+ α α Rygr 1 α +β 1+ 1+ α + β α + β Odds ratio 1 1+ 1+ 1+ 1+ 1 α+β α α+β α α+β α β r lig md odds-ratio værdin β 14

p i αi αi 1+ 1+ D to sandsynlighdr α α p r αr α+β αr 1+ 1+ α+β kan samls i én forml på følgnd måd: Antag at rygvariabln, X, r kodt md værdirn 0 ikk rygr 1 rygr β x β X r lig md 0, hvis X0, og β, hvis X 1. Dn btingd sandsynlighd for hjrtsygdom (Y) givt rygvanrn (X) kan drfor skrivs som P( Y X ) x x 1+ 1+ α + β α + xβ α + β α + β sandsynlighdn i n logistisk rgrssionsmodl. x 15

Dn logistisk rgrssionsmodl kan gnralisrs på følgnd mådr: X bhøvr ikk at vær binær, mn kan ntn vær katgorivariabl md mr nd to katgorir llr kvantitativ intrval- llr ratioskalavariabl. Dr kan vær mr nd 1 uafhængig variabl 16

Logistisk rgrssion md uafhængig variabl dr har mr nd to katgorir Dødsfald ftr blodprop Aldr ikk død død 35-39 7 4 40-44 16 16 45-49 27 25 50-54 37 33 55-59 60 56 60-64 69 109 17

Brgning af odds-ratioværdir 1) Vælg rfrnckatgori (f.ks. 35-39 år). 2) Udtræk 2 2 tabllr md rfrnckatgorin og én andn aldrsgrupp. 3) Brgn odds-ratio værdir for hvr af dltabllrn 18

Sammnhængn mllm aldr og død bskrivs ikk vd én odds-ratio værdi, mn vd n tabl md flr odds-ratioværdir. Aldr ikk død død 35-39 7 4 40-44 16 16 OR 1.75 Aldr ikk død død 35-39 7 4 45-49 27 25 OR 1.62 Aldr ikk død død 35-39 7 4 50-54 37 33 OR 1.56 Aldr ikk død død 35-39 7 4 55-59 60 56 OR 1.63 Aldr ikk død død 35-39 7 4 60-64 69 109 OR 2.76 19

Odds-ratio tablln Aldr Odds-ratio 35-39 1 (rf) 40-44 1.75 45-49 1.62 50-54 1.56 55-59 1.63 60-64 2.76 20

To forskllig formulringr af n logistisk rgrssionsmodl md Entn n uafhængigvariabl md t vilkårligt antal katgorir P(Y 1 X x) hvor β x 0 for rfrnckatgorin llr P (Y 1 X x) 1 + α+β 1 α+β X x α+ β 1 +β 1 + 2 α+ x 2 +... +β hvor X i r n dummy variabl md værdirn 1 hvis Xi 0 hvis X i X i β i X i k X k β 1 X 1 + β 2 X 2 + β 3 X 3 + + β k X k β 3 hvis X 3 1 fordi all d andr dummy variabl i givt fald r lig md 0 21

Logistic rgrssion in SPSS 22

Logistisk rgrssion md kvantitativ uafhængig variabl på intrval llr ratioskalanivau 23

Logistisk rgrssion md skostørrls som katgorisk variabl SPSS vælgr dn sidst katgori som dfault Informationn om rfrnckatgorin liggr i n tabl md Catgorical variabls Coding Catgorical Variabls Codings Sho Siz <4 4 4.5 5 5.5 6+ Paramtr coding Frquncy (1) (2) (3) (4) (5) 2 1,000,000,000,000,000 2,000 1,000,000,000,000 2,000,000 1,000,000,000 2,000,000,000 1,000,000 2,000,000,000,000 1,000 2,000,000,000,000,000 Bmærk: Rfrnckatgorin r katgorin md rn nullr. Dvs. hr katgorin 6+ 24

Rgrssionsanalysn Stp 1 a SHOE SHOE(1) SHOE(2) SHOE(3) SHOE(4) SHOE(5) Constant Variabls in th Equation B S.E. Wald df Sig. Exp(B) Lowr Uppr 8,634 5,125 1,415,605 5,472 1,019 4,117 1,258 13,473 1,252,534 5,491 1,019 3,499 1,227 9,975,847,549 2,379 1,123 2,333,795 6,844,871,524 2,766 1,096 2,390,856 6,671,890,504 3,117 1,077 2,434,907 6,535-2,639,327 65,005 1,000,071 a. Variabl(s) ntrd on stp 1: SHOE. Bmærk: Rfrnckatgorin viss ikk B kolonnn logitværdirn Exp(B) odds-ratio værdirn 25 95,0% C.I.for EXP(B) Kolonnrn Wald, df, Sig indholdr rsultatr af t såkaldt Wald tst.

Wald tstt To typr af nul-hypotsr H0: Risikon r dn samm i all gruppr, β 1 β 2.. β k β H0 ab : Risikon r dn samm i to forskllig gruppr, β a β b β ab 26

Wald tst for parvis sammnligningr Dfinrr dn n grupp (a) som rfrnc og stimrr logitforsklln (β b - β a ) og standardfjln på stimatt z βˆ ˆ b β s a r tilnærmlssvist fordlt som n standardisrt normalfordling Wald Z 2 r tilnærmlssvist fordlt som n χ 2 fordling md 1 frihdsgrad 27

Wald tstt for sammnligning af mr nd to gruppr Wald tstt for hypotsn, at risikon r dn samm i all gruppr, r n gnralisring af tstt for to gruppr. Dt r tilnærmlssvist fordlt som n χ 2 fordling md t antal frihdsgradr, dr r lig md antal gruppr minus 1 28

Wald tstt i SPSS Stp 1 a SHOE SHOE(1) SHOE(2) SHOE(3) SHOE(4) SHOE(5) Constant Variabls in th Equation B S.E. Wald df Sig. Exp(B) Lowr Uppr 8,634 5,125 1,415,605 5,472 1,019 4,117 1,258 13,473 1,252,534 5,491 1,019 3,499 1,227 9,975,847,549 2,379 1,123 2,333,795 6,844,871,524 2,766 1,096 2,390,856 6,671,890,504 3,117 1,077 2,434,907 6,535-2,639,327 65,005 1,000,071 a. Variabl(s) ntrd on stp 1: SHOE. 95,0% C.I.for EXP(B) Dn først lini visr Wald tstt for dn samld hypots, β 1 β 2.. β k β D næst linir visr Wald tstn for samtlig parvis sammnligningr mllm rfrnc katgorin og d andr katgorir 29

Skostørrlsn havd tilsynladnd ingn btydning, mn Sho Siz * Kjsrsnit Crosstabulation Sho Siz Total <4 4 4.5 5 5.5 6+ Count % within Sho Siz Count % within Sho Siz Count % within Sho Siz Count % within Sho Siz Count % within Sho Siz Count % within Sho Siz Count % within Sho Siz Kjsrsnit No Ys Total 17 5 22 77,3% 22,7% 100,0% 28 7 35 80,0% 20,0% 100,0% 36 6 42 85,7% 14,3% 100,0% 41 7 48 85,4% 14,6% 100,0% 46 8 54 85,2% 14,8% 100,0% 140 10 150 93,3% 6,7% 100,0% 308 43 351 87,7% 12,3% 100,0% gamma kofficintn sigr nogt andt Symmtric Masurs Asymp. Valu Std. Error a Approx. T b Approx. Sig. Ordinal by Ordinal Gamma -,324,099-2,848,004 N of Valid Cass 351 a. Not assuming th null hypothsis. b. Using th asymptotic standard rror assuming th null hypothsis. 30

Et plot af skostørrls mod andl md kjsrsnit visr hvorfor: 31

logit Et plot af skostørrls mod logit i flg. Analysn fortællr samm histori: -1,20-1,60-2,00-2,40 <4 4 4.5 5 5.5 6+ Sho Siz Logitforsklln liggr næstn på n rt lini, hvilkt skull btyd at Logitforskl β x γ + β x 32

Logitforskl β x γ + β x Rformulring af dn logistisk rgrssionsmodl P(Y 1 X x) 1+ 1+ α+β x α+β x ( α+γ ) +β x ( α+γ ) +β x Samm rgrssionsmodl som tidligr md t nyt konstantld (α+γ) i stdt for α og β x i stdt for β x 33

Logistisk rgrssion md kvantitativ uafhængig variabl Bmærk: Sho dfinrs ikk som n katgorivariabl B S.E. Wald Df Sig. Exp(B) sko -,519,187 7,697 1,006,595 Constant,688,946,528 1,467 1,989 34

Sammnligning af rsultatr fra d to analysr Analys 1 (X katgorisk): Analys 2 (X kvantitativ): P(Y 1 X) 1 + P(Y 1 X) 1 + 2.639+β x 2.639+β 0.688 0.519x x 0.688 0.519x 35

Samld logitværdir 2.639+βx Skostørrls Kod β x 1+ 2.639+β x 1+ 0.688 0.519x 0.688 0.519x <4 X3.5 1.415-1.224-1.128 4 X4 1.252-1.387-1.388 4.5 X4.5 0.847-1.792-1.648 5 X5 0.871-1,768-1.907 5.5 X5.5 0.890-1.749-2.166 6+ X6 0-2.639-2.426 36