Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression

Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π ) Logit(Y X x) ln(odds(y X x)) ln(π /(-π )) Model: Logit(Y X x) β 0 β x

Omskrivninger β 0 β Odds( Y X x) e e β0 βx π β β x e 0 Odds-ratio, når X vokser med én: x Odds Y X x ) OR e Odds( Y X x) ( β

Multipel Logistisk Regression Analogt med multipel lineære regression er en multipel logistisk regressions model givet ved: Omskrivning: Som ved MLR kan vi vha dummy-variable indføre kategoriske forklarende variable k k k k x x x X x X Y Logit β β β L 0 ),, ( k k k k x x x x k k e e x X x X Y P β β β β β β L L 0 0 ),, (

Estimaternes fordeling Antag β ι er den sande værdi og b i er det tilsvarende estimat Hvis vi har indsamlet data nok, så gælder der b i ( β, SE( b ) ) ~ N i i Dvs b i er et unbiased estimat Standard fejlen SE(b i ) afhænger af mængden af data SE(b i ) bestemmes af SPSS

Konfidens-interval for logit-forskel Et (-α)00% konfidens-interval for β i : [ bi Zα SE( bi ) ; bi Zα SE( bi )] Et (-α)00% konfidens-interval for exp(β i ) : [ e ˆ β Z α ˆ ˆ ( ˆ SE( β ) β Zα SE β ) ; e ]

Hypotesetest Hypoteser H 0 : β i 0 H : β i 0 (uafhængighed) (afhængighed) ( ) Teststørrelse: Z b SE b ) (Wald teststør) i ( i Under H 0 gælder: Z ~ χ () Store værdier af Z er ufordelagtige for H 0

Eksempel: CHD (coronary heart decease) Data for n 463 personer Afhængig variabel: lider/lider ikke af CHD Y hvis CHD Y 0 hvis ej CHD Forklarende variable: X Alder X Cigaretter pr dag X 3, hvis CHD i familien X 3 0, hvis ej CHD i familien

Multipel Logistisk Regression Model: Logit( Y X x) β β x β x β x 0 3 3 SPSS output: β SE(β) Ζ p-værdi α Estimerede model: e β 95% konf-int for exp(β) Logit ( Y X x) 36 0049x x 0083x 0 975 3

Fortolkning Alle forklarende variable er signifikante! Estimerede sandsynlighed for CHD e e 36 0049x 0083x 0975x3 P ( Y X x) 36 0049x 0083x 0975x Alle forklarende variable medvirker til øget sandsynlighed for CHD 3

Odds-ratio og CHD i Familien Et Odds-ratio for CHD givet CHD i Familien OR Odds( Y Odds( Y X ) 0) 36 0049x 0083x 0975 3 36 0049x 0083x 0975 0 X 3 e 0975 65 Bemærk at vi har ignoreret X og X på venstresiden, da OR et beregnes for fastholdte X og X e e Konklusion er at, hvis man har CHD i familien, så risikoen for CHD signifikant større

Ikke-paramertriske metoder Parametriske vs Ikke-parametriske Metoder Sign Test Run Test Wald-Wolfowitz Test Mann-Whitney U Test Wilcoxon Signed-rank Test

Parametriske metode Vi bygger en statistisk model af virkeligheden og udtrykker vores specifikke interesse i ukendte parametre som vi så kan lave inferens for / undersøgelser af Fx bin( n, p) xij α βi ε ij, N( μ, σ iid N(0, σ Undersøgelsen bygger på modelantagelser og er en præcis løsning, til et approksimeret problem ε ij ) )

Ikke-parametriske metoder Bygger ikke på modelantagelser og er derfor robuste overfor forskellige udgangs-situationer De mister til gengæld lidt i styrke (power) Undersøgelsen bygger ikke på antagelser om specielle fordelinger og er en approksimeret løsning til et præcist problem

The Sign Test Eksempel: Holdning til chef på en skala (-5) før (X) og efter (Y) Lad pp(x>y) Hvis holdningen er den samme de to år, så er p/ i i Før Før Efter Efter Forskl Forskl Sign Sign 3 3 4 4 5 5 5 5 0 0 3 3 3 3 4 4 4 4 5 5 4 4 4 4 0 0 6 6 3 3 7 7 8 8 5 5 4 4 - - - - 9 9 4 4 5 5 0 0 5 5 4 4 - - - - Sign hvis X>Y, - hvis X<Y Observationer hvor XY smides ud! Hypoteser: H0 : p 05 To-sidet test H : p 05 H H 0 : p 05 : p > 05 En-sidet test

The Sign Test Antag vi har n 0 7 observationer af X og Y I to tilfælde har vi XY disse udelades Tilbage er n5 observation Antag at X>Y i tilfælde ( er) og at vi ønsker at teste H 0 : p 05 (Husk at pp(x>y) ) H : p>05 Teststørrelse: T antal plusser Kritisk for H 0 er mange plusser Hvis p05 er T binomial fordelt B(5,05) P-værdiP(T )-P(X )-09808 SPSS: Analyze Nonparametric Tests Related Samples

Run Test Er sekvensen PPPKKKPPPKKKPPKKKPPP opstået tilfældigt, dvs er hvert tegn uafhængigt af de andre? Et run er en sekvens af ens elementer, der kommer efter og før en anden slags (eller ingen) elementer PKPKPKPKPK 0 runs 0 elementer PPPPPKKKKK runs 0 elementer PPKKKPKPPP 5 runs 0 elementer n antal P er n antal K er nn n

Run Test: Eksempel Er sekvensen PPKKKPKPPP 5 runs 0 elementer opstået tilfældigt? s796-797 er tabel over P(antal runs r) Test for om ovenstående sekvens er tilfældig: n 7 n 4 #runs5 Et lille eller stort antal runs er kritisk for H 0 P(#runs 5) 03333

Run Test: Eksempel Hvor mange eller få runs skulle der være for at forkaste på niveau α005? Antag: n #P 7 n #K 4 Tabel s796: P(#runs ) 0006 P(#runs 3) 0033 P(#runs > 8) -0954 0046 P(#runs ) P(#runs 9) 00060046005 Ved at forkaste hypotesen om en tilfældig sekvens hvis #runs eller #runs 9 Bemærk: Vi tester vi på niveau α005

Run Test: Når n og n er store! R Antal runs Når n og n bliver store vil R blive approksimativt normalfordelt under hypotesen om tilfældig sekvens Specifik: R ~ N(E(R),σ R ) (R nærmer sig en normalfordeling) nn nn (nn n n) E( R) σ R n n ( n n ) ( n n ) Vi normaliserer/standardiserer R så R E( R) Z ~ N(0,) σ R under hypotesen om tilfældig sekvens Test udføres som sædvanligt for N(0,) fordelingen

Run Test: Eksempel 3 (Ex 4-) n 7 n 6 R 5 E( R) σ R n n n n ()(7)(6) (7 6) n n (n n n n ) ( n n ) ( n n ) 896804 986 3604 46068 R E( R) 5 749 z 347 σ 3604 R Hermed afviser vi H 0 649 749 ()(7)(6)(()(7)(6) 7 (7 6) (7 6 ) p - value (-9997) 6)) 00006

Wald-Wolfowitz Test Dette test er videreudvikling af tankegangen bag run testet Vi tester for: H 0 : De to populationer har samme fordeling H : De to populationer har forskellige fordelinger Forudsætning: De to stikprøver er udvalgt tilfældigt og uafhængigt af de respektive populationer Ideen er at sortere de to stikprøver efter stigende størrelse Hver observation får en rank, dvs dvs observationens nummer i den sorterede rækkefølge

Wald-Wolfowitz Test: Eksempel Det daglige salg fra to sælgere Sælger A: 35, 44, 39, 50, 48, 9, 60, 75, 49, 66 Sælger B: 7, 3, 3, 4, 33,, 8, 6, 3 n 0 og n 9 Sorteret efter størrelse (fordtegn rank) : Sælger A: 9 8,35,39,44 3,48 4,49 5,50 6,60 7, 66 8,75 9 Sælger B: 3,6,7 3,8 4, 5,3 6,4 7,3 9,33 0 Alle salg sorteret efter størrelse og angivet ved sælger BBBBBBBABBAAAAAAAAA R antal runs 4 (Sælger B har de 7 mindste salg og sælger A de 9 største)

Wald-Wolfowitz Test: Eksempel Vi tester følgende hypotese H 0 : Sælger A og sælger B har samme salg H : De har forskellig salg n 0 n 9 R4 Lille antal runs kritisk for H 0 Stort antal runs taler for H 0 Fra tabel s 796 har vi P(R 4) 000 P-værdi Dvs vi forkaster H 0 Antallet af runs er for lille til, at vi tror på ens fordelinger

Mann-Whitney U Test Vi tester for: H 0 : De to populationer har samme fordeling H : De to populationer har forskellige fordelinger Testet er et alternativ til t-testet for uafhængige stikprøver og til Wald-Wolfowitz run test Styrken af Mann-Whitney testet er omtrent på højde med t-testets og bedre end Wald-Wolfowitz Testet baserer sig på ranks

Mann-Whitney U Test: Eksempel De to stikprøver tildeles ranks som de kom fra én stikprøve (fodtegn rank) : A: 0 65, 8 4, 4 0, 7 5, 5 3 n 5 R 65405385 B: 8,, 3 9, 0 65, 3 n 5 R 896565 R Sum af ranks Teststørrelse: U n ( n ) 5(5 ) n n R 5 5 85 5 Små og store værdier af U er kritiske for H 0 For små værdier af n og n findes fordeling af U s798-80 I eksemplet n n 5: P(U 5)0406 > P(U>5)05704

Mann-Whitney U Test: Eksempel Hvis n, n > 0 bruges normalfordelings-approksimation: Program Program Score Score Rank Rank Score Score Rank Rank Sum Sum 85 85 00 00 00 00 87 87 0 0 40 40 9 9 70 70 680 680 98 98 300 300 980 980 90 90 60 60 40 40 88 88 30 30 470 470 75 75 70 70 640 640 7 7 35 35 775 775 60 60 65 65 840 840 93 93 80 80 0 0 88 88 30 30 350 350 89 89 50 50 600 600 96 96 90 90 890 890 73 73 50 50 3040 3040 6 6 85 85 35 35 Score Score Rank Rank Score Score Rank Rank Sum Sum 65 65 00 00 00 00 57 57 40 40 40 40 74 74 60 60 300 300 43 43 0 0 30 30 39 39 0 0 330 330 88 88 30 30 560 560 6 6 85 85 645 645 69 69 0 0 755 755 70 70 0 0 875 875 7 7 35 3500 00 59 59 50 50060 60 60 65 655 80 80 80 80305 305 83 83 90 90495 495 50 50 30 3055 nn n E n n ( U ) σu U n ( n ) n n R ( 5)( 5 ) ( 5)( 5) 3 5 3 5 nn (5)(5) EU [ ( ] n n n ) 5 nn ( n n ) σ U ( 5)( 5)( 5 5 ) 4 09 U E[ U] 3 5 5 z 33 σ U 4 09 Da Da teststørrelsen er er z -33, er er P-værdien 00005, og og H 0 0 afvises

Wilcoxon Signed-rank Test Bruges ved sammenligning af to populationer med parrede observationer Et alternativ til parret t-test eller sign-test H 0 : Medianen af differenser mellem pop og pop er forskellig H : Nix Antagelser: Fordeling af differenser er symmetrisk Differenserne er indbyrdes uafhængige Observationerne er mindst intervalskaleret D i X,i X,i differensen for i te par

Wilcoxon Signed-rank Test Beregning: Udregn alle differenser, D i Find ranks for D i (den absolutte værdi af D i ) Find sum af ranks af D i hvor D i >0 og sum af ranks af D i hvor D i <0 og I bogens notation: Σ() og Σ(-) Wilcoxon signed-rank teststørrelse: T min[ Σ(), Σ(-) ]

Wilcoxon Signed-rank Test: Eksempel Beslutningsregel: Find kritisk punkt for T i tabel s803 Hvis T er mindre end det fundne kritiske punkt forkastes H 0 Hypotese: H 0 : μ μ H : μ μ T min[5,0] 5 Kritisk punkt på signifikansniveau α00 er jvf s803 H 0 accepteres da 5> X X D D R Σ() Σ(-) 0-35 35 4-3 3 5 5 9 8 5 5 9 0-5 5 0 35 35 5 0

Wilcoxon Signed-rank Test a H 0 : μ μ H 0 : μ μ H 0 : μ μ H : μ μ H : μ > μ H : μ < μ Tosidet Ensidet Ensidet T min[σ(),σ(-)] T Σ(-) T Σ() Små værdier af T er kritiske for H 0 Large sample approksimation: Når n og n er store er T approksimativt normalfordelt

Hourly Rank Rank Rank Hourly Rank Rank Rank Messages Md 0 Dx -x ABS(D) ABS(D) (D>0) (D<0) Messages Md 0 Dx -x ABS(D) ABS(D) (D>0) (D<0) 5 49 0 0 00 5 49 0 0 00 44 49-5 5 0 00 0 44 49-5 5 0 00 0 3 49-6 6 30 00 30 3 49-6 6 30 00 30 78 49 9 9 50 50 00 78 49 9 9 50 50 00 05 49-44 44 30 00 30 05 49-44 44 30 00 30 49-37 37 00 00 00 49-37 37 00 00 00 40 49-9 9 40 00 40 40 49-9 9 40 00 40 67 49 8 8 00 00 00 67 49 8 8 00 00 00 77 49 8 8 40 40 00 77 49 8 8 40 40 00 85 49 36 36 90 90 00 85 49 36 36 90 90 00 9 49-0 0 0 00 0 9 49-0 0 0 00 0 60 49 60 60 00 60 49 60 60 00 0 49-39 39 0 00 0 0 49-39 39 0 00 0 70 49 0 0 00 70 49 0 0 00 98 49 49 49 50 50 00 98 49 49 49 50 50 00 65 49 6 6 80 80 00 65 49 6 6 80 80 00 09 49-40 40 0 00 0 09 49-40 40 0 00 0 8 49-3 3 65 00 65 8 49-3 3 65 00 65 55 49 6 6 30 30 00 55 49 6 6 30 30 00 0 49-47 47 40 00 40 0 49-47 47 40 00 40 64 49 5 5 70 70 00 64 49 5 5 70 70 00 80 49 3 3 65 65 00 80 49 3 3 65 65 00 39 49-0 0 50 00 50 39 49-0 0 50 00 50 66 49 7 7 90 90 00 66 49 7 7 90 90 00 8 49 33 33 80 80 00 8 49 33 33 80 80 00 Sum: 635 65 Sum: 635 65 n( n ) (5)(5) E[ T] 65 4 4 n( n )(n ) σ T 4 5(5 )(()(5) ) 4 3350 3765 4 Teststørrelse når n og n er store: T E[ T] z σ T 635 65 007 3765 H kan ikke afvises 0