Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder Tager du bilen til arbejde? Ja: Y Nej: Y0 X er alder i år Dårlig ide: p β 0 β X
Logistisk Regression: Definitioner Odds: I stedet for at modellere sandsynligheden direkte modellerer vi log odds et ) exp( ) exp( ) exp( log ) logit( 0 0 0 0 x x p x p p x p p p β β β β β β β β c p p c
Fortolkning af Odds p Odds: p Jo mindre odds jo mindre p Hvis odds et p/(-p), så betyder det at sandsynligheden for Ja er gange større end for Nej Af logit modellen følger at Odds Hvad sker der med odds et når X vokser med : e Odds et ændres med faktor β p β0 βx β0 β X p 0 ) e 0 e e β ( X β β X β e e β e e
Logistisk Regression: Test Vi ønsker at teste hypotesen H 0 : β 0 H : β 0 Teststørrelse: W b s ( b ) Kaldes Wald teststørrelsen Under H 0 følger W en Χ ( chi i anden ) fordeling med frihedsgrad Store værdier af W er kritiske for H 0
Logistisk Regression: Eksempel Bil til arbejde vs alder Tager du bilen til arbejde? Ja: Y Nej: Y0 Original Value Model: logit(p) log(p/(-p)) β 0 β X Nej Step a Alder Constant a Variable(s) entered on step : Alder Variables in the Equation Dependent Variable Encoding B SE Wald df Sig Exp(B) -,00,006,99,07,990,33,73,8,08,0 Konklusion: Odds et ændres med en faktor 0,990 når X vokser med dvs odds et falder med alderen Vi kan acceptere hypotesen H 0 :β 0 Ja Internal Value 0
Ikke-paramertriske metoder Parametriske vs Ikke-parametriske Sign Test Run Test Wald-Wolfowitz Test Mann-Whitney U Test Wilcoxon Signed-rank Test Metoder
Parametriske metode Vi bygger en statistisk model af virkeligheden og udtrykker vores specifikke interesse i ukendte parametre som vi så kan lave inferens/undersøgelser om Fx bin( n, p) x α β ε ij i, N( μ, σ ij iid N(0, σ Undersøgelsen bygger på modelantagelser og er en præcis løsning, til et approksimeret problem ε ij ) )
Ikke-parametriske metoder Bygger ikke på modelantagelser og er derfor robuste overfor forskellige udgangssituationer De mister til gengæld lidt i styrke (power) Undersøgelsen bygger ikke på antagelser om specielle fordelinger og er en approksimeret løsning til et præcist problem
The Sign Test Eksempel: Holdning til chef på en skala (-) før (X) og efter (Y) Lad pp(x>y) Hvis holdningen er den samme de to år, så er p/ i i Før Før Efter Efter Forskl Forskl Sign Sign 3 3 0 0 3 3 3 3 0 0 6 6 3 3 7 7 8 8 - - - - 9 9 0 0 - - - - Sign hvis X>Y, - hvis X<Y Observationer hvor XY smides ud! Hypoteser: H0 : p 0 To-sidet test H : p 0 H H 0 : : p 0 En-sidet test p > 0
The Sign Test Antag vi har n 0 7 observationer af X og Y I to tilfælde har vi XY disse udelades Tilbage er n observation Antag at X>Y i tilfælde ( er) og at vi ønsker at teste : p 0 (Husk at pp(x>y) ) H 0 H : p>0 Teststørrelse: T antal plusser Kritisk for H 0 er mange plusser Hvis p0 er T binomial fordelt B(,0) P-værdiP(T )-P(X )-09808 SPSS: Analyze Nonparametric Tests Related Samples
Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer, der kommer efter og før en anden slags (eller ingen) elementer PKPKPKPKPK 0 runs 0 elementer PPPPPKKKKK runs 0 elementer PPKKKPKPPP runs 0 elementer n antal P er n antal K er nn n
Run Test: Eksempel Er sekvensen PPKKKPKPPP runs 0 elementer opstået tilfældigt? s796-797 er tabel over P(antal runs r) Test for om ovenstående sekvens er tilfældig: n 7 n #runs Et lille eller stort antal runs er kritisk for H 0 P(#runs ) 03333
Run Test: Eksempel Hvor mange eller få runs skulle der være for at forkaste på niveau α00? Antag: n #P 7 n #K Tabel s796: P(#runs ) 0006 P(#runs 3) 0033 P(#runs > 8) -09 006 P(#runs ) P(#runs 9) 000600600 Ved at forkaste hypotesen om en tilfældig sekvens hvis #runs eller #runs 9 Bemærk: Vi tester vi på niveau α00
Run Test: Når n og n er store! R Antal runs Når n og n bliver store vil R blive approksimativt normalfordelt under hypotesen om tilfældig sekvens Specifik: R ~ N(E(R),σ R ) (R nærmer sig en normalfordeling) E( R) nn n n σ R Vi normaliserer/standardiserer R så R E( R) Z ~ N(0,) σ R nn (nn n n) ( n n ) ( n n ) under hypotesen om tilfældig sekvens Test udføres som sædvanligt for N(0,) fordelingen
Run Test: Eksempel 3 (Ex -) n 7 n 6 R E( R) σ R z Hermed n n n n ()(7)(6) (7 6) n n (n n n n ) ( n n ) ( n n ) 89680 986 360 6068 R E( R) 79 37 σ 360 R afviser vi H 0 69 79 ()(7)(6)(()(7)(6) 7 (7 6) (7 6 ) p - value (-9997) 6)) 00006
Wald-Wolfowitz Test Dette test er videreudvikling af tankegangen bag run testet Vi tester for: H 0 : De to populationer har samme fordeling H : De to populationer har forskellige fordelinger Forudsætning: De to stikprøver er udvalgt tilfældigt og uafhængigt af de respektive populationer Ideen er at sortere de to stikprøver efter stigende størrelse Hver observation før en rank, dvs dvs observationens nummer i den sorterede rækkefølge
Wald-Wolfowitz Test: Eksempel Det daglige salg fra to sælgere Sælger A: 3,, 39, 0, 8, 9, 60, 7, 9, 66 Sælger B: 7, 3, 3,, 33,, 8, 6, 3 n 0 og n 9 Sorteret efter størrelse (indeks: overordnet ranking) : Sælger A: 9 8,3,39, 3,8,9,0 6,60 7, 66 8,7 9 Sælger B: 3,6,7 3,8,,3 6, 7,3 9,33 0 Alle salg sorteret efter størrelse og angivet ved sælger BBBBBBBABBAAAAAAAAA R antal runs (Sælger B har de 7 mindste salg og sælger A de 9 største)
Wald-Wolfowitz Test: Eksempel Vi tester følgende hypotese H 0 : Sælger A og sælger B har samme salg H : De har forskellig salg n 0 n 9 R Lille antal runs kritisk for H 0 Stort antal runs taler for H 0 Fra tabel s 796 har vi P(R ) 000 P-værdi Dvs vi forkaster H 0 Antallet af runs er for lille til, at vi tror på ens fordelinger
Mann-Whitney U Test Vi tester for: H 0 : De to populationer har samme fordeling : De to populationer har forskellige fordelinger H Testet er et alternativ til t-testet for uafhængige stikprøver og til Wald-Wolfowitz run test Styrken af Mann-Whitney testet er omtrent på højde med t-testets og bedre end Wald-Wolfowitz Testet baserer sig på ranks
Mann-Whitney U Test: Eksempel De to stikprøver tildeles ranks som de kom fra én stikprøve (fodtegn ranking) : A: 0 6, 8, 0, 7, 3 n R B: 8,, 3 9, 0 6, 3 n R R Sum af ranks Teststørrelse: U 6038 8966 n ( n ) ( ) n n R 8 Små og store værdier af U er kritiske for H 0 For små værdier af n og n findes fordeling af U s798-80 I eksemplet n n : P(U )006 > P(U>)070
Mann-Whitney U Test: Eksempel Hvis n, n > 0 bruges normalfordelings-approksimation: Program Program Score Score Rank Rank Score Score Rank Rank Sum Sum 8 8 00 00 00 00 87 87 0 0 0 0 9 9 70 70 680 680 98 98 300 300 980 980 90 90 60 60 0 0 88 88 30 30 70 70 7 7 70 70 60 60 7 7 3 3 77 77 60 60 6 6 80 80 93 93 80 80 0 0 88 88 30 30 30 30 89 89 0 0 600 600 96 96 90 90 890 890 73 73 0 0 300 300 6 6 8 8 3 3 Score Score Rank Rank Score Score Rank Rank Sum Sum 6 6 00 00 00 00 7 7 0 0 0 0 7 7 60 60 300 300 3 3 0 0 30 30 39 39 0 0 330 330 88 88 30 30 60 60 6 6 8 8 6 6 69 69 0 0 7 7 70 70 0 0 87 87 7 7 3 300 00 9 9 0 0060 60 60 6 6 80 80 80 8030 30 83 83 90 909 9 0 0 30 30 nn n E n n ( U ) σu U n ( n ) n n R ( )( ) ( )( ) 3 3 nn ()() EU [ ( ] n n n ) nn ( n n ) σ U ( )( )( ) 09 U E[ U] 3 z 33 σ U 09 Da Da teststørrelsen er er z -33, er er P-værdien 0000, og og H 0 0 afvises
Wilcoxon Signed-rank Test Bruges ved sammenligning af to populationer med parrede observationer Et alternativ til parret t-test eller sign-test H 0 : Medianen af differenser mellem pop og pop er forskellig H : Nix Antagelser: Fordeling af differenser er symmetrisk Differenserne er indbyrdes uafhængige Observationerne er mindst intervalskaleret D i X,i X,i differensen for i te par
Wilcoxon Signed-rank Test Beregning: Udregn alle differenser, D i Find ranks for D i (den absolutte værdi af D i ) Find sum af ranks af D i hvor D i >0 og sum af ranks af D i hvor D i <0 og I bogens notation: Σ() og Σ(-) Wilcoxon signed-rank test: T min[ Σ(), Σ(-) ]
Wilcoxon Signed-rank Test: Eksempel Beslutningsregel: Find kritisk punkt for T i tabel s803 Hvis T er mindre end det fundne kritiske punkt forkastes H 0 Hypotese: H 0 : μ μ H : μ μ T min[,0] Kritisk punkt på signifikansniveau α00 er jvf s803 H 0 accepteres da > X X D D R Σ() Σ(-) 0-3 3-3 3 9 8 9 0-0 3 3 0
Wilcoxon Signed-rank Test a H 0 : μ μ H 0 : μ μ H 0 : μ μ H : μ μ H : μ > μ H : μ < μ Tosidet Ensidet Ensidet Tmin[Σ(),Σ(-)] T Σ(-) T Σ() Små værdier af T er kritiske for H 0 Large sample approksimation: Når n og n er store er T approksimativt normalfordelt
Hourly Rank Ra nk Rank Hourly Rank Ra nk Rank Messages Md 0 Dx -x ABS(D) ABS(D) (D>0) (D<0) Messages Md 0 Dx -x ABS(D) ABS(D) (D>0) (D<0) 9 0 0 00 9 0 0 00 9-0 00 0 9-0 00 0 3 9-6 6 30 00 30 3 9-6 6 30 00 30 78 9 9 9 0 0 00 78 9 9 9 0 0 00 0 9-30 00 30 0 9-30 00 30 9-37 37 00 00 00 9-37 37 00 00 00 0 9-9 9 0 00 0 0 9-9 9 0 00 0 67 9 8 8 00 00 00 67 9 8 8 00 00 00 77 9 8 8 0 0 00 77 9 8 8 0 0 00 8 9 36 36 90 90 00 8 9 36 36 90 90 00 9 9-0 0 0 00 0 9 9-0 0 0 00 0 60 9 60 60 00 60 9 60 60 00 0 9-39 39 0 00 0 0 9-39 39 0 00 0 70 9 0 0 00 70 9 0 0 00 98 9 9 9 0 0 00 98 9 9 9 0 0 00 6 9 6 6 80 80 00 6 9 6 6 80 80 00 09 9-0 0 0 00 0 09 9-0 0 0 00 0 8 9-3 3 6 00 6 8 9-3 3 6 00 6 9 6 6 30 30 00 9 6 6 30 30 00 0 9-7 7 0 00 0 0 9-7 7 0 00 0 6 9 70 70 00 6 9 70 70 00 80 9 3 3 6 6 00 80 9 3 3 6 6 00 39 9-0 0 0 00 0 39 9-0 0 0 00 0 66 9 7 7 90 90 00 66 9 7 7 90 90 00 8 9 33 33 80 80 00 8 9 33 33 80 80 00 Sum: 63 6 Sum: 63 6 n( n ) ()() E[ T] 6 n( n )(n ) σ T ( )(()() ) 330 376 Teststørrelse når n og n er store: T E[ T] z σ T 63 6 007 376 H kan ikke afvises 0