Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Relaterede dokumenter
Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Løsning eksamen d. 15. december 2008

Tema. Dagens tema: Indfør centrale statistiske begreber.

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Konfidensintervaller og Hypotesetest

Kapitel 7 Forskelle mellem centraltendenser

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Statistik II 4. Lektion. Logistisk regression

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Ikke-parametriske tests

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Kapitel 12 Variansanalyse

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Kapitel 12 Variansanalyse

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Module 4: Ensidig variansanalyse

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

To-sidet varians analyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik II 1. Lektion. Analyse af kontingenstabeller

Multipel Lineær Regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Løsning til eksaminen d. 29. maj 2009

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Logistisk Regression - fortsat

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Løsning til eksaminen d. 14. december 2009

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Løsning til eksamen d.27 Maj 2010

Modul 12: Regression og korrelation

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

1 Hb SS Hb Sβ Hb SC = , (s = )

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Anvendt Statistik Lektion 8. Multipel Lineær Regression

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

MPH specialmodul Epidemiologi og Biostatistik

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Forelæsning 11: Kapitel 11: Regressionsanalyse

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Uge 10 Teoretisk Statistik 1. marts 2004

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Løsninger til kapitel 9

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Eksamen i Statistik for biokemikere. Blok

Module 12: Mere om variansanalyse

Statistik kommandoer i Stata opdateret 22/ Erik Parner

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Anvendt Statistik Lektion 7. Simpel Lineær Regression

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Transkript:

Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder Tager du bilen til arbejde? Ja: Y Nej: Y0 X er alder i år Dårlig ide: p β 0 β X

Logistisk Regression: Definitioner Odds: I stedet for at modellere sandsynligheden direkte modellerer vi log odds et ) exp( ) exp( ) exp( log ) logit( 0 0 0 0 x x p x p p x p p p β β β β β β β β c p p c

Fortolkning af Odds p Odds: p Jo mindre odds jo mindre p Hvis odds et p/(-p), så betyder det at sandsynligheden for Ja er gange større end for Nej Af logit modellen følger at Odds Hvad sker der med odds et når X vokser med : e Odds et ændres med faktor β p β0 βx β0 β X p 0 ) e 0 e e β ( X β β X β e e β e e

Logistisk Regression: Test Vi ønsker at teste hypotesen H 0 : β 0 H : β 0 Teststørrelse: W b s ( b ) Kaldes Wald teststørrelsen Under H 0 følger W en Χ ( chi i anden ) fordeling med frihedsgrad Store værdier af W er kritiske for H 0

Logistisk Regression: Eksempel Bil til arbejde vs alder Tager du bilen til arbejde? Ja: Y Nej: Y0 Original Value Model: logit(p) log(p/(-p)) β 0 β X Nej Step a Alder Constant a Variable(s) entered on step : Alder Variables in the Equation Dependent Variable Encoding B SE Wald df Sig Exp(B) -,00,006,99,07,990,33,73,8,08,0 Konklusion: Odds et ændres med en faktor 0,990 når X vokser med dvs odds et falder med alderen Vi kan acceptere hypotesen H 0 :β 0 Ja Internal Value 0

Ikke-paramertriske metoder Parametriske vs Ikke-parametriske Sign Test Run Test Wald-Wolfowitz Test Mann-Whitney U Test Wilcoxon Signed-rank Test Metoder

Parametriske metode Vi bygger en statistisk model af virkeligheden og udtrykker vores specifikke interesse i ukendte parametre som vi så kan lave inferens/undersøgelser om Fx bin( n, p) x α β ε ij i, N( μ, σ ij iid N(0, σ Undersøgelsen bygger på modelantagelser og er en præcis løsning, til et approksimeret problem ε ij ) )

Ikke-parametriske metoder Bygger ikke på modelantagelser og er derfor robuste overfor forskellige udgangssituationer De mister til gengæld lidt i styrke (power) Undersøgelsen bygger ikke på antagelser om specielle fordelinger og er en approksimeret løsning til et præcist problem

The Sign Test Eksempel: Holdning til chef på en skala (-) før (X) og efter (Y) Lad pp(x>y) Hvis holdningen er den samme de to år, så er p/ i i Før Før Efter Efter Forskl Forskl Sign Sign 3 3 0 0 3 3 3 3 0 0 6 6 3 3 7 7 8 8 - - - - 9 9 0 0 - - - - Sign hvis X>Y, - hvis X<Y Observationer hvor XY smides ud! Hypoteser: H0 : p 0 To-sidet test H : p 0 H H 0 : : p 0 En-sidet test p > 0

The Sign Test Antag vi har n 0 7 observationer af X og Y I to tilfælde har vi XY disse udelades Tilbage er n observation Antag at X>Y i tilfælde ( er) og at vi ønsker at teste : p 0 (Husk at pp(x>y) ) H 0 H : p>0 Teststørrelse: T antal plusser Kritisk for H 0 er mange plusser Hvis p0 er T binomial fordelt B(,0) P-værdiP(T )-P(X )-09808 SPSS: Analyze Nonparametric Tests Related Samples

Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer, der kommer efter og før en anden slags (eller ingen) elementer PKPKPKPKPK 0 runs 0 elementer PPPPPKKKKK runs 0 elementer PPKKKPKPPP runs 0 elementer n antal P er n antal K er nn n

Run Test: Eksempel Er sekvensen PPKKKPKPPP runs 0 elementer opstået tilfældigt? s796-797 er tabel over P(antal runs r) Test for om ovenstående sekvens er tilfældig: n 7 n #runs Et lille eller stort antal runs er kritisk for H 0 P(#runs ) 03333

Run Test: Eksempel Hvor mange eller få runs skulle der være for at forkaste på niveau α00? Antag: n #P 7 n #K Tabel s796: P(#runs ) 0006 P(#runs 3) 0033 P(#runs > 8) -09 006 P(#runs ) P(#runs 9) 000600600 Ved at forkaste hypotesen om en tilfældig sekvens hvis #runs eller #runs 9 Bemærk: Vi tester vi på niveau α00

Run Test: Når n og n er store! R Antal runs Når n og n bliver store vil R blive approksimativt normalfordelt under hypotesen om tilfældig sekvens Specifik: R ~ N(E(R),σ R ) (R nærmer sig en normalfordeling) E( R) nn n n σ R Vi normaliserer/standardiserer R så R E( R) Z ~ N(0,) σ R nn (nn n n) ( n n ) ( n n ) under hypotesen om tilfældig sekvens Test udføres som sædvanligt for N(0,) fordelingen

Run Test: Eksempel 3 (Ex -) n 7 n 6 R E( R) σ R z Hermed n n n n ()(7)(6) (7 6) n n (n n n n ) ( n n ) ( n n ) 89680 986 360 6068 R E( R) 79 37 σ 360 R afviser vi H 0 69 79 ()(7)(6)(()(7)(6) 7 (7 6) (7 6 ) p - value (-9997) 6)) 00006

Wald-Wolfowitz Test Dette test er videreudvikling af tankegangen bag run testet Vi tester for: H 0 : De to populationer har samme fordeling H : De to populationer har forskellige fordelinger Forudsætning: De to stikprøver er udvalgt tilfældigt og uafhængigt af de respektive populationer Ideen er at sortere de to stikprøver efter stigende størrelse Hver observation før en rank, dvs dvs observationens nummer i den sorterede rækkefølge

Wald-Wolfowitz Test: Eksempel Det daglige salg fra to sælgere Sælger A: 3,, 39, 0, 8, 9, 60, 7, 9, 66 Sælger B: 7, 3, 3,, 33,, 8, 6, 3 n 0 og n 9 Sorteret efter størrelse (indeks: overordnet ranking) : Sælger A: 9 8,3,39, 3,8,9,0 6,60 7, 66 8,7 9 Sælger B: 3,6,7 3,8,,3 6, 7,3 9,33 0 Alle salg sorteret efter størrelse og angivet ved sælger BBBBBBBABBAAAAAAAAA R antal runs (Sælger B har de 7 mindste salg og sælger A de 9 største)

Wald-Wolfowitz Test: Eksempel Vi tester følgende hypotese H 0 : Sælger A og sælger B har samme salg H : De har forskellig salg n 0 n 9 R Lille antal runs kritisk for H 0 Stort antal runs taler for H 0 Fra tabel s 796 har vi P(R ) 000 P-værdi Dvs vi forkaster H 0 Antallet af runs er for lille til, at vi tror på ens fordelinger

Mann-Whitney U Test Vi tester for: H 0 : De to populationer har samme fordeling : De to populationer har forskellige fordelinger H Testet er et alternativ til t-testet for uafhængige stikprøver og til Wald-Wolfowitz run test Styrken af Mann-Whitney testet er omtrent på højde med t-testets og bedre end Wald-Wolfowitz Testet baserer sig på ranks

Mann-Whitney U Test: Eksempel De to stikprøver tildeles ranks som de kom fra én stikprøve (fodtegn ranking) : A: 0 6, 8, 0, 7, 3 n R B: 8,, 3 9, 0 6, 3 n R R Sum af ranks Teststørrelse: U 6038 8966 n ( n ) ( ) n n R 8 Små og store værdier af U er kritiske for H 0 For små værdier af n og n findes fordeling af U s798-80 I eksemplet n n : P(U )006 > P(U>)070

Mann-Whitney U Test: Eksempel Hvis n, n > 0 bruges normalfordelings-approksimation: Program Program Score Score Rank Rank Score Score Rank Rank Sum Sum 8 8 00 00 00 00 87 87 0 0 0 0 9 9 70 70 680 680 98 98 300 300 980 980 90 90 60 60 0 0 88 88 30 30 70 70 7 7 70 70 60 60 7 7 3 3 77 77 60 60 6 6 80 80 93 93 80 80 0 0 88 88 30 30 30 30 89 89 0 0 600 600 96 96 90 90 890 890 73 73 0 0 300 300 6 6 8 8 3 3 Score Score Rank Rank Score Score Rank Rank Sum Sum 6 6 00 00 00 00 7 7 0 0 0 0 7 7 60 60 300 300 3 3 0 0 30 30 39 39 0 0 330 330 88 88 30 30 60 60 6 6 8 8 6 6 69 69 0 0 7 7 70 70 0 0 87 87 7 7 3 300 00 9 9 0 0060 60 60 6 6 80 80 80 8030 30 83 83 90 909 9 0 0 30 30 nn n E n n ( U ) σu U n ( n ) n n R ( )( ) ( )( ) 3 3 nn ()() EU [ ( ] n n n ) nn ( n n ) σ U ( )( )( ) 09 U E[ U] 3 z 33 σ U 09 Da Da teststørrelsen er er z -33, er er P-værdien 0000, og og H 0 0 afvises

Wilcoxon Signed-rank Test Bruges ved sammenligning af to populationer med parrede observationer Et alternativ til parret t-test eller sign-test H 0 : Medianen af differenser mellem pop og pop er forskellig H : Nix Antagelser: Fordeling af differenser er symmetrisk Differenserne er indbyrdes uafhængige Observationerne er mindst intervalskaleret D i X,i X,i differensen for i te par

Wilcoxon Signed-rank Test Beregning: Udregn alle differenser, D i Find ranks for D i (den absolutte værdi af D i ) Find sum af ranks af D i hvor D i >0 og sum af ranks af D i hvor D i <0 og I bogens notation: Σ() og Σ(-) Wilcoxon signed-rank test: T min[ Σ(), Σ(-) ]

Wilcoxon Signed-rank Test: Eksempel Beslutningsregel: Find kritisk punkt for T i tabel s803 Hvis T er mindre end det fundne kritiske punkt forkastes H 0 Hypotese: H 0 : μ μ H : μ μ T min[,0] Kritisk punkt på signifikansniveau α00 er jvf s803 H 0 accepteres da > X X D D R Σ() Σ(-) 0-3 3-3 3 9 8 9 0-0 3 3 0

Wilcoxon Signed-rank Test a H 0 : μ μ H 0 : μ μ H 0 : μ μ H : μ μ H : μ > μ H : μ < μ Tosidet Ensidet Ensidet Tmin[Σ(),Σ(-)] T Σ(-) T Σ() Små værdier af T er kritiske for H 0 Large sample approksimation: Når n og n er store er T approksimativt normalfordelt

Hourly Rank Ra nk Rank Hourly Rank Ra nk Rank Messages Md 0 Dx -x ABS(D) ABS(D) (D>0) (D<0) Messages Md 0 Dx -x ABS(D) ABS(D) (D>0) (D<0) 9 0 0 00 9 0 0 00 9-0 00 0 9-0 00 0 3 9-6 6 30 00 30 3 9-6 6 30 00 30 78 9 9 9 0 0 00 78 9 9 9 0 0 00 0 9-30 00 30 0 9-30 00 30 9-37 37 00 00 00 9-37 37 00 00 00 0 9-9 9 0 00 0 0 9-9 9 0 00 0 67 9 8 8 00 00 00 67 9 8 8 00 00 00 77 9 8 8 0 0 00 77 9 8 8 0 0 00 8 9 36 36 90 90 00 8 9 36 36 90 90 00 9 9-0 0 0 00 0 9 9-0 0 0 00 0 60 9 60 60 00 60 9 60 60 00 0 9-39 39 0 00 0 0 9-39 39 0 00 0 70 9 0 0 00 70 9 0 0 00 98 9 9 9 0 0 00 98 9 9 9 0 0 00 6 9 6 6 80 80 00 6 9 6 6 80 80 00 09 9-0 0 0 00 0 09 9-0 0 0 00 0 8 9-3 3 6 00 6 8 9-3 3 6 00 6 9 6 6 30 30 00 9 6 6 30 30 00 0 9-7 7 0 00 0 0 9-7 7 0 00 0 6 9 70 70 00 6 9 70 70 00 80 9 3 3 6 6 00 80 9 3 3 6 6 00 39 9-0 0 0 00 0 39 9-0 0 0 00 0 66 9 7 7 90 90 00 66 9 7 7 90 90 00 8 9 33 33 80 80 00 8 9 33 33 80 80 00 Sum: 63 6 Sum: 63 6 n( n ) ()() E[ T] 6 n( n )(n ) σ T ( )(()() ) 330 376 Teststørrelse når n og n er store: T E[ T] z σ T 63 6 007 376 H kan ikke afvises 0