Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Relaterede dokumenter
Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik II 4. Lektion. Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Løsning eksamen d. 15. december 2008

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Konfidensintervaller og Hypotesetest

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Multipel Lineær Regression

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Tema. Dagens tema: Indfør centrale statistiske begreber.

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Kapitel 7 Forskelle mellem centraltendenser

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 29. maj 2009

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kapitel 12 Variansanalyse

Module 4: Ensidig variansanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Kapitel 12 Variansanalyse

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Statistiske principper

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Statistik Lektion 16 Multipel Lineær Regression

Morten Frydenberg 14. marts 2006

1 Hb SS Hb Sβ Hb SC = , (s = )

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Modul 12: Regression og korrelation

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Løsninger til kapitel 9

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

To-sidet varians analyse

(studienummer) (underskrift) (bord nr)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

MPH specialmodul Epidemiologi og Biostatistik

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Estimation og konfidensintervaller

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

(studienummer) (underskrift) (bord nr)

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Statistik Lektion 4. Variansanalyse Modelkontrol

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Susanne Ditlevsen Institut for Matematiske Fag susanne

Note til styrkefunktionen

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Løsning til eksamen d.27 Maj 2010

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Logistisk Regression - fortsat

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Module 12: Mere om variansanalyse

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Morten Frydenberg 26. april 2004

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Statistik og Sandsynlighedsregning 2

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Normalfordelingen og Stikprøvefordelinger

Forelæsning 9: Inferens for andele (kapitel 10)

Transkript:

Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression

Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π ) Logit(Y X x) ln(odds(y X x)) ln(π /(-π )) Model: Logit(Y X x) β 0 β x

Omskrivninger β 0 β Odds( Y X x) e e β0 βx π β β x e 0 Odds-ratio, når X vokser med én: x Odds Y X x ) OR e Odds( Y X x) ( β

Multipel Logistisk Regression Analogt med multipel lineære regression er en multipel logistisk regressions model givet ved: Omskrivning: Som ved MLR kan vi vha dummy-variable indføre kategoriske forklarende variable k k k k x x x X x X Y Logit β β β L 0 ),, ( k k k k x x x x k k e e x X x X Y P β β β β β β L L 0 0 ),, (

Estimaternes fordeling Antag β ι er den sande værdi og b i er det tilsvarende estimat Hvis vi har indsamlet data nok, så gælder der b i ( β, SE( b ) ) ~ N i i Dvs b i er et unbiased estimat Standard fejlen SE(b i ) afhænger af mængden af data SE(b i ) bestemmes af SPSS

Konfidens-interval for logit-forskel Et (-α)00% konfidens-interval for β i : [ bi Zα SE( bi ) ; bi Zα SE( bi )] Et (-α)00% konfidens-interval for exp(β i ) : [ e ˆ β Z α ˆ ˆ ( ˆ SE( β ) β Zα SE β ) ; e ]

Hypotesetest Hypoteser H 0 : β i 0 H : β i 0 (uafhængighed) (afhængighed) ( ) Teststørrelse: Z b SE b ) (Wald teststør) i ( i Under H 0 gælder: Z ~ χ () Store værdier af Z er ufordelagtige for H 0

Eksempel: CHD (coronary heart decease) Data for n 463 personer Afhængig variabel: lider/lider ikke af CHD Y hvis CHD Y 0 hvis ej CHD Forklarende variable: X Alder X Cigaretter pr dag X 3, hvis CHD i familien X 3 0, hvis ej CHD i familien

Multipel Logistisk Regression Model: Logit( Y X x) β β x β x β x 0 3 3 SPSS output: β SE(β) Ζ p-værdi α Estimerede model: e β 95% konf-int for exp(β) Logit ( Y X x) 36 0049x x 0083x 0 975 3

Fortolkning Alle forklarende variable er signifikante! Estimerede sandsynlighed for CHD e e 36 0049x 0083x 0975x3 P ( Y X x) 36 0049x 0083x 0975x Alle forklarende variable medvirker til øget sandsynlighed for CHD 3

Odds-ratio og CHD i Familien Et Odds-ratio for CHD givet CHD i Familien OR Odds( Y Odds( Y X ) 0) 36 0049x 0083x 0975 3 36 0049x 0083x 0975 0 X 3 e 0975 65 Bemærk at vi har ignoreret X og X på venstresiden, da OR et beregnes for fastholdte X og X e e Konklusion er at, hvis man har CHD i familien, så risikoen for CHD signifikant større

Ikke-paramertriske metoder Parametriske vs Ikke-parametriske Metoder Sign Test Run Test Wald-Wolfowitz Test Mann-Whitney U Test Wilcoxon Signed-rank Test

Parametriske metode Vi bygger en statistisk model af virkeligheden og udtrykker vores specifikke interesse i ukendte parametre som vi så kan lave inferens for / undersøgelser af Fx bin( n, p) xij α βi ε ij, N( μ, σ iid N(0, σ Undersøgelsen bygger på modelantagelser og er en præcis løsning, til et approksimeret problem ε ij ) )

Ikke-parametriske metoder Bygger ikke på modelantagelser og er derfor robuste overfor forskellige udgangs-situationer De mister til gengæld lidt i styrke (power) Undersøgelsen bygger ikke på antagelser om specielle fordelinger og er en approksimeret løsning til et præcist problem

The Sign Test Eksempel: Holdning til chef på en skala (-5) før (X) og efter (Y) Lad pp(x>y) Hvis holdningen er den samme de to år, så er p/ i i Før Før Efter Efter Forskl Forskl Sign Sign 3 3 4 4 5 5 5 5 0 0 3 3 3 3 4 4 4 4 5 5 4 4 4 4 0 0 6 6 3 3 7 7 8 8 5 5 4 4 - - - - 9 9 4 4 5 5 0 0 5 5 4 4 - - - - Sign hvis X>Y, - hvis X<Y Observationer hvor XY smides ud! Hypoteser: H0 : p 05 To-sidet test H : p 05 H H 0 : p 05 : p > 05 En-sidet test

The Sign Test Antag vi har n 0 7 observationer af X og Y I to tilfælde har vi XY disse udelades Tilbage er n5 observation Antag at X>Y i tilfælde ( er) og at vi ønsker at teste H 0 : p 05 (Husk at pp(x>y) ) H : p>05 Teststørrelse: T antal plusser Kritisk for H 0 er mange plusser Hvis p05 er T binomial fordelt B(5,05) P-værdiP(T )-P(X )-09808 SPSS: Analyze Nonparametric Tests Related Samples

Run Test Er sekvensen PPPKKKPPPKKKPPKKKPPP opstået tilfældigt, dvs er hvert tegn uafhængigt af de andre? Et run er en sekvens af ens elementer, der kommer efter og før en anden slags (eller ingen) elementer PKPKPKPKPK 0 runs 0 elementer PPPPPKKKKK runs 0 elementer PPKKKPKPPP 5 runs 0 elementer n antal P er n antal K er nn n

Run Test: Eksempel Er sekvensen PPKKKPKPPP 5 runs 0 elementer opstået tilfældigt? s796-797 er tabel over P(antal runs r) Test for om ovenstående sekvens er tilfældig: n 7 n 4 #runs5 Et lille eller stort antal runs er kritisk for H 0 P(#runs 5) 03333

Run Test: Eksempel Hvor mange eller få runs skulle der være for at forkaste på niveau α005? Antag: n #P 7 n #K 4 Tabel s796: P(#runs ) 0006 P(#runs 3) 0033 P(#runs > 8) -0954 0046 P(#runs ) P(#runs 9) 00060046005 Ved at forkaste hypotesen om en tilfældig sekvens hvis #runs eller #runs 9 Bemærk: Vi tester vi på niveau α005

Run Test: Når n og n er store! R Antal runs Når n og n bliver store vil R blive approksimativt normalfordelt under hypotesen om tilfældig sekvens Specifik: R ~ N(E(R),σ R ) (R nærmer sig en normalfordeling) nn nn (nn n n) E( R) σ R n n ( n n ) ( n n ) Vi normaliserer/standardiserer R så R E( R) Z ~ N(0,) σ R under hypotesen om tilfældig sekvens Test udføres som sædvanligt for N(0,) fordelingen

Run Test: Eksempel 3 (Ex 4-) n 7 n 6 R 5 E( R) σ R n n n n ()(7)(6) (7 6) n n (n n n n ) ( n n ) ( n n ) 896804 986 3604 46068 R E( R) 5 749 z 347 σ 3604 R Hermed afviser vi H 0 649 749 ()(7)(6)(()(7)(6) 7 (7 6) (7 6 ) p - value (-9997) 6)) 00006

Wald-Wolfowitz Test Dette test er videreudvikling af tankegangen bag run testet Vi tester for: H 0 : De to populationer har samme fordeling H : De to populationer har forskellige fordelinger Forudsætning: De to stikprøver er udvalgt tilfældigt og uafhængigt af de respektive populationer Ideen er at sortere de to stikprøver efter stigende størrelse Hver observation får en rank, dvs dvs observationens nummer i den sorterede rækkefølge

Wald-Wolfowitz Test: Eksempel Det daglige salg fra to sælgere Sælger A: 35, 44, 39, 50, 48, 9, 60, 75, 49, 66 Sælger B: 7, 3, 3, 4, 33,, 8, 6, 3 n 0 og n 9 Sorteret efter størrelse (fordtegn rank) : Sælger A: 9 8,35,39,44 3,48 4,49 5,50 6,60 7, 66 8,75 9 Sælger B: 3,6,7 3,8 4, 5,3 6,4 7,3 9,33 0 Alle salg sorteret efter størrelse og angivet ved sælger BBBBBBBABBAAAAAAAAA R antal runs 4 (Sælger B har de 7 mindste salg og sælger A de 9 største)

Wald-Wolfowitz Test: Eksempel Vi tester følgende hypotese H 0 : Sælger A og sælger B har samme salg H : De har forskellig salg n 0 n 9 R4 Lille antal runs kritisk for H 0 Stort antal runs taler for H 0 Fra tabel s 796 har vi P(R 4) 000 P-værdi Dvs vi forkaster H 0 Antallet af runs er for lille til, at vi tror på ens fordelinger

Mann-Whitney U Test Vi tester for: H 0 : De to populationer har samme fordeling H : De to populationer har forskellige fordelinger Testet er et alternativ til t-testet for uafhængige stikprøver og til Wald-Wolfowitz run test Styrken af Mann-Whitney testet er omtrent på højde med t-testets og bedre end Wald-Wolfowitz Testet baserer sig på ranks

Mann-Whitney U Test: Eksempel De to stikprøver tildeles ranks som de kom fra én stikprøve (fodtegn rank) : A: 0 65, 8 4, 4 0, 7 5, 5 3 n 5 R 65405385 B: 8,, 3 9, 0 65, 3 n 5 R 896565 R Sum af ranks Teststørrelse: U n ( n ) 5(5 ) n n R 5 5 85 5 Små og store værdier af U er kritiske for H 0 For små værdier af n og n findes fordeling af U s798-80 I eksemplet n n 5: P(U 5)0406 > P(U>5)05704

Mann-Whitney U Test: Eksempel Hvis n, n > 0 bruges normalfordelings-approksimation: Program Program Score Score Rank Rank Score Score Rank Rank Sum Sum 85 85 00 00 00 00 87 87 0 0 40 40 9 9 70 70 680 680 98 98 300 300 980 980 90 90 60 60 40 40 88 88 30 30 470 470 75 75 70 70 640 640 7 7 35 35 775 775 60 60 65 65 840 840 93 93 80 80 0 0 88 88 30 30 350 350 89 89 50 50 600 600 96 96 90 90 890 890 73 73 50 50 3040 3040 6 6 85 85 35 35 Score Score Rank Rank Score Score Rank Rank Sum Sum 65 65 00 00 00 00 57 57 40 40 40 40 74 74 60 60 300 300 43 43 0 0 30 30 39 39 0 0 330 330 88 88 30 30 560 560 6 6 85 85 645 645 69 69 0 0 755 755 70 70 0 0 875 875 7 7 35 3500 00 59 59 50 50060 60 60 65 655 80 80 80 80305 305 83 83 90 90495 495 50 50 30 3055 nn n E n n ( U ) σu U n ( n ) n n R ( 5)( 5 ) ( 5)( 5) 3 5 3 5 nn (5)(5) EU [ ( ] n n n ) 5 nn ( n n ) σ U ( 5)( 5)( 5 5 ) 4 09 U E[ U] 3 5 5 z 33 σ U 4 09 Da Da teststørrelsen er er z -33, er er P-værdien 00005, og og H 0 0 afvises

Wilcoxon Signed-rank Test Bruges ved sammenligning af to populationer med parrede observationer Et alternativ til parret t-test eller sign-test H 0 : Medianen af differenser mellem pop og pop er forskellig H : Nix Antagelser: Fordeling af differenser er symmetrisk Differenserne er indbyrdes uafhængige Observationerne er mindst intervalskaleret D i X,i X,i differensen for i te par

Wilcoxon Signed-rank Test Beregning: Udregn alle differenser, D i Find ranks for D i (den absolutte værdi af D i ) Find sum af ranks af D i hvor D i >0 og sum af ranks af D i hvor D i <0 og I bogens notation: Σ() og Σ(-) Wilcoxon signed-rank teststørrelse: T min[ Σ(), Σ(-) ]

Wilcoxon Signed-rank Test: Eksempel Beslutningsregel: Find kritisk punkt for T i tabel s803 Hvis T er mindre end det fundne kritiske punkt forkastes H 0 Hypotese: H 0 : μ μ H : μ μ T min[5,0] 5 Kritisk punkt på signifikansniveau α00 er jvf s803 H 0 accepteres da 5> X X D D R Σ() Σ(-) 0-35 35 4-3 3 5 5 9 8 5 5 9 0-5 5 0 35 35 5 0

Wilcoxon Signed-rank Test a H 0 : μ μ H 0 : μ μ H 0 : μ μ H : μ μ H : μ > μ H : μ < μ Tosidet Ensidet Ensidet T min[σ(),σ(-)] T Σ(-) T Σ() Små værdier af T er kritiske for H 0 Large sample approksimation: Når n og n er store er T approksimativt normalfordelt

Hourly Rank Rank Rank Hourly Rank Rank Rank Messages Md 0 Dx -x ABS(D) ABS(D) (D>0) (D<0) Messages Md 0 Dx -x ABS(D) ABS(D) (D>0) (D<0) 5 49 0 0 00 5 49 0 0 00 44 49-5 5 0 00 0 44 49-5 5 0 00 0 3 49-6 6 30 00 30 3 49-6 6 30 00 30 78 49 9 9 50 50 00 78 49 9 9 50 50 00 05 49-44 44 30 00 30 05 49-44 44 30 00 30 49-37 37 00 00 00 49-37 37 00 00 00 40 49-9 9 40 00 40 40 49-9 9 40 00 40 67 49 8 8 00 00 00 67 49 8 8 00 00 00 77 49 8 8 40 40 00 77 49 8 8 40 40 00 85 49 36 36 90 90 00 85 49 36 36 90 90 00 9 49-0 0 0 00 0 9 49-0 0 0 00 0 60 49 60 60 00 60 49 60 60 00 0 49-39 39 0 00 0 0 49-39 39 0 00 0 70 49 0 0 00 70 49 0 0 00 98 49 49 49 50 50 00 98 49 49 49 50 50 00 65 49 6 6 80 80 00 65 49 6 6 80 80 00 09 49-40 40 0 00 0 09 49-40 40 0 00 0 8 49-3 3 65 00 65 8 49-3 3 65 00 65 55 49 6 6 30 30 00 55 49 6 6 30 30 00 0 49-47 47 40 00 40 0 49-47 47 40 00 40 64 49 5 5 70 70 00 64 49 5 5 70 70 00 80 49 3 3 65 65 00 80 49 3 3 65 65 00 39 49-0 0 50 00 50 39 49-0 0 50 00 50 66 49 7 7 90 90 00 66 49 7 7 90 90 00 8 49 33 33 80 80 00 8 49 33 33 80 80 00 Sum: 635 65 Sum: 635 65 n( n ) (5)(5) E[ T] 65 4 4 n( n )(n ) σ T 4 5(5 )(()(5) ) 4 3350 3765 4 Teststørrelse når n og n er store: T E[ T] z σ T 635 65 007 3765 H kan ikke afvises 0