Statikstik II 2. Lktion Lidt sandsynlighdsrgning Lidt mr om signifikanstst Logistisk rgrssion
Lidt sandsynlighdsrgning Lad A vær n hændls (t llr flr mulig udfald af t ksprimnt ) Fx A Dt rgnr i morgn P(A) Sandsynlighdn for hændlsn A. 0 P(A) 1 P(Dt modsatt af A) 1- P(A)
Stokastisk variabl X stokastisk variabl (SV) tilfældigt tal X R (d rll tal) X r n diskrt SV, hvis X kan tag tællligt mang værdir. Fx. X antal spil på roulttn indn succs X r n kontinurt SV, hvis X kan tag all værdir i t intrval. Fx. X Højdn på n tilfældigt valgt prson.
Tæthdsfunktion Antag X kontinurt SV. Fordlingn af X kan angivs vd sandsynlighdstæthdsfunktion (probability dnsity function (PDF)) f(x). Egnskabr for PDF f(x) for SV X: f ( x) 0 for all f ( x) dx 1 - P( a X b) b a x R f ( x) dx
Tgning
Middlværdi og varians Lad X vær n kontinurt SV md PDF f. Middlværdin aka dn forvntd værdi af X r Variansn af X r 2 σ μ E [ X ] xf ( x) dx 2 2 Var [ X ] E[( x μ) ] ( x μ) f ( x) dx
Eksmpl: Normalfordlingn Antag X r normalfordlt SV md middlværdi μ E[X] varians σ 2 Notation: X~N(μ, σ 2 ) PDF: f ( x μ ) 1 2 2σ ( x) 2 2πσ 2
Eksmpl: Normalfordlingn Antag X~N(μ, σ 2 ) Da gældr P(μ 1.96σ X μ+1.96σ) 0.95 Aral 95% σ σ μ 1.96σ 2 σ Standard-afviglsn Standard rror Standard fjl μ μ+1.96σ
Signifikanstst sid 1 0) Opstil statistisk modl 1) Opstil Nul-hypots (H 0, arbjds-hypots) - dn simpl hypots Altrnativ-hypotsn (H 1 ) dn modsatt hypots af H 0. 2) Vælg tststørrls Talstørrls, dr bskrivr hvordan data passr til nulhypotsn. Notr hvilk værdir af tststørrlsn dr r ufordlagtig for H 0.
Signifikanstst sid 2 3) Bstmt fordlingn af tststørrlsn undr antagls af, at H 0 r sand. 4) Vælg signifikansnivau α typisk α0.05 llr α0.01. 5) Brgn P-værdin sandsynlighdn for at obsrvr n mr ufordlagtig tststørrls vd næst ksprimnt, undr antagls af, at H 0 r sand. 6) Bslutning: 1) Hvis p-værdi < α : Afvis H 0 og accptr H 1. 2) Hvis p-værid α: Vi kan ikk afvis H 0.
Eksmpl - rptition To katgorisk variabl X og Y. X har c katgorir Y har r katgorir O ij r antallt af obsrvationr, hvor X r i i t katgori Y r i j t katgori Hypotsr: H 0 : X og Y r uafhængig H 1 : X og Y r afhængig
Eksmpl - fortsat Tststørrls Χ 2 ( E O ) c r ij i 1 j 1 Eij ij 2 Hvor CiR j Eij N Hvor C i Antal obsrvationr md Xi. R j Antal obsrvationr md Yj. N Total antal obsrvationr
Eksmpl - fortsat Jo størr X 2 jo mr ufordlagtig for H 0. Hvis H 0 r sand gældr X 2 følgr n chi-i-andn fordling md (r-1)(c-1) frihdsgradr. Tgning: X (( c 1)( r 1) ) 2 ~ χ 2
Bmærkningr til χ 2 -tst χ 2 -tstt kan gnrlt brugs i situationr, hvor man kan sammnlign obsrvrd antal obsrvationr md dt forvntd antal undr n H 0 -hypots. - dt kan dog vær tricky at find dt korrkt antal frihdsgradr For n 2x2 tabl (r c 2) ( ) 2 2 2 E 2 ij Oij 1 2 Χ i 1 j 1 Eij Kontinuitts korrktion så passr X 2 s fordling bdr md χ 2 (1)-fordlingn. χ 2 -tstt r t ikk-paramtrisk tst.
Logistisk rgrssion: Motivation Sammnhængn ml. køn og slvvurdring Køn Drng 106 13.6% Pig 77 9.0% Total 183 11.2% Er du n god læsr Nj Ja Total 672 86.4% 776 91.0% 1448 88.8% 778 100.0% 853 100.0% 1631 100.0% Er dr n sammnhæng? Er d 13.6% signifikant forskllig fra d 9.0%?
Omkodning Vi omkodr d dikotom variabl til binær variabl: Køn Drng > X 0 Køn Pig > X 1 God læsr Nj > Y 0 God læsr Ja > Y 1
Gnrl 2x2 tabl Gnrl tabl: To binær variabl X og Y: Y 0 1 X 0 1-p 0 P(Y0 X0) p 0 P(Y1 X0) 1 1-p 1 P(Y0 X0) p 1 P(Y1 X0) Er dr n sammnhæng? Hvis p 0 p 1 r X og Y uafhængig.
Odds og logit Lad X vær binær variabl md P(X1)p. Dfinition odds: Hvor 0 Odds( X 1) < Odds( X 1) p 1 p Fortolkning: Odds(X1)2 btydr at X1 r dobblt så sandsynligt som X0 Dfinition logit: Hvor Logit( X < Logit( X 1) < 1) ln p 1 p ( Odds( X 1) ) ln
Odds og odds-ratio D to btingd odds: Odds( Y 1 X p0 0) 1 p 0 og Odds( Y 1 X 1) p1 1 p 1 Odds-ratio: Oddsratio( Y 1) Odds( Y Odds( Y 1 X 1 X 1) 0) p p 1 0 (1 (1 p p 0 1 ) ) Hvis X og Y uafhængig har vi og Odds( Y 1 X 0) Odds( Y 1 X 1) Oddsratio( Y 1) 1
Logit og logit-forskll D to btingd logits: Logit ( Y 1 X 0) Logit-forskl: Logit forskl( Y p0 ln 1 p 1) 0 p1 ln 1 p og Logit( Y 1 X 1 p0 ln 1 p 0 1) ln p1 ln 1 p p p 1 0 (1 p (1 p 0 1 1 ) ) Hvis X og Y uafhængig har vi og Logit( Y 1 X 0) Logit( Y 1 X 1) Logit forskl( Y 1) 0
Lidt rgnri Lad ( Y 1 X 0) α og Logit Logit ( Y 1 X 1) ~ α Logit-forsklln r da Logit forskl(y 1) ~ α α β D to btingd sandsynlighdr r da α P( Y 1 X 0) p0 1+ ~ α P( Y 1 X 1) p1 ~ 1+ Ign: Hvis β0 har vi p 0 p 1, dvs. uafhængighd. α α 1+ α + β α + β
Fortolkning af α og β Vi har Odds ( Y 1 X 0) α α + β Odds ( Y 1 X 1) Dvs. Oddst for Y1 ændrs md n faktor β, når X går fra 0 til 1. α β
Statistisk modl Dfinr β x for x0,1: β 0 0 β 1 β. Modl: P( Y 1 X x) α 1+ + β x α + β x
Statistisk modl altrnativ formulring Altrnativ: P ( Y 1 X x) 1+ α + β x α + β x Bmærk: logit(y1 Xx) α + βx.
Estimation Lad αˆ og βˆ btgn stimatrn af d sand, mn ukndt paramtr α og β. Paramtrn α og β stimrs vd maximum-liklihood mtodn: Dfinr funktion L( αˆ, βˆ ; data), dr sigr, hvor trolig (likly) data undr vors modl for givn αˆ og βˆ. Vi vælgr αˆ og βˆ så L r størst mulig (ordns af SPSS)
Konfidns-intrval for logit-forskl Gnrlt har vi ˆ β ~ N ( β, SE( β )) Et 95% konfidns-intrval for logit-forskl β: [ ˆ β 1.96SE ( ˆ) β ; ˆ β + 1.96SE( ˆ)] β Husk: Logit-forskl ln(odds-ratio), dvs. Odds-ratio logit-forskl. Et 95% konfidns-intrval for odds-ratio: [ ˆ β 1.96SE( ˆ β ) ; ˆ β + 1.96SE( ˆ β ) ]
Signifikanstst Hypotsr H 0 : β 0 H 1 : β 0 (uafhængighd) (afhængighd) ( ) 2 Tststørrls: 2 Z ˆ β SE( β) (Wald tststør.) Undr H 0 gældr: Z 2 ~ χ 2 () 1 Stor værdir af Z 2 r ufordlagtig for H 0.
SPSS Analyzy Rgrssion Binary Logistic
SPSS Output α β SE(β) Ζ 2 p-værdi β 95% konf-int. for β Modl: x x x X Y P β α β α + + + 1 ) 1 ( Modl: α α x X Y P + 1 ) 1 (
Katgorisk forklarnd variabl Indtil nu har X fungrt som n binær forklarnd variabl. Antag at dn forklarnd variabl r katgorisk md k katgorir. Som før kan n katgorisk variabl omkods til hltal. Antag at X r n diskrt variabl dr kan tag værdirn 1,,k. Hva nu?
Eksmpl: k3 Sammnhængn ml. læshastighd og slvvurdring Sætningslæsning Hurtig 80 6.3% Langsom 80 28.1% Usikkr 11 35.5% Total 171 11.2% Er dr n sammnhæng? Er du n god læsr Nj Ja Total 1199 93.7% 205 71.9% 20 64.5% 1424 88.8% 1279 100.0% 285 100.0% 31 100.0% 1595 100.0%
Uafhængighd Hvis dr r uafhængighd skal d tr mulig Odds i tablln vær ns: Odds(God Ja Hastighd Hurtig) Odds(God Ja Hastighd Langsom) Odds(God Ja Hastighd Usikkr) Vd to Odds sammnlignr vi d to Odds vd t Odds-ratio. Hr?
Sammnligning af mang Odds Vi vælgr n rfrnc katgori, fx. Læshastighd Hurtig. Vi sammnlignr nu Odds for hvr katgori md Odds for rfrnc-katgorin, vha. t Odds-ratio. På dn måd får vi (k-1) Odds-ratios. Hvis all (k-1) Odds-ratios r 1 r all Odds ns og vi har uafhængighd. Tilsvarnd r all logit-forskll 0.