Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression



Relaterede dokumenter
Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statistik II 4. Lektion. Logistisk regression

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Introduktion til logistisk regression

. k er en konstant. Endvidere antages det i d), at gx ( 0) 0. I e) antages det, at f er differentiabel i x 0 og g er differentiabel i y 0

Logistisk regression 2

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Kvantitative metoder 2

Statistik II 1. Lektion. Analyse af kontingenstabeller

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Betinget hæftelse. Et regneeksempel

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Kvantekosmologi med aftagende gravitation Forening af Mikrokosmos og Makrokosmos Hubble-parameteren forenet med Universets totale masse

Kvantitative metoder 2

BILAG. til forslaget. til EUROPA-PARLAMENTETS OG RÅDETS DIREKTIV. om begrænsning af visse luftforurenende emissioner fra mellemstore fyringsanlæg

Logistisk Regression - fortsat

slagelse uddannelses- og karrierefestival

Betingede sandsynligheder Aase D. Madsen

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

KURSUSCENTRETS UDBUD AKADEMI FAG

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Tema. Dagens tema: Indfør centrale statistiske begreber.

Energiens ligefordelingslov

Skal vi hjælpe dig og din familie med at skabe sikkerhed i økonomien?

Elementær sandsynlighedsregning

Tillykke - du har fået en ekstra affaldsbeholder

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Program. Normalfordelingen. Hvad skal vi bruge normalfordelingen til? Eksempel: hjerneceller hos marsvin

Kausale modeller. Konstruktion og analyse

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Produkt og marked - matematiske og statistiske metoder

Elektronens specifikke ladning

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Morten Frydenberg 14. marts 2006

AKADEMI FAG KURSUSCENTRETS UDBUD. Organisation og arbejdspsykologi Ledelse i praksis Erhvervsøkonomi Coacing i organisationer Projektstyring i praksis

Befolkningsprognose pr excl.flygtninge for perioden Dato

FOLD BILLIE. Billie, se lige hvor langt mit papirfly kan flyve! 3 Fold de to hjørner indtil midten.

Morten Frydenberg 25. april 2006

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Korrekthed af Algoritmer

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

PRÆSENTATIONSBESKRIVELSE AF UDDANNELSESAFSNIT I PSYKIATRISKE CENTRE/ SYGEHUSPSYKIATRIEN

I dag. Normalfordelingen. Hvad skal vi bruge normalfordelingen til? Eksempel: hjerneceller hos marsvin

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Bilag 1. AIDA-modellen: Sepstrups kampagneplatform:

- læsetræning på en sjov måde

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Bilag 4: Spørgeskemaundersøgelse, politikere

Uge 10 Teoretisk Statistik 1. marts 2004

Vedtægter for Oure Vandværk A.M.B.A.

MM501 forelæsningsslides

Analyse af binære responsvariable

Holdningsundersøgelse, Skifergas

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

AKKC Booking. Kendskabskampagne. Kampagnetryk Lokalt Regionalt Nationalt

Dette spørgeskema indeholder derudover tre åbne spørgsmål, hvor I har mulighed for at lægge billet ind på konkurrencens øvrige priser:

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Konfidensintervaller og Hypotesetest

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Arbejdsløsheden hastigt på vej mod en underfinansieret skattereform løser ikke krisen

Danmarks Idræts-Forbund Frivillighed i fokus DIF s indsats for at styrke frivilligheden Løgstrup 25. oktober 2012

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Hvordan er trivslen blandt eleverne på skolen (fx i forhold til mobning)?

UDBUD. -1. halvår 2014 AKADEMI FAG

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Alders-mix udfordrer os alle på den gode måde

Praktiske oplysninger.

MM501/MM503 forelæsningsslides

ET VARMT OG VENLIGT SAMFUND

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Kapitel 12 Variansanalyse

1.000 kr. Kval. Lån

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Kommentarer til. Faglige mål. RELATEREDE FORLØB TIL PROCENT i KLASSE. Matematrix og dette kapitel

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Kompetencecenter. Aktiviteter i skoleåret særligt på området IT-rygsæk

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

StatDataN: Middelværdi og varians

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Uge 13 referat hold 4

Transkript:

Statikstik II 2. Lktion Lidt sandsynlighdsrgning Lidt mr om signifikanstst Logistisk rgrssion

Lidt sandsynlighdsrgning Lad A vær n hændls (t llr flr mulig udfald af t ksprimnt ) Fx A Dt rgnr i morgn P(A) Sandsynlighdn for hændlsn A. 0 P(A) 1 P(Dt modsatt af A) 1- P(A)

Stokastisk variabl X stokastisk variabl (SV) tilfældigt tal X R (d rll tal) X r n diskrt SV, hvis X kan tag tællligt mang værdir. Fx. X antal spil på roulttn indn succs X r n kontinurt SV, hvis X kan tag all værdir i t intrval. Fx. X Højdn på n tilfældigt valgt prson.

Tæthdsfunktion Antag X kontinurt SV. Fordlingn af X kan angivs vd sandsynlighdstæthdsfunktion (probability dnsity function (PDF)) f(x). Egnskabr for PDF f(x) for SV X: f ( x) 0 for all f ( x) dx 1 - P( a X b) b a x R f ( x) dx

Tgning

Middlværdi og varians Lad X vær n kontinurt SV md PDF f. Middlværdin aka dn forvntd værdi af X r Variansn af X r 2 σ μ E [ X ] xf ( x) dx 2 2 Var [ X ] E[( x μ) ] ( x μ) f ( x) dx

Eksmpl: Normalfordlingn Antag X r normalfordlt SV md middlværdi μ E[X] varians σ 2 Notation: X~N(μ, σ 2 ) PDF: f ( x μ ) 1 2 2σ ( x) 2 2πσ 2

Eksmpl: Normalfordlingn Antag X~N(μ, σ 2 ) Da gældr P(μ 1.96σ X μ+1.96σ) 0.95 Aral 95% σ σ μ 1.96σ 2 σ Standard-afviglsn Standard rror Standard fjl μ μ+1.96σ

Signifikanstst sid 1 0) Opstil statistisk modl 1) Opstil Nul-hypots (H 0, arbjds-hypots) - dn simpl hypots Altrnativ-hypotsn (H 1 ) dn modsatt hypots af H 0. 2) Vælg tststørrls Talstørrls, dr bskrivr hvordan data passr til nulhypotsn. Notr hvilk værdir af tststørrlsn dr r ufordlagtig for H 0.

Signifikanstst sid 2 3) Bstmt fordlingn af tststørrlsn undr antagls af, at H 0 r sand. 4) Vælg signifikansnivau α typisk α0.05 llr α0.01. 5) Brgn P-værdin sandsynlighdn for at obsrvr n mr ufordlagtig tststørrls vd næst ksprimnt, undr antagls af, at H 0 r sand. 6) Bslutning: 1) Hvis p-værdi < α : Afvis H 0 og accptr H 1. 2) Hvis p-værid α: Vi kan ikk afvis H 0.

Eksmpl - rptition To katgorisk variabl X og Y. X har c katgorir Y har r katgorir O ij r antallt af obsrvationr, hvor X r i i t katgori Y r i j t katgori Hypotsr: H 0 : X og Y r uafhængig H 1 : X og Y r afhængig

Eksmpl - fortsat Tststørrls Χ 2 ( E O ) c r ij i 1 j 1 Eij ij 2 Hvor CiR j Eij N Hvor C i Antal obsrvationr md Xi. R j Antal obsrvationr md Yj. N Total antal obsrvationr

Eksmpl - fortsat Jo størr X 2 jo mr ufordlagtig for H 0. Hvis H 0 r sand gældr X 2 følgr n chi-i-andn fordling md (r-1)(c-1) frihdsgradr. Tgning: X (( c 1)( r 1) ) 2 ~ χ 2

Bmærkningr til χ 2 -tst χ 2 -tstt kan gnrlt brugs i situationr, hvor man kan sammnlign obsrvrd antal obsrvationr md dt forvntd antal undr n H 0 -hypots. - dt kan dog vær tricky at find dt korrkt antal frihdsgradr For n 2x2 tabl (r c 2) ( ) 2 2 2 E 2 ij Oij 1 2 Χ i 1 j 1 Eij Kontinuitts korrktion så passr X 2 s fordling bdr md χ 2 (1)-fordlingn. χ 2 -tstt r t ikk-paramtrisk tst.

Logistisk rgrssion: Motivation Sammnhængn ml. køn og slvvurdring Køn Drng 106 13.6% Pig 77 9.0% Total 183 11.2% Er du n god læsr Nj Ja Total 672 86.4% 776 91.0% 1448 88.8% 778 100.0% 853 100.0% 1631 100.0% Er dr n sammnhæng? Er d 13.6% signifikant forskllig fra d 9.0%?

Omkodning Vi omkodr d dikotom variabl til binær variabl: Køn Drng > X 0 Køn Pig > X 1 God læsr Nj > Y 0 God læsr Ja > Y 1

Gnrl 2x2 tabl Gnrl tabl: To binær variabl X og Y: Y 0 1 X 0 1-p 0 P(Y0 X0) p 0 P(Y1 X0) 1 1-p 1 P(Y0 X0) p 1 P(Y1 X0) Er dr n sammnhæng? Hvis p 0 p 1 r X og Y uafhængig.

Odds og logit Lad X vær binær variabl md P(X1)p. Dfinition odds: Hvor 0 Odds( X 1) < Odds( X 1) p 1 p Fortolkning: Odds(X1)2 btydr at X1 r dobblt så sandsynligt som X0 Dfinition logit: Hvor Logit( X < Logit( X 1) < 1) ln p 1 p ( Odds( X 1) ) ln

Odds og odds-ratio D to btingd odds: Odds( Y 1 X p0 0) 1 p 0 og Odds( Y 1 X 1) p1 1 p 1 Odds-ratio: Oddsratio( Y 1) Odds( Y Odds( Y 1 X 1 X 1) 0) p p 1 0 (1 (1 p p 0 1 ) ) Hvis X og Y uafhængig har vi og Odds( Y 1 X 0) Odds( Y 1 X 1) Oddsratio( Y 1) 1

Logit og logit-forskll D to btingd logits: Logit ( Y 1 X 0) Logit-forskl: Logit forskl( Y p0 ln 1 p 1) 0 p1 ln 1 p og Logit( Y 1 X 1 p0 ln 1 p 0 1) ln p1 ln 1 p p p 1 0 (1 p (1 p 0 1 1 ) ) Hvis X og Y uafhængig har vi og Logit( Y 1 X 0) Logit( Y 1 X 1) Logit forskl( Y 1) 0

Lidt rgnri Lad ( Y 1 X 0) α og Logit Logit ( Y 1 X 1) ~ α Logit-forsklln r da Logit forskl(y 1) ~ α α β D to btingd sandsynlighdr r da α P( Y 1 X 0) p0 1+ ~ α P( Y 1 X 1) p1 ~ 1+ Ign: Hvis β0 har vi p 0 p 1, dvs. uafhængighd. α α 1+ α + β α + β

Fortolkning af α og β Vi har Odds ( Y 1 X 0) α α + β Odds ( Y 1 X 1) Dvs. Oddst for Y1 ændrs md n faktor β, når X går fra 0 til 1. α β

Statistisk modl Dfinr β x for x0,1: β 0 0 β 1 β. Modl: P( Y 1 X x) α 1+ + β x α + β x

Statistisk modl altrnativ formulring Altrnativ: P ( Y 1 X x) 1+ α + β x α + β x Bmærk: logit(y1 Xx) α + βx.

Estimation Lad αˆ og βˆ btgn stimatrn af d sand, mn ukndt paramtr α og β. Paramtrn α og β stimrs vd maximum-liklihood mtodn: Dfinr funktion L( αˆ, βˆ ; data), dr sigr, hvor trolig (likly) data undr vors modl for givn αˆ og βˆ. Vi vælgr αˆ og βˆ så L r størst mulig (ordns af SPSS)

Konfidns-intrval for logit-forskl Gnrlt har vi ˆ β ~ N ( β, SE( β )) Et 95% konfidns-intrval for logit-forskl β: [ ˆ β 1.96SE ( ˆ) β ; ˆ β + 1.96SE( ˆ)] β Husk: Logit-forskl ln(odds-ratio), dvs. Odds-ratio logit-forskl. Et 95% konfidns-intrval for odds-ratio: [ ˆ β 1.96SE( ˆ β ) ; ˆ β + 1.96SE( ˆ β ) ]

Signifikanstst Hypotsr H 0 : β 0 H 1 : β 0 (uafhængighd) (afhængighd) ( ) 2 Tststørrls: 2 Z ˆ β SE( β) (Wald tststør.) Undr H 0 gældr: Z 2 ~ χ 2 () 1 Stor værdir af Z 2 r ufordlagtig for H 0.

SPSS Analyzy Rgrssion Binary Logistic

SPSS Output α β SE(β) Ζ 2 p-værdi β 95% konf-int. for β Modl: x x x X Y P β α β α + + + 1 ) 1 ( Modl: α α x X Y P + 1 ) 1 (

Katgorisk forklarnd variabl Indtil nu har X fungrt som n binær forklarnd variabl. Antag at dn forklarnd variabl r katgorisk md k katgorir. Som før kan n katgorisk variabl omkods til hltal. Antag at X r n diskrt variabl dr kan tag værdirn 1,,k. Hva nu?

Eksmpl: k3 Sammnhængn ml. læshastighd og slvvurdring Sætningslæsning Hurtig 80 6.3% Langsom 80 28.1% Usikkr 11 35.5% Total 171 11.2% Er dr n sammnhæng? Er du n god læsr Nj Ja Total 1199 93.7% 205 71.9% 20 64.5% 1424 88.8% 1279 100.0% 285 100.0% 31 100.0% 1595 100.0%

Uafhængighd Hvis dr r uafhængighd skal d tr mulig Odds i tablln vær ns: Odds(God Ja Hastighd Hurtig) Odds(God Ja Hastighd Langsom) Odds(God Ja Hastighd Usikkr) Vd to Odds sammnlignr vi d to Odds vd t Odds-ratio. Hr?

Sammnligning af mang Odds Vi vælgr n rfrnc katgori, fx. Læshastighd Hurtig. Vi sammnlignr nu Odds for hvr katgori md Odds for rfrnc-katgorin, vha. t Odds-ratio. På dn måd får vi (k-1) Odds-ratios. Hvis all (k-1) Odds-ratios r 1 r all Odds ns og vi har uafhængighd. Tilsvarnd r all logit-forskll 0.