Logistisk regression

Transkript

1 Logistisk regression Test af antagelsen om lineære effekter Modelkonstruktion og modelsøgning Hvilke variable og hvilke interaktioner skal inkluderes i regressionsmodellerne? 1

2 Logistiske regressionsmodeller med kvantitative variable Y = arbejdsløs X = intelligens målt 25 år tidligere 2

3 Fordeling af intelligensprøveresultat Normalfordelt: 95 % konfidensområde 20,92-52,68 3

4 Den logistiske regressionsmodel P(Arbejdsløs Intelligens) = e 1 + e α+β x α+β x Dvs. P(Arbejdsløs Intelligens) = e 1 + e x x 4

5 Tolkning af modellen Et trin op ad intelligensskalaen: Risikoen på odds skalaen reduceres med faktoren Risikoen på logit skalaen reduceres med point 5

6 Sandsynlighed for arbejdsløshed som funktion af intelligens Bemærk, at kurven krummer lidt 6

7 Logit-værdi for arbejdsløshed som funktion af intelligens En ret linie. Effekten af intelligens målt på logitskalaen er lineær. 7

8 Er det en troværdig beskrivelse af effekten? Hvis effekten på logitskalaen er en kontinuert funktion, f(x), af intelligensen kan man altid skrive den som en potensrække f(x) = α + β 1 x + β 2 x 2 + β 3 x β n x n +. Den logistiske regressionsmodel antager, at β 2 = β 3 = β 4 = = 0 Det behøver naturligvis ikke at være rigtigt 8

9 Kontrol af linearitet i logistiske regressionsmodeller Beregn nye variable, X 2 = X 2, X 3 = X 3,, etc., og inkluder dem i den logistiske regressionsmodel P(Arbejdsløs Intelligens) = e 1 + e 2 3 1x 2x 3x α+β +β +β 2 3 1x 2x 3x α+β +β +β 9

10 Analysen Signifikant effekt af både 2. og 3. gradsledet Effekten er altså ikke lineær 10

11 Estimerede sandsynligheder 11

12 Effekt målt på logitskalaen 12

13 Modeller med interaktioner Det hierarkiske princip for interaktioner i regressionsmodeller Hvis en model indeholder interaktionen mellem et vist antal variable, skal den også indeholde interaktionsparametre svarende til hver delmængde af disse variable inklusiv parametre for hovedvirkningen for disse variable. 13

14 En model med interaktion mellem tre variable, A, B og C skal indeholde følgende parametre: 1) Trefaktor-interaktionerne, β abc. 2) Samtlige tofaktor-interaktioner, β ab, β ac og β bc. 3) Alle hovedvirkninger, β a, β b og β c. 4) Konstantleddet, α. 14

15 Et eksempel : Hvilke faktorer har betydning om man bliver arbejdsløs? Potentielle faktorer: 1) K = Køn 2) U = Uddannelse opdelt i fem kategorier, LVU, MVU, KVU, Erhvervsrettet, Restgruppen 3) F = Familiesocialgruppe under opvækst 4) O = Opvækstområde (urbanisering) opdelt i fire kategorier, København, Provinsby, Mindre by og Landkommune 5) I = Intelligens målt i syvende klasse. 15

16

17 Antal rigtige Fordeling af intelligensprøveresultat i syvende klasse 17

18 Valg og prioritering af variable. 1) De primære variable er de uafhængige variable, som er af særlig faglig interesse. Sammenhængene mellem de primære variable og den afhængige variabel er de primære sammenhænge. 2) De sekundære variable er variable, hvis eneste funktion er at optræde som kontrolvariable. Sammenhængene mellem den afhængige variabel og de sekundære variable omtales som sekundære sammenhænge.. 18

19 Unødvendige kontrolvariable En sekundær variabel, Z, er uden betydning som kontrolvariabel i en logistisk regressionsanalyse, hvis samtlige parametre med reference til Z er lig med nul Sådanne variable bør derfor ekskluderes. 19

20 Overordnet analysestrategi 1) Modellens primære struktur drejer sig om alt det, der har direkte reference til de faglige problemer, der skal belyses. 2) Modellens sekundære struktur er alt det ved modellen, der ikke henviser til disse problemer. Den sekundære struktur kan på denne måde omfatte alt fra modelegenskaber, der kan motiveres ud fra den teoretiske referenceramme, over helt åbne spørgsmål, til antagelser, der er motiveret af ønsket om at komme til at arbejde med enkle modeller, der i det mindste fungerer i praksis. 20

21 To analysefaser: Indledende modelkonstruktion Analyse af primære problemstillinger 21

22 1) Indledende modelkonstruktion - Definition af startmodel. Startmodellen bør indeholde hele den primære modelstruktur og så meget af den sekundære struktur, som det i praksis er muligt at arbejde med. - Modelsøgning. Trinvis søgning efter en model med en mere enkel sekundær struktur. - Modelkontrol. Kontrol af, at der ikke er åbenlyse tegn på at modellen er udtryk for overforenkling. 22

23 2) Analyse af primære problemstillinger. - Test af primære hypoteser. Bemærk, at disse test kan resultere i at nogle af de primære variable skal fjernes fra modellen. - Modelkontrol. - Estimation og tolkning af primære parametre. I praksis sker dette sammen med beregningerne af teststørrelserne for de primære hypoteser. De har dog først interesse, hvis modelkontrollen har vist, at der ikke ser ud til at være problemer med modellen. 23

24

25 Modelnotation og model formler for hierarkiske modeller En modelformel = en række additive model-led, der angiver, hvilke uafhængige variable, der indgår i modellen, og hvilke interaktioner, der er mellem effekten af disse variable. Interaktioner angives som produkter af variable ved hjælp af operatoren *. A+B*C = e P(Y=1 A=a,B=b,C=c) = 1 + A+B+C = P(Y=1 A=a,B=b,C=c) = α + β a+ β b+ β c+ β bc e e 1 + a b c bc α + β a+ β b+ β c+ β bc e a b c bc α + β a+ β b+ β c a b c α + β a+ β b+ β c a b c 25

26 Modeluniverset Model Model Kommentar nr. 1 A*B*C Trefaktor interaktion den mest komplicerede model. 2 A*B+A*C +B*C Ingen trefaktor, men samtlige tofaktor interaktioner. 3 A*B+A*C Ingen interaktion mellem B og C. 4 A*B+B*C Ingen interaktion mellem A og C. 5 A*C+B*C Ingen interaktion mellem A og B. 6 A*B+C Alle variable har betydning. Kun interaktion mellem A og B. 7 A*C+B Alle variable har betydning. Kun interaktion mellem A og C. 8 A+B*C Alle variable har betydning. Kun interaktion mellem B og C. 9 A*B C er uden betydning. Interaktion mellem A og B. 10 A*C B er uden betydning. Interaktion mellem A og C. 11 B*C A er uden betydning. Interaktion mellem B og C. 12 A+B+C Alle variable har betydning. Ingen interaktioner. 13 A+B C er uden betydning. Ingen interaktion. 14 A+C B er uden betydning. Ingen interaktion. 15 B+C A er uden betydning. Ingen interaktion. 16 A A er den eneste variabel, der har betydning. 17 B ditto 18 C ditto 19 - Hverken A, B eller C har betydning. En model, M 0, siges at være indlejret i en anden model, M 1, hvis M 1 dels indeholder alle de parametre, som M 0 indeholder og dels indeholder nogle parametre, der ikke indgår i M 0. 26

27 Indlejringer af modeller i model-universet defineret ved tre variable, A, B og C. Model nr. Model Indlejret * i 1 A*B*C - 2 A*B+A*C+B*C 1 3 A*B+A*C 1,2 4 A*B+B*C 1,2 5 A*C+B*C 1,2 6 A*B+C 1,2,3,4 7 A*C+B 1,2,3,5 8 A+B*C 1,2,4,5 9 A*B 1-4,6 10 A*C 1-3,5,7 11 B*C 1-2,4-5,8 12 A+B+C 1-5, A+B 1-8,9,12 14 A+C 1-8,10,12 15 B+C 1-8,11,12 16 A 1-10,12,13,14 17 B 1-9,11,12,13,15 18 C 1-8,10-12,14, ,

28 Modelsøgning Mættet model Start model Sand model tom model 28

29 A*B*C A*B+A*C+B*C A*B+A*C A*B+B*C A*C+B*C A*B+C A*C+B A+B*C A*B A*C B*C A+B+C A+B A+C B+C A B C - 29

30

31 Elimination af Første trin af modelsøgning med modellen K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3 som startmodel ny model Χ 2 df p K*U K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I K*F K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I K*O K*U+K*F+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I K*I K*U+K*F+K*O+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I U*F K*U+K*F+K*O+K*I+U*O+U*I+F*O+F*I+O*I+I 2 +I U*O K*U+K*F+K*O+K*I+U*F+U*I+F*O+F*I+O*I+I 2 +I U*I K*U+K*F+K*O+K*I+U*F+U*O+F*O+F*I+O*I+I 2 +I F*O K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*I+O*I+I 2 +I F*I K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+O*I+I 2 +I O*I K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+I 2 +I I 2 K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I I 3 K*U+K*F+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I

32 Andet trin af modelsøgning. Den aktuelle model er K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I 3. Elimination ny model LR df p af K*U K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I K*O K*U+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I K*I K*U+K*O+U*F+U*O+U*I+F*O+F*I+O*I+I 2 +I U*F K*U+K*O+K*I+U*O+U*I+F*O+F*I+O*I+I 2 +I U*O K*U+K*O+K*I+U*F+U*I+F*O+F*I+O*I+I 2 +I U*I K*U+K*O+K*I+U*F+U*O+F*O+F*I+O*I+I 2 +I F*O K*U+K*O+K*I+U*F+U*O+U*I+F*I+O*I+I 2 +I F*I K*U+K*O+K*I+U*F+U*O+U*I+F*O+O*I+I 2 +I O*I K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+I 2 +I I 2 K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I I 3 K*U+K*O+K*I+U*F+U*O+U*I+F*O+F*I+O*I+I

33 Oversigt over interaktioner og hovedvirkninger, der blev elimineret fra modellen for arbejdsløshed blandt 32-årige. Trin model-led LR df p 1 K*F F*U O*I U*O K*O K*I K*U F*O F*I F Slutmodellen: K+O+U*I+I 2 +I 3 33

34 Forløbet af modelsøgningen Oversigt over beregnede signifikanssandsynligheder Trin Led K*U * K*F.862 * K*O * K*I * U*F * U*O * U*I ** F*O * F*I * O*I * I I O K F * U

35 Modelsøgningen slutter med en model, hvor 1) effekten af intelligens ikke kan beskrives ved en logitlineær model, 2) der optræder én interaktion mellem uddannelse og intelligens, 3) effekten af familiesocialgruppe helt er elimineret. 35

36

37 Estimater af parametre i to modeller. β 1, β 2 og β 3 er parametrene for henholdsvis I (intelligens), I 2 og I 3 model interaktion inkluderet interaktion ekskluderet parameter estimat stand.fejl estimat stand.fejl α Køn β mand β kvinde Opv.område β kbh β provinsby β mindre by β land Uddannelse β LVU β MVU β KVU β Erhv.udd β restgruppe Intelligens β β β Interaktion Udd*intel. β LVU,Int β MVU,int β KVU,Int β Erhv,Int β Rest,Int

38 4,0 Samlet effekt af uddannelse og intelligens 3,5 3,0 2,5 2,0 1,5 Uddannelse Restgruppe Erhvervsfaglig uddannelse KVU MVU 1, LVU Antal rigtige Samlet effekt af intelligens og uddannelse beregnet af en model uden interaktion mellem de to variable. 38

39 0,0 Samlet effekt af uddannelse og intelligens -,5-1,0-1,5-2,0-2,5-3,0-3,5 Uddannelse Restgruppe Erhvervsfaglig uddannelse KVU MVU -4, LVU Antal rigtige Samlet effekt af intelligens og uddannelse beregnet af en model med interaktion mellem de to variable. 39