Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Størrelse: px

Starte visningen fra side:

Download "Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller"

Peter Sommer
10 år siden
Visninger:

1 Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende variable (varians analyse) eller kontinuerte forklarende variable (regression). Log-lineære modeller Kategoriske responser og forklarende variable.. p.1/13

Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende variable

2 Strategi Klarlægning af hvilke sammenhæng der har primær interesse Valg af primære og sekundære variable Modelsøgning Modelkontrol Estimation og tolkning af parametre samt tolkning af model. p.2/13

variable Modelsøgning Modelkontrol Estimation og

3 Valg af variable I valg af startmodel bør man skelne mellem primære og sekundære variable. De primære variable er variable af faglig interesse med andre ord, hvilke hypoteser ønsker vi at teste. De sekundære variable er kontrolvariable der skal afdække indflydelsen af andre variable. Det kan være ønskeligt at omkode variable. Et test af en lineær sammenhæng mellem den afhængige variabel og den uafhængige (forklarende) variabel kunne indvoldvere ikke lineære led og osv. Disse led introduceres i SPSS ved at anvende Transform Compute. Omkodning af kontinuerte variable til kategoriske og kategoriske til binære er mulig under Transform.. p.3/13

De sekundære variable er kontrolvariable der skal afdække indflydelsen af andre variable. Det kan være ønskeligt at omkode variable.

4 Valg af kontrolvariable Medtage alle kontrolvariable der kunne tænkes at have betydning. Fordel: man er sikker på at få alt med. Ulempe: modellen bliver vanskelig at specificerer - mange interaktioner, og tilsvarende mange ukendte parametre. Tommelfingerregel: jo flere parametre des mere usikre estimater. Kun medtage kontrolvariable der har en effekt på primære variable. Fordel: mindre kompliceret Ulempe: kræver indsigt og med risiko for at man fx. misser vigtige interaktioner. p.4/13

Ulempe: modellen bliver vanskelig at specificerer - mange interaktioner, og tilsvarende mange ukendte parametre.

5 Modeluniverset og modelsøgning Modeluniverset er den kasse med modeller vi ønsker at finde vores sande model i. Vi begrænser os til modeller der overholder det hierakiske princip. Modelsøgning: en mere eller mindre systematisk søgen i modeluniverset. Ideelt: betragte alle modeller i modeluniverset. Reelt: for mange modeller, så en snedig modelsøgningsstrategi er nødvendig. Typisk ingen sand model, så valget af modelsøgningsstrategi er underordnet det afgørende er om den valgte endelige model accepteres af en modelkontrol.. p.5/13

Modelsøgning: en mere eller mindre systematisk søgen i modeluniverset. Ideelt: betragte alle modeller i modeluniverset.

6 Den gode model Den enedelig model (slutmodellen) bør opfylde følgende tre krav: 1. Slutmodellen accepteres i forbindelse med en modelkontrol. 2. Ingen modeller inlejret i slutmodellen kan accepteres. Dvs. slutmodellen er ikke unødig kompliceret. 3. Af alle modeller i betragtning, der opfylder 1. og 2., er slutmodellen den model med bedst tilpasning til data.. p.6/13

Ingen modeller inlejret i slutmodellen kan accepteres. Dvs.

7 Modelsøgning Algoritme : 1. Vælg startmodel (den første aktuelle model) 2. Søg efter ny model som erstaning for den aktuelle model. Vælg kandidater Modelkontrol for hver kadidat Hvis modelkontrol afviser alle kandidater er den aktuelle model slutmodellen. Ellers er den bedste, accepterede kandidat den næste aktuelle model. Automatiske metorder: Backwards, Forwards.. p.7/13

Vælg kandidater Modelkontrol for hver kadidat Hvis modelkontrol afviser alle kandidater er

8 Backwards I en backwards strategi vælges den mættede eller alternativt en relativt kompleks model som startmodel. Kandidater vælges som modeller inlejret i den aktuelle model med en model afstand på en, dvs. vi fjerner et led fra modelformlen. Modelkontrol af kandidater består i backwrds tilfældet af et likelihood-ratio test, hvor kandidaten er nul-hypotesen og den aktuelle model er alternativet. Mindst signifikante, accepterede kandidat vælges som næste aktuelle model.. p.8/13

9 Slutmodellen Når modelsøgningen er afsluttet skal slutmodellen underkastes en grundig modelkontrol (grundigere end modelkontrollen af de enkelte kandidater under modelsøgningen). Typer af modelkontrol: Likelihood-ratio test, hvor slutmodel afprøves i forhold til mere kompleske modeller. Residualanalyse, der sammenligner det observerede med hvad der kan forventes under slutmodellen. Deskriptive metoder (grafisk og numeriske).. p.9/13

Typer af modelkontrol: Likelihood-ratio test, hvor slutmodel afprøves i forhold til mere kompleske modeller.

10 Residualer Residualer = Observerede - Forventede. Standardiserede residualer har middelværdi nul og fælles varians. Et plot af standard residualer mod de forventede og observerede værdier bør resulterer i en sky af punkter tilfældigt fordelt omkring en vandret linie. Systematiske afvigelser er tegn på varians inhomogenitet eller en utilstrækkelig model.. p.10/13

Et plot af standard residualer mod de forventede og observerede værdier bør resulterer i

11 plot Et plot anvendes som en grafisk sammenligning af to fordelinger. Hvis den ene fordeling er standardnormalfordelingen kaldes plottet for et normalfraktildiagram. Lad være den omvendte (inverse) fordelingfunktion for en standard normalfordeling. Hvis er de standadiserede residualer er normalfraktildiagrammet givet ved punktparene. Er residualerne normalfordelte som antaget vil disse punkter ligge tilfældigt fordelt omkring en linie gennem med hældingkoeficient. Ofte kombineres et plot, hvor man plotter plot med et såkaldt detrended. p.11/13

Lad være den omvendte (inverse) fordelingfunktion for en standard normalfordeling.

12 Eksempler på plot. p.12/13

13 Residualanalyse i SPSS Logistisk regression...binary logistics Save og vælg Standardized i kassen Residuals. Når model er kørt anvendes Graphs Q-Q, hvor Normalized residuals vælges som variabel. Som suplement til plottet udføres et histogram over de standardiserede residualer: Analyze Descriptive Statistics Explore. Generaliserede lineære modeller I hovedtræk som for logistisk regression. Desuden er det under Options muligt at vælge residual plot: plot med observerede værdier, forventede værdier og standardiserede residualer.. p.13/13

Som suplement til plottet udføres et histogram over de standardiserede residualer: Analyze Descriptive Statistics Explore.

Relaterede dokumenter

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse