Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller



Relaterede dokumenter
Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Statistik II 4. Lektion. Logistisk regression

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Logistisk regression

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Multipel Lineær Regression

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

To samhørende variable

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 8. Multipel Lineær Regression

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistik II 1. Lektion. Analyse af kontingenstabeller

Eksamen i Statistik og skalavalidering

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Generelle lineære modeller

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Konfidensintervaller og Hypotesetest

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Statistik & Skalavalidering

Kvantitative Metoder 1 - Forår Dagens program

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

To-sidet variansanalyse

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

02402 Løsning til testquiz02402f (Test VI)

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Konfidensinterval for µ (σ kendt)

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Synopsis til eksamen i Statistik

Statistik Lektion 16 Multipel Lineær Regression

INDLEDNING...2 DATAMATERIALET... 2 KARAKTERISTIK AF POPULATIONEN... 4

Statistik Lektion 17 Multipel Lineær Regression

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Logistisk Regression - fortsat

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Kapitel 11 Lineær regression

SYNOPSIS TIL EKSAMEN I STATISTIK OG SKALAVALIDERING

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Statistik og skalavalidering Synopsis. Eksamensnumre 15, 33 og 45

Introduktion til SPSS

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Statistik og skalavalidering. Opgave 1

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Kvantitative metoder 2

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Note til styrkefunktionen

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Program dag 2 (11. april 2011)

Basal statistik. 30. januar 2007

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Opgaver til kapitel 3

Susanne Ditlevsen Institut for Matematiske Fag susanne

Basal Statistik - SPSS

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Forelæsning 11: Kapitel 11: Regressionsanalyse

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Rygtespredning: Et logistisk eksperiment

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Uge 10 Teoretisk Statistik 1. marts 2004

Modul 5: Test for én stikprøve

Transkript:

Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende variable (varians analyse) eller kontinuerte forklarende variable (regression). Log-lineære modeller Kategoriske responser og forklarende variable.. p.1/13

Strategi Klarlægning af hvilke sammenhæng der har primær interesse Valg af primære og sekundære variable Modelsøgning Modelkontrol Estimation og tolkning af parametre samt tolkning af model. p.2/13

Valg af variable I valg af startmodel bør man skelne mellem primære og sekundære variable. De primære variable er variable af faglig interesse med andre ord, hvilke hypoteser ønsker vi at teste. De sekundære variable er kontrolvariable der skal afdække indflydelsen af andre variable. Det kan være ønskeligt at omkode variable. Et test af en lineær sammenhæng mellem den afhængige variabel og den uafhængige (forklarende) variabel kunne indvoldvere ikke lineære led og osv. Disse led introduceres i SPSS ved at anvende Transform Compute. Omkodning af kontinuerte variable til kategoriske og kategoriske til binære er mulig under Transform.. p.3/13

Valg af kontrolvariable Medtage alle kontrolvariable der kunne tænkes at have betydning. Fordel: man er sikker på at få alt med. Ulempe: modellen bliver vanskelig at specificerer - mange interaktioner, og tilsvarende mange ukendte parametre. Tommelfingerregel: jo flere parametre des mere usikre estimater. Kun medtage kontrolvariable der har en effekt på primære variable. Fordel: mindre kompliceret Ulempe: kræver indsigt og med risiko for at man fx. misser vigtige interaktioner. p.4/13

Modeluniverset og modelsøgning Modeluniverset er den kasse med modeller vi ønsker at finde vores sande model i. Vi begrænser os til modeller der overholder det hierakiske princip. Modelsøgning: en mere eller mindre systematisk søgen i modeluniverset. Ideelt: betragte alle modeller i modeluniverset. Reelt: for mange modeller, så en snedig modelsøgningsstrategi er nødvendig. Typisk ingen sand model, så valget af modelsøgningsstrategi er underordnet det afgørende er om den valgte endelige model accepteres af en modelkontrol.. p.5/13

Den gode model Den enedelig model (slutmodellen) bør opfylde følgende tre krav: 1. Slutmodellen accepteres i forbindelse med en modelkontrol. 2. Ingen modeller inlejret i slutmodellen kan accepteres. Dvs. slutmodellen er ikke unødig kompliceret. 3. Af alle modeller i betragtning, der opfylder 1. og 2., er slutmodellen den model med bedst tilpasning til data.. p.6/13

Modelsøgning Algoritme : 1. Vælg startmodel (den første aktuelle model) 2. Søg efter ny model som erstaning for den aktuelle model. Vælg kandidater Modelkontrol for hver kadidat Hvis modelkontrol afviser alle kandidater er den aktuelle model slutmodellen. Ellers er den bedste, accepterede kandidat den næste aktuelle model. Automatiske metorder: Backwards, Forwards.. p.7/13

Backwards I en backwards strategi vælges den mættede eller alternativt en relativt kompleks model som startmodel. Kandidater vælges som modeller inlejret i den aktuelle model med en model afstand på en, dvs. vi fjerner et led fra modelformlen. Modelkontrol af kandidater består i backwrds tilfældet af et likelihood-ratio test, hvor kandidaten er nul-hypotesen og den aktuelle model er alternativet. Mindst signifikante, accepterede kandidat vælges som næste aktuelle model.. p.8/13

Slutmodellen Når modelsøgningen er afsluttet skal slutmodellen underkastes en grundig modelkontrol (grundigere end modelkontrollen af de enkelte kandidater under modelsøgningen). Typer af modelkontrol: Likelihood-ratio test, hvor slutmodel afprøves i forhold til mere kompleske modeller. Residualanalyse, der sammenligner det observerede med hvad der kan forventes under slutmodellen. Deskriptive metoder (grafisk og numeriske).. p.9/13

Residualer Residualer = Observerede - Forventede. Standardiserede residualer har middelværdi nul og fælles varians. Et plot af standard residualer mod de forventede og observerede værdier bør resulterer i en sky af punkter tilfældigt fordelt omkring en vandret linie. Systematiske afvigelser er tegn på varians inhomogenitet eller en utilstrækkelig model.. p.10/13

plot Et plot anvendes som en grafisk sammenligning af to fordelinger. Hvis den ene fordeling er standardnormalfordelingen kaldes plottet for et normalfraktildiagram. Lad være den omvendte (inverse) fordelingfunktion for en standard normalfordeling. Hvis er de standadiserede residualer er normalfraktildiagrammet givet ved punktparene. Er residualerne normalfordelte som antaget vil disse punkter ligge tilfældigt fordelt omkring en linie gennem med hældingkoeficient. Ofte kombineres et plot, hvor man plotter plot med et såkaldt detrended. p.11/13

Eksempler på plot. p.12/13

Residualanalyse i SPSS Logistisk regression...binary logistics Save og vælg Standardized i kassen Residuals. Når model er kørt anvendes Graphs Q-Q, hvor Normalized residuals vælges som variabel. Som suplement til plottet udføres et histogram over de standardiserede residualer: Analyze Descriptive Statistics Explore. Generaliserede lineære modeller I hovedtræk som for logistisk regression. Desuden er det under Options muligt at vælge residual plot: plot med observerede værdier, forventede værdier og standardiserede residualer.. p.13/13