Fordele og ulemper ved latent klasseanalyse



Relaterede dokumenter
Efficiency og Effectiveness i Survey Research. Carsten Stig Poulsen, Aalborg Universitet

Bayesiansk statistik. Tom Engsted. DSS Aarhus, 28 november 2017

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Statistik II 4. Lektion. Logistisk regression

Danskerne er gode til at købe økologisk. Hvor ofte køber du økologiske fødevarer? Jeg køber altid økologiske fødevarer

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Noter til Specialkursus i videregående statistik

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Informationskildernes opdeling

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

BILAG 2 METODE OG FORSK- NINGSDESIGN

Susanne Ditlevsen Institut for Matematiske Fag susanne

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Skriftlig eksamen Science statistik- ST501

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Introduktion til GLIMMIX

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Morten Frydenberg 14. marts 2006

Præsentation og praktisk anvendelse af PROC GLMSELECT

BILAG 2 DESIGN OG METODE- BILAG

Maple 11 - Chi-i-anden test

Undervisningsbeskrivelse

Løsning til opgave i logistisk regression

En Bayesiansk tilgang til Credit Scoring

Statistiske Modeller 1: Kontingenstabeller i SAS

Morten Frydenberg 26. april 2004

Løsning til øvelsesopgaver dag 4 spg 5-9

Bilag 7. SFA-modellen

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Stofmisbrug -bedre behandling til færre penge Munkebjerg marts 2012

det offentlige Hilsner fra sådan vil danskerne tiltales BJERG KOMMUNIKATION FLÆSKETORVET 68, KØBENHAVN V T: KONTAKT@BJERGK.

Det sorte danmarkskort:

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Logistisk regression

Tema. Dagens tema: Indfør centrale statistiske begreber.

Lineær og logistisk regression

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

Kombinationer af lande- og individdata. Multilevel analyse.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Module 4: Ensidig variansanalyse

Indblik i statistik - for samfundsvidenskab

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Program dag 2 (11. april 2011)

STATENS NATURHISTORISKE MUSEUM. DNA & liv. Statens Naturhistoriske Museum Formidlingsafdelingen Andreas Kelager

Kvantitative metoder 2

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Kapitel 1 Statistiske grundbegreber

Logistisk regression

Økonomisk analyse. Aftensmaden i Danmark. 6. januar 2016

Note om Monte Carlo eksperimenter

Basal Statistik - SPSS

Eksempel på funktion af 2 variable, som har egentligt lokalt minimum på enhver ret linje gennem origo, men som ikke har lokalt minimum i origo!

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Basal statistik. 30. januar 2007

Præcision og effektivitet (efficiency)?

Hvordan finder man en god skala vha. Raschmetoden? Svend Kreiner & Tine Nielsen

Estimering og anvendelse af modeller ved brug af PROC MODEL

Prisen på sort arbejde. Kristian Hedeager Bentsen

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

Transkript:

Fordele og ulemper ved Institut for Erhvervsstudier, Aalborg Universitet

Disposition Hvad er (klassisk)? Eksempel på anvendelse Senere udviklinger Eksemplet fortsat Fordele og ulemper ved latent klasseanalyse

Hvad er (klassisk)? Paul F. Lazarsfeld, o. 1950 og frem til 1968 Faktoranalyse af kvalitative data? Begrebet statistisk forklaring (Mosteller) Estimation med tvivlsomme metoder Leo A. Goodman, 1974-1980 Et specialtilfælde af den log-lineære model til analyse af antalstabeller ML estimation af modellens parametre Første computerprogram (Clogg s MLLSA, 1977) Falder ind under modeller med incomplete data, Dempster, Laird & Rubin (1977)

Eksempel på anvendelse af (klassisk) latent klasseanalyse Forbrugerklageundersøgelsen 1978 Repræsentativ undersøgelse med 600 respondenter 6 hypotetiske situationer A - F For hver situation bliver respondenten spurgt om han/hun vil klage i situationen Eksempel

Eksempel på anvendelse af Formålet med spørgsmålene er at måle forbrugernes klagetilbøjelighed Hertil blev først anvendt itemanalyse i form af en Rasch-model Med 6 items giver modellen grundlæggende en klassifikation i 7 grupper, hvoraf de to ydergrupper (klager aldrig, klager i hver situation) er ikkeskalerbare Data blev senere analyseret med MLLSA med følgende resultat

Eksempel på anvendelse af 6

Eksempel på anvendelse af Vurdering af goodness-of-fit Bestemmelse af antal klasser ved AIC, BIC, o.l. For et givet antal klasser 2 -statistics, Pearson og specielt L 2 Hypotesetests ved betinget testning af nestede modeller Restriktioner på parametrene Værdirestriktioner Lighedsrestriktioner Tilordning af hver respondent til klassen med størst recruitment probability (Bayes teorem)

Eksempel på anvendelse af Modellen giver altså En opdeling af respondenterne efter deres forskellige klageprofil Et estimat over størrelsen af klasserne For et givet antal klasser, et goodness-of-fit -mål baseret på 2 -fordelingen Mulighed for hypotesetest ved betinget testning En klassifikation af respondenter, der i princippet gør den latente klassevariabel manifest

Udvikling af den latente klasse model De gyldne år 1980 ca. 2000 Flere anvendelser Udvikling den grundlæggende model Mixed Markov og Latent Markov (Poulsen, 1982) Mixed Latent Markov (Langeheine & van der Pol, (1990) LK-modellen som logistisk regression, (Kamakura & Russel, 1989) Softwareudvikling, PANMARK, lem, Latent GOLD LK modellen som et ikke-parametrisk alternativ til Bayesianske metoder og multi-level modellering Ca. 2000 En række stadig mere raffinerede, men også mere komplekse modeller, især knyttet til Vermundts & Magidsons Latent GOLD program

Eksempel på mere avanceret brug af Klageundersøgelsen blev fulgt op i 2002 De samme 6 situationer anvendtes med henblik på sammenligning af strukturen på de to tidspunkter Resultatet

* N.B. Kun 2 klasser Eksempel på mere avanceret brug af 1978 2002 1.00 1.00 0.90 0.90 0.80 0.80 0.70 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00 A D E B F C 0.60 0.50 0.40 0.30 0.20 0.10 0.00 A D E B F C Klasse 1 (54%) Klasse 2 Klasse 1 (57%) Klasse 2 (43%) A = Sokker, B =Tæppe, C = Køleskab, D = Bukser og trøje, E = Ægte bihonning, F = Bogreol Postalt udsendt skema efter en telefonisk rekruttering Forskellene mellem de to modeller kan formelt testes ved en gruppe analyse, Goodman & Clogg (1982)

Eksempel på mere avanceret brug af I 2002 tilføjedes 4 nye situationer, G J, som var inspirerede af typiske sager fra Forbrugerklagenævnet De indeholdt hver en række elementer, som blev varieret eksperimentelt i et telefonisk interview (CATI)

Situation G: Eksempel på mere avanceret brug af 1. 4 mdr. 2. 8 mdr. 3. 12 mdr. 1. Et lavprisvarehus 2. En skoforretning 1. 600 kr. 2. 1,000 kr. 3. 1,200 kr. Hver respondent fik et tilfældigt valgt niveau af de tre eksperimentelle faktorer præsenteret. Der er således 18 varianter af denne klagesituation.

Situation H: Eksempel på mere avanceret brug af 1. Nystartet PC butik 2. Autoriseret PC forhandler 1. 8,000 kr. 2. 10,000 kr. 3. 12,000 kr. Hver respondent fik et tilfældigt valgt niveau af de to eksperimentelle faktorer præsenteret. Der er således 6 varianter af denne klagesituation.

Eksempel på mere avanceret brug af 603 respondenter svarede på alle 10 situationer Vi havde vi nu for at estimere følsomheden i klagetilbøjeligheden over for de varierede elementer Men, bemærk, at vi analyserer de 10 situationer, A J, simultant

Eksempel på mere avanceret brug af Generel klagetilbøjelighed, betinget af klassen Situationsbestemt klagetilbøjelighed, betinget af klassen Situationsspecifikke effekter, betinget af klassen e e e e e 0,44 0,02 0,11 0,01 0,62 e 1,16 odds klage 1,16 e Pr klage 0, 76 1,16 1 e i den specificerede situation

Fordele og ulemper ved latent klasseanalyse Fordele Grundlæggende er der tale om en mixture af multinomiske choice-modeller (Derfor) Meget anvendelig i analyser af surveys, panel data o.l. inden for samfundsforskningen Et modelbaseret alternativ til datadrevet klyngeanalyse Generel model til håndtering af (parameter-) heterogenitet Let at kommunikere resultater Actionable Adgang til brugervenlig software (Latent GOLD læser og skriver SPSS-filer)

Fordele og ulemper ved latent klasseanalyse Ulemper Ikke en integreret del af gængse statistikpakker, dog har SAS nu siden 2009 en PROC LSA Bestemmelsen af antal klasser og goodness-of-fit baseres på heuristikker Kræver datasæt (antal respondenter) af en vis størrelse, men ikke større end sædvanlige surveys (500 1500) Diskret beskrivelse af heterogenitet vil nogen se som en (for) grov approksimation til fænomener som mere naturligt antages at variere kontinuert Med mange klasser kan antallet af estimerede parametre blive stort

Latent klasse analyse Hvis man vil vide mere Goodman s klassiske artikler er værd at læse, selv om de er noget omstændelige McCutcheon, A. L. (1987): Latent Class Analysis. Sage university Paper, no. 64 Hagenaars, J. A. (1993): Loglinear Models with Latent Variables. Sage university Paper, no. 94 Rost, J. & Langeheine, R. (1997): Applications of Latent Trait and Latent Class Models in the Social Sciences. Waxman. Hagenaars, J. A. & McCutcheon, A. L. eds. (2002): Applied Latent Class Analysis. Cambridge University Press. Software En oversigt findes på adressen http://www.john-uebersax.com/stat/soft.htm Latent Gold er anvendt til eksemplet i denne præsentation