Additiv model teori og praktiske erfaringer



Relaterede dokumenter
Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Analytisk beredskab giver ny indsigt i arbejdsmarkedet Michael Sperling SAS Institute

Løsning til øvelsesopgaver dag 4 spg 5-9

To samhørende variable

Bilag 7. SFA-modellen

Tema. Dagens tema: Indfør centrale statistiske begreber.

Introduktion til GLIMMIX

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Introduktion til Visual Data Mining and Machine Learning

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Statistik II 4. Lektion. Logistisk regression

Public Analytics Tema: Effektmåling

Estimation af ejendomsværdi for ejerboliger. Søren Leth, Københavns Universitet Kaare Brandt Petersen, SAS Institute

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Kvantitative metoder 2

Forelæsning 11: Kapitel 11: Regressionsanalyse

Appendiks A Anvendte test statistikker

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Kapitel 12 Variansanalyse

Kvadratisk regression

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Reeksamen i Statistik for Biokemikere 6. april 2009

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Data warehouse-arkitektur / standarder

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Logistisk Regression - fortsat

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Regressionsanalyse i SAS

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Produkt og marked - matematiske og statistiske metoder

Statistiske Modeller 1: Kontingenstabeller i SAS

Lineær og logistisk regression

Statistisk modellering og regressionsanalyse

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Kapitel 12 Variansanalyse

Epidemiologi og Biostatistik

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

1 Hb SS Hb Sβ Hb SC = , (s = )

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Statistisk dataanalyse af EFI-gælden

Kvantitative Metoder 1 - Forår 2007

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Noter til Specialkursus i videregående statistik

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

De variable, som er inkluderet i de forskellige modeller, er følgende:

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Modul 6: Regression og kalibrering

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Eksamen i Statistik for biokemikere. Blok

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

I dag. Kursus Data matrice. Formål med PCA. Statistik. Principal komponent analyse, PCA, Esbensen kapitel 3. Splus. Anna Helga Jónsdóttir

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Transkript:

make connections share ideas be inspired Additiv model teori og praktiske erfaringer Kaare Brandt Petersen Forretningschef, ph.d., SAS Institute

Agenda Hvad er en additiv model? Forudsætninger Fortolkning af parametrene Har vi data nok? Over/under-problematikken

Hvad er en additiv model? Antagelse om bestemt type sammenhæng mellem x og y Output / Target / Respons /.. (givet af datasættet) Input / Faktorer / Uafhængige (givet af datasættet) Parametre (som vi skal estimere) Fejl / Støj / Residual (det modellen ikke fanger)

Hvad er en additiv model? Sammenhængen er givet ved Den prædiktive funktion er Eller udtrykt i matrix notation

Forudsætninger Costfunktion ud fra maximum likelihood Normalfordelte uafhængige residualer med ens varians Det vil sige Kvadratisk fejl er ækvivalent med maximum likelihood, hvor residualerne er normalfordelte og uafhængige

Forudsætninger Cost funktionen er kvadratisk Linearitet i parameterværdierne Hvilket giver løsningen Bemærk, at dette kræver, at X har fuld rang (at XTX kan inverteres)

Forudsætninger Linearitet i parameterværdierne Homoskedasticitet (ens varians) Uafhængighed i residualerne Ingen multikollinearitet mellem inputvariable Normalfordelte residualer Ingen/svag usikkerhed på inputvariable

Forudsætninger

Fortolkning af parametrene Der stilles spørgsmål: Hvorfor værdien af lædersæder er 11.000, når det koster ca. 30.000 at få det bygget ind? Det kan ikke passe, at værdien af XXX er YYY? Spørgsmål: Hvad betyder det for de estimerede parameterværdier, at der er brud på forudsætningerne?

Fortolkning af parametrene Maria s eksperiment Generer data syntetisk (100.000 obs, 5 variable, kendte parametre, lav støj) Estimere parametrene på varianter af data Plain: Det fulde datasæt uden snubletråde. Nabo til industri: En underliggende variabel (nabo til industri) relaterer til de andre variable mindre boligareal, større grundareal, senere opførelsesår m.m. Der er 87%, der ikke er nabo til industri og 13% der er. Prisen afspejler forskellen, men selve variablen nabo til industri er ikke med. Fejl i model/data: Som ovenstående, men prisen afspejler ikke de forandrede karakteristika. Der er altså ikke overensstemmelse mellem inputvar/target/modelform (misspecifikation af model eller fejl i data). CherryPick: Modellen er korrekt specificeret (overensstemmelse mellem funktionsform på den generative og den estimerede), men det er primært de lidt dyrere ejendomme, der bliver solgt. Kan modellen genfinde de generative parametre?

Fortolkning af parametrene Variable Variabel Værdi Generativ model Variant: Plain Variant: Nabo til industri Variant: Fejl i data/mdl Variant: CherryPick Intercept - 0 119.216 120.047 2.291.929 134.201 Tag_type Stråtag 210.000 140.047 140.007 127.882 139.593 Tag_type Tagpap 140.000 70.000 69.971 59.945 69.772 Tag_type Tegl 70.000 0 0 0 0 Boligareal - 1750 1.750 1.750 1.635 1.742 Grundareal - 2000 2.000 1.999 250 1.994 Opførelsesår - 1.000 1.000 999 976 997 Ydervæg Beton 100.000 49.948 49.973 46.564 49.834 Ydervæg Mursten 50.000 0 0 0 0 Parametre fundet mde PROC GENMOD med Corner point tilgang

Har vi data nok? Valideringsfejlen og testfejlen ligger over træningsfejlen Valideringsfejlen og testfejlen aftager med flere observationer træningsfejlen vokser

Testfejl Har vi data nok? Hvor god ville modellen blive, hvis bare vi havde 10% flere observationer? Subsampling Ekstrapolation Subsampling giver indsigt i, hvor hurtigt testfejlen ændres, når størrelsen af træningsfejlen ændres. 0% 0 25% 5.000 50% 10.000 75% 15.000 100% 20.000 Størrelse på træningsdata

Over/under problematikken Hvordan performer modellen set ift. de sande værdier? Sande værdi (target variabel) OK Underestimerede Overestimerede Meget lav 5% 62% 33% Lav 8% 71% 21% Mellem 10% 81% 9% Høj 21% 71% 8% Meget høj 33% 62% 5%

Over/under problematikken Target Høj værdi 1 Data Prædiktiv model Effekten ses over hele spektret, men med forskellig styrke og fortegn 2 Residuals Enheder med lav værdi har positivt residual dvs. overestimeres Enheder med høj værdi har negative residualer dvs. underestimeres Lav værdi Targets Input

Over/under problematikken

Opsummering Lad være med at lægge for meget vægt på parameterværdierne (men vær forberedt på, at det gør kunden måske). Lav learning curves for at se om der er data nok. Plot target vs residualer for at se evt. over-/under problem All models are wrong, but some are useful

make connections share ideas be inspired Kaare Brandt Petersen, +45 51387884, kaare.brandt@sas.com