make connections share ideas be inspired Additiv model teori og praktiske erfaringer Kaare Brandt Petersen Forretningschef, ph.d., SAS Institute
Agenda Hvad er en additiv model? Forudsætninger Fortolkning af parametrene Har vi data nok? Over/under-problematikken
Hvad er en additiv model? Antagelse om bestemt type sammenhæng mellem x og y Output / Target / Respons /.. (givet af datasættet) Input / Faktorer / Uafhængige (givet af datasættet) Parametre (som vi skal estimere) Fejl / Støj / Residual (det modellen ikke fanger)
Hvad er en additiv model? Sammenhængen er givet ved Den prædiktive funktion er Eller udtrykt i matrix notation
Forudsætninger Costfunktion ud fra maximum likelihood Normalfordelte uafhængige residualer med ens varians Det vil sige Kvadratisk fejl er ækvivalent med maximum likelihood, hvor residualerne er normalfordelte og uafhængige
Forudsætninger Cost funktionen er kvadratisk Linearitet i parameterværdierne Hvilket giver løsningen Bemærk, at dette kræver, at X har fuld rang (at XTX kan inverteres)
Forudsætninger Linearitet i parameterværdierne Homoskedasticitet (ens varians) Uafhængighed i residualerne Ingen multikollinearitet mellem inputvariable Normalfordelte residualer Ingen/svag usikkerhed på inputvariable
Forudsætninger
Fortolkning af parametrene Der stilles spørgsmål: Hvorfor værdien af lædersæder er 11.000, når det koster ca. 30.000 at få det bygget ind? Det kan ikke passe, at værdien af XXX er YYY? Spørgsmål: Hvad betyder det for de estimerede parameterværdier, at der er brud på forudsætningerne?
Fortolkning af parametrene Maria s eksperiment Generer data syntetisk (100.000 obs, 5 variable, kendte parametre, lav støj) Estimere parametrene på varianter af data Plain: Det fulde datasæt uden snubletråde. Nabo til industri: En underliggende variabel (nabo til industri) relaterer til de andre variable mindre boligareal, større grundareal, senere opførelsesår m.m. Der er 87%, der ikke er nabo til industri og 13% der er. Prisen afspejler forskellen, men selve variablen nabo til industri er ikke med. Fejl i model/data: Som ovenstående, men prisen afspejler ikke de forandrede karakteristika. Der er altså ikke overensstemmelse mellem inputvar/target/modelform (misspecifikation af model eller fejl i data). CherryPick: Modellen er korrekt specificeret (overensstemmelse mellem funktionsform på den generative og den estimerede), men det er primært de lidt dyrere ejendomme, der bliver solgt. Kan modellen genfinde de generative parametre?
Fortolkning af parametrene Variable Variabel Værdi Generativ model Variant: Plain Variant: Nabo til industri Variant: Fejl i data/mdl Variant: CherryPick Intercept - 0 119.216 120.047 2.291.929 134.201 Tag_type Stråtag 210.000 140.047 140.007 127.882 139.593 Tag_type Tagpap 140.000 70.000 69.971 59.945 69.772 Tag_type Tegl 70.000 0 0 0 0 Boligareal - 1750 1.750 1.750 1.635 1.742 Grundareal - 2000 2.000 1.999 250 1.994 Opførelsesår - 1.000 1.000 999 976 997 Ydervæg Beton 100.000 49.948 49.973 46.564 49.834 Ydervæg Mursten 50.000 0 0 0 0 Parametre fundet mde PROC GENMOD med Corner point tilgang
Har vi data nok? Valideringsfejlen og testfejlen ligger over træningsfejlen Valideringsfejlen og testfejlen aftager med flere observationer træningsfejlen vokser
Testfejl Har vi data nok? Hvor god ville modellen blive, hvis bare vi havde 10% flere observationer? Subsampling Ekstrapolation Subsampling giver indsigt i, hvor hurtigt testfejlen ændres, når størrelsen af træningsfejlen ændres. 0% 0 25% 5.000 50% 10.000 75% 15.000 100% 20.000 Størrelse på træningsdata
Over/under problematikken Hvordan performer modellen set ift. de sande værdier? Sande værdi (target variabel) OK Underestimerede Overestimerede Meget lav 5% 62% 33% Lav 8% 71% 21% Mellem 10% 81% 9% Høj 21% 71% 8% Meget høj 33% 62% 5%
Over/under problematikken Target Høj værdi 1 Data Prædiktiv model Effekten ses over hele spektret, men med forskellig styrke og fortegn 2 Residuals Enheder med lav værdi har positivt residual dvs. overestimeres Enheder med høj værdi har negative residualer dvs. underestimeres Lav værdi Targets Input
Over/under problematikken
Opsummering Lad være med at lægge for meget vægt på parameterværdierne (men vær forberedt på, at det gør kunden måske). Lav learning curves for at se om der er data nok. Plot target vs residualer for at se evt. over-/under problem All models are wrong, but some are useful
make connections share ideas be inspired Kaare Brandt Petersen, +45 51387884, kaare.brandt@sas.com