Additiv model teori og praktiske erfaringer

Størrelse: px

Starte visningen fra side:

Download "Additiv model teori og praktiske erfaringer"

Elisabeth Bundgaard
10 år siden
Visninger:

1 make connections share ideas be inspired Additiv model teori og praktiske erfaringer Kaare Brandt Petersen Forretningschef, ph.d., SAS Institute

2 Agenda Hvad er en additiv model? Forudsætninger Fortolkning af parametrene Har vi data nok? Over/under-problematikken

3 Hvad er en additiv model? Antagelse om bestemt type sammenhæng mellem x og y Output / Target / Respons /.. (givet af datasættet) Input / Faktorer / Uafhængige (givet af datasættet) Parametre (som vi skal estimere) Fejl / Støj / Residual (det modellen ikke fanger)

4 Hvad er en additiv model? Sammenhængen er givet ved Den prædiktive funktion er Eller udtrykt i matrix notation

5 Forudsætninger Costfunktion ud fra maximum likelihood Normalfordelte uafhængige residualer med ens varians Det vil sige Kvadratisk fejl er ækvivalent med maximum likelihood, hvor residualerne er normalfordelte og uafhængige

Det vil sige Kvadratisk fejl er ækvivalent med maximum

6 Forudsætninger Cost funktionen er kvadratisk Linearitet i parameterværdierne Hvilket giver løsningen Bemærk, at dette kræver, at X har fuld rang (at XTX kan inverteres)

7 Forudsætninger Linearitet i parameterværdierne Homoskedasticitet (ens varians) Uafhængighed i residualerne Ingen multikollinearitet mellem inputvariable Normalfordelte residualer Ingen/svag usikkerhed på inputvariable

residualerne Ingen multikollinearitet mellem

8 Forudsætninger

9 Fortolkning af parametrene Der stilles spørgsmål: Hvorfor værdien af lædersæder er , når det koster ca at få det bygget ind? Det kan ikke passe, at værdien af XXX er YYY? Spørgsmål: Hvad betyder det for de estimerede parameterværdier, at der er brud på forudsætningerne?

Det kan ikke passe, at værdien af XXX er YYY?

10 Fortolkning af parametrene Maria s eksperiment Generer data syntetisk ( obs, 5 variable, kendte parametre, lav støj) Estimere parametrene på varianter af data Plain: Det fulde datasæt uden snubletråde. Nabo til industri: En underliggende variabel (nabo til industri) relaterer til de andre variable mindre boligareal, større grundareal, senere opførelsesår m.m. Der er 87%, der ikke er nabo til industri og 13% der er. Prisen afspejler forskellen, men selve variablen nabo til industri er ikke med. Fejl i model/data: Som ovenstående, men prisen afspejler ikke de forandrede karakteristika. Der er altså ikke overensstemmelse mellem inputvar/target/modelform (misspecifikation af model eller fejl i data). CherryPick: Modellen er korrekt specificeret (overensstemmelse mellem funktionsform på den generative og den estimerede), men det er primært de lidt dyrere ejendomme, der bliver solgt. Kan modellen genfinde de generative parametre?

Nabo til industri: En underliggende variabel (nabo til industri) relaterer til de andre variable mindre boligareal, større grundareal, senere opførelsesår m.m. Der er 87%, der ikke er nabo til industri og 13% der er.

11 Fortolkning af parametrene Variable Variabel Værdi Generativ model Variant: Plain Variant: Nabo til industri Variant: Fejl i data/mdl Variant: CherryPick Intercept Tag_type Stråtag Tag_type Tagpap Tag_type Tegl Boligareal Grundareal Opførelsesår Ydervæg Beton Ydervæg Mursten Parametre fundet mde PROC GENMOD med Corner point tilgang

971 59.945 69.772 Tag_type Tegl 70.000 0 0 0 0 Boligareal - 1750 1.750 1.750 1.635 1.742 Grundareal - 2000 2.000 1.999 250 1.994 Opførelsesår - 1.

12 Har vi data nok? Valideringsfejlen og testfejlen ligger over træningsfejlen Valideringsfejlen og testfejlen aftager med flere observationer træningsfejlen vokser

13 Testfejl Har vi data nok? Hvor god ville modellen blive, hvis bare vi havde 10% flere observationer? Subsampling Ekstrapolation Subsampling giver indsigt i, hvor hurtigt testfejlen ændres, når størrelsen af træningsfejlen ændres. 0% 0 25% % % % Størrelse på træningsdata

Subsampling Ekstrapolation Subsampling giver indsigt i, hvor hurtigt

14 Over/under problematikken Hvordan performer modellen set ift. de sande værdier? Sande værdi (target variabel) OK Underestimerede Overestimerede Meget lav 5% 62% 33% Lav 8% 71% 21% Mellem 10% 81% 9% Høj 21% 71% 8% Meget høj 33% 62% 5%

15 Over/under problematikken Target Høj værdi 1 Data Prædiktiv model Effekten ses over hele spektret, men med forskellig styrke og fortegn 2 Residuals Enheder med lav værdi har positivt residual dvs. overestimeres Enheder med høj værdi har negative residualer dvs. underestimeres Lav værdi Targets Input

Enheder med lav værdi har positivt residual dvs.

16 Over/under problematikken

17 Opsummering Lad være med at lægge for meget vægt på parameterværdierne (men vær forberedt på, at det gør kunden måske). Lav learning curves for at se om der er data nok. Plot target vs residualer for at se evt. over-/under problem All models are wrong, but some are useful

Lav learning curves for at se om der er data nok.

18 make connections share ideas be inspired Kaare Brandt Petersen, ,

Relaterede dokumenter

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som