Indholdsfortegnelse 1.1 PROBLEMFORMULERING AFGRÆNSNING KREDITSCORINGENS METODIK OG OPBYGNING...4 DE ØKONOMISKE PERSPEKTIVER...

Transkript

1 Indholdsfortegnelse AFSNIT 1 INDLEDNING PROBLEMFORMULERING AFGRÆNSNING...3 AFSNIT 2 KREDITSCORING KREDITSCORINGENS METODIK OG OPBYGNING...4 AFSNIT 3 DE ØKONOMISKE PERSPEKTIVER DEN KOST-SENSITIVE MODEL HVILKE MULIGHEDER GIVER SAS EM?...8 AFSNIT 4 EMPIRISK EKSEMPEL BESKRIVELSE AF DATA EXPLORATIV ANALYSE METODE DEN TRADITIONELLE SCOREMODEL DEN KOSTSENSITIVE SCOREMODEL ØKONOMISK EVALUERING...13 AFSNIT 5 KONKLUSION...14 AFSNIT 6 REFERENCER...15 BILAG A DATA...17 BILAG A.I BILAG A.II DOKUMENTATION AF DATASTRUKTUREN...17 DANNELSE AF DE TO HYPOTETISKE PROFITVARIABLE...18 BILAG B MODELESTIMATION...19 BILAG B.I UNDERSØGELSE AF DATA...19 BILAG B.II TRANSFORMATION AF FORKLARENDE VARIABLE...19 BILAG B.III MODELESTIMATIONS PROCEDURE...19 BILAG B.IV DEN ENDELIGE TRADITIONELLE MODEL...20 BILAG B.V DE ENDELIGE KOST-SENSITIVE MODELLER...21 BILAG C MODELEVALUERING...22

2 Afsnit 1 Indledning Den traditionelle kreditvurdering i forbindelse med privatpersoners låntagning sker på baggrund af et forudgående kendskab til kunden. Dette kendskab suppleres ofte af et budget, en opgørelse over de indtjeningsforhold, der gør sig gældende, samt hvad långiveren herudover finder relevant. Denne proces er meget ressourcekrævende, og kan i mange tilfælde være til gene for både långiver og tager. Kreditscoringens metoder tager udgangspunkt i disse ulemper, og prøver at løse dem ved hjælp af en række statistiske procedurer. 1.1 Problemformulering Givet den statistiske natur af problematikken er det ikke forretningsmæssig sædvane at inddrage de økonomiske perspektiver af lånevurderingen. Det overordnede formål med indeværende øvelsesoplæg er derfor at opstille en økonomisk problemstilling i forbindelse med udviklingen af en kreditscoringsmodel. Herunder, at der gives en meget kort introduktion til kreditscoring, dens metoder samt disses anvendelighed i programpakken SAS Enterprise Miner. Det ønskes herudover at, det vurderes udfra et empirisk eksempel om denne udvidede eksercits er anstrengelsen værd målt i økonomisk overskud. 1.2 Afgrænsning De fleste kommercielt anvendte data behandlings procedurer involverer en række kritiske problemstillinger og antagelser set med rent videnskabelige øjne. Grundet dette oplægs meget begrænsede omfang og fokus på den praktiske anvendelighed, vil der ikke blive gået i dybden med de punkter, der kunne være kritisable. Den anvendte model, dennes teori samt fordele og ulemper contra andre modeltyper vil heller ikke behandles. Tillige kan der forekomme arbejdsgange, i forbindelse med udviklingen af scorekortet, der vil blive kommenteret kort eller benyttet uden videre diskussion eller forklaring. Her i blandt de forhold, der tegner sig ved dokumentationen af data, så som generelle problemer ved indsamling af sådanne stikprøver; eksempelvist sampling, behandling af missing values, for ikke at glemme reject inference 1. Endvidere stilles, der ikke spørgsmål til rigtigheden af de good/bad markeringer, der er sat i det benyttede materiale, da disse normalt er afgjort ud fra internt politisk bestemte kriterier, der ikke er kendte hér. Generelt vil der være store dele af den praktiske anvendelse af kreditscoring, der vil blive overladt til referencer. 1 Refererer til problematikken, der opstår ved, at udviklingen af selve scorekortet sker på basis af et datagrundlag, som ikke indeholder de initialt afslåede låneansøgninger. Se eksempelvist Jacobsen(2000), [12], for yderligere information. Side 3

3 Afsnit 2 Kreditscoring De første tanker omkring en statistisk begrundet scoring af kunder i forbindelse med kreditgivning, som vi kender det i dag, stammer helt tilbage til 1940 ernes USA. Her var David Durand s Risk Elements in Consumer Installment Financing blandt de første til fremhæve mulighederne for at skabe et systematisk førstegangsindtryk af en låneansøgning ved hjælp af kendte matematisk statistiske metoder. Den store udbredelse måtte vente på sig i to årtier, indtil amerikanske detailkæder og postordre virksomheder i 1960 erne begyndte at anvende systemet i forbindelse med tilgodehavende. Senere begyndte de store olieselskaber og kreditkortselskaber, såsom VISA og MasterCard. Historien bag brugen af kreditscoring hænger altså meget naturligt sammen med udviklingen i brugen af kreditkort, og udstedelse af forbrugslån baseret på få eller næsten ingen oplysninger omkring klienten. Det er nemlig efter manges mening også hér, den har sin største berettigelse. I midlertidigt er det dog sådan, at i dag har de fleste store penge- og kreditinstitutter implementeret et kreditscoresystem, hvis primære funktion er vejledende i forbindelse med en traditionel kreditvurdering. 2.1 Kreditscoringens metodik og opbygning Grundlæggende er kreditscoring en statistisk baseret kreditvurdering, hvor der på basis af en eksisterende kunde-portefølje er fundet de karakteristika, der bidrager signifikant til beskrivelsen af variationen i sandsynligheden for, at en given klient vil udvikle sig til at blive en god eller en dårlig kunde. En fuldstændig fremstilling af, hvad kredit scoring indebærer vil dog snarere være en række forretningsgange, som har til formål at få klassificeret en potentiel låntager i et net af risikoklasser, der beskriver den forventede fyldestgørelse af tilbagebetalingen. Ud fra disse risikoklasser, og den af ledelsen besluttede portefølje kvalitet, kan det så besluttes dels hvorvidt lånet skal godkendes under de givne forhold eller afslås, og dels hvorvidt det skal tilbydes under andre betingelser. Med andre betingelser kan man forstille sig et tiltag, der sikrer, at den forventede risiko ved udstedelsen af lånet bliver indenfor rammen besluttet af ledelsen. Af sådanne oplæg kan for eksempel nævnes et krav om en medansøger eller et forslag om en delbevilling. Den informationsmængde, der indsamles som input til kredit vurderingen af en ansøger, samt den statistiske metode, der benyttes til at analysere de historiske ansøgninger, er en beslutning, der afhænger meget af situationen og formålet. I indeværende opgave vil der blive benyttet en multipel logistisk regressions model. Læsere, der ikke er bekendt med denne type af regressionsanalyse, anbefales, at rådføre sig med for eksempel Andersen (1996), [3], Eye (1999), [7], eller Wonnacott (1981), [24]. Valget af denne model er baseret på dens udbredte kommercielle anvendelse samt resultat af diskussion i Kronborg(1998), [13]. 2 Den fundamentale struktur af det traditionelle udviklingsforløb i forbindelse 2 For sammenligning af metoder kan der også henvises til Jacobsen(2000), [12], og McNab(2000), [14]. Side 4

4 med den statistiske ligner meget det flow, man ville opbygge indenfor en data mining proces. Man tager udgangspunkt i indsamlingen af en statistisk acceptabel stikprøve, der opfylder de retningslinier indenfor samplingen, der ønskes at være opfyldt; skal stikprøven være stratificeret? Skal den afspejle strukturen af den originale population? I nærværende oplæg vil, der ikke blive gået i dybden med denne del af problematikken. De forudsættes dog, at det benyttede datasæt er udtaget på en sådan måde, at det at være en dårlig kunde er overrepræsenteret i forhold til populationen, samt modellen ikke kommer til at udvise bias eller fejlspecifikationer på grund af reject inference, eliminering af missing values eller lignende problemer. Dette er selvfølgeligt stærk kritisable antagelser, men da det er et udefra konstrueret og højst sandsynligt stærkt opsminket datasæt, så ses der ikke andre udveje. Indenfor traditionel kreditscoring er det normal procedure at udtage stikprøven på den måde, at man vælger en sampling og en outcome periode. Dette er illustreret i figur 2.1. Sample periode er således det tidsafsnit, hvor de betragtede ansøgninger udtrækkes, og outcome perioden det, som giver data, der ligger til grund for klassifikationen af den enkelte kunde. Figur 2.1 Sampling Kilde: Egen tilvirkning efter idé fra McNab (2000), [14]. Ud fra det indsamlede datasæt, og de af ledelsen fremsatte krav til gode contra dårlige kunder, er kunderne grupperet i risikogrupper. Det er normal kutyme, at benytte to eller tre grupperinger; good contra bad, og i mange tilfælde også indeterminate. Det næste trin i processen er at gennemgå en almindelig eksplorativ analyse af de enkelte variable og dennes koncentration af g/b s, de såkaldte g:b odds ratio. 3 Herved får man et forgrovet indtryk af, hvordan den enkelte variabel tegner sig i det samlede risikobillede. Benytter man sig en logistisk regressionsanalyse vil dette også kunne hjælpe én til, hvorledes de enkelte variable skal scores. Dette kan nemlig i nogle tilfælde jf. Andersen(1996), [3], vise sig at have betydning i forbindelse med estimationen af modellens parametre. Den sidste overordnede del af proceduren er selve modelestimationen, og udviklingen af scorepointene. Ud over selve denne statistiske eksercits ligger hele implementerringen af scorekortet, og et væld af ledelses politiske beslutninger. Som eksempel her på kan nævnes det cut-off, og scoreintervallerne, der afgører, hvorvidt lånet skal gives og under hvilke kontraktlige omstændigheder. Valget af cut-off kan visualisres ved hjælp af en af de fundamentale antagelser under den statistiske model. Man forstiller sig nemlig, at de forskellige risikoklasse fordeler sig med en given variation 3 Det skal bemærkes at disse ikke har noget med de odds ratio s, man opererer med indenfor logit-modellen, at gøre. Side 5

5 omkring en fælles middelværdi indenfor den enkelte gruppe. Antager vi her, at koncentrationen af gode contra dårlige i porteføljen følger en symmetrisk fordeling med samme varians kunne man fremstille situationen som gjort i figur 2.2. Cut-off værdien vælges herefter ud fra på den ene side den maksimalt acceptale bad-rate og på den anden side antallet af teoretisk gode betalere, som man kan tåle at miste. Figur Hypotestisk koncentration af risicotyper Andel Score intervaller Kilde: Egen tilvirkning Vælger man en cut-off værdi på 550 contra 625, så opnår man naturligt, at der accepteres flere bad s, mens der afvises færre good s. Dette er selvfølgelig kun et forenklet eksempel, der skal give en overordnet idé om teknikkerne. Herudover er der også et utal af blandt andet monitorerings værktøjer. For yderligere materiale på disse mere management baserede områder må der henvises til Jacobsen(2000), [12], McNab(2000), [14], samt Thomas(1989), [17]. Afsnit 3 De økonomiske perspektiver I forbindelse med implementeringen af et scorekort har det ikke tidligere været normal praksis at koncentrere sig om de dybere økonomiske perspektiver af estimationen og valget af den endelige model til fastsættelse scoreværdierne. Man har gjort sit ypperste for at finde den model, der kunne på rimelig enkel vis identificere en potentiel dårlig betaler, og fokus har været rettet på misklassifications raten og bad raten. Når der blev talt økonomi, valgte man løbende den cut-off værdi, som sikrede den ønskede forventede good/bad sammensætning ud fra mere politiske overbevisninger end forretningsmæssige. Indenfor de senere år har der dog primært været to hovedordnede forslag fremme. Det ene gik på den initiale definition af flagene der identificerede de gode i modsætning til de dårlige kunder. I stedet for de mere konservative synspunkter på en ringe betaler, så kunne man lave en økonomisk argumenteret definitionsramme af de tilstræbte kundeprofiler. Det klassiske eksempel er en kunde, der har været i rykkerkørsel et par gange, på grund af manglende betaling. En ting, der i mange policy rules giver en bad markering. Måske bliver kunden endda indberettet til incasso. Men til slut og ende så betaler kunden både lånet, rykkergebyrer og morarenter tilbage. Det er en risikofyldt forretning, men et eller andet sted, set i bakspejlet, så havde en good markering været berettiget ud fra et økonomisk synspunkt. Det andet forslag er gået på valget af cut-off værdien for det samlede antal scorepoint, der Side 6

6 kræves for at lånet godkendes til initiale forhold. Som nævnt i ovenstående afsnit, så er det normal kutyme at vælge cut-off ud fra en vægtet beslutning om den generelle overbevisning for hvor mange gode der går på en dårlige for, at der er break-even i indtjeningen, samt den ønskede maksimale badrate. Det der ligger lidt tilbage i det uvisse nu er, hvad med modelvalget eller estimationen af variablene. Kunne man på en eller anden måde konstruere en algoritme, der sikrede at valget af den endelige model ikke nødvendigvis var den der var bedst til at identificere de dårlige og de gode kunder, men valgte den model der viste sig at give den bedste økonomiske performance? Som det vil fremgå af det næste delafsnit, så vil det vise sig, at svaret er inden for computer science og knowledge discovery. 3.1 Den kost-sensitive model I løbet det seneste årti er der sprunget en række litteratur op omkring såkaldte MetaCost og Costsensitive Learning algoritmer og estimations systematikker. Fælles for disse er, at de foreslår metoder, hvorpå man kan gøre valget af de estimerede klassifikationer afhængige af omkostninger. Omkostninger skal selvfølgelig her forstås i et bredere perspektiv. Selvom blandt andet Zadrozny(2001), [25], tilråder, at man ikke benytter cost matricer, da disse ofte indebærer en række alternativ omkostninger, men rettere anvender en benefit matrix. Disse påstande kan man selvfølgelig vælge at se bort fra. Grundlæggende indeholder denne litteratur to typer af konkretiseringer af problematikken. Princippet bag det første af disse to er, at der forbindes en omkostning til hvert trænings eller test eksempel. Forestiller vi os, at vi har n mulige klasser, som et eksempel x kan kategoriseres i, så kan vi konstruere en matrix C af dimension n n, der i den j te række og i te sølje angiver den observerede, eller forvendte, omkostning, der skal afholdes ved at forudsige klasse i, hvis den rigtige klasse er j. Denne matrice vil i det efterfølgende blive betegnet omkostningsmatricen. Er denne matrice kendt, så reduceres problematikken til et optimerings spørgsmål. Den optimale forudsigelse af x er derfor den klasse i, der fører til den laveste forventede omkostning n j= 1 P ( j x) C( i j), (3.1) hvor P(j x) angiver den estimerede sandsynlighed for, at klasse j er den sande forudsigelse givet case x. Den anden type gør denne misklassifikations omkostning case sensitiv. Således knyttes der nu en omkostning C(i, j, x) på hver forudsigelse. Således angiver C( ) omkostningen forbundet med at forudsige klasse i for case x, hvis den rigtige klasse er j. Hermed opnår vi nu følgende minimeringsproblem i stedet for (3.1) j ( j x) C( i j x) P,, (3.2) Side 7

7 Problemet løses da ved først at identificere, hvilken af det to situationer man befinder sig i. Dernæst at konstruere en lærings algoritme, der kan løse den eksakte problemstilling. Dette ligger klart udenfor dette oplægs rammer, så dette vil blive overladt til læseren. Der kan dog henvises til Domingos(1995), [5], der opstiller grundrammen for en MetaCost algoritme, samt Elkan(2000), [6], og Zadrozny(2001), [25]. 3.2 Hvilke muligheder giver SAS EM? Vi ønsker, at løse dette problem med denne økonomisk argumenterede kreditscore model ved hjælp af SAS Enterprise Miner. Derfor virker det mest oplagt at sammenholde retningslinierne i litteraturen med mulighederne indenfor Miner en. Under hver model node i Enterprise Miner en er det muligt at specificere en beslutningsproblematik givet et score datasæt samt en række numeriske konsekvenser. Der er flere muligheder for præcisering af disse konsekvenser; en valgmatrice, en kostvariabel og en kostkonstant. Valgmatricen er fundamentalt opbygget på samme vis som kostmatricen C. Den indeholder nemlig rækker svarende til målværdierne, og søjler svarende til de valg, der ønskes vurderet. Således opnår man, at man en værdi af hver beslutning repræsenteret ved mål specifikke konsekvenser. Man kan hér såvel specificere profit eller omsætning som tab. Det skal med denne generelle metode bemærkes, at konsekvenserne er de samme for alle observationer, der skal klassificeres. Kostvariable er derimod en variabel i datasættet, der forbinder en given omkostning med den enkelte observation, eller rettere forudsigelsen af samme. Med kostkonstanten kan man specificere en fast omkostning forbundet med en beslutning. Som eksempel herpå kan gives den gennemsnitlige omkostning i forbindelse med udsendelsen af et donationsbrev, der behandles i det populære KDD98 datasæt. Dette kan således kombineres med en beslutningsmatrice, der angiver den forventede donation. Således kan ved hjælp af disse tre værktøjer, som Target Profile - ren giver os, lave den kombination, der understøtter ens problemstilling. Der gives gode eksempler herpå i dokumentationen af programmet; SAS Institute Inc. (2000), [16]. I det følgende er det kun mulighederne under øvelsesoplæggets problemstilling, der vil blive gennemgået. Specifikationen af en beslutnings eller omkostnings matrice vil i tilfældet med anvendelsen af en regressions node ikke have effekt på estimationen af modellens parametre. Tillige vil det generelt ikke påvirke error funktioner, såsom afvigelse eller likelihood. Residualer, der er baseret på senere estimerede sandsynligheder før justering af tidligere specificerede. Fit statistikker, som er beregnet ud fra residualer eller afvigelsesfunktioner. Endvidere forbliver klassifikation og misklassifikationsrate uændret. Det, der som standard ændres ved indførelsen af en valgmatrice, er valget af den endelige model. Dette kræver dog normalt, at der er specificeret mindst to valg i matricen. Side 8

8 De muligheder miner en gør er at, den udfra de specificerede konsekvenser, det vil sige beslutningsmatricen eller omkostningerne, så konstruerer en konsekvens variabel Q(i,t,d) Q ( i, t, d ) = (, d ) C( i, d ), hvis både R() og C() ( t, d ), hvisπ () L( t, d ), hvis L() R t π er specificeret (3.3) er specificeret er specificerede hvor i refererer til indekset over eksemplerne, t over mål værdierne samt d over de mulige beslutninger. Beslutningsmatricen kan præciseres som en R matrix, hvis indholdet er omsætning, samt π = -L hvis indholdet er profit eller direkte tab. Det ses yderligere af strukturen i (3.3), at det kun er muligt at knytte en omkostninger C( ) på, hvis der i problemet er indeholdt en beslutningsmatrix, der rummer omsætningstal. Der er primært to grunde til denne restriktion. Den første er, at det efter manges opfattelse kun relevant at tale om omkostninger, hvis det skal relateres til et omsætningstal. Hvormed man opnår et profit mål. Dette fører til den anden grund. Nemlig den, at der i det efterfølgende flow kan laves profit statistik. I tilfældet med kreditscoringen, hvor target variablen er kategorisk, da vil den forventede profit ved at tage beslutning d for eksempel i være givet ved ( i d ) Q( i, t, d ) P( i t) A, =, (3.4) t hvor P(i, t) angiver den estimerede sandsynlighed for, at eksempel i er af kategori t. Enterprise Mineren s model node gør det, at den gennemløber de mulige valg for hvert eksempel, og tager det valg D(i), der maksimerer den forventede profit. Det vil sige vælger D( ) således at () i = max A( i, d ) = arg max Q( i, t, d ) P( i t) d d D arg, (3.5) Sammenholdes ligning (3.5) med ligning (3.2) og (3.1), så ses det, at Enterprise Miner en umiddelbart giver os de samme muligheder, som den kost-sensitive litteratur foreslår. t Metoden, hvor på man kan indføre en sådan omkostnings følsomhed i modelvalget i Enterprise Mineren, ligger i den såkaldte Target Profile. Denne kan ændres node specifikt, men kan også præciseres for hele projektet, alt afhængig af, hvorledes den enkelte problemstillingen er konstrueret. I denne target profiler har man blandt andet mulighed for specificere matricer, variable og omkostninger, som overordnet er beskrevet ved ligning (3.3). Herudover kan man også præcisere, hvorvidt der skal tages hensyn til a priori bestemte sandsynligheder eller ej, samt hvilken hændelse for target, der ønskes forudsagt. I indeværende opgave er det ikke valgt at benytte prior s, og vi ønsker at beskrive sandsynligheden for en god betaler. For yderligere information eller uddybelse af metoderne i Target Profile, så henvises der til programdokumentationen. Side 9

9 Afsnit 4 Empirisk eksempel Det empiriske eksempel tager udgangspunkt i et sæt bestående af tyske kredit data. Ud fra disse data ønskes i det dette afsnit at udvikle to kreditscoremodeller. Den ene skal være dannet ved normal vis, mens den anden skal vælges ud fra de retningslinier beskrevet i forrige delafsnit. Således, at det til sidst kan vurderes hvorvidt det ud fra disse data har været eksercitsen værd. 4.1 Beskrivelse af data Det anvendte datasættet beskriver som nævnt ovenfor tyske kredit data. Sættet indeholder kun 1000 observationer, hvilket er under alle kriterier for udvikling af et acceptabelt scorekort. Resultater af flere undersøgelser på dette område har vist sig 4, at det normalt kræver et træningsdatasæt på omkring 2000 observationer. Stik i mod dette vil der i dette eksempel blive benyttet et træningssæt bestående af kun 400 observationer. Set under formålet med denne undersøgelse, så kan der argumenteres for, at hovedpointen kan være upåvirket. Dette til trods for, at man kan forestille sig, at der måske kan opnås obskure og ikke umiddelbart logisk fortolkelige resultater ud fra identifikationen. Tillige kan man også forestille sig, at der kan forekomme flere insignifikante parametre end normalt. Argumentet ville derfor gå på, at skønt modellerne måske ikke ville fungere i en kommerciel sammenhæng, så vil dette ikke ødelægge billedet hér. Vi kan komme ud for at sammenligne en dårlig model med en anden dårlig model, men da det er med en økonomisk evaluering for øje, så vil det stadig være muligt at vælge den model med det bedste økonomiske performance. Måske et stærkt kritisabelt ræsonnement set med teoretiske briller, men da det ikke har været muligt at fremskaffe andet relevant data, så synes dette at være den eneste udvej. De 1000 observationer er oprindeligt beskrevet ved 21 variable. I Bilag A.I er en liste over disse variable, samt deres udfald dokumenteret. Der er unmiddelbart en overkencentration af dårlige kunder i samplingen, sammenlignet med den normale accept af bad raten. Denne er nemlig oppe på 30%. Som beskrevet i afsnit 3. 2 giver Enterprise Miner en os lejlighed til at knytte en omkostning til forudsigelsen af hver observation. Nærmere betegnet en kostvariabel. For at udnytte denne mulighed med disse data, har det været nødvendigt at estimere en hypotetisk omkostningsvariabel. Dette er dokumenteret i Bilag A.II. Her er den tilsvarende indtjeningsvariabel dokumenteret. Denne skal benyttes ved den økonomiske evaluering af de opnåede modeller. Som beskrevet i bilaget, så er de to variable estimeret ud fra to antagelser. Dels, at der er en gennemsnitlig indtjening på en god kunde på 2000, mens der på en dårlig kunde er et middeltab på Samt, at indtjeningen og tabene fordeler sig efter to symmetriske normalfordelinger med forskellig middelværdi og varians. 4 Jf. Jacobsen (2000), [12]. Side 10

10 4.2 Explorativ analyse Før den egentlige udvikling startes er det kutyme, at undersøge data ved explorativ undersøgelse. Ligesom data miningens principper ligger op til, og understreger vigtigheden af. Dette er blandt andet med til at understøtte ens valg i forbindelse med kategoriseringen af variablene. Til forskel til fremgangsmåden i indeværende opgave, så er det normalt at inddele alle numeriske variable i kategorier. Således, at der i den logistiske regression kun indgår binære dummy variable. Den procedure i Enterprise Mineren, der bedst understøtter dette formål er multiplot noden. Ved hjælp af denne kan vi undersøge koncentrationen af goods contra bads indenfor hver variabel. Dette a priori kendskab kan også komme til nytte ved vurderingen af parameter estimaterne. Ved hjælp af multiplot noden kan det blandt andet ses, at andelen af gode betalere stiger med alderen. Denne modsatte tendens forefindes indenfor kredittens størrelse. På denne måde kan man gennemgå de enkelte variable således, at man øger sin forståelse af datas sammenhæng. Ligeledes kan man sammen med en portion intuition sammensætte de bedste kategorier efter ens mening. Personligt finder jeg, at det gavner den kommercielle anvendelse, hvis man forener hensynet til modelestimationens performance med eventuelt gældende samfundsregler. Et søgt eksempel herpå kunne være, hvis man indenfor alderen havde, at der skete en drastisk ændring i risikoen efter 66 år. Her ville det være mest oplagt at lade gruppen dele skævt ved 65 eller 67, da man rent virksomhedspolitisk nemmere ville kunne argumentere for rimeligheden i noget med pensionisters generelle betalingsmuligheden. Insight noden og mulitplot noden kan ud over multiplot noden hjælpe én med forståelsen af sammenhængen mellem flere variable og target variablen. 4.3 Metode Metodevalget er faldet på den multiple logistiske regressionsmodel. Andersen (1996), [3], giver en god dybdegående introduktion til denne regressionsanalyse model, og dennes aspekter. Skal der gives nogle indledende bemærkninger til metodikken bag modellen, så vil det tage udgangspunkt i logit - modellen. Antagelserne herom er beskrevet i Andersen(1996), [3], pp Sandsynligheden π i, for, at en hændelse i indtræffer, er per definition begrænset af intervallet [0, 1]. Ud fra denne sandsynlighed kan man udtrykke odds ne for at hændelsen indtræffer ved; ( π ) = π ( 1 π ) O (4.1) Det ses, at givet definitionen af π, så er O bundet nedadtil. Dette kan man komme om ved at tage logaritmen til oddsne. Den samlede transformation, betegnet logit - transformationen, giver derfor muligheden af at transformere intervallet udspændt af nul og et ned på den reelle tal akse. Dette giver os muligheden for at udtrykke en lineær model, hvis parametre kan estimeres indenfor rammerne af den log lineære model og den multinomiale fordeling; Side 11

11 T ( π i ) = ln( π i ( 1 π i ) = β 0 + β1xi 1 +! + β k xik = β X i logit (4.2) Givet estimationen af modellens parametre β og den enkelte observation i, så kan sandsynligheden givet ligning (4.2) udtrykkes ved π i T T ( β X ) { 1 exp( β X )} = exp (4.3) i Af alternative metoder er der blandt andet gennem tiden i forbindelse med kommercielle henseender blevet benyttet simpel lineær regressionsanalyse og diskriminant analyse. 4.4 Den traditionelle scoremodel Denne model er det endelige resultat fra kørslen af det flow beskrevet i det ovenstående samt i Bilag B. Det ses af resultaterne fra maksimum likelihood estimationen, at hovedparten af parameter estimaterne, der ikke er signifikant forskellig fra nul. Hvilket må siges at være stærkt utilfredsstillende. De eneste variable, der bidrager signifikant til beskrivelsen af variationen er umiddelbart kun checking, coapp, duration, foreign, installp samt resident. Hvis de vælgt under en procedure, der accepterer en variabel, hvis blot én af de dertil knyttede dummy variable er signifikant forskellig fra nul på et liberalt femprocent niveau. Herudover kan betydningen af amount, employed samt history diskuteres. i Betragtes estimaterne for parametrene er der til gengæld enkelte fortolkninger, der giver ganske god mening, og understøtter normale forventninger. Som eksempler herpå kan nævnes to af de numeriske variable; age og amount. Med alderen stiger sandsynligheden for at ansøgeren udvikler sig til at blive en god kunde, og omvendt med hovedstolen. I modsætning til dette tegner der sig også tendenser i indeværende data, der strider imod normale forventninger. Såsom det negative estimat for separerede, skilte eller gifte kvinder, samt det positive estimat for arbejdsløsheds dummien. Generelt vil den manglende insignifikans af den overvejende del af variablene højst sandsynligt resultere i en resampling, da man ville påpege mangler i data. 4.5 Den kostsensitive scoremodel Ud fra de metoder som litteraturen foreslår, og med de muligheder, som Enterprise Mineren giver, in mente, så er det også muligt på baggrund af det indeværende data at udvikle to kost-sensitive modeller. Den ene estimeret på baggrund af en profitmatrice, svarende til ligning (3.1). Man kan også udvide modelvalget med en individuel kostvariabel, samtidigt med, at beslutningsmatricen specificeres med omsætningstal, jævnfør ligning (3.3), i stedet for forventet profit. Som beskrevet i bilag B.V har det kun været muligt at estimere en brugbar model ved specificering af profit matrix. I denne model er der fire signifikante parameter estimater; dem for checking, coapp, duration og resident. På liberale 10-procent niveauer kan history og other accepteres med lidt god vilje. Generelt vil man nok også acceptere et intercept til trods for manglende signifikans. Det vil sige ud af de parametre, Side 12

12 som Miner en har valgt, så er godt hver tredje signifikant. I alt er der heller ikke hér mange variable at hænge et eventuelt scorekort op på, hvilket trods en eventuel god forklarings evne igen ville føre til en resampling med krav om flere repræsentative observationer. Da dette ikke er en del af problemstillingen i denne opgave, og på ingen måde en mulighed, så fortsættes der med evaluering af de to scoremodeller, estimeret af Enterprise Miner en. 4.6 Økonomisk evaluering Der i fortløbende lykkedes at estimere to modeller med succes. På disse to modellers parameter estimater har man muligheden for at udvikle et reelt scorekort. Da dette ligge uden for dette øvelsesoplægs rammer vil det i denne evaluering ikke være muligt at vurdere den egentlige forskel de to modeller i mellem. Tillige har det på baggrund af det i forvejen meget lille datasæt ikke været hensigtsmæssigt at udtage evaluerings data. Det har derfor virker mest rimeligt at sammenholde de to modellers forudsigelsesevne for hele dataet. Ud fra de estimerede parametre er det ligetil at beregne de enkelte observationers sandsynligheder under modellen, jævnfør ligning (4.2). Denne procedure er dokumenteret i Bilag C. Den endelige klassificeringsregel givet sandsynlighederne og scorekortet er en politisk beslutning. Det vil derfor i indeværende situation være mest relevant at vurdere forudsigelsernes kvalitet på to måder. Den ene er baseret på, hvorvidt den estimerede sandsynlighed er på den ene eller den anden side af en halv. Den anden er at anvende den hypotetiske omkostning og indtjening. Den første er den væsentligste, da cost/earn variablene ikke er blevet benyttet i estimationen af de to modeller til evaluering. Vælger vi at anskue det tilfælde først, hvor en sandsynlighed på over en halv fører til en forudsigelse af en god kunde, så opnår vi resultatet angivet i Bilag A. Tabel 4.1 viser differencen de to modeller i mellem. Det ses, at den traditionelle model har langt flere forudsagt som gode end den kost-sensitive. På denne måde opnår den omkostnings følsomme model, at givet profitmatricen struktur, at profitten maksimeres på baggrund af data sættet. Det kan derfor også konkluderes, at denne estimationstype er meget sample følsom til forskel fra de normale rare class genkendelsesprocedurer. Tabel 4.1 Forskel imellem forudsigelser af traditionel og kost-sensitive model Til Fra b G Bad Good Kilde: Egen tilvirkning Side 13

13 Dette skal forstås på den måde, at hvis man havde fuld kendskab til alle 1000 hoveder i datasættet, og regner med et middeltab/indtjening på 8000/4000, så vil der være et samlet tab på lidt over 1 million. En del af forudsigelserne får den kost-sensitive algoritme derfor kanaliseret over i bad kategorien for at opnå en positiv profit. Tages den samme indtjening for givet, så vil den kost-sensitive model nemlig føre til en samlet indtjening på 210 tusinde, mens den traditionelle model vil føre til tab på 394 tusinde. Det skal bemærkes, at der i profitmatrice ikke blev specificeret nogle former for alternativ omkostninger. Derfor er der i denne evaluering heller ikke indregnet tabt fortjeneste ved at afvise en god betaler. Dette ville heller ikke føre til anderledes konklusion på basis af det nærværende datasæt. Kun til en mindre forskel de to modeller imellem. Benytter vi en evalueringsmetode, der er mest relevant i tilfældet, hvor vi har taget hensyn til individuelle beslutnings omkostninger, så bliver resultatet også her, at den kost-sensitive model performer bedst. Fremgangsmåden er, at den forudsagte sandsynlighed adderes med den subjektive profiteffekt. Således, at der opnås en forventet profit for det enkelte låntager. Det ses af resultater i Bilag C, at på baggrund af dette data, er den kost-sensitive model foretrukken. Afsnit 5 Konklusion I dette øvelsesoplæg er der blevet gennemgået de helt basale og grundlæggende idéer indenfor Credit Scoring. Med disse i erindring er der ved hjælp af den cost sensitive litteratur fundet eksempler på hvorledes disse traditionelle metoderne indenfor kreditscoring kan revideres således, der tages mere hensyn til de økonomiske perspektiver. Ud fra disse udvidelser samt et ønske om at løse et empirisk eksempel ved hjælp af sas er muligheder indenfor Enterprise Miner en undersøgt. De fandt, at mulighederne for at inddrage omkostninger i estimationen og beslutningen af den endelige mode var mangfoldige. Et udsnit blev forklaret, og benyttet i beregningen af en række modeller. Her af blev to udvalgt til nærmere sammenligning. Den ene model var baseret på traditionel modelvalg, mens den anden blev udvalgt med hensynstagen til en profitmatrice. Udvælgelse af begge modeller blev fuldstændigt overladt til Enterprise Mineren. Ud fra de opnåede resultater blev der udregnet hypotetiske økonomiske overskuds størrelser. Dette resulterede i, at givet dette datasæt, kan det ikke afvises, at den kost-sensitive selektion vil give bedre økonomiske resultater end den traditionelle udvælgelse. Det skal dog påpeges, at grundet manglende muligheder for dataindsamling, er der benyttet et stærkt forenklet datasæt. Det kan ikke udelukkes, at det har kunne forvirre det sande billede. Side 14

14 Afsnit 6 Referencer [1] Adams, N.M. & Hand, D.J.(1998) : Comparing classifiers when the misallocation costs are uncertain, Pattern Recognition 32, 1999, pp [2] Adrians, Pieter & Zantinge, Dolf (1996): Data Mining, 1996, Harlow, England: Addison Wesley Longman Limited. [3] Andersen, Erling B. (1996): Introduction to the Statistical Analysis of Categorical Data, 1997, Berlin: Springer. [4] Berry, Michael J. A. & Linoff, Gordon (1997): Data Mining Techniques: for marketing, Sales and Customer Support, 1997, New York: John Wiley & Sons., Inc. [5] Domingos, Pedro (1999): MetaCost: A General Method for making Classifiers Cost- Sensitive, 1999, Instituto Superior Técnico, Lisbon, Portugal. [6] Elkan, Charles (2000): Cost-Sensitive Learning and Decision-Making when costs are unknown, 2000, Department of Computer Science and Engineering, University of California, San Diego. [7] Eye, Alexander von & Niedermeier, Keith E. (1999): Statistical Analysis of longitudinal Categorical Data in the Social and Behavioral Sciences, 1999, Mahwah, New Jersey: Lawrence Erlbaum Associates, Publishers. [8] Friis, Jessica; Williams, Nadya & Zadrozny, Bianca (1998): Cost-Sensitive Knowledge Discovery: A case Study, 1998, Department of Computer Science and Engineering, University of California, San Diego. [9] Gabrielsen, Gorm; Kousgaard, Nils & Milhøj, Anders (1999): Likelihood-teori, 1999, København: Akademisk Forlag. [10] Groth, Robert (2000): Data Mining: Building Competitive Advantage, 2000, New Jersey: Prentice Hall PTR. [11] Hand, David; Mannila, Heikki & Smyth, Padhraic (2001): Principles of Data Mining, 2001, Massachusetts: MIT Press. [12] Jakobsen, René Brandt (2000): Anvendelse af statistiske metoder til analyse af kreditscoring, 1998, Speciale ved Økonomisk Institut, Københavns Universitet. [13] Kronborg, Dorte; Tjur, Tue & Vincents, Bo (1998): Credit Scoring: Discussion of methods and a case study, 1998, Department of Management Science and Statistics, Copenhagen Business School. [14] McNab, Helen & Wynn, Anthea (2000): Principles and Practice of Consumer Credit Risk Management, 2000, Canterbury, UK: CIB Publishing. [15] Pyle, Dorian (1999): Data Preparation for Data Mining, 1999, San Francisco, California: Morgan Kauffman Publishers Inc. [16] SAS Institute Inc. (2000): Enterprise Miner Reference Help, Part of the software package SAS Enterprise Miner Release 4.1, SAS Institute Inc., Cary, NC, USA. Side 15

15 [17] Thomas, L.C.; Crook, J.N. & Edelman, D.B. (1989): Credit Scoring and Credit Control, 1992, Oxford: Clarendon Press. [18] Turney, Peter D. (1995): Cost-Sensitive Classification: Empirical Evaluation of a hybrid Genetic Decision Tree Induction Algorithm, Journal Of Artificial Intelligence Research 2, 1995, pp [19] Turney, Peter D. (2000): Types of Cost in Inductive Concept Learning, 2000, Institute for Information Technology, National Research Council of Canada, Ontario, Canada. [20] Vinod, Hrishikesh D. & Ullah, Aman (1981): Recent Advances in Regression Methods, 1981, New York: Marcel Dekker Inc. [21] Wang, Xue Z. (1999): Data Mining and Knowledge Discovery for process monitoring and control, 1999, Berlin: Springer Verlag. [22] Webb, Geoffrey I. (1996): Cost-Sensitive Specialization, In the Proceedings of the 1996 Pacific Rim International Conference on Artificial Intelligence, Cairns, Springer Verlag, pp [23] Witten, Ian H. & Frank, Eibe (2000): Data Mining Practical Machine Learning Tools and Techniques, 2000, San Francisco, California: Morgan Kaufmann Publishers. [24] Wonnacott, Thomas H. & Ronald J. (1981): Regression: a second course in statistics, 1981, New York: John Wiley & Sons. [25] Zadrozny, Bianca & Elkan, Charles (2001): Learning and Making Decisions when costs and probalities are both unknown, 2001, Department of Computer Science and Engineering, University of California, San Diego. Side 16

16 Bilag A Data Bilag A.I Dokumentation af datastrukturen Følgende er en tabel, der dokumenterer det anvendte datasæt. Variable Model Role Measurement Description age input interval age in years amount input interval credit amount checking input nominal or ordinal status of existing checking account 1:... < 0 DM 2: 0 <=... < 200 DM 3:... >= 200 DM 4: no checking account coapp input nominal other debtors/guarantors 1: none 2: co-applicant 3: guarantor depends input interval number of dependents durations input interval duration in months employed input ordinal present employement since 1: unemployed 2:... < 1 year 3: 1 <=... < 4 years 4: 4 <=... < 7 years 5:... >= 7 years existcr input interval number of existing credits at this bank foreign input binary foreign worker 1: yes 2: no good_bad target binary credit rating history input ordinal credit history 0: no credits taken / all credits paid back duly 1: all credits at this bank padi back duly 2: existing credits paid bacl duly till now 3: delay in paying off in the past 4: critical account / other credits existing (not at this bank) housing input nominal housing 1: rent 2: own 3: for free installp input interval installment rate in percentage of disposable income job intput ordinal job 1: unemployed / unskilled non-resident 2: unskilled resident 3: skilled employee / official 4: management / self-employed / highly qualified employee / officer martial intput nominall personal status and sex 1: male -- divorced / separated 2: female -- divorced / separated / married 3: male -- single Side 17

17 4: male -- married / windowed 5: female -- single other input nominal other installment plans 1: bank 2: stores 3: none property input nominal or ordinal property 1: real estate 2: if not 1, building society savings agreement / life insurance 3: if not 1 or 2, car or others 4: unknown / no property purpose input nominal purpose 0: new car 1: used car 2: furniture / equipment 3: radio / television 4: domestic appliances 5: repairs 6: education 7: vacation 8: retraining 9: business x: others resident input interval present residence since savings input nominal or ordinal status of existing saving account or bonds 1:... < 100 DM 2: 100 <=... < 500 DM 3: 500 <=... < 1,000 DM 3:... >= 1,000 DM 4: unknown / no saving account telephon input binary telephone 1: none 2: yes, registered under the customer's name Kilde: SAS Institute Inc. Det er på basis af udfaldene, at Enterprise Mineren danner de i modellen anvendte dummy variable. Bilag A.II Dannelse af de to hypotetiske profitvariable Til brug i evalueringen af de estimerede modeller vil der blive brug for hypotetiske variable. Én der beskriver den forventede indtjening for en given god kunde, samt det forventede tab for en dårlig kunde. Denne fremgangsmåde er stærkt kritisabel, men da det ikke har været muligt at fremskaffe relevant data, så synes dette at være den eneste udvej. Måden hvorpå det kan gøres mindst kritisabelt er ved at foretage tilfældige træk fra en standardiseret normal fordeling. På baggrund af disse normalt fordelte tilfældige værdier kan der så dannes 300 nettoomkostninger med en middelværdi på 8000 og 700 nettoindtjeninger med middelværdi på Ud fra en hypotese om, at der i gennemsnit går 4 gode kunder på én dårlig for at opnå breakeven. /************************************/ /* Dannelse af random norm variable */ /************************************/ data temp.credit (drop = x); set temp.credit_2; x = RAND('normal'); cost = 0; earn = 0; if good_bad = 'bad' then do; cost = int(x* ); end; if good_bad = 'good' then do; earn = int(x* ); end; run; Side 18

18 Bilag B Modelestimation Bilag B.I Undersøgelse af data Ved den explorative undersøgelse af data er der benyttet følgende diagram Indenfor hver node er der foretaget løbende ændringer, så det ønskede output er fremkommet. Bilag B.II Transformation af forklarende variable Enterprise Miner pakken indeholder også muligheden for at benytte en transformerings node til at behandle en eller flere af variablene inden den endelige modellering. I dette tilfælde ville det være relevant at transformere tre variable med henblik på maksimering af normalitet. Nemlig de tre numeriske forklarende variable; duration, amount og age. Transformerings noden foreslår ved maksimering af de tre variables normalitet at tage naturlige logaritmer i alle tre tilfælde. Gøres dette på en gang eller sekventielt så opnås der i alle eksempler en dårligere modelklassifikationsevne. Den primære årsag til dette er, at på trods af, at parameterestimaterne for amount og age ved et wald test ikke kan afvises af være lig nul, så bidrager de alligevel til forklaringen i modellen. Derfor vil en logistisk transformation indskrænke deres variations område, og understrege insignifikansen af de to variable. Derfor bliver de udeladt af den endelige model, hvis de transformeres. Grundet den dårligere klassifikationsevne så vælges det, at det traditionelle kort udvikles på den model med uden logistisk transformationer. Tillige bidrager dette gavnligt til signifikansen af parameter estimatet for duration variablen. Bilag B.III Modelestimations procedure Flowet benyttet i forbindelse med estimationen af de to modeller kan beskrives ved følgende diagram Ændringerne indenfor hver node, herunder specifikationen af target profilen, er de, som gør sig gældende indenfor det enkelte eksempel. Side 19

19 Bilag B.IV Den endelige traditionelle model The DMREG Procedure Analysis of Maximum Likelihood Estimates Standard Wald Pr > Standardized Parameter DF Estimate Error Chi-square Chi-square Estimate exp(est) Intercept age amount checking < checking checking coapp coapp depends duration employed employed employed employed existcr existcr existcr foreign history history history history housing housing installp installp installp job job job marital marital marital other other property property property purpose purpose purpose purpose purpose purpose purpose purpose purpose resident resident resident savings savings savings savings telephon The FREQ Procedure Table of F_good_bad by I_good_bad F_good_bad(From: good_bad) I_good_bad(Into: good_bad) Frequency Side 20

20 Percent Row Pct Col Pct BAD GOOD Total BAD GOOD Total Bilag B.V De endelige kost-sensitive modeller Resultatet af estimationen af modellen, hvor der er specificeret en profit matrice af formen 1 0 Q( i, t, d ) = π ( t, d ) = 4 0 ser således ud The DMREG Procedure Analysis of Maximum Likelihood Estimates Standard Wald Pr > Standardized Parameter DF Estimate Error Chi-square Chi-square Estimate exp(est) Intercept checking < checking checking coapp coapp duration < history history history history installp installp installp other other purpose purpose purpose purpose purpose purpose purpose purpose purpose resident resident resident The FREQ Procedure Table of F_good_bad by I_good_bad F_good_bad(From: good_bad) I_good_bad(Into: good_bad) Frequency Percent Row Pct Side 21

21 Col Pct BAD GOOD Total BAD GOOD Total Bilag C Modelevaluering /*************************************************/ /* Scoring af data i nye variable */ /*************************************************/ data credit_2; set credit; /* checking behandles */ checking_1 = 0; checking_2 = 0; checking_3 = 0; if checking = 1 then checking_1 = 1; if checking = 2 then checking_2 = 1; if checking = 3 then checking_3 = 1; /* coapp behandles */ coapp_1 = 0; coapp_2 = 0; if coapp = 1 then coapp_1 = 1; if coapp = 2 then coapp_2 = 1; /* depends behandles */ depends_1 = 0; if depends = 1 then depends_1 = 1; /* employed behandles */ employed_1 = 0; employed_2 = 0; employed_3 = 0; employed_4 = 0; if employed = 1 then employed_1 = 1; if employed = 2 then employed_2 = 1; if employed = 3 then employed_3 = 1; if employed = 4 then employed_4 = 1; /* existcr behandles */ existcr_1 = 1; existcr_2 = 1; existcr_3 = 1; if existcr = 1 then existcr_1 = 1; if existcr = 2 then existcr_2 = 1; if existcr = 3 then existcr_3 = 1; /* foreign behandles */ foreign_1 = 0; if foreign = 1 then foreign_1 = 1; /* history behandles */ history_0 = 0; history_1 = 0; history_2 = 0; history_3 = 0; if history = 0 then history_0 = 1; if history = 1 then history_1 = 1; if history = 2 then history_2 = 1; if history = 3 then history_3 = 1; /* housing behandles */ housing_1 = 0; housing_2 = 0; if housing = 1 then housing_1 = 1; if housing = 2 then housing_2 = 1; /* installp behandles */ installp_1 = 0; installp_2 = 0; installp_3 = 0; if installp = 1 then installp_1 = 1; if installp = 2 then installp_2 = 1; if installp = 3 then installp_3 = 1; /* job behandles */ job_1 = 0; job_2 = 0; job_3 = 0; if job = 1 then job_1 = 1; if job = 2 then job_2 = 1; if job = 3 then job_3 = 1; /* marital behandles */ marital_1 = 0; marital_2 = 0; marital_3 = 0; if marital = 1 then marital_1 = 1; if marital = 2 then marital_2 = 1; if marital = 3 then marital_3 = 1; /* other behandles */ other_1 = 0; other_2 = 0; if other = 1 then other_1 = 1; if other = 2 then other_2 = 1; /* property behandles */ property_1 = 0; property_2 = 0; property_3 = 0; if property = 1 then property_1 = 1; if property = 2 then property_2 = 1; if property = 3 then property_3 = 1; /* purpose behandles */ purpose_0 = 0; purpose_1 = 0; purpose_2 = 0; purpose_3 = 0; purpose_4 = 0; purpose_5 = 0; purpose_6 = 0; purpose_8 = 0; purpose_9 = 0; if purpose = 0 then purpose_0 = 1; if purpose = 1 then purpose_1 = 1; if purpose = 2 then purpose_2 = 1; if purpose = 3 then purpose_3 = 1; if purpose = 4 then purpose_4 = 1; if purpose = 5 then purpose_5 = 1; if purpose = 6 then purpose_6 = 1; if purpose = 8 then purpose_8 = 1; if purpose = 9 then purpose_9 = 1; /* resident behandles */ resident_1 = 0; resident_2 = 0; resident_3 = 0; if resident = 1 then resident_1 = 1; if resident = 2 then resident_2 = 1; if resident = 3 then resident_3 = 1; /* savings behandles */ savings_1 = 0; savings_2 = 0; savings_3 = 0; savings_4 = 0; if savings = 1 then savings_1 = 1; if savings = 2 then savings_2 = 1; if savings = 3 then savings_3 = 1; if savings = 4 then savings_4 = 1; /* telephon behandles */ telephon_1 = 0; Side 22

Vis mere