Indholdsfortegnelse 1.1 PROBLEMFORMULERING AFGRÆNSNING KREDITSCORINGENS METODIK OG OPBYGNING...4 DE ØKONOMISKE PERSPEKTIVER...

Størrelse: px
Starte visningen fra side:

Download "Indholdsfortegnelse 1.1 PROBLEMFORMULERING...3 1.2 AFGRÆNSNING...3 2.1 KREDITSCORINGENS METODIK OG OPBYGNING...4 DE ØKONOMISKE PERSPEKTIVER..."

Transkript

1 Indholdsfortegnelse AFSNIT 1 INDLEDNING PROBLEMFORMULERING AFGRÆNSNING...3 AFSNIT 2 KREDITSCORING KREDITSCORINGENS METODIK OG OPBYGNING...4 AFSNIT 3 DE ØKONOMISKE PERSPEKTIVER DEN KOST-SENSITIVE MODEL HVILKE MULIGHEDER GIVER SAS EM?...8 AFSNIT 4 EMPIRISK EKSEMPEL BESKRIVELSE AF DATA EXPLORATIV ANALYSE METODE DEN TRADITIONELLE SCOREMODEL DEN KOSTSENSITIVE SCOREMODEL ØKONOMISK EVALUERING...13 AFSNIT 5 KONKLUSION...14 AFSNIT 6 REFERENCER...15 BILAG A DATA...17 BILAG A.I BILAG A.II DOKUMENTATION AF DATASTRUKTUREN...17 DANNELSE AF DE TO HYPOTETISKE PROFITVARIABLE...18 BILAG B MODELESTIMATION...19 BILAG B.I UNDERSØGELSE AF DATA...19 BILAG B.II TRANSFORMATION AF FORKLARENDE VARIABLE...19 BILAG B.III MODELESTIMATIONS PROCEDURE...19 BILAG B.IV DEN ENDELIGE TRADITIONELLE MODEL...20 BILAG B.V DE ENDELIGE KOST-SENSITIVE MODELLER...21 BILAG C MODELEVALUERING...22

2 Afsnit 1 Indledning Den traditionelle kreditvurdering i forbindelse med privatpersoners låntagning sker på baggrund af et forudgående kendskab til kunden. Dette kendskab suppleres ofte af et budget, en opgørelse over de indtjeningsforhold, der gør sig gældende, samt hvad långiveren herudover finder relevant. Denne proces er meget ressourcekrævende, og kan i mange tilfælde være til gene for både långiver og tager. Kreditscoringens metoder tager udgangspunkt i disse ulemper, og prøver at løse dem ved hjælp af en række statistiske procedurer. 1.1 Problemformulering Givet den statistiske natur af problematikken er det ikke forretningsmæssig sædvane at inddrage de økonomiske perspektiver af lånevurderingen. Det overordnede formål med indeværende øvelsesoplæg er derfor at opstille en økonomisk problemstilling i forbindelse med udviklingen af en kreditscoringsmodel. Herunder, at der gives en meget kort introduktion til kreditscoring, dens metoder samt disses anvendelighed i programpakken SAS Enterprise Miner. Det ønskes herudover at, det vurderes udfra et empirisk eksempel om denne udvidede eksercits er anstrengelsen værd målt i økonomisk overskud. 1.2 Afgrænsning De fleste kommercielt anvendte data behandlings procedurer involverer en række kritiske problemstillinger og antagelser set med rent videnskabelige øjne. Grundet dette oplægs meget begrænsede omfang og fokus på den praktiske anvendelighed, vil der ikke blive gået i dybden med de punkter, der kunne være kritisable. Den anvendte model, dennes teori samt fordele og ulemper contra andre modeltyper vil heller ikke behandles. Tillige kan der forekomme arbejdsgange, i forbindelse med udviklingen af scorekortet, der vil blive kommenteret kort eller benyttet uden videre diskussion eller forklaring. Her i blandt de forhold, der tegner sig ved dokumentationen af data, så som generelle problemer ved indsamling af sådanne stikprøver; eksempelvist sampling, behandling af missing values, for ikke at glemme reject inference 1. Endvidere stilles, der ikke spørgsmål til rigtigheden af de good/bad markeringer, der er sat i det benyttede materiale, da disse normalt er afgjort ud fra internt politisk bestemte kriterier, der ikke er kendte hér. Generelt vil der være store dele af den praktiske anvendelse af kreditscoring, der vil blive overladt til referencer. 1 Refererer til problematikken, der opstår ved, at udviklingen af selve scorekortet sker på basis af et datagrundlag, som ikke indeholder de initialt afslåede låneansøgninger. Se eksempelvist Jacobsen(2000), [12], for yderligere information. Side 3

3 Afsnit 2 Kreditscoring De første tanker omkring en statistisk begrundet scoring af kunder i forbindelse med kreditgivning, som vi kender det i dag, stammer helt tilbage til 1940 ernes USA. Her var David Durand s Risk Elements in Consumer Installment Financing blandt de første til fremhæve mulighederne for at skabe et systematisk førstegangsindtryk af en låneansøgning ved hjælp af kendte matematisk statistiske metoder. Den store udbredelse måtte vente på sig i to årtier, indtil amerikanske detailkæder og postordre virksomheder i 1960 erne begyndte at anvende systemet i forbindelse med tilgodehavende. Senere begyndte de store olieselskaber og kreditkortselskaber, såsom VISA og MasterCard. Historien bag brugen af kreditscoring hænger altså meget naturligt sammen med udviklingen i brugen af kreditkort, og udstedelse af forbrugslån baseret på få eller næsten ingen oplysninger omkring klienten. Det er nemlig efter manges mening også hér, den har sin største berettigelse. I midlertidigt er det dog sådan, at i dag har de fleste store penge- og kreditinstitutter implementeret et kreditscoresystem, hvis primære funktion er vejledende i forbindelse med en traditionel kreditvurdering. 2.1 Kreditscoringens metodik og opbygning Grundlæggende er kreditscoring en statistisk baseret kreditvurdering, hvor der på basis af en eksisterende kunde-portefølje er fundet de karakteristika, der bidrager signifikant til beskrivelsen af variationen i sandsynligheden for, at en given klient vil udvikle sig til at blive en god eller en dårlig kunde. En fuldstændig fremstilling af, hvad kredit scoring indebærer vil dog snarere være en række forretningsgange, som har til formål at få klassificeret en potentiel låntager i et net af risikoklasser, der beskriver den forventede fyldestgørelse af tilbagebetalingen. Ud fra disse risikoklasser, og den af ledelsen besluttede portefølje kvalitet, kan det så besluttes dels hvorvidt lånet skal godkendes under de givne forhold eller afslås, og dels hvorvidt det skal tilbydes under andre betingelser. Med andre betingelser kan man forstille sig et tiltag, der sikrer, at den forventede risiko ved udstedelsen af lånet bliver indenfor rammen besluttet af ledelsen. Af sådanne oplæg kan for eksempel nævnes et krav om en medansøger eller et forslag om en delbevilling. Den informationsmængde, der indsamles som input til kredit vurderingen af en ansøger, samt den statistiske metode, der benyttes til at analysere de historiske ansøgninger, er en beslutning, der afhænger meget af situationen og formålet. I indeværende opgave vil der blive benyttet en multipel logistisk regressions model. Læsere, der ikke er bekendt med denne type af regressionsanalyse, anbefales, at rådføre sig med for eksempel Andersen (1996), [3], Eye (1999), [7], eller Wonnacott (1981), [24]. Valget af denne model er baseret på dens udbredte kommercielle anvendelse samt resultat af diskussion i Kronborg(1998), [13]. 2 Den fundamentale struktur af det traditionelle udviklingsforløb i forbindelse 2 For sammenligning af metoder kan der også henvises til Jacobsen(2000), [12], og McNab(2000), [14]. Side 4

4 med den statistiske ligner meget det flow, man ville opbygge indenfor en data mining proces. Man tager udgangspunkt i indsamlingen af en statistisk acceptabel stikprøve, der opfylder de retningslinier indenfor samplingen, der ønskes at være opfyldt; skal stikprøven være stratificeret? Skal den afspejle strukturen af den originale population? I nærværende oplæg vil, der ikke blive gået i dybden med denne del af problematikken. De forudsættes dog, at det benyttede datasæt er udtaget på en sådan måde, at det at være en dårlig kunde er overrepræsenteret i forhold til populationen, samt modellen ikke kommer til at udvise bias eller fejlspecifikationer på grund af reject inference, eliminering af missing values eller lignende problemer. Dette er selvfølgeligt stærk kritisable antagelser, men da det er et udefra konstrueret og højst sandsynligt stærkt opsminket datasæt, så ses der ikke andre udveje. Indenfor traditionel kreditscoring er det normal procedure at udtage stikprøven på den måde, at man vælger en sampling og en outcome periode. Dette er illustreret i figur 2.1. Sample periode er således det tidsafsnit, hvor de betragtede ansøgninger udtrækkes, og outcome perioden det, som giver data, der ligger til grund for klassifikationen af den enkelte kunde. Figur 2.1 Sampling Kilde: Egen tilvirkning efter idé fra McNab (2000), [14]. Ud fra det indsamlede datasæt, og de af ledelsen fremsatte krav til gode contra dårlige kunder, er kunderne grupperet i risikogrupper. Det er normal kutyme, at benytte to eller tre grupperinger; good contra bad, og i mange tilfælde også indeterminate. Det næste trin i processen er at gennemgå en almindelig eksplorativ analyse af de enkelte variable og dennes koncentration af g/b s, de såkaldte g:b odds ratio. 3 Herved får man et forgrovet indtryk af, hvordan den enkelte variabel tegner sig i det samlede risikobillede. Benytter man sig en logistisk regressionsanalyse vil dette også kunne hjælpe én til, hvorledes de enkelte variable skal scores. Dette kan nemlig i nogle tilfælde jf. Andersen(1996), [3], vise sig at have betydning i forbindelse med estimationen af modellens parametre. Den sidste overordnede del af proceduren er selve modelestimationen, og udviklingen af scorepointene. Ud over selve denne statistiske eksercits ligger hele implementerringen af scorekortet, og et væld af ledelses politiske beslutninger. Som eksempel her på kan nævnes det cut-off, og scoreintervallerne, der afgører, hvorvidt lånet skal gives og under hvilke kontraktlige omstændigheder. Valget af cut-off kan visualisres ved hjælp af en af de fundamentale antagelser under den statistiske model. Man forstiller sig nemlig, at de forskellige risikoklasse fordeler sig med en given variation 3 Det skal bemærkes at disse ikke har noget med de odds ratio s, man opererer med indenfor logit-modellen, at gøre. Side 5

5 omkring en fælles middelværdi indenfor den enkelte gruppe. Antager vi her, at koncentrationen af gode contra dårlige i porteføljen følger en symmetrisk fordeling med samme varians kunne man fremstille situationen som gjort i figur 2.2. Cut-off værdien vælges herefter ud fra på den ene side den maksimalt acceptale bad-rate og på den anden side antallet af teoretisk gode betalere, som man kan tåle at miste. Figur Hypotestisk koncentration af risicotyper Andel Score intervaller Kilde: Egen tilvirkning Vælger man en cut-off værdi på 550 contra 625, så opnår man naturligt, at der accepteres flere bad s, mens der afvises færre good s. Dette er selvfølgelig kun et forenklet eksempel, der skal give en overordnet idé om teknikkerne. Herudover er der også et utal af blandt andet monitorerings værktøjer. For yderligere materiale på disse mere management baserede områder må der henvises til Jacobsen(2000), [12], McNab(2000), [14], samt Thomas(1989), [17]. Afsnit 3 De økonomiske perspektiver I forbindelse med implementeringen af et scorekort har det ikke tidligere været normal praksis at koncentrere sig om de dybere økonomiske perspektiver af estimationen og valget af den endelige model til fastsættelse scoreværdierne. Man har gjort sit ypperste for at finde den model, der kunne på rimelig enkel vis identificere en potentiel dårlig betaler, og fokus har været rettet på misklassifications raten og bad raten. Når der blev talt økonomi, valgte man løbende den cut-off værdi, som sikrede den ønskede forventede good/bad sammensætning ud fra mere politiske overbevisninger end forretningsmæssige. Indenfor de senere år har der dog primært været to hovedordnede forslag fremme. Det ene gik på den initiale definition af flagene der identificerede de gode i modsætning til de dårlige kunder. I stedet for de mere konservative synspunkter på en ringe betaler, så kunne man lave en økonomisk argumenteret definitionsramme af de tilstræbte kundeprofiler. Det klassiske eksempel er en kunde, der har været i rykkerkørsel et par gange, på grund af manglende betaling. En ting, der i mange policy rules giver en bad markering. Måske bliver kunden endda indberettet til incasso. Men til slut og ende så betaler kunden både lånet, rykkergebyrer og morarenter tilbage. Det er en risikofyldt forretning, men et eller andet sted, set i bakspejlet, så havde en good markering været berettiget ud fra et økonomisk synspunkt. Det andet forslag er gået på valget af cut-off værdien for det samlede antal scorepoint, der Side 6

6 kræves for at lånet godkendes til initiale forhold. Som nævnt i ovenstående afsnit, så er det normal kutyme at vælge cut-off ud fra en vægtet beslutning om den generelle overbevisning for hvor mange gode der går på en dårlige for, at der er break-even i indtjeningen, samt den ønskede maksimale badrate. Det der ligger lidt tilbage i det uvisse nu er, hvad med modelvalget eller estimationen af variablene. Kunne man på en eller anden måde konstruere en algoritme, der sikrede at valget af den endelige model ikke nødvendigvis var den der var bedst til at identificere de dårlige og de gode kunder, men valgte den model der viste sig at give den bedste økonomiske performance? Som det vil fremgå af det næste delafsnit, så vil det vise sig, at svaret er inden for computer science og knowledge discovery. 3.1 Den kost-sensitive model I løbet det seneste årti er der sprunget en række litteratur op omkring såkaldte MetaCost og Costsensitive Learning algoritmer og estimations systematikker. Fælles for disse er, at de foreslår metoder, hvorpå man kan gøre valget af de estimerede klassifikationer afhængige af omkostninger. Omkostninger skal selvfølgelig her forstås i et bredere perspektiv. Selvom blandt andet Zadrozny(2001), [25], tilråder, at man ikke benytter cost matricer, da disse ofte indebærer en række alternativ omkostninger, men rettere anvender en benefit matrix. Disse påstande kan man selvfølgelig vælge at se bort fra. Grundlæggende indeholder denne litteratur to typer af konkretiseringer af problematikken. Princippet bag det første af disse to er, at der forbindes en omkostning til hvert trænings eller test eksempel. Forestiller vi os, at vi har n mulige klasser, som et eksempel x kan kategoriseres i, så kan vi konstruere en matrix C af dimension n n, der i den j te række og i te sølje angiver den observerede, eller forvendte, omkostning, der skal afholdes ved at forudsige klasse i, hvis den rigtige klasse er j. Denne matrice vil i det efterfølgende blive betegnet omkostningsmatricen. Er denne matrice kendt, så reduceres problematikken til et optimerings spørgsmål. Den optimale forudsigelse af x er derfor den klasse i, der fører til den laveste forventede omkostning n j= 1 P ( j x) C( i j), (3.1) hvor P(j x) angiver den estimerede sandsynlighed for, at klasse j er den sande forudsigelse givet case x. Den anden type gør denne misklassifikations omkostning case sensitiv. Således knyttes der nu en omkostning C(i, j, x) på hver forudsigelse. Således angiver C( ) omkostningen forbundet med at forudsige klasse i for case x, hvis den rigtige klasse er j. Hermed opnår vi nu følgende minimeringsproblem i stedet for (3.1) j ( j x) C( i j x) P,, (3.2) Side 7

7 Problemet løses da ved først at identificere, hvilken af det to situationer man befinder sig i. Dernæst at konstruere en lærings algoritme, der kan løse den eksakte problemstilling. Dette ligger klart udenfor dette oplægs rammer, så dette vil blive overladt til læseren. Der kan dog henvises til Domingos(1995), [5], der opstiller grundrammen for en MetaCost algoritme, samt Elkan(2000), [6], og Zadrozny(2001), [25]. 3.2 Hvilke muligheder giver SAS EM? Vi ønsker, at løse dette problem med denne økonomisk argumenterede kreditscore model ved hjælp af SAS Enterprise Miner. Derfor virker det mest oplagt at sammenholde retningslinierne i litteraturen med mulighederne indenfor Miner en. Under hver model node i Enterprise Miner en er det muligt at specificere en beslutningsproblematik givet et score datasæt samt en række numeriske konsekvenser. Der er flere muligheder for præcisering af disse konsekvenser; en valgmatrice, en kostvariabel og en kostkonstant. Valgmatricen er fundamentalt opbygget på samme vis som kostmatricen C. Den indeholder nemlig rækker svarende til målværdierne, og søjler svarende til de valg, der ønskes vurderet. Således opnår man, at man en værdi af hver beslutning repræsenteret ved mål specifikke konsekvenser. Man kan hér såvel specificere profit eller omsætning som tab. Det skal med denne generelle metode bemærkes, at konsekvenserne er de samme for alle observationer, der skal klassificeres. Kostvariable er derimod en variabel i datasættet, der forbinder en given omkostning med den enkelte observation, eller rettere forudsigelsen af samme. Med kostkonstanten kan man specificere en fast omkostning forbundet med en beslutning. Som eksempel herpå kan gives den gennemsnitlige omkostning i forbindelse med udsendelsen af et donationsbrev, der behandles i det populære KDD98 datasæt. Dette kan således kombineres med en beslutningsmatrice, der angiver den forventede donation. Således kan ved hjælp af disse tre værktøjer, som Target Profile - ren giver os, lave den kombination, der understøtter ens problemstilling. Der gives gode eksempler herpå i dokumentationen af programmet; SAS Institute Inc. (2000), [16]. I det følgende er det kun mulighederne under øvelsesoplæggets problemstilling, der vil blive gennemgået. Specifikationen af en beslutnings eller omkostnings matrice vil i tilfældet med anvendelsen af en regressions node ikke have effekt på estimationen af modellens parametre. Tillige vil det generelt ikke påvirke error funktioner, såsom afvigelse eller likelihood. Residualer, der er baseret på senere estimerede sandsynligheder før justering af tidligere specificerede. Fit statistikker, som er beregnet ud fra residualer eller afvigelsesfunktioner. Endvidere forbliver klassifikation og misklassifikationsrate uændret. Det, der som standard ændres ved indførelsen af en valgmatrice, er valget af den endelige model. Dette kræver dog normalt, at der er specificeret mindst to valg i matricen. Side 8

8 De muligheder miner en gør er at, den udfra de specificerede konsekvenser, det vil sige beslutningsmatricen eller omkostningerne, så konstruerer en konsekvens variabel Q(i,t,d) Q ( i, t, d ) = (, d ) C( i, d ), hvis både R() og C() ( t, d ), hvisπ () L( t, d ), hvis L() R t π er specificeret (3.3) er specificeret er specificerede hvor i refererer til indekset over eksemplerne, t over mål værdierne samt d over de mulige beslutninger. Beslutningsmatricen kan præciseres som en R matrix, hvis indholdet er omsætning, samt π = -L hvis indholdet er profit eller direkte tab. Det ses yderligere af strukturen i (3.3), at det kun er muligt at knytte en omkostninger C( ) på, hvis der i problemet er indeholdt en beslutningsmatrix, der rummer omsætningstal. Der er primært to grunde til denne restriktion. Den første er, at det efter manges opfattelse kun relevant at tale om omkostninger, hvis det skal relateres til et omsætningstal. Hvormed man opnår et profit mål. Dette fører til den anden grund. Nemlig den, at der i det efterfølgende flow kan laves profit statistik. I tilfældet med kreditscoringen, hvor target variablen er kategorisk, da vil den forventede profit ved at tage beslutning d for eksempel i være givet ved ( i d ) Q( i, t, d ) P( i t) A, =, (3.4) t hvor P(i, t) angiver den estimerede sandsynlighed for, at eksempel i er af kategori t. Enterprise Mineren s model node gør det, at den gennemløber de mulige valg for hvert eksempel, og tager det valg D(i), der maksimerer den forventede profit. Det vil sige vælger D( ) således at () i = max A( i, d ) = arg max Q( i, t, d ) P( i t) d d D arg, (3.5) Sammenholdes ligning (3.5) med ligning (3.2) og (3.1), så ses det, at Enterprise Miner en umiddelbart giver os de samme muligheder, som den kost-sensitive litteratur foreslår. t Metoden, hvor på man kan indføre en sådan omkostnings følsomhed i modelvalget i Enterprise Mineren, ligger i den såkaldte Target Profile. Denne kan ændres node specifikt, men kan også præciseres for hele projektet, alt afhængig af, hvorledes den enkelte problemstillingen er konstrueret. I denne target profiler har man blandt andet mulighed for specificere matricer, variable og omkostninger, som overordnet er beskrevet ved ligning (3.3). Herudover kan man også præcisere, hvorvidt der skal tages hensyn til a priori bestemte sandsynligheder eller ej, samt hvilken hændelse for target, der ønskes forudsagt. I indeværende opgave er det ikke valgt at benytte prior s, og vi ønsker at beskrive sandsynligheden for en god betaler. For yderligere information eller uddybelse af metoderne i Target Profile, så henvises der til programdokumentationen. Side 9

9 Afsnit 4 Empirisk eksempel Det empiriske eksempel tager udgangspunkt i et sæt bestående af tyske kredit data. Ud fra disse data ønskes i det dette afsnit at udvikle to kreditscoremodeller. Den ene skal være dannet ved normal vis, mens den anden skal vælges ud fra de retningslinier beskrevet i forrige delafsnit. Således, at det til sidst kan vurderes hvorvidt det ud fra disse data har været eksercitsen værd. 4.1 Beskrivelse af data Det anvendte datasættet beskriver som nævnt ovenfor tyske kredit data. Sættet indeholder kun 1000 observationer, hvilket er under alle kriterier for udvikling af et acceptabelt scorekort. Resultater af flere undersøgelser på dette område har vist sig 4, at det normalt kræver et træningsdatasæt på omkring 2000 observationer. Stik i mod dette vil der i dette eksempel blive benyttet et træningssæt bestående af kun 400 observationer. Set under formålet med denne undersøgelse, så kan der argumenteres for, at hovedpointen kan være upåvirket. Dette til trods for, at man kan forestille sig, at der måske kan opnås obskure og ikke umiddelbart logisk fortolkelige resultater ud fra identifikationen. Tillige kan man også forestille sig, at der kan forekomme flere insignifikante parametre end normalt. Argumentet ville derfor gå på, at skønt modellerne måske ikke ville fungere i en kommerciel sammenhæng, så vil dette ikke ødelægge billedet hér. Vi kan komme ud for at sammenligne en dårlig model med en anden dårlig model, men da det er med en økonomisk evaluering for øje, så vil det stadig være muligt at vælge den model med det bedste økonomiske performance. Måske et stærkt kritisabelt ræsonnement set med teoretiske briller, men da det ikke har været muligt at fremskaffe andet relevant data, så synes dette at være den eneste udvej. De 1000 observationer er oprindeligt beskrevet ved 21 variable. I Bilag A.I er en liste over disse variable, samt deres udfald dokumenteret. Der er unmiddelbart en overkencentration af dårlige kunder i samplingen, sammenlignet med den normale accept af bad raten. Denne er nemlig oppe på 30%. Som beskrevet i afsnit 3. 2 giver Enterprise Miner en os lejlighed til at knytte en omkostning til forudsigelsen af hver observation. Nærmere betegnet en kostvariabel. For at udnytte denne mulighed med disse data, har det været nødvendigt at estimere en hypotetisk omkostningsvariabel. Dette er dokumenteret i Bilag A.II. Her er den tilsvarende indtjeningsvariabel dokumenteret. Denne skal benyttes ved den økonomiske evaluering af de opnåede modeller. Som beskrevet i bilaget, så er de to variable estimeret ud fra to antagelser. Dels, at der er en gennemsnitlig indtjening på en god kunde på 2000, mens der på en dårlig kunde er et middeltab på Samt, at indtjeningen og tabene fordeler sig efter to symmetriske normalfordelinger med forskellig middelværdi og varians. 4 Jf. Jacobsen (2000), [12]. Side 10

10 4.2 Explorativ analyse Før den egentlige udvikling startes er det kutyme, at undersøge data ved explorativ undersøgelse. Ligesom data miningens principper ligger op til, og understreger vigtigheden af. Dette er blandt andet med til at understøtte ens valg i forbindelse med kategoriseringen af variablene. Til forskel til fremgangsmåden i indeværende opgave, så er det normalt at inddele alle numeriske variable i kategorier. Således, at der i den logistiske regression kun indgår binære dummy variable. Den procedure i Enterprise Mineren, der bedst understøtter dette formål er multiplot noden. Ved hjælp af denne kan vi undersøge koncentrationen af goods contra bads indenfor hver variabel. Dette a priori kendskab kan også komme til nytte ved vurderingen af parameter estimaterne. Ved hjælp af multiplot noden kan det blandt andet ses, at andelen af gode betalere stiger med alderen. Denne modsatte tendens forefindes indenfor kredittens størrelse. På denne måde kan man gennemgå de enkelte variable således, at man øger sin forståelse af datas sammenhæng. Ligeledes kan man sammen med en portion intuition sammensætte de bedste kategorier efter ens mening. Personligt finder jeg, at det gavner den kommercielle anvendelse, hvis man forener hensynet til modelestimationens performance med eventuelt gældende samfundsregler. Et søgt eksempel herpå kunne være, hvis man indenfor alderen havde, at der skete en drastisk ændring i risikoen efter 66 år. Her ville det være mest oplagt at lade gruppen dele skævt ved 65 eller 67, da man rent virksomhedspolitisk nemmere ville kunne argumentere for rimeligheden i noget med pensionisters generelle betalingsmuligheden. Insight noden og mulitplot noden kan ud over multiplot noden hjælpe én med forståelsen af sammenhængen mellem flere variable og target variablen. 4.3 Metode Metodevalget er faldet på den multiple logistiske regressionsmodel. Andersen (1996), [3], giver en god dybdegående introduktion til denne regressionsanalyse model, og dennes aspekter. Skal der gives nogle indledende bemærkninger til metodikken bag modellen, så vil det tage udgangspunkt i logit - modellen. Antagelserne herom er beskrevet i Andersen(1996), [3], pp Sandsynligheden π i, for, at en hændelse i indtræffer, er per definition begrænset af intervallet [0, 1]. Ud fra denne sandsynlighed kan man udtrykke odds ne for at hændelsen indtræffer ved; ( π ) = π ( 1 π ) O (4.1) Det ses, at givet definitionen af π, så er O bundet nedadtil. Dette kan man komme om ved at tage logaritmen til oddsne. Den samlede transformation, betegnet logit - transformationen, giver derfor muligheden af at transformere intervallet udspændt af nul og et ned på den reelle tal akse. Dette giver os muligheden for at udtrykke en lineær model, hvis parametre kan estimeres indenfor rammerne af den log lineære model og den multinomiale fordeling; Side 11

11 T ( π i ) = ln( π i ( 1 π i ) = β 0 + β1xi 1 +! + β k xik = β X i logit (4.2) Givet estimationen af modellens parametre β og den enkelte observation i, så kan sandsynligheden givet ligning (4.2) udtrykkes ved π i T T ( β X ) { 1 exp( β X )} = exp (4.3) i Af alternative metoder er der blandt andet gennem tiden i forbindelse med kommercielle henseender blevet benyttet simpel lineær regressionsanalyse og diskriminant analyse. 4.4 Den traditionelle scoremodel Denne model er det endelige resultat fra kørslen af det flow beskrevet i det ovenstående samt i Bilag B. Det ses af resultaterne fra maksimum likelihood estimationen, at hovedparten af parameter estimaterne, der ikke er signifikant forskellig fra nul. Hvilket må siges at være stærkt utilfredsstillende. De eneste variable, der bidrager signifikant til beskrivelsen af variationen er umiddelbart kun checking, coapp, duration, foreign, installp samt resident. Hvis de vælgt under en procedure, der accepterer en variabel, hvis blot én af de dertil knyttede dummy variable er signifikant forskellig fra nul på et liberalt femprocent niveau. Herudover kan betydningen af amount, employed samt history diskuteres. i Betragtes estimaterne for parametrene er der til gengæld enkelte fortolkninger, der giver ganske god mening, og understøtter normale forventninger. Som eksempler herpå kan nævnes to af de numeriske variable; age og amount. Med alderen stiger sandsynligheden for at ansøgeren udvikler sig til at blive en god kunde, og omvendt med hovedstolen. I modsætning til dette tegner der sig også tendenser i indeværende data, der strider imod normale forventninger. Såsom det negative estimat for separerede, skilte eller gifte kvinder, samt det positive estimat for arbejdsløsheds dummien. Generelt vil den manglende insignifikans af den overvejende del af variablene højst sandsynligt resultere i en resampling, da man ville påpege mangler i data. 4.5 Den kostsensitive scoremodel Ud fra de metoder som litteraturen foreslår, og med de muligheder, som Enterprise Mineren giver, in mente, så er det også muligt på baggrund af det indeværende data at udvikle to kost-sensitive modeller. Den ene estimeret på baggrund af en profitmatrice, svarende til ligning (3.1). Man kan også udvide modelvalget med en individuel kostvariabel, samtidigt med, at beslutningsmatricen specificeres med omsætningstal, jævnfør ligning (3.3), i stedet for forventet profit. Som beskrevet i bilag B.V har det kun været muligt at estimere en brugbar model ved specificering af profit matrix. I denne model er der fire signifikante parameter estimater; dem for checking, coapp, duration og resident. På liberale 10-procent niveauer kan history og other accepteres med lidt god vilje. Generelt vil man nok også acceptere et intercept til trods for manglende signifikans. Det vil sige ud af de parametre, Side 12

12 som Miner en har valgt, så er godt hver tredje signifikant. I alt er der heller ikke hér mange variable at hænge et eventuelt scorekort op på, hvilket trods en eventuel god forklarings evne igen ville føre til en resampling med krav om flere repræsentative observationer. Da dette ikke er en del af problemstillingen i denne opgave, og på ingen måde en mulighed, så fortsættes der med evaluering af de to scoremodeller, estimeret af Enterprise Miner en. 4.6 Økonomisk evaluering Der i fortløbende lykkedes at estimere to modeller med succes. På disse to modellers parameter estimater har man muligheden for at udvikle et reelt scorekort. Da dette ligge uden for dette øvelsesoplægs rammer vil det i denne evaluering ikke være muligt at vurdere den egentlige forskel de to modeller i mellem. Tillige har det på baggrund af det i forvejen meget lille datasæt ikke været hensigtsmæssigt at udtage evaluerings data. Det har derfor virker mest rimeligt at sammenholde de to modellers forudsigelsesevne for hele dataet. Ud fra de estimerede parametre er det ligetil at beregne de enkelte observationers sandsynligheder under modellen, jævnfør ligning (4.2). Denne procedure er dokumenteret i Bilag C. Den endelige klassificeringsregel givet sandsynlighederne og scorekortet er en politisk beslutning. Det vil derfor i indeværende situation være mest relevant at vurdere forudsigelsernes kvalitet på to måder. Den ene er baseret på, hvorvidt den estimerede sandsynlighed er på den ene eller den anden side af en halv. Den anden er at anvende den hypotetiske omkostning og indtjening. Den første er den væsentligste, da cost/earn variablene ikke er blevet benyttet i estimationen af de to modeller til evaluering. Vælger vi at anskue det tilfælde først, hvor en sandsynlighed på over en halv fører til en forudsigelse af en god kunde, så opnår vi resultatet angivet i Bilag A. Tabel 4.1 viser differencen de to modeller i mellem. Det ses, at den traditionelle model har langt flere forudsagt som gode end den kost-sensitive. På denne måde opnår den omkostnings følsomme model, at givet profitmatricen struktur, at profitten maksimeres på baggrund af data sættet. Det kan derfor også konkluderes, at denne estimationstype er meget sample følsom til forskel fra de normale rare class genkendelsesprocedurer. Tabel 4.1 Forskel imellem forudsigelser af traditionel og kost-sensitive model Til Fra b G Bad Good Kilde: Egen tilvirkning Side 13

13 Dette skal forstås på den måde, at hvis man havde fuld kendskab til alle 1000 hoveder i datasættet, og regner med et middeltab/indtjening på 8000/4000, så vil der være et samlet tab på lidt over 1 million. En del af forudsigelserne får den kost-sensitive algoritme derfor kanaliseret over i bad kategorien for at opnå en positiv profit. Tages den samme indtjening for givet, så vil den kost-sensitive model nemlig føre til en samlet indtjening på 210 tusinde, mens den traditionelle model vil føre til tab på 394 tusinde. Det skal bemærkes, at der i profitmatrice ikke blev specificeret nogle former for alternativ omkostninger. Derfor er der i denne evaluering heller ikke indregnet tabt fortjeneste ved at afvise en god betaler. Dette ville heller ikke føre til anderledes konklusion på basis af det nærværende datasæt. Kun til en mindre forskel de to modeller imellem. Benytter vi en evalueringsmetode, der er mest relevant i tilfældet, hvor vi har taget hensyn til individuelle beslutnings omkostninger, så bliver resultatet også her, at den kost-sensitive model performer bedst. Fremgangsmåden er, at den forudsagte sandsynlighed adderes med den subjektive profiteffekt. Således, at der opnås en forventet profit for det enkelte låntager. Det ses af resultater i Bilag C, at på baggrund af dette data, er den kost-sensitive model foretrukken. Afsnit 5 Konklusion I dette øvelsesoplæg er der blevet gennemgået de helt basale og grundlæggende idéer indenfor Credit Scoring. Med disse i erindring er der ved hjælp af den cost sensitive litteratur fundet eksempler på hvorledes disse traditionelle metoderne indenfor kreditscoring kan revideres således, der tages mere hensyn til de økonomiske perspektiver. Ud fra disse udvidelser samt et ønske om at løse et empirisk eksempel ved hjælp af sas er muligheder indenfor Enterprise Miner en undersøgt. De fandt, at mulighederne for at inddrage omkostninger i estimationen og beslutningen af den endelige mode var mangfoldige. Et udsnit blev forklaret, og benyttet i beregningen af en række modeller. Her af blev to udvalgt til nærmere sammenligning. Den ene model var baseret på traditionel modelvalg, mens den anden blev udvalgt med hensynstagen til en profitmatrice. Udvælgelse af begge modeller blev fuldstændigt overladt til Enterprise Mineren. Ud fra de opnåede resultater blev der udregnet hypotetiske økonomiske overskuds størrelser. Dette resulterede i, at givet dette datasæt, kan det ikke afvises, at den kost-sensitive selektion vil give bedre økonomiske resultater end den traditionelle udvælgelse. Det skal dog påpeges, at grundet manglende muligheder for dataindsamling, er der benyttet et stærkt forenklet datasæt. Det kan ikke udelukkes, at det har kunne forvirre det sande billede. Side 14

14 Afsnit 6 Referencer [1] Adams, N.M. & Hand, D.J.(1998) : Comparing classifiers when the misallocation costs are uncertain, Pattern Recognition 32, 1999, pp [2] Adrians, Pieter & Zantinge, Dolf (1996): Data Mining, 1996, Harlow, England: Addison Wesley Longman Limited. [3] Andersen, Erling B. (1996): Introduction to the Statistical Analysis of Categorical Data, 1997, Berlin: Springer. [4] Berry, Michael J. A. & Linoff, Gordon (1997): Data Mining Techniques: for marketing, Sales and Customer Support, 1997, New York: John Wiley & Sons., Inc. [5] Domingos, Pedro (1999): MetaCost: A General Method for making Classifiers Cost- Sensitive, 1999, Instituto Superior Técnico, Lisbon, Portugal. [6] Elkan, Charles (2000): Cost-Sensitive Learning and Decision-Making when costs are unknown, 2000, Department of Computer Science and Engineering, University of California, San Diego. [7] Eye, Alexander von & Niedermeier, Keith E. (1999): Statistical Analysis of longitudinal Categorical Data in the Social and Behavioral Sciences, 1999, Mahwah, New Jersey: Lawrence Erlbaum Associates, Publishers. [8] Friis, Jessica; Williams, Nadya & Zadrozny, Bianca (1998): Cost-Sensitive Knowledge Discovery: A case Study, 1998, Department of Computer Science and Engineering, University of California, San Diego. [9] Gabrielsen, Gorm; Kousgaard, Nils & Milhøj, Anders (1999): Likelihood-teori, 1999, København: Akademisk Forlag. [10] Groth, Robert (2000): Data Mining: Building Competitive Advantage, 2000, New Jersey: Prentice Hall PTR. [11] Hand, David; Mannila, Heikki & Smyth, Padhraic (2001): Principles of Data Mining, 2001, Massachusetts: MIT Press. [12] Jakobsen, René Brandt (2000): Anvendelse af statistiske metoder til analyse af kreditscoring, 1998, Speciale ved Økonomisk Institut, Københavns Universitet. [13] Kronborg, Dorte; Tjur, Tue & Vincents, Bo (1998): Credit Scoring: Discussion of methods and a case study, 1998, Department of Management Science and Statistics, Copenhagen Business School. [14] McNab, Helen & Wynn, Anthea (2000): Principles and Practice of Consumer Credit Risk Management, 2000, Canterbury, UK: CIB Publishing. [15] Pyle, Dorian (1999): Data Preparation for Data Mining, 1999, San Francisco, California: Morgan Kauffman Publishers Inc. [16] SAS Institute Inc. (2000): Enterprise Miner Reference Help, Part of the software package SAS Enterprise Miner Release 4.1, SAS Institute Inc., Cary, NC, USA. Side 15

15 [17] Thomas, L.C.; Crook, J.N. & Edelman, D.B. (1989): Credit Scoring and Credit Control, 1992, Oxford: Clarendon Press. [18] Turney, Peter D. (1995): Cost-Sensitive Classification: Empirical Evaluation of a hybrid Genetic Decision Tree Induction Algorithm, Journal Of Artificial Intelligence Research 2, 1995, pp [19] Turney, Peter D. (2000): Types of Cost in Inductive Concept Learning, 2000, Institute for Information Technology, National Research Council of Canada, Ontario, Canada. [20] Vinod, Hrishikesh D. & Ullah, Aman (1981): Recent Advances in Regression Methods, 1981, New York: Marcel Dekker Inc. [21] Wang, Xue Z. (1999): Data Mining and Knowledge Discovery for process monitoring and control, 1999, Berlin: Springer Verlag. [22] Webb, Geoffrey I. (1996): Cost-Sensitive Specialization, In the Proceedings of the 1996 Pacific Rim International Conference on Artificial Intelligence, Cairns, Springer Verlag, pp [23] Witten, Ian H. & Frank, Eibe (2000): Data Mining Practical Machine Learning Tools and Techniques, 2000, San Francisco, California: Morgan Kaufmann Publishers. [24] Wonnacott, Thomas H. & Ronald J. (1981): Regression: a second course in statistics, 1981, New York: John Wiley & Sons. [25] Zadrozny, Bianca & Elkan, Charles (2001): Learning and Making Decisions when costs and probalities are both unknown, 2001, Department of Computer Science and Engineering, University of California, San Diego. Side 16

16 Bilag A Data Bilag A.I Dokumentation af datastrukturen Følgende er en tabel, der dokumenterer det anvendte datasæt. Variable Model Role Measurement Description age input interval age in years amount input interval credit amount checking input nominal or ordinal status of existing checking account 1:... < 0 DM 2: 0 <=... < 200 DM 3:... >= 200 DM 4: no checking account coapp input nominal other debtors/guarantors 1: none 2: co-applicant 3: guarantor depends input interval number of dependents durations input interval duration in months employed input ordinal present employement since 1: unemployed 2:... < 1 year 3: 1 <=... < 4 years 4: 4 <=... < 7 years 5:... >= 7 years existcr input interval number of existing credits at this bank foreign input binary foreign worker 1: yes 2: no good_bad target binary credit rating history input ordinal credit history 0: no credits taken / all credits paid back duly 1: all credits at this bank padi back duly 2: existing credits paid bacl duly till now 3: delay in paying off in the past 4: critical account / other credits existing (not at this bank) housing input nominal housing 1: rent 2: own 3: for free installp input interval installment rate in percentage of disposable income job intput ordinal job 1: unemployed / unskilled non-resident 2: unskilled resident 3: skilled employee / official 4: management / self-employed / highly qualified employee / officer martial intput nominall personal status and sex 1: male -- divorced / separated 2: female -- divorced / separated / married 3: male -- single Side 17

17 4: male -- married / windowed 5: female -- single other input nominal other installment plans 1: bank 2: stores 3: none property input nominal or ordinal property 1: real estate 2: if not 1, building society savings agreement / life insurance 3: if not 1 or 2, car or others 4: unknown / no property purpose input nominal purpose 0: new car 1: used car 2: furniture / equipment 3: radio / television 4: domestic appliances 5: repairs 6: education 7: vacation 8: retraining 9: business x: others resident input interval present residence since savings input nominal or ordinal status of existing saving account or bonds 1:... < 100 DM 2: 100 <=... < 500 DM 3: 500 <=... < 1,000 DM 3:... >= 1,000 DM 4: unknown / no saving account telephon input binary telephone 1: none 2: yes, registered under the customer's name Kilde: SAS Institute Inc. Det er på basis af udfaldene, at Enterprise Mineren danner de i modellen anvendte dummy variable. Bilag A.II Dannelse af de to hypotetiske profitvariable Til brug i evalueringen af de estimerede modeller vil der blive brug for hypotetiske variable. Én der beskriver den forventede indtjening for en given god kunde, samt det forventede tab for en dårlig kunde. Denne fremgangsmåde er stærkt kritisabel, men da det ikke har været muligt at fremskaffe relevant data, så synes dette at være den eneste udvej. Måden hvorpå det kan gøres mindst kritisabelt er ved at foretage tilfældige træk fra en standardiseret normal fordeling. På baggrund af disse normalt fordelte tilfældige værdier kan der så dannes 300 nettoomkostninger med en middelværdi på 8000 og 700 nettoindtjeninger med middelværdi på Ud fra en hypotese om, at der i gennemsnit går 4 gode kunder på én dårlig for at opnå breakeven. /************************************/ /* Dannelse af random norm variable */ /************************************/ data temp.credit (drop = x); set temp.credit_2; x = RAND('normal'); cost = 0; earn = 0; if good_bad = 'bad' then do; cost = int(x* ); end; if good_bad = 'good' then do; earn = int(x* ); end; run; Side 18

18 Bilag B Modelestimation Bilag B.I Undersøgelse af data Ved den explorative undersøgelse af data er der benyttet følgende diagram Indenfor hver node er der foretaget løbende ændringer, så det ønskede output er fremkommet. Bilag B.II Transformation af forklarende variable Enterprise Miner pakken indeholder også muligheden for at benytte en transformerings node til at behandle en eller flere af variablene inden den endelige modellering. I dette tilfælde ville det være relevant at transformere tre variable med henblik på maksimering af normalitet. Nemlig de tre numeriske forklarende variable; duration, amount og age. Transformerings noden foreslår ved maksimering af de tre variables normalitet at tage naturlige logaritmer i alle tre tilfælde. Gøres dette på en gang eller sekventielt så opnås der i alle eksempler en dårligere modelklassifikationsevne. Den primære årsag til dette er, at på trods af, at parameterestimaterne for amount og age ved et wald test ikke kan afvises af være lig nul, så bidrager de alligevel til forklaringen i modellen. Derfor vil en logistisk transformation indskrænke deres variations område, og understrege insignifikansen af de to variable. Derfor bliver de udeladt af den endelige model, hvis de transformeres. Grundet den dårligere klassifikationsevne så vælges det, at det traditionelle kort udvikles på den model med uden logistisk transformationer. Tillige bidrager dette gavnligt til signifikansen af parameter estimatet for duration variablen. Bilag B.III Modelestimations procedure Flowet benyttet i forbindelse med estimationen af de to modeller kan beskrives ved følgende diagram Ændringerne indenfor hver node, herunder specifikationen af target profilen, er de, som gør sig gældende indenfor det enkelte eksempel. Side 19

19 Bilag B.IV Den endelige traditionelle model The DMREG Procedure Analysis of Maximum Likelihood Estimates Standard Wald Pr > Standardized Parameter DF Estimate Error Chi-square Chi-square Estimate exp(est) Intercept age amount checking < checking checking coapp coapp depends duration employed employed employed employed existcr existcr existcr foreign history history history history housing housing installp installp installp job job job marital marital marital other other property property property purpose purpose purpose purpose purpose purpose purpose purpose purpose resident resident resident savings savings savings savings telephon The FREQ Procedure Table of F_good_bad by I_good_bad F_good_bad(From: good_bad) I_good_bad(Into: good_bad) Frequency Side 20

20 Percent Row Pct Col Pct BAD GOOD Total BAD GOOD Total Bilag B.V De endelige kost-sensitive modeller Resultatet af estimationen af modellen, hvor der er specificeret en profit matrice af formen 1 0 Q( i, t, d ) = π ( t, d ) = 4 0 ser således ud The DMREG Procedure Analysis of Maximum Likelihood Estimates Standard Wald Pr > Standardized Parameter DF Estimate Error Chi-square Chi-square Estimate exp(est) Intercept checking < checking checking coapp coapp duration < history history history history installp installp installp other other purpose purpose purpose purpose purpose purpose purpose purpose purpose resident resident resident The FREQ Procedure Table of F_good_bad by I_good_bad F_good_bad(From: good_bad) I_good_bad(Into: good_bad) Frequency Percent Row Pct Side 21

21 Col Pct BAD GOOD Total BAD GOOD Total Bilag C Modelevaluering /*************************************************/ /* Scoring af data i nye variable */ /*************************************************/ data credit_2; set credit; /* checking behandles */ checking_1 = 0; checking_2 = 0; checking_3 = 0; if checking = 1 then checking_1 = 1; if checking = 2 then checking_2 = 1; if checking = 3 then checking_3 = 1; /* coapp behandles */ coapp_1 = 0; coapp_2 = 0; if coapp = 1 then coapp_1 = 1; if coapp = 2 then coapp_2 = 1; /* depends behandles */ depends_1 = 0; if depends = 1 then depends_1 = 1; /* employed behandles */ employed_1 = 0; employed_2 = 0; employed_3 = 0; employed_4 = 0; if employed = 1 then employed_1 = 1; if employed = 2 then employed_2 = 1; if employed = 3 then employed_3 = 1; if employed = 4 then employed_4 = 1; /* existcr behandles */ existcr_1 = 1; existcr_2 = 1; existcr_3 = 1; if existcr = 1 then existcr_1 = 1; if existcr = 2 then existcr_2 = 1; if existcr = 3 then existcr_3 = 1; /* foreign behandles */ foreign_1 = 0; if foreign = 1 then foreign_1 = 1; /* history behandles */ history_0 = 0; history_1 = 0; history_2 = 0; history_3 = 0; if history = 0 then history_0 = 1; if history = 1 then history_1 = 1; if history = 2 then history_2 = 1; if history = 3 then history_3 = 1; /* housing behandles */ housing_1 = 0; housing_2 = 0; if housing = 1 then housing_1 = 1; if housing = 2 then housing_2 = 1; /* installp behandles */ installp_1 = 0; installp_2 = 0; installp_3 = 0; if installp = 1 then installp_1 = 1; if installp = 2 then installp_2 = 1; if installp = 3 then installp_3 = 1; /* job behandles */ job_1 = 0; job_2 = 0; job_3 = 0; if job = 1 then job_1 = 1; if job = 2 then job_2 = 1; if job = 3 then job_3 = 1; /* marital behandles */ marital_1 = 0; marital_2 = 0; marital_3 = 0; if marital = 1 then marital_1 = 1; if marital = 2 then marital_2 = 1; if marital = 3 then marital_3 = 1; /* other behandles */ other_1 = 0; other_2 = 0; if other = 1 then other_1 = 1; if other = 2 then other_2 = 1; /* property behandles */ property_1 = 0; property_2 = 0; property_3 = 0; if property = 1 then property_1 = 1; if property = 2 then property_2 = 1; if property = 3 then property_3 = 1; /* purpose behandles */ purpose_0 = 0; purpose_1 = 0; purpose_2 = 0; purpose_3 = 0; purpose_4 = 0; purpose_5 = 0; purpose_6 = 0; purpose_8 = 0; purpose_9 = 0; if purpose = 0 then purpose_0 = 1; if purpose = 1 then purpose_1 = 1; if purpose = 2 then purpose_2 = 1; if purpose = 3 then purpose_3 = 1; if purpose = 4 then purpose_4 = 1; if purpose = 5 then purpose_5 = 1; if purpose = 6 then purpose_6 = 1; if purpose = 8 then purpose_8 = 1; if purpose = 9 then purpose_9 = 1; /* resident behandles */ resident_1 = 0; resident_2 = 0; resident_3 = 0; if resident = 1 then resident_1 = 1; if resident = 2 then resident_2 = 1; if resident = 3 then resident_3 = 1; /* savings behandles */ savings_1 = 0; savings_2 = 0; savings_3 = 0; savings_4 = 0; if savings = 1 then savings_1 = 1; if savings = 2 then savings_2 = 1; if savings = 3 then savings_3 = 1; if savings = 4 then savings_4 = 1; /* telephon behandles */ telephon_1 = 0; Side 22

Spar Nord Banks ansøgningsscoremodel. - et ekspertbaseret ratingsystem for nye udlånskunder

Spar Nord Banks ansøgningsscoremodel. - et ekspertbaseret ratingsystem for nye udlånskunder Spar Nord Banks ansøgningsscoremodel - et ekspertbaseret ratingsystem for nye udlånskunder Mål for ansøgningsscoremodel Rating af nye udlånskunder som beskrives vha. en række variable: alder, boligform,

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Fagplan for statistik, efteråret 2015

Fagplan for statistik, efteråret 2015 Side 1 af 7 M Fagplan for statistik, efteråret 20 Litteratur Kenneth Hansen & Charlotte Koldsø (HK): Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave, ISBN 9788741256047 HypoStat

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Introduktion til GLIMMIX

Introduktion til GLIMMIX Introduktion til GLIMMIX Af Jens Dick-Nielsen jens.dick-nielsen@haxholdt-company.com 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst 17. december 2013 Baggrundsnotat: Søskendes uddannelsesvalg og indkomst Dette notat redegør for den økonometriske analyse af indkomstforskelle mellem personer med forskellige lange videregående uddannelser

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 5. undervisningsuge, onsdag

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Reeksamen i Statistik for biokemikere. Blok 3 2007.

Reeksamen i Statistik for biokemikere. Blok 3 2007. Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Interviewereffekter på spørgsmål om sort arbejde. Rockwool Fondens Forskningsenhed Oktober 2008

Interviewereffekter på spørgsmål om sort arbejde. Rockwool Fondens Forskningsenhed Oktober 2008 Interviewereffekter på spørgsmål om sort arbejde Rockwool Fondens Forskningsenhed Oktober 2008 Tak til Rockwool Fondens Forskningsenhed Danmarks Statistiks Interviewservice, specielt til Isak Isaksen,

Læs mere

Data mining er ikke længere nice to have men need to have

Data mining er ikke længere nice to have men need to have mining er ikke længere nice to have men need to have Af Frank Bjergø Agenda Introduktion Hvad er mining og hvordan fungerer det? Eksempler på i Telco mining Hvilke forretningsområder er i gang Hvem er

Læs mere

9. Chi-i-anden test, case-control data, logistisk regression.

9. Chi-i-anden test, case-control data, logistisk regression. Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/

Læs mere

Eksempel på logistisk vækst med TI-Nspire CAS

Eksempel på logistisk vækst med TI-Nspire CAS Eksempel på logistisk vækst med TI-Nspire CAS Tabellen herunder viser udviklingen af USA's befolkning fra 1850-1910 hvor befolkningstallet er angivet i millioner: Vi har tidligere redegjort for at antallet

Læs mere

Note om Monte Carlo eksperimenter

Note om Monte Carlo eksperimenter Note om Monte Carlo eksperimenter Mette Ejrnæs og Hans Christian Kongsted Økonomisk Institut, Københavns Universitet 9. september 003 Denne note er skrevet til kurset Økonometri på. årsprøve af polit-studiet.

Læs mere

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Dansk Erhvervs gymnasieeffekt - sådan gjorde vi

Dansk Erhvervs gymnasieeffekt - sådan gjorde vi Dansk Erhvervs gymnasieeffekt - sådan gjorde vi INDHOLD Formålet har været at undersøge, hvor dygtige de enkelte gymnasier er til at løfte elevernes faglige niveau. Dette kan man ikke undersøge blot ved

Læs mere

Intelligent kontrol med SAS

Intelligent kontrol med SAS Intelligent kontrol med SAS Hvordan sikrer du dig gennemsigtighed i kontrollen? Business Development Manager Malene Haxholdt 19. april 2007 Agenda Kontrolopgaven Data mining og kontrol Hvad er data mining?

Læs mere

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif). Vi vil formulere en model for et kvalitativ variabel y i med to udfald, at bestå og ikke at bestå første årsprøve. Derefter modeller vi respons-sandsynligheden: Specifikation af sandsynligheden for at

Læs mere

Simpel og multipel logistisk regression

Simpel og multipel logistisk regression Faculty of Health Sciences Logistisk regression Simpel og multipel logistisk regression 16. Maj 2012 Analyse af en binær responsvariabel. syg/rask, død/levende, ja/nej... Ud fra en eller flere forklarende

Læs mere

ISCC. IMM Statistical Consulting Center. Brugervejledning til beregningsmodul til robust estimation af nugget effect. Technical University of Denmark

ISCC. IMM Statistical Consulting Center. Brugervejledning til beregningsmodul til robust estimation af nugget effect. Technical University of Denmark IMM Statistical Consulting Center Technical University of Denmark ISCC Brugervejledning til beregningsmodul til robust estimation af nugget effect Endelig udgave til Eurofins af Christian Dehlendorff 15.

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Besvarelse af opgavesættet ved Reeksamen forår 2008

Besvarelse af opgavesættet ved Reeksamen forår 2008 Besvarelse af opgavesættet ved Reeksamen forår 2008 10. marts 2008 1. Angiv formål med undersøgelsen. Beskriv kort hvordan cases og kontroller er udvalgt. Vurder om kontrolgruppen i det aktuelle studie

Læs mere

Ekstremregn i Danmark

Ekstremregn i Danmark Ekstremregn i Danmark Supplement til statistisk bearbejdning af nedbørsdata fra Spildevandskomiteens regnmålersystem 1979-96 Henrik Madsen August 2002 Miljø & Ressourcer DTU Danmark Tekniske Universitet

Læs mere

Efterspørgselsforecasting og Leveringsoptimering

Efterspørgselsforecasting og Leveringsoptimering Efterspørgselsforecasting og Leveringsoptimering 26.05.2011 Bjørn Nedergaard Jensen Berlingske Media 2 En af Danmarks største medieudgivere og leverandør af både trykte og digitale udgivelser. Koncernen

Læs mere

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Demo af PROC GLIMMIX: Analyse af gentagne observationer Demo af PROC GLIMMIX: Analyse af gentagne observationer Kristina Birch, seniorkonsulent, PS Banking Agenda Uafhængige vs. afhængige observationer Analyse af uafhængige vs. afhængige observationer Lille

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Appelsiner, bananer og citroner

Appelsiner, bananer og citroner Appelsiner, bananer og citroner Af: Peter Kellberg Danmarks Statistik Sejrøgade DK-00 København Ø pke@dstdk SAS og øvrige SAS Institute Inc-produkter samt navngivne serviceydelser er registrerede varemærker

Læs mere

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Indholdsfortegnelse 1 INDLEDNING OG PROBLEMSTILLING... 2 1.1 OVERVÆGT SOM CASE... 2 2 ANALYSEFORBEREDELSER... 4 2.1 HEPRO-UNDERSØGELSEN... 4 2.2 DEN AFHÆNGIGE VARIABEL VIGTIGHED AF ÆNDRINGEN AF VÆGT...

Læs mere

Logistisk regression og prædiktion

Logistisk regression og prædiktion Faculty of Health Sciences Introduktion Logistisk regression og prædiktion 16. Maj 2012 Julie Forman Biostatistisk Afdeling, Københavns Universitet Hvad er en god diagnostisk model? En model med god overensstemmelse

Læs mere

Estimering og anvendelse af modeller ved brug af PROC MODEL

Estimering og anvendelse af modeller ved brug af PROC MODEL Estimering og anvendelse af modeller ved brug af PROC MODEL Anders Ebert-Petersen Business Advisor Risk Intelligence Agenda 1. Indledning 2. Overordnet information om PROC MODEL 3. Eksempel med anvendelse

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.-27 marts) Garvey et al. interesserer sig for sammenhængen mellem

Læs mere

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet Projekt 1 Spørgeskemaanalyse af Bedst på Nettet D.29/2 2012 Udarbejdet af: Katrine Ahle Warming Nielsen Jannie Jeppesen Schmøde Sara Lorenzen A) Kritik af spørgeskema Set ud fra en kritisk vinkel af spørgeskemaet

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe

Læs mere

Forelæsning 9: Inferens for andele (kapitel 10)

Forelæsning 9: Inferens for andele (kapitel 10) Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min

4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min Epidemiologi og biostatistik Uge, torsdag 28. august 2003 Morten Frydenberg, Institut for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (udfra

Læs mere

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary 1 Kontingenstabeller Betinget fordeling Uafhængighed 2 Chi-kvadrat test for uafhængighed Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Læs mere

Præsentation og praktisk anvendelse af PROC GLMSELECT

Præsentation og praktisk anvendelse af PROC GLMSELECT Præsentation og praktisk anvendelse af PROC GLMSELECT Kristina Birch, projektchef Copyright 2011 SAS Institute Inc. All rights reserved. Præsentation og praktisk anvendelse af PROC GLMSELECT Abstract I

Læs mere

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab

Læs mere

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A) Økonometri 1 Forår 2003 Ugeseddel 13 Program for øvelserne: Gruppearbejde Opsamling af gruppearbejdet og introduktion af SAS SAS-øvelser i computerkælderen Øvelsesopgave 6: Hvem består første årsprøve

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

SAS Asset Management. Mikal Netteberg Marianne Hansen Søren Johansen SAS Institute A/S. Copyright 2006, SAS Institute Inc. All rights reserved.

SAS Asset Management. Mikal Netteberg Marianne Hansen Søren Johansen SAS Institute A/S. Copyright 2006, SAS Institute Inc. All rights reserved. SAS Asset Management Mikal Netteberg Marianne Hansen Søren Johansen SAS Institute A/S Agenda Introduktion Arbejdsmetode Overordnet forretningsmæssig kravspecifikation Detailforretningsmæssig kravspecifikation

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Et oplæg til dokumentation og evaluering

Et oplæg til dokumentation og evaluering Et oplæg til dokumentation og evaluering Grundlæggende teori Side 1 af 11 Teoretisk grundlag for metode og dokumentation: )...3 Indsamling af data:...4 Forskellige måder at angribe undersøgelsen på:...6

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Supplerende dokumentation af boligligningerne

Supplerende dokumentation af boligligningerne Danmarks Statistik MODELGRUPPEN Arbejdspapir* Ralph Bøge Jensen 13. september 2010 Supplerende dokumentation af boligligningerne Resumé: Papiret skal ses som et supplement til den nye Dec09-ADAM dokumentation

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

Læringsmål, tilrettelæggelse og præsentation

Læringsmål, tilrettelæggelse og præsentation Kapitel 6 Læringsmål, tilrettelæggelse og præsentation en beskrivelse af nuancerne i praktisk arbejde Robin Millar I forrige kapitel argumenteredes der for, at enhver diskussion af effektiviteten af praktisk

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Århus 6. februar 2014 Morten Frydenberg Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Til disse øvelser har I brug for fishoil1.dta, der indeholder data fra det fiskeolie forsøg vi så på ved

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Additiv model teori og praktiske erfaringer

Additiv model teori og praktiske erfaringer make connections share ideas be inspired Additiv model teori og praktiske erfaringer Kaare Brandt Petersen Forretningschef, ph.d., SAS Institute Agenda Hvad er en additiv model? Forudsætninger Fortolkning

Læs mere

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt.

Læs mere

Empirisk Miniprojekt 2

Empirisk Miniprojekt 2 Empirisk Miniprojekt 2 Michael Bejer-Andersen, Thomas Thulesen og Emil Holmegaard Gruppe 5 26. November 2010 Indhold 1 Introduktion 2 1.1 Bane og Robot..................................... 2 1.2 Counter

Læs mere

Maple 11 - Chi-i-anden test

Maple 11 - Chi-i-anden test Maple 11 - Chi-i-anden test Erik Vestergaard 2014 Indledning I dette dokument skal vi se hvordan Maple kan bruges til at løse opgaver indenfor χ 2 tests: χ 2 - Goodness of fit test samt χ 2 -uafhængighedstest.

Læs mere

Program dag 2 (11. april 2011)

Program dag 2 (11. april 2011) Program dag 2 (11. april 2011) Dag 2: 1) Hvordan kan man bearbejde data; 2) Undersøgelse af datamaterialet; 3) Forskellige typer statistik; 4) Indledende dataundersøgelser; 5) Hvad kan man sige om sammenhænge;

Læs mere

Appendiks A. Entreprenørskabsundervisning i befolkningen, specielt blandt unge

Appendiks A. Entreprenørskabsundervisning i befolkningen, specielt blandt unge Appendiks A. Entreprenørskabsundervisning i befolkningen, specielt blandt unge Redegørelsen ovenfor er baseret på statistiske analyser, der detaljeres i det følgende, et appendiks for hvert afsnit. Problematikken

Læs mere

enige i, at der er et godt psykisk arbejdsmiljø. For begge enige i, at arbejdsmiljøet er godt. Hovedparten af sikkerhedsrepræsentanterne

enige i, at der er et godt psykisk arbejdsmiljø. For begge enige i, at arbejdsmiljøet er godt. Hovedparten af sikkerhedsrepræsentanterne 3. ARBEJDSMILJØET OG ARBEJDSMILJØARBEJDET I dette afsnit beskrives arbejdsmiljøet og arbejdsmiljøarbejdet på de fem FTF-områder. Desuden beskrives resultaterne af arbejdsmiljøarbejdet, og det undersøges

Læs mere

Teknisk note nr. 1. Dokumentation af data-grundlaget fra GDS-undersøgelserne i februar/marts 1996 og februar 1997

Teknisk note nr. 1. Dokumentation af data-grundlaget fra GDS-undersøgelserne i februar/marts 1996 og februar 1997 Teknisk note nr. 1 Dokumentation af datagrundlaget fra GDSundersøgelserne i februar/marts 1996 og februar 1997 Noten er udarbejdet i samarbejde mellem, Søren Pedersen og Søren Brodersen Rockwool Fondens

Læs mere

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014 Vejledning til udvalgte opgave fra Matematik B, sommer 2014 Opgave 7 Størrelsen og udbudsprisen på 100 fritidshuse på Rømø er indsamlet via boligsiden.dk. a) Grafisk præsentation, der beskriver fordelingen

Læs mere

02402 Løsning til testquiz02402f (Test VI)

02402 Løsning til testquiz02402f (Test VI) 02402 Løsning til testquiz02402f (Test VI) Spørgsmål 4. En ejendomsmægler ønsker at undersøge om hans kunder får mindre end hvad de har forlangt, når de sælger deres bolig. Han har regisreret følgende:

Læs mere

Penge og kapitalmarked

Penge og kapitalmarked Penge og kapitalmarked FLERE TAL Penge- og kapitalmarked Pengeinstitutternes balance Indlån og udlån Forbrugerkredit og leasing Børsnoterede obligationer Aktier og investeringsbeviser Renter og kurser

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

Notat vedr. interkalibrering af ålegræs

Notat vedr. interkalibrering af ålegræs Notat vedr. interkalibrering af ålegræs Notat fra DCE - Nationalt Center for Miljø og Energi Dato: 4. januar 2012 Michael Bo Rasmussen Thorsten Balsby Institut for Bioscience Rekvirent: Naturstyrelsen

Læs mere

Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere

Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere Indvandrere og efterkommere i foreninger er frivillige i samme grad som danskere Bilag I afrapportering af signifikanstest i tabeller i artikel er der benyttet følgende illustration af signifikans: * p

Læs mere

BM121 Resume af tirsdags forlæsningen, Uge 47

BM121 Resume af tirsdags forlæsningen, Uge 47 BM121 Resume af tirsdags forlæsningen, Uge 47 Morten Källberg (kallberg@imada.sdu.dk) 22/11-2005 1 Probabilistiske modeller Vi vil i det følgende betragte to forskellige måder at evaluerer en given model

Læs mere

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi

Læs mere

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER Undervisningseffekten udregnes som forskellen mellem den forventede og den faktiske karakter i 9. klasses afgangsprøve. Undervisningseffekten udregnes

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Projekt 6.1 Rygtespredning - modellering af logistisk vækst

Projekt 6.1 Rygtespredning - modellering af logistisk vækst Projekt 6.1 Rygtespredning - modellering af logistisk vækst (Projektet anvender værktøjsprogrammet TI Nspire) Alle de tilstedeværende i klassen tildeles et nummer, så med 28 elever i klassen uddeles numrene

Læs mere

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 1 Ensidet variansanalyse Bartlett s test Tukey s test PROC

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Kvantificering af kreditrisiko og kampen for at undgå kriser. David Lando. Institut for Finansiering Copenhagen Business School

Kvantificering af kreditrisiko og kampen for at undgå kriser. David Lando. Institut for Finansiering Copenhagen Business School Kvantificering af kreditrisiko og kampen for at undgå kriser David Lando Institut for Finansiering Copenhagen Business School CFIR 7. september, 2011 Kvantificering af kreditrisiko Fallitrisiko er et centralt

Læs mere

- Medlemsundersøgelse, Danske Fysioterapeuter, Juni 2010. Danske Fysioterapeuter. Kvalitet i træning

- Medlemsundersøgelse, Danske Fysioterapeuter, Juni 2010. Danske Fysioterapeuter. Kvalitet i træning Danske Fysioterapeuter Kvalitet i træning Undersøgelse blandt Danske Fysioterapeuters paneldeltagere 2010 Udarbejdet af Scharling Research for Danske Fysioterapeuter juni 2010 Scharling.dk Side 1 af 84

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30.

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. oktober) En undersøgelse blandt fødende kvinder

Læs mere

Gruppevise Nedskrivninger

Gruppevise Nedskrivninger Gruppevise Nedskrivninger Søren Johansen, Business Advisor, Risk Intelligence Email: sdksjo@sdk.sas.com Agenda Forskel imellem Basel II og Gruppevise Nedskrivninger SAS-løsning for gruppevise nedskrivninger

Læs mere

Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere

Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere DET ØKONOMISKE RÅD S E K R E T A R I A T E T d. 20. maj 2005 SG Betydningen af konjunktur og regelændringer for udviklingen i sygedagpengemodtagere Baggrundsnotat vedr. Dansk Økonomi, forår 2005, kapitel

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 9, 2015 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Benchmark beregning af pensionsformuen, ultimo 2003

Benchmark beregning af pensionsformuen, ultimo 2003 1 Danmarks Statistik MODELGRUPPEN Arbejdspapir* Michael Osterwald-Lenum 12. november 2012 1 Benchmark beregning af pensionsformuen, ultimo 2003 Resumé: Papiret redegør for hvorledes pensionsformuen, ultimo

Læs mere

Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog

Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog Humanistisk metode Vejledning på Kalundborg Gymnasium & HF Samfundsfaglig metode Indenfor det samfundsvidenskabelige område arbejdes der med mange

Læs mere

Kapitalisering af grundskylden i enfamiliehuse

Kapitalisering af grundskylden i enfamiliehuse Mads Rahbek Jørgensen Anne Kristine Høj Kapitalisering af grundskylden i enfamiliehuse I dette notat redegøres for resultaterne af estimationen af kapitaliseringen af grundskylden i ejendomspriserne som

Læs mere