Indholdsfortegnelse 1.1 PROBLEMFORMULERING AFGRÆNSNING KREDITSCORINGENS METODIK OG OPBYGNING...4 DE ØKONOMISKE PERSPEKTIVER...

Størrelse: px
Starte visningen fra side:

Download "Indholdsfortegnelse 1.1 PROBLEMFORMULERING...3 1.2 AFGRÆNSNING...3 2.1 KREDITSCORINGENS METODIK OG OPBYGNING...4 DE ØKONOMISKE PERSPEKTIVER..."

Transkript

1 Indholdsfortegnelse AFSNIT 1 INDLEDNING PROBLEMFORMULERING AFGRÆNSNING...3 AFSNIT 2 KREDITSCORING KREDITSCORINGENS METODIK OG OPBYGNING...4 AFSNIT 3 DE ØKONOMISKE PERSPEKTIVER DEN KOST-SENSITIVE MODEL HVILKE MULIGHEDER GIVER SAS EM?...8 AFSNIT 4 EMPIRISK EKSEMPEL BESKRIVELSE AF DATA EXPLORATIV ANALYSE METODE DEN TRADITIONELLE SCOREMODEL DEN KOSTSENSITIVE SCOREMODEL ØKONOMISK EVALUERING...13 AFSNIT 5 KONKLUSION...14 AFSNIT 6 REFERENCER...15 BILAG A DATA...17 BILAG A.I BILAG A.II DOKUMENTATION AF DATASTRUKTUREN...17 DANNELSE AF DE TO HYPOTETISKE PROFITVARIABLE...18 BILAG B MODELESTIMATION...19 BILAG B.I UNDERSØGELSE AF DATA...19 BILAG B.II TRANSFORMATION AF FORKLARENDE VARIABLE...19 BILAG B.III MODELESTIMATIONS PROCEDURE...19 BILAG B.IV DEN ENDELIGE TRADITIONELLE MODEL...20 BILAG B.V DE ENDELIGE KOST-SENSITIVE MODELLER...21 BILAG C MODELEVALUERING...22

2 Afsnit 1 Indledning Den traditionelle kreditvurdering i forbindelse med privatpersoners låntagning sker på baggrund af et forudgående kendskab til kunden. Dette kendskab suppleres ofte af et budget, en opgørelse over de indtjeningsforhold, der gør sig gældende, samt hvad långiveren herudover finder relevant. Denne proces er meget ressourcekrævende, og kan i mange tilfælde være til gene for både långiver og tager. Kreditscoringens metoder tager udgangspunkt i disse ulemper, og prøver at løse dem ved hjælp af en række statistiske procedurer. 1.1 Problemformulering Givet den statistiske natur af problematikken er det ikke forretningsmæssig sædvane at inddrage de økonomiske perspektiver af lånevurderingen. Det overordnede formål med indeværende øvelsesoplæg er derfor at opstille en økonomisk problemstilling i forbindelse med udviklingen af en kreditscoringsmodel. Herunder, at der gives en meget kort introduktion til kreditscoring, dens metoder samt disses anvendelighed i programpakken SAS Enterprise Miner. Det ønskes herudover at, det vurderes udfra et empirisk eksempel om denne udvidede eksercits er anstrengelsen værd målt i økonomisk overskud. 1.2 Afgrænsning De fleste kommercielt anvendte data behandlings procedurer involverer en række kritiske problemstillinger og antagelser set med rent videnskabelige øjne. Grundet dette oplægs meget begrænsede omfang og fokus på den praktiske anvendelighed, vil der ikke blive gået i dybden med de punkter, der kunne være kritisable. Den anvendte model, dennes teori samt fordele og ulemper contra andre modeltyper vil heller ikke behandles. Tillige kan der forekomme arbejdsgange, i forbindelse med udviklingen af scorekortet, der vil blive kommenteret kort eller benyttet uden videre diskussion eller forklaring. Her i blandt de forhold, der tegner sig ved dokumentationen af data, så som generelle problemer ved indsamling af sådanne stikprøver; eksempelvist sampling, behandling af missing values, for ikke at glemme reject inference 1. Endvidere stilles, der ikke spørgsmål til rigtigheden af de good/bad markeringer, der er sat i det benyttede materiale, da disse normalt er afgjort ud fra internt politisk bestemte kriterier, der ikke er kendte hér. Generelt vil der være store dele af den praktiske anvendelse af kreditscoring, der vil blive overladt til referencer. 1 Refererer til problematikken, der opstår ved, at udviklingen af selve scorekortet sker på basis af et datagrundlag, som ikke indeholder de initialt afslåede låneansøgninger. Se eksempelvist Jacobsen(2000), [12], for yderligere information. Side 3

3 Afsnit 2 Kreditscoring De første tanker omkring en statistisk begrundet scoring af kunder i forbindelse med kreditgivning, som vi kender det i dag, stammer helt tilbage til 1940 ernes USA. Her var David Durand s Risk Elements in Consumer Installment Financing blandt de første til fremhæve mulighederne for at skabe et systematisk førstegangsindtryk af en låneansøgning ved hjælp af kendte matematisk statistiske metoder. Den store udbredelse måtte vente på sig i to årtier, indtil amerikanske detailkæder og postordre virksomheder i 1960 erne begyndte at anvende systemet i forbindelse med tilgodehavende. Senere begyndte de store olieselskaber og kreditkortselskaber, såsom VISA og MasterCard. Historien bag brugen af kreditscoring hænger altså meget naturligt sammen med udviklingen i brugen af kreditkort, og udstedelse af forbrugslån baseret på få eller næsten ingen oplysninger omkring klienten. Det er nemlig efter manges mening også hér, den har sin største berettigelse. I midlertidigt er det dog sådan, at i dag har de fleste store penge- og kreditinstitutter implementeret et kreditscoresystem, hvis primære funktion er vejledende i forbindelse med en traditionel kreditvurdering. 2.1 Kreditscoringens metodik og opbygning Grundlæggende er kreditscoring en statistisk baseret kreditvurdering, hvor der på basis af en eksisterende kunde-portefølje er fundet de karakteristika, der bidrager signifikant til beskrivelsen af variationen i sandsynligheden for, at en given klient vil udvikle sig til at blive en god eller en dårlig kunde. En fuldstændig fremstilling af, hvad kredit scoring indebærer vil dog snarere være en række forretningsgange, som har til formål at få klassificeret en potentiel låntager i et net af risikoklasser, der beskriver den forventede fyldestgørelse af tilbagebetalingen. Ud fra disse risikoklasser, og den af ledelsen besluttede portefølje kvalitet, kan det så besluttes dels hvorvidt lånet skal godkendes under de givne forhold eller afslås, og dels hvorvidt det skal tilbydes under andre betingelser. Med andre betingelser kan man forstille sig et tiltag, der sikrer, at den forventede risiko ved udstedelsen af lånet bliver indenfor rammen besluttet af ledelsen. Af sådanne oplæg kan for eksempel nævnes et krav om en medansøger eller et forslag om en delbevilling. Den informationsmængde, der indsamles som input til kredit vurderingen af en ansøger, samt den statistiske metode, der benyttes til at analysere de historiske ansøgninger, er en beslutning, der afhænger meget af situationen og formålet. I indeværende opgave vil der blive benyttet en multipel logistisk regressions model. Læsere, der ikke er bekendt med denne type af regressionsanalyse, anbefales, at rådføre sig med for eksempel Andersen (1996), [3], Eye (1999), [7], eller Wonnacott (1981), [24]. Valget af denne model er baseret på dens udbredte kommercielle anvendelse samt resultat af diskussion i Kronborg(1998), [13]. 2 Den fundamentale struktur af det traditionelle udviklingsforløb i forbindelse 2 For sammenligning af metoder kan der også henvises til Jacobsen(2000), [12], og McNab(2000), [14]. Side 4

4 med den statistiske ligner meget det flow, man ville opbygge indenfor en data mining proces. Man tager udgangspunkt i indsamlingen af en statistisk acceptabel stikprøve, der opfylder de retningslinier indenfor samplingen, der ønskes at være opfyldt; skal stikprøven være stratificeret? Skal den afspejle strukturen af den originale population? I nærværende oplæg vil, der ikke blive gået i dybden med denne del af problematikken. De forudsættes dog, at det benyttede datasæt er udtaget på en sådan måde, at det at være en dårlig kunde er overrepræsenteret i forhold til populationen, samt modellen ikke kommer til at udvise bias eller fejlspecifikationer på grund af reject inference, eliminering af missing values eller lignende problemer. Dette er selvfølgeligt stærk kritisable antagelser, men da det er et udefra konstrueret og højst sandsynligt stærkt opsminket datasæt, så ses der ikke andre udveje. Indenfor traditionel kreditscoring er det normal procedure at udtage stikprøven på den måde, at man vælger en sampling og en outcome periode. Dette er illustreret i figur 2.1. Sample periode er således det tidsafsnit, hvor de betragtede ansøgninger udtrækkes, og outcome perioden det, som giver data, der ligger til grund for klassifikationen af den enkelte kunde. Figur 2.1 Sampling Kilde: Egen tilvirkning efter idé fra McNab (2000), [14]. Ud fra det indsamlede datasæt, og de af ledelsen fremsatte krav til gode contra dårlige kunder, er kunderne grupperet i risikogrupper. Det er normal kutyme, at benytte to eller tre grupperinger; good contra bad, og i mange tilfælde også indeterminate. Det næste trin i processen er at gennemgå en almindelig eksplorativ analyse af de enkelte variable og dennes koncentration af g/b s, de såkaldte g:b odds ratio. 3 Herved får man et forgrovet indtryk af, hvordan den enkelte variabel tegner sig i det samlede risikobillede. Benytter man sig en logistisk regressionsanalyse vil dette også kunne hjælpe én til, hvorledes de enkelte variable skal scores. Dette kan nemlig i nogle tilfælde jf. Andersen(1996), [3], vise sig at have betydning i forbindelse med estimationen af modellens parametre. Den sidste overordnede del af proceduren er selve modelestimationen, og udviklingen af scorepointene. Ud over selve denne statistiske eksercits ligger hele implementerringen af scorekortet, og et væld af ledelses politiske beslutninger. Som eksempel her på kan nævnes det cut-off, og scoreintervallerne, der afgører, hvorvidt lånet skal gives og under hvilke kontraktlige omstændigheder. Valget af cut-off kan visualisres ved hjælp af en af de fundamentale antagelser under den statistiske model. Man forstiller sig nemlig, at de forskellige risikoklasse fordeler sig med en given variation 3 Det skal bemærkes at disse ikke har noget med de odds ratio s, man opererer med indenfor logit-modellen, at gøre. Side 5

5 omkring en fælles middelværdi indenfor den enkelte gruppe. Antager vi her, at koncentrationen af gode contra dårlige i porteføljen følger en symmetrisk fordeling med samme varians kunne man fremstille situationen som gjort i figur 2.2. Cut-off værdien vælges herefter ud fra på den ene side den maksimalt acceptale bad-rate og på den anden side antallet af teoretisk gode betalere, som man kan tåle at miste. Figur Hypotestisk koncentration af risicotyper Andel Score intervaller Kilde: Egen tilvirkning Vælger man en cut-off værdi på 550 contra 625, så opnår man naturligt, at der accepteres flere bad s, mens der afvises færre good s. Dette er selvfølgelig kun et forenklet eksempel, der skal give en overordnet idé om teknikkerne. Herudover er der også et utal af blandt andet monitorerings værktøjer. For yderligere materiale på disse mere management baserede områder må der henvises til Jacobsen(2000), [12], McNab(2000), [14], samt Thomas(1989), [17]. Afsnit 3 De økonomiske perspektiver I forbindelse med implementeringen af et scorekort har det ikke tidligere været normal praksis at koncentrere sig om de dybere økonomiske perspektiver af estimationen og valget af den endelige model til fastsættelse scoreværdierne. Man har gjort sit ypperste for at finde den model, der kunne på rimelig enkel vis identificere en potentiel dårlig betaler, og fokus har været rettet på misklassifications raten og bad raten. Når der blev talt økonomi, valgte man løbende den cut-off værdi, som sikrede den ønskede forventede good/bad sammensætning ud fra mere politiske overbevisninger end forretningsmæssige. Indenfor de senere år har der dog primært været to hovedordnede forslag fremme. Det ene gik på den initiale definition af flagene der identificerede de gode i modsætning til de dårlige kunder. I stedet for de mere konservative synspunkter på en ringe betaler, så kunne man lave en økonomisk argumenteret definitionsramme af de tilstræbte kundeprofiler. Det klassiske eksempel er en kunde, der har været i rykkerkørsel et par gange, på grund af manglende betaling. En ting, der i mange policy rules giver en bad markering. Måske bliver kunden endda indberettet til incasso. Men til slut og ende så betaler kunden både lånet, rykkergebyrer og morarenter tilbage. Det er en risikofyldt forretning, men et eller andet sted, set i bakspejlet, så havde en good markering været berettiget ud fra et økonomisk synspunkt. Det andet forslag er gået på valget af cut-off værdien for det samlede antal scorepoint, der Side 6

6 kræves for at lånet godkendes til initiale forhold. Som nævnt i ovenstående afsnit, så er det normal kutyme at vælge cut-off ud fra en vægtet beslutning om den generelle overbevisning for hvor mange gode der går på en dårlige for, at der er break-even i indtjeningen, samt den ønskede maksimale badrate. Det der ligger lidt tilbage i det uvisse nu er, hvad med modelvalget eller estimationen af variablene. Kunne man på en eller anden måde konstruere en algoritme, der sikrede at valget af den endelige model ikke nødvendigvis var den der var bedst til at identificere de dårlige og de gode kunder, men valgte den model der viste sig at give den bedste økonomiske performance? Som det vil fremgå af det næste delafsnit, så vil det vise sig, at svaret er inden for computer science og knowledge discovery. 3.1 Den kost-sensitive model I løbet det seneste årti er der sprunget en række litteratur op omkring såkaldte MetaCost og Costsensitive Learning algoritmer og estimations systematikker. Fælles for disse er, at de foreslår metoder, hvorpå man kan gøre valget af de estimerede klassifikationer afhængige af omkostninger. Omkostninger skal selvfølgelig her forstås i et bredere perspektiv. Selvom blandt andet Zadrozny(2001), [25], tilråder, at man ikke benytter cost matricer, da disse ofte indebærer en række alternativ omkostninger, men rettere anvender en benefit matrix. Disse påstande kan man selvfølgelig vælge at se bort fra. Grundlæggende indeholder denne litteratur to typer af konkretiseringer af problematikken. Princippet bag det første af disse to er, at der forbindes en omkostning til hvert trænings eller test eksempel. Forestiller vi os, at vi har n mulige klasser, som et eksempel x kan kategoriseres i, så kan vi konstruere en matrix C af dimension n n, der i den j te række og i te sølje angiver den observerede, eller forvendte, omkostning, der skal afholdes ved at forudsige klasse i, hvis den rigtige klasse er j. Denne matrice vil i det efterfølgende blive betegnet omkostningsmatricen. Er denne matrice kendt, så reduceres problematikken til et optimerings spørgsmål. Den optimale forudsigelse af x er derfor den klasse i, der fører til den laveste forventede omkostning n j= 1 P ( j x) C( i j), (3.1) hvor P(j x) angiver den estimerede sandsynlighed for, at klasse j er den sande forudsigelse givet case x. Den anden type gør denne misklassifikations omkostning case sensitiv. Således knyttes der nu en omkostning C(i, j, x) på hver forudsigelse. Således angiver C( ) omkostningen forbundet med at forudsige klasse i for case x, hvis den rigtige klasse er j. Hermed opnår vi nu følgende minimeringsproblem i stedet for (3.1) j ( j x) C( i j x) P,, (3.2) Side 7

7 Problemet løses da ved først at identificere, hvilken af det to situationer man befinder sig i. Dernæst at konstruere en lærings algoritme, der kan løse den eksakte problemstilling. Dette ligger klart udenfor dette oplægs rammer, så dette vil blive overladt til læseren. Der kan dog henvises til Domingos(1995), [5], der opstiller grundrammen for en MetaCost algoritme, samt Elkan(2000), [6], og Zadrozny(2001), [25]. 3.2 Hvilke muligheder giver SAS EM? Vi ønsker, at løse dette problem med denne økonomisk argumenterede kreditscore model ved hjælp af SAS Enterprise Miner. Derfor virker det mest oplagt at sammenholde retningslinierne i litteraturen med mulighederne indenfor Miner en. Under hver model node i Enterprise Miner en er det muligt at specificere en beslutningsproblematik givet et score datasæt samt en række numeriske konsekvenser. Der er flere muligheder for præcisering af disse konsekvenser; en valgmatrice, en kostvariabel og en kostkonstant. Valgmatricen er fundamentalt opbygget på samme vis som kostmatricen C. Den indeholder nemlig rækker svarende til målværdierne, og søjler svarende til de valg, der ønskes vurderet. Således opnår man, at man en værdi af hver beslutning repræsenteret ved mål specifikke konsekvenser. Man kan hér såvel specificere profit eller omsætning som tab. Det skal med denne generelle metode bemærkes, at konsekvenserne er de samme for alle observationer, der skal klassificeres. Kostvariable er derimod en variabel i datasættet, der forbinder en given omkostning med den enkelte observation, eller rettere forudsigelsen af samme. Med kostkonstanten kan man specificere en fast omkostning forbundet med en beslutning. Som eksempel herpå kan gives den gennemsnitlige omkostning i forbindelse med udsendelsen af et donationsbrev, der behandles i det populære KDD98 datasæt. Dette kan således kombineres med en beslutningsmatrice, der angiver den forventede donation. Således kan ved hjælp af disse tre værktøjer, som Target Profile - ren giver os, lave den kombination, der understøtter ens problemstilling. Der gives gode eksempler herpå i dokumentationen af programmet; SAS Institute Inc. (2000), [16]. I det følgende er det kun mulighederne under øvelsesoplæggets problemstilling, der vil blive gennemgået. Specifikationen af en beslutnings eller omkostnings matrice vil i tilfældet med anvendelsen af en regressions node ikke have effekt på estimationen af modellens parametre. Tillige vil det generelt ikke påvirke error funktioner, såsom afvigelse eller likelihood. Residualer, der er baseret på senere estimerede sandsynligheder før justering af tidligere specificerede. Fit statistikker, som er beregnet ud fra residualer eller afvigelsesfunktioner. Endvidere forbliver klassifikation og misklassifikationsrate uændret. Det, der som standard ændres ved indførelsen af en valgmatrice, er valget af den endelige model. Dette kræver dog normalt, at der er specificeret mindst to valg i matricen. Side 8

8 De muligheder miner en gør er at, den udfra de specificerede konsekvenser, det vil sige beslutningsmatricen eller omkostningerne, så konstruerer en konsekvens variabel Q(i,t,d) Q ( i, t, d ) = (, d ) C( i, d ), hvis både R() og C() ( t, d ), hvisπ () L( t, d ), hvis L() R t π er specificeret (3.3) er specificeret er specificerede hvor i refererer til indekset over eksemplerne, t over mål værdierne samt d over de mulige beslutninger. Beslutningsmatricen kan præciseres som en R matrix, hvis indholdet er omsætning, samt π = -L hvis indholdet er profit eller direkte tab. Det ses yderligere af strukturen i (3.3), at det kun er muligt at knytte en omkostninger C( ) på, hvis der i problemet er indeholdt en beslutningsmatrix, der rummer omsætningstal. Der er primært to grunde til denne restriktion. Den første er, at det efter manges opfattelse kun relevant at tale om omkostninger, hvis det skal relateres til et omsætningstal. Hvormed man opnår et profit mål. Dette fører til den anden grund. Nemlig den, at der i det efterfølgende flow kan laves profit statistik. I tilfældet med kreditscoringen, hvor target variablen er kategorisk, da vil den forventede profit ved at tage beslutning d for eksempel i være givet ved ( i d ) Q( i, t, d ) P( i t) A, =, (3.4) t hvor P(i, t) angiver den estimerede sandsynlighed for, at eksempel i er af kategori t. Enterprise Mineren s model node gør det, at den gennemløber de mulige valg for hvert eksempel, og tager det valg D(i), der maksimerer den forventede profit. Det vil sige vælger D( ) således at () i = max A( i, d ) = arg max Q( i, t, d ) P( i t) d d D arg, (3.5) Sammenholdes ligning (3.5) med ligning (3.2) og (3.1), så ses det, at Enterprise Miner en umiddelbart giver os de samme muligheder, som den kost-sensitive litteratur foreslår. t Metoden, hvor på man kan indføre en sådan omkostnings følsomhed i modelvalget i Enterprise Mineren, ligger i den såkaldte Target Profile. Denne kan ændres node specifikt, men kan også præciseres for hele projektet, alt afhængig af, hvorledes den enkelte problemstillingen er konstrueret. I denne target profiler har man blandt andet mulighed for specificere matricer, variable og omkostninger, som overordnet er beskrevet ved ligning (3.3). Herudover kan man også præcisere, hvorvidt der skal tages hensyn til a priori bestemte sandsynligheder eller ej, samt hvilken hændelse for target, der ønskes forudsagt. I indeværende opgave er det ikke valgt at benytte prior s, og vi ønsker at beskrive sandsynligheden for en god betaler. For yderligere information eller uddybelse af metoderne i Target Profile, så henvises der til programdokumentationen. Side 9

9 Afsnit 4 Empirisk eksempel Det empiriske eksempel tager udgangspunkt i et sæt bestående af tyske kredit data. Ud fra disse data ønskes i det dette afsnit at udvikle to kreditscoremodeller. Den ene skal være dannet ved normal vis, mens den anden skal vælges ud fra de retningslinier beskrevet i forrige delafsnit. Således, at det til sidst kan vurderes hvorvidt det ud fra disse data har været eksercitsen værd. 4.1 Beskrivelse af data Det anvendte datasættet beskriver som nævnt ovenfor tyske kredit data. Sættet indeholder kun 1000 observationer, hvilket er under alle kriterier for udvikling af et acceptabelt scorekort. Resultater af flere undersøgelser på dette område har vist sig 4, at det normalt kræver et træningsdatasæt på omkring 2000 observationer. Stik i mod dette vil der i dette eksempel blive benyttet et træningssæt bestående af kun 400 observationer. Set under formålet med denne undersøgelse, så kan der argumenteres for, at hovedpointen kan være upåvirket. Dette til trods for, at man kan forestille sig, at der måske kan opnås obskure og ikke umiddelbart logisk fortolkelige resultater ud fra identifikationen. Tillige kan man også forestille sig, at der kan forekomme flere insignifikante parametre end normalt. Argumentet ville derfor gå på, at skønt modellerne måske ikke ville fungere i en kommerciel sammenhæng, så vil dette ikke ødelægge billedet hér. Vi kan komme ud for at sammenligne en dårlig model med en anden dårlig model, men da det er med en økonomisk evaluering for øje, så vil det stadig være muligt at vælge den model med det bedste økonomiske performance. Måske et stærkt kritisabelt ræsonnement set med teoretiske briller, men da det ikke har været muligt at fremskaffe andet relevant data, så synes dette at være den eneste udvej. De 1000 observationer er oprindeligt beskrevet ved 21 variable. I Bilag A.I er en liste over disse variable, samt deres udfald dokumenteret. Der er unmiddelbart en overkencentration af dårlige kunder i samplingen, sammenlignet med den normale accept af bad raten. Denne er nemlig oppe på 30%. Som beskrevet i afsnit 3. 2 giver Enterprise Miner en os lejlighed til at knytte en omkostning til forudsigelsen af hver observation. Nærmere betegnet en kostvariabel. For at udnytte denne mulighed med disse data, har det været nødvendigt at estimere en hypotetisk omkostningsvariabel. Dette er dokumenteret i Bilag A.II. Her er den tilsvarende indtjeningsvariabel dokumenteret. Denne skal benyttes ved den økonomiske evaluering af de opnåede modeller. Som beskrevet i bilaget, så er de to variable estimeret ud fra to antagelser. Dels, at der er en gennemsnitlig indtjening på en god kunde på 2000, mens der på en dårlig kunde er et middeltab på Samt, at indtjeningen og tabene fordeler sig efter to symmetriske normalfordelinger med forskellig middelværdi og varians. 4 Jf. Jacobsen (2000), [12]. Side 10

10 4.2 Explorativ analyse Før den egentlige udvikling startes er det kutyme, at undersøge data ved explorativ undersøgelse. Ligesom data miningens principper ligger op til, og understreger vigtigheden af. Dette er blandt andet med til at understøtte ens valg i forbindelse med kategoriseringen af variablene. Til forskel til fremgangsmåden i indeværende opgave, så er det normalt at inddele alle numeriske variable i kategorier. Således, at der i den logistiske regression kun indgår binære dummy variable. Den procedure i Enterprise Mineren, der bedst understøtter dette formål er multiplot noden. Ved hjælp af denne kan vi undersøge koncentrationen af goods contra bads indenfor hver variabel. Dette a priori kendskab kan også komme til nytte ved vurderingen af parameter estimaterne. Ved hjælp af multiplot noden kan det blandt andet ses, at andelen af gode betalere stiger med alderen. Denne modsatte tendens forefindes indenfor kredittens størrelse. På denne måde kan man gennemgå de enkelte variable således, at man øger sin forståelse af datas sammenhæng. Ligeledes kan man sammen med en portion intuition sammensætte de bedste kategorier efter ens mening. Personligt finder jeg, at det gavner den kommercielle anvendelse, hvis man forener hensynet til modelestimationens performance med eventuelt gældende samfundsregler. Et søgt eksempel herpå kunne være, hvis man indenfor alderen havde, at der skete en drastisk ændring i risikoen efter 66 år. Her ville det være mest oplagt at lade gruppen dele skævt ved 65 eller 67, da man rent virksomhedspolitisk nemmere ville kunne argumentere for rimeligheden i noget med pensionisters generelle betalingsmuligheden. Insight noden og mulitplot noden kan ud over multiplot noden hjælpe én med forståelsen af sammenhængen mellem flere variable og target variablen. 4.3 Metode Metodevalget er faldet på den multiple logistiske regressionsmodel. Andersen (1996), [3], giver en god dybdegående introduktion til denne regressionsanalyse model, og dennes aspekter. Skal der gives nogle indledende bemærkninger til metodikken bag modellen, så vil det tage udgangspunkt i logit - modellen. Antagelserne herom er beskrevet i Andersen(1996), [3], pp Sandsynligheden π i, for, at en hændelse i indtræffer, er per definition begrænset af intervallet [0, 1]. Ud fra denne sandsynlighed kan man udtrykke odds ne for at hændelsen indtræffer ved; ( π ) = π ( 1 π ) O (4.1) Det ses, at givet definitionen af π, så er O bundet nedadtil. Dette kan man komme om ved at tage logaritmen til oddsne. Den samlede transformation, betegnet logit - transformationen, giver derfor muligheden af at transformere intervallet udspændt af nul og et ned på den reelle tal akse. Dette giver os muligheden for at udtrykke en lineær model, hvis parametre kan estimeres indenfor rammerne af den log lineære model og den multinomiale fordeling; Side 11

11 T ( π i ) = ln( π i ( 1 π i ) = β 0 + β1xi 1 +! + β k xik = β X i logit (4.2) Givet estimationen af modellens parametre β og den enkelte observation i, så kan sandsynligheden givet ligning (4.2) udtrykkes ved π i T T ( β X ) { 1 exp( β X )} = exp (4.3) i Af alternative metoder er der blandt andet gennem tiden i forbindelse med kommercielle henseender blevet benyttet simpel lineær regressionsanalyse og diskriminant analyse. 4.4 Den traditionelle scoremodel Denne model er det endelige resultat fra kørslen af det flow beskrevet i det ovenstående samt i Bilag B. Det ses af resultaterne fra maksimum likelihood estimationen, at hovedparten af parameter estimaterne, der ikke er signifikant forskellig fra nul. Hvilket må siges at være stærkt utilfredsstillende. De eneste variable, der bidrager signifikant til beskrivelsen af variationen er umiddelbart kun checking, coapp, duration, foreign, installp samt resident. Hvis de vælgt under en procedure, der accepterer en variabel, hvis blot én af de dertil knyttede dummy variable er signifikant forskellig fra nul på et liberalt femprocent niveau. Herudover kan betydningen af amount, employed samt history diskuteres. i Betragtes estimaterne for parametrene er der til gengæld enkelte fortolkninger, der giver ganske god mening, og understøtter normale forventninger. Som eksempler herpå kan nævnes to af de numeriske variable; age og amount. Med alderen stiger sandsynligheden for at ansøgeren udvikler sig til at blive en god kunde, og omvendt med hovedstolen. I modsætning til dette tegner der sig også tendenser i indeværende data, der strider imod normale forventninger. Såsom det negative estimat for separerede, skilte eller gifte kvinder, samt det positive estimat for arbejdsløsheds dummien. Generelt vil den manglende insignifikans af den overvejende del af variablene højst sandsynligt resultere i en resampling, da man ville påpege mangler i data. 4.5 Den kostsensitive scoremodel Ud fra de metoder som litteraturen foreslår, og med de muligheder, som Enterprise Mineren giver, in mente, så er det også muligt på baggrund af det indeværende data at udvikle to kost-sensitive modeller. Den ene estimeret på baggrund af en profitmatrice, svarende til ligning (3.1). Man kan også udvide modelvalget med en individuel kostvariabel, samtidigt med, at beslutningsmatricen specificeres med omsætningstal, jævnfør ligning (3.3), i stedet for forventet profit. Som beskrevet i bilag B.V har det kun været muligt at estimere en brugbar model ved specificering af profit matrix. I denne model er der fire signifikante parameter estimater; dem for checking, coapp, duration og resident. På liberale 10-procent niveauer kan history og other accepteres med lidt god vilje. Generelt vil man nok også acceptere et intercept til trods for manglende signifikans. Det vil sige ud af de parametre, Side 12

12 som Miner en har valgt, så er godt hver tredje signifikant. I alt er der heller ikke hér mange variable at hænge et eventuelt scorekort op på, hvilket trods en eventuel god forklarings evne igen ville føre til en resampling med krav om flere repræsentative observationer. Da dette ikke er en del af problemstillingen i denne opgave, og på ingen måde en mulighed, så fortsættes der med evaluering af de to scoremodeller, estimeret af Enterprise Miner en. 4.6 Økonomisk evaluering Der i fortløbende lykkedes at estimere to modeller med succes. På disse to modellers parameter estimater har man muligheden for at udvikle et reelt scorekort. Da dette ligge uden for dette øvelsesoplægs rammer vil det i denne evaluering ikke være muligt at vurdere den egentlige forskel de to modeller i mellem. Tillige har det på baggrund af det i forvejen meget lille datasæt ikke været hensigtsmæssigt at udtage evaluerings data. Det har derfor virker mest rimeligt at sammenholde de to modellers forudsigelsesevne for hele dataet. Ud fra de estimerede parametre er det ligetil at beregne de enkelte observationers sandsynligheder under modellen, jævnfør ligning (4.2). Denne procedure er dokumenteret i Bilag C. Den endelige klassificeringsregel givet sandsynlighederne og scorekortet er en politisk beslutning. Det vil derfor i indeværende situation være mest relevant at vurdere forudsigelsernes kvalitet på to måder. Den ene er baseret på, hvorvidt den estimerede sandsynlighed er på den ene eller den anden side af en halv. Den anden er at anvende den hypotetiske omkostning og indtjening. Den første er den væsentligste, da cost/earn variablene ikke er blevet benyttet i estimationen af de to modeller til evaluering. Vælger vi at anskue det tilfælde først, hvor en sandsynlighed på over en halv fører til en forudsigelse af en god kunde, så opnår vi resultatet angivet i Bilag A. Tabel 4.1 viser differencen de to modeller i mellem. Det ses, at den traditionelle model har langt flere forudsagt som gode end den kost-sensitive. På denne måde opnår den omkostnings følsomme model, at givet profitmatricen struktur, at profitten maksimeres på baggrund af data sættet. Det kan derfor også konkluderes, at denne estimationstype er meget sample følsom til forskel fra de normale rare class genkendelsesprocedurer. Tabel 4.1 Forskel imellem forudsigelser af traditionel og kost-sensitive model Til Fra b G Bad Good Kilde: Egen tilvirkning Side 13

13 Dette skal forstås på den måde, at hvis man havde fuld kendskab til alle 1000 hoveder i datasættet, og regner med et middeltab/indtjening på 8000/4000, så vil der være et samlet tab på lidt over 1 million. En del af forudsigelserne får den kost-sensitive algoritme derfor kanaliseret over i bad kategorien for at opnå en positiv profit. Tages den samme indtjening for givet, så vil den kost-sensitive model nemlig føre til en samlet indtjening på 210 tusinde, mens den traditionelle model vil føre til tab på 394 tusinde. Det skal bemærkes, at der i profitmatrice ikke blev specificeret nogle former for alternativ omkostninger. Derfor er der i denne evaluering heller ikke indregnet tabt fortjeneste ved at afvise en god betaler. Dette ville heller ikke føre til anderledes konklusion på basis af det nærværende datasæt. Kun til en mindre forskel de to modeller imellem. Benytter vi en evalueringsmetode, der er mest relevant i tilfældet, hvor vi har taget hensyn til individuelle beslutnings omkostninger, så bliver resultatet også her, at den kost-sensitive model performer bedst. Fremgangsmåden er, at den forudsagte sandsynlighed adderes med den subjektive profiteffekt. Således, at der opnås en forventet profit for det enkelte låntager. Det ses af resultater i Bilag C, at på baggrund af dette data, er den kost-sensitive model foretrukken. Afsnit 5 Konklusion I dette øvelsesoplæg er der blevet gennemgået de helt basale og grundlæggende idéer indenfor Credit Scoring. Med disse i erindring er der ved hjælp af den cost sensitive litteratur fundet eksempler på hvorledes disse traditionelle metoderne indenfor kreditscoring kan revideres således, der tages mere hensyn til de økonomiske perspektiver. Ud fra disse udvidelser samt et ønske om at løse et empirisk eksempel ved hjælp af sas er muligheder indenfor Enterprise Miner en undersøgt. De fandt, at mulighederne for at inddrage omkostninger i estimationen og beslutningen af den endelige mode var mangfoldige. Et udsnit blev forklaret, og benyttet i beregningen af en række modeller. Her af blev to udvalgt til nærmere sammenligning. Den ene model var baseret på traditionel modelvalg, mens den anden blev udvalgt med hensynstagen til en profitmatrice. Udvælgelse af begge modeller blev fuldstændigt overladt til Enterprise Mineren. Ud fra de opnåede resultater blev der udregnet hypotetiske økonomiske overskuds størrelser. Dette resulterede i, at givet dette datasæt, kan det ikke afvises, at den kost-sensitive selektion vil give bedre økonomiske resultater end den traditionelle udvælgelse. Det skal dog påpeges, at grundet manglende muligheder for dataindsamling, er der benyttet et stærkt forenklet datasæt. Det kan ikke udelukkes, at det har kunne forvirre det sande billede. Side 14

14 Afsnit 6 Referencer [1] Adams, N.M. & Hand, D.J.(1998) : Comparing classifiers when the misallocation costs are uncertain, Pattern Recognition 32, 1999, pp [2] Adrians, Pieter & Zantinge, Dolf (1996): Data Mining, 1996, Harlow, England: Addison Wesley Longman Limited. [3] Andersen, Erling B. (1996): Introduction to the Statistical Analysis of Categorical Data, 1997, Berlin: Springer. [4] Berry, Michael J. A. & Linoff, Gordon (1997): Data Mining Techniques: for marketing, Sales and Customer Support, 1997, New York: John Wiley & Sons., Inc. [5] Domingos, Pedro (1999): MetaCost: A General Method for making Classifiers Cost- Sensitive, 1999, Instituto Superior Técnico, Lisbon, Portugal. [6] Elkan, Charles (2000): Cost-Sensitive Learning and Decision-Making when costs are unknown, 2000, Department of Computer Science and Engineering, University of California, San Diego. [7] Eye, Alexander von & Niedermeier, Keith E. (1999): Statistical Analysis of longitudinal Categorical Data in the Social and Behavioral Sciences, 1999, Mahwah, New Jersey: Lawrence Erlbaum Associates, Publishers. [8] Friis, Jessica; Williams, Nadya & Zadrozny, Bianca (1998): Cost-Sensitive Knowledge Discovery: A case Study, 1998, Department of Computer Science and Engineering, University of California, San Diego. [9] Gabrielsen, Gorm; Kousgaard, Nils & Milhøj, Anders (1999): Likelihood-teori, 1999, København: Akademisk Forlag. [10] Groth, Robert (2000): Data Mining: Building Competitive Advantage, 2000, New Jersey: Prentice Hall PTR. [11] Hand, David; Mannila, Heikki & Smyth, Padhraic (2001): Principles of Data Mining, 2001, Massachusetts: MIT Press. [12] Jakobsen, René Brandt (2000): Anvendelse af statistiske metoder til analyse af kreditscoring, 1998, Speciale ved Økonomisk Institut, Københavns Universitet. [13] Kronborg, Dorte; Tjur, Tue & Vincents, Bo (1998): Credit Scoring: Discussion of methods and a case study, 1998, Department of Management Science and Statistics, Copenhagen Business School. [14] McNab, Helen & Wynn, Anthea (2000): Principles and Practice of Consumer Credit Risk Management, 2000, Canterbury, UK: CIB Publishing. [15] Pyle, Dorian (1999): Data Preparation for Data Mining, 1999, San Francisco, California: Morgan Kauffman Publishers Inc. [16] SAS Institute Inc. (2000): Enterprise Miner Reference Help, Part of the software package SAS Enterprise Miner Release 4.1, SAS Institute Inc., Cary, NC, USA. Side 15

15 [17] Thomas, L.C.; Crook, J.N. & Edelman, D.B. (1989): Credit Scoring and Credit Control, 1992, Oxford: Clarendon Press. [18] Turney, Peter D. (1995): Cost-Sensitive Classification: Empirical Evaluation of a hybrid Genetic Decision Tree Induction Algorithm, Journal Of Artificial Intelligence Research 2, 1995, pp [19] Turney, Peter D. (2000): Types of Cost in Inductive Concept Learning, 2000, Institute for Information Technology, National Research Council of Canada, Ontario, Canada. [20] Vinod, Hrishikesh D. & Ullah, Aman (1981): Recent Advances in Regression Methods, 1981, New York: Marcel Dekker Inc. [21] Wang, Xue Z. (1999): Data Mining and Knowledge Discovery for process monitoring and control, 1999, Berlin: Springer Verlag. [22] Webb, Geoffrey I. (1996): Cost-Sensitive Specialization, In the Proceedings of the 1996 Pacific Rim International Conference on Artificial Intelligence, Cairns, Springer Verlag, pp [23] Witten, Ian H. & Frank, Eibe (2000): Data Mining Practical Machine Learning Tools and Techniques, 2000, San Francisco, California: Morgan Kaufmann Publishers. [24] Wonnacott, Thomas H. & Ronald J. (1981): Regression: a second course in statistics, 1981, New York: John Wiley & Sons. [25] Zadrozny, Bianca & Elkan, Charles (2001): Learning and Making Decisions when costs and probalities are both unknown, 2001, Department of Computer Science and Engineering, University of California, San Diego. Side 16

16 Bilag A Data Bilag A.I Dokumentation af datastrukturen Følgende er en tabel, der dokumenterer det anvendte datasæt. Variable Model Role Measurement Description age input interval age in years amount input interval credit amount checking input nominal or ordinal status of existing checking account 1:... < 0 DM 2: 0 <=... < 200 DM 3:... >= 200 DM 4: no checking account coapp input nominal other debtors/guarantors 1: none 2: co-applicant 3: guarantor depends input interval number of dependents durations input interval duration in months employed input ordinal present employement since 1: unemployed 2:... < 1 year 3: 1 <=... < 4 years 4: 4 <=... < 7 years 5:... >= 7 years existcr input interval number of existing credits at this bank foreign input binary foreign worker 1: yes 2: no good_bad target binary credit rating history input ordinal credit history 0: no credits taken / all credits paid back duly 1: all credits at this bank padi back duly 2: existing credits paid bacl duly till now 3: delay in paying off in the past 4: critical account / other credits existing (not at this bank) housing input nominal housing 1: rent 2: own 3: for free installp input interval installment rate in percentage of disposable income job intput ordinal job 1: unemployed / unskilled non-resident 2: unskilled resident 3: skilled employee / official 4: management / self-employed / highly qualified employee / officer martial intput nominall personal status and sex 1: male -- divorced / separated 2: female -- divorced / separated / married 3: male -- single Side 17

17 4: male -- married / windowed 5: female -- single other input nominal other installment plans 1: bank 2: stores 3: none property input nominal or ordinal property 1: real estate 2: if not 1, building society savings agreement / life insurance 3: if not 1 or 2, car or others 4: unknown / no property purpose input nominal purpose 0: new car 1: used car 2: furniture / equipment 3: radio / television 4: domestic appliances 5: repairs 6: education 7: vacation 8: retraining 9: business x: others resident input interval present residence since savings input nominal or ordinal status of existing saving account or bonds 1:... < 100 DM 2: 100 <=... < 500 DM 3: 500 <=... < 1,000 DM 3:... >= 1,000 DM 4: unknown / no saving account telephon input binary telephone 1: none 2: yes, registered under the customer's name Kilde: SAS Institute Inc. Det er på basis af udfaldene, at Enterprise Mineren danner de i modellen anvendte dummy variable. Bilag A.II Dannelse af de to hypotetiske profitvariable Til brug i evalueringen af de estimerede modeller vil der blive brug for hypotetiske variable. Én der beskriver den forventede indtjening for en given god kunde, samt det forventede tab for en dårlig kunde. Denne fremgangsmåde er stærkt kritisabel, men da det ikke har været muligt at fremskaffe relevant data, så synes dette at være den eneste udvej. Måden hvorpå det kan gøres mindst kritisabelt er ved at foretage tilfældige træk fra en standardiseret normal fordeling. På baggrund af disse normalt fordelte tilfældige værdier kan der så dannes 300 nettoomkostninger med en middelværdi på 8000 og 700 nettoindtjeninger med middelværdi på Ud fra en hypotese om, at der i gennemsnit går 4 gode kunder på én dårlig for at opnå breakeven. /************************************/ /* Dannelse af random norm variable */ /************************************/ data temp.credit (drop = x); set temp.credit_2; x = RAND('normal'); cost = 0; earn = 0; if good_bad = 'bad' then do; cost = int(x* ); end; if good_bad = 'good' then do; earn = int(x* ); end; run; Side 18

18 Bilag B Modelestimation Bilag B.I Undersøgelse af data Ved den explorative undersøgelse af data er der benyttet følgende diagram Indenfor hver node er der foretaget løbende ændringer, så det ønskede output er fremkommet. Bilag B.II Transformation af forklarende variable Enterprise Miner pakken indeholder også muligheden for at benytte en transformerings node til at behandle en eller flere af variablene inden den endelige modellering. I dette tilfælde ville det være relevant at transformere tre variable med henblik på maksimering af normalitet. Nemlig de tre numeriske forklarende variable; duration, amount og age. Transformerings noden foreslår ved maksimering af de tre variables normalitet at tage naturlige logaritmer i alle tre tilfælde. Gøres dette på en gang eller sekventielt så opnås der i alle eksempler en dårligere modelklassifikationsevne. Den primære årsag til dette er, at på trods af, at parameterestimaterne for amount og age ved et wald test ikke kan afvises af være lig nul, så bidrager de alligevel til forklaringen i modellen. Derfor vil en logistisk transformation indskrænke deres variations område, og understrege insignifikansen af de to variable. Derfor bliver de udeladt af den endelige model, hvis de transformeres. Grundet den dårligere klassifikationsevne så vælges det, at det traditionelle kort udvikles på den model med uden logistisk transformationer. Tillige bidrager dette gavnligt til signifikansen af parameter estimatet for duration variablen. Bilag B.III Modelestimations procedure Flowet benyttet i forbindelse med estimationen af de to modeller kan beskrives ved følgende diagram Ændringerne indenfor hver node, herunder specifikationen af target profilen, er de, som gør sig gældende indenfor det enkelte eksempel. Side 19

19 Bilag B.IV Den endelige traditionelle model The DMREG Procedure Analysis of Maximum Likelihood Estimates Standard Wald Pr > Standardized Parameter DF Estimate Error Chi-square Chi-square Estimate exp(est) Intercept age amount checking < checking checking coapp coapp depends duration employed employed employed employed existcr existcr existcr foreign history history history history housing housing installp installp installp job job job marital marital marital other other property property property purpose purpose purpose purpose purpose purpose purpose purpose purpose resident resident resident savings savings savings savings telephon The FREQ Procedure Table of F_good_bad by I_good_bad F_good_bad(From: good_bad) I_good_bad(Into: good_bad) Frequency Side 20

20 Percent Row Pct Col Pct BAD GOOD Total BAD GOOD Total Bilag B.V De endelige kost-sensitive modeller Resultatet af estimationen af modellen, hvor der er specificeret en profit matrice af formen 1 0 Q( i, t, d ) = π ( t, d ) = 4 0 ser således ud The DMREG Procedure Analysis of Maximum Likelihood Estimates Standard Wald Pr > Standardized Parameter DF Estimate Error Chi-square Chi-square Estimate exp(est) Intercept checking < checking checking coapp coapp duration < history history history history installp installp installp other other purpose purpose purpose purpose purpose purpose purpose purpose purpose resident resident resident The FREQ Procedure Table of F_good_bad by I_good_bad F_good_bad(From: good_bad) I_good_bad(Into: good_bad) Frequency Percent Row Pct Side 21

21 Col Pct BAD GOOD Total BAD GOOD Total Bilag C Modelevaluering /*************************************************/ /* Scoring af data i nye variable */ /*************************************************/ data credit_2; set credit; /* checking behandles */ checking_1 = 0; checking_2 = 0; checking_3 = 0; if checking = 1 then checking_1 = 1; if checking = 2 then checking_2 = 1; if checking = 3 then checking_3 = 1; /* coapp behandles */ coapp_1 = 0; coapp_2 = 0; if coapp = 1 then coapp_1 = 1; if coapp = 2 then coapp_2 = 1; /* depends behandles */ depends_1 = 0; if depends = 1 then depends_1 = 1; /* employed behandles */ employed_1 = 0; employed_2 = 0; employed_3 = 0; employed_4 = 0; if employed = 1 then employed_1 = 1; if employed = 2 then employed_2 = 1; if employed = 3 then employed_3 = 1; if employed = 4 then employed_4 = 1; /* existcr behandles */ existcr_1 = 1; existcr_2 = 1; existcr_3 = 1; if existcr = 1 then existcr_1 = 1; if existcr = 2 then existcr_2 = 1; if existcr = 3 then existcr_3 = 1; /* foreign behandles */ foreign_1 = 0; if foreign = 1 then foreign_1 = 1; /* history behandles */ history_0 = 0; history_1 = 0; history_2 = 0; history_3 = 0; if history = 0 then history_0 = 1; if history = 1 then history_1 = 1; if history = 2 then history_2 = 1; if history = 3 then history_3 = 1; /* housing behandles */ housing_1 = 0; housing_2 = 0; if housing = 1 then housing_1 = 1; if housing = 2 then housing_2 = 1; /* installp behandles */ installp_1 = 0; installp_2 = 0; installp_3 = 0; if installp = 1 then installp_1 = 1; if installp = 2 then installp_2 = 1; if installp = 3 then installp_3 = 1; /* job behandles */ job_1 = 0; job_2 = 0; job_3 = 0; if job = 1 then job_1 = 1; if job = 2 then job_2 = 1; if job = 3 then job_3 = 1; /* marital behandles */ marital_1 = 0; marital_2 = 0; marital_3 = 0; if marital = 1 then marital_1 = 1; if marital = 2 then marital_2 = 1; if marital = 3 then marital_3 = 1; /* other behandles */ other_1 = 0; other_2 = 0; if other = 1 then other_1 = 1; if other = 2 then other_2 = 1; /* property behandles */ property_1 = 0; property_2 = 0; property_3 = 0; if property = 1 then property_1 = 1; if property = 2 then property_2 = 1; if property = 3 then property_3 = 1; /* purpose behandles */ purpose_0 = 0; purpose_1 = 0; purpose_2 = 0; purpose_3 = 0; purpose_4 = 0; purpose_5 = 0; purpose_6 = 0; purpose_8 = 0; purpose_9 = 0; if purpose = 0 then purpose_0 = 1; if purpose = 1 then purpose_1 = 1; if purpose = 2 then purpose_2 = 1; if purpose = 3 then purpose_3 = 1; if purpose = 4 then purpose_4 = 1; if purpose = 5 then purpose_5 = 1; if purpose = 6 then purpose_6 = 1; if purpose = 8 then purpose_8 = 1; if purpose = 9 then purpose_9 = 1; /* resident behandles */ resident_1 = 0; resident_2 = 0; resident_3 = 0; if resident = 1 then resident_1 = 1; if resident = 2 then resident_2 = 1; if resident = 3 then resident_3 = 1; /* savings behandles */ savings_1 = 0; savings_2 = 0; savings_3 = 0; savings_4 = 0; if savings = 1 then savings_1 = 1; if savings = 2 then savings_2 = 1; if savings = 3 then savings_3 = 1; if savings = 4 then savings_4 = 1; /* telephon behandles */ telephon_1 = 0; Side 22

Lineær og logistisk regression

Lineær og logistisk regression Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

Morten Frydenberg 14. marts 2006

Morten Frydenberg 14. marts 2006 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik 1 RESUME: 2 2. gang: 2006 Institut for Biostatistik, Århus Universitet MPH 1. studieår Specialmodul 4 Cand. San. uddannelsen

Læs mere

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Morten Frydenberg 26. april 2004

Morten Frydenberg 26. april 2004 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993.

Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993. Kommentarer til spørgsmålene til artikel 1: Ethnic differences in mortality from sudden death syndrome in New Zealand, Mitchell et al., BMJ 1993. 1. Det anføres, at OR for maorier vs. ikke-maorier er 3.81.

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Fagplan for statistik, efteråret 2015

Fagplan for statistik, efteråret 2015 Side 1 af 7 M Fagplan for statistik, efteråret 20 Litteratur Kenneth Hansen & Charlotte Koldsø (HK): Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave, ISBN 9788741256047 HypoStat

Læs mere

Bilag 7. SFA-modellen

Bilag 7. SFA-modellen Bilag 7 SFA-modellen November 2016 Bilag 7 Konkurrence- og Forbrugerstyrelsen Forsyningssekretariatet Carl Jacobsens Vej 35 2500 Valby Tlf.: +45 41 71 50 00 E-mail: kfst@kfst.dk Online ISBN 978-87-7029-650-2

Læs mere

Hver anden vil benytte øget åbningstid i dagtilbud

Hver anden vil benytte øget åbningstid i dagtilbud Børnefamiliers dagtilbud og arbejdsliv 17. maj 18 Hver anden vil benytte øget åbningstid i dagtilbud Halvdelen af alle lønmodtagere med børn mellem -13 år ville benytte sig af udvidede åbningstider i deres

Læs mere

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Mantel-Haenszel analyser Mantel-Haenszel analyser Sidst lærte vi om stratificerede analyser. I dag kigger vi på et specialtilfælde: både exposure

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Eksamensopgave E05 Socialklasse og kronisk sygdom Data: Tværsnitsundersøgelse fra 1986 Datamaterialet indeholder: Køn, alder, Højest opnåede

Læs mere

Interviewereffekter på spørgsmål om sort arbejde. Rockwool Fondens Forskningsenhed Oktober 2008

Interviewereffekter på spørgsmål om sort arbejde. Rockwool Fondens Forskningsenhed Oktober 2008 Interviewereffekter på spørgsmål om sort arbejde Rockwool Fondens Forskningsenhed Oktober 2008 Tak til Rockwool Fondens Forskningsenhed Danmarks Statistiks Interviewservice, specielt til Isak Isaksen,

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Uafhængighedstestet Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: 1 IHD-Lexis 1.1 Spørgsmål 1 Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: data ihdfreq; input eksp alder pyrs cases; lpyrs=log(pyrs); cards; 0 2 346.87 2 0 1 979.34 12 0 0 699.14

Læs mere

Statistisk modellering og regressionsanalyse

Statistisk modellering og regressionsanalyse Statistisk modellering og regressionsanalyse Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Oktober 25, 2018 Slides @ biostatistics.dk/talks/ 1 2 Hvad er statistik? Statistics is a science, not

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Uge 13 referat hold 4

Uge 13 referat hold 4 Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer

Læs mere

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2. C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b. 5.000 4.800 4.600 4.400 4.00 4.000 3.800 3.600 3.400 3.00 3.000 1.19% 14.9% 7.38% 40.48% 53.57% 66.67% 79.76% 9.86% 010 011

Læs mere

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Data mining er ikke længere nice to have men need to have

Data mining er ikke længere nice to have men need to have mining er ikke længere nice to have men need to have Af Frank Bjergø Agenda Introduktion Hvad er mining og hvordan fungerer det? Eksempler på i Telco mining Hvilke forretningsområder er i gang Hvem er

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst 17. december 2013 Baggrundsnotat: Søskendes uddannelsesvalg og indkomst Dette notat redegør for den økonometriske analyse af indkomstforskelle mellem personer med forskellige lange videregående uddannelser

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018 Faculty of Health Sciences Basal Statistik Logistisk regression mm. Lene Theil Skovgaard 5. marts 2018 1 / 22 APPENDIX vedr. SPSS svarende til diverse slides: To-gange-to tabeller, s. 3 Plot af binære

Læs mere

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

ISCC. IMM Statistical Consulting Center. Brugervejledning til beregningsmodul til robust estimation af nugget effect. Technical University of Denmark

ISCC. IMM Statistical Consulting Center. Brugervejledning til beregningsmodul til robust estimation af nugget effect. Technical University of Denmark IMM Statistical Consulting Center Technical University of Denmark ISCC Brugervejledning til beregningsmodul til robust estimation af nugget effect Endelig udgave til Eurofins af Christian Dehlendorff 15.

Læs mere

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)

Læs mere

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller Statistik II 1. Lektion Sandsynlighedsregning Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Læring af test. Rapport for. Aarhus Analyse Skoleåret

Læring af test. Rapport for. Aarhus Analyse  Skoleåret Læring af test Rapport for Skoleåret 2016 2017 Aarhus Analyse www.aarhus-analyse.dk Introduktion Skoleledere har adgang til masser af data på deres elever. Udfordringen er derfor ikke at skaffe adgang

Læs mere

Introduktion til GLIMMIX

Introduktion til GLIMMIX Introduktion til GLIMMIX Af Jens Dick-Nielsen jens.dick-nielsen@haxholdt-company.com 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Bayesiansk statistik. Tom Engsted. DSS Aarhus, 28 november 2017

Bayesiansk statistik. Tom Engsted. DSS Aarhus, 28 november 2017 Bayesiansk statistik Tom Engsted DSS Aarhus, 28 november 2017 1 Figure 1: Nicolajs gur 2 Klassisk frekvensbaseret statistik Statistisk beslutningsteori Bayesiansk statistik Et kompromis mellem den klassiske

Læs mere

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere. Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl Reeksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 13-08-2018 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

Skriftlig eksamen i samfundsfag

Skriftlig eksamen i samfundsfag OpenSamf Skriftlig eksamen i samfundsfag Indholdsfortegnelse 1. Introduktion 2. Præcise nedslag 3. Beregninger 3.1. Hvad kan absolutte tal være? 3.2. Procentvis ændring (vækst) 3.2.1 Tolkning af egne beregninger

Læs mere

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen 1 Velkommen til kurset Teoretisk Statistik Lærer: Niels-Erik Jensen Plan for i dag: 1. Eks: Er euro'en skæv? 4. Praktiske informationer 2. Eks: Regressionsmodel (kap. 1) 5. Lidt om kursets indhold 3. Hvad

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Reeksamen i Statistik for biokemikere. Blok 3 2007.

Reeksamen i Statistik for biokemikere. Blok 3 2007. Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater

Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater Benchmarking af kommunernes sagsbehandling antagelser, metode og resultater Anna Amilon Materiel vurdering Ved vurderingen af en afgørelses materielle indhold vurderes afgørelsens korrekthed i forhold

Læs mere

Dansk Erhvervs gymnasieanalyse Sådan gør vi

Dansk Erhvervs gymnasieanalyse Sådan gør vi METODENOTAT Dansk Erhvervs gymnasieanalyse Sådan gør vi FORMÅL Formålet med analysen er at undersøge, hvor dygtige de enkelte gymnasier er til at løfte elevernes faglige niveau. Dette kan man ikke undersøge

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Fokus på Forsyning. Datagrundlag og metode

Fokus på Forsyning. Datagrundlag og metode Fokus på Forsyning I notatet gennemgås datagrundlaget for brancheanalysen af forsyningssektoren sammen med variable, regressionsmodellen og tilhørende tests. Slutteligt sammenfattes analysens resultater

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.-27 marts) Garvey et al. interesserer sig for sammenhængen mellem

Læs mere

Basal Statistik Kategoriske Data

Basal Statistik Kategoriske Data Basal Statistik Kategoriske Data 8 oktober 2013 E 2013 Basal Statistik - Kategoriske data Michael Gamborg Institut for sygdomsforebyggelse Københavns Universitetshospital michael.orland.gamborg@regionh.dk

Læs mere

Eksempel på logistisk vækst med TI-Nspire CAS

Eksempel på logistisk vækst med TI-Nspire CAS Eksempel på logistisk vækst med TI-Nspire CAS Tabellen herunder viser udviklingen af USA's befolkning fra 1850-1910 hvor befolkningstallet er angivet i millioner: Vi har tidligere redegjort for at antallet

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Bilag 12 Regressionsanalysens tabeller og forklaringer

Bilag 12 Regressionsanalysens tabeller og forklaringer Bilag 12 Regressionsanalysens tabeller og forklaringer Regressionsanalysens tabeller og forklaringer Regressionsanalysen vil være delt op i 2 blokke. Første blok vil analysere hvor meget de tre TPB variabler

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Økonometri 1 Efterår 2006 Ugeseddel 11

Økonometri 1 Efterår 2006 Ugeseddel 11 Økonometri 1 Efterår 2006 Ugeseddel 11 Program for øvelserne: Gruppearbejde og plenumdiskussion Introduktion til SAS øvelser SAS øvelser Øvelsesopgave: Paneldata estimation Sammenhængen mellem alder og

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen.

Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen. Bilag 7 Analyse af alternative statistiske modeller til DEA Dette bilag er en kort beskrivelse af Forsyningssekretariatets valg af DEAmodellen. FORSYNINGSSEKRETARIATET OKTOBER 2011 INDLEDNING... 3 SDEA...

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 5. undervisningsuge, onsdag

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Supplerende dokumentation af boligligningerne

Supplerende dokumentation af boligligningerne Danmarks Statistik MODELGRUPPEN Arbejdspapir* Ralph Bøge Jensen 13. september 2010 Supplerende dokumentation af boligligningerne Resumé: Papiret skal ses som et supplement til den nye Dec09-ADAM dokumentation

Læs mere