KUNSTEN AT FORUDSIGE KONKURSER
|
|
|
- Anne Marie Holm
- 7 år siden
- Visninger:
Transkript
1 Økonomikonference 7. oktober 2016 v/ Philipp Trénel, DTI og Klaus Kaiser, SEGES P/S KUNSTEN AT FORUDSIGE KONKURSER
2 LANDBRUGET ER MEGET KONJUNKTURFØLSOM Svineproducenter 600 Mælkeproducenter kr kr Planteproducenter kr
3 KONKURSER I LANDBRUGET SIDEN FINANSKRISENS START I 2008 Konkurser løbende 12 måneder En del bliver stærkere De fleste landmænd får dog aktiveret overlevelsesinstinktet, bl.a. hjulpet af kreditgiverne Nogle kommer svækkede igennem - Gældsopbygning - Investeringsefterslæb KRISE Andre giver op eller tvinges ud - Konkurs - Frivillig/tvunget salg Landmænd tvinges ud, andre giver selv op :01: :06: :11: :04: :09: :02: :07: :12: :05: :10: :03: :08: :01: :06: :11: :04: :09: :02: :07: :12: :05: :10: :03: :08: :01: :06: :11: :04: :09: :02: :07: :12: :05: :10: :03: :08: :01: :06: :11: :04: :09: :02: :07: :12: :05: :10: :03: :08: :01: :06: :11: :04: :09: :02: :07:00
4 KONKURSER OPDELT PÅ DRIFTSGRENE Kvægbedrifter er særligt hårdt ramt Men også høje konkurstal blandt svineproducenter og øvrige Antal konkurser indtil juli Planteproducenter Kvægbedrifter Svineproducenter Øvrige landbrug Landbrug i alt
5 KONKURSRAMT OMSÆTNING Konkursramte svineproducenter er gns. større Gns. omsætning på konkursramte bedrifter kr Planteproducenter Kvægbedrifter Svineproducenter Øvrige landbrug Landbrug i alt
6 FORTSAT HØJT KONKURSNIVEAU FORVENTES, MEN HVILKE BEDRIFTER? Konkurser løbende 12 måneder :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07:00
7 Konkursmodeller for de danske landbrugserhverv Philipp Trénel, ph.d., seniorkonsulent Teknologisk Institut division AgroTech
8 Formål Økonomidata At udvikle konkursmodeller til prædiktion af konkurssandsynlighed indenfor fem af det danske landbrugserhvervs sektorer (søer, slagtesvin, planteavl, kvægdrift) på baggrund af data fra DLBRs økonomi-database (ØDB) og konkursdata indhentet af SEGES. Konkursmodellerne skal levere både en høj prædiktionsnøjagtighed (accuracy) og en nem faglig tolkning mhp. en senere anvendelse i rådgivningen. ØDB Konkurssandsynlighed for bedrift i Pr(Y i = 1) Konkursdata Konkursmodellerne udvikles med henblik på opbygning af et early-warning system.
9 Udfordring 1 Det er svært at spå især om fremtiden og i særdeleshed om sjældne hændelser i fremtiden. >50ha Konkurser i landbruget i DK: lav prævalens (1.2% i 2015, Danmarks Statistik) Dette afspejler sig i Ø90 data brugt her (prævalens ~ 0.8%) Mange control-observationer (n = 6034 bedrifter) Få case-observationer (n = 110 bedrifter) mindsket statistisk power og reliability (generaliserbarhed)
10 Udfordring 2 Der er mange mulige forklarende variabler i Ø90, + deres features, til at bygge modellen på. (70 variabler, i alt features) Få af dem forventes at have en høj forklaringsværdi Behov for variable selection/model reduktion i et høj-dimensionelt parameterrum The curse of dimensionality
11 Udfordring 3 Feature Niveau Hældning, 1 o difference Acceleration, 2 o difference Acronym lag d dd Konkurssandsynligheden er en funktion af hændelser igennem tid Input-variabler til modellen skal derfor indeholde de features/egenskaber i økonomi-nøgletallenes historik, som har en sammenhæng til en fremtidig konkurshændelse. Dette gælder både korttids- og langtids- memory-processer omitted variable bias (OVB) Løbende variation i 3 års tidsvindue SD
12 Udfordring 4 Datakvalitet i ØDB Støj i data manuelle indtastninger personafhængige vurderinger manglende oplysninger varierende præcision af oplysninger, m.m. ikke-reducerbar støj mindsket power Missing data En stor andel af bedrifter viser store andele af manglende oplysninger (36.6% missing data i datasættet) Kan missing data antages at være missing at random (MAR)? Missing not at random (MNAR) sampling bias
13 Black box Udfordring 5 Høj prædiktionsnøjagtighed opnås typisk med black-box modeller (machine learning, e.g. random forest, deep learning neurale netværk, boosting, m.m.) Identificering af højrisiko bedrifter (early warning) En høj grad af menneskelig fortolkbarhed opnås typisk ved (ofte urealistisk) simple modeller (e.g., lineær regression, logistisk regression, m.m.) The complexity monster (Pedro Domingos) Individuel rådgivning på baggrund af bedriftsspecifikke økonomital
14 Datamodel/strategi Data Datahåndtering Model Prædiktion og modelperformance Økonomidata for m = 70 variabler (n m ) Konkursdata (0/1) (n 1 ) flet Feature ekstraktion for hver af de m variabler - lag 1, lag 2,, lag 6 - Ændring (1 o difference, d) - Acceleration (dd) - Løbende variance (SD), 3- års tidsvindue Case-Control up-/downsampling indenfor år - Generering af N=10 dataset for hver af de 5 definerede driftsgrene D Søer, Slagtesvin Planter, Kvæg, Øvrig ved at: - Bootstrap-sample caseobservationer vægtet efter prop. af cases indenfor år Missing Data Imputering - Unsupervised random forest (2 ntree = 200) Variable pre-selection på baggrund af eksterne kriterier - NA% < cutoff (50%) - Lineære kombinationer - Gns. korrelation < cutoff (75%) For hver af D N - Tilfældigt sample controlobservationer vægtet efter cases indenfor år og omvendt vægtet efter prop. af missing data (MAR) Split data i testog trainset - testset: 5% af case-, og 5% af controlobservationer Random forest klassifikationsmodel - Case-weights omvendt propor. med prævalensen - Sampling stratificeret efter år - ntree = 1000 For hver af D N OOB validering Ekstern testset validering ROC-curve til vurdering af sensitivitet og specificitet Per D over alle N Samlet vurdering for hver driftsgren Konkurssandsynlighed for bedrift i Pr(Y i = 1)
15 Decision tree Overskudsgrad < 14% Gældsprocent > 80% Driftsresultat > 1.2 mill. kr. Gældsprocent > 97% Y = 0 Y = 1 Y = 1 Y = 0 Y = 1 Hypotetisk eksempel Hvad er en random forest? Breiman 2001 Et af de mest populære og succesfulde machine learning teknikker Bygger et stort antal (derfor forest ) næruafhængige (derfor random ) decision-tree modeller. Hver decision-tree prædikterer outputtet på baggrund af split-regler i inputparametrene. Den endelige prædiktion er majority-voten over alle træer i skoven. Nær-uafhængighed opnås vha. resampling-teknikker vedr. både observationer og inputvariabler. Metoden inkorporerer automatisk variableselection/model reduktion og validering (out-of-bag, OOB).
16 Input-variabler: ØDB historik , Konkurs-historik m inputvariabler = 70 k = features pr. m = 19 m k = 1330 variabler i alt
17 Eksempel på Feature ekstraktion Konkurs
18 Resultater - model performance og prædiktionsnøjagtighed (1 år frem) Driftsgren Statistic estimate s.e. N Driftsgren Statistic estimate s.e. N Kvægbedrifter Y=0 2687,6 1,6 20 Slagtesvinsproduktion Y=0 994,7 8,0 20 Y=1 73,0 2,2 20 Y=1 14,0 0,0 20 Prevalence (%) 2,64 0,08 20 Prevalence (%) 1,39 0,01 20 Accuracy (OOB) 0,869 0, Accuracy (OOB) 0,858 0, Sensitivity 1 (OOB) 0,879 0, Sensitivity 1 (OOB) 0,819 0, Specificity 1 (OOB) 0,869 0, Specificity 1 (OOB) 0,859 0, Accuracy (test set) 0,874 0, Accuracy (test set) 0,853 0, Sensitivity 1 (test set) 0,882 0, Sensitivity 1 (test set) 0,95 0, Specificity 1 (test set) 0,873 0, Specificity 1 (test set) 0,85 0, So-besætninger Y=0 1015,0 3,9 20 Planteavl Y=0 1207,7 1,9 20 Y=1 19,0 0,0 20 Y=1 8,0 0,0 20 Prevalence (%) 1,84 0,01 20 Prevalence (%) 0,66 0,00 20 Accuracy (OOB) 0,84 0, Accuracy (OOB) 0,871 0, Sensitivity 1 (OOB) 0,865 0, Sensitivity 1 (OOB) 0,853 0, Specificity 1 (OOB) 0,839 0, Specificity 1 (OOB) 0,871 0, Accuracy (test set) 0,852 0, Accuracy (test set) 0,9 0,031 4 Sensitivity 1 (test set) 0,948 0, Sensitivity 1 (test set) Specificity 1 (test set) 0,848 0, Specificity 1 (test set) 0,899 0, :cutoff-sandsynlighed= 0.5
19 Kvæg, model 1a Sensitivitet og specificitet 84.2% specificity 85.0% sensitivity En sensitiv model har få falske negative. En specifik model har få falske positive. Den ønskede balance mellem sensitivitet og specificitet er bruger/case-afhængig og opnås vha. den cutoff-prædiktionssandsynlighed, som klassificerer observationerne i kategorierne Y = 1 (konkurs) eller Y = 0 (ikke-konkurs). cutoff = 0.5
20 Sensitivitet vs. Positive Predicted Value (PPV) Hvad er sandsynligheden for konkurs for en bedrift, der af modellen forudsiges til at gå konkurs? Dette afhænger af prævalensen! PPV er en prævalens-korrigeret analog til sensitivitet; NPV til Specificitet. Kvæg, model 1a Prævalens = 2.7% Ex1 Ex2 Ex3 cutoff Sensitivity Specificity PPV NPV Høj-risiko bedrifter n= 21
21 Resultater - prædiktionsnøjagtighed som funktion af forecast-tidsvinduet
22 Kvægbedrifter Viser klar ranking. Gældsprocent er den mest betydende variabel, der står for gns. 10.2% af variansreduktionen. Der er stor variation i den fundne variable importance mellem de N=20 modelreplikater. multipath Resultater - variable importance
23 Resultater - marginale effekter af de mest betydende variabler (1/2) Hændelse Y = 0 Y = 1
24 Konklusioner Random Forest modeller kan med rimelig høj nøjagtighed (accuracy = [0.84, 0.87]) prædiktere en bedrifts konkurssandsynlighed på baggrund af DLBRs ØDB data. Den lave prævalens af konkurser er en udfordring. PPV en kan øges på bekostning af sensitiviteten til en identifikation af højrisiko-bedrifter (f.eks. PPV ~ 0.75 og sensitivitet ~ 0.3 for kvægbedrifter). Der er mange udfordringer forbundet med en Big Data analyse. En succesfuld/brugbar model skal imødekomme udfordringer: Prævalens Data kvalitet og missing data Features extraction Variable selection Honest test set based validation Tæmning af the complexity monster modellen skal være let at fortolke Den faglige tolkning er først begyndt.
25 KUNSTEN AT FORUDSIGE KONKURSER Konkurser løbende 12 måneder SEGES har en operationel anvendelig Bankruptcy Prediction Model klar i løbet af 2017 Stærkt early warning og rådgivningsværktøj! Spørgsmål? 1994:01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07: :01: :07:00
Introduktion til Visual Data Mining and Machine Learning
SAS USER FORUM Introduktion til Visual Data Mining and Machine Learning Astrid Enslev Vestergård, SAS Institute Agenda Introduktion til et par machine learningmodeller Case-introduktion Demo SWEDEN 2017
Machine Learning til forudsigelser af central KPI
Machine Learning til forudsigelser af central KPI En case fra Banedanmark 07-05-2019 Konferencen Big Data, AI & Analytics Hvad skal vi med al den data? 1 Navn: Dorte-Lene Bacher Projektchef: Datadrevne
High-Performance Data Mining med SAS Enterprise Miner 14.1
High-Performance Data Mining med SAS Enterprise Miner 14.1 nye procedurer til en mere effektiv modeludviklingsproces Kristina Birch, Advisory Analytical Consultant, SAS Institute Indhold Hvad er High-Performance
En intro til radiologisk statistik
En intro til radiologisk statistik Erik Morre Pedersen Hypoteser og testning Statistisk signifikans 2 x 2 tabellen og lidt om ROC Inter- og intraobserver statistik Styrkeberegning Konklusion Litteratur
Kursus i @Risk (stokastisk simulering) Øvelsesmanual
Kursus i @Risk (stokastisk simulering) Øvelsesmanual Hvorfor @Risk og dette kursus? Større og mere komplekse landbrugsbedrifter kræver gode beslutningsværktøjer. I traditionelle regneark regnes der på
Avancerede analysemetoder i den offentlige sektor
Avancerede analysemetoder i den offentlige sektor IT Historisk betydning for SKAT Data Warehouse Side 2 Big data i SKAT i dag Elektronisk borgerkontakt Udarbejdelse af standardrapporter til skattemedarbejdere
Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning
1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3
En intro til radiologisk statistik. Erik Morre Pedersen
En intro til radiologisk statistik Erik Morre Pedersen Hypoteser og testning Statistisk signifikans 2 x 2 tabellen og lidt om ROC Inter- og intraobserver statistik Styrkeberegning Konklusion Litteratur
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse
Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser
Økonomiske prognoser. Økonomikongres Comwell Kolding 6. december 2011. v/ Klaus Kaiser Erhvervsøkonomisk chef Videncentret for Landbrug
Økonomiske prognoser Økonomikongres Comwell Kolding 6. december 211 v/ Klaus Kaiser Erhvervsøkonomisk chef Videncentret for Landbrug Temaer Landbrugets indkomstprognoser Hvad viser prognoserne? Hvad kan
Bidragssatser for heltidsbedrifter 2015 Niveau og spredning
Juli 2016 Bidragssatser for heltidsbedrifter 2015 Niveau og spredning Highlights Den gennemsnitlige bidragssats for heltidsbedrifter lå i 2015 på 0,99 pct. en stigning på 0,16 procentpoint fra 2012 til
Normalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration
Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: [email protected] Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Efterspørgselsforecasting og Leveringsoptimering
Efterspørgselsforecasting og Leveringsoptimering 26.05.2011 Bjørn Nedergaard Jensen Berlingske Media 2 En af Danmarks største medieudgivere og leverandør af både trykte og digitale udgivelser. Koncernen
Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.
Regressionsanalyser Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Hvilke faglige problemer kan man løse vha. regressionsanalyser? 1 Regressionsanalyser Det primære problem
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk
Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.
Statistik kommandoer i Stata opdateret 22/ Erik Parner
Statistik kommandoer i Stata opdateret 22/4 2008 Erik Parner Indledning... 1 Simple beskrivelser... 1 Data manipulation... 1 Estimation af proportioner... 2 Estimation af rater... 2 Estimation af Relativ
Public Analytics Tema: Effektmåling
Public Analytics Tema: Effektmåling Tirsdag den 19. marts 2013 1 22 MARCH 2013 2012 COPYRIGHT SAS INSTITUTE Public Analytics Tema: Effektmåling Tirsdag den 19. marts 2013 2 22 MARCH 2013 2012 COPYRIGHT
AKTIVERNES SAMMENSÆTNING HAR BETYDNING FOR DE ØKONOMISKE NØGLETAL
AKTIVERNES SAMMENSÆTNING HAR BETYDNING FOR DE ØKONOMISKE NØGLETAL NOTAT NR. 1813 Aktivernes sammensætning medfører, at slagtesvineproducenterne opnår et lavere afkast end smågriseproducenterne på bedriftsniveau.
Epidemiologi og Biostatistik
Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag
Statistik II 1. Lektion. Analyse af kontingenstabeller
Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression
Anvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
Arealanvendelse, husdyrproduktion og økologisk areal i 2003 til brug ved slutevaluering
Ministeriet for Fødevarer, Landbrug og Fiskeri Fødevareøkonomisk Institut Baggrundsnotat til Vandmiljøplan II slutevaluering Arealanvendelse, husdyrproduktion og økologisk areal i 2003 til brug ved slutevaluering
12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse
. september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Demo af PROC GLIMMIX: Analyse af gentagne observationer
Demo af PROC GLIMMIX: Analyse af gentagne observationer Kristina Birch, seniorkonsulent, PS Banking Agenda Uafhængige vs. afhængige observationer Analyse af uafhængige vs. afhængige observationer Lille
Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model
Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ
Deep Learning. Muligheder og faldgruber. Glenn Gunner Brink Nielsen, Teknologisk Institut
Deep Learning Muligheder og faldgruber Glenn Gunner Brink Nielsen, Teknologisk Institut Deep Learning en klar succes! Siden de første convolutional netværk blev indført i 2012 har de domineret denne opgave.
Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.
Faculty of Health Sciences SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 22. januar 2018 1 / 20 SPSS APPENDIX med instruktioner til SPSS-analyse svarende
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Reeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Data-analyse og datalogi
Det Naturvidenskabelige Fakultet Data-analyse og datalogi Studiepraktik 2014 Kristoffer Stensbo-Smidt Datalogisk Institut 23. oktober 2014 Dias 1/15 Hvorfor bruge tid på dataanalyse?! Alle virksomheder
Metode til vurdering af proportionalitet i relation til implementering af BAT teknologi Jacobsen, Brian H.
university of copenhagen University of Copenhagen Metode til vurdering af proportionalitet i relation til implementering af BAT teknologi Jacobsen, Brian H. Publication date: 2009 Document Version Også
Anvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Logistisk regression og prædiktion
Faculty of Health Sciences Introduktion Logistisk regression og prædiktion 16. Maj 2012 Julie Forman Biostatistisk Afdeling, Københavns Universitet Hvad er en god diagnostisk model? En model med god overensstemmelse
Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,
Statistik noter Indhold Datatyper... 2 Middelværdi og standardafvigelse... 2 Normalfordelingen og en stikprøve... 2 prædiktionsinteval... 3 Beregne andel mellem 2 værdier, eller over og unden en værdi
En Bayesiansk tilgang til Credit Scoring
En Bayesiansk tilgang til Credit Scoring Et akademisk studie af: Daniel Lund, SAS Institute Rune Tousgaard Piil, Jyske Bank Ana Alina Tudoran, Aarhus Universitet Agenda Mål for studiet Vores tilgang til
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Simpel Lineær Regression
Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige
Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π
Multipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Statistik Lektion 4. Variansanalyse Modelkontrol
Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede
Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater.
Sammenhængen mellem elevernes trivsel og elevernes nationale testresultater. 1 Sammenfatning Der er en statistisk signifikant positiv sammenhæng mellem opnåelse af et godt testresultat og elevernes oplevede
Konkursanalyse Rekordmange konkurser i 2016
1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 Rekordmange
Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Kvantitative metoder 2
Kvantitative metoder 2 Beskrivende statistik og analyse af kvalitatitive data 12. februar 2007 Kvantitative metoder 2: F3 1 Program for i dag: Test i multinomialfordelingen: Q-testet (BL.13.1-2) Opsamling
Kapitel 11 Lineær regression
Kapitel 11 Lineær regression Peter Tibert Stoltze [email protected] Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),
Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable
Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected] Sammenhæng
Hjemmeopgave. I bedes benytte sidste side fra denne opgavetekst i udfyldt stand som forside på jeres opgavebesvarelse. Siden findes også på nettet.
Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2012 Udleveret 2. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober-1. november) I Secher et al. (1986) estimeres referencekurver
Økonomisk analyse af forskellige strategier for drægtighedsundersøgelser
Økonomisk analyse af forskellige strategier for drægtighedsundersøgelser Jehan Ettema, SimHerd A/S, 28-10-15 Indholdsfortegnelse Metoden... 2 Design af scenarierne... 2 Strategier for drægtighedsundersøgelser...
FREMSTILLINGSPRISEN PÅ KORN
Støttet af: FREMSTILLINGSPRISEN PÅ KORN NOTAT NR. 1415 Kend din fremstillingspris på korn inden du udvider dit areal. Der er stor forskel i fremstillingsprisen på korn og nogle landmænd kan købe kornet
Net Lift Modelling. Peter Steffensen, Senior Principal Consultant. Copyright 2011 SAS Institute Inc. All rights reserved.
Net Lift Modelling Peter Steffensen, Senior Principal Consultant Copyright 2011 SAS Institute Inc. All rights reserved. Net Lift Baggrund Customer Intelligence-modellering Kampagne: Påvirkning af kunde
Notat. Testrapport - metode. Deep learning algoritme i billeddannende måleudstyr til måle- og klassificeringsanvendelser
Notat 7. december 2018 2006150-02-01 TMO,DBN,GLN,EVO Testrapport - metode Deep learning algoritme i billeddannende måleudstyr til måle- og klassificeringsanvendelser i fødevarevirksomheder. Introduktion
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination
Statistik og skalavalidering. Opgave 1
Statistik og skalavalidering Opgave 1 Opgavens formål: Denne opgave har, ligesom det vil være tilfældet for de fleste andre øvelsesopgaver på dette kursus, flere forskellige formål. For det første et praktisk/teknisk
Additiv model teori og praktiske erfaringer
make connections share ideas be inspired Additiv model teori og praktiske erfaringer Kaare Brandt Petersen Forretningschef, ph.d., SAS Institute Agenda Hvad er en additiv model? Forudsætninger Fortolkning
Tema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af
Risiko-regneark Planteproduktionen
Risiko-regneark Planteproduktionen, 8200 Aarhus N For en planteproducent er det forventede dækningsbidrag baseret på forventede udbytter og forventede priser. Derfor er der altid en risiko for, at udbytter
Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Skriftlig eksamen Science statistik- ST501
SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
LANDBRUGETS STRUKTURUDVIKLING
Kommunernes Landsforening 9. oktober 215 v/ Klaus Kaiser Erhvervsøkonomisk Chef, SEGES LANDBRUGETS STRUKTURUDVIKLING 214-222 14 12 1 8 6 4 2 LANDBRUGETS STRUKTURUDVIKLING Landbrugsbedrifters antal og størrelse
