Klassifikation. Kapitel 5

Relaterede dokumenter
Om hypoteseprøvning (1)

Eksamen 2014/2015 Mål- og integralteori

Kvantitative Metoder 1 - Efterår Dagens program

Kausale modeller. Konstruktion og analyse

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Statistik og Sandsynlighedsregning 2

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Tema. Dagens tema: Indfør centrale statistiske begreber.

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Reeksamen 2014/2015 Mål- og integralteori

Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen

Estimation og konfidensintervaller

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Supplerende opgaver. S1.3.1 Lad A, B og C være delmængder af X. Vis at

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Susanne Ditlevsen Institut for Matematiske Fag susanne

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Elementær sandsynlighedsregning

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Nanostatistik: Stokastisk variabel

Elementær sandsynlighedsregning

En martingalversion af CLT

Løsning eksamen d. 15. december 2008

Kapitel 12 Variansanalyse

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. MI 2007 Obligatorisk opgave 4

Mordell s Sætning. Henrik Christensen og Michael Pedersen. 17. december 2003

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

standard normalfordelingen på R 2.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Den lineære normale model

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Taylors formel. Kapitel Klassiske sætninger i en dimension

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Statistik og Sandsynlighedsregning 2

1 Beviser for fornyelsessætningen

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Kvantitative Metoder 1 - Efterår Dagens program

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Forelæsning 11: Kapitel 11: Regressionsanalyse

Nanostatistik: Stokastisk variabel

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Statistik og Sandsynlighedsregning 2

Matematik 3 SS. Københavns Universitet Naturvidenskabelig kandidateksamen, sommeren Opgaver til besvarelse i 3 timer fredag den 18. juni 1993.

Sandsynlighedsteori. Sandsynlighedsteori. Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et. Et Bayesiansk argument

En martingalversion af CLT

Simpel Lineær Regression

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Lokalt ekstremum DiploMat 01905

Kvantitative metoder 2

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Kapitel 12 Variansanalyse

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Integration m.h.t. mål med tæthed

Opgaver i sandsynlighedsregning

Logistisk regression

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kvantitative Metoder 1 - Forår Dagens program

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.

Mat H /05 Note 2 10/11-04 Gerd Grubb

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Normale tal. Outline. Hvad er tilfældighed? Uafhængighed. Matematiklærerdag Simon Kristensen. Aarhus Universitet, 24/03/2017

Løsning til eksaminen d. 14. december 2009

Vinkelrette linjer. Frank Villa. 4. november 2014

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

BM121 Resume af tirsdags forlæsningen, Uge 47

Teoretisk Statistik, 16. februar Generel teori,repetition

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Gamle eksamensopgaver (MASO)

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Trykfejlsliste - alle fejl Asymptotisk teori

Sandsynlighedsregning Oversigt over begreber og fordelinger

Susanne Ditlevsen Institut for Matematiske Fag susanne

13 Markovprocesser med transitionssemigruppe

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Deskriptiv teori i flere dimensioner

Kapitel 7 Forskelle mellem centraltendenser

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Et eksperiment beskrives af et udfaldsrum udstyret med et. alle mulige resultater af eksperimentet

Transkript:

Kapitel 5 Klassifikation Klassifikation er en speciel afart af det problem, der generelt kaldes prediktion. Man har to stokastiske variable X og Y på et fælles baggrundsrum (Ω,F, P) med værdier i henholdsvis (X,E) og (Y,K). Udfordringen er at lave en afbildningφ :X Y sådan at φ(x) er noget man med rimelighed kan kalde en prediktion af Y på baggrund af observationen X. Det specielle ved klassifikation ligger i atyher er en endelig mængde. Man skal tænke påysom en række labels, hvor man på baggrund af en observations features X klistrer netop én label på. Det oplagte eksempel på klassifikation er medicinsk, hvor man foretager et antal mere eller mindre grundige undersøgelser af en patient, og derefter klistrer en af de to labels syg eller rask på vedkommende. Men der er mange andre eksempler: en palæontolog kan finde en kranie, og på baggrund af visse fysiske karakteristika ved kraniet kan han forsøge at påklistre det en Homo sapiens-label eller en Homo neanderthalensis-label. En botaniker kan måle kronbladenes længde og bredde på en iris-blomst og derefter henføre blomsten til en af de tre arter Iris setosa, Iris versicolor eller Iris virginica. En postarbejder kan studere en specielt ulæselig krusedulle på en kuvert, og forsøge at omsætte den til et af cifrene 0-9. Når nu Y er endelig, er det naturligt at lade K = P(Y). Et minimalt krav til klassifikationsafbildningen (eller klassifikatoren) φ : X Y er at den er E K målelig. Men der skulle jo også helst stilles nogle kriterier op, der sikrer at klassifikatoren rammer nogenlunde rigtigt. 95

96 Kapitel 5. Klassifikation 5.1 Optimale klassifikatorer En oplagt måde at vurdere kvaliteten af en klassifikatorφ på, er at ved hjælp af sandsynligheden for at den giver en korrekt klassificering, P(φ(X) = Y). Jo større denne sandsynlighed er, jo bedre er klassifikatoren. Vi vil i det følgende vise at der findes klassifikatorer der er optimale, i den forstand at de giver den størst mulige sandsynlighed for korrekt klassificering. Før vi går i gang, kan vi bemærke at sandsynligheden for korrekt klassificering ikke er det eneste mulige succeskriterium, og i visse sammenhænge vil man foretrække andre kvalitetsmål. Hvis klassifikationen drejer sig om syg eller rask er det ofte en meget alvorlig fejl at overse et sygt menneske (en såkaldt falsk negativ), mens det er til at leve med at lidt for mange mennesker bliver kaldt syge skønt de egentlig ikke er det (falsk positive). I disse tilfælde vil man foretrække klassifikatorer der har meget få falsk negative, om end man jo stadig vil søge at få så få falsk positive som muligt (den klassifikationsregel, der siger at alle er syge, uanset deres features, har med sikkerhed ingen falsk negative, men den er næppe meget bevendt i praksis... ). Hvis man kan blive enig med sig selv om hvor meget falsk negative klassifikationer skal veje i forhold til falsk positive, så kan man opstille et andet optimalitetsproblem for klassifikatorer, end det vi vil løse. De estimatorer, vi producerer, vil næppe være den optimale løsning til disse vægtede problemer. Ladνvære den marginale fordeling af X og lad ( ˆP x ) x X være den betingede fordeling af Y givet X. Sæt π(y x)= ˆP x ({y}). (5.1) For hvert fast y er x π(y x) ene-målelig afbildning, og da der kun er endeligt mange y er bliver (x, y) π(y x) automatisk E P(Y)-målelig. Vi vil gøre udstrakt brug afπ( ) i det følgende. Men bemærk at den manglende entydighed af den betingede fordeling gør at π( )-funktionen heller ikke er entydigt bestemt. Hvis vi lader ( P x ) x X være en anden version af den betingede fordeling, så ved vi at E={x X ˆP x = P x } harν-mål 1. Og vi ser let at hvis π(y x) erπ-funktionen hørende til ( P x ) x X så gælder der at x E, π(y x)= π(y x) (5.2) Såπog π er i det store og hele ens.

5.1. Optimale klassifikatorer 97 Definition 5.1 Vi indfører Bayes sandsynligheden som κ= maxπ(y x) dν(x) En Bayes regel er en målelig klassifikator φ : X Y, der opfylder at P(φ(X)=Y)=κ. I andre fremstillinger af klassifikationsteori fokuserer man ofte på 1 κ, der kaldes Bayes risikoen. Men i den måde vi stiller regningerne op på, er detκder dukker naturligt op. Vi bemærker atκikke afhænger af valget af betinget fordeling. Ved at bruge (5.2) ser vi nemlig at x E maxπ(y x)=max π(y x) og daν(e)=1 vil de to maxima have sammeν-integral. Betydningen afκer næppe umiddelbar, men hvis φ : X Y er en målelig klassifikator, ser vi at π(φ(x) x) maxπ(y x) og derfor er P(φ(X)=Y)= ˆP x ({φ(x)}) dν(x)= π(φ(x) x) dν(x) maxπ(y, x) dν(x). Vi ser derfor atκer en øvre grænse for hvor god en klassifikator kan blive, og at en eventuel Bayes regel er en optimal klassifikator. Det er faktisk nemt nok at se hvad der skal til for at en klassifikatorφ kan være en Bayes regel - den skal opfylde at π(φ(x) x)=maxπ(y x) ν-næsten sikkert (5.3) Det vil sige atφ(x) skal vælges som det y, der maksimererπ(y x) - hvis dette y er entydigt. Menπ(y x) har ikke altid et entydigt maksimum, og derfor kræver det en vis omtanke at gøre rede for vi kan vælge mellem de forskellige maksimumspunkter på en måde, så vi ikke ødelægger målelighedsbetingelsen.

98 Kapitel 5. Klassifikation Lemma 5.2 Der findes en Bayes regel. BEVIS: Vi kan uden indskrænkning antage atyer totalt ordnet - om ikke andet kan vi lade som omy={1, 2,...,k}. Sæt φ B (x)=min { π(y x)=max z Y π(z x)} (5.4) Vi tilordner altså til x et y, der maksimerer z π(z x). I det omfang der er valgmuligheder, løser vi flertydigheden ved at vælge det lavestey-element, der gør hvad det skal. Det er klart at π(φ B (x) x)=maxπ(y x) for alle x X så (5.3) er så rigeligt opfyldt. Vi skal derfor blot redegøre for atφ B er målelig. Sæt { } A(y)= x X π(y x)=maxπ(z x) z Y Da x π(y x) og x max z Y π(z x) ere-målelige, er A(y) E. Da φ 1 B ({y})=a(y)\ A(z) z<y ser vi atφ 1 B ({y}) Efor alle y. Og dermed erφ B målelig. Flertydigheden af en Bayes regel er lidt af en fiktion - i praksis har man ikke meget valgmulighed. Det er klart at på B y, y ={x X π(y x)=π(y x)} kan man ikke brugeπ-funktionen til at skelne mellem y og y. Men sædvanligvis vil man have at ν = 0 (5.5) y y B y, y hvilket betyder at valgfriheden er reduceret til en nulmængde. Tilsvarende vil den valgfrihed, der ligger i at skifte hele den betingede fordeling ud med en anden version, højst føre til ændring den eksplicitte Bayes regel fra (5.4) på en nulmængde.

5.1. Optimale klassifikatorer 99 Eksempel 5.3 Lad os se hvordan en Bayes regel ser ud i tilfældet med to klasser og en logistisk regressionsmodel for de betingede fordelinger. Hvis de to klasser kaldes 1 og 2 og hvis X har værdier irantager vi altså at P(Y= 1 X=x)= eα+β x 1+e α+β x, P(Y= 2 X=x)= 1 1+eα+β x. Nævneren er den samme i de to sandsynligheder, så vi behøver kun at sammenligne tællerne. Så den eksplicitte Bayes regel fra (5.4) bliver 1 hvis α+βx 0 φ B (t)= 2 hvisα+βx<0. Hvisβ>0kan vi istedet skrive φ B (t)= 1 hvis x α/β 2 hvis x< α/β, så klassifikatoren skærer simpelthen X-aksen over i et givet snitpunkt, og klassificerer X-værdier på den ene side af snitpunktet som hørende til én klasse, og X-værdier på den anden side af snitpunktet som hørende til den anden klasse. I det omfang der er valgmuligheder for konstruktion af Bayes regel ligger de på { α/β} hvisβ 0 {x R α+βx=0}= hvisβ=0,α 0 R hvisα=β=0. Hvisβ 0 (hvilket vi sædvanligvis går ud fra) og hvisνhar tæthed med hensyn til Lebesguemålet, er der i praksis ingen valgfrihed. Situationen er en lidt anden hvis β=0, men i så fald er X og Y stokastisk uafhængige, og i den situation giver det jo ikke meget mening at forsøge at prediktere Y ud fra X. Hvis X har værdier ir k, er de betingede klassesandsynligheder P(Y= 1 X=x)= eα+βt x 1+e α+βt x, P(Y= 2 X=x)= 1 1+e α+βt x. hvorβ R k. Derfor bliver den eksplicitte Bayes regel fra (5.4) 1 hvis α+β T x 0 φ B (t)= 2 hvisα+β T x<0.

100 Kapitel 5. Klassifikation Medmindreβ=0 deler denne klassifikatorr k op ved hjælp af en hyperplan: alt hvad der ligger på den ene side af hyperplanen klassificeres i én klasse, alt hvad der ligger på den anden side af hyperplanen klassificeres i den anden klasse. En nyttig hybrid mellem én og flere dimensioner kan opnås ved at indlejre en étdimensional variabel X i to dimensioner som X = (X, X 2 ). En logistisk regressionsmodel ud fra X fører til Bayes reglen 1 hvis α+β 1 x+β 2 x 2 0 φ B (t)= 2 hvisα+β 1 x+β 2 x 2 < 0 Disse områder i R kan stadigt være to intervaller, der er ubegrænsede til hver sin side. Men for rigtige valg af parametre vil det ene område være et begrænset interval, og det andet område vil være en forening af to ubegrænsede intervaller. Mere komplicerede opdelingsområder kan naturligvis opnås ved at benytte X = (X, X 2,..., X m ) for et passende højt m, kombineret med en logistisk regressionsmodel ir m. Endnu nyttigere kan denne indlejringsteknik være i højere dimensioner. En todimensional X-variabel (X 1, X 2 ) kan indlejres ir 5 som X = (X 1, X 2, X1 2, X 1X 2, X2 2 ). Kombineret med en logistisk regressionsmodel ir 5 giver det mulighed for at alle keglesnitsmængder (udfyldte ellipser, hyperbler og parabler) kan optræde som der 2 -områder, der knyttes til én klasse. 5.2 Estimation og klassifikation Brug af en Bayes regel er ikke muligt i praksis, for det kræver kendskab til den underliggende fordeling af (X, Y) i form af de betingede fordelinger af Y givet X. I praksis har man ikke dette kendskab - men man kan ofte estimere sig frem til noget, der er næsten lige så godt. Lad os sige at vi har en statistisk model for (X, Y), hvor den simultane fordeling er parametriseret ved (α,β). Vi antager atαkun indgår i den marginale fordeling af X mensβkun indgår i den betingede fordeling af Y givet X. Vi skriver P α,β (X A, Y B)= π β (y x) dν α (x). A y B Principielt hører der en Bayes regel til hver parameter (α, β), men eftersom det kun er de betingede sandsynlighederπ β (y x) der indgår i den eksplicitte konstruktion (5.4),

5.2. Estimation og klassifikation 101 kan vi se at der findes Bayes regler, der kun afhænger afβ. Mere generelt kan man sige at alleν α -målene som oftest har de samme nulmængder, hvilket betyder at en Bayes regel svarende til parameteren (α, β) automatisk vil være en Bayes regel for (α,β) for et hvilket som helstα. På denne baggrund vælger vi at skriveψ β for Bayes regelen hørende til (α,β). Vi vil interessere os for L(α,β,β )= P α,β (ψ β (X)=Y)= π β (ψ β (x) x) dν α altså sandsynligheden for at klassificere korrekt når den sande parameter er (α,β ) mens vi bruger Bayes reglen svarende til den forkerte parameterβ. Det er klart at L(α,β,β ) κ(α,β ) hvorκ(α,β ) er Bayes sandsynligheden for den sande parameter. Men måske er forskellen ikke så stor hvisβ ligger tæt påβ? Lemma 5.4 Hvisβ π β (y x) er kontinuert for alle (x, y), så vil L(α,β,β ) κ(α,β ) forβ β. BEVIS: Tag et fast x X. Vi deleryop i to: A(x)={y π β (y x)<max π β (z x)}, B(x)={y π β (y x)=max π β (z x)}. z Y z Y Betragt etǫ> 0 så lille at π β (y x)<max π β (z x) ǫ for alle y A(x). z Y Ved at vælgeδtæt nok ved 0 kan vi på grund af kontinuiteten afπ β (y x) opnå at π β (y x)<max z Y π β (z x) ǫ 2 for alle y A(x), β β <δ Ved eventuelt at gøreδmindre kan vi tilsvarende opnå at π β (y x) max π β (z x) z Y <ǫ for alle y B(x), β β <δ 2

102 Kapitel 5. Klassifikation Kombineres disse oplysninger fås for det første atψ β (x) B(x) for β β <δ, og dernæst at π β (ψ β (x) x)=π β (ψ β (x) x) for alle β β <δ Hvor lilleδskal være for at denne identitet indtræffer, afhænger af x. Men vi opnår i hvert fald at for alle x vil π β (ψ β (x) x) π β (ψ β (x) x) for β β endda med lighedstegn fra et vist trin. Per konstruktion erπ(y x) 1, så af majorantsætningen følger det at π β (ψ β (x) x) dν α (x) π β (ψ β (x) x) dν α (x) for β β Og det er præcis påstanden vi skulle vise. Vi forestiller os at vi har det, der i klassifikationsbranchen ofte kaldes et training set. Det er uafhængige observationer (X 1, Y 1 ),...,(X n, Y n ) af samme fordeling som den (endnu ugjorte) observation af (X, Y). På baggrund af de gjorte observationer danner vi en estimator ˆβ n afβ. Det kan vi formentlig gøre på en konsistent måde, så ˆβ n P β for n under P α,β. I så fald følger det af den netop påviste kontinuitet af L at L(α,β, ˆβ n ) P κ(α,β) Det vil sige: bruger vi Bayes reglen for den estimerede parameter ˆβ n på de fremtidige observationer, så er det måske knap nok optimalt i forhold til hvad vi kunne gøre hvis vi kendte den sande parameter. Men hvis parameterestimatoren er konsistent, så er optimalitetstabet med stor sandsynlighed lille når n er stor.