Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

Transkript

1 Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2) Klaus Hansen 23 september 24 Indhold Elementære empiriske mål 2 Lidt sandsynlighedsregning 3 3 Fordelinger 3 3 Grundlæggende begreber 4 32 Nogle eksempler på diskrete fordelinger 5 33 Nogle eksempler på kontinuerte fordelinger 6 4 Parameterestimation 9 5 Statistiske test 9 5 -test: følger forsøgsdata den teoretiske fordeling? 52 To sæt data: er det den samme fordeling? Elementære empiriske mål Gennemsnit og varians Hvis vi har observationer kan vi udregne gennemsnit og varians : () (2) I mange tilfælde kan man bruge som estimat for den teoretiske varians i en fordeling, og en bedre værdi fås da hvis der i udtrykket for divideres med beregnes på en bekvemmere måde som idet "! og $%"! i stedet for med kan (3) kan beregnes i samme gennemløb af data, og også bruges til at beregne Gennemsnittet tilhører ofte ikke mængden af mulige observationer, feks hvis vi måler heltalsværdier, men vi skal være forsigtige med at afrunde gennemsnittet

2 *) Median og fraktiler Har man brug for at finde den observation, der er tættest på midten, kan vi bruge medianen Vi sorterer observationerne (under brug af permutationen ) og får det sorterede sæt Det midterste element har indeks og kaldes medianen Det er ét ud af mange mulige fraktiler, som er elementer med indeks af formen Bruges % er der tale om de tre kvartiler med indices (nedre kvartil), (median) og (øvre kvartil) Hvis observationerne kan have værdierne ( er feks 256 for gråtonebilleder og ), kan vi tælle, hvor mange observationer, der har værdien Sættet af kaldes et histogram og kan vises grafisk, se figur til højre Figur : Til venstre billedet af Lena i en gråtoneudgave Til højre histogrammet for billedet De lodrette linjer er markeringer, som er irrelevante i denne sammenhæng Den vandrette akse angiver gråtoneværdierne, den lodrette de tilsvarende antal! " Gennemsnittet kan udregnes ud fra histogrammet til at være! $ Entropi Et andet statistisk mål, der kan udregnes fra histogrammet er den empiriske entropi (se side 5); man benytter som de enkelte sandsynligheder divideret med det samlede antal observationer, idet summen af sandsynlighederne jo skal være Multidimensionale data Gennemsnit og varians kan generaliseres, hvis observationerne er sæt % data ( +, af - (4) Da kan man regne forskellige gennemsnit og varianser, for rækker ( og /, er ikke potensen, men betyder række), mellem rækker, for søjler 2 ( og 2 (3 står for søjle)) og for alle ( og ): (5) 2

3 - ( (6) (7) (8) 2 2 (9) () () 2 kaldes kovariansen mellem sættene og 3 og kan opstilles i kovariansmatricen, som har dimension : ( ) ) *) 2 Lidt sandsynlighedsregning +,,, ) ) *) / Ved et eksperiment tilhører udfaldene udfaldsrummet ( universet ) Vi er interesserede i en hændelse, og specielt i sandsynligheden for at den indtræffer Et fornuftigt mål for sandsynligheder af hændelser skal opføre sig på følgende måde:,, og hvis er et sæt disjunkte hændelser (dvs har ikke udfald til fælles) er! Vi kan indføre et naturligt mål ved at tælle antallet af elementer og og sætte Hvis mængderne ikke er tællelige må vi benytte et mål baseret på arealer, dvs anvende integralregning Der gælder en lang række regneregler for sandsynligheder, her følger et par eksempler: Formel 5 kaldes Bayes formel og hændelsen 3 Fordelinger +,,, (2) (3) (4) (5) kaldes a posteriori-sandsynligheden givet a priori-sandsynligheden Vi vil nu kikke på sandsynligheder som kan beregnes ud fra en tabel eller en funktion med nogle få parametre parametriserede sandsynligheder 3

4 3 Grundlæggende begreber Vi antager at vi har en tilfældig variabel, som ved en stokastisk proces giver et tilfældigt udfald dvs det kan ikke forudsiges eksakt Vi har brug for to funktioner benævnt tæthedsfunktionen og fordelingsfunktionen Hvis er diskret, består den af en række udfald hver tilknyttet en sandsynlighed, idet! Tæthedsfunktionen er da og fordelingsfunktionen er I det ikke-diskrete tilfælde er sandsynlighederne givet ved en tæthedsfunktionen, som er en Fordelingsfunktionen er reel funktion hvorom det gælder at og Der gælder derfor at Det er muligt at lave regneregler for summer af, produkter af og kvotienter mellem statistiske variable og generelt for, når tæthedsfunktionen eller fordelingsfunktionen er kendt Momenter For statistiske variable kan man definere momenter, som er en opsummeringer svarende til gennemnit og varians Nulpunktsmomenter af k te orden har formerne (6) (7) Nulpunktmomentet af orden eller kaldes middelværdien af og svarer til fordelingens tyngdepunkt Nogle regneregler for :! " $% " (8) (9) " (2) " (2) Den sidste formel forudsætter at og " er statistisk uafhængige De centrale momenter af k te orden har formerne (22) (23) Det centrale moment af 2 orden kaldes variansen af og betegnes eller I lærebogen bruges disse begreber i afsnit 24 Images as a stochastic process I formlerne 25, 26 og 27 er notationen lidt anderledes, idet der er generaliseret til ( dimensioner, dvs at 4

5 tæthedsfunktion ( ) og fordelingsfunktion (som ikke er navngivet, men defineret som et integrale) egentlig er funktioner af ( variable benævnes idet den statistiske variabel er, en funktion af én variabel for hvert punkt i et billede I nærværende notation bliver til (her er tæthedsfunktionen, som i bogen benævnes ) og er derfor blot I Peter Johansens noter om principalkomponentanalyse bruges betegnelsen for middelværdien og betegnelsen for en retningsbestemt udgave af variansen, idet er sat til nul ved en systematisk forskydning af koordinatsystemet Entropi Et andet statistisk mål er entropien og som defineres som idet led med udelades Hvis der bruges logaritmen med grundtal 2 fås entropien i bit Hvis man kun har naturlige logaritmer eller logaritmer med grundtal kan man udnytte at / Hvis man har et histogram (et sæt af tal, se side 2), kan entropien beregnes som $ $! Entropien kan også defineres for det ikke-diskrete tilfælde 32 Nogle eksempler på diskrete fordelinger Ligefordelingen kan antage værdierne Binomialfordelingen Parameter!! " ellers Binomialfordelingen (se figur 2) benyttes ved en række ens eksperimenter til at finde sandsynligheden for det totale antal forekomster af et udfald Parametre og % ( $ *) $ ellers 5

6 7 6 Binomialfordelingen for n= p=5 p=5 p=8 sandsynlighed p(x=x) x 2 3 Figur 2: Binomialfordelingen for tre værdier af parameteren Poissonfordelingen Poissonfordelingen (se figur 3) anvendes hvis der ingen statistsik sammenhæng er mellem de enkelte hændelser Fordelingen bruges meget ofte i køteori for såvel antallet af ankommende som antal ekspederede i en given tidsperiode, feks for køen ved kasseapparater i supermarkeder Parameter " ellers 33 Nogle eksempler på kontinuerte fordelinger Den rektangulære fordeling Parametre og " ellers 6

7 sandsynlighed p(x=x) Poissonfordelingen µ= µ=5 µ= x Figur 3: Poissonfordelingen for tre parameterværdier Normalfordelingen (Gauss-fordelingen) Normalfordelingen (se figur 4) bruges meget ofte, specielt i sammenhænge hvor man ikke kender den egentlige fordeling, eller hvor et udfald skyldes en større række bidragende tilfældigheder Parametre og Gauss-fordelingen med og kaldes også den normerede normalfordeling eller u- fordelingen Det er fordelingen af en normeret statistisk normaltfordelt variabel Denne type statistiske variable optræder i en del statistiske test I MATLAB findes funktionen erf, som ligner u-fordelingen, men er defineret ved!, og ud fra den kan værdier af fordelings- Funktionen erfc har værdien funktionen for u-fordelingen beregnes:!!! 7

8 Normalfordelingen (Gauss fordelingen) med µ= Varians Varians 2 Varians 5 Varians 2 35 sandsynlighed p(x=x) x Figur 4: Normalfordelingen for fire varianser Laplace Laplacefordelingen (se figur 5) er et specialtilfælde af den generaliserede Gauss-fordeling Den benyttes til at beskrive fordelingen af pixelværdier og fordelingen af koefficientværdier i DCT (Discrete Cosine Transform, benyttes bla i JPEG) Den generaliserede Gauss-fordeling: Parametre og Gamma-funktionen heltallige gælder at! Se figur 6! -fordelingen Parametre og er den kontinuerte udgave af fakultetsfunktionen, idet der for Den matematiske definition er Anvendelse: se nedenfor i afsnit 5 8

9 Laplacefordelingen med µ= 5 b= b=2 b=5 b=2 4 sandsynlighed p(x=x) x Figur 5: Laplacefordelinegn Parameter (, ellers ) 4 Parameterestimation Har vi nogle forsøgsdata og en teoretisk fordeling med ukendte parametre, kan vi estimere hvilken værdi af parametrene, der bedst beskriver forsøgsdata Der er mange måder at estimere på, men et udmærket estimatet er den empiriske for middelværdien, og udregnet med nævneren for variansen 5 Statistiske test Statistiske test går ofte ud på at afgøre om forsøgsdata bekræfter eller afkræfter en hypotese, der er opstillet før forsøget; det er en god ide at opstille hypotesen før forsøget, idet forsøget i mange tilfælde da kan udformes, så udfaldet af den statistiske test får størst mulig sikkerhed En situation man ofte støder på er, at data følger en kendt fordeling, men parametrene til denne er ikke kendte Man kan da opstille hypotesen, at parametrene tilhører mængden, som er en delmængde af alle de mulige parameterkombinationer Hypotesen benævnes nulhypotesen og den modsatte hypotese er : at parametrene ikke tilhører Der er nu følgende muligheder: accepteres forkastes er sand OK fejl af art er falsk fejl af 2 art OK Vi er normalt interesserede i at sandsynligheden for en fejl af art er så lille som mulig Vi håber så at det også gælder for fejlen af 2 art Da der er tale om stokastiske variable kan vi ikke helt undgå at begå fejl En test med signifikansniveau er en test hvor! 9

10 Figur 6: Gammafunktionen Denne vælges ofte til at være 5, dvs højst 5% sandsynlighed for at forkaste Hvis man forkaster kan man yderligere angive noget om : -stjernet (*) imod ikke forkastet på % niveau svagt bevis for 2-stjernet (**) imod forkastet på % niveau, men ikke på % bevis for 3-stjernet (*** )imod også forkastet på % niveau stærkt bevis for 5 -test: følger forsøgsdata den teoretiske fordeling? Har vi nogle observationer og en teoretisk fordeling, kan vi teste om observationerne følger den teoretiske fordeling, hvis vi har observationer nok Vi grupperer observationerne fx ved at lave et histogram over de observerede data, dvs grupperer i ( klasser Histogrammet har antallet obeservationer i den te klasse, idet ( Vi har i alt! observationer For hver klasse har vi en teoretisk sandsynlighed For at testen kan bruges, skal hver være mindst 5, ellers er der for få observationer for klasserne med lille sandsynlighed Man kan evt slække på dette krav, hvis over 8% af klasserne opfylder kravet samtidig med at ingen klasse har et forventet antal, der er mindre end! og ( Vi udregner nu følger nu med god tilnærmelse en - fordeling med frihedsgrader -fordelingen beskriver egentlig fordelingen af summen af kvadraterne på stokastiske variable, der hver er normeret normaltfordelt: " Når er stor nok, vil man kunne tilnærme mange fordelinger med en normalfordeling (dette gælder fx Poisson-fordelingen og binomialfordelingen), og derfor kan man antage at kvadratet på normerede variable som i ovenstående formel med god tilnærmelse er $ -fordelt Vi skal nu finde signifikansniveauet for at hypotesen om overensstemmelse mellem teoretisk fordeling og observationer skal forkastes I MATLAB på DIKU mangler statistikpakken, så -testen findes ikke som standardfunktion C-programmører kan finde funktionen chsone i Numerical Recipes, som blandt andet kan findes i /usr/local/image/src/archive/numericalrecipes/ansi-c/ Funktionen kaldes således: chsone(float bins[], float ebins[], int nbins, int knstrn, float *df, float *chsq, float *prob), hvor nbins er antallet af klasser, bins er histogrammet, ebins de forventede værdier, knstrn i dette tilfælde er, df er en pointer til en variabel, der angiver antallet af frihedsgrader (denne ændres) I chsq returneres $ -testværdien og i prob andsynligheden for -værdien Er denne over hypotesen bekræftet niveauet, men heller ikke under, er

11 ) 52 To sæt data: er det den samme fordeling? (Kilde: Brøndum og Monrad: Statistik I og II (Den private ingeniørfond 993)) Vi får brug for to nye fordelinger: t-fordelingen og F-fordelingen t-fordelingen Har vi to statistiske variable (fordelt ) og (fordelt efter ) er fordelingen af den statistiske variabel!$ fordelt efter t-fordelingen med frihedsgradsantallet Tæthedsfunktionen for denne er (24) F-fordelingen Har vi to statistiske variable (T for tæller) og (N for nævner), som er fordelt henholdsvis og, vil sandsynlighedsfordelingen for den statistiske variabel være F- fordelt med tællerfrihedsgradsantal og nævnerfrihedsgradsantal Tæthedsfunktionen for denne er (25) To sæt data: er variansen den samme? Vi er i den situation at vi har to sæt normaltfordelte data med hver sine ukendte parametre og Vi ønsker nu at afgøre om de ukendte er forskellige Vi beregner først det empiriske gennemsnit og den empiriske varians for de to sæt data, dvs,, 3 og 3 Vi benytter Bartletts test med nulhypotesen imod den alternative: at de ikke er lig hinanden Forholdet er F-fordelt Frihedsgraderne for nævner og tæller vælges ud fra hvad og er ud fra frihedsgraderne og Hvis fx er mindre end, holder nulhypotesen med konfidensniveau 25% Et eksempel (hentet fra Brøndum og Monrad II side 385): To sæt observationer henholdsvis (622, 63, 69, 62, 634, 624, 625, 62) og (633, 626, 68, 638, 63, 632, 64) Vi beregner, 3,,, 3 og Af dette fås, og da er der ingen tegn på forskellig varians I Numerical Recipes kan testen på udføres ved hjælp af funktionen betai(a, b, x) (incomplete beta function), som med passende parametre vil give sandsynligheden for at ville have denne værdi, hvis den ene varians faktisk var mindre end den anden Funktionen kaldes med parametrene, og I kursets MATLAB-katalog (i /usr/local/del/datv-billed) findes i kataloget statistics m-filer for betai og hjælpefunktioner

12 To sæt data: er middelværdien den samme? Vi har nu afgjort at de to sæt normaltfordelte data har samme (men ukendte) varians Har vi samme varians, kan vi beregne et fællesestimat for denne 3 på grundlag af samtlige data Vi skal her benytte nævneren Vi tester nu nulhypotesen imod alternativet: at de er forskellige Størrelsen er t-fordelt med grund til at afvise nulhypotesen! 3 frihedsgrader Er t-værdien fx mindre end! I eksemplet fra forrige afsnit er 3 og!, er der ingen Da! og!, er der tegn på at middelværdierne er forskellige I Numerical Recipes kan testen på! også udføres ved hjælp af betai med parametrene og Resultatet skal trækkes fra for at give sandsynligheden I kursets MATLAB-katalog (i /usr/local/del/datv-billed) findes i kataloget statistics m-filer for betai og hjælpefunktioner Der findes også en m-fil variancetest, der foretager en test på to sæt data Ikke-parametriske test -testen fra afsnit 5 er ikke-parametrisk, da den ikke antager noget om fordelingstype- og parametre Der findes andre ikke-parametriske test, fx Wilcoxsons rang-test Vi har to statistiske variable og med ukendte fordelinger, og med medianer og Vi kan tage stikprøver, fx (3, 34, 29, 26, 32, 35) og (26, 24, 28, 29, 3, 29, 32, 26) (eksemplet er hentet fra Brøndum og Monrad II, side 494) Vi ønsker nu at teste nulhypotesen at de to fordelinger er ens (dvs ) Vi sorterer samtlige stikprøver efter størrelse og giver dem rangtal, idet mindste observation får rang og identiske observationer får en rang som er gennemsnittet af de range, de ville have fået: Obs () Obs (2) Rang () Rang (2) Summen af rangtallene for bliver 585 Når begge sæt observationer har tilstrækkelig mange elementer (større end 5) kan sandsynlighedsfordelingen approksimeres med normalfordelingen $ således at testet kan udføres som et almindeligt U-test Vi får i eksemplet at $ og Da er større, kan vi antage at de to fordelinger er identiske I kursets MATLAB-katalog (i /usr/local/del/datv-billed) findes i kataloget statistics m-filer for u-fordelinegn udistr M-filen ranktest laver en rangtest på to sæt data, 2