; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians (1) (2) Gennemsnittet tilhører ofte ikke mængden af mulige observationer, feks hvis vi måler heltalsværdier, og vi skal være forsigtige med at afrunde gennemsnittet Har man brug for at finde den observation, der er tættest på midten, kan vi bruge medianen Vi sorterer observationerne (under brug af permutationen ) og får det sorterede sæt "!#$ &%(' *) +%',) &%',) -&%' ) Det midterste element har indeks &/ og kaldes medianen Det er ét ud af mange mulige fraktiler, som er elementer med indeks af formen 10 2 / 54 6 6 Bruges 3 er der tale om de tre kvartiler med indices / (nedre kvartil), 8 / (median) og 89 / (øvre kvartil) Hvis observationerne kan have værdierne (; er feks 256 for gråtonebilleder og < ), kan vi tælle, hvor mange observationer =#>, der har værdien Sættet af =?> kaldes et A@ =B> histogram og kan vises grafisk, se figur 1 til højre Gennemsnittet kan udregnes ud fra histogrammet til at være Gennemsnit og varians kan generaliseres, hvis observationerne er multidimensionale mht indeks F & GHJ K< LNM (3) O (4) 1
@ Figur 1 Til venstre billedet af Lena i en gråtoneudgave Til højre histogrammet for billedet De lodrette linjer er markeringer, som er irrelevante i denne sammenhæng Den vandrette akse angiver gråtoneværdierne -, den lodrette de tilsvarende antal =#> Da kan man regne forskellige gennemsnit og varianser, for rækker ( og ) ( og ) og for alle ( 2 Lidt sandsynlighedsregning og ), for søjler (5) (6) () Ved et eksperiment tilhører udfaldene udfaldsrummet ( universet ) Vi er interesserede i en hændelse, og specielt i sandsynligheden for at den indtræffer Et fornuftigt mål for sandsynligheder af hændelser skal opføre sig på følgende måde,, og hvis er et sæt disjunkte hændelser (dvs har ikke udfald til fælles) er Vi kan indføre et naturligt mål ved at tælle antallet af elementer og og sætte # Hvis mængderne ikke er tællelige må vi benytte et mål baseret på arealer, dvs anvende integralregning Der gælder en lang række regneregler for sandsynligheder, her følger et par eksempler 2 (8) (9) (10)
(11) (12) (13) Formel 13 kaldes Bayes formel kaldes a posteriori-sandsynligheden givet a priorisandsynligheden og hændelsen 3 Fordelinger Vi vil nu kikke på sandsynligheder som kan beregnes ud fra en tabel eller en funktion med nogle få parametre parametriserede sandsynligheder 31 Grundlæggende begreber Vi antager at vi har en tilfældig variabel, som ved en stokastisk proces giver et tilfældigt udfald dvs det kan ikke forudsiges eksakt Vi har brug for to funktioner benævnt tæthedsfunktionen og fordelingsfunktionen Hvis er diskret, består den af en række udfald hver tilknyttet en sandsynlighed, idet @ Tæthedsfunktionen er da og fordelingsfunktionen er det ikke-diskrete tilfælde er sandsynlighederne givet ved en tæthedsfunktionen, som er en reel funktion hvorom det gælder at og Fordelingsfunktionen er Der gælder derfor at Det er muligt at lave regneregler for summer af, produkter af og kvotienter mellem statistiske variable og generelt for, når tæthedsfunktionen eller fordelingsfunktionen er kendt Momenter For statistiske variable kan man definere momenter, som er en opsummeringer svarende til gennemnit og varians Nulpunktsmomenter af k te orden har formerne (14) 3 (15)
9 Nulpunktmomentet af 1 orden fordelingens tyngdepunkt Nogle regneregler for J eller kaldes middelværdien af og svarer til (16) (1) (18) (19) Den sidste formel forudsætter at og er statistisk uafhængige De centrale momenter af k te orden har formerne Det centrale moment af 2 orden kaldes variansen af og betegnes eller lærebogen bruges disse begreber i afsnit 214 mages as a stochastic process formlerne 215, 216 og 21 er notationen lidt anderledes, idet der er generaliseret til dimensioner, dvs at tæthedsfunktion ( ) og fordelingsfunktion (som ikke er navngivet, men defineret som et integrale) egentlig er funktioner af variable H benævnes idet den statistiske variabel er H, en funktion af én variabel for hvert punkt i et billede nærværende notation bliver til F F F F (her er tæthedsfunktionen, som i bogen benævnes ) og = er derfor blot Peter Johansens noter om principalkomponentanalyse bruges betegnelsen for middelværdien og betegnelsen for en retningsbestemt udgave af variansen, idet er sat til nul ved en systematisk forskydning af koordinatsystemet Entropi Et andet statistisk mål er entropien som defineres som idet led med og udelades Hvis der bruges logaritmen med grundtal 2 fås entropien i bit Hvis man kun har naturlige logaritmer eller logaritmer med grundtal 10 kan man udnytte at! 9( " Entropien kan også defineres for det ikke-diskrete tilfælde (20) (21) 4
32 Nogle eksempler på diskrete fordelinger Ligefordelingen kan antage værdierne - Parameter @ @ Binomialfordelingen Parametre og < Poissonfordelingen Anvendes når hændelserne er tal, der ingen sammenhæng har med observationen før eller observationen efter Fordelingen bruges meget ofte i køteori for såvel antallet af ankommende som antal ekspederede i en given tidsperiode, feks for køen ved kasseapparater i supermarkeder Parameter 33 Nogle eksempler på kontinuerte fordelinger Den rektangulære fordeling Parametre og Normalfordelingen (Gauss-fordelingen) Fordelingen bruges meget ofte, specielt i sammenhænge hvor man ikke kender den egentlige fordeling, eller hvor et udfald skyldes en større række bidragende tilfældigheder 5
' Parametre og Gauss-fordelingen med og kaldes også den normerede normalfordeling eller u-fordelingen Det er fordelingen af en normeret statistisk normaltfordelt variabel Denne type statistiske variable optræder i en del statistiske test Laplace ) Parametre og 6