Middelværdi og varians. Kovarians. korrelation = 0.02 korrelation = 0.7 korrelation = 1.0



Relaterede dokumenter
Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

9.1 Egenværdier og egenvektorer

Elementær sandsynlighedsregning

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Nanostatistik: Middelværdi og varians

Repetition Stokastisk variabel

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Kvantitative Metoder 1 - Forår 2007

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

INSTITUT FOR MATEMATISKE FAG c

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

Sandsynlighedsregning Stokastisk variabel

Statistik og Sandsynlighedsregning 2

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Noter i fejlteori. Kasper Klitgaard Berthelsen Poul Winding & Jens Møller Pedersen. Version 1.1

Teoretisk Statistik, 16. februar Generel teori,repetition

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Kvantitative Metoder 1 - Forår Dagens program

Anvendt Lineær Algebra

Kombinatorik. Eksempel 2: En mand har 7 par bukser og 10 skjorter. Skal han både vælge en skjorte og et par bukser, så har han 10. 7=70 mulige valg.

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

standard normalfordelingen på R 2.

Elementær sandsynlighedsregning

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Sandsynlighedsregning Oversigt over begreber og fordelinger

Statistik og Sandsynlighedsregning 2

Module 1: Lineære modeller og lineær algebra

Den todimensionale normalfordeling

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Lineær uafhængighed 1. Lineær afbildninger 2. Spektralteori 3. Komplekse tal 4. Indeks 8. u 3 = u 1 + u 2 (3) V u3 =

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Kvantitative Metoder 1 - Forår Dagens program

DesignMat Egenværdier og Egenvektorer

StatDataN: Middelværdi og varians

Ekstremum for funktion af flere variable

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 19. december 2012 Kursus nr : (navn) (underskrift) (bord nr)

Produkt og marked - matematiske og statistiske metoder

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Kvantitative Metoder 1 - Efterår Dagens program

Chapter 3. Modulpakke 3: Egenværdier. 3.1 Indledning

Note til styrkefunktionen

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Tidligere Eksamensopgaver MM505 Lineær Algebra

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Besvarelse af Eksamensopgaver Juni 2005 i Matematik H1

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Kvantitative Metoder 1 - Forår Dagens program

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Sandsynlighed og Statistik

Eksamen i Lineær Algebra

Beskrivende statistik

Kursusgang 3 Matrixalgebra fortsat

Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen

Oversigt [LA] 6, 7, 8

Kapitel 3 Centraltendens og spredning

Statistik og Sandsynlighedsregning 2

Matrix Algebra med Excel Forelæsningsnoter til FR86. Jesper Lund

Formelsamling for matematik niveau B og A på højere handelseksamen. Appendiks

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Matematik for økonomer 3. semester

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Landmålingens fejlteori - Lektion 5 - Fejlforplantning

Kursusgang 3 Matrixalgebra Repetition

Uge 10 Teoretisk Statistik 1. marts 2004

Statistik og Sandsynlighedsregning 2

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Besvarelser til Lineær Algebra med Anvendelser Ordinær Eksamen 2016

Definition. Definitioner

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Modul 3: Kontinuerte stokastiske variable

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Teoretisk Statistik, 13 april, 2005

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Betingede sandsynligheder Aase D. Madsen

Eksamen 2014/2015 Mål- og integralteori

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Susanne Ditlevsen Institut for Matematiske Fag susanne

Eksempel 9.1. Areal = (a 1 + b 1 )(a 2 + b 2 ) a 1 a 2 b 1 b 2 2a 2 b 1 = a 1 b 2 a 2 b 1 a 1 a 2 = b 1 b 2

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Kvantitative Metoder 1 - Forår Dagens program

Højere Teknisk Eksamen maj Matematik A. Forberedelsesmateriale til 5 timers skriftlig prøve NY ORDNING. Undervisningsministeriet

Lineære Afbildninger. enote Om afbildninger

Statistik og Sandsynlighedsregning 2

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Eksamen i Lineær Algebra. Første Studieår ved Det Tekniske Fakultet for IT og Design samt Det Ingeniør- og Naturvidenskabelige Fakultet

Transkript:

Middelværdi og varians Middelværdien af en diskret skalarfunktion f(x), for x = 0, N er: µ = N f(x) N x=0 For vektorfuktioner er middelværdivektoren tilsvarende: µ = N f(x) N x=0 Middelværdien er en af mange statistiske mål Et andet centralt mål er variansen, der afspejler funktonen gennemsnitlige afvigelse fra middelværdien σ 2 = N (f(x) µ) 2 N x=0 = N f(x) 2 µ 2 N x=0 hvor σ kaldes spredningen Korrelation og korrelationskoefficient 00 korrelation = 002 korrelation = 07 korrelation = 0 3 Kovarians I 2- eller højere dimensioner er f en vektor mellem hvis elementer, der eksisterer kovarianser cov(i, j) = N (f i (x) µ i )(f j (x) µ j ) N x= Kovariansen mellem to størrelsen beskriver graden af afhængighed mellem størrelserne Ved normalisering med spredningerne fås korrekationskoefficienten: κ i,j = cov(i, j) σ i σ j Der gælder at κ, hvor κ = 0 angiver at størrelserne er ukorrelerede og κ = angiver maksimal korrelation, dvs en lineær afhængighed: f i (x) = af j (x) + b Korrelation er relateret til kovarians ved udelade subtraktion af middelværdien: cor(i, j) = N f i (x)f j (x) N x= Der gælder oplagt at: cov(i, i) = σ 2 i, at cov(i, j) = cov(j, i) og tilsvarende for korrelationen For vektorfunktioner med n dimensioner er der altså n varianser og n(n )/2 kovarianser 2 4

Kovariansmatricer Varianser og kovarianser kan opstilles i en (positiv definit) symmetrisk kovariansmatrix: C = σ 2 cov(,2) cov(, N) cov(,2) σ 2 2 cov(2, N) cov(, N) cov(2, N) σ 2 N Kovariansmatricen estimeres ved: C M x t i M x i µ t µ = i= M Xt X µ t µ hvor M er antal sampels og x x 2 x N X = x M x M2 x MN 5 Fordelinger En stokastisk variabel x er en randomiseret størrelse, der er karakteriseret ved sin fordeling p(t), der angiver sandsynligheden for at x antager værdien t Middelværdi og varians for x er defineret ved: µ = t p(t)dt σ 2 = (t µ) 2 p(t)dt hvor integrationen foretages over domænet for t Fordelingen kan karakteriseres ved mange andre mål, herunder medianværdien, øvre og nedre kvartiler, samt fordelingens momenter 7 Det multivariate Gaussfilter Det n-dimensionale multivariate Gaussfilter er defineret ved: G( x) = 2π C n/2e 2 xt C x hvor : C er kovariansmatricen for filteret, og C er determinanten af C Det k te (centrale) moment af fordelingen p(t) er givet ved: m k = (t µ) k p(t)dt Der gælder altså at m 2 = σ 2 To ofte benyttede karakteriseringer, skævhed og kurtiosis er defineret ud fra de centrale momenter af 3 og 4 orden: Skew = m 3 m 3/2 2 For sædvanlige billeder (n = 2) benyttes dette filter ofte til positionsafhængig retningsbestemt filtrering Kurt = m 4 m 2 2 3 Niveaukurverne for filteret er ellipser med storaksen orienteret efter den egenvektor for C som har størst egenværdi Filterets udstrkning i de to akseretninger er bestemt af egenværdierne Skævheden karakteriserer graden af asymmetri af tæthedsfunktionen (omkring middelværdien) Kurtiosis karakteriserer hvor flad contra spids tæthedsfunktionen er 6 8

To stokastiske variable x og y siges at være uafhængige hvis: p(x, y) = p(x)p(y) hvor p(x = t, y = v) er sandsynligheden for at observere værdierne x = t og y = v samtidig Skævhed Kurtiosis Momenter af orden højere end 2 er meget følsomme over for variationer i halerne af en empirisk fordeling Hvis x og y er uafhængige vil de også være ukorrelerede Derimod kan ukorrelerede variable godt have en afhængighed Uafhængighed er altså et stærkere krav 9 Egenværdier og egenvektorer Lad x og y være stokastiske variable med fordelinger p x (t) og p y (t), og lad z = x + y være en ny stokastisk variabel Der gælder da at: p z = p x p y Den centrale grænseværdisætning siger at en uendelig sum af stokastiske variable med samme, men iøvrigt vilkårligt, fordeling, er en normalfordeling N(µ, σ) Støj i elektriske kredsløb kan ofte modelleres som en sådan sum Normalfordeling er ofte en god model af støj i billeder Lad C n n være en kvadratisk matrix med fuld rang n Egenvektorerne v og egenværdierne λ for C er defineret ved: Cv = λv Egenværdier og egenvektorer findes altså i par, og der er ialt n stk Lad P være en matrix med søjler bestemt af egenvektorerne for C: Da gælder: P CP = D = diag(λ,, λ n ) Hvis C er reel og positiv definit (C = X t X), gælder at egenværdierne er reelle og ikke-negative, og egenvektorerne er ortogonale 0 2

For at finde egenværdierne skal vi løse (C λi)v = 0 For de ikke-trivielle løsninger gælder: det(c λi) = 0 Dette er et polynomium i λ (kaldet det karakteristiske polynomium for C) For stor n er det hverken trivielt af finde dets rødder eller at beregne egenvektorerne I MATLAB er det let: [E, D] = eig(c) I mange sammenhænge er C kovariansmatricen for en vektorfunktion af billedkoordinater eller gradientkomponenter, dvs n = 2 Fra første ligning i definitionen: + v 2 ( ) ( ) a c c b v = λ ( v ) + v 2 kan finde egenvektoren v = +v 2 (, v)t til egenværdien λ Vi får v = λ a c, og dermed v = (c, λ a) c 2 + (λ a) 2 Lad: X = x y x 2 y 2 Den anden egenvektor v 2 = +v 2 ( v,)t fås som den ortogonale til v x M y M 3 5 Kovariansmatricen er: C = M Xt X µ t µ = M = [ x 2 ] i xi y i xi y i y 2 i [ ] a c c b Egenværdierne fås ved at løse: a λ det(c λi) = c Vi får: c b λ = λ 2 (a + b)λ + (ab c 2 ) = 0 λ = a + b 2 ± (a b) 2 + 4c 2 2 Den geometriske fortolkning af disse værdier er: Hvis de to egenværdier er lige store så er punktmængden (x i, y i ) isotropt fordelt omkring centroiden (massemidtpunktet) for punkterne Hvis den ene egenværdi er lig 0 så ligger punkterne på en ret linie gennem centroiden og med orientering givet ved egenvektoren med egenværdi > 0 Hvis 0 < λ < λ 2 udgør punktmængden en mere eller mindre aflang pølse med hovedakse givet ved v 2 (med varians λ 2 ) 4 6

y V V 2 Normaliseret foldning x Lad f(x, y) være et billede med tilknyttet angivelse af pålidelighed c(x, y) [0 : ] af hver pixelværdi Normaliseret foldning er da defineret ved: Forholdet mellem den største og den mindste egenværdi bestemmer eccentriciteten af ellipsen Vinklen mellem x-aksen og egenvektoren med størst egenværdi bestemmer orienteringen af ellipsen Ved egenværdianalyse af kovariansmatricen C for X bestemmer vi den koordinattransformation, der dekorrelerer C Transformationen består i en n-dimensional rotation omkring massemidtpunktet for observationerne 7 g(x, y) = hvor h(x, y) er filterfunktionen h(x, y) [c(x, y) f(x, y)] h(x, y) c(x, y) Normaliseret foldning er velegnet til at udfylde små områder hvor data mangler 9 Retningsbestemt positionsafhængig Gaussfiltrering For hver pixel bestemmes et 2-dimensionalt ikke-rotationssymmetrisk gaussfilter, der er orienteret med hovedakse langs niveaukurven for intensitetsfladen og med en eccentricitet proportional med kontrasten i pixelen Der bestemmes altså et nyt filter for hver pixel Filteret er bestemt af kovariansmatricen C for gradienvektoren i en omegn omkring pixelen Rekonstruktion af et billede med manglende data (øverst tv) ved sædvanlig foldning (øverst midt og th), ved normaliseret foldning (nederst tv) og ved normaliseret retningsbestemt filtrering (nederst midt og th) 8 20

Histogramlinearisering Gråtonebilleder kan som regel antage 256 forskellige intensiteter Mange billeder udnytter ikke dette område optimalt, men er eksempelvis under- eller overbelyst: Betragt transformationen givet ved den kummulative fordelingsfunktion: x y = T(x) = p x(w)dw 0 Vi har at dy/dx = p x (x) og dermed dx/dy = p x (x) Ved indsættelse fås: [ ] p y (y) = p x (x) = p x (x) x=t (y) Fordelingen for y er altså uniform Dette betyder (i det kontinuerte tilfælde) at alle intensitetsværdier udnyttes lige hyppigt 2 23 Simpel skalering af intensitetsværdier til det fulde dynamiske område kan forbedre billedet Hvis billedet kun indeholder meget lyse og meget mørke gråtoner vil skalering ikke forbedre billedet Her er Histogramlinearisering ofte effektiv Betragt intensiten som en stokastisk variabel x med fordeling p x (x) estimeret ved et skaleret histogram Lad y = T(x) være en bijektiv transformation af intensiteten Fordelingen p y (y) af den transformerede stokastiske variabel y er da: p y (y) = p x (T (y)) = [ p x (x) dx ] dy x y x=t (y) Eksempel intensitet hyppighed accumuleret interval 0 000 000 0000 009 009 025 2 0 00 0250 3 030 040 0375 4 029 069 0500 5 00 079 0625 6 0 090 0750 7 00 00 0875 Afbildningen bliver: 0 0 2 0 4 5 6 7 0 3 3 5 6 7 7 Bevis: Se noterne 22 24

Histogramlineariserede billeder: PCA Kært barn har mange navne: Principalkomponentanalyse - PCA Karhuen-Loeve transformationen Hotelling transformationen PCA er defineret ved den lineære transformation y = Ax + b, der sikrer at middelværdivektoren m y = 0 og at kovariansmatricen C y bliver en diagonalmatrix Dette betyder at de transformerede koefficienter er fuldstændigt dekorrelerede 25 27 Pixels med samme intensitet vil efter histogramlinearisering stadig have samme intensitet Derimod kan pixels med forskellig intensitet godt have samme intensitet efter lineariseringen I noterne er beskrevet hvorledes man kan konstruere en transformation, der giver en ønsket fordeling, feks en normalfordeling Lokal histogramlinearisering er velegnet til at bringe næsten usynlige detaljer frem Der beregnes et nyt histogram for hver pixel Det lokale område skal ofte være rimeligt stort, feks 2 2pixel I modsætning til fouriertransformationen, cosinustransformationen mv er PCA bestemt ud fra data selv Der findes altså ikke noget udtryk for PCA i termer af grundlæggende matematiske funktioner PCA er velegnet til at reducere dimensionaliteten i en datamængde Hvis data består af RGB-værdier/tripler (N = 3) kan PCA finde det - eller 2-dimensionale underrum (dvs en linie eller et plan), der bedst beskriver data Hvis data består i billeder på hver N pixels er dimensionen lig N PCA vil kunne finde de k N basisbilleder, der bedst beskriver det oprindelige sæt af billeder 26 28

Hvis vi, i analogi med JPEG, opdeler et billede i blokke på 8 8 pixels er dimensionen N = 64 Givet et antal blokke og et tal k N, vil PCA bestemme hvorledes hver blok kan transformeres til k koefficienter y, sådan at disse sammen med transformationen bestemmer den bedst mulige lineære rekonstruktion (i middel) Bemærk at ved kodning er det ikke tilstrækkeligt at transmitere koefficienterne, idet disse ikke kan fortolkes uden kendskab til transformationen selv I modsætning til noterne skal vi i det følgende, opfatte hver sample som en vektorfunktion Jvf ovenstående eksempel kan hver sample bestå af 64 intensitetsværdier (eller 64*3 farveværdier) Bemærk: Opstilling af matricer mv forskellig fra noter Karhuen-Loeve-transformationen (PCA) er defineret ved: y = (x m x )A Lad os undersøge middelværdien og kovariansmatricen for y m y = E{y} = E{(x m x )A} = E{x}A m x A = 0 C y = E{(y m y ) t (y m y )} = E{y t y} = E{((x m x )A) t ((x m x )A)} = E{A t (x m x ) t (x m x )A} = A t E{(x m x ) t (x m x )}A = A t C x A = diag(λ, λ 2,, λ N ) 29 3 Lad x være en rækkevektor med N elementer og lad i = M, være indices til de M samples hvorved transformationen skal bestemmes Lad m x være middelværdivektoren og lad C x være kovariansmatricen for x: C x = E{(x m x ) t (x m x )} = E{x t x} m x t m x Lad e i hhv λ i være den i te egenvektor hhv egenværdi for C x (i =,2,,N), og lad A være en N N transformationsmatrice, hvis rækker er bestemt ved egenvektorerne e i A = e e 2 e N 2 e 2 e 22 e 2N 2 e N 2 e N 2 2 e N 2 N 2 = e e 2 e N 2 30 At kovariansmatricen for transformationskoefficienterne er en diagonalmatrix betyder at koefficienterne er fuldstændig dekorrekerede Egenværdien λ i hørende til det i te underrum/basisbillede angiver variansen af den i te koefficient og er et udtryk for hvor stor en del af energien i det oprindelige datasæt, som er indeholdt i underrummet/basisbilledet Hvis λ i = 0 projicerer alle oprindelige data ned på ét punkt i det i te underrum Dette indeholder ingen energi Ergo: De oprindelige data kan rekonstrueres helt uden kendskab til den i te koeffiecient Da C x er reel og symmetrisk, vil A altid være en ortonormal matrice Heraf følger at A = A t Den inverse transformation er derfor givet ved: x = ya t + m x Bemærk iøvrigt at transformationsmatricen A ikke er seperabel 32