Ekstrakt af gamle noter i MønsterGenkendelse. S. I. Olsen

Størrelse: px
Starte visningen fra side:

Download "Ekstrakt af gamle noter i MønsterGenkendelse. S. I. Olsen"

Transkript

1 Ekstrakt af gamle noter i MønsterGenkendelse S. I. Olsen

2 Dette ekstrakt er tænkt til hjælp for studerende på kurset Introduktion til billedbehandling Ekstraktet er foretaget med henblik på at understøtte kursusnoterne inden for grundlæggende statistike begreber og mindste kvadraters metode. Desuden er appendix med nogle grundlæggende begreber inden for lineær algebra og parameterestimation bevaret.studerende bedes udvise overbærenhed dels med noternes form (de er ret gamle), dels med den manglende sammenhæng (grundet ekstrakten). Ekstraktet er ment som en hjælp, men indeholder afsnit, der (i anden sammenhæng) på ingen måde erstatte et egenligt undervisningsmateriale. Som for andre noter forudsættes det at læseren har et modent (operationelt) forhold til matematik. Notation Nedenstående afsnit opsummerer de konventioner for notation, som jeg har forsøgt at følge gennem noterne. R Kursiverede store bogstaver betegner mængder. X Fede store bogstaver betegner matricer. x Fede små bogstaver betegner vektorer x Overstreget fede små bogstaver betegner middelværdi af en vektor. ˆx Hattede fede små bogstaver betegner et estimat. E( ) Operatoren E betegner forventet værdi af. p( ) Operatoren p betegner sandsyligheden for. p(a B) Betinget sandsyligheden for A givet B. x.j Søjlevektor af matrice. x i. Rækkevektor af matrice. x t Vektortransponering. (x ij ) Matrice af elementer x ij i række i og søjle j. f(x) Funktion af reelt argument. f[x] Funktion af heltalligt argument. 2

3 Indhold 1 Statistisk Dataanalyse Stokastisk variabel Tæthedsfordeling Middelværdi og varians Robuste estimater Lineær korrelation Vektorfunktioner, kovarians Lineær Regression Mindste Kvadraters Metode Mindste kvadraters metode i normalfordelt støj Outliers, Robuste estimatorer RANSAC A Grundlæggende Lineær Algebra 26 A.1 Vektorrum, indre produkt, norm, basis A.2 Koordinater, matricer A.3 Egenværdier, egenvektorer, konditionstal A.4 Lineære ligningssystemer A.5 Løsning af kvadratiske lineære ligningssystemer A.5.1 Gauss-elimination A.5.2 LU-dekomposition og Cholesky dekomposition A.5.3 Egenværdi dekomposition A.6 Løsning af overbestemte lineære ligningssystemer A.6.1 Singulær værdi dekomposition B Sandsynligheder og estimation 38 B.1 Basal Sandsynlighedsregning B.2 Estimation af parametre B.2.1 Maksimun likelihood estimation B.2.2 Bayes estimation

4 Kapitel 1 Statistisk Dataanalyse I dette kapitel introduceres til nogle grundlæggende statisktisk begreber og estimationsmetoder. Hvis data indeholder støj, dvs. et element af tilfældighed, er det ofte nødvendigt at ty til statisk funderede metoder for dataanalyse. Det er typisk at datamaterialet er forholdsvist stort, hvorimod de modeller der anvendes er (matematisk set) forholdsvist enkle. Man skelner mellem parametriske og ikke-parametriske modeller. I en parametrisk model af data (f.eks. en lineær sammenhæng mellem en række værdier) ønsker man at estimere parametrene, dvs. at finde den model der fitter data bedst muligt. Forskellen, fejlen, mellem de observerede data og modellens forudsigelse, ønskes med andre ord så lille som muligt. Estimationen kan beskrives ved at bestemme de mest sandsynlige parametre, som kan forklare/beskrive de observerede data. I ikke-parametriske modeller er målet for analysen at beskrive de statistiske egenskaber ved data, herunder middelværdi, varians etc. Sådanne analyser er hensigtsmæssige, når den eneste regelbundethed af data er fastlagt ved fordelingsfunktionen for dataværdierne. 1.1 Stokastisk variabel En stokastisk variabel x defineret på udfaldsrummet Ω, og med fordelingsfunktion F, er en størrelse hvis værdi ikke kendes eksakt. Eksempelvis vides ikke eksakt hvor mange biler der mellem kl. 9:00 og 10:00 kører af Jagtvej. Det er muligt at estimere værdien af den stokastiske variabel ved at foretage målinger. Her vil man kunne iagttage at næppe to målinger vil være ens. Ved at foretage mange målinger, og ved at tage gennemsnit af disse vil man kunne estimere middelværdien af den stokastiske variabel. Dette er imidlertid en meget grov karakterisering. En fuldstændig karakterisation af en stokastiske variabel er bestemt ved fordelingsfunktionen F for variablen. Fordelingsfunktionen F (x) vil for ovenstående eksempel udtrykke sandsynligheden for at antallet af optalte biler er mindre end x. I dette tilfælde er udfaldsrummet diskret (der kan være 0, 1, 2,...) biler, men ikke 1.37 bil. I andre stituationer vil udfaldsrummet være en delmængde af R n (eksempelvis mængen af forbrændt benzin ved kørsel på Jagtvej). For n = 1 er F (x) en reel funktion af en varia- 4

5 bel. Den stokastiske variabel kaldel kontinuert, hvis F (x) er kontinuert og differentiabel. Tæthedsfunktionen f(x) er da defineret som differentialkvotienten af F (x). 1.2 Tæthedsfordeling I dette afsnit gives eksempler på nogle få hyppigt anvendte tæthedsfunktioner for stokastiske variable, og det beskrives hvorledes tæthedsfunktionen ændrer sig ved simple transformationer af den stokastiske variabel. Antag at den stokastiske variabel er defineret på et interval [a, b]. En ligefordeling (eller uniform fordeling) er da givet ved: F (x) = x a b a Her er sandsynlighedsmassen altså spredt ligeligt ud over definitionsmængden. Diamentralt modsat kan hele sandsynlighedsmasses være samlet i ét punkt a. F (x) = δ(x a) = { 1 hvis x = a 0 ellers Funktionen δ kaldes Diracs deltafunktion. Der findes et væld af fordelinger, der ofte er begrundet i en fysisk model. Eksponentialfordelingen er (for x 0) bestemt ved: F eks (x) = 1 e λx svarende til tæthedsfunktionen f(x) = λe λx. Det klassiske eksempel på en eksponentialfordeling opstår ved betragtning af en mængde af agenter, der uafhængigt af hinanden og uafhængigt af agenternes alder, spontant beslutter at udsende en meddelelse. Da er fordelingsfunktionen for antallet af udsendte meddelelser givet ved F eks (x). Radioaktive henfald modelleres godt ved en eksponentialfordeling. Parameteren λ bestemmer hvor hurtigt f(x) aftager. Normalfordelingen eller Gauss fordelingen er givet ved: f(x) = G(µ, σ)(x) = 1 e (x µ)2 2σ 2 2πσ Normalfordelingen er interessant på grund af en lang række egenskaber. Antag at den stokastiske variabel x fremkommer ved summation af uendelig mange meget små led (stokastiske variable), der alle har samme fordeling f 0. Da er x normalfordelt uafhængig af fordelingen f 0. Dette resultat kaldes Den centrale grænseværdisætning. Støj modelleres ofte ved en normalfordeling. Vi skal senere i noterne intensivt benytte en sådan antagelse. 5

6 Normalfordelingen har to parametre µ og σ. Disse kaldes middelværdien hhv. spredningen af fordelingen. Disse navne benyttes generelt til karakterisering af enhver fordeling, men har altså en særlig betydning for normalfordelingen. Andre fordelinger er konstrueret på basis af simplere fordelinger ved transformationer af stokastiske variable. En vigtig sådan fordeling er gamma-fordelingen. Det kan vises at variansestimatet for en følge af normalfordelte stokastiske variable (med samme middelværdi) er gamma-fordelt. Snævert relateret er χ 2 -fordelingen Q(χ 2, ν), der angiver sandsynligheden for at en sum af kvadrater af ν normalfordelte stokastiske variable, med varians lig 1, er større end χ 2. Størrelsen ν kaldes antallet af frihedsgrader. Vi skal senere benytte denne fordeling ved test af hvorvidt to fordelinger er ens. Der findes en række fordelinger, der benyttes i test af forskellige hypoteser, eksempelvis Students t-fordeling, F -fordelingen, binomial-fordelingen, Poisson-fordelingen, beta-fordelingen, etc. Selv om kendskab til disse fordelinger er nødvendig for en dybere forståelse af mange statistiske metoder, er de ikke essentielle for dette kursus. I mange sammenhænge kan det være nyttigt at beskrive de observerede data y som en transformation φ af en stokastisk variabel x. Funktionen φ modellerer ofte et fysisk system. Hvis funktionen φ er kendt er det i visse tilfælde muligt at beregne den teoretiske fordeling af observationerne y = φ(x), hvor y her betragtes som en stokastisk variabel. Antag at x er en kontinuert reel stokastisk variabel med tæthed f, defineret på intervallet [a,b], og antag at φ :]a, b[ ]c, d[ er bijektiv. Antag yderligere at ψ = φ 1 eksisterer og er kontinuert. Da er tæthedsfunktionen g for den transformerede stokastiske variabel y bestemt ved: g(y) = f(ψ(y)) ψ (y) (1.1) hvor y [c, d], og ψ. Det er muligt at generalisere sætningen til tilfældet hvor y φ er stykvis bijektiv med kontinuert differentialkvotient. Der er to oplagte anvendelser af sætningen. Hvis transformationen er kendt, er det muligt at teste (se senere) hvorvidt antagelsen om fordelingen f er holdbar. Hvis fordelingen f er kendt, men transformationen φ er parametriseret, udgør ligningen et grundlag for estimation af disse parametre ud fra den observerede tæthedsfunktion g. = ψ Eksempel Hvis x eksempelvis er uniformt fordelt på intervallet [0,1], dvs. at f(x) = 1, og φ(x) = x 2, da fås at ψ(y) = y, at ψ (y) = 1/(2 y), og dermed at g(y) = f( y) 1/(2 y) = y/(2y). Eksempel slut En tredie anvendelse af ovenstående resultat er, at normalisere et sæt data med fordeling f til et nyt sæt data, der har fordelingen g. Denne anvendelse foretages ofte med billeder, hvor de fleste billedelementer har næsten ens værdi, dvs. at sandsynlighedsmassen er koncentreret på en lille del af intervallet [a,b]. I dette tilfælde kan det være vanskeligt at skelne detaljer i billedet. Før transformationen normaliseres alle værdier til intervallet 6

7 [0,1] ved division med den maksimale intensitet. Det kan let vises at hvis φ(x) vælges som fordelingsfunktionen for x, dvs. φ(x) = x 0 f(w)dw da vil g (i det kontinuerte tilfælde) være konstant lig 1 på intervallet [0,1]. Efter transformationen multipliceres de transformerede værdier med den maksimale intensitet, og resultatet trunkeres til nærmeste mulige intensitetsværdi (ofte heltallig). Effekten af transformationen er at alle intensiteter udnyttes ligeligt (i det kontinuerte tilfælde). Dette vil ofte bringe detaljer, der før var uskelnelige, klart frem. Bemærk at der i det diskrete tilfælde vil gælde at antallet af forskellige intensiteter efter transformationen højst vil være lig antallet af forskellige intensiteter før transformationen. 1.3 Middelværdi og varians Den statisktisk forventede værdi, også kaldt middelværdien, af en reel stokastisk variabel x med tæthedsfunktion f, er bestemt ved: E(x) = µ = t f(t)dt (1.2) Hvis integralet ikke er konvergent tillægges x ingen middelværdi. Generelt gælder om en funktion g : R R at: E(g(x)) = g(t)f(t)dt (1.3) Betragtes transformationen z = z(x, y) = ax + by, hvor x, y, og z er stokastiske variable og a og b er reelle tal, da er E(z) = ae(x) + be(y). Middelværdioperatorer er således lineær. Variansen af en stokastisk variabel med middelværdi µ betegnes σ 2 = σ 2 (x) = V ar(x) og er defineret ved: σ 2 = E( x µ 2 ) (1.4) Hvis den stokastiske variabel x µ 2 ingen middelværdi har, sættes σ 2 :=. Den ikke negative kvadratrod af variansen kaldes spredningen eller standard afvigelsen og betegnes σ = σ(x). Om variansen gælder der at: 1 σ 2 (x) 0 2 σ 2 (x) = E(x 2 ) [E(x)] 2 3 σ 2 (ax) = a 2 σ 2 (x) for a R 4 σ 2 (x + a) = σ 2 (x) for a R Kravet til beregning af middelværdi og varians/spredning for en stokastisk variabel x er altså, at tæthedsfunktionen for x er kendt. Hvis dette ikke er tilfældet er det muligt at estimere middelværdien og variansen på basis af et antal stikprøver (samples) af x. Det antages at stikprøverne er uafhængige. Estimaterne vil være usikre hvis antallet af stikprøver 7 R R

8 er lille og vil blive mere nøjagtige jo flere stikprøver, der er til rådighed. Basis for estimationen er at erstatte den statistisk forventede værdi med et gennemsnit. For n stikprøver fås: hvor x i er den i te stikprøve af x. ˆµ = 1 n x i n (1.5) ˆσ 2 = 1 n x 2 i [ 1 n x i ] 2 n n (1.6) Da estimatet ˆµ er en summation af stokastiske variable, er det selv en stokastisk variabel, og har, som sådan, en middelværdi og en varians. Middelværdien af ˆµ er: E(ˆµ) = E ( 1 n ) n x i = 1 n E(x i ) = 1 n n n µ = µ (1.7) Den forventede værdi af estimatet er altså lig middelværdien selv. Et estimat, der har denne egenskab, kaldes et unbiased estimat. For variansen af ˆµ fås: V ar(ˆµ) = E([ˆµ µ] 2 ) = E([ 1 n x i µ] 2 ) n = 1 n 2 E([(x 1 µ) + (x 2 µ) + + (x n µ)][(x 1 µ) + (x 2 µ) + + (x n µ)]) = 1 n E( n (x 2 i µ) 2 ) + = 1 n E( n (x 2 i µ) 2 ) = 1 n σ2 n n j=1,j i E((x i µ)(x j µ)) hvor vi har udnyttet at de enkelte stikprøver er uafhængige, hvorved E([x i µ][x j µ]) = E(x i µ)e(x j µ) = 0 for i j. Variansen af estimatet er altså 1/n gange variansen af x. Heraf ses at usikkerheden (målt ved variansen) af ˆµ går mod 0 når n. En estimator, der har denne egenskab kaldes en konsistent estimator. For variansen er en vurdering af usikkerheden på estimationen lidt mere kompliceret. Problemet er, at forkundskab til middelværdien er nødvendig for beregning af variansen, jvf. definitionen (1.4). For en mængde af n stikprøver, hvorom vi intet ved, siges antallet af frihedsgrader at være lig n. Hver gang vi bestemmer en parameter i tæthedsfunktionen øges vores viden. Tilsvarende mindskes friheden blandt de observerede data. Antallet af frihedsgrader reduceres med én. Efter bestemmelsen af middelværdien er antallet af frihedsgrader 8 (1.8)

9 derfor n 1. Det kan vises at estimationen (1.6) er biased, hvorimod estimationen: ˆσ 2 = 1 n 1 n [x i µ] 2 (1.9) er unbiased. Det ses her, at der divideres med antallet af frihedsgrader, og ikke med antallet af stikprøver. I praktisk anvendelse bør n være så stor, at forskellen mellem de to estimater er forsvindende. I mange situationer er der grund til at tro, at stiprøverne stammer fra en kendt fordeling. I dette tilfælde er opgaven derfor at estimere parametrene i fordelingen. Er der eksempelvis grund til at tro, at fordelingen er normal, da er denne fuldstændigt specificeret ved middelværdien og variansen. Spørgsmålet, om den empiriske fordeling (repræsenteret ved stikprøverne) faktisk stemmer overens med den estimerede fordeling diskuteres i et følgende afsnit. Hvis der ikke er grund til at tro, at stikprøverne stammer fra en bestemt fordeling er problemet at karakterisere den empiriske fordeling. Middelværdien og variansen er her to meget beskrivende størrelser. Mange andre karakteriseringer kan imidlertid være nyttige. Det p te centrale moment m p er defineret ved: m p = E([x µ] p ) (1.10) Det første centrale moment er lig 0, det andet centrale moment er lig variansen. To ofte benyttede karakteriseringer, skævhed og kurtiosis af en fordeling er defineret ud fra de centrale momenter af 3. og 4. orden: Skew(x 1,..., x n ) = 1 n [ ] xi µ 3 m 3 (x) = (1.11) n σ m 2 (x) 3/2 { 1 n [ ] } xi µ 4 Kurt(x 1,..., x n ) = 3 = m 4(x) n σ m 2 (x) 3 (1.12) 2 I modsætning til middelværdien og spredningen (der har samme enhed som observationerne selv) er skævheden og kurtiositeten dimmensionsløse. Skævheden karakteriserer graden af asymmetri af tæthedsfunktionen (omkring middelværdien). Kurtiosis målet karakteriserer hvor flad contra spids tæthedsfunktionen er. årsagen til subtraktion af konstanten 3 i målet for kurtiositet er, at målet hermed vil give værdien 0 for en normalfordeling. Hvis målet er negativt vil fordelingen være fladere end en normalfordeling, hvis målet er positivt vil den empiriske fordeling være spidsere end en normalfordeling. Det skal bemærkes at momenter af orden højere end 2 (pga. potensopløftningerne) er meget følsomme over for variationer i halerne af en empirisk fordeling. 9

10 Middelværdi samt mål baseret på de centrale momenter er ikke de eneste interessante karakteriseringer af en fordeling. F.eks. er positionen af maksimum (toppunktet) for den empiriske tæthedsfunktion (eng. mode) ofte nyttig. Medianværdien angiver den midterste værdi i en sorteret følge af målinger. I det kontinuerte tilfælde gælder at medianen = F 1 (0.5). Den øvre hhv. nedre α-kvartil angiver værdien hvor α % af stikprøverne er mindre hhv. større end kvartilen. Om empiriske fordelinger gælder generelt, at de sjældent er så pæne som man kunne ønske. Dette gælder især hvis den proces, der har genereret de observerede data skifter mellem flere, iøvrigt nogenlunde stabile, tilstande. I dette tilfælde vil den empiriske tæthedsfunktion ofte have flere markant forskellige toppe. En fordeling kaldes unimodal hhv. bimodal hhv. multimodal hvis den har én hhv. to hhv. mange sådanne toppe. Hvis en fordeling er bimodal, vil en estimation af middelværdi og varians af hele fordelingen ikke give mening. Inden estimation af disse parametre er det derfor tilrådeligt at checke fordelingens modalitet. Hvis man ønsker at teste om en empirisk fordeling passer godt med en teoretisk fordeling, kan goodness-of-fit-test metoden, der beskrives i et følgende afsnit af noterne, anvendes. Der findes en lang række algoritmer til analyse af modaliteten af en empirisk fordeling, såvel som metoder til seperation af fordelingen i plausible komponenter. Disse metoder er ofte baseret på ad hoc kriterier. Det vil føre for vidt her et beskrive sådanne metoder. 1.4 Robuste estimater Som beskrevet i større detalje senere i noterne er de sædvanlige estimater af såvel middelværdien som variansen meget følsomme over for eksistensen af stikprøver, der ligger i en af halerne af fordelingen. Blot én stikprøve er tilstrækkeligt afvigende kan et vilkårligt estimat fremkomme. Estimater, der har denne (lidt uheldige) egenskab er ikke robuste. Det er muligt at definere estimatorer, der kan vises at være mere robuste. Betragt en mængde af n tal. Det sædvanlige estimat af den forventede værdi er lig gennemsnittet af tallene. Denne metode siges at have et nedbrudspunkt på 1/n fordi et vilkårligt resultat kan frembriges blot ét blandt de n tal er tilstrækkeligt afvigende. Nedbrudspunktet for en estimator beskrives i større detalje senere i noterne. Et mere robust estimat af den forventede værdi er medianværdien, dvs. den midterste af de sorterede n værdier. Denne estimator har et nedbrudspunkt på 0.5, fordi en erstatning af under halvdelen af værdierne med vilkårlige andre værdier ikke kan flytte medianværdien vilkårligt. En anden robust estimator af middelværdien fremkommer ved at sortere de n tal, og beregne middelværdien af de n(1 2α) midterste værdier. Lad m = nα. Estimatoren er da: T α = 1 n 2m 10 n m i=m+1 r i (1.13)

11 Metoden, der kaldes den α-trimmede middelværdi, kan vises at have et nedbrudspunkt på α. For α = 0 fås det sædvanlige gennemsnit, for α = 1/2 fås medianværdien. En ulempe ved anvendelsen af robuste metoder er, at disse ikke er nøjagtige, eller konsistente (dette er hvad man betaler for robustheden). Hvis de n tal eksempelvis alle er heltallige vil medianværdien også være heltallig, selv om den statistisk forventede værdi er et reelt tal. Hvis fordelingen af de n tal er meget skæv (asymmetrisk) kan både medianværdien, den sædvanlige middelværdi, og den α-trimmede middelværdi ligge langt fra middelværdien, selv om ingen af de n tal er outliers. Outliers diskuteres i detaljer senere i noterne. Et robust (men ikke nødvendigvis nøjagtigt) estimat af spredningen er mean absolute deviation eller MeanAD-estimatet : MeanAD = π/2 1 n n x i µ (1.14) Et andet robust mål af spredningen, kaldt MedianAD-estimatet (median absolute deviation) er: MedianAD = med i { x i med j x j } (1.15) Begrundelserne for konstanterne π/2 og , er at estimatorerne uden disse konstanter ville give et systematiske forkert resultat hvis de n stokastiske variable var normalfordelte. Faktoren = 1/Θ 1 (0.75) kompenserer således for anvendelsen af medianfilteret i normalfordelt støj. Θ(x) er lig fordelingsfunktion for en normalfordelingen. Da det sædvanlige skævhedsmål også behandler alle målinger ens, er dette ikke robust. Et (måske mere intuitivt) robust mål for skævheden af en fordeling er givet ved den relative afstand mellem medianværdien og 25%-kvartilen hhv. 75% kvartilen: SKEW kvartil = 75%kvartil median median 25%kvartil 1 (1.16) Eksempel Antag at vi har foretaget 49 målinger af en heltallig (ikke negativ) stokastisk variabel. Antallet af observationer er for hver værdi givet i nedenstående skema: værdi antal Ved beregning af de ovenfor beskrevne mål fås: mål Middel median 0.2-trimmet 25% kvartil 75% kvartil maksimum værdi

12 mål σ MeanAD MedianAD Skew SKEW kvartil Kurt værdi Som det ses er fordelingen skæv således at hoveddelen af sandsynlighedsmassen ligger til venstre for middelværdien. Fordelingen er spidsere end normalfordelingen. På grund af den lange hale af fordelingen er spredningen større end de to mere robuste mål MeanAD of MedianAD. Læseren opfordres til at efterregne de angivne mål. Eksempel slut 1.5 Lineær korrelation Lineær korrelation er en metode til sammenligning af to ordnede følger af stokastiske variable. Disse kan eksempelvis være to kvantificerede fordelingsfunktioner, eller et sæt af punktpar (x[i], y[i]), i = 1, 2,..., n, hvor x[i] hhv. y[i] er indicerede koordinater. Teststørrelsen kaldes korrelationskoefficienten, og er defineret ved: r = i(x[i] ˆµ x )(y[i] ˆµ y ) (n 1) ˆσ x ˆσ y (1.17) hvor ˆµ x hhv. ˆµ y er de estimerede middelværdier af x hhv. y, og ˆσ x hhv. ˆσ y er de estimerede spredninger af x hhv. y. Hvis punkterne (x[i], y[i]) ligger på en perfekt ret linie med positiv hældning er r = 1. Hvis hældningen er negativ er r = 1. Hvis punkterne ikke ligger perfekt på en ret linie vil r < 1. Hvis r 0 indikerer dette at de to variable x og y er ukorrelerede. Under visse betingelser (normalitet af fordelingerne af x og y mv.) er det muligt at teste en observeret værdi af r mod en fordeling (se evt. [6]). 1.6 Vektorfunktioner, kovarians I næsten enhver form for statistisk mønstergenkendelse benyttes vektorer af stokastiske variable. Som beskrevet senere knyttes der ofte en featurevektor til hver observation. Vektoren indeholder komponenter, der hver modelleres ved en stokastisk variabel, og som forventes at beskrive et relevant aspekt af observationen. I det nedenstående skal vi kort beskrive de basale termer og definitioner i forbindelse med håndtering af stokastiske vektorer. Senere i noterne skal vi se talrige eksempler på anvendelser. En stokastisk vektor x af dimension n er en vektor med n stokastiske variable. Middelværdien af en stokastisk vektor er en vektor hvor hver komponent er middelværdien af den tilsvarende stokastiske variable. Kovariansen mellem to stokastiske variable x og y er givet ved: Cov(x, y) = E([x E(x)][y E(y)]) (1.18) 12

13 Varians-kovariansmatricen (ofte blot kaldt kovariansmatricen) for den stokastiske vektor x er givet ved: C = E([x m x ][x m x ] t ) (1.19) x 1 m 1 x = E 2 m 2. [(x 1 m x ), (x 2 m 2 ),..., (x n m x )] x n m n E([x 1 m 1 ][x 1 m 1 ]) E([x 1 m 1 ][x 2 m 2 ]) E([x 1 m 1 ][x n m n ]) E([x 2 m 2 ][x 1 m 1 ]) E([x 2 m 2 ][x 2 m 2 ]) E([x 2 m 2 ][x n m n ]) =..... E([x n m n ][x 1 m 1 ]) E([x n m n ][x 2 m 2 ]) E([x n m n ][x n m n ]) V AR(x 1 ) COV (x 1, x 2 ) COV (x 1, x n ) COV (x 2, x 1 ) V AR(x 2 ) COV (x 2, x n ) =..... COV (x n, x 1 ) COV (x n, x 2 ) V AR(x n ) (1.20) hvor m i er middelværdien af den i te komponent af vektoren x. Bemærk at diagonalelementerne af kovariansmatricen er lig varianserne af de enkelte stokastiske variable. De øvrige elementer kaldes kovarianser. Kovariansmatricen har dimmension n n, og ses at være symmetrisk. Vi skal udelukkende betragte reelle stokastiske vektorvariable, og kan derfor udnytte de mange egenskaber som gælder for reelle symmetriske matricer, eksempelvis at matricen er diagonaliserbar (ved en ortonormal matrice), og at egenværdierne er reelle. Kovariansmatricen kan også skrives: C = E(xx t ) E(x)m x t m x E(x t ) + m x m x t = S m x m x t (1.21) hvor S = E(xx t ) = Matricen S kaldes autokorrelationsmatricen. E(x 1 x 1 ) E(x 1 x n ).. E(x 1 x n ) E(x n x n ) (1.22) I visse tilfælde dekomponeres C = ΛRΛ, hvor: σ σ Λ = σ n 13 (1.23)

14 og 1 ρ 12 ρ 1n ρ R = 1n ρ 1n 1 (1.24) hvor ρ ij 1, og hvor ρ ij = ρ ji. Elementerne c ij af kovariansmatricen C kan således skrives: { σ 2 c ij = i hvis i = j (1.25) ρ ij σ i σ j hvis i j Størrelsen σ i kaldes spredningen (eller standard afvigelsen) af x i, og ρ ij kaldes korrelationskoefficienten mellem de stokastiske variable x i og x j. Matricen R kaldes korrelationsmatricen, og generaliserer den sædvanlige korrelationskoefficient fra ligning (1.17). Matricen R indeholder den essentielle information om hvorledes de stokastiske variable er indbyrdes relateret. Ved analyse af et sæt vektordata er konstruktion af kovariansmatricen ofte noget af det første der foretages. Som vi skal se senere giver en analyse af denne matrice information om graden af lineær relation mellem komponenterne i vektoren (hvis ρ ij er stor for i j). Eksempelvis vil det være muligt at undersøge om dimensionaliteten af vektoren kan reduceres uden væsenligt informationstab (ved bortkastning af en eller flere af vektorkomponenterne). Iøvrigt beskriver matricen hvor stor variation hver af komponenterne udviser. Hvis σ i er lille, da beskriver den i te komponent et fællestræk for observationerne. Hvis σ i er stor, er det måske muligt at differentiere mellem observationerne på basis af denne information. Kovariansen kan estimeres direkte ud fra (1.21) ved erstatning af den forventede værdi med et gennemsnit over observationerne. Dette estimat kan (som for variansestimatet) vises at være biased. Et unbiased estimat er: Ĉ = 1 n 1 n (x ˆm)(x ˆm) t (1.26) Eksempel Lad (r, g, b) være mængden af rødt, grønt og blåt lys, som et kamera har registreret i et billede af dimension 4 4. De 16 registrerede værdier var: i r g b Middelværdivektoren bliver (3.0000, , ). Kovariansmatricen kan udregnes til: Ĉ = (1.27)

15 = Det ses at varianserne er af samme størrelsorden, den røde lidt mindre end de to andre. Korrelationskoefficienten mellem de røde og grønne farver er forhodsvis stor, hvorimod korrelationenskoefficienterne mellem den blå og den grønne hhv. den røde farve er forholdsvis lille. Eksempel slut Stokastiske vektorfunktioner er naturligvis, som enkelte stokastiske variable, beskrevet ved en sandsynlighedsfordeling. Hvis de enkelte variable i vektoren er uafhængige fremkommer denne, som sædvanligt, ved multiplikation af fordelingerne for de enkelte variable. Denne situation er imidlertid atypisk. Vi skal her kun beskrive én, meget benyttet, multivariat fordeling, nemlig normalfordelingen. Lad x være en stokastiske vektor af dimension n, lad middelværdien af x være m, og lad kovariansmatricen være givet ved C. Da er normalfordelingen givet ved: p(x) = = 1 (2π) n/2 C 1/2 exp[ 1 2 (x m)c 1 (x m) t ] (1.28) 1 (2π) n/2 C 1/2 exp[ 1 2 d2 (x)] (1.29) Relationen til den endimensionale normalfordeling ses let i det tilfælde hvor alle kovarianser er lig 0 (dvs. at C er en diagonalmatrice). I dette tilfælde reducerer (1.28) til: [ 1 p(x) = exp 1 n (x m) 2 ] (1.30) (2π) n/2 σ 1 σ 2 σ n 2 Størrelsen d 2 (x) i udtrykket for den flerdimensionale normalfordeling angiver et normeret udtryk for afstanden mellem observationen x og middelværdien m, her betragtet som punkter i en n-dimensionalt rum. Udtrykket kaldes også for Mahalanobis afstanden. Vi skal senere i noterne udnytte den flerdimensionale normalfordeling, og Mahalanobis afstanden, intensivt. Man har ofte behov for at transformere en stokastisk vektor x til en ny stokastisk vektor y. Givet fordelingen f x af x er det derfor interessant at kunne beregne fordelingen f y af y. Lad dimensionen af x være n. Eksempler på transformationer er da: n x i, n x 2 i, max i{x i }, etc. Teknisk er det en nøvendighed at antage, at dimensionen af y er lig dimensionen af x. Lad derfor: y 1 = φ 1 (x 1, x 2,..., x n ) (1.31) y 2 = φ 2 (x 1, x 2,..., x n ). y n = φ n (x 1, x 2,..., x n ) 15. σ 2 i

16 Vi kan skrive ovenstående som y = φ(x). Hvis φ er bijektiv, med den omvendte afbilding givet ved x = ψ(y), da er f y bestemt ved: (x) f y (y) = f x (ψ(y)) (1.32) (y) for alle y i værdimængden for φ. Bemærk at der tages numerisk værdi af den anden faktor i (1.32). Størrelsen x 1 x 1 x y { } 1 y 2 1 y n (x) (y) = det xi x 2 x 2 x y = 1 y 2 2 y n (1.33) y j i,j=1,..,n... x n x y 2 n y n kaldes Jacobis funktionaldeterminant eller blot Jacobi-determinanten. Eksempel Lad x 1, og x 2 være to stokastiske uafhængige normalfordelte variable begge med middelværdi 0 og spredning 1. Vi ønsker nu at bestemme fordelingen af y 1 = x 1 /x 2, og tilføjer derfor hjælpevariablen y 2 = x 2. Den omvendte afbildning er bestemt ved: x 1 = y 1 y 2 x 2 = y 2 x n y 1 Jacobi-determinenten bliver: (x) (y) = y 2 y = y 2 Da x 1 og x 2 er uafhængige fås fordelingsfunktionen for x til: Ved indsættelse af de udledte størrelser fås: f(x) = 1 2π exp( 1 2 [x2 1 + x2 2 ]) g(y) = 1 2π exp( 1 2 [(y 1y 2 ) 2 + y 2 2 ]) y 2 Da domænet for alle de involverede stokastiske variable er hele den reelle akse får vi fordelingen af y 1 ved at integrere afhængigheden af y 2 ud, dvs: g(y 1 ) = 2 = 1 π 0 1 2π y 2 exp( 1 2 [(y 1y 2 ) 2 + y2 2 ])dy y Eksempel slut

17 Kapitel 2 Lineær Regression Metoder til håndtering af lineære ligningssystemer er vel nok de mest omtalte og veludviklede i matematikken såvel som i diverse anvendelser. årsagen hertil er dels, at matematikken bag lineære systemer er klassisk og veludviklet, at der findes meget effektive beregningsmetoder til løsning af lineære ligningssystemer, og ikke mindst, at mange praktiske problemer lader sig modellere godt ved hjælp af lineære ligninger. Hovedformålet med kapitlet er at introducere til Mindste kvadraters metode til analyse af overbestemte lineære ligningssystemer, samt de fordele og ulemper som denne metode tilbyder. Det vises at metoden i visse tilfælde er ustabil, og en række alternative (mere robuste) metoder skitseres. Mindste kvadraters metode er klassisk og et grundelement i mange mere avancerede metoder til dataanalyse. Vi skal eksempelvis søge svar på spørgsmål som: Hvordan tilpasses en lineær model til en række observationer, og hvornår er tilpasningen et maksimum likelihood estimat? Hvordan kan fejlindtastninger eller andre sporadiske fejl detekteres? Hvor mange grove fejl kan accepteres før estimationen fejler? Er det muligt at estimere parametrene selv om op mod halvdelen af observationerne er fejlmålinger? Et typisk problem i dataanalyse er at beskrive afhængigheden af en observerbar variabel y som funktion af et sæt af n modelvariable x j, hvor j = 0... n 1. I resten af dette kapitel skal vi antage, at afhængigheden er lineær, dvs. at afhængigheden kan skrives: y = a 0 + n 1 j=1 a j x j = a 0 + a 1 x 1 + a 2 x a n 1 x n 1 = x j a (2.1) hvor x j = (1, x 1, x 2,..., x n 1 ), og hvor a = (a 0, a 1,..., a n 1 ) t. Parameteren a j beskriver med hvor stor vægt modelvariablen x j påvirker observationen y. Ved brug af lineære modeller som den ovenstående er det vigtigt at huske, at lighedstegnet kun udtrykker en formodning. Sagt med andre ord er venstresiden kendt (målt), mens højresiden er en hypotese. Under visse omstændigheder er det muligt, at teste hvorvidt hypotesen er troværdig eller ej. I resten af kapitlet antages at modellen er korrekt, dvs. at y kan modelleres ved en lineær funktion i de n 1 modelvariable x j, samt konstanten 1. 17

18 Ved estimation af en lineær model ønsker vi at bestemme de n parametre a j. Denne estimation kaldes også for lineær regression. Det er klart, at et krav til enhver estimation er, at antallet af målinger (samhørende værdier af modelvariable og den observerbare variabel) mindst er lig n. Det er naturligvis også et krav, at værdierne af de valgte modelvariable er tilgængelige. Antag derfor at der til hver observation y i af den datagenererende proces er kendt værdierne af de n modelvariable x j. Vi kan nu opskrive et system af lineære ligninger: y 1 = a 0 + a 1 x 11 + a 2 x a n 1 x 1(n 1) y 2 = a 0 + a 1 x 21 + a 2 x a n 1 x 2(n 1)... y k = a 0 + a 1 x k1 + a 2 x k a n 1 x k(n 1) (2.2) hvor k er antallet af observationer. Lad X = (x ij ) være matricen bestående af de k n modelvariable. Matricen X kaldes ofte for design-matricen, fordi den specificerer et forsøg bestående af k delforsøg, der hver er bestemt ved angivelse af værdien af de n modelvariable. Lad endvidere y angive søjlevektoren bestående af de k observerede værdier. Ligningssystemet kan nu opskrives på matrix form:. y = Xa (2.3) I de fleste praktiske anvendelser er det ikke på forhånd givet, at den opstillede model er eksakt. Tværtimod betragtes modellen som en hypotese, som vi vil forsøge at tilpasse til vores observationer. Dette kan formuleres matematisk ved til tilføje et fejlled r, der modellerer afvigelsen mellem observationsvektoren og modelprediktionen: r = y Xa (2.4) Afvigelsen r i = x i. a af kaldes for residualet for den i te måling. Vektoren r kaldes residualvektoren. r i kan således opfattes som et korrektionsled, der beskriver den del af den observerede værdi y i, som modellen ikke kan forklare. Hvis modellen vides at være korrekt, kan r i alternativt opfattes som en målefejl på observationen y i. I begge tilfælde ønsker man at bestemme de parametre a i, der opfylder ligningen på en sådan måde, at fejlleddet er mindst muligt. Da r er en vektor, er det derfor nødvendigt at specificere den norm, hvorunder størrelsen af fejlen skal betragtes. Typisk betragtes den euclidiske norm. 2.1 Mindste Kvadraters Metode I mindste kvadrates metode søger man finde det sæt af parametre a i der minimerer kvadratet på modelafvigelsen (målefejlen), idet den euclidiske norm benyttes. Dette svarer til minimering af residualvektorens længde. Denne længde er givet ved: r 2 = r t r = y Xa 2 = (y Xa) t (y Xa) = y t y y t Xa a t X t y + a t X t Xa = y t y 2y t Xa + a t Ca (2.5) 18

19 hvor C = X t X, dvs. at elementerne c ij = x ṭ ix.j i C er gived ved vektorproduktet mellem den i te og den j te søjle i X. Heraf følger at C er en symmetrisk n n-matrice. Hvis søjlerne i X er lineært uafhængige, dvs. hvis der for alle a 0 gælder at Xa 0, da kaldes C for positiv definit. I dette tilfælde gælder oplagt at a t Ca > 0. Da søjlerne i X er lineært uafhængige vil C være ikke-singulær, og vil derfor være invertibel. Lad nu b = X t y, og betragt ligningssystemet: b = Ca = X t Xa (2.6) Ifølge det ovenstående har dette kvadratiske system, der kaldes for normalligningen, en entydig løsning a. Vi skal nu vise, at denne løsning minimerer kvadratresidualet i ligning (2.5). Lad r 2 (a ) angive værdien af kvadratresidualet i ligning (2.5) når den entydige løsning a benyttes. Lad h være en vilkårlig vektor i R n. Da gælder: r 2 (a + h) = y t y 2y t X(a + h) + (a + h) t C(a + h) = y t y b t a + h t Ch (2.7) I ligning (2.7) er kun det sidste led afhængig af h. Dette led er endvidere strengt positiv for h 0, da C er positiv definit. Derfor antager r 2 sin minimale værdi for h = 0. Anderledes sagt stemmer mindste kvadraters løsning til det overbestemte ligningssystem (2.4) overens med løsningen til normalligningen (2.6). Hvis C er positiv definit er den invertibel. Mindste kvadraters løsning til det oprindelige ligningssystem kan derfor udtrykkes ved: â = (X t X) 1 X t y (2.8) Matricen (X t X) 1 X t kaldes den pseudoinverse. årsagen til at løsningen er hattet er, at denne er et estimat, og ikke en eksakt løsning (til det oprindelige system (2.3) der jo er overbestemt og derfor ingen løsning har). Som vi skal se senere findes der andre estimatorer (end mindste kvadraters metode), som vil give andledning til andre estimater. Som beskrevet senere indtager mindste kvadraters metode imidlertid en særlig position. Eksempel 4-1 Antag at vi ønsker at modellere et sæt af k data (x, y) ved et tredieegrads polynomium i x. Modellen er således: y i = a 0 + a 1 x i + a 2 x 2 i + a 3 x 3 i (2.9) Hvis k > 4 vil ligningssystemet være overbestemt. Designmatricen X bliver: X = 1 x 1 x 2 1 x x 2 x 2 2 x x k x 2 k x 3 k (2.10) Matricen X kaldes (i dette tilfælde) for en vandermonde-matrice. Da søjlerne i X-matricen er lineært uafhængige kan vi finde et estimat til løsningen ved ligning (2.8). 19

20 Eksemplet illustrerer at kravet til anvendelse af mindste kvadraters metode er, at modellen er lineær i modelparametrene, ikke i modelvariablene. Eksemplet illustrerer imidlertid også et væsenligt problem. Hvis visse af x-værdierne er 1 vil potensopløftningerne bevirke at de tilsvarende rækker i matricen vil få dominerende indflydelse på resultatet. Tilsvarende vil x-værdier 1 stort set ingen indflydelse få. Vandermonde-matricer er generelt meget dårligt konditionerede, og skal benyttes med varsomhed selv når graden af det approksimerende polynomium er lille. En lille trick, der i et vist omfang kan afhjælpe problemet, er at skalere hver søjle i X-matricen, således at alle elementer i denne får omtrentlig samme størrelsesorden. Ligger x-værdierne i intervallet [1:10], og skaleres de fire søjler med faktorene 10 0, 10 1, 10 2, og 10 3, svarer dette til at løse systemet for parametrene a 0, 10a 1, 10 2 a 2, og 10 3 a 3. Eksempel 4-1 slut Mindste kvadraters metode i normalfordelt støj Antag at den opstillede lineære model er korrekt, at antallet af observationer er større end antal ubekendte, og at søjlerne i design-matricen er lineært uafhængige. Antag videre at de observerede værdier er behæftet en målefejl (støj), og at disse fejl er ukorrelerede, dvs. at støjen i to målinger er uafhængige. Antag yderligere at støjen er normalfordelt med middelværdi 0 og med samme konstante spredning σ, dvs. at støjen er stationær. Sandsynligheden for observation af en given støjværdi r i for den i te måling er da givet ved: 1 p(r i ) = e 1 2 ( y i x i. a ) σ 2 (2.11) 2πσ Da støjen på hver af de k målinger er uafhængige er sandsynligheden for den samlede fejl lig produktet af de enkelte sandsynligheder. ( ) k 1 k p(r) = e 1 2 ( y i x i. a ) σ 2 (2.12) 2πσ Lad O betegne mængden af observationer (x i., y i ). En estimator siges at give et maksimum likelihood estimat, hvis den bestemmer det mest sandsynlige sæt af parametre, der kan forklare de givne observationer. Dette betyder at estimatoren skal vælge det sæt af parametre, der maksimere sandsynligheden p(o a). Givet kendskab til parametervektoren a kan vi udregne værdien af residualvektoren r. Da vi har antaget, at støjen, dvs. værdierne r i, er normalfordelte med middelværdi 0, og samme konstante spredning σ, kender vi p(o a). Maksimum likelihood estimatet for den lineære regression y = Xa er således givet ved maksimumspunktet for funktionen: f(a) = p(r) (2.13) Da logaritmefunktionen er monotont voksende ses let at maksimum likelihood estimatet også er givet ved minimumspunktet for udtrykket: k log( 2πσ) + k 1 2 (y i x i. a ) 2 (2.14) σ 20

21 Idet k og σ er konstanter, og residualet er defineret ved r i = y i x i. a, ses at maksimum likelihood estimatet opnås for den estimator, der minimerer summen af kvadratresidualerne, dvs: k k min ρ(r) = min ri 2 (2.15) Ifølge det foregående er dette netop, hvad mindste kvadraters metode gør. Vi har således vist at denne metode er optimal (i maksimum likelihood forstand) hvis støjen er normalfordelt. Det er let at vise (se opgaveafsnittet) at summen af residualværdierne er lig 0. Det følger direkte at mindste kvadraters metode minimerer variansen af residualerne. Som vi skal diskutere senere er fejleddet r i ikke altid normalfordelt med middelværdi 0 og konstant spredning. I visse tilfælde kan støjen bedre modelleres ved en eksponentialfordeling, ved en ligefordeling, eller ved kombinationer af disse. I disse tilfælde vil mindste kvadraters metode ikke (garanteret) give det mest sandsynlige sæt af parameterværdier. Det kan faktisk vises (se senere) at blot én måling er behæftet med en tilstrækkelig stor støjværdi, da kan mindste kvadraters metode resultere i vilkårligt forkerte parameterværdier. årsagen til, at mindste kvadraters metode, på trods af ovennævnte forhold, er så populær, er dels, at der findes meget effektive beregningsmetoder til denne metode, dels De store tal lov fra sandsynlighedsregningen. Denne siger, at hvis fejlen på en given observation kan beskrives som summen af uendelig mange små fejled, da vil fejlen være normalfordelt, uanset hvilken fordeling hvert af de bidragende fejled måtte have (det er dog et krav at disse fordelinger er ens). I de situationer hvor det er rimeligt at antage, at støjen på en måling kan beskrives som sådan en sum, er mindste kvadraters metode derfor optimal. 2.2 Outliers, Robuste estimatorer En Outlier er en måling (x, y), der ikke stammer fra den proces, som vi ønsker at modellere. Data, der stammer fra den proces, som vi ønsker at modellere, kaldes inliers. Outliers stammer typisk fra fejlaflæsninger (fejlindtastninger) eller fra fejl opstået på et tidligere trin i dataanalysen. I visse tilfælde kan komplicerede processer opføre sig således at de for det meste ligner en lineær proces, men under visse omstændigheder producerer data, der ikke kan forklares så simpelt. Hvis vi kun ønsker at modellere den lineære komponent af processen kan anormalierne bedst karakteriseres som outliers. Karakteristisk for outliers er, at de optræder sporadisk, og at der ingen sammenhæng er mellem disse og processen som vi ønsker at modellere. Ofte vil outliers give anledning til store residualer, og disse kan betragtes som trukket fra en ligefordeling. Således kan den samlede fordeling af residualerne ofte beskrives godt ved en vægtet sum af en normalfordeling og en ligefordeling. I dette tilfælde er mindste kvadraters metode ikke længere optimal. 21

22 Betragt tilfældet illustreret i Figur 2.2, hvor 4 punkter fra en lineær model samt en outlier er illustreret. Ved brug af mindste kvadraters metode opnås et fit, der er langt fra den korrekte løsning. Y 4 3 Mindste kvadraters estimat 2 OUTLIER 1 X Figur 2.1: Mindste kvadraters løsning på 5 observationer, hvoraf én er en outlier. Ved at flytte på positionen af outlierpunktet er det let at overbevise sig om, at mindste kvadraters metode kan frembringe ethvert regressionsresultat, hvis blot én outlier er til stede. Dette er yderligere uafhængigt af hvor mange observationer, der iørigt er til rådighed, og hvor godt disse stemmer overens med modellen. Eksempel 3-2 Antag at punkterne (x, y) for de 5 observationer i Figur 2.2 er givet ved (1, 2), (2, 5), (3, 8), (4, 11) og (10, 4), hvor sidstnævnte er en outlier. Ved fit af en ret linie β + αx til disse data er vetoren y lig (2, 5, 8, 11, 4) t, og designmatricen X givet ved: X = X t X = ( ) 1 xi xi x 2 i = ( ) (2.16) Da determinanten af X t X = 250 får vi, at den pseudoinverse matrice bliver: (X t X) 1 X t = ( ) (2.17) 22

23 Ved at multiplicere denne matrice med vektoren y fås at α = 0, og β = 6, som illustreret på figuren. Residualvektoren r bliver (4, 1, -2, -5, 2). Eksempel 3-2 slut Estimatorer kan karakteriseres ved deres robusthed, dvs. deres evne til at give rimelige resultater når der optræder outliers blandt observationerne. Nedbrudspunktet for en estimator er uformelt defineret ved den mindste andel af outliers blandt observationerne, således at et vilkårligt dårligt estimat kan frembringes. Mere formelt, lad k være lig antal observationer, Z være mængden af observationer: Z = {(x 1, y 1 ),..., (x k, y k )} (2.18) Lad T (Z) være en estimator, og lad Z m være defineret ud fra Z ved at erstatte m observationer med vilkårlige værdier (outliers). Lad B(m, Z) være den maksimale afvigelse (bias) der kan frembringes ved erstatningen af de m observationer med outliers: B(m, Z) = sup Z m T (Z m ) T (Z) (2.19) hvor supremum tages over alle mængder Z m. Hvis B(m, Z) = kan m outliers altså have en vilkårlig stor effekt på estimatet. Estimatoren siges at bryde sammen. Nedbrudspunktet for T defineres som: { } m = min k B(m, Z) = (2.20) N T Dvs., som den mindste andel af outliers, der kan bevirke at estimatet er vilkårligt langt fra T (Z). For mindste kvadraters metode er nedbrudspunktet lig 1/k. Der findes estimatorer med nedbrudspunkt så højt som 0.5 (halvdelen af observationer kan være outliers), samt estimatorer hvor nedbrudspunktet afhænger af observationerne (og kan være større end 0.5). Appendix D indeholder en kort beskrivelse af nogle sådanne metoder. Her skal vi undersøge nogle mere klassiske metoder til identifikation af outliers. Outliers har typisk meget afvigende koordinater (model parameter værdier eller værdier af den observerbare variabel) i forhold til inliers. Det modsatte argument, at afvigende koordinater indikerer en outlier er mere tvivlsomt, fordi en observation, der både afviger mht. x og y meget vel kan være en inlier. En klassisk metode til identifikation af outliers er at separere de to tilfælde: Først identificeres punkter med afvigende x-koordinater, derefter punkter med afvigende y-koordinater. Da matricen X indeholder al information om x-koordinaterne, er det oplagt at undersøge hvor meget hver række i X matricen bidrager til estimationsresultatet. Forskellen (residualet) mellem den observerede vektor y og vektoren ŷ beregnet ved brug af mindste kvadraters estimat er: r = y ŷ = y Xâ = y X(X t X) 1 X t y = (I H)y (2.21) 23

24 Matricen H = X(X t X) 1 X t, der har dimension k k, hvor k er antal observationer, har en lang række egenskaber: H er idempotent og symmetrisk, dvs. HH = H, og H t = H. Der gælder at trace H = rank H = n, hvor n er antal regressionsparametre. Kvadratresidualet r 2 er lig y t (I H)y. Endelig kan det vises at diagonalelementet h ii er lig k j=1 h 2 ij. Af ŷ = Hy følger at elementet h ij beskriver virkningen af den j te observation på ŷ i. Diagonalelementet h ii beskriver således hvorledes den i te observation indvirker på sin egen estimation. Ifølge de ovennævnte egenskaber er gennemsnittet af h ii lig n/k, og der gælder at 0 h ii 1. Da h ii = h 2 ii + i j h 2 ij ses, at hvis h ii = 1 da vil h ij = 0 for j i. Dette betyder, at hvis h ii er stor, vil den i te observation være hovedansvarlig for estimationsværdien ŷ i. Ideen er derfor, at klassificere de observationer i, hvor h ii er væsentlig større end n/k, som potentielle outliers. Det skal understreges, at fordi en observation skiller sig ud ved ovenstående analyse, er det på ingen måde sikkert at det er en outlier. Hvis alle observationer ligger perfekt på en ret linie, men et punkt langt fra de øvrige, vil dette punkt (selv om det ikke er en outlier) blive identificeret af ovenstående procedure. Hvis der blandt observationerne findes et større antal af outliers, er det også muligt at ingen af disse vil skille sig ud. Hvis en observation (x, y) afviger væsenligt fra de øvrige observationer ved at have en meget afvigende y-værdi, er dette ofte muligt at identificere denne ved at analysere residualvektoren r. Lad σ r være spredningen af værdierne r i (opnået ved anvendelse af mindste kvadraters metode). Hvis afvigelsen r i mellem observationen y i og modellens forudsigelse ŷ i er stor, da er sandsynligheden for at observationen er en outlier også stor. Hvis det vides at støjen på observationerne er normalfordelt er sandsynligheden givet direkte ved ligning (2.11). Typisk identificeres observationer som potentielle outliers hvis r i > 2.5 σ r. Et stort problem ved ovennævnte metode er, at σ r er beregnet på basis af alle observationer (inliers såvel som outliers). Som illustreret i eksempel 4-3 vil selv få outliers kunne bevirke stor ændring af værdien af σ r. Dette skyldes naturligvis at σr 2 beregnes ved 1 k i ri 2. Hvis vi betragter fordelingen af residualværdierne aftager denne meget stærkt (som funktion af r i ) i normalfordelt støj. Hvis der forekommer outliers vil disse ofte ligge langt fra nulpunktet. Et mere robust mål for σ r kan derfor opnås hvis halerne af fordelingen ignoreres. Det kan derfor ofte være en fordel at benytte en af de robuste estimatorer, der er bekrevet tidligere i noterne. 2.3 RANSAC En standard metode ved estimation baseret på data med outliers er RANSAC RANdom SAmple Consensus. Om tiden tillader vil jeg skrive noter om dette. Indtil da, brug google. 24

25 Litteratur [1] S. Banks: Signal processing, Image Processing, and Pattern Recognition; Prentice Hall [2] C.M. Bishop: Neural Networks for Pattern Recognition; Clarendon Press [3] R. O. Duda, P. E. Hart: Pattern Classification and Scene Analysis; John Wiley [4] K. Fukunaga: Introduction to Statistical Pattern Recognition, 2. ed.; Academic Press [5] A. Hald: Statistiske Metoder; Akademisk Forlag, [6] W. H. Press et.al.: Numerical Recipes in C, 2. ed; Cambridge Press [7] Schaum s outline series: Theory and problems of Matrices; McGraw-Hill

26 Bilag A Grundlæggende Lineær Algebra Dette appendix omhandler nogle få væsentlige elementer af lineær algebra som kan være til hjælp i læsningen af den øvrige del af noterne, men kan ikke erstatte egenligt undervisningsmateriale. Hovedparten af kapitlet burde være velkendt fra den grundlæggende matematik. Afsnittet om løsning af lineære ligningssystemer er medtaget for at give en idé om nogle af de i praksis meget benyttede metoder. De beregningstekniske overvejelser diskuteres ikke. Tilsvarende udelades egentlige algoritmeskitser, idet dette bedre hører til i et kursus om numerisk analyse. Det nok væsentligste, for en fuld forståelse af resten af noterne, er at læseren bliver fortrolig med egenværdi-dekomposition af matricer, samt af egenskaberne ved positivt definitte matricer. A.1 Vektorrum, indre produkt, norm, basis Nedenstående defineres vektorrum (V, +, ) over de reelle tals legeme R. Andre legemer, f.eks. de komplekse tals legeme C kunne være benyttet i stedet. Som V vil vi tænke på R n eller C n. En ikke tom mængde V kaldes et vektorrum over R hvis der findes to afbildninger: addition V V V : (x, y) x + y skalar multiplikation R V V : (λ, x) λx således at nedenstående betingelser er opfyldt for alle x, y, z V, og for alle µ, λ R: 1. x + y = y + x 2. (x + y) + z = x + (y + z) 3. 0 : x + 0 = x 4. x : x + ( x) = 0 5. λ(x + y) = λx + λy 6. (λ + µ)x = λx + µx 7. (λµ)x = λ(µx) 8. 1x = x 26

MønsterGenkendelse Forår 2001. S. I. Olsen

MønsterGenkendelse Forår 2001. S. I. Olsen MønsterGenkendelse Forår 2001 S. I. Olsen Dette skrift er 3. udkast til et notesæt til brug i kurset Mønstergenkendelse. Noterne dækker primært områderne: Statistiske mønstergenkendelse, Klyngeanalyse,

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Sandsynlighedsregning Oversigt over begreber og fordelinger

Sandsynlighedsregning Oversigt over begreber og fordelinger Tue Tjur Marts 2007 Sandsynlighedsregning Oversigt over begreber og fordelinger Stat. MØK 2. år Kapitel : Sandsynlighedsfordelinger og stokastiske variable En sandsynlighedsfunktion på en mængde E (udfaldsrummet)

Læs mere

Middelværdi og varians. Kovarians. korrelation = 0.02 korrelation = 0.7 korrelation = 1.0

Middelværdi og varians. Kovarians. korrelation = 0.02 korrelation = 0.7 korrelation = 1.0 Middelværdi og varians Middelværdien af en diskret skalarfunktion f(x), for x = 0, N er: µ = N f(x) N x=0 For vektorfuktioner er middelværdivektoren tilsvarende: µ = N f(x) N x=0 Middelværdien er en af

Læs mere

hvor a og b er konstanter. Ved middelværdidannelse fås videre

hvor a og b er konstanter. Ved middelværdidannelse fås videre Uge 3 Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge ) 3. Middelværdivektor, kovarians- og korrelationsmatrix 4. Summer af stokastiske variable 5.Den

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Module 1: Lineære modeller og lineær algebra

Module 1: Lineære modeller og lineær algebra Module : Lineære modeller og lineær algebra. Lineære normale modeller og lineær algebra......2 Lineær algebra...................... 6.2. Vektorer i R n................... 6.2.2 Regneregler for vektorrum...........

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med Repetition: Varians af linear kombination Landmålingens fejlteori Lektion 5 Fejlforplantning - rw@math.aau.dk Antag X 1, X,..., X n er uafhængige stokastiske variable, og Y er en linearkombination af X

Læs mere

MM501 forelæsningsslides

MM501 forelæsningsslides MM501 forelæsningsslides uge 40, 2010 Produceret af Hans J. Munkholm bearbejdet af JC 1 Separabel 1. ordens differentialligning En generel 1. ordens differentialligning har formen s.445-8 dx Eksempler

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k Dagens program: Likelihoodfunktion, begreber : Mandag den 4. februar Den generelle lineære model score-funktion: første afledede af log-likelihood har middelværdien nul observeret information: anden afledede

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable IMM, 00--6 Poul Thyregod Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable Todimensionale stokastiske variable Lærebogens afsnit 4 introducerede sandsynlighedsmodeller formuleret

Læs mere

INSTITUT FOR MATEMATISKE FAG c

INSTITUT FOR MATEMATISKE FAG c INSTITUT FOR MATEMATISKE FAG c AALBORG UNIVERSITET FREDRIK BAJERS VEJ 7 G 9220 AALBORG ØST Tlf.: 96 35 89 27 URL: www.math.aau.dk Fax: 98 15 81 29 E-mail: bjh@math.aau.dk Dataanalyse Sandsynlighed og stokastiske

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Normalfordelingen og transformation af kontinuerte fordelinger Helle Sørensen Uge 7, mandag SaSt2 (Uge 7, mandag) Normalford. og transformation 1 / 16 Program Paretofordelingen,

Læs mere

Den todimensionale normalfordeling

Den todimensionale normalfordeling Den todimensionale normalfordeling Definition En todimensional stokastisk variabel X Y siges at være todimensional normalfordelt med parametrene µ µ og når den simultane tæthedsfunktion for X Y kan skrives

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning Fejlforplantning Landmålingens fejlteori Lektion 5 Fejlforplantning - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf13 Landmåling involverer ofte bestemmelse af størrelser som ikke kan

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

MM501/MM503 forelæsningsslides

MM501/MM503 forelæsningsslides MM501/MM503 forelæsningsslides uge 50, 2009 Produceret af Hans J. Munkholm 1 Separabel 1. ordens differentialligning En generel 1. ordens differentialligning har formen dx Eksempler = et udtryk, der indeholder

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Afsnit 6.1. Ligefordelinger, fra sidst Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Chapter 3. Modulpakke 3: Egenværdier. 3.1 Indledning

Chapter 3. Modulpakke 3: Egenværdier. 3.1 Indledning Chapter 3 Modulpakke 3: Egenværdier 3.1 Indledning En vektor v har som bekendt både størrelse og retning. Hvis man ganger vektoren fra højre på en kvadratisk matrix A bliver resultatet en ny vektor. Hvis

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Teoretisk Statistik, 16. februar Generel teori,repetition

Teoretisk Statistik, 16. februar Generel teori,repetition 1 Uge 8 Teoretisk Statistik, 16. februar 2004 1. Generel teori, repetition 2. Diskret udfaldsrum punktssh. 3. Fordelingsfunktionen 4. Tæthed 5. Transformationer 6. Diskrete vs. Kontinuerte stokastiske

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Lidt om fordelinger, afledt af normalfordelingen

Lidt om fordelinger, afledt af normalfordelingen IMM, 2002-10-10 Poul Thyregod Lidt om fordelinger, afledt af normalfordelingen 1 Introduktion I forbindelse med inferens i normalfordelinger optræder forskellige fordelinger, der er afledt af normalfordelingen,

Læs mere

Uge 10 Teoretisk Statistik 1. marts 2004

Uge 10 Teoretisk Statistik 1. marts 2004 1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Rune Haubo B Christensen (based on slides by Per Bruun Brockhoff) DTU Compute, Statistik og Dataanalyse Bygning

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata 1 Intoduktion Før man springer ud i en øvelse om paneldata og panelmodeller, kan det selvfølgelig være rart at have en fornemmelse af, hvorfor de er så vigtige i moderne mikro-økonometri, og hvorfor de

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære

Læs mere

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006 Dagens program Økonometri Den multiple regressionsmodel 8. september 006 Opsamling af statistiske resultater om den simple lineære regressionsmodel (W kap..5). Den multiple lineære regressionsmodel (W

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Landmålingens fejlteori - Lektion 5 - Fejlforplantning

Landmålingens fejlteori - Lektion 5 - Fejlforplantning Landmålingens fejlteori Lektion 5 Fejlforplantning - kkb@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/30 Fejlforplantning Landmåling involverer ofte bestemmelse af størrelser som ikke

Læs mere

Module 3: Statistiske modeller

Module 3: Statistiske modeller Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Lineære transformationer, middelværdi og varians Helle Sørensen Uge 8, onsdag SaSt2 (Uge 8, onsdag) Lineære transf. og middelværdi 1 / 15 Program I formiddag: Fordeling

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset 02402 Vejledende løsninger til Splus-opgaverne fra hele kurset Vejledende løsning SPL3.3.1 Der er tale om en binomialfordeling med n =10ogp=0.6, og den angivne sandsynlighed er P (X =4) som i bogen også

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag I formiddag: Tætheder og fordelingsfunktioner kort resume fra i mandags og et par eksempler mere om sammenhængen

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Matrix Algebra med Excel Forelæsningsnoter til FR86. Jesper Lund mail@jesperlund.com http://www.jesperlund.com

Matrix Algebra med Excel Forelæsningsnoter til FR86. Jesper Lund mail@jesperlund.com http://www.jesperlund.com Matrix Algebra med Excel Forelæsningsnoter til FR86 Jesper Lund mail@jesperlund.com http://www.jesperlund.com 28. august 2002 1 Indledning Matrix algebra er et uundværligt redskab til økonometri, herunder

Læs mere

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 29. maj 2015 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 29. maj 2015 Kursus nr : (navn) (underskrift) (bord nr) DANMARKS TEKNISKE UNIVERSITET Side af 7 sider Skriftlig prøve, den: 9. maj 05 Kursus nr : 0405 Kursus navn: Sandsynlighedsregning Varighed : 4 timer Tilladte hjælpemidler: Alle Dette sæt er besvaret af:

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007 regressionsmodel 1 Dagens program Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5, E.2) Variansen

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 33B, Rum 9 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail: pbac@dtu.dk Efterår

Læs mere

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen STATISTIK Skriftlig evaluering, 3. semester, mandag den 6. januar 004 kl. 9.00-13.00. Alle hjælpemidler er tilladt. Opgaveløsningen forsynes med navn og CPR-nr. OPGAVE 1 Et firma tuner biler. Antallet

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4 02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4 Vejledende løsning 5.46 P (0.010 < error < 0.015) = (0.015 0.010)/0.050 = 0.1 > punif(0.015,-0.025,0.025)-punif(0.01,-0.025,0.025) [1] 0.1

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr) DANMARKS TEKNISKE UNIVERSITET Side af 7 sider Skriftlig prøve, den: 0. maj 206 Kursus nr : 02405 Kursus navn: Sandsynlighedsregning Varighed : 4 timer Tilladte hjælpemidler: Alle Dette sæt er besvaret

Læs mere

DesignMat Uge 1 Gensyn med forårets stof

DesignMat Uge 1 Gensyn med forårets stof DesignMat Uge 1 Gensyn med forårets stof Preben Alsholm Efterår 2010 1 Hovedpunkter fra forårets pensum 11 Taylorpolynomium Taylorpolynomium Det n te Taylorpolynomium for f med udviklingspunkt x 0 : P

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Uafhængighed og reelle transformationer Helle Sørensen Uge 8, mandag SaSt2 (Uge 8, mandag) Uafh. og relle transf. 1 / 16 Program I dag: Uafhængighed af kontinuerte

Læs mere

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet Dagens program Økonometri Den multiple regressionsmodel 4. februar 003 regressionsmodel Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5)! Opsamling fra sidst

Læs mere

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen Repetition Lov om total sandsynlighed Bayes sætning P( B A) = P(A) = P(AI B) + P(AI P( A B) P( B) P( A B) P( B) +

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Kursus 242 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 35/324 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail:

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle. Modellens parametre Mandag den 25 april Hierarkiske normalfordelingsmodeller Dagens program: Resume af ensidet variansanalysemodel med tilfældig effekt estimation af tilfældige effekter, fortolkning som

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kontinuerte fordelinger Simultane fordelinger Kovarians og korrelation Uafhængighed Betingede fordelinger - Middelværdi og varians - Sammenhæng med uafhængighed 1 Figur 1: En tæthedsfunktion

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2) Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2) Klaus Hansen 23 september 24 Indhold Elementære empiriske mål 2 Lidt sandsynlighedsregning 3 3 Fordelinger 3 3 Grundlæggende

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R Helle Sørensen Uge 6, mandag SaSt2 (Uge 6, mandag) Tætheder og kont. fordelinger 1 / 19 Program Velkommen I dag:

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Affine rum. a 1 u 1 + a 2 u 2 + a 3 u 3 = a 1 u 1 + (1 a 1 )( u 2 + a 3. + a 3. u 3 ) 1 a 1. Da a 2

Affine rum. a 1 u 1 + a 2 u 2 + a 3 u 3 = a 1 u 1 + (1 a 1 )( u 2 + a 3. + a 3. u 3 ) 1 a 1. Da a 2 Affine rum I denne note behandles kun rum over R. Alt kan imidlertid gennemføres på samme måde over C eller ethvert andet legeme. Et underrum U R n er karakteriseret ved at det er en delmængde som er lukket

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2) Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2) Klaus Hansen 4. november 23 Indhold 1 Elementære empiriske mål 1 2 Lidt sandsynlighedsregning 3 3 Fordelinger 3 3.1 Grundlæggende

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,

Læs mere

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 17. december 2015 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 17. december 2015 Kursus nr : (navn) (underskrift) (bord nr) DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider Skriftlig prøve, den: 17. december 015 Kursus nr : 0405 Kursus navn: Sandsynlighedsregning Varighed : 4 timer Tilladte hjælpemidler: Alle Dette sæt er besvaret

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder 2 Specifikation og dataproblemer 2. maj 2007 KM2: F22 1 Program Specifikation og dataproblemer, fortsat (Wooldridge kap. 9): Betydning af målefejl Dataudvælgelse: Manglende observationer

Læs mere

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 28 Kgs. Lyngby Danmark Email: bfn@dtu.dk Dagens emner afsnit 4.5 og 4.6 (Kumulerede) fordelingsfunktion

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere