MønsterGenkendelse Forår S. I. Olsen

Størrelse: px
Starte visningen fra side:

Download "MønsterGenkendelse Forår 2001. S. I. Olsen"

Transkript

1 MønsterGenkendelse Forår 2001 S. I. Olsen

2 Dette skrift er 3. udkast til et notesæt til brug i kurset Mønstergenkendelse. Noterne dækker primært områderne: Statistiske mønstergenkendelse, Klyngeanalyse, Lineær regression, Desuden er emneområder som Estimation og Neurale net behandlet i et vist omfang. Noterne dækker derimod ikke områderne: Syntaktisk mønstergenkendelse, Informationsteori, Kodning, Frekvensanalyse, herunder fouriertransformationen, mv. Formålet med noterne er at give læseren en introduktion til de behandlede emner. Noterne kan således på ingen måde tilfredsstille den mere erfarne læser. Noterne omfatter emner, der traditionelt er henføres til områderne Matematik, Statistik, Numerisk analyse, Optimering mv. Læsere med solidt kendskab til disse områder vil nok finde noterne mangelfulde. Formålet med noterne er da også at kombinere basal viden fra disse områder på en forhåbentlig brugbar måde, mere end at give en udtømmende beskrivelse af de teknikker, der er udviklet inden for de nævnte områder. Da notesættet er under udvikling, må der forventes at forekomme en del fejl i disse, såvel som emner, der kun er behandlet kursorisk eller på anden måde utilfredsstillende. Noterne henvender sig til datalogistuderende med bestået førsteårskursus i matematik. Det forudsættes således at læseren har et modent (operationelt) forhold til matematik. For at lette læsningen og forståelsen af notationen er noterne forsynet med opsummerende appendi om basal lineær algebra og sandsynlighedsregning samt en ultrakort introduktion til nogle optimeringsmetoder. Disse afsnit er kun tænkt som en hjælp, og kan på ingen måde erstatte egenligt undervisningsmateriale inden for de nævnte emner. Til hver kapitel i noterne er der knyttet et antal opgaver. Visse af disse vil være protopyper på opgaver der kunne forekomme i en skriftlig eksamen. Andre af opgaverne har til formål at træne læseren i praktisk anvendelse af stoffet, eller at uddybe delområder, som kun bliver omtalt perifert i noterne. Der eksisterer en lang række lærebøger inden for de fagområder som noterne dækker. Derimod er det vanskeligt at finde én bog, der dækker hele stofområdet (hvilket begrunder behovet for noterne). Et eksempel på en god bog, der dækker forholdsvist bredt er [1]. Referencen kan findes sidst i noterne i afsnittet Litteratur. 2

3 Om formålet med kurset I formålsbeskrivelsen for kurset nævnes: Formålet med kurset er at tilegne de studerende en basal viden om grundlæggende algoritmer til analyse, modellering, og fortolkning af data. Centralt er kendskab til metoder hvorved mønstre i data kan genkendes, samt hvorledes data kan klassificeres i forhold til et sæt af prototyper. Ved genkendelse af mønstre kan forekomster af disse repræsenteres ved en reference til en prototype. Herved kan en (evt. hierakisk) struktur, der afspejler den syntaktiske sammensætning af data opbygges. Væsentlige anvendelser er kodning og kompression af data. Ofte er data genereret af en process hvis struktur og egenskaber kun er delvist kendt. Mønstergenkendelse kan i denne sammenhæng forstås som opgaven at afdække processens struktur og egenskaber ud fra de observerede data, dvs. at modellere data. Ofte svarer de observerede data ikke eksakt til modellens forudsigelser, men er behæftet med støj og irrelevante data. I disse tilfælde er en statistisk analyse nødvendig. Væsentlige modeller er de lineære systemer, og fit af disse til data. Ved modeller der beskriver frekvenssammensætningen af data er fourieranalysen central. I samplingsætningen redegøres for hvilken information, som kan udtrækkes af et frekvensbegrænset kontinuert signal ved at tage stikprøver. Det er ikke hensigten med kurset at uddanne eksperter i mønstergenkendelse, eller at fokusere på specifikke anvendelser. Derimod er det hensigten at give en introduktion til en række af generelt anvendelige metoder, og at fokusere på nogle klassiske og bredt benyttede algoritmer. Den del af kurset som disse noter beskriver omhandler statistisk dataanalyse, lineær regression, og klassifikation, herunder neurale net. Det er håbet at noterne vil give den datalogisk relevante og nødvendige baggrund ved behandling af data (tal), samt at være til nytte i enhver situation hvor data skal analyseres og vurderes. Nogle eksempler på spørgsmal, som det er håbet at noterne vil give svar på er: Hvordan beregner man middelværdien af en række indtastede tal hvor i blandt der forekommer indtastningsfejl, og hvordan måler man hvor sikker en middelværdibestemmelse er. Hvordan bestemmer man koefficienterne i det n te grads polynomium, der passer bedst til et sæt af målinger. Hvodan karakteriserer man en prototype ud fra en population af stikprøver, og hvordan klassificerer man en måling som stammende fra én af et antal klasser af prototyper. 3

4 Hvilken strategi skal man vælge når man skal miminere den forventede fejl, eller maksimere det forventede udbytte. Hvor stor en klasse af funktioner kan et neuralt netværk modellere. Notation Nedenstående afsnit opsummerer de konventioner for notation, som jeg har forsøgt at følge gennem noterne. R Kursiverede store bogstaver betegner mængder. X Fede store bogstaver betegner matricer. Fede små bogstaver betegner vektorer Overstreget fede små bogstaver betegner middelværdi af en vektor. ˆ Hattede fede små bogstaver betegner et estimat. E( ) Operatoren E betegner forventet værdi af. p( ) Operatoren p betegner sandsyligheden for. p(a B) Betinget sandsyligheden for A givet B..j Søjlevektor af matrice. i. Rækkevektor af matrice. t Vektortransponering. ( ij ) Matrice af elementer ij i række i og søjle j. f() Funktion af reelt argument. f[] Funktion af heltalligt argument. Der vil utvivlsomt være en lang række symboler, konventioner, og notationer, der ikke er kommet med i ovenstående liste. Ligeledes vil der formodentlig være tvetydigheder, der bør afklares. Som læser vil du give forfatteren en uvurderlig hjælp, hvis du vil videregive ham observationer om sådanne tilfælde. 4

5 Indhold 1 Statistisk Dataanalyse Stokastisk variabel Tæthedsfordeling Middelværdi og varians Robuste estimater Test af hypoteser Test af middelværdi Test af varians Andre statistiske tests Lineær korrelation Vektorfunktioner, kovarians Opgaver Selektion af features Principalkomponentanalyse Andre transformationer Ikke-lineære transformationer Kvalitetsvurdering af features Opgaver Lineær Regression Mindste Kvadraters Metode Mindste kvadraters metode i normalfordelt støj Outliers, Robuste estimatorer Opgaver Klyngeanalyse Histogramanalyse Minimalt udspændende træ Nærmeste nabo k-d træer Kasseopdeling Maimin algoritmen

6 4.5 K-means algoritmen Opgaver Klassifikation Feature matching Beslutningsfunktioner Minimal afstands klassifikatorer Statistisk klassifikation Diskriminantanalyse for normalt fordelte mønstre Opgaver Neurale Net Lagdelte, fuldt forbundne net uden tilbagekobling Beregningsmåde Hvad kan et neuralt net modellere Antal parametre Generaliseringsevne Neurale net som feature ekstraktorer Oplæring af neurale net Back-propagation algoritmen Udtynding af neurale net Praktisk brug af neurale net Neurale net contra diskriminantanalyse Opgaver A Grundlæggende Lineær Algebra 90 A.1 Vektorrum, indre produkt, norm, basis A.2 Koordinater, matricer A.3 Egenværdier, egenvektorer, konditionstal A.4 Lineære ligningssystemer A.5 Løsning af kvadratiske lineære ligningssystemer A.5.1 Gauss-elimination A.5.2 LU-dekomposition og Cholesky dekomposition A.5.3 Egenværdi dekomposition A.6 Løsning af overbestemte lineære ligningssystemer A.6.1 Singulær værdi dekomposition A.7 Opgaver B Optimeringsmetoder 103 B.1 Gradient descent B.2 Variationsmetoder B.3 Stokastiske optimering B.3.1 Stokastisk sampling

7 B.3.2 Simuleret afkøling B.3.3 Genetiske algoritmer B.4 Opgaver C Mere Statistisk Dataanalyse 114 C.1 Basal Sandsynlighedsregning C.1.1 Sammenligning af fordelinger C.1.2 Ikke-parametrisk korrelation C.2 Stokastiske processer C.3 Estimation af parametre C.3.1 Maksimun likelihood estimation C.3.2 Bayes estimation C.4 Opgaver D Robuste estimatorer 129 D.1 Iterativt vægtede mindste kvadraters metode D.2 Mindste medianers metode D.3 MDL-estimation

8 Kapitel 1 Statistisk Dataanalyse Ved analyse af data, med det formål at ekstrahere mønstre i disse, er det vigtigt (inden fastlæggelse af en bestemt analysemetode), at gøre sig klart hvilken grad af regelbundenhed contra tilfældighed som de aktuelle data udviser. Data kan groft rubriceres som: Stærkt regelbundne. Svagt regelbundne. Tilfældige. Hvis data er fuldstændigt regelbundne kan strukturen i data ofte analyseres bedst ved at opstille en grammatik for de regler som definerer hvorledes de enkelte dataelementer kan forekomme. Teknikker til analyse af fuldstændig regelbundne data er veludviklede inden for programanalyse, hvor syntaksanalysatorer kan konstrueres automatisk ud fra de opstillede regler. Denne type af dataanalyse er en grunddiciplin inden for datalogi, og er grundigt behandlet på andre kurser. Vi skal derfor ikke beskrive disse metoder yderligere. Hvis data er forholdsvist stærkt regelbundne, men reglerne kun er delvist kendte, er metoder fra emneområdet kunstig intilligens ofte anvendelige. Mange af disse metoder går under kælenavnet ekspertsystemer, fordi de fundne regler ofte er fremkommet ved formalisering af eksperters viden om regelbundetheden. I forhold til grammatikker for programmeringssprog, hvor reglerne ofte er hierakisk opbygget, er de regler, der benyttes i ekspertsystemer ofte (men ikke altid) sideordnet. Viden i et ekspertsystem formaliseres ofte ved en mængde af såkaldte produktionsregler. En produktionsregel udtrykker at hvis en række betingelser er opfyldt, da er det muligt at drage en (del)konklussion. Ofte er denne tilknyttet et mål for troværdigheden af slutningen. Dataanalysen foretages af en inferensmaskine, der givet data og sættet af produktionsregler iterativt anvender en produktionsregel. Gradvist opbygges et sæt af hypoteser om de aktuelle data. Til hver hypotese er knyttet et troværdighedsmål. Når en hypotese bliver for utroværdig slettes denne af listen af hypoteser. Når det ikke længere er muligt at forbedre hypoteserne (ud fra de aktuelle data og de kendte regler) uvælges den (de) bedste hypoteser. Ovenstående meget kortfattede beskrivelse af funktionsmåden af et ekspertsystem er naturligvis på ingen måde fyldestgørende, og udelukkende tænkt 8

9 som et holdepunkt i forhold til hvilken statistiske analysemetoder kan forstås. En dybere forståelse af de mange metoder inden for kunstig intelligens ligger uden for rammerne af dette kursus. Hvis data indeholder støj, dvs. et element af tilfældighed, er det ofte nødvendigt at ty til statisk funderede metoder for dataanalyse. Det er typisk at datamaterialet er forholdsvist stort, hvorimod de modeller der anvendes er (matematisk set) forholdsvist enkle. Man skelner mellem parametriske og ikke-parametriske modeller. I en parametrisk model af data (f.eks. en lineær sammenhæng mellem en række værdier) ønsker man at estimere parametrene, dvs. at finde den model der fitter data bedst muligt. Forskellen, fejlen, mellem de observerede data og modellens forudsigelse, ønskes med andre ord så lille som muligt. Estimationen kan beskrives ved at bestemme de mest sandsynlige parametre, som kan forklare/beskrive de observerede data. I ikke-parametriske modeller er målet for analysen at beskrive de statistiske egenskaber ved data, herunder middelværdi, varians etc. Sådanne analyser er hensigtsmæssige, når den eneste regelbundethed af data er fastlagt ved fordelingsfunktionen for dataværdierne. I grænseområdet mellem parametriske og ikkeparametriske analyser findes det område, der går under navnet kaosteori. Kaotiske data er ekstremt svagt regelbundne. I dette kapitel introduceres til de statisktisk baserede analyse- og estimationsmetoder. I de efterfølgende kapitler konkretiseres en række analysemetoder, der alle er stærkt funderet i statistikken. årsagen til, at vi har valgt at lægge så stor vægt på statistisk dataanalyse er, at disse metoder er generelt anvendelige, meget udbredte, og solidt teoretisk funderet. Grundigt kendskab til disse metoder er ofte en nødvendighed ved studier af metoder inden for andre områder, f.eks. kunstig intilligens eller neurale net. I Appendi C er en række basale definitioner inden for sandsyligheder og statistik kort gennemgået. Nedenstående gennemgås nogle grundlæggende metoder. Appendi C indeholder en række supplerende metoder. Nedenstående gennemgang er rettet mod de anvendelser, der senere beskrives i noterne, og kan på ingen måde erstatte egenligt undervisningsmateriale inden for hverken statistik eller sandsynlighedsregning. 1.1 Stokastisk variabel En stokastisk variabel defineret på udfaldsrummet Ω, og med fordelingsfunktion F, er en størrelse hvis værdi ikke kendes eksakt. Eksempelvis vides ikke eksakt hvor mange biler der mellem kl. 9:00 og 10:00 kører af Jagtvej. Det er muligt at estimere værdien af den stokastiske variabel ved at foretage målinger. Her vil man kunne iagttage at næppe to målinger vil være ens. Ved at foretage mange målinger, og ved at tage gennemsnit af disse vil man kunne estimere middelværdien af den stokastiske variabel. Dette er imidlertid en meget grov karakterisering. En fuldstændig karakterisation af en stokastiske variabel er bestemt ved fordelingsfunktionen F for variablen. Fordelingsfunktionen F () vil for ovenstående eksempel udtrykke sandsynligheden for at antallet af optalte biler er mindre end. I dette 9

10 tilfælde er udfaldsrummet diskret (der kan være 0, 1, 2,...) biler, men ikke 1.37 bil. I andre stituationer vil udfaldsrummet være en delmængde af R n (eksempelvis mængen af forbrændt benzin ved kørsel på Jagtvej). For n = 1 er F () en reel funktion af en variabel. Den stokastiske variabel kaldel kontinuert, hvis F () er kontinuert og differentiabel. Tæthedsfunktionen f() er da defineret som differentialkvotienten af F (). 1.2 Tæthedsfordeling I dette afsnit gives eksempler på nogle få hyppigt anvendte tæthedsfunktioner for stokastiske variable, og det beskrives hvorledes tæthedsfunktionen ændrer sig ved simple transformationer af den stokastiske variabel. Antag at den stokastiske variabel er defineret på et interval [a, b]. En ligefordeling (eller uniform fordeling) er da givet ved: F () = a b a Her er sandsynlighedsmassen altså spredt ligeligt ud over definitionsmængden. Diamentralt modsat kan hele sandsynlighedsmasses være samlet i ét punkt a. F () = δ( a) = { 1 hvis = a 0 ellers Funktionen δ kaldes Diracs deltafunktion. Der findes et væld af fordelinger, der ofte er begrundet i en fysisk model. Eksponentialfordelingen er (for 0) bestemt ved: F eks () = 1 e λ svarende til tæthedsfunktionen f() = λe λ. Det klassiske eksempel på en eksponentialfordeling opstår ved betragtning af en mængde af agenter, der uafhængigt af hinanden og uafhængigt af agenternes alder, spontant beslutter at udsende en meddelelse. Da er fordelingsfunktionen for antallet af udsendte meddelelser givet ved F eks (). Radioaktive henfald modelleres godt ved en eksponentialfordeling. Parameteren λ bestemmer hvor hurtigt f() aftager. Normalfordelingen eller Gauss fordelingen er givet ved: f() = G(µ, σ)() = 1 e ( µ)2 2σ 2 2πσ Normalfordelingen er interessant på grund af en lang række egenskaber. Antag at den stokastiske variabel fremkommer ved summation af uendelig mange meget små led (stokastiske variable), der alle har samme fordeling f 0. Da er normalfordelt uafhængig af 10

11 fordelingen f 0. Dette resultat kaldes Den centrale grænseværdisætning. Støj modelleres ofte ved en normalfordeling. Vi skal senere i noterne intensivt benytte en sådan antagelse. Normalfordelingen har to parametre µ og σ. Disse kaldes middelværdien hhv. spredningen af fordelingen. Disse navne benyttes generelt til karakterisering af enhver fordeling, men har altså en særlig betydning for normalfordelingen lige gauss() eponential() rayleigh() Figur 1.1: Illustration af en ligefordeling på intervallet [0,10], en normalfordeling med µ = 5, σ = 1.5, en eksponentialfordeling med parameteren λ = 0.5, samt en Rayleigh fordeling 2λe λ2 med parameteren λ = 0.2. Andre fordelinger er konstrueret på basis af simplere fordelinger ved transformationer af stokastiske variable. En vigtig sådan fordeling er gamma-fordelingen. Det kan vises at variansestimatet for en følge af normalfordelte stokastiske variable (med samme middelværdi) er gamma-fordelt. Snævert relateret er χ 2 -fordelingen Q(χ 2, ν), der angiver sandsynligheden for at en sum af kvadrater af ν normalfordelte stokastiske variable, med varians lig 1, er større end χ 2. Størrelsen ν kaldes antallet af frihedsgrader. Vi skal senere benytte denne fordeling ved test af hvorvidt to fordelinger er ens. Der findes en række fordelinger, der benyttes i test af forskellige hypoteser, eksempelvis Students t-fordeling, F -fordelingen, binomial-fordelingen, Poisson-fordelingen, beta-fordelingen, etc. Selv om kendskab til disse fordelinger er nødvendig for en dybere forståelse af mange statistiske metoder, er de ikke essentielle for dette kursus. I mange sammenhænge kan det være nyttigt at beskrive de observerede data y som en transformation φ af en stokastisk variabel. Funktionen φ modellerer ofte et fysisk system. Hvis funktionen φ er kendt er det i visse tilfælde muligt at beregne den teoretiske fordeling af observationerne y = φ(), hvor y her betragtes som en stokastisk variabel. Antag at er en kontinuert reel stokastisk variabel med tæthed f, defineret på intervallet [a,b], og antag at φ :]a, b[ ]c, d[ er bijektiv. Antag yderligere at ψ = φ 1 eksisterer og er kontinuert. Da 11

12 er tæthedsfunktionen g for den transformerede stokastiske variabel y bestemt ved: g(y) = f(ψ(y)) ψ (y) (1.1) hvor y [c, d], og ψ. Det er muligt at generalisere sætningen til tilfældet hvor y φ er stykvis bijektiv med kontinuert differentialkvotient. Der er to oplagte anvendelser af sætningen. Hvis transformationen er kendt, er det muligt at teste (se senere) hvorvidt antagelsen om fordelingen f er holdbar. Hvis fordelingen f er kendt, men transformationen φ er parametriseret, udgør ligningen et grundlag for estimation af disse parametre ud fra den observerede tæthedsfunktion g. = ψ Eksempel Hvis eksempelvis er uniformt fordelt på intervallet [0,1], dvs. at f() = 1, og φ() = 2, da fås at ψ(y) = y, at ψ (y) = 1/(2 y), og dermed at g(y) = f( y) 1/(2 y) = y/(2y). Eksempel slut En tredie anvendelse af ovenstående resultat er, at normalisere et sæt data med fordeling f til et nyt sæt data, der har fordelingen g. Denne anvendelse foretages ofte med billeder, hvor de fleste billedelementer har næsten ens værdi, dvs. at sandsynlighedsmassen er koncentreret på en lille del af intervallet [a,b]. I dette tilfælde kan det være vanskeligt at skelne detaljer i billedet. Før transformationen normaliseres alle værdier til intervallet [0,1] ved division med den maksimale intensitet. Det kan let vises at hvis φ() vælges som fordelingsfunktionen for, dvs. φ() = 0 f(w)dw da vil g (i det kontinuerte tilfælde) være konstant lig 1 på intervallet [0,1]. Efter transformationen multipliceres de transformerede værdier med den maksimale intensitet, og resultatet trunkeres til nærmeste mulige intensitetsværdi (ofte heltallig). Effekten af transformationen er at alle intensiteter udnyttes ligeligt (i det kontinuerte tilfælde). Dette vil ofte bringe detaljer, der før var uskelnelige, klart frem. Bemærk at der i det diskrete tilfælde vil gælde at antallet af forskellige intensiteter efter transformationen højst vil være lig antallet af forskellige intensiteter før transformationen. 1.3 Middelværdi og varians Den statisktisk forventede værdi, også kaldt middelværdien, af en reel stokastisk variabel med tæthedsfunktion f, er bestemt ved: E() = µ = t f(t)dt (1.2) Hvis integralet ikke er konvergent tillægges ingen middelværdi. Generelt gælder om en funktion g : R R at: E(g()) = g(t)f(t)dt (1.3) R 12 R

13 Betragtes transformationen z = z(, y) = a + by, hvor, y, og z er stokastiske variable og a og b er reelle tal, da er E(z) = ae() + be(y). Middelværdioperatorer er således lineær. Variansen af en stokastisk variabel med middelværdi µ betegnes σ 2 = σ 2 () = V ar() og er defineret ved: σ 2 = E( µ 2 ) (1.4) Hvis den stokastiske variabel µ 2 ingen middelværdi har, sættes σ 2 :=. Den ikke negative kvadratrod af variansen kaldes spredningen eller standard afvigelsen og betegnes σ = σ(). Om variansen gælder der at: 1 σ 2 () 0 2 σ 2 () = E( 2 ) [E()] 2 3 σ 2 (a) = a 2 σ 2 () for a R 4 σ 2 ( + a) = σ 2 () for a R Kravet til beregning af middelværdi og varians/spredning for en stokastisk variabel er altså, at tæthedsfunktionen for er kendt. Hvis dette ikke er tilfældet er det muligt at estimere middelværdien og variansen på basis af et antal stikprøver (samples) af. Det antages at stikprøverne er uafhængige. Estimaterne vil være usikre hvis antallet af stikprøver er lille og vil blive mere nøjagtige jo flere stikprøver, der er til rådighed. Basis for estimationen er at erstatte den statistisk forventede værdi med et gennemsnit. For n stikprøver fås: hvor i er den i te stikprøve af. ˆµ = 1 n i n i=1 (1.5) ˆσ 2 = 1 n 2 i [ 1 n i ] 2 n i=1 n i=1 (1.6) Da estimatet ˆµ er en summation af stokastiske variable, er det selv en stokastisk variabel, og har, som sådan, en middelværdi og en varians. Middelværdien af ˆµ er: E(ˆµ) = E ( 1 n ) n i i=1 = 1 n E( i ) = 1 n i=1 n n µ = µ (1.7) i=1 Den forventede værdi af estimatet er altså lig middelværdien selv. Et estimat, der har denne egenskab, kaldes et unbiased estimat. For variansen af ˆµ fås: V ar(ˆµ) = E([ˆµ µ] 2 ) = E([ 1 n i µ] 2 ) n i=1 = 1 n 2 E([( 1 µ) + ( 2 µ) + + ( n µ)][( 1 µ) + ( 2 µ) + + ( n µ)]) 13

14 = 1 n E( n ( 2 i µ) 2 ) + i=1 = 1 n E( n ( 2 i µ) 2 ) = 1 n σ2 i=1 n n E(( i µ)( j µ)) i=1 j=1,j i (1.8) hvor vi har udnyttet at de enkelte stikprøver er uafhængige, hvorved E([ i µ][ j µ]) = E( i µ)e( j µ) = 0 for i j. Variansen af estimatet er altså 1/n gange variansen af. Heraf ses at usikkerheden (målt ved variansen) af ˆµ går mod 0 når n. En estimator, der har denne egenskab kaldes en konsistent estimator. For variansen er en vurdering af usikkerheden på estimationen lidt mere kompliceret. Problemet er, at forkundskab til middelværdien er nødvendig for beregning af variansen, jvf. definitionen (1.4). For en mængde af n stikprøver, hvorom vi intet ved, siges antallet af frihedsgrader at være lig n. Hver gang vi bestemmer en parameter i tæthedsfunktionen øges vores viden. Tilsvarende mindskes friheden blandt de observerede data. Antallet af frihedsgrader reduceres med én. Efter bestemmelsen af middelværdien er antallet af frihedsgrader derfor n 1. Det kan vises at estimationen (1.6) er biased, hvorimod estimationen: ˆσ 2 = 1 n 1 n [ i µ] 2 (1.9) i=1 er unbiased. Det ses her, at der divideres med antallet af frihedsgrader, og ikke med antallet af stikprøver. I praktisk anvendelse bør n være så stor, at forskellen mellem de to estimater er forsvindende. I mange situationer er der grund til at tro, at stiprøverne stammer fra en kendt fordeling. I dette tilfælde er opgaven derfor at estimere parametrene i fordelingen. Er der eksempelvis grund til at tro, at fordelingen er normal, da er denne fuldstændigt specificeret ved middelværdien og variansen. Spørgsmålet, om den empiriske fordeling (repræsenteret ved stikprøverne) faktisk stemmer overens med den estimerede fordeling diskuteres i et følgende afsnit. Hvis der ikke er grund til at tro, at stikprøverne stammer fra en bestemt fordeling er problemet at karakterisere den empiriske fordeling. Middelværdien og variansen er her to meget beskrivende størrelser. Mange andre karakteriseringer kan imidlertid være nyttige. Det p te centrale moment m p er defineret ved: m p = E([ µ] p ) (1.10) Det første centrale moment er lig 0, det andet centrale moment er lig variansen. To ofte benyttede karakteriseringer, skævhed og kurtiosis af en fordeling er defineret ud fra de 14

15 centrale momenter af 3. og 4. orden: Skew( 1,..., n ) = 1 n [ ] i µ 3 m 3 () = (1.11) n i=1 σ m 2 () 3/2 { 1 n [ ] } i µ 4 Kurt( 1,..., n ) = 3 = m 4() n i=1 σ m 2 () 3 (1.12) 2 I modsætning til middelværdien og spredningen (der har samme enhed som observationerne selv) er skævheden og kurtiositeten dimmensionsløse. Skævheden karakteriserer graden af asymmetri af tæthedsfunktionen (omkring middelværdien). Kurtiosis målet karakteriserer hvor flad contra spids tæthedsfunktionen er. årsagen til subtraktion af konstanten 3 i målet for kurtiositet er, at målet hermed vil give værdien 0 for en normalfordeling. Hvis målet er negativt vil fordelingen være fladere end en normalfordeling, hvis målet er positivt vil den empiriske fordeling være spidsere end en normalfordeling. Det skal bemærkes at momenter af orden højere end 2 (pga. potensopløftningerne) er meget følsomme over for variationer i halerne af en empirisk fordeling. Skaeve fordelinger Positiv kursiositet Negativ kurtiositet Middelværdi samt mål baseret på de centrale momenter er ikke de eneste interessante karakteriseringer af en fordeling. F.eks. er positionen af maksimum (toppunktet) for den empiriske tæthedsfunktion (eng. mode) ofte nyttig. Medianværdien angiver den midterste værdi i en sorteret følge af målinger. I det kontinuerte tilfælde gælder at medianen = F 1 (0.5). Den øvre hhv. nedre α-kvartil angiver værdien hvor α % af stikprøverne er mindre hhv. større end kvartilen. Om empiriske fordelinger gælder generelt, at de sjældent er så pæne som man kunne ønske. Dette gælder især hvis den proces, der har genereret de observerede data skifter mellem flere, iøvrigt nogenlunde stabile, tilstande. I dette tilfælde vil den empiriske tæthedsfunktion ofte have flere markant forskellige toppe. En fordeling kaldes unimodal hhv. bimodal 15

16 hhv. multimodal hvis den har én hhv. to hhv. mange sådanne toppe. Hvis en fordeling er bimodal, vil en estimation af middelværdi og varians af hele fordelingen ikke give mening. Inden estimation af disse parametre er det derfor tilrådeligt at checke fordelingens modalitet. Hvis man ønsker at teste om en empirisk fordeling passer godt med en teoretisk fordeling, kan goodness-of-fit-test metoden, der beskrives i et følgende afsnit af noterne, anvendes. Der findes en lang række algoritmer til analyse af modaliteten af en empirisk fordeling, såvel som metoder til seperation af fordelingen i plausible komponenter. Disse metoder er ofte baseret på ad hoc kriterier. Det vil føre for vidt her et beskrive sådanne metoder. 1.4 Robuste estimater Som beskrevet i større detalje senere i noterne er de sædvanlige estimater af såvel middelværdien som variansen meget følsomme over for eksistensen af stikprøver, der ligger i en af halerne af fordelingen. Blot én stikprøve er tilstrækkeligt afvigende kan et vilkårligt estimat fremkomme. Estimater, der har denne (lidt uheldige) egenskab er ikke robuste. Det er muligt at definere estimatorer, der kan vises at være mere robuste. Betragt en mængde af n tal. Det sædvanlige estimat af den forventede værdi er lig gennemsnittet af tallene. Denne metode siges at have et nedbrudspunkt på 1/n fordi et vilkårligt resultat kan frembriges blot ét blandt de n tal er tilstrækkeligt afvigende. Nedbrudspunktet for en estimator beskrives i større detalje senere i noterne. Et mere robust estimat af den forventede værdi er medianværdien, dvs. den midterste af de sorterede n værdier. Denne estimator har et nedbrudspunkt på 0.5, fordi en erstatning af under halvdelen af værdierne med vilkårlige andre værdier ikke kan flytte medianværdien vilkårligt. En anden robust estimator af middelværdien fremkommer ved at sortere de n tal, og beregne middelværdien af de n(1 2α) midterste værdier. Lad m = nα. Estimatoren er da: T α = 1 n 2m n m i=m+1 r i (1.13) Metoden, der kaldes den α-trimmede middelværdi, kan vises at have et nedbrudspunkt på α. For α = 0 fås det sædvanlige gennemsnit, for α = 1/2 fås medianværdien. En ulempe ved anvendelsen af robuste metoder er, at disse ikke er nøjagtige, eller konsistente (dette er hvad man betaler for robustheden). Hvis de n tal eksempelvis alle er heltallige vil medianværdien også være heltallig, selv om den statistisk forventede værdi er et reelt tal. Hvis fordelingen af de n tal er meget skæv (asymmetrisk) kan både medianværdien, den sædvanlige middelværdi, og den α-trimmede middelværdi ligge langt fra middelværdien, selv om ingen af de n tal er outliers. Outliers diskuteres i detaljer senere i noterne. 16

17 Et robust (men ikke nødvendigvis nøjagtigt) estimat af spredningen er mean absolute deviation eller MeanAD-estimatet : MeanAD = π/2 1 n n i µ (1.14) i=1 Et andet robust mål af spredningen, kaldt MedianAD-estimatet (median absolute deviation) er: MedianAD = med i { i med j j } (1.15) Begrundelserne for konstanterne π/2 og , er at estimatorerne uden disse konstanter ville give et systematiske forkert resultat hvis de n stokastiske variable var normalfordelte. Faktoren = 1/Θ 1 (0.75) kompenserer således for anvendelsen af medianfilteret i normalfordelt støj. Θ() er lig fordelingsfunktion for en normalfordelingen. Da det sædvanlige skævhedsmål også behandler alle målinger ens, er dette ikke robust. Et (måske mere intuitivt) robust mål for skævheden af en fordeling er givet ved den relative afstand mellem medianværdien og 25%-kvartilen hhv. 75% kvartilen: SKEW kvartil = 75%kvartil median median 25%kvartil 1 (1.16) Eksempel Antag at vi har foretaget 49 målinger af en heltallig (ikke negativ) stokastisk variabel. Antallet af observationer er for hver værdi givet i nedenstående skema: værdi antal Ved beregning af de ovenfor beskrevne mål fås: mål Middel median 0.2-trimmet 25% kvartil 75% kvartil maksimum værdi mål σ MeanAD MedianAD Skew SKEW kvartil Kurt værdi Som det ses er fordelingen skæv således at hoveddelen af sandsynlighedsmassen ligger til venstre for middelværdien. Fordelingen er spidsere end normalfordelingen. På grund af den lange hale af fordelingen er spredningen større end de to mere robuste mål MeanAD of MedianAD. Læseren opfordres til at efterregne de angivne mål. Eksempel slut 17

18 1.5 Test af hypoteser I dette afsnit skal vi se en metode til statistisk test af hvorvidt to fordelinger har samme middelværdi eller samme varians. I appendi C er yderligere beskrevet hvorledes man tester om to stokastiske variable har samme fordeling. Test af ens middelværdi kan f.eks. udnyttes til afgørelse af om to sæt af observationer kan skelnes eller ej. I de beskrevne metoder benyttes opslag i forskellige fordelingsfunktioner, der ikke er beskrevet i disse noter. Disse kan som regel findes i tabelsamlinger, og er også bestrevet i [10]. Metoden bag statistiske tests er at beregne en såkaldt teststørrelse hvis teoretiske fordeling er kendt for en given antagelse. Denne antagelse, hypotesen, betegnes ofte H 0, og kan f.eks. være at middelværdierne for to stokastiske variable er ens. Da antallet af stikprøver er særdeles betydende for sikkerheden på teststørelsen indgår den (de) tilsvarende antal frihedsgrader ofte i beregning af fordelingen. Det er sjældent muligt at acceptere eller at forkaste nogen hypotese H 0 endegyldigt. Derimod kan vi, givet H 0 og givet et konfidensniveau p bestemme hvorvidt H 0 kan afvises eller ej (på dette konfidensniveau). Til illustration (og kun til dette formål) kan man alternativ finde konfidensniveauet p ud fra den beregnede teststørrelse t ved opslag i en tabelsamling. Givet at H 0 er sand, vil sandsynligheden for at se en testværdi større end t være lig 1 p. Andeledes sagt vil sandsynligheden for fejlagtigt at afvise den korrekte hypotese H 0 være lig 1 p. I praksis fastlægges konfidensniveauet p, dvs. sandsynligheden for fejlagtigt at afvise den korrekte hypotese H 0, før målingen af testværdien. Ved tabelopslag findes den til p svarende grænseværdi v for det aktuelle antal af frihedsgrader. Først nu beregnes teststørrelsen t. Hvis t > v kan vi afvise hypotesen H 0 på konfidensniveauet p. Hvis t v kan hypotesen ikke afvises. p = 95% t v Figur 1.2: Teoretisk fordeling af teststørrelsen under hypotesen H 0 ved f frihedsgrader. Svarende til 95% -konfidensniveauet er grænseværdien v angivet. Det er klart, at jo større et konfidensniveau man vælger, jo sværere bliver det at afvise 18

19 hypotesen. Hvis man omvendt vælger p lille vil det blive lettere at afvise H 0. I dette tilfælde er muligheden for fejlagtigt at afvise hypotesen derfor større Test af middelværdi Lad og y være to stokastiske variable, hvis fordelinger er implicit målt ved stikprøvetagning, således at der er n stikprøver af og n y stikprøver af y til rådighed. Lad ˆm hhv. ˆm y være de estimerede middelværdier af og y. Den numeriske forskel ˆm ˆm y er ikke noget godt mål for forskellen i middelværdi, fordi denne er afhængig af spredningerne af de to fordelinger. Desuden er en given forskel mellem middelværdierne mere troværdig jo flere stikprøver disse er bestemt ved. Lad σ D være givet ved: σ 2 D n = i=0( i ˆm ) 2 + n y i=0(y i ˆm y ) 2 n + n y 2 ( 1 n + 1 n y ) (1.17) Et bedre mål t for hvorvidt to middelværdier virkelig er forskellige fås ved normaliseringen: t = ˆm ˆm y σ D (1.18) Det kan vises at hvis varianserne for og y ikke er for forskellige, da vil t være fordelt som Students t-fordeling med n + n y 2 frihedsgrader. Students t-fordeling angiver (for det valgte konfidensniveau) grænsen for accept af hypotesen om ens middelværdier. Hvis den målte teststørrelse t er større denne grænse, da kan hypotesen om ens middelværdier afvises (på det givne konfidensniveau) Test af varians Lad som i forrige afsnit og y være stokastiske variable, og lad de estimerede varianser være V ar() hhv. V ar(y). Et mål for hvorvidt fordelingerne for og y har samme varians er: f = V ar() (1.19) V ar(y) Hvis f afviger meget fra 1, da indikerer dette at de to varianser faktisk er forskellige. I praksis antages at V ar() V ar(y), således at f 1 (ellers ombyttes de to variable). Det kan vises at f er F-fordelt med frihedsgraderne n 1 og n y 1. Hvis den målte teststørrelse f er større end forudsagt af F-fordelingen (på det givne konfidensniveau), da kan antagelsen om ens varianser forkastes (på det givne signifikansniveau) Andre statistiske tests I appendi C er der gennemgået en tredie vigtig test, nemlig om to empirisk målte fordelinger (eller en empirisk målt og en teoretisk bestemt) er ens. Her bruges den såkaldte 19

20 χ 2 -test. Også i denne test indgår antallet af observationer. Hvis der er få, skal der meget til at afvise hypotesen H 0, at de to fordelinger er ens. Hvis der er mange målinger er fordelingerne bedre bestemt, og det bliver lettere at afvise H Lineær korrelation Lineær korrelation er en metode til sammenligning af to ordnede følger af stokastiske variable. Disse kan eksempelvis være to kvantificerede fordelingsfunktioner, eller et sæt af punktpar ([i], y[i]), i = 1, 2,..., n, hvor [i] hhv. y[i] er indicerede koordinater. Teststørrelsen kaldes korrelationskoefficienten, og er defineret ved: r = i([i] ˆµ )(y[i] ˆµ y ) (n 1) ˆσ ˆσ y (1.20) hvor ˆµ hhv. ˆµ y er de estimerede middelværdier af hhv. y, og ˆσ hhv. ˆσ y er de estimerede spredninger af hhv. y. Hvis punkterne ([i], y[i]) ligger på en perfekt ret linie med positiv hældning er r = 1. Hvis hældningen er negativ er r = 1. Hvis punkterne ikke ligger perfekt på en ret linie vil r < 1. Hvis r 0 indikerer dette at de to variable og y er ukorrelerede. Under visse betingelser (normalitet af fordelingerne af og y mv.) er det muligt at teste en observeret værdi af r mod en fordeling. Det vil føre for vidt her at diskurere dette emne (se evt. [10]). 1.7 Vektorfunktioner, kovarians I næsten enhver form for statistisk mønstergenkendelse benyttes vektorer af stokastiske variable. Som beskrevet senere knyttes der ofte en featurevektor til hver observation. Vektoren indeholder komponenter, der hver modelleres ved en stokastisk variabel, og som forventes at beskrive et relevant aspekt af observationen. I det nedenstående skal vi kort beskrive de basale termer og definitioner i forbindelse med håndtering af stokastiske vektorer. Senere i noterne skal vi se talrige eksempler på anvendelser. En stokastisk vektor af dimension n er en vektor med n stokastiske variable. Middelværdien af en stokastisk vektor er en vektor hvor hver komponent er middelværdien af den tilsvarende stokastiske variable. Kovariansen mellem to stokastiske variable og y er givet ved: Cov(, y) = E([ E()][y E(y)]) (1.21) Varians-kovariansmatricen (ofte blot kaldt kovariansmatricen) for den stokastiske vektor er givet ved: C = E([ m ][ m ] t ) (1.22) 20

21 1 m 1 2 m 2 = E. [( 1 m ), ( 2 m 2 ),..., ( n m )] n m n E([ 1 m 1 ][ 1 m 1 ]) E([ 1 m 1 ][ 2 m 2 ]) E([ 1 m 1 ][ n m n ]) E([ 2 m 2 ][ 1 m 1 ]) E([ 2 m 2 ][ 2 m 2 ]) E([ 2 m 2 ][ n m n ]) =..... E([ n m n ][ 1 m 1 ]) E([ n m n ][ 2 m 2 ]) E([ n m n ][ n m n ]) V AR( 1 ) COV ( 1, 2 ) COV ( 1, n ) COV ( 2, 1 ) V AR( 2 ) COV ( 2, n ) =..... COV ( n, 1 ) COV ( n, 2 ) V AR( n ) (1.23) hvor m i er middelværdien af den i te komponent af vektoren. Bemærk at diagonalelementerne af kovariansmatricen er lig varianserne af de enkelte stokastiske variable. De øvrige elementer kaldes kovarianser. Kovariansmatricen har dimmension n n, og ses at være symmetrisk. Vi skal udelukkende betragte reelle stokastiske vektorvariable, og kan derfor udnytte de mange egenskaber som gælder for reelle symmetriske matricer, eksempelvis at matricen er diagonaliserbar (ved en ortonormal matrice), og at egenværdierne er reelle. Kovariansmatricen kan også skrives: hvor C = E( t ) E()m t S = E( t ) = Matricen S kaldes autokorrelationsmatricen. m E( t ) + m m t E( 1 1 ) E( 1 n ).. E( 1 n ) E( n n ) = S m m t (1.24) (1.25) I visse tilfælde dekomponeres C = ΛRΛ, hvor: σ σ Λ = σ n og 1 ρ 12 ρ 1n ρ R = 1n ρ 1n 1 (1.26) (1.27) 21

22 hvor ρ ij 1, og hvor ρ ij = ρ ji. Elementerne c ij af kovariansmatricen C kan således skrives: { σ 2 c ij = i hvis i = j (1.28) ρ ij σ i σ j hvis i j Størrelsen σ i kaldes spredningen (eller standard afvigelsen) af i, og ρ ij kaldes korrelationskoefficienten mellem de stokastiske variable i og j. Matricen R kaldes korrelationsmatricen, og generaliserer den sædvanlige korrelationskoefficient fra ligning (1.20). Matricen R indeholder den essentielle information om hvorledes de stokastiske variable er indbyrdes relateret. Ved analyse af et sæt vektordata er konstruktion af kovariansmatricen ofte noget af det første der foretages. Som vi skal se senere giver en analyse af denne matrice information om graden af lineær relation mellem komponenterne i vektoren (hvis ρ ij er stor for i j). Eksempelvis vil det være muligt at undersøge om dimensionaliteten af vektoren kan reduceres uden væsenligt informationstab (ved bortkastning af en eller flere af vektorkomponenterne). Iøvrigt beskriver matricen hvor stor variation hver af komponenterne udviser. Hvis σ i er lille, da beskriver den i te komponent et fællestræk for observationerne. Hvis σ i er stor, er det måske muligt at differentiere mellem observationerne på basis af denne information. Kovariansen kan estimeres direkte ud fra (1.24) ved erstatning af den forventede værdi med et gennemsnit over observationerne. Dette estimat kan (som for variansestimatet) vises at være biased. Et unbiased estimat er: Ĉ = 1 n 1 n ( ˆm)( ˆm) t (1.29) i=1 Eksempel Lad (r, g, b) være mængden af rødt, grønt og blåt lys, som et kamera har registreret i et billede af dimension 4 4. De 16 registrerede værdier var: i r g b Middelværdivektoren bliver (3.0000, , ). Kovariansmatricen kan udregnes til: Ĉ = = (1.30)

23 Det ses at varianserne er af samme størrelsorden, den røde lidt mindre end de to andre. Korrelationskoefficienten mellem de røde og grønne farver er forhodsvis stor, hvorimod korrelationenskoefficienterne mellem den blå og den grønne hhv. den røde farve er forholdsvis lille. Eksempel slut Stokastiske vektorfunktioner er naturligvis, som enkelte stokastiske variable, beskrevet ved en sandsynlighedsfordeling. Hvis de enkelte variable i vektoren er uafhængige fremkommer denne, som sædvanligt, ved multiplikation af fordelingerne for de enkelte variable. Denne situation er imidlertid atypisk. Vi skal her kun beskrive én, meget benyttet, multivariat fordeling, nemlig normalfordelingen. Lad være en stokastiske vektor af dimension n, lad middelværdien af være m, og lad kovariansmatricen være givet ved C. Da er normalfordelingen givet ved: p() = = 1 (2π) n/2 C 1/2 ep[ 1 2 ( m)c 1 ( m) t ] (1.31) 1 (2π) n/2 C 1/2 ep[ 1 2 d2 ()] (1.32) Relationen til den endimensionale normalfordeling ses let i det tilfælde hvor alle kovarianser er lig 0 (dvs. at C er en diagonalmatrice). I dette tilfælde reducerer (1.31) til: p() = 1 (2π) n/2 σ 1 σ 2 σ n ep [ 1 2 n ( m) 2 ] i=1 σ 2 i (1.33) Størrelsen d 2 () i udtrykket for den flerdimensionale normalfordeling angiver et normeret udtryk for afstanden mellem observationen og middelværdien m, her betragtet som punkter i en n-dimensionalt rum. Udtrykket kaldes også for Mahalanobis afstanden. Vi skal senere i noterne udnytte den flerdimensionale normalfordeling, og Mahalanobis afstanden, intensivt. Som for to fordelinger, hver af en enkelt stokastisk variabel, findes der metoder til sammenligning af flerdimensionale fordelinger. To populære afstandsmål er Bhattacharyya afstanden B og divergensen D. Lad to normalfordelinger f 1 og f 2 være karakteriseret at deres middelværdier m 1 og m 2, samt deres kovariansmatricer C 1 og C 2. Da er: B(f 1, f 2 ) = 1 ( ) 1 8 (m 2 m 1 ) t C1 + C 2 (m 2 m 1 ) ln 2 C 1 + C 2 C 1 + C 2 (1.34) og D(f 1, f 2 ) = T r [ (C 1 C 2 )(C 1 2 C 1 1 )] T r [ (C C 1 1 )(m 1 m 2 )(m 1 m 2 ) t] 23 (1.35)

24 Det kan bemærkes at hvis C 1 = C 2, så er d 2 = D. I dette tilfælde er disse to afstande altså ækvivalente. Vi skal ikke her diskutere disse mål yderligere. Den interesserede læser henvises til [6], der mere fyldigt analyserer de nævnte mål. Man har ofte behov for at transformere en stokastisk vektor til en ny stokastisk vektor y. Givet fordelingen f af er det derfor interessant at kunne beregne fordelingen f y af y. Lad dimensionen af være n. Eksempler på transformationer er da: n i=1 i, n i=1 2 i, ma i{ i }, etc. Teknisk er det en nøvendighed at antage, at dimensionen af y er lig dimensionen af. Lad derfor: y 1 = φ 1 ( 1, 2,..., n ) (1.36) y 2 = φ 2 ( 1, 2,..., n ). y n = φ n ( 1, 2,..., n ) Vi kan skrive ovenstående som y = φ(). Hvis φ er bijektiv, med den omvendte afbilding givet ved = ψ(y), da er f y bestemt ved: () f y (y) = f (ψ(y)) (y). (1.37) for alle y i værdimængden for φ. Bemærk at der tages numerisk værdi af den anden faktor i (1.37). Størrelsen () (y) = det { } i y j i,j=1,..,n = 1 1 y 1 y 2 1 y n 2 2 y 1 y 2 2 y n. n y 1. n y 2 kaldes Jacobis funktionaldeterminant eller blot Jacobi-determinanten.. n y n (1.38) Eksempel Lad 1, og 2 være to stokastiske uafhængige normalfordelte variable begge med middelværdi 0 og spredning 1. Vi ønsker nu at bestemme fordelingen af y 1 = 1 / 2, og tilføjer derfor hjælpevariablen y 2 = 2. Den omvendte afbildning er bestemt ved: 1 = y 1 y 2 2 = y 2 Jacobi-determinenten bliver: () (y) = y 2 y = y 2 24

25 Da 1 og 2 er uafhængige fås fordelingsfunktionen for til: Ved indsættelse af de udledte størrelser fås: f() = 1 2π ep( 1 2 [ ]) g(y) = 1 2π ep( 1 2 [(y 1y 2 ) 2 + y 2 2 ]) y 2 Da domænet for alle de involverede stokastiske variable er hele den reelle akse får vi fordelingen af y 1 ved at integrere afhængigheden af y 2 ud, dvs: g(y 1 ) = 2 = 1 π 0 1 2π y 2 ep( 1 2 [(y 1y 2 ) 2 + y2 2 ])dy y 2 1 Eksempel slut 1.8 Opgaver 1. Vis at konstanten i ligning (1.15) fremkommer som beskrevet i teksten. Brug at: Θ() = 1 e t2 /2 dt 2π Vink: Find medianen af v, hvor v er en stokastisk normalfordelt variabel med middelværdi Betragt følgende 15 tal: 4, 3, 7, 1, 2, 3, 6, 5, 5, 4, 2, 9, 1, 3, 2 Beregn estimater af den forventede værdi ved brug af den sædvanlige definition af middelværdi ved brug af medianmetoden, og ved brug af den 0.2-trimmede middelværdi. Beregn estimater af spredningen ved den sædvanlige definition samt ved MeanAD-metoden. Erstat nu tallet 6 med outlieren 12, og gentag udregningen. Erstat yderligere tallet 3 med outlieren 0, og gentag udregningen. 3. Betragt nedenstående sekvens af målinger:

26 Beregn middelværdien og spredningen af målingerne. 4. Betragt nedenstående sekvens af målinger: Beregn middelværdien og spredningen af målingerne. 5. Test hvorvidt målingerne vist i opgave 3 og opgave 4 har samme a) middelværdi, b) varians. 6. Betragt nedenstående sekvens af målinger: Afgør om ovenstående målinger samt målingerne vist i opgave 3 har a) samme middelværdi, b) samme varians, 7. Betragt nedenstående to indicerede datasæt og y. i y Bestem den sædvanlige korrelationskoefficient mellem sættet bestående af -værdierne og sættet af y-værdier, samt Spearmans rank-order korrelationskoefficient. Er der grund til at tro at de to datasæt er korrelerede. 8. Lad og y være to uafhængige normalfordelte stokastiske variable med middelværdi 0 og med ens spredning σ. Hvad er fordelingen af 2 + y Lad og y være to uafhængige normalfordelte stokastiske variable med middelværdi 0 og med ens spredning σ. Hvad er fordelingen af + y, og y. 10. Lad være en eksponentialfordelt stokastisk variabel med parameter 0.5 defineret på intervallet [0:100]. Bestem den transformation φ, der transformerer til en ligefordelt stokastisk variabel y. 26

27 11. Betragt målingerne fra opgave 6, og antag at disse kan modelleres som stikprøver af en heltallig stokastisk variabel, med værdiområde [0:20]. Bestem den transformation φ, der transformerer til en ligefordelt heltallig stokastisk variabel y. Foretag transformationen på målingerne. 27

28 Kapitel 2 Selektion af features Det er et grundlæggende problem i dataanalyse at de målinger som et givet apparat leverer ikke nødvendigvis er de mest hensigtsmæssige, i rå form, til karakterisering af den proces, som det er hensigten at forstå eller modellere. Til eksempel består et multispektralt satellitbillede af et antal samtidigt optagne billeder. Hvert billede er dannet af en sensor, der er følsom inden for et område af det elektromagnetiske spektrum. Til ethvert billedelement svarer således en vektor = ( 1, 2,..., n ) af målinger, hvor n er antallet af sensorer. Da de spektrale bånd overlapper hinanden en del, og da visse materialer reflekterer lys over et bredt spektrum af frekvenser, er informationsindholdet i billederne meget redundant (elementerne i observationsvektoren er korrelerede). Anderledes sagt vil informationen af en observation være indeholdt i et underrum af R n. Før videre analyse foretages kan det derfor være hensigtsmæssigt at reducere dimensionaliteten af observationerne, således at det meste af informationen bevares (og således at en stor del af støjen elimineres). I visse situatuationer beskriver de aktuelle observationer langt mere end det er formålet med analysen at beskrive/modellere. I disse tilfælde er det ofte hensigtsmæssigt indledende at ekstrahere den brugbare information. Dette kan gøres ved, til at der til hver observation (eller grupper af observationer) knyttes en feature-vektor, således at hver feature beskriver en relevant egenskab eller karakteristika. I visse tilfælde er det forholdsvist let at udvælge de relevante features, i andre tilfælde kan dette være et hovedproblem. Det kan være særdeles vanskeligt af definere features, der udelukkende beskrive relevante aspekter af de observerede data, og ignorerer den irrelevante information. En prototype på et system til genkendelse og klassifikation består af 4 faser. I første fase registreres og grupperes måledata i k vektorer. I eksemplet med de multispektrale billeder består denne fase i, for hver billedelement, at konstruere observationsvektoren. I anden fase ekstraheres features ved til hver af de k vektorer R n, at bestemme en featurevektor y R p, hvor p er antallet af features. I tredie fase foretages en klyngeanalyse på alle (eller en delmængde af) featurevektorene. I klyngeanalysen identificeres et sæt af m prototyper (eller klasser). Hver klasse antages at beskrive et objekt. Hver klasse tilknyttes en 28

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Ekstrakt af gamle noter i MønsterGenkendelse. S. I. Olsen

Ekstrakt af gamle noter i MønsterGenkendelse. S. I. Olsen Ekstrakt af gamle noter i MønsterGenkendelse S. I. Olsen Dette ekstrakt er tænkt til hjælp for studerende på kurset Introduktion til billedbehandling 2005. Ekstraktet er foretaget med henblik på at understøtte

Læs mere

Middelværdi og varians. Kovarians. korrelation = 0.02 korrelation = 0.7 korrelation = 1.0

Middelværdi og varians. Kovarians. korrelation = 0.02 korrelation = 0.7 korrelation = 1.0 Middelværdi og varians Middelværdien af en diskret skalarfunktion f(x), for x = 0, N er: µ = N f(x) N x=0 For vektorfuktioner er middelværdivektoren tilsvarende: µ = N f(x) N x=0 Middelværdien er en af

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala 3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2) Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2) Klaus Hansen 23 september 24 Indhold Elementære empiriske mål 2 Lidt sandsynlighedsregning 3 3 Fordelinger 3 3 Grundlæggende

Læs mere

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata 1 Intoduktion Før man springer ud i en øvelse om paneldata og panelmodeller, kan det selvfølgelig være rart at have en fornemmelse af, hvorfor de er så vigtige i moderne mikro-økonometri, og hvorfor de

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/41 Landmålingens fejlteori - lidt om kurset

Læs mere

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable IMM, 00--6 Poul Thyregod Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable Todimensionale stokastiske variable Lærebogens afsnit 4 introducerede sandsynlighedsmodeller formuleret

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Afsnit 6.1. Ligefordelinger, fra sidst Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler

Læs mere

MM501 forelæsningsslides

MM501 forelæsningsslides MM501 forelæsningsslides uge 40, 2010 Produceret af Hans J. Munkholm bearbejdet af JC 1 Separabel 1. ordens differentialligning En generel 1. ordens differentialligning har formen s.445-8 dx Eksempler

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2) Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2) Klaus Hansen 4. november 23 Indhold 1 Elementære empiriske mål 1 2 Lidt sandsynlighedsregning 3 3 Fordelinger 3 3.1 Grundlæggende

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med Repetition: Varians af linear kombination Landmålingens fejlteori Lektion 5 Fejlforplantning - rw@math.aau.dk Antag X 1, X,..., X n er uafhængige stokastiske variable, og Y er en linearkombination af X

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R Helle Sørensen Uge 6, mandag SaSt2 (Uge 6, mandag) Tætheder og kont. fordelinger 1 / 19 Program Velkommen I dag:

Læs mere

Teoretisk Statistik, 16. februar Generel teori,repetition

Teoretisk Statistik, 16. februar Generel teori,repetition 1 Uge 8 Teoretisk Statistik, 16. februar 2004 1. Generel teori, repetition 2. Diskret udfaldsrum punktssh. 3. Fordelingsfunktionen 4. Tæthed 5. Transformationer 6. Diskrete vs. Kontinuerte stokastiske

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3 Landmålingens fejlteori Repetition - Kontinuerte stokastiske variable Lektion 4 - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf10 Institut for Matematiske Fag Aalborg Universitet 29. april

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kontinuerte fordelinger Ventetider i en Poissonproces Beskrivelse af kontinuerte fordelinger: - Median og kvartiler - Middelværdi - Varians Simultane fordelinger 1 Ventetider i en Poissonproces

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte

Læs mere

Vektorer og lineær regression. Peter Harremoës Niels Brock

Vektorer og lineær regression. Peter Harremoës Niels Brock Vektorer og lineær regression Peter Harremoës Niels Brock April 2013 1 Planproduktet Vi har set, at man kan gange en vektor med et tal. Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden.

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Den todimensionale normalfordeling

Den todimensionale normalfordeling Den todimensionale normalfordeling Definition En todimensional stokastisk variabel X Y siges at være todimensional normalfordelt med parametrene µ µ og når den simultane tæthedsfunktion for X Y kan skrives

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Estimation og usikkerhed

Estimation og usikkerhed Estimation og usikkerhed = estimat af en eller anden ukendt størrelse, τ. ypiske ukendte størrelser Sandsynligheder eoretisk middelværdi eoretisk varians Parametre i statistiske modeller 1 Krav til gode

Læs mere

Vektorer og lineær regression

Vektorer og lineær regression Vektorer og lineær regression Peter Harremoës Niels Brock April 03 Planproduktet Vi har set, at man kan gange en vektor med et tal Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden

Læs mere

Sandsynlighedsregning Oversigt over begreber og fordelinger

Sandsynlighedsregning Oversigt over begreber og fordelinger Tue Tjur Marts 2007 Sandsynlighedsregning Oversigt over begreber og fordelinger Stat. MØK 2. år Kapitel : Sandsynlighedsfordelinger og stokastiske variable En sandsynlighedsfunktion på en mængde E (udfaldsrummet)

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Anvendt Lineær Algebra

Anvendt Lineær Algebra Anvendt Lineær Algebra Kursusgang 4 Anita Abildgaard Sillasen Institut for Matematiske Fag AAS (I17) Anvendt Lineær Algebra 1 / 32 Vægtet mindste kvadraters metode For et lineært ligningssystem (af m ligninger

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff. Kursus 02402 Introduktion til Statistik Forelæsning 10: Statistik ved hjælp af simulering Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Lidt om fordelinger, afledt af normalfordelingen

Lidt om fordelinger, afledt af normalfordelingen IMM, 2002-10-10 Poul Thyregod Lidt om fordelinger, afledt af normalfordelingen 1 Introduktion I forbindelse med inferens i normalfordelinger optræder forskellige fordelinger, der er afledt af normalfordelingen,

Læs mere

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

hvor a og b er konstanter. Ved middelværdidannelse fås videre

hvor a og b er konstanter. Ved middelværdidannelse fås videre Uge 3 Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge ) 3. Middelværdivektor, kovarians- og korrelationsmatrix 4. Summer af stokastiske variable 5.Den

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag I formiddag: Tætheder og fordelingsfunktioner kort resume fra i mandags og et par eksempler mere om sammenhængen

Læs mere

MM501/MM503 forelæsningsslides

MM501/MM503 forelæsningsslides MM501/MM503 forelæsningsslides uge 50, 2009 Produceret af Hans J. Munkholm 1 Separabel 1. ordens differentialligning En generel 1. ordens differentialligning har formen dx Eksempler = et udtryk, der indeholder

Læs mere