Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Relaterede dokumenter
Den todimensionale normalfordeling

Betingede sandsynligheder Aase D. Madsen

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Kvantitative Metoder 1 - Forår Dagens program

Elementær sandsynlighedsregning

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Kvantitative Metoder 1 - Forår Dagens program

Statistik og Sandsynlighedsregning 2

Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen

Elementær sandsynlighedsregning

Kvantitative Metoder 1 - Efterår Dagens program

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Kvantitative Metoder 1 - Efterår Dagens program

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Kvantitative Metoder 1 - Forår Dagens program

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Middelværdi og varians. Kovarians. korrelation = 0.02 korrelation = 0.7 korrelation = 1.0

Sandsynlighedsregning Oversigt over begreber og fordelinger

3 Stokastiske variable 3.1 Diskrete variable

Uge 10 Teoretisk Statistik 1. marts 2004

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Produkt og marked - matematiske og statistiske metoder

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

INSTITUT FOR MATEMATISKE FAG c

Landmålingens fejlteori - Lektion 5 - Fejlforplantning

Mat2SS Vejledende besvarelse uge 11

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Note om Monte Carlo metoden

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Kvantitative Metoder 1 - Forår Dagens program

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Kapitel 11 Lineær regression

Susanne Ditlevsen Institut for Matematiske Fag susanne

Repetition Stokastisk variabel

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 20. december 2017 Kursus nr : (navn) (underskrift) (bord nr)

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgaver i sandsynlighedsregning

StatDataN: Middelværdi og varians

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

standard normalfordelingen på R 2.

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Anvendt Lineær Algebra

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 19. december 2018 Kursus nr : (navn) (underskrift) (bord nr)

Lidt om fordelinger, afledt af normalfordelingen

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 27. maj 2019 Kursus nr : (navn) (underskrift) (bord nr)

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Simpel Lineær Regression

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Modul 6: Regression og kalibrering

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Module 1: Lineære modeller og lineær algebra

Forelæsning 11: Kapitel 11: Regressionsanalyse

Teoretisk Statistik, 16. februar Generel teori,repetition

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Statistiske modeller

4 Oversigt over kapitel 4

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

CIVILINGENIØREKSAMEN Side 1 af 16 sider. Skriftlig prøve, den: 28. maj 2010 Kursus nr : (navn) (underskrift) (bord nr)

Kvantitative Metoder 1 - Forår 2007

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 28. maj 2014 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr)

Normalfordelingen og Stikprøvefordelinger

Dansk Erhvervs gymnasieanalyse Sådan gør vi

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 29. maj 2015 Kursus nr : (navn) (underskrift) (bord nr)

Løsning til eksamen d.27 Maj 2010

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistik for ankomstprocesser

Dansk Erhvervs gymnasieeffekt - sådan gør vi

Center for Statistik. Multipel regression med laggede responser som forklarende variable

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

Reeksamen 2014/2015 Mål- og integralteori

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

CIVILINGENIØREKSAMEN Side?? af?? sider. Skriftlig prøve, den: 16. december 2004 Kursus nr : (navn) (underskrift) (bord nr)

Transkript:

Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af gennemgangen i Teoretisk Statistik for Økonomer. Det bygger desuden især på gennemgangen i Anders Halds klassiske bog Statistiske Metoder eller den engelske udgave, til hvilken der henvises for en mere udførlig behandling. I notatet anvendes uden videre beregnede talstørrelser i stedet for teoretiske parameterværdier. Figuren viser gennemsnittet af årskarakteren i skriftlig matematik sammenholdt med gennemsnitskarakteren ved den tilsvarende skriftlige eksamen. Data er fra 9-ende klasse sommeren 003 for ca. 1000 normale kommunale folkeskoler med flere end 5 elever ved 9-ende klasses afgangseksamen. Data kan hentes fra undervisningsministeriets hjemmeside, hvor mange tilsvarende datasæt om karakterer i skolerne let kan hentes. I det følgende betegnes årskaraktererne med x og eksamenskaraktererne med y. De marginale normalfordelinger En simpel beregning af gennemsnit og varians for de ca. 1000 observationer giver E[x] = 8.06,

E[y] = 7.84, = 0.3 = 0.57, var(y) = 0.5 =0.50 Tilsvarende beregnes covariansen til cov(x,y) = 0.0. Kovariansmatricen er derfor 0.3 0.0 Σ= 0.0 0.5 Korrelationskoefficienten bliver corr(x,y) = 0.71. Korrelationsmatricen er derfor 1 0.71 0.71 1 De to marginale fordelinger kan begge beskrives ved normalfordeling, hvad histogrammerne med indlagte normalfordelingstæthedsfunktioner også viser. Den endimensionale tæthedsfunktion for x er givet ved 1 (x E[x]) exp π og tilsvarende for y.

Tabellerne viser værdierne af den marginale tæthedsfunktion for årskaraktereren x lig 5, 6, 7 og 8 samt de tilsvarende værdier af den marginale tæthedsfunktion for eksamenskarakteren, y. x Tæthed y Tæthed 5 0.00653 5 0.01414 6 0.08450 6 0.14681 7 0.4011 7 0.56069 8 0.70397 8 0.78774 Den todimensionale normalfordeling Det er naturligt, at beskrive den todimensionale fordeling af de to karaktergennemsnit ved en todimensional normalfordeling. Denne todimensionale normalfordeling har middelværdivektor μ og varians-kovariansmatrix Σ. For disse parametre indsættes de tilsvarende empiriske ækvivalenter. Det giver tæthedsfunktionen 1 1 1 σ11 σ (x μ 1 1) 1 σ σ σ (y μ 1 σ ) π det σ f(x,y) = exp ((x μ ),(y μ )) 11 1 1 σ = 1 π var(y)(1 corr(x,y) ) 1 (x E[x]) (y E[y]) corr(x, y) exp + (x E[x])(y E[y]) (1 corr(x, y) ) var(y)(1 corr(x, y) ) var(y)(1 corr(x, y) ) Den todimensionale simultane normalfordelingstæthed for x, y = 5, 6, 7, 8 er angivet i tabellen. Bemærk at den simultane fordeling ikke er lig med produktet af de to marginale tæthedsfunktioners værdier, da de to karakterer jo er kraftigt korrelerede.. x y = 5 y = 6 y = 7 y = 8 5 1.16714E-8.000000345 0.00000 0.00000 6 6.75887E-8.000315074 0.00046 0.00000 7 7.1754E-10.00058161 0.107 0.00886 8 1.3965E-14.00000163 0.0593 0.67875

Den næste figur, der gør sig bedst i farver, viser et udglattet todimensionalt histogram for karaktererne, mens den følgende viser tæthedsfunktionen for den tilpassede todimensionale normalfordeling.

Niveaukurverne i den todimensionale tæthedsfunktion er de værdier af (x,y), der giver samme værdi af tæthedsfunktionen. Den næste figur, der også bedst ses i farver, viser disse niveaukurver i datamaterialet. I den todimensionale normalfordeling er niveaukurverne givet ved ligningerne 1 σ11 σ (x μ 1 1) 1 μ σ (y μ 1 σ ) ((x μ ),(y )) = c eller (x E[x]) (y E[y]) corr(x,y) + (x E[x])(y E[y]) = c (1 corr(x, y) ) var(y)(1 corr(x, y) ) var(y)(1 corr(x, y) ) Dette er matematisk set ligningen for en ellipse, da kovariansmatricen er positivt definit. Ellipsen afgrænser områder omkring ellipsens centrum, der er punktet (E[x],E[y]), med sandsynligheder, der

afhænger af ellipsens størrelse. På figuren er disse ellipser tegnet svarende til 50% og 95% sandsynlighed, idet også de observerede punkter er indtegnet. Det betyder på nær en vis usikkerhed, at 50% af punkterne ligger indenfor den mindste ellipse, der dog er svær at se, og 95% indenfor den yderste. På figuren er ellipsernes storakse tegnet. Teorien for ellipser (som ikke længere spiller en fremtrædende rolle i gymnasiets matematikundervisning) viser, at denne linie har hældningskoefficienten 1 var(y) ± 4 cov(x, y) + var(y) cov(x,y) β = ( ) idet de to mulige fortegn angiver hældningen for storaksen og lilleaksen alt efter hvilken af de to varianser, der er størst. Ellipsernes akser går gennem midtpunktet, der er middelværdien - punktet (E[x],E[y]). I datamaterialet beregnes de to hældningskoefficienter til β 1 = 0.84 og β = -1.19

De betingede fordelinger I den todimensionale normalfordeling, der beskriver den todimensionale simultane fordeling af de to karakterer, kan man beregne de betingede fordelinger Den betingede fordeling af eksamenskarakteren givet, at årskarakteren er lig med x, er normalfordelingen med middelværdi (1) E[y x] = E[y] + var(y) corr(x,y) (x E[x]) og varians () var(y x) = var(y)(1 corr(x,y) ) Tabellen angiver værdier af den betingede tæthedsfunktion for y, når der betinges med x = 5, 6, 7 og 8. x dens5 dens6 dens7 dens8 5 0.03354 1.11343 0.01161 0.00000 6 0.000064 0.3419 0.51349 0.0006 7 0.000000 0.00413 0.99450 0.07516 8 0.000000 0.00000 0.08431 0.96831 Den generelle formel, der binder betinget og ubetinget middelværdi sammen

E[y] = E[E[y x]] eftervises i det konkrete tilfælde, da sidste led i (1) har middelværdi nul. Det ses umiddelbart af (), at den betingede varians er mindre end den ubetingede varians af y, der jo er konstant lig med var(y). Jo større den numeriske værdi af korrelationskoefficienten er, jo mindre er den betingede varians i forhold til n ubetingede. Den generelle formel, der binder betinget og ubetinget varians sammen var(y) = E[var[y x)] + var(e[y x]) eftervises i det konkrete tilfælde ved at var(y) var(e[y x]) = corr(x, y) var(x E[x]) = corr(x, y) var(y) Som en kontrol af den fundamentale regneregel, at simultan tæthed er lig med betinget tæthed gange marginal tæthed kan tæthedsfunktionerne ganges sammen. Fx er den simultane tæthedsfunktion for x = 8 og y = 7 givet ved den marginale tæthedsfunktion af x for x = 8 ganget med den betingede tæthedsfunktion givet x = 8 for y = 7. I tal er det 0.0593 = 0.70397 0.08431. Det ses, at den betingede middelværdi E[y x] som funktion af x er en ret linie, der går gennem punktet (E[x], E[y]) og har hældningskoefficienten corr(x,y) var(y) Forlænges denne brøk med ses, at hældningen er lig med regressionskoefficienten i en lineær regression med y som responsvariabel og x som forklarende variabel var(y) cov(x, y) Linien, der svarer til en betingede middelværdi E[x y] af x givet y, er også et lineært udtryk

E[x y] = E[x] + corr(x, y) (y E[y]). var(y) Koefficienten til (y E[y]) corr(x,y) var(y) er regressionskoefficienten, når x regresseres på y. Udtrykket for E[x y] angiver en linie, der går igennem punktet (E[x], E[y]) og som indtegnet i et koordinatsystem, hvor x som sædvanligt afsættes ud af den vandrette akse, har hældningen 1 var(y) corr(x,y). Produktet af de to liniers hældningskoefficienter, når de betragtes i samme koordinatsystem er 1. Men de to umiddelbart estimerede regressionskoefficienter er IKKE hinandens inverse, hvad man ellers kunne forledes til at tro, idet de har produktet corr(x,y). På figuren er de to linier indtegnet sammen med ellipsernes storakser.

Principalkomponentanalyse For en kovarians- og korrelationsmatrix kan egenværdier og egenvektorer beregnes. I matematiske fremstillinger står teorien ofte beskrevet som spektraldekomponering eller lignende. I dette tilfælde er egenværdierne af kovariansmatricen givet ved 0.49 og 0.08 og egenvektorerne er 0.77 0.65 og 0.65 0.77 Matricen 0.77 0.65 A = 0.65 0.77 er ortonormal, således at dens inverse blot er den transponerede. 1 T 0.77 0.65 0.77 0.65 0.77 0.65 = = 0.65 0.77 0.65 0.77 0.65 0.77 Det betyder, at kovariansmatricen er faktoriseret ved Σ 0.3 0.0 = 0.0 0.5 = 0.77 0.65 0.49 0 0.77 0.65 0.65 0.77 0 0.08 0.65 0.77 og omvendt 0.77 0.65 0.3 0.0 0.77 0.65 0.49 0 = 0.65 0.77 0.0 0.5 0.65 0.77 0 0.08 For variablene x og y betyder dette, at z1 = 0.77x + 0.65y og z = - 0.65x + 0.77y er ukorrelerede, da cov(z 1,z ) = - 0.77 0.65 0.3 + 0.65 0.77 0.5 + (0.77-0.65 ) 0.0 = 0 på nær afrundingsfejl.

Varianserne af de transformerede variable er var(z 1 ) = 0.77 0.3 + 0.65 0.5 + 0.65 0.77 0.0 = 0.49 og var(z ) = 0.65 0.3 + 0.77 0.5-0.65 0.77 0.0 = 0.08 på nær afrundingsfejl. I vektorer udtrykkes disse resultater ved at z 1 z = 0.77 0.65 x z = 0.65 0.77 y = A-1 x har kovariansmatricen A -1 ΣA = 0.49 0 0 0.08 Teorien for egenværdier for positivt definitte matricer siger bl.a., at de stokastiske variabel z 1 og z defineret på denne måde har den størst respektive mindste varians blandt alle linearkombinationer af de stokastiske variable x og y, hvor kvadratsummen af koefficienter er lig med 1. Som en formel udrykkes det ved max var ( b x+b y ) = største egenværdi og ( ) b 1+b =1 1 min var b x+b y = mindste egenværdi b 1+b =1 1 hvor koefficienterne b 1 og b udgøre de respektive egenvektorer. Det skal bemærkes, at en ene egenvektor z 1 stort set er proportional med genemsnittet af x og y. Den er altså et udtryk for gennemsnittet af de to karakterer. Egenvektoren z er tilsvarende proportional med differensen mellem x og y. Det ses, at var(z 1 ) er stor, da der er stor forskel på skolernes matematiske niveau, mens var(z ) er lille, da de to karakterer er meget ens på alle skoler. Der er en umiddelbar forbindelse mellem egenvektorerne og konturellipserne, idet egenvektorerne er parallelle med ellipsernes akser. Det ses ved, at forholdet mellem koordinaterne i egenvektorerne 0.77 0.65 og 0.65 0.77 er hhv. β 1 = 0.65/0.77 = 0.84

og β = 0.77/(- 0.65) = - 1.19 på nær afrundingsfejl. Transformationen fra (x, y) til (z 1, z ) udgør altså en bijektiv (enentydig) transformation af de korrelerede variable til et sæt af uafhængige variable. Ved denne transformation indeholder z 1 mest muligt af datamaterialets variation mens z indeholder mindst, men da der kun er to variable, indeholder z i dette tilfælde alt som z 1 ikke kan forklare.