Den todimensionale normalfordeling

Den todimensionale normalfordeling Definition En todimensional stokastisk variabel X Y siges at være todimensional normalfordelt med parametrene µ µ og når den simultane tæthedsfunktion for X Y kan skrives fx y π det Σ exp x µ y µ Σ x µ x y R y µ hvor Σ µ µ R R <. Bemærk at det Σ > 0 og at Σ. Kort notation: X Y N µ µ. Marginalfordelinger Simplere regninger opnås ved midlertidigt at indføre substitutionen xµ u yµ v i fx y. Nogle mellemregninger: x µ y µ Σ x µ y µ u v u v u u u uv v u v u u v u u v u v

Bestemmelse af marginalfordelingen for X: f X x fx ydy fxu yv dv π exp u π exp exp π u idet dy dv u exp π v u dv v u idet funktionen under det sidste integraltegn ses at være tæthedsfunktion for en normalfordelt stokastisk variabel med middelværdi u og varians. Ved tilbagesubstitution u xµ f X x får vi π exp x µ dvs. X Nµ. Analogt får vi Y Nµ. x R Bemærk at de første fire parametre i den todimensionale normalfordeling hermed har fået en tolkning. Vedrørende den sidste parameter kan vi foreløbig iagtage at 0 fx y f X xf Y y X og Y uafhængige 0 fx y f X xf Y y X og Y afhængige. dv En betinget fordeling Vi betinger med X x og udnytter samme midlertidige substitution som i det foregående afsnit: f Y x y fx y f X x fxu yv f X xu π exp u exp π u v u Tilbagesubstitution u zµ v zµ i dette udtryk giver x µ x µy µ y µ som tillige med udregningen af det Σ indføres i den simultane tæthedsfunktion fx y. Herved kommer fx y på en form som ofte benyttes: fx y π exp x µ x µy µ y µ

exp π v u exp yµ xµ π exp y µ π u xµ v yµ x µ y R x fast Heraf ses at Y x N µ x µ. EY x som funktion af x kan opfattes som X s bidrag til en systematisk indvirkning på Y og med VarY x som udtryk for en tilfældig overlejret virkning. Under denne synsvinkel kaldes residualvariansen. Bemærk at < og at residualvariansen ikke afhænger af x. Lader vi i residualvariansen gå mod eller får vi grænseværdien 0 hvoraf følger P Y x µ x µ. Hele sandsynlighedsmassen bliver altså i grænsen koncentreret på linien y µ ± x µ som har hældning for og hældning for. Den bedste prædiktor gx for Y dvs. den prædiktor der minimerer EY gx er EY X. Fra udtrykket for fordelingen af Y x ovenfor ser vi at EY X µ X µ. For den todimensionale normalfordeling gælder altså at den bedste prædiktor samtidig er den bedste lineære prædiktor. Tolkning af parameteren Ved at benytte fordelingsresultatet for Y x på de standardiserede variable U Xµ N0 og V Y µ N0 får vi V u Nu og dermed EV U U. Kovariansen mellem U og V udregnes: CovU V EUV EEUV U EU EV U EUU EU Var U. x : EY gx x EY EY EY gx x VarY x EY x gx 3

Dernæst udregnes kovariansen mellem X U µ og Y V µ : CovX Y Cov U µ V µ CovU V og endelig korrelationen mellem X og Y : X Y CovX Y Var X Var Y. Parameteren er altså korrelationskoefficienten mellem X og Y. De tidligere udsagn om afhængighed/uafhængighed af X og Y kan nu omformuleres til: X og Y er uafhængige når og kun når X og Y er ukorrelerede. Dette resultat er unikt for normalfordelte variable. I almindelighed gælder kun at uafhængige variable er ukorrelerede. Niveaukurver for fx y når 0 Med 0 har vi fx y og dermed for 0 < k < π exp x µ π y µ fx y k x µ y µ lnπ k k x µ k y µ k. Heraf ses at niveaukurverne er ligedannede ellipser med centrum i µ µ og med halvakser lnπ k og lnπ k parallelle med koordinatsystemets akser. Ellipsernes ekscentricitet 3 er e max{ } uafhængig af k. For er niveaukurverne cirkler med centrum i 0 0 og radius lnπ k. Niveaukurver for fx y når 0 Her bliver ligningen for niveaukurverne mere kompliceret. Med 0 < k < π får vi fx y k 3 Ekscentriciteten e i en ellipse er forholdet mellem brændpunktsafstanden og storaksen. Udtrykt ved den halve storakse a og den halve lilleakse b gælder e b a. 4

x µ x µ y µ y µ lnπ k k. Ved at indføre substitutionen x µ x y µ y får vi ligningen udtrykt i et akseparallelt x y -koordinatsystem med origo i x y µ µ. Ligningen bliver x x y y k. Bemærk at venstre side er en kvadratisk form som kan repræsenteres af en symmetrisk matrix: x x y y x y x y Ved at løse egenværdiproblemet for matricen kan vi omforme den kvadratiske form til en form med rene kvadratled. Egenværdierne bestemmes til λ ± 4 4 og egenvektorerne hørende hhv. til den mindste egenværdi λ og den største egenværdi λ findes som v t 4 5 t 0 og v t 4 6 t 0. 4 Mellemregninger: λ λ 5 Rækkeoperationer: d 6 Rækkeoperationer: λ λ λ 4 4 4 4 4 λ 4 λ 0 4 4 0 0 4 5

Som kontrol på regningerne ses at v v 0. I et x y -koordinatsystem med basisvektorerne v v og v v og med samme origo som i x y -koordinatsystem kan den kvadratiske form udtrykkes som λ x λ y. Ligningen for niveaukurverne bliver λ x λ y k x k λ y k λ. Heraf ses at niveaukurverne er ligedannede ellipser med centrum i x y µ µ og med den halve storakse og lilleakse hhv. k 4 lnπ k λ 4 og k 4 lnπ k λ. 4 I forhold til xy-koordinatsystemet ligger x y -koordinatsystemet drejet med vinklen ϕ arctan 4 arctan. Bemærk at 0 < ϕ < π for 0 < < og at π < ϕ < 0 for < < 0. Ved benyttelse af formlen tan ϕ tan ϕ tan 7 kan udtrykket for ϕ simplificeres til ϕ arctan ϕ π 4. Ellipsernes ekscentricitet er e uafhængig af k. 7 tan ϕ λ λ λ 4 4 4 4 4 0 0 6

Øvelse. Vis at for 0 bliver udtrykket for ekscentriciteten identisk med det tidligere fundne udtryk. Øvelse. Vis at for bliver ekscentriciteten. Transformation til uafhængige variable Ved omformningen af den kvadratiske form i tæthedsfunktionen for fx y introducerede vi et basisskift med basisskiftmatrix. Vinklen ϕ blev bestemt til cos ϕ sin ϕ sin ϕ cos ϕ arctan. Udnyttes formlen arctan x arcsin bestemmes. Vi får sin ϕ x x 8 kan sin ϕ findes hvorefter også cos ϕ kan cos ϕ. Øvelse. Eftervis udtrykket for cos ϕ. Sammenhængen mellem koordinaterne i hhv. x y - og i x y -koordinatsystemet er x cos ϕ sin ϕ x sin ϕ cos ϕ hvoraf x y y cos ϕ sin ϕ x cos ϕ sin ϕ x µ. sin ϕ cos ϕ sin ϕ cos ϕ y µ y Vi vil nu bestemme tæthedsfunktionen for den todimensionale stokastiske variabel X Y. Ved substitution i tæthedsfunktionen for X Y får vi fx y π exp λ x λ y idet Jx y. Kan dette udtryk ækvivalere den simultane tæthed for to uafhængige normalfordelte variable? I givet fald må der også gælde at fx y y exp π 3 4 x 3 y 4. 8 ϕ arcsin arcsin 7

Ved at sammenholde de to udtryk for fx y aflæses kravene 3 4 og 3 4 λ λ. Indsættes 3 4 fra den første ligning i den sidste ligning kan denne erstattes af 3 4. Herefter løses ligningerne mht. 3 og 4 : 3 4 4 4. Øvelse. Vis at løsningen bliver som angivet. Vi kan altså konkludere at X og Y er uafhængige og at X N0 4 Y N0 4. Lineære transformationer af X Y Vedrørende lineære transformationer af X Y N µ µ i almindelighed herunder linearkombinationer af X og Y henvises til afsnit 3 i note om den flerdimensionale normalfordeling. 3.6.0/BR 8