Flerdimensionale fordelinger. Erik Michaelsen Nielsen

Relaterede dokumenter
Elementær sandsynlighedsregning

Elementær sandsynlighedsregning

INSTITUT FOR MATEMATISKE FAG c

Kvantitative Metoder 1 - Forår Dagens program

Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Repetition Stokastisk variabel

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program

Betingede sandsynligheder Aase D. Madsen

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

StatDataN: Middelværdi og varians

Statistik og Sandsynlighedsregning 2

3 Stokastiske variable 3.1 Diskrete variable

Statistik og Sandsynlighedsregning 2

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Reeksamen 2014/2015 Mål- og integralteori

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Sandsynlighedsregning Oversigt over begreber og fordelinger

Opgaver i sandsynlighedsregning

Sandsynlighedsregning Stokastisk variabel

Kvantitative Metoder 1 - Forår Dagens program

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Sandsynlighedsregning 8. forelæsning Bo Friis Nielsen

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Sandsynlighedsregning 8. forelæsning Bo Friis Nielsen

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning

Den todimensionale normalfordeling

standard normalfordelingen på R 2.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kvantitative Metoder 1 - Efterår Dagens program

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kvantitative Metoder 1 - Forår Dagens program

4 Oversigt over kapitel 4

Definition. Definitioner

Statistik og Sandsynlighedsregning 2

Produkt og marked - matematiske og statistiske metoder

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Note om Monte Carlo metoden

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Kvantitative Metoder 1 - Efterår Dagens program

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Produkt og marked - matematiske og statistiske metoder

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

Landmålingens fejlteori - Lektion 5 - Fejlforplantning

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Sandsynlighed og Statistik

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Eksamen 2014/2015 Mål- og integralteori

Teoretisk Statistik, 16. februar Generel teori,repetition

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Statistiske modeller

Kvantitative Metoder 1 - Efterår Dagens program

MM501 forelæsningsslides

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Løsning til eksamen 16/

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Middelværdi og varians. Kovarians. korrelation = 0.02 korrelation = 0.7 korrelation = 1.0

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Nanostatistik: Stokastisk variabel

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Module 1: Lineære modeller og lineær algebra

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 17. december 2015 Kursus nr : (navn) (underskrift) (bord nr)

Løsning eksamen d. 15. december 2008

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Hvad skal vi lave i dag?

Susanne Ditlevsen Institut for Matematiske Fag susanne

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Nanostatistik: Opgaver

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 19. december 2018 Kursus nr : (navn) (underskrift) (bord nr)

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Uge 10 Teoretisk Statistik 1. marts 2004

Transkript:

Flerdimensionale fordelinger Erik Michaelsen Nielsen Masterprojekt Institut for Matematiske Fag Aalborg Universitet Forår 5

Forord Dette masterprojekt er udarbejdet af Erik Michaelsen Nielsen på Aalborg Universitet, Institut for Matamatiske Fag, i perioden fra juni 4 til marts 5 Projektet omhandler flerdimensionale fordelinger og består af 6 sider og indeholder ét appendiks Oplagsantallet er 4 Referencer er lavet efter Harvard-metoden og henvisninger i teksten vil se ud som følgende for bøger og tidsskrifter [efternavn, årstal] Websider vil være henvist til på følgende måde [hovedsiden, årstal] Projektet er i høj grad inspireret af bøgerne [Olofsson & Andersson, ] og [Seber, 984] Forfatteren vil gerne takke vejleder Bo Rosbjerg, der har været til stor hjælp med gode råd til den kontekstuelle og matematiske del af projektet Erik Michaelsen Nielsen 3-3-5

Abstract This projekt "Flerdimensionale fordelinger/multivariate distributions", written by Erik Michaelsen Nielsen of Department of Mathematical Sciences at Aalborg University, deals with multivariate distributions A random variable is a function that associates a unique numerical value with every outcome of an experiment However, in some experiments the outcomes can be complicated, and hence the use of only one random variable is not sufficient For that reason, it becomes applicable to look at multidimensional random vectors and multivariate distributions In addition the components of the random vectors can be examined simontaniusly, in order to detect their connection By describing the random variables only one by one, we do not get all the possible information This projekt starts by describing two-dimentional random vectors Basic operators and definitions regarding joint distributions are dealt with Successively, several multivariate distributions, including the multivariate normal distribution and the Wishart distribution, are introduced and explained Many of these distributions are applied in statistics It is however beyond the scope of this projekt to decribe the applications of the multivariate distributions in that regard

Indhold Indledning Todimensionale fordelinger Den simultane fordelingsfunktion Diskrete stokastiske variable 3 3 Kontinuerte stokastiske variable 5 4 Betingede fordelinger 7 5 Uafhængige stokastiske variable 6 Middelværdien af en funktion af stokastiske variable 7 Middelværdi og varians af en sum 3 8 Kovarians og korrelation 5 3 Flerdimensionale fordelinger 3 Flerdimensionale stokastiske variable 3 Middelværdi- og kovariansoperatorer 33 Momentfrembringende funktioner 6 4 Den flerdimensionale normalfordeling 7 4 Definitioner 7 4 Vigtige egenskaber 9 43 Flere sætninger 35 5 Wishartfordelingen 38 5 Definitioner 38 5 Vigtige egenskaber 39 53 Generaliseret kvadratisk form 4 6 Hotellings T fordeling 43 6 Definition 43 6 Hjælpesætninger 43 63 Egenskaber 46 7 Den flerdimensionale betafordeling 47 7 Udledning og definition 47 8 Afrunding 5 Litteraturliste 5 Notationsforklaring 5 A Matrixalgebra 53

Kapitel Indledning Sandsynlighedsteori er den del af matematiken, der omhandler beregninger af sandsynligheder for forskellige udfald af et eksperiment Da det er et matematisk fundament for statistik, er sandsynlighedsteori nødvendigt i mange aktiviteter, som involverer en kvantitativ analyse af data Ideen til sandsynlighedsteori kom oprindeligt fra observationer eller udfald, som var knyttet til spil Man mente, at en mønt var uærlig, hvis der ikke var et forhold tæt på mellem det totale antal gange det var blevet plat og det totale antal kast, efter at mønten havde været kastet n gange, hvor n er et stor tal Ligeledes blev en terning opfattet som uærlig, hvis der ikke, efter et stort antal kast, var slået ca toere 6 Betragtninger af denne type gav anledning til, at man tolkede sandsynligheden for et specifikt udfald af et eksperiment, som forholdet mellem antallet af succesfulde udfald og totale antal udfald Dermed kunne sandsynligheden udregnes som forholdet, i det lange løb, mellem antallet af gunstige udfald og mulige udfald Det er dog ikke altid muligt at udregne antallet af mulige udfald, hvilket gør denne metode uanvendelig Desuden har flere eksperimenter ikke numeriske udfald Derfor har man indført stokastiske variable for bedre at kunne behandle og beskrive eksperimenter De stokastiske variable, med deres forskellige fordelinger, medvirker til, at man kan udregne sandsynligheder for et givent udfald af et eksperiment Dog kan udfaldene være mange og komplekse, og derfor er det ikke altid tilstrækkeligt kun at bruge én stokastisk variabel Dette giver anledning til at kigge på flerdimentionale stokastiske variable og flerdimentionale fordelinger Komponenterne i flerdimensionale stokastiske variable kan desuden undersøges samtidigt, således at det er sammenhængen mellem dem, der bliver belyst Beskrives observationerne fra et eksperiment ud fra flere éndimensionale stokastiske variable, bliver denne sammenhæng ikke afdækket Dette projekt har netop til formål at beskrive flerdimensionale stokastiske variable og deres fordelinger Der tages udgangspunkt i todimensionale stokastiske variable, hvor elementære operatorer og definitioner for simultane fordelinger bearbejdes Herefter videreføres begreberne til flerdimensionale fordelinger, hvor flere konkrete fordelinger introduceres Flere af de nævnte fordelinger finder anvendelse indenfor statistik, men det ligger imidlertid udover dette projektets mål, at beskrive disse anvendelser af flerdimensionale fordelinger Det forudsættes, at læseren har et indgående kendskab til elementær sandsynlighedsregning, endimensionale stokastiske variable og fordelinger

Kapitel Todimensionale fordelinger Stokastiske variable bliver introduceret for at beskrive observationer af eksperimenter med tilfældige udfald Mange typer af eksperimenter kan beskrives af en endimensional stokastisk variabel, men der findes også eksperimenter, hvor udfaldene er mere komplekse Her kan observationerne eksempelvis beskrives af en todimensional X, Y ) stokastisk variabel Ved kun at undersøge de stokastiske variable en ad gangen, er der ofte en sammenhæng mellem de dem, der ikke bliver belyst Derfor er det relevant at undersøge todimensionale stokastiske variable [Olofsson & Andersson, ] Den simultane fordelingsfunktion Definition Lad X og Y være stokastiske variable Da er parret X, Y) en todimensional stokastisk variabel Ideen er nu at beskrive de todimensionale stokastiske variable ud fra fordelingsfunktioner, sandsynlighedsfunktioner og tæthedsfunktioner på tilsvarende måde som for de endimensionale stokastiske variable Definition Den simultane fordelingsfunktion for en todimensional stokastisk variabel X,Y )er defineret som F x,y) P X x, Y y), x,y R Fordelingsfunktionen er en funktion af to reelle variable Den har tilsvarende egenskaber som endimentionale fordelingsfunktioner, men da det kræver tre dimentioner at tegne grafen for funktionen, er den ikke altid så nem at visualisere Desuden er de todimensionale fordelingsfunktioner heller ikke tilsvarende egnede til udregning af sandsynligheder For endimensionale stokastiske variable er ethvert udfald på formen X x eller a < X < b, og de tilsvarende sandsynligheder kan udtrykkes ved fordelingsfunktionen som P X x) F x) lim y x F y) P a < X < b) F b) F a), a b Det bliver dog anderledes svært for todimensionale stokastiske variable Fordelingsfunktionens værdi i et punkt x,y) er sandsynligheden for at X x og Y y, hvilket er det samme som sandsynligheden for at X, Y ) findes i det uendelige reaktangel beskrevet af mængden ], x] ], y] For et endeligt rektangel T ]a,b] ]c,d] kan

det vises, at P a < X b, c < X d) F b,d) F b,c) F a,d) + F a,c) Der findes dog mange andre typer af mængder i to dimensioner Hvis fx C er enhedscirklen, C x,y) : x + y, kan P X,Y ) C) ikke udtrykkes direkte vha fordelingsfunktionen Andre typer af mængder i R giver anledning til det samme problem Hvis fordelingsfunktionen F for X, Y ) er kendt, kan de marginale fordelingsfunktioner F Xx) og F Y y) for X, Y ) findes Da udfaldet Y y er det samme som udfaldet X <, Y y, hvilket ikke sætter nogen grænse for X, gælder, at udfladet har sandsynligheden P X <, Y y) F,y), heraf følger sætningen Sætning Hvis X,Y) har fordelingsfunktionen F, har X og Y henholdsvis fordelingsfunktionerne hvor x,y R F Xx) F x, ) og F Y y) F, y), Diskrete stokastiske variable Ligesom for andre stokastiske variable, skelnes der for de todimensionale mellem diskrete og kontinuerte Definition Hvis X og Y er diskrete stokastiske variable, gælder at X,Y) er en todimensional diskret stokastisk variabel Hvis værdimængden af X er {x, x, } og værdimængden af Y er {y, y, }, bliver værdimængden af X,Y ) til {x j, y k ), j,k,, }, hvilket også er en tællelig mængde Derfor kan sandsynlighedsfunktionen defineres på tilsvarende måde som for endimensionale stokastiske varable Definition Hvis X,Y) er en todimensional stokastisk variabel med værdimængde {x j,y k ), j,k,, }, gælder, at funktionen er sandsynlighedsfunktion for X,Y ) px j,y k ) P X x j, Y y k ) Eksempel To piller tages tilfældigt fra et pilleglas, der indeholder fem hovedpinepiller, to sedativer og seks kvalmestillende piller X og Y er henholdsvis antallet af hovedpinepiller og antallet af sedativer, blandt de to piller, der tilfældigt udvælges fra pilleglasset Den todimensionale stokastiske variabel X,Y ) kan nu antage følgende værdier:,),,),,),,),,) og,) For at finde sandsynligheden for udfaldet,), altså tilfældet hvor man får én af de fem hovedpinepiller, ingen af de to 3

sedativer og én af de seks kvalmestillende piller, gøres følgende Antallet af muligheder hvor dette valg kan forekomme er ) ) ) 5 6 3 Det totale antal af muligheder pillerne kan vælges på er ) 3 78 Da alle pillerne vælges fuldstændigt tilfældigt, er alle 78 muligheder lige sandsynlige, 3 derfor kan sandsynligheden for udfaldet,) udregnes til 5 Tilsvarende kan 78 3 syndsynligheden for udfaldet,) udregnes til 5 ) ) 6 ) 78 78 5 39 Fortsættes på denne måde, opnår man værdierne i tabel Tabel : Sandsynligheder for de forskellige udfald af udvælgelsen 5 6 j 5 3 5 39 k 3 5 39 78 Sandsynlighedsfunktionen kan skrives som 5 ) ) 6 j k) j k pj,k), j,, ; k,, ; j + k 78 Hvis sandsynlighedsfunktionen for den todimensionale stokastiske variabel X,Y ) er kendt, kan den marginale sandsynlighedsfunktion af de endimensionale stokastiske variable X og Y findes [Econ,4] Sætning Hvis X,Y) har sandsynlighedsfunktionen p, gælder, at de marginale sandsynlighedsfunktioner af X og Y kan findes som p Xx j) p Y y k ) px j, y k ), j,,, k px j, y k ), k,, j 4

Da udfaldet {Y y k } kan beskrives ud fra den todimensionale stokastiske variabel X,Y ) som {X "Hvad som helst", Y y k }, får man p Y y k ) P X x j, Y y k ) px j, y k ) j Den tilsvarende formel for P X opnås på samme måde Eksempel De marginale sandsynlighedsfunktioner tilhørende eksempel, kan altså findes ud fra formlerne i sætning Hvis man ønsker at finde sandsynlighedsfunktionen for X, tager man altså udgangspunkt i sandsynlighedsfunktionen for X,Y) 5 ) ) 6 j k) j k pj,k), j,, ; k,, ; j + k 78 For et bestemt j varierer k fra til, samtidig må summen af j og k ikke overstige, hvilket giver j+k 5 ) ) 6 j k) j k p Xj) pj,) + pj,) + pj,) 78 k Da der ikke længere tages højde for, om pillen er sedativ eller kvalmestillende, kan udtrykket omskrives til 5 8 ) j) j p Xj) 3 ), hvilket er en hypergeometrisk fordeling med parametrene 3, 5 og, X hypergeom3, 5, ) Dermed kan middelværdien og variansen findes til E[X] 5 3 3, V ar[x] 3 3 5 3 5 3 ) 57 j 3 Kontinuerte stokastiske variable En todimensional stokastisk variabel X, Y ) kan også være kontinuert Definition 3 En ikke negativ funktion fx,y) defineret over xy-planen kaldes en simultan tæthedsfunktion for de kontinuerte stokastiske variable X og Y, hvis og kun hvis P X, Y ) A) fx,y)dx dy, for alle delmængder A R og A R fx,y)dx dy Der integreres altså over et todimensionalt område A Hvis valget af A fx er A {u,v) : u x, v y} ], x] ], y], får man F x,y) y x hvilket giver anledning til den følgende sætning fu, v)du dv, 5

Sætning 3 Hvis X, Y ) er en todimentinal kontinuert stokastisk variabel med simultan tæthedsfunktion f og simultan fordelingsfunktion F, gælder fx, y) F x, y), x, y R x y Tæthedsfunktionen fx, y) er altså et mål for, hvor sandsynligt det er at X, Y ) ligger i en omegn af punktet x, y) Ligesom ved det endimensionale tilfælde er sandsynligheden for, at X, Y ) er lig med x, y) for alle x og y Bemærk at F, ) følger af definition 3 Eksempel 3 Lad den todimensionale stokastiske variabel have tæthedsfunktionen fx, y) y x), x, y Vi ønsker nu at bestemme den tilhørende simultane fordelingsfunktion F x, y) F x,y) y x k j)dj dk y F x, y) y x x y, x, y kx [ x )dk k x ] y x k k Hvis X, Y ) er en todimentinal kontinuert stokastisk variabel, kaldes funktionerne f Xx) og f Y y) de marginale tæthedsfunktioner Det nedre index indikerer, at f Xx) er defineret ud fra den stokastiske variabel X Den marginale tæthed er den tæthed, der opstår, når alt information omkring den stokastiske variabel Y ignoreres Heraf følger nedenstående sætning Sætning 3 Antag at X, Y ) er en todimentinal kontinuert stokastisk variabel med tæthedfunktion f Da er X og Y kontinuerte stokastiske variable med marginale tæthedsfunktioner, f Xx) f Y y) fx, y)dy, x R, fx, y)dx, y R Eksempel 3 Vi ønsker at bestemme de marginale tæthedsfunktioner f Y y) og f Xx) ud fra den simultane tæthedsfunktion i eksempel 3 Den simultane tæthedsfunktion er fx, y) y x), x, y, Hvilket i følge Sætning 3 giver og f Y y) f Xx) y x)dx [ xy x ] x y x)dy [ y xy ] y 4y, y, x, x 6

4 Betingede fordelinger Ideen bag betinget sandsynlighed er, at bestemme sandsynligheden for et udfald indtræffer, givet at et andet udfald er indtruffet Definition 4 Lad X og Y være diskrete stokastiske variable henholdsvis med værdimængderne {x,x, } og {y,y, } og simultan sandsynlighedfunktion p Da er den betingede sandsynlighedsfunktion af X givet Y y k defineret som p Xx j y k ) pxj,y k) p Y y k ) for alle j {,, } Antag at en begivenheden beskrives ud fra den diskrete stokastiske variabel X Sandsynligheden af udfaldet {X x} givet {Y y} kan betragtes som værdien den betingede sandsynlighedsfunktion af X i x givet udfaldet{y y} Hvis Y er en diskret stokastisk variabel, kan definition 4 bruges til udregning af sandsynligheden Eksempel 4 Der kastes en terning samt en mønt En indikatorvariabel introduceres til resultatet af møntkastet, således at hvis det bliver plat, er værdien af indikatorvariablen, ellers er den nul To stokastiske variable defineres nu til at beskrive udfaldet: X : antallet af øjne ved slag med terningen Y : summen af antallet af øjne ved slag med terningen og værdien af indikatorvariablen Sandsynligheden for et bestemt udfald x, y) er givet i tabel, fx er Tabel : De simultane og marginale sandsynligheder af X og Y Y 3 4 5 6 7 6 X 3 4 6 6 6 5 6 6 6 6 6 6 6 6 7

P X 5, Y 6) Hvis sandsynligheden for udfaldet x 5 givet y 6 ønskes bestemt, kan definition 4 nu bruges: p5 6) p6,5) p Y 6) Altså er sandsynligheden for at terningen viser fem øjne, hvis summen af øjne og indikatorvariblen er 6 [Econ,4] I det kontinuerte tilfælde får ideen om betinget sandsynlighed en noget anderledes betydning end i det diskrete tilfælde Hvis X og Y begge er kontinuerte stokastiske variable, er P X x Y y) ikke defineret, fordi sandsynligheden i ét punkt er identisk med nul Da vædien af Y er kendt, kan sandsynligheden for at X er mindre end en bestemt værdi dog stadig udregnes Derfor giver det stadig mening at undersøge fordelingen af X givet Y y Der opskrives en ny definition, der efterligner det diskrete tilfælde Definition 4 Lad X, Y ) være en todimensional kontinuert stokastisk variabel med simultan tæthedsfunktion fx, y) Da gælder, at den betingede tæthedsfunktion af X givet Y y er fx, y) f Xx y) f Y y), x R Udtrykket fortolkes som tæthedsfunktionen af X, hvis man ved at Y y For at finde den tilhørende fordelingsfunktion integreres tæthedsfunktionen og man får eller mere generelt F Xx y) P X x Y y) P X A Y y) x 6 f Xs y)ds, x R, f Xs y)ds, A R A Eksempel 4 Lad den simultane tæthedsfunktion af den todimensionale kontinuerte stokastiske variabel X, Y ) være givet ved { 6x y) y x, fx, y) ellers I følge sætning 3 findes de marginale tæthedsfunktioner til x x f Xx) fx, y)dy 6x y)dy [ 6 xy ] x y 6x 3x 3x, y x, y f Y y) y fx, y)dx y [ ] 6x y)dx 6 x yx xy 6 y) y y ) 3 6y + 3y, y x Nu kan de betingede tæthedsfunktioner af X givet Y y og Y givet X x skrives som f Xx y) f Y y x) fx, y) f Y y) fx, y) f Xx) 6x y) x y) 3 6y + 3y y + y, y x, 6x y) x y), y x 3x x 8

For y x ønsker man, at betemme sandsynligheden for at Y givet at x 4 Først bestemmes tæthedsfunktionen af Y, når x 4 som 5 5 f Y y x) fx, y) f Xx) Herefter findes sandsynligheden P Y X 4 ) 5 x y) 4 y) 5 8 y) 5 5 x 4 5 ) 6 5 8 y 5 f Y y x)dt [ 5 y 5 ] 6 y y 5 5 8 ydy 5 4 5 64 55 64 Den følgende sætning er en kontinuert udgave af loven om total sandsynlighed Sætning 4 Lad X, Y ) være en todimensional kontinuert stokastisk variabel, Da gælder I) f Xx) II) P X A) Ifølge definition 4 gælder f Xx y) f Xx y)f Y y)dy, fx, y) f Y y) Anvendes nu sætning 3 får man f Xx y)f Y y)dy P X A Y y)f Y y)dy, fxx y)fy y) fx, y) fx, y)dy f Xx), x R A R hvilket besviser I) For at bevise II) udnyttes at P X A Y y) fxx y)dx sammen med I) A P X A) hvilket fuldfører beviset f Xx)dx A A f Xx y)f Y y)dxdy A f Xx y)f Y y)dydx P X A Y y)f Y y)dy, For at finde P X A), vælges en bestemt værdi, Y y, og P X A Y y) udregnes Herefter udregnes et vægtet gennemsnit af alle mulige værdier af Y, hvor tæthedsfunktionen bruges til at udregne vægtene Da X er kontinuert anvendes et integral til denne udregning Hvis der eksempelvis gælder at A ], x], får man F Xx) F Xx y)f Xx)dx Sætning 4 er en anden brugbar version af loven om total sandsynlighed, til udregning af sandsynligheder af begivenheder, hvor både X og Y indgår 9

Sætning 4 Lad X, Y ) være en todimensional kontinuert stokastisk variabel, Da gælder for A R P X,Y ) A) P X,Y ) A Y y)f Y y)dy, hvor P X,Y ) A Y y) udelukkende afhænger af udfaldet af X Eksempel 43 Lad Y unif[,3] og givet at Y y lad X unif[,y ] Man ønsker nu at bestemme den simultane tæthedsfunktion af X,Y ) samt sandsynligheden P X Y ) Først findes tæthedsfunktionen af Y til f Y y), y 3 Den betingede tæthedsfunktion af X givet at Y y kan nu findes til f Xx y) y, x y Den simultane tæthedsfunktion bliver ifølge definition 4 fx,y) f Xx y)f Y y), y 3, x y y Området A sættes til {x,y) : x y, y 3}, og man får P X,Y ) A Y y) P X Y Y y) Nu følger af sætning 4, at P X Y ) P X,Y ) A) 3 f Xx y)dx A y y dx [ ] 3 y dy 4 ln y y 4 ln 3 y y y 5 Uafhængige stokastiske variable To udfald A og B siges at være uafhængige, hvis sandsynligheden for at de begge indtræffer, er det samme som produktet af sandsynlighederne for hvert af udfaldene indtræffer, altså P A B) P A)P B) Anvendes stokastiske variable X og Y for udfaldene A og B sammen med ovenstående, giver det følgende definition Definition 5 To stokastiske variable siges at være uafhængige, hvis P X A, Y B) P X A)P Y B) for alle A, B R Hvilket vil sige at X og Y er uafhængige, hvis den simultane sandsynlighed kan skrives som produktet af de marginale sandsynligheder Følgende sætning kan nu opstilles Sætning 5 Lad X være en stokastisk variabel med fordelingsfunktion F Xx), og lad Y være en stokastisk variabel med fordelingsfunktion F Y y) Lad desuden X og Y have simultan fordelingsfunktion F x,y) Da gælder at X og Y er uafhængige, hvis og kun hvis F x,y) F Xx)F Y y), for alle x,y R

Sætning 5 kan dog ikke nemt bevises Hvis to stokastiske variable X og Y er diskrete, kan uafhængigheden beskrives ud fra sandsynlighedsfunktioner som i sætningen herunder Sætning 5 Antag at X,Y ) er en todimensional stokastisk variabel med sandsynlighedsfunktion p Da gælder at X og Y er uafhængige, hvis og kun hvis px,y) p Xx)p Y y), for alle x,y R Først antages at px,y) p Xx)p Y y), og der vælges to delmængder af R, nemlig A og B, da gælder P X A, Y B) px,y) p Xx) p Y y) P X A)P Y B), x A y B x A y B hvilket viser at X og Y er uafhængige Antages omvendt, at X og Y er uafhængige, får man px,y) P X x, Y y) P X x)p Y y) p Xx)p Y y), hvilket fuldfører beviset For kontinuerte stokastiske variable gælder en tilsvarende sætning Sætning 53 Lad X,Y ) være en todimensional kontinuert stokastisk variabel med simultan tæthedsfunktion f Da gælder at X og Y er uafhængige, hvis og kun hvis fx,y) f Xx)f Y y) for alle x,y R Eksempel 5 Lad den simultane tæthedsfunktion for de kontinuerte stokastiske variable X og Y, fx,y) være givet ved { fx, y) xe y x, y, ellers De marginale tæthedsfunktioner kan nu findes til f Y y) f Xx) fx, y)dx fx, y)dy [ ] xe y dx 4 x e y xe y dy x e y, [ xe y ] y x) x Det ses nu nemt, at fx,y) f Xx)f Y y), og dermed er X og Y uafhængige 6 Middelværdien af en funktion af stokastiske variable Det kan være brugbart at betragte funktioner af typen g : R R Funktionen g bruges til danne en stokastisk variabel gx, Y ) ud fra en todimentional stokastisk variabel X, Y ) For at udregne sandsynligheder af typen P gx, Y ) A), hvor A R, skal de mulige udfald af X, Y ), der afbildes ind i A, først identificeres

Eksempel 6 På en roulette, med 37 mulige udfald, -36), spinnes kuglen to gange Lad X betegne udfaldet af det første spin, og Y udfaldet af det andet Man ønsker at udregne sandsynligheden for, at de to udfald er mindst ti numre fra hinanden Sandsynligheden P X Y ) skal altså udregnes Der gælder for de to diskrete stokastiske variable, at X unif[,36] og Y unif[,36] Da de to udfald er uafhængige af hinanden, gælder der at 36 36 k j px j, y k ) Sandsynligheden kan nu udregnes til P X Y ) 36 k k j 36 36 k j px j, y k ) p Xx j)p Y y k ) 36 k k j p Xx j)p Y y k ) 36 k k j 37 37 756 369,55 Middelværdien E[gX, Y )] kan findes ved at gøre brug af den følgende sætning Sætning 6 Lad X, Y ) være en todimensional stokastisk variabel med sandsynlighedsfunktion p, eller tæthedsfunktion f og lad g være en funktion, g : R R Da gælder gx j, y k )px j, y k ), hvis X, Y )er diskret, E[gX, Y )] j k gx, y)fx, y)dxdy, hvis X, Y )er kontinuert Eksempel 6 Den forventede forskel, på de to numre fra eksempel 6, kan nu udregnes ved at definere en funktion g gx j, y k ) x j y k Middelværdien af g, E[gX, Y )], kan nu findes ved at anvende sætning 6 E[gX, Y )] 36 36 j k gx j, y k )px j, y k ) 36 36 j k x j y k 37 37 36 36 j k Udtrykkes udregnes ved brug af computer til x j y k 687 37,3

7 Middelværdi og varians af en sum Der gælder, at middelværdien af en sum er det samme som summen af middelværdierne, jævnfør de to følgende sætninger Sætning 7 Lad X og Y være stokastiske variable Da gælder E[X + Y ] E[X] + E[Y ] et udføres for det kontinuerte tilfælde Først defineres en funktion gx,y) x + y, herefter anvendes sætning 6, og man får E[X+Y ] x+y)fx, y)dxdy Anvendens sætning 3, får man xfx, y)dxdy + yfx, y)dxdy xfx, y)dxdy+ xf Xx)dx + E[X] + E[Y ] yfx, y)dxdy yf Y y)dy Sætning 7 Lad X og Y være stokastiske variable og lad a og b være reelle tal Da gælder E[aX + by ] ae[x] + be[y ] et udføres for det kontinuerte tilfælde Først defineres en funktion gx,y) ax + by, herefter anvendes sætning 6, og man får E[aX + by ] a Anvendens sætning 3, får man a xfx, y)dxdy+b ax + by)fx, y)dxdy xfx, y)dxdy + b yfx, y)dxdy a yfx, y)dxdy xf Xx)dx+b ae[x] + be[y ] yf Y y)dy Det kan være nærliggende at tro, at der gælder tilsvarende for variansen, altså at V ar[x + Y ] V ar[x] + V ar[y ], men som eksempel 7 viser, gælder dette ikke altid for variansen Eksempel 7 Hvis Y unif[,] og X Y +, gælder der at V ar[x] V ar[y ] V ar[x] + V ar[y ] 6 Dog gælder der samtidigt at V ar[x + Y ], da X + Y, og derfor at V ar[x + Y ] V ar[x] + V ar[y ] 3

Problemet som eksempel 7 illustrerer er, at selvom X og Y varierer individuelt, er der ingen variation i summen af de stokastiske variable Det fremgår tydeligt, at de stokastiske variable i eksempel 7 er afhængige, og faktisk viser det sig, at uafhængighed er en forudsætning for at kunne addere varianser Sætning 73 Lad X og Y være uafhængige stokastiske variablel Da gælder I) E[XY ] E[X]E[Y ], II) V ar[x + Y ] V ar[x] + V ar[y ] I) kan bevises ved at bruge sætning 6 og definere funktionen gxy) xy, man får E[XY ] xyfx, y)dxdy Her anvendes sætning 5, da de to stokastiske variable er uafhængige, og man får xyfx, y)dxdy xf Xx)dx yf Y y)dy E[X]E[Y ] II) bevises ved at udnytte, at V ar[x] E[X ] E[X]), heraf får man V ar[x + Y ] E[X + Y ) ] E[X + Y ]) Nu benyttes I), og man får E[X ] + E[XY ] + E[Y ] E[X]) E[X]E[Y ]) E[Y ]) V ar[x + Y ] E[X ] + E[Y ] E[X]) E[Y ]) V ar[x] + V ar[y ] Af sætning 7 fremgår det at middelværdioperatoren er lineær Det samme er ikke tilfældet for variansoperatoren, men den følgende sætning er gældende Sætning 74 Lad X være en stokatisk variabel, og lad a og b være reele tal, da gælder V ar[ax + b] a V ar[x] Ud fra definitionen af varinasen kan følgende opstilles V ar[ax + b] E[aX + b E[aX + b]) ] E[aX + b ae[x] b) ] E[a X E[X]) ] a E[X E[X]) ] a V ar[x] Af sætning 74 og sætning 73 II) kan følgende sætning udledes Sætning 75 Lad X og Y være uafhængige stokastiske variable, og lad a og b være relle tal, da gælder V ar[ax + by ] a V ar[x] + b V ar[y ] 4

8 Kovarians og korrelation Indtil nu er de stokastiske variable blevet inddelt i katagorierne, afhængige eller uafhængige Dette er en meget overordnet adskillelse og i tilfældet, hvor stokastiske variable er afhængige, vil man gerne kunne afgøre, i hvor høj grad de stokastiske variable afhænger af hinanden Strategien der den, at man opstiller et mål for, hvor meget og hvordan de stokastiske variable afhænger af hinanden Kovarians Definition 8 Kovariansen af de stokastiske variable X og Y er defineret som Cov[X,Y ] E[X E[X])Y E[Y ])] Hvis større værdier af X giver større værdier af Y, gælder at Cov[X,Y ] >, hvis større værdier af X giver mindre værdier af Y, gælder at Cov[X,Y ] < Jo højere den numeriske værdi af Cov[X,Y ] er, jo højre grad af afhængighed er der mellem de to stokastiske variable Udover de ovenstående sammenhænge gælder der også den følgende formel for kovariansen Sætning 8 Lad X og Y være stokastiske variable, da gælder, at Cov[X,Y ] E[XY ] E[X]E[Y ] Sætningen bevises ved at anvende sætning 7 Cov[X,Y ] E[X E[X])Y E[Y ])] E[XY Y E[X] XE[Y ] + E[X]E[Y ]] E[XY ] E[Y ]E[X] E[Y ]E[X] + E[X]E[Y ] E[XY ] E[X]E[Y ] Kovariansen har følgende egenskab: Hvis X og Y er uafhængige gælder der at Cov[X,Y ] Det modsatte er dog ikke altid tilfældet, som eksemplet her viser Eksempel 8 Lad Y unif[,] og X Y Det er helt klart at X og Y er afhængige Nu ønskes Cov[X,Y ] beregnet: Cov[X,Y ] E[XY ] E[X]E[Y ] E[Y 3 ] E[X]E[Y ] E[X] Eksempel 8 Lad X og Y være kontinurte stokastiske variable og lad deres simultane tæthedsfunktion været givet ved 5

fx,y) { 3 8 x hvis Y X, ellers Man ønsker at bestemme Cov[X,Y ], men først skal E[XY ] bestemmes: E[XY ] y 3 8 x ydxdy [ 8 x3 y] xy y [ 8 y4 )dy y ] 4 y5 4 3 4 48 4 6 5 Herefter udregnes middelværdien af X: E[X] x 48 3 3 [ 3 3 x 8 x dydx y] 8 x [ ] 3 3 x4 3 8 x3 dx Ligeledes udregnes middelværdien af Y: E[Y ] y 3 8 xydxdy 6 y 3 6 y3 dy 48 3 48 64 48 68 3 4 Kovariansen kan efterfølgende udregnes til x [ 3 6 x y] y xy y dx dy dy [ 3 y 3 64 y4 ] y Cov[X,Y ] E[XY ] E[X]E[Y ] 6 5 3 3 4 48 4 45 4 3 4 En anden vigtig egenskab ved kovariansen er, at den giver muligheden for at opstille en formel til udregning af variansen af en sum af stokastiske variable Sætning 8 Lad X og Y være stokastiske variable, da gælder, at V ar[x + Y ] V ar[x] + V ar[y ] + Cov[X,Y ] Ved at anvende V ar[z] E[Z E[Z]] får man Her udnyttes sætning 7, hvilket giver V ar[x + Y ] E[X + Y ) ] E[X + Y ]) E[X + Y ) ] E[X + Y ]) E[X E[X] + Y E[Y ]) ] 6

E[X E[X]) + Y E[Y ]) + X E[X])Y E[Y ])] Anvendes definition 8 samt V ar[z] E[Z E[Z]] igen, får man E[X E[X]) +Y E[Y ]) +X E[X])Y E[Y ])] V ar[x]+v ar[y ]+Cov[X,Y ] Det ses at sætning 73 II) er et specielt tilfælde af sætning 8, hvor Cov[X,Y ] Eksempel 83 Med sætning 8 kan variansen af summen af de stokastiske variable fra eksempel 7, hvor Y unif[,] og X Y + og V ar[x] V ar[y ], beregnes Kovariansen kan ifølge sætning 8 findes til Cov[X,Y ] Cov[ Y +,Y ] E[ Y + )Y ] E[ Y + ]E[Y ] E[ Y + Y ] E[Y ] + )E[Y ] E[Y ] + E[Y ] + E[Y ]) E[Y ] Bruges sætning 8, får man V ar[y ] V ar[x + Y ] + + ) Flere vigtige egenskaber, for kovariansen, er opstillet i nedenstående sætning Sætning 83 Lad X, Y og Z være stokastiske variable og lad a og b være reele tal, da gælder at I) Cov[aX,bY ] abcov[x,y ], II) Cov[X + Y,Z] Cov[X,Y ] + Cov[Y,Z], III) Cov[X,X] V ar[x] I) Cov[aX,bY ] E[abXY ] E[aX]E[bY ] abe[xy ] abe[x]e[y ] abe[xy ] E[X]E[Y ]) abcov[x,y ] II) Cov[X + Y,Z] E[X + Y )Z] E[X + Y ]E[Z] E[XZ + Y Z] E[X] + E[Y ])E[Z] E[XZ] E[X]E[Z]) + E[Y Z] E[Y ]E[Z]) Cov[X,Z] + Cov[Y,Z] III) Cov[X,X] E[X E[X])X E[X])] E[X E[X]) ] V ar[x] Kovariansen er et mål for afhængigheden mellem to stokastiske variable, men den har nogle begrænsninger I udregningen af kovariansen tages nemlig ikke højde for, hvilke enheder der måles i Faktisk kan en ændring i måleenheder føre til en ændring i kovariansen, som eksemplet her viser 7

Eksempel 84 Lad X være længden af den startbane, målt i meter, en flyvemaskine af typen Cherokee skal bruge, for at kunne lette, og lad Y være højden, hvorfra flyet letter, målt i fod Graden af afhængighed mellem X og Y er nu Cov[X,Y ] Hvis man nu i stedet ønsker at måle startbanens længde i kilometer, betegnet K, og højden i meter, betegnet M, får man, K X og M,348Y, hvilket ifølge sætning 83 I) giver Cov[K,M] Cov[,X;,348Y ],348Cov[X,Y ] Udregningerne viser at afhængigheden er væsentlig mindre end før, hvilket selvfølgelig ikke giver god mening Eksempel 84 tydeliggør, at der er behov for at mål for afhængigheden mellem stokatiske variable, der ikke afhænger af måleenhder Korrelation Korrelationskoefficienten mellem to stokastiske variable er et mål for interaktionen imellem dem Den har samtidig den egenskab at være uafhængig af måleenheder, se eksempel 85, samt at være begrænset til værdier mellem og Definition 8 Korrelationskoefficienten af de stokastiske variable X og Y er defineret som Cov[X,Y ] ρx,y ) V ar[x]v ar[y ] Eksempel 85 Man ønsker at udregne ρk,m) for de stokastiske variable i eksempel 84 ρk,m) ρ,x;,348y ) Cov[,X,,348Y ] V ar[,x]v ar[,348y ] Hvis sætning 83 I) samt sætning 74 anvendes, får man,348cov[x,y ], V ar[x],348 V ar[y ],348Cov[X,Y ],348 V ar[x]v ar[y ] ρx,y ) Udregningerne viser altså at ρk,m) ρx,y ) Værdierne og angiver den størst mulige grad af afhængighed mellem to stokastiske variable Ligesom det var tilfældet for kovariansen, gælder desuden at korrelationskoefficienten er, hvis de to stokastiske variable er uafhængige 8

Eksempel 86 Ønsker man at udregne korrelationskoefficienten for de stokastiske variable i eksempel 8, skal E[X ] og E[Y ] først findes: E[X ] E[Y ] x [ ] 3 4 x5 3 8 x3 dydx [ 3 x y] 8 x3 dx x y y 96 4 5 3 8 xy dxdy [ 3 6 x y ] xy dy 3 8 x4 dx 6 y 3 6 y4 dy [ 48 y3 3 ] 8 y5 96 y 48 96 8 4 5 Herefter kan V ar[x] og V ar[y ] beregnes: V ar[x] E[X ] E[X]) 5 3 ) 3 V ar[y ] E[Y ] E[Y ]) 4 5 3 4 ) 9 8 Nu kan korrelationskoefficienten udregnes til ρx,y ) Cov[X,Y ] V ar[x]v ar[y ] 3 4 3 9 8,397 9 57 Eksempel 86 viser altså, at der er en positiv korrelation mellem X og Y 9

Kapitel 3 Flerdimensionale fordelinger I forrige kapitel blev todimensionale stokastiske variable introduceret for at beskrive udfaldet af eksperimenter I nogle tilfælde kan udfaldet af et eksperiment dog være så komplekst, at en todimensional stokastisk variabel ikke er tilstrækkelig Dette giver anledning til at indføre flerdimensionale stokastiske variable og flerdimensionale fordelinger [Olofsson & Andersson, ] 3 Flerdimensionale stokastiske variable Meget af det, der blev forklaret for todimensionale stokastiske variable i kapitel, kan på tilsvarende måde vises for d-dimensionale stokastiske variable Der gælder altså tilsvarende, at X,, X d ) kaldes en d-dimensional stokastisk variabel, hvis X,, X d er endimensionelle stokastiske variable Stokatiske variable, hvor dimensionen er større end to, vil fremover betegnes stokastiske vektorer Definition 3 Lad X X, X,, X d ) være en en d-dimensional stokastisk vektor Da er middelværdivektoren E[X] defineret som E[X] E[X ],E[X ],, E[X d ]) Definition 3 Lad X X, X,, X d ) være en en d-dimensional stokastisk vektor, og antag, at enhver X k er diskret Da er den simultane sandsynlighedsfunktion defineret som px,,x d ) A) P X x,, X d x d ), for alle A R d Definition 33 Hvis der findes en ikke negativ funktion f : R d R, sådan at P X,, X d ) A) fx,, x d )dx dx d, for alle A R d A og R fx,, x d )dx dx d, siges den stokastiske variabel at være kontinuert med simultan tæthedsfunktion f Den tilhørende fordelingsfunktion, F, er defineret som F x,, x d ) P X x,, X d x d ),

og der er følgende sammenhæng mellem tæthedsfunktionen f og fordelingsfunktionen F F x,, x d ) fx,, x d ) xd x fs,, s d )ds ds d, d x x d F x,, x d ) De marginale funktioner kan, ligesom i det todimensionale tilfælde, findes ved at summere over den simultane sandsynlighedsfunktionen, eller ved at integrere over den simultane tæthedsfunktionen Hvis de stokastiske variable X, X, kan antages at være gentagne målinger på den samme hændelse, vil de alle have den samme fordeling, og de vil desuden være uafhængige Eksempel 3 I Yellowstone nationalpark ligger en gejser ved navn "Old Faithful" Den har navnet, da den siges at være i udbrud en gang i timen i gennemsnit Dog påstår de fleste turister, at de skal vente mere end en time, for at se udbrudet, hvilket indikerer, at der er længere mellem udbrudene Det antages at ventetiderne mellem hvert udbrud er uafhængige og ens fordelt, samt at de er unif [3,9] Man ønsker nu at udregne den gennemsnitlige ventetid for en turist, der ankommer til gejseren på et tilfældigt tidspunkt Lad T,T,, betegne tiderne mellem hvert udbrud, og lad µ E[T ] være den gennemsnitlige tid mellem to udbrud Lad T betegne tiden til næste udbrud fra et tilfældigt ankomststidspunkt t Det gælder nu, at E[T ] E[T ] µ 3 + 3 9 + 9 min 65 min 3,5min 3 3 + 9) Formlen viser, at den forventede længde af tidsintervallet, der indeholder tidspunktet t, er E[T ] 65min, hvilket tydeligvis er længere end E[T ] 3+9 )min 6min µ Afvigelsen skyldes, at der er større sandsynlighed for at ankomme i et tidsinterval, der er længere end 6min end et der er mindre end 6min Det er altså helt normalt at skulle vente længere end E[T ] 3min på næste udbrud I flere situationer er det praktisk at ordne et observationssæt efter størrelse Derfor indføres denne definition for stokastiske variable Definition 34 Lad X, X n være uafhængige, og lad X j) være den j te mindste af X k erne De stokastiske variable X ) X ) X n) siges nu at være ordensvariable af de stokastiske variable X, X n Eksempel 3 Lad X ) X ) X 3) X 4) X 5) X 6) være de ordens variable, der er forbundet med 6 uafhængige og ens fordelte observationer med tæthedsfunktionen fx) x, hvor < x < Man ønsker nu at finde sandsynligheden for at X 4) <, dvs P X 4) < ) Den eneste måde X 4) kan være mindre end, er hvis værdierne af mindst 4 af de stokastiske variable X,X,X 3, X 4, X 5 og X 6 er mindre end Sandsynligheden for at et givent udfald er mindre end, kan udregnes til

P X i ) xdx [ x ] x ) 4 Hvis man kalder udfaldet X i <, i,,, 6 for en succes, og man lader Z betegne antallet af successer i seks uafhængige forsøg, er Z en binomial fordelt stokastisk variabel med parametrene n 6 og p 5 For, at finde sandsynligheden for at X 4) er mindre end, skal følgende binomiale udregning foretages P X 4) < ) P Z 4) + P Z 5) + P Z 6) ) 6 4 ) 3 + 4 4) 4 6 5 ) 5 ) 3 + 4) 4 6 6 ) 6 ) 3 376 4) 4 3 Middelværdi- og kovariansoperatorer Betragtes n d-dimensionale stokastiske vektorer, kan det være anvendeligt at lade dem indgå i en matrix, X [X ij], dvs X X T X T X T n X X X d X X X d, X n X n X nd hvor hver række i matricen er en d-dimensional stokastisk vektor Dette kaldes fremadrettet for en stokastisk matrix Søjlevektorerne i X vil fremadrettet betegnes som X j, hvor j,, d Begrebet middelværdi kan udvides til matricer [Seber, 984] Definition 3 Lad X være den stokastiske matrix ovenfor Da er middelværdi operatoren E, for matricen defineret som E[X ] E[X ] E[X d ] E[X ] E[X ] E[X d ] E[X] [E[X ij])] E[X n] E[X n] E[X nd ] Matricen,E[X], kaldes middelværdimatricen af X Desuden får man ud fra linariteten af middelværdien E[AXB + C ] AE[X ]B + C Kovariansen af to stokastiske vektorer resulterer i en matrix Definition 3 Lad X og X være to stokastiske vektorer Da er kovariansmatricen, af de to stokastiske vektorer defineret som Cov[X, X ] [Cov[X i,x j])] [E[X i E[X i])x j E[X j])]] E[X E[X ])X E[X ]) E[X E[X ])X c E[X c]) E[X d E[X d ])X E[X ]) E[X d E[X d ])X c E[X c])

Det ses af definition 3, at to stokastiske variable ikke nødvendigvis skal have samme dimension, for at man kan finde kovariansmatricen Sætning 3 Lad X og X være to stokastiske vektorer Da er deres kovariansmatix Cov[X, X ] E[X X T ] E[X ]E[X ] T Cov[X, X ] [Cov[X,X ])] [E[X E[X ])X E[X ])]] E[X E[X ])X E[X ]) T ] E[X X T X E[X ] T E[X ]E[X ] T + E[X ]E[X ] T ] E[X X T ] E[X ]E[X ] T E[X ]E[X ] T + E[X ]E[X ] T E[X X T ] E[X ]E[X ] T To stokastiske vektorer siges at være uafhængige, hvis to vilkårlige komponenter, fra hver sin vektor, er uafhængige Uafhængighed mellem to stokastiske vektorer stiller således ikke krav til uafhængighed mellem to komponenter fra samme vektor Der gælder desuden at Cov[X, X ] O, hvis X og X er uafhængige, hvilket ses af følgende omskrivning Cov[X, X ] E[X X T ] E[X ]E[X ] T E[X ]E[X ] T E[X ]E[X ] T O Sætning 3 Lad X og X være stokastiske vektorer og lad A og B være matricer, da gælder Cov[AX, BX ] ACov[X, X ]B T Cov[AX, BX ] E[AX AE[X ])BX BE[X ]) T ] E[AX E[X ])X E[X ]) T B T ] A E[X E[X ])X E[X ]) T ] B T ACov[X, X ]B T Definition 33 Lad X X, X,, X d ) være en d-dimensional stokastiske vektor Da er variansmatricen V ar[x] defineret som V ar[x] Cov[X, X] [Cov[X i,x j])] [E[X i E[X i])x j E[X j])]] E[X E[X ])X E[X ]) E[X E[X ])X d E[X d ]) E[X d E[X d ])X E[X ]) E[X d E[X d ])X d E[X d ]) V ar[x ] Cov[X,X ] Cov[X,X d ] V ar[x] Cov[X,X ] V ar[x ] Cov[X,X d ] Cov[X d,x ] Cov[X d,x ] V ar[x d ] 3

Det ses af definition 33, at variansmatricen for en d-dimensional stokastisk variabel X er en symmetrisk matix med variansen af komponenterne i X som diagonal Af sætning 3 får man desuden V ar[ax] Cov[AX,AX] ACov[X, X]A T AV ar[x]a T Fremover bruges forkortelsen Σ til variansmatricer Eksempel 3 I en have står 5 birketræer For hvert træ måles, i meter, højden, omkreds af stammen samt aftanden fra jorden til nederste gren Måledata er indsat i matrix X obs 3,9,55,35 4,,75,55 X obs,,35,65 4,3,7,5 6,9,95,5 Hver rækkevektor x i er altså måledata for en observation af en tredimensional stokastisk variabel Estimatatet af middelværdivektoren kan findes til x x, x, x 3 ) 4,6;,66;,37) Værdierne i estimatet S af variansmatricen Σ kan findes som S n n x ij x j )x ik x k ), i og man får S 3,53,376 ),854,376,4,9,854,9,57 Her er 3,53 den empiriske varians af højden på træerne,,4 er den empiriske varians af stammens omkreds og,57 er den empiriske varians af afstanden fra jorden til den nederste gren Ligeledes kan det aflæses, at den empiriske kovarians mellem højden og omkredsen er,376, den empiriske kovarians mellem højden og afstanden er,854, og den empiriske kovarians mellem omkredsen og afstanden er,9 Definition 34 Antag at X, X,, X n er n uafhængige d-dimensionale stokastiske vektorer med henholdsvis middelværdivektorer E[X ], E[X ],, E[X n] og variansmatricer Σ, Σ,, Σ n Da defineres den generalisrede kvadratiske form som n i j n a ijx ixj T X T AX, hvor X X X n) T og A [a ij] er en symmetrisk matrix Sætning 33 Lad X, X,, X n være n uafhængige stokastiske vektorer med henholdsvis middelværdivektorer E[X ], E[X ],, E[X n] og variansmatricer Σ, Σ,, Σ n, da gælder n E[X T AX] a iiσ i + E[X T ]AE[X] i 4

n n E[X T AX] E[ a ijx ixj T ] i j n n E[a ijx ixj T ] i j n i j i j n a ije[x i E[X i])x j E[X j]) T + X ie[x j] T + E[X i]xj T E[X i]e[x j] T ] n n a ije[x i E[X i])x j E[X j]) T ] + E[X i]e[x j] T + E[X i]e[x j] T E[X i]e[x j] T n n n a ijcov[x i, X j] + a ije[x i]e[x j] T i i j n a iiσ i + E[X T ]AE[X] i Der gælder desuden, hvis Σ Σ Σ n, at E[X T AX] tra)σ + E[X T ]AE[X] hvor tra) er sporet af A, og Σ er fælles variansmatrix til de n uafhængige stokastiske variable Et andet begreb, der anvendes for flerdimensionale fordelinger, er Kroneckerproductet af to matricer Definition 35 Lad A og B henholdsvis være en m m og en n n matrix, da er a B a B a mb a B a B a mb A B a mb a mb a mmb Kroneckerproductet af A og B, hvor A B er en mn mn matrix Hvis man igen betragter n uafhængige d-dimensionale stokastiske vektorer X, X,, X n med fælles variansmatrix Σ, gælder, at vektoren Y X T X T Xn T ) T har variansmatrix Σ O O O Σ O V ar[y ] In Σ, O O Σ hvor I n er n n enhedsmaticen 5

33 Momentfrembringende funktioner Momentfrembringende funktioner introduceres, da de anvendes i flere beviser, bla for den flerdimensionale normalfordeling Definition 33 Lad X X,, X n) være en d-dimensional stokastisk variabel, da er M Xt, t,, t n) M Xt) E[e tt X ] den momentfrembringende funktion for X Sætning 33 Lad X X,, X n) være en d-dimensional stokastisk variabel, da gælder M AX+b t) e tt b M XA T t) Sætningen vises ved følgende omskrivning af udtrykket for den momentfrembringende funktion, [People-,]: M AX+b t) E[e tt AX+b) ] e tt b E[e tt AX ] e tt b E[e AT t) T X ] e tt b M XA T t) Sætning 33 Lad to stokastiske variable X og Y være uafhængige og lad dem have samme dimension, da gælder M X+Y t) M Xt)M Y t) Sætningen vises ved følgende omskrivning af udtrykket for den momentfrembringende funktion, [People-,]: M X+Y t) E[e tt X+Y ) ] E[e tt X)+t T Y ) ] E[e tt X) e tt Y ) ] E[e tt X) ] E[e tt Y ) ] M Xt)M Y t) 6

Kapitel 4 Den flerdimensionale normalfordeling Til mange endimensionale kontinuerte fordelinger svarer en tilsvarende flerdimensional fordeling med den egenskab, at de endimensionale marginalfordelinger alle tilhører samme type Der findes bla flerdimensionelle normalfordelinger, som dette afsnit vil belyse [Seber, 984] 4 Definitioner Der findes to definitioner af den flerdimentionale normalfordeling Den første definerer fordelingen ud fra tæthedsfunnktionen, definition 4 Den anden definition er baseret på den unikke egenskab ved den flerdimensionale normalfordeling, at enhver linearkombination af dens komponenter er endimensionale normalfordelinger, definition 4 Definition 4 Lad X X, X,, X d ) være en en d-dimensional stokastisk vektor Da siges X at have en d-dimensional normalfordeling hvis, dens tæthedsfunktion er fx) π) d Σ e x θ)t Σ x θ), hvor < x j <, j,,, d, E[X] θ R d og V ar[x] Σ R d d Bemærk at Σ skal være en positiv definit matrix Når X har en d-dimensional normalfordeling skrives X N d θ, Σ) Hvis alle X j er uafhængige og har en endimensional normalfordeling Nθ j, σ ), j,,, d, ses ud af definition 4 at X N d θ,σ I d ) Ligeledes gælder X θ N d, Σ) Definition 4 Lad X være en d-dimensional stokastisk vektor, E[X] θ og V ar[x] Σ > O og lad u T X have endimensional normalfordeling for alle u Da siges X at have en flerdimensional normalfordeling X N d θ, Σ) Den momentfrembringende funktion for den flerdimensionale normalfordeling, se sætning 4, kan bruges til at vise, at de to definitioner 4 og 4 er ækvivalente, se sætning 4 Situationen hvor Σ er singulær, kan inkluderes i definition 4, hvis restriktionen ændres til Σ O, så der findes mindst ét u, hvor V ar[u T X] Sætning 4 Antag at X N d θ, Σ) Da findes den momentfrembringende funktion af X som M Xt) E[e tt X) ] e tt θ+ tt Σt) 7

Fra definitionen af momentfrembringende funktioner 33 får man M Xt, t,, t d ) M Xt), der kan skrives som M Xt) E[e tt X ] T x π) d Σ e x θ)t Σ x θ) dω R d e t Ved at bruge den lineære transformation X Σ Y + θ med Jacobideterminant X,X,,X d ) Y,Y,,Y d ) Σ, bliver tæthedsfunktionen for Y Y, Y,, Y d ) fy) π) d Σ e yt Σ )Σ Σ y) Σ Ved at skifte variabel bliver udregningen følgende M Xt) e t T Σ x+θ) π) d Σ e xt Σ )Σ Σ x) Σ dω R d T Σ x+θ) π) d e xt x dω R d e t Omskrivningen er mulig, da der gælder Σ Σ Σ Σ Σ Σ Videre gælder e t T Σ x+θ) π) d e xt x dω R d e tt θ π) d e t T Σ x xt x dω R d e tt θ+ tt Σt π) d e xt x t T Σ x+t T Σt) dω R d e tt θ+ tt Σt π) d e x Σ t) T x Σ t) dω R d Da funktionen under integralet er tæthedsfunktionen for fordelingnen N d Σ t, Id ), kan udtrykket forenkles til M Xt) e tt θ+ tt Σt Sætning 4 De to definitioner 4 og 4 er ækvivalente, når der ses bort fra det singulære tilfælde Lad X N d θ, Σ) være defineret som i definition 4 Nu gælder ifølge sætning 8

4, at M Xt) e tt θ+ tt Σt) Desuden har man, for enhver vektor u, ifølge sætning 33, at M u T Xt) M Xut) e ut)t θ+ ut)t Σut)) e ut θt+ ut Σut ) Lad nu u og X N d θ, Σ) være defineret som i definition 4 Da følger af sætningerne 4 og 33, at M u T Xt) e ut θt+ ut Σut ) Vælges t og skrives vektoren u som t, får man for enhver t, at hvilket viser, at M t T X) e tt θ + tt Σt ), M Xt) e tt θ+ tt Σt) Da de to momentfrembringende funktioner er identiske, er definitionerne 4 og 4 ækvivalente [People-,] 4 Vigtige egenskaber De følgende sætninger i afsnittet beskriver nogle af de vigtigste egenskaber ved den flerdimensionale normalfordeling Sætning 4 Hvis X N d θ, Σ) og C er en q d matrix med rang q, gælder at Først anvendes sætning 33 og man får CX + b N qc θ + b, C ΣC T ) M AX+b t) e tt b M XA T t), M CX+b t) e tt b M XC T t) e tt b e CT t) T θ+ CT t) T ΣC T t)) e tt Cθ+b)+ tt CΣC T ) Da man ud fra sætning A ser, at CΣC T > O, gælder der nu ifølge sætning 4 at CX + b N qcθ + b, CΣC T ), hvilket viser sætningen Specielt gælder CX N qcθ, CΣC T ) Sætning 4 Antag at X N d θ, Σ) og lad ) ) ) X θ Σ Σ X, θ, Σ, X θ Σ Σ hvor X og θ er d -dimensionale vektorer og Σ er en d d matrix og d d + d Da gælder X N d θ,σ ) 9

Ved at definere C I d O), der har rang d, og udnytte sætning 4 får man )) Id I d O)X N d I d O)θ, I d O)Σ X O N d θ, Σ ) Ved at omarrangere komponterne i X kan enhver delmængde af komponenter X j fra X, skrives som X Derfor gælder, at en vilkårlig delmængde af komponenter fra X danner en stokastisk vektor, som er flerdimensional normalfordelt Specielt vil ethver komponent være éndimensionalt normalfordelt Sætning 4 viser altså, at alle marginalfordelinger af en normalfordelt stokastisk vektor er normalfordelinger Det omvendte er dog ikke gældende I det følgende eksempel vises, at to stokastiske variable kan være normalfordelt uden at have en simultan normalfordeling Eksempel 4 Lad Y N,), og lad X være uafhængig af Y, sådan at P X ) og P X ) Nu defineres Z XY, og man får P Z y) P Y y) + P Y y) F y) + F y)) F y) Dermed er Z N,), hvilket vil sige at både Z og Y er standard normalfordelt Dog gælder der samtidigt at P Y + Z ) P X ) Heraf ses, at Y + Z ikke er normalfordelt og derfor er Y,Z), jf definition 4, heller ikke normalfordelt [Gut, 9] Sætning 43 To normalfordelte stokastiske vektorer X og X er uafhængige, hvis og kun hvis Cov[X, X ] O ) ) X t Lad X og t sådan at X X t og t er d -dimensionale og X og t er d -dimensionale, samt at henholdvis X, X og t, t kan sammensættes til X og t Nu gælder ifølge sætning 4, at M Xt) e tt θ+ tt Σt) ) ) )) θ Σ Σ t T tt ) + θ t tt tt ) e Σ Σ t e tt θ +t T θ + tt Σ t + tt Σ t + tt Σ t + tt Σ t ) e tt θ + tt Σ t ) e t T Σ t ) e t T θ + tt Σ t ) M X t ) e tt Σ t ) MX t ) M X ) T t) ett Σ t ) MX ) T t) 3

X Da der gælder, at X og X er uafhængige, hvis og kun hvis uafhængige, får man ifølge sætning 33, at en nødvendig betingelse er ) og X ) er e tt Σ t ) for alle t Σ O Cov[X, X ] O, hvilket beviser at Cov[X, X ] O når X og X er uafhængige Antages omvendt ) at Cov[X, X ] O, får man variansmatricen Σ for X X til at være X ) Σ O Σ, O Σ Hvor Σ og Σ er variansmatricerne for X og X Heraf følger ) Σ Σ O O Nu ses at ) T x θ) T Σ x θ Σ x θ) x θ O Tæthedsfunktionen for X bliver Σ O Σ ) ) x θ x θ x θ ) T Σ x θ ) + x θ ) T Σ x θ ) h x ) + h x ) f Xx,, x d,x,, x d ) π) d +d Σ Σ ) e h x )+h x )) π) d Σ ) e h x )) π) d Σ ) e h x )) f X x,, x d )f X x,, x d ), hvilket viser at X og X er uafhængige og dermed fuldfører beviset Sætning 44 Hvis V i A ix, i,,, m og X er defineret som i sætning 4, da er alle V i parvis uafhængige, hvis og kun hvis Cov[V i, V j] O for alle i j Antag at A i, i,, m, har fuld rang og Betragt V Vi ), i j V j V V m Det følger af sætning 3, at m ranga i) d og lad i A X A mx A A m X Cov[V i, V j] O Cov[A ix, A jx] O Cov[A ix, A jx] O A iσa T j O, hvilket viser at rækkerne i A i er ortogonale ) på rækkerne i A j mht det indre produkt a,b a T Ai Σb Derfor har A fuld rang, dvs A j 3

) Ai rang ranga A i) + ranga j) p d Dermed er V N paθ, AΣA T ), og der j gælder ifølge sætning 43, at Cov[V i, V j] O V i og V j er uafhængige Sætning 45 Hvis X er defineret som i sætning 4, gælder X θ) T Σ X θ) χ d Igen anvendes den lineære transformation X Σ Y + θ, hvor tæthedsfunktionen for Y Y, Y,, Y d ) er ) fy) π) d Σ e yt Σ )Σ Σ y) Σ Udtrykket kan omskrives til fy) π) d e yt y)) π) d e yt y)) π) d e d i π d i e y i y i ) ) Hvilket viser, at Y i N,), i,,, d og Y, Y,, Y d er uafhængige Man får X θ) T Σ X θ) Σ Y + θ θ) T Σ Σ Y + θ θ) d Y T Y Yi χ d X θ) T Σ X θ) er altså chi-i-anden fordelt med d frihedsgrader i ) Sætning 46 Hvis X N d θ, Σ), gælder at X T Σ X har en ikke-central chi-ianden fordeling med d frihedsgrader og ikke-centralitets parameter δ θσ θ Lad X være skrevet som X Σ Y Man får Y Σ X Nd Σ θ, Σ ΣΣ ) Nd Σ θ, Id ) Udtrykket X T Σ X kan herefter omskrives til X T Σ X Y T Σ Σ Σ Y Y T Y Da Y er normalfordelt med middelværdien Σ θ og varians Id, gælder at Y T Y er chi-i-anden fordelt med d frihedsgrader og Σ θ) T Σ θ) som ikke-centralitets parameter Altså X T Σ X χ d, Σ θ) T Σ θ)) χ d, θ T Σ θ) 3

Sætning 47 Lad X X X ) ) )) θ Σ Σ N d +d, θ Σ Σ Da gælder, at den betingede fordeling af X givet X x er N d θ + Σ Σ x θ), Σ ), hvor Σ Σ ΣΣ Σ Først introduceres Z X Σ Σ X, der er ) normalfordelt, da Z er en linearkombination af komponenter fra X Vektoren kan skrives som X Z ) ) ) X Id X Z Σ Σ I d X Variansmatricen findes til ) ) ) ) X Id Σ Σ Id Σ V ar Σ Z Σ Σ )T I d Σ Σ I d ) ) Σ Σ Id Σ Σ + Σ Σ Σ Σ Σ + Σ I d ) ) Σ Σ + Σ Σ Σ Σ Σ + Σ Σ Σ Σ + Σ Ifølge sætning 43 er X og Z er uafhængige Fra ovenstående variansmatrix ser man at V ar[z] Σ Σ Σ + Σ Σ Middelværdien af Z kan udregnes til E[Z] E[X ] Σ Σ E[X ] θ Σ Σ θ Der gælder altså at Z N d θ Σ Σ θ, Σ ) Udtrykkes X ud fra Z, får man X Z + Σ Σ X Betinget med X x, får man følgende udtryk for X Middelværdien af X x findes til X x Z x + Σ Σ x Z + Σ Σ x E[X x ] EZ + Σ Σ x θ Σ Σ θ + Σ Σ x θ + Σ Σ x θ ) og variansen er V ar[x x ] V ar[z] Σ Dermed gælder X x N d θ + Σ Σ x θ ), Σ ) 33