Flerdimensionale transformationer

Relaterede dokumenter
Sandsynlighedsregning Oversigt over begreber og fordelinger

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Statistik og Sandsynlighedsregning 2

standard normalfordelingen på R 2.

Reeksamen 2014/2015 Mål- og integralteori

Eksamen 2014/2015 Mål- og integralteori

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.

Statistik og Sandsynlighedsregning 2

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Elementær sandsynlighedsregning

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Kvantitative Metoder 1 - Forår 2007

Statistik og Sandsynlighedsregning 2

Elementær sandsynlighedsregning

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Normalfordelingen og Stikprøvefordelinger

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Kvantitative Metoder 1 - Efterår Dagens program

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Statistik og Sandsynlighedsregning 2

Betingning med en uafhængig variabel

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

INSTITUT FOR MATEMATISKE FAG c

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Note om Monte Carlo metoden

Deskriptiv teori i flere dimensioner

Kvantitative Metoder 1 - Forår Dagens program

Transformation: tætheder pår k

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Uge 10 Teoretisk Statistik 1. marts 2004

Kvantitative Metoder 1 - Forår 2007

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Statistik og Sandsynlighedsregning 2

Integration m.h.t. mål med tæthed

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Deskriptiv teori i flere dimensioner

Betingede fordelinger

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Om hypoteseprøvning (1)

Definition. Definitioner

5.3 Konvergens i sandsynlighed Konvergens i sandsynlighed 55. Hvis vi regner den karakteristiske funktion for X, v ud i argumentet 1, fås

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Taylors formel. Kapitel Klassiske sætninger i en dimension

Teoretisk Statistik, 16. februar Generel teori,repetition

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Differentialregning i R k

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Antag at. 1) f : R k R m er differentiabel i x, 2) g : R m R p er differentiabel i y = f(x), . p.1/18

Lidt om fordelinger, afledt af normalfordelingen

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

En martingalversion af CLT

Sandsynlighedsregning 8. forelæsning Bo Friis Nielsen

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Sandsynlighedsregning 8. forelæsning Bo Friis Nielsen

Løsning til prøveeksamen 1

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Kapitel 4 Sandsynlighed og statistiske modeller

Integration m.h.t. mål med tæthed

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 29. maj 2015 Kursus nr : (navn) (underskrift) (bord nr)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Statistiske modeller

CIVILINGENIØREKSAMEN Side 1 af 16 sider. Skriftlig prøve, den: 27. maj 2011 Kursus nr : (navn) (underskrift) (bord nr)

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

En martingalversion af CLT

Kvantitative Metoder 1 - Efterår Dagens program

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder

Sandsynlighedsteori. Sandsynlighedsteori. Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et. Et Bayesiansk argument

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

CIVILINGENIØREKSAMEN Side 1 af 18 sider. Skriftlig prøve, den: PQ. juli 200Z Kursus nr : (navn) (underskrift) (bord nr)

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Den todimensionale normalfordeling

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Kvantitative Metoder 1 - Forår Dagens program

Tonelli light. Eksistensbeviset for µ ν gav målet. for G E K ved succesiv integration. Alternativ definition:

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Tema. Dagens tema: Indfør centrale statistiske begreber.

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Transkript:

Kapitel 18 Flerdimensionale transformationer Når man i praksis skal opstille en sandsynlighedsmodel for et eksperiment, vil man altid tage udgangspunkt i uafhængighed. Ofte kan man tænke på det udførte eksperiment som et sammensat eksperiment, hvor de enkelte deleksperimenter er udført hver for sig, altså uafhængigt i en intuitiv betydning af ordet. Hvis vi har udført n deleksperimenter, kan en fornuftig model være at hvert af disse beskrives af en stokastisk variabel X i, hvor X i N(ξ i, σ 2 ), i = 1,..., n, og hvor X 1,..., X n er uafhængige. Denne model, med uafhængige, normalfordelte variable hvor middelværdien får lov at afhænge af observationsnummeret, men hvor variansen er fast, er det grundlæggende statistiske værktøj i et meget stort antal situationer. I andre situationer er uafhængigheden mere skjult. Man kan f.eks. forestille sig at de observerede variable X 1,..., X n har en autoregressiv struktur: X i = ρ X i 1 + ɛ i, i = 2,..., n, hvor ρ ( 1, 1) er en parameter, og hvor ɛ erne er uafhængige og identisk fordelte, f.eks. ɛ i N(0, σ 2 ), i = 1,..., n. 376

18.1. Klassifikationseksperimenter 377 Det karakteristiske i dette setup er at ɛ i erne slet ikke observeres - vi observerer kun hvordan ɛ i erne manifesterer sig i X i erne. Der er således noget fiktivt over de ɛ er hvorpå vi lægger uafhængighedsantagelsen. Bemærk at de observerede variable ikke er uafhængige, det er f.eks. let at se at Cov(X i, X i 1 ) = ρ VX i 1, i = 2,..., n. Når vi insisterer på at tage udgangspunkt i uafhængighed, er det fordi at den eneste form for samvariation mellem stokastiske variable, vi for alvor er i stand til at begribe, er ingen samvariation, altså uafhængighed. Når vi tvinges til at modellere afhængighed, vil det altid ske i form af en transformation af en model med uafhængige variable. Vi tænker på produktmål som simple flerdimensionale mål, og vi insisterer altså på altid at beskrive data - enten observerede data eller bagvedliggende fiktive data - ved hjælp af sådanne produktmål. De komplicerede flerdimensionale mål (og for så vidt også komplicerede etdimensionale mål) kommer primært til verden, når vi transformerer data. 18.1 Klassifikationseksperimenter I et simpelt klassifikationseksperiment undersøger man et objekt fra en given population, og klassificerer det efter et vist inddelingskriterium. Vi klistrer altså en etikette på objektet, der fortæller hvad for en slags objekt der er tale om. Der er kun endeligt mange mulige etiketter. I abstrakte sammenhænge bruger man som regel etiketterne {1,..., N}, mens det i praksis ofte er mere naturligt at bruge en anden endelig mængde X som etikettemængde. Eksempel 18.1 Et højt elsket klassifikationseksperiment handler om at tage en kugle op af en urne, og undersøge hvilken farve den udtrukne kugle har. Hvis urnen indeholder røde, hvide og sorte kugler, vil det være naturligt at bruge etikettemængden X = {rød, hvid, sort}. (18.1) Man kan naturligvis vælge en rækkefølge af farverne, f.eks. lade rød svare til 1, hvid til 2 og sort til 3, og derefter bruge etikettemængden {1, 2, 3}, og hvis man vil lade data behandle af en computer, er man som regel nødt til at gøre noget i denne

378 Kapitel 18. Flerdimensionale transformationer stil. Men nummereringen har noget utilfredsstillende arbitrært over sig, og man står sig ofte ved at bruge etiketterne i (18.1). Eksempel 18.2 Et andet klassisk klassifikationseksperiment består i at undersøge blodtypen på en patient. Klassificeres blodtypen efter AB0-systemet bruges etikettemængden X = {A, B, AB, 0}. Der findes en del andre klassifikationssystemer, herunder Rhesusblodtypen. Selve klassifikationen er givetvis deterministisk: når man står med et objekt i hånden, er der ikke noget stokastisk over hvilken etikette vi påklistrer det. Tilfældigheden kommer ind, fordi objektet er valgt tilfældigt fra populationen. Man kunne lige så godt have valgt et andet objekt, og dermed muligvis have observeret en anden etikette. Så klassifikationen har et stokastisk fremtrædende, for så vidt som at vi ikke før objektet vælges ved hvilken etikette vi kommer til at se. Chancerne for at se en konkret etikette, afspejler altså hvor stor en del af populationen, der - hvis undersøgt - ville få netop denne etikette påklistret. En sandsynlighedsmodel for et simpelt klassifikationseksperiment består altså af en endelig mængde X = {1,..., N} og et sandsynlighedsmål ν på (X, P(X)). Vi repræsenterer eksperimentet ved en stokastisk variabel sådan at X : (Ω, F, P) (X, P(X)), P(X = x) = p x, x = 1,..., N. hvor (p 1,..., p N ) er sandsynlighedsfunktionen for ν. Altså sådan at X(P) = ν. I et sammensat klassifikationseksperiment udvælger man efter tur n objekter fra populationen, og hvert af disse klassificeres. De udtrukne objekter udgør en stikprøve fra populationen. Hvis hvert undersøgt objekt sættes tilbage i populationen efter endt klassifikation, og kan trækkes påny på lige fod med de ikke-undersøgte objekter, så taler vi om stikprøveudtagning med tilbagelægning. Vi taler også ofte om stikprøveudtagning med tilbagelægning, uanset hvad der sker med de undersøgte objekter, hvis blot populationen er uendelig stor, sådan at et enkelt objekt fra eller til ikke spiller nogen rolle for fordelingen af etiketter i populationen.

18.1. Klassifikationseksperimenter 379 En naturlig sandsynlighedsmodel for stikprøveudtagning med tilbagelægning er at bruge uafhængige, identisk fordelte stokastiske variable X 1,..., X n, alle defineret på et baggrundsrum (Ω, F, P), med værdier i (X, P(X)), sådan at P(X i = x) = p x, x = 1,..., N, i = 1,..., n. Med andre ord: sådan at den simultane fordeling af (X 1,..., X n ) er produktmålet ν... ν på (X n, P(X) n ). Det er nemt at angive sandsynligheden for at observere enhver konkret sekvens (x 1,..., x n ) af etiketter: det er simpelthen P(X 1 = x 1,..., X n = x n ) = n p xi. i=1 Til gengæld er en observeret sekvens af etiketter en helt uoverskuelig kaskade af data, i hvert fald hvis n er stor. Man vil derfor ofte tabellere data, dvs. transformere med funktionen t n : X n N N 0 givet ved n n t n (x 1,..., x n ) = 1 {1} (x i ),..., 1 {N} (x i ) for (x 1,..., x n ) X n. i=1 i=1 Førstekoordinaten i t n (x 1,..., x n ) er altså antallet af 1-taller i etikettesekvensen (x 1,..., x n ), andenkoordinaten er antallet af 2-taller, og så videre. Vi bemærker at t n (x 1,..., x n ) S (N, n) for alle (x 1,..., x N ) X n fordi det samlede antal etiketter jo er n. Sætning 18.3 Lad X 1,..., X n være uafhængige, identisk fordelte stokastiske variable, defineret på (Ω, F, P) med værdier i X = {1,..., N}. Antag at P(X i = x) = p x, x = 1,..., N, i = 1,..., n. Lad Y = (Y 1,..., Y N ) være tabelleringen af X i erne, altså Y = t n (X 1,..., X n ). Da er Y polynomialfordelt med længde n og sandsynlighedsvektor (p 1,..., p N ).

380 Kapitel 18. Flerdimensionale transformationer BEVIS: Tag en sekvens y = (y 1,..., y N ) S (N, n). Da er P(Y 1 = y 1,..., Y n = y N ) = P(X t 1 n (y)) = P(X 1 = x 1,..., X n = x n ) = = x t n 1 (y) x t n 1 (y) p 1 y1... p N y N = t n 1 (y) n x t 1 n (y) i=1 N y p j j. Hvor mange n-sekvenser af X-etiketter findes der med den foreskrevne tabellering y? Definition 16.7 er direkte rettet mod dette spørgsmål, og vi ser at ( t 1 n (y) = n y 1,..., y N ). j=1 p xi Alt i alt får vi at ( P(Y 1 = y 1,..., Y n = y N ) = n y 1,..., y N ) N y p j j, j=1 som ønsket. Eksempel 18.4 Man undersøgte hvilken form for studentereksamen 1 000 studenter fik i året 1997. Hver eksamen klassificeredes i en af følgende kategorier: X = {Sproglig, Matematisk, HF} = {S, M, H}. De observerede data er en sekvens af formen H, S, H, M, S, H, M, H, S, H, H, H, S, S,... Sekvensen fortsætter side op og side ned. Det er meget begrænset, hvilken indsigt man kan vinde ved at stirre på disse rå data. Helt anderledes forholder det sig hvis man tabellerer dem: Sproglig Matematisk HF 333 436 231

18.1. Klassifikationseksperimenter 381 Her kan man umiddelbart få et overblik over data. For at opnå dette overblik har vi foretaget en datareduktion - vi har smidt store mængder information væk. Vi er f.eks. ude af stand til at reproducere de oprindelige data ud fra tabelleringen - enhver information om rækkefølgen af de tre etiketter i den rå sekvens er væk. Men vi føler os ikke hæmmede af at have smidt information væk, den ekstra information der ligger i de oprindelige data forekommer os ikke særlig relevant. Om tallene i tabellen er repræsentative for hvor almindelige de forskellige typer studentereksamen er i den samlede population af studenter, er et andet spørgsmål. Det har at gøre med hvordan de 1 000 studenter er blevet valgt ud til undersøgelse. Er de f.eks. taget i en bestemt geografisk region, eller er der i udvælgelsesproceduren forkærlighed for et bestemt køn? Man kan godt diskutere om der virkelig er tale om stikprøveudtagning med tilbagelægning. Ud fra et strengt formelt synspunkt er der i hvert fald ikke tale om tilbagelægning. Man har udtaget 1 000 forskellige elever, man har naturligvis ikke tilladt den samme elev at blive talt med flere gange. Formelt taler man om stikprøveudtagning uden tilbagelægning. En tabellering af stikprøven i et udtrækningsproces uden tilbagelægning er ikke polynomialfordelt. Men afvigelsen er ubetydelig, hvis den samlede population er meget større end den udtagne stikprøve. I 1997 blev der i alt taget godt 23 000 studentereksamener, så 1 000 udtagne studenter virker ikke som nogen helt forsvindende stikprøve. Men det er ikke klart at de faktisk aflagte studentereksamener udgør populationen. I så fald kunne man jo bare tælle dem op alle sammen, og så ville enhver tilfældighed være elimineret. De svar man kan opnå på denne måde er bare sjældent svar på de spørgsmål man virkelig ønsker besvaret. I dette tilfælde er man måske interesseret i at vurdere om lærerallokeringen mellem de tre gymnasiale retninger svarer til behovet i de kommende år. I så fald er de elever der fik en studentereksamen i 97 er en nærmest irrelevant population. De er jo ude af det gymnasiale system. Det vigtige er hvordan de kommende årgange vil fordele sig. Og 97-årgangen er interessant for så vidt som dens studerende fordelte sig på retningerne efter samme mekanisme som kommende års studerende. Dermed er 97-årgangen i sig selv en slags stikprøve (og de 1 000 elever vi har tabelleret, er en substikprøve). Der er en eller anden ikke alt for veldefineret underliggende virtuel population af gymnasiaster i Danmark. Men man griber ofte til det trick at forestille sig at populationen er potentielt uendelig, at man kunne have tildelt en studentereksamen til mange flere end dem der rent faktisk fik en, og at de virtuelle studentereksamener ville fordele sig på de tre typer

382 Kapitel 18. Flerdimensionale transformationer på stort set samme måde som de faktisk opnåede studentereksamener. Man er nødt til at foretage den slags intellektuelle kraftspring, dels for at få frekvensfortolkningen af sandsynligheder til at give mening, og dels for at kunne svare på de spørgsmål man virkelig er interesseret i. Man vinder altså ofte i klarhed ved transformationer. Men for en pris: modellen for de transformerede data er meget mere kompliceret end for de oprindelige data. De enkelte Y i -variable har ganske vist en simpel fordeling, de er alle binomialfordelte. Men deres samvariation er væmmelig, se f.eks. (17.14). Sætning 18.5 Lad Y = (Y 1,..., Y N ) og Y = (Y 1,..., Y N ) være uafhængige polynomialfordelte variable med længde n hhv. n og samme sandsynlighedsparameter (p 1,..., p N ). Da er Y = (Y 1,..., Y N ) = (Y 1 + Y 1,..., Y N + Y N ) polynomialfordelt med længde n + n og sandsynlighedsparameter (p 1,..., p N ). BEVIS: Lad X 1,..., X n+n, defineret på samme baggrundsrum (Ω, F, P) og med værdier i X = {1,..., N}, være uafhængige, identisk fordelte, sådan at Vi konstruerer nye variable P(X i = x) = p x, x = 1,..., N, i = 1,..., n + n. Z = (Z 1,..., Z N ) = t n (X 1,..., X n ), Z = (Z 1,..., Z N ) = t n (X n+1,..., X n+n ). Det er klart at Z er polynomialfordelt med længde n og sandsynlighedsparameter (p 1,..., p N ), så Z har samme fordeling som Y. Tilsvarende er Z polynomialfordelt med længde n og sandsynlighedsparameter (p 1,..., p N ), så Z har samme fordeling som Y. Det følger af sætning 16.18 at Z og Z er uafhængige, og da Y og Y også er uafhængige, kan vi konstatere at den simultane fordeling af (Y, Y ) er den samme som den simultane fordeling af (Z, Z ). Derfor har Y samme fordeling som Z = (Z 1,..., Z N ) = (Z 1 + Z 1,..., Z N + Z N ). Men Z er polynomialfordelt med længde n + n og sandsynlighedsparameter (p 1,..., p N ), for Z = t n+n (X 1,..., X n+n ).

18.2. Ordnede variable 383 Det anførte bevis for sætning 18.5 virker en smule kompliceret, men er baseret på en simpel ide: hvis de indgående polynomialfordelinger er kommet til verden ved tabellering af klassifikationseksperimenter, så er påstanden stort set triviel. Og man tænker altid på polynomialfordelinger på denne måde. Men sætningens formulering tillader i virkeligheden at polynomialfordelingerne ikke har basis i klassifikationseksperimenter (skønt det i så fald kan være svært at forestille sig hvordan de er kommet til verden). Derfor skal man overbevise sig om at den påstand der gøres, ikke afhænger af hvordan polynomialfordelingerne skabes. Ved på tilsvarende måde at fokusere på polynomialfordelinger med basis i klassifikationseksperimenter, kan man give simple beviser for andre generelle resultater om polynomialfordelinger, herunder lemma 16.11 og formel (17.14). 18.2 Ordnede variable Betragt afbildningen h : R n R n givet ved h(x 1,..., x n ) = (x (1),..., x (n) ), (18.2) hvor x (1)... x (n) er de ordnede værdier af x i erne. Vi ønsker at undersøge følgende spørgsmål: hvis X 1,..., X n er uafhængige, identisk fordelte stokastiske variable, hvad er så den marginale fordeling af hvert X (m)? Vi vil senere vende tilbage til den simultane fordeling af hele sættet (X (1),..., X (n) ). Eksempel 18.6 Lad X 1 og X 2 være uafhængige, ligefordelte på (0, 1). På figur 18.1 har vi optegnet et scatterplot af 1 000 observationspar af denne type, samt et histogram over X 1. Der er intet i denne tegning der overrasker os, punkterne af formen (X 1, X 2 ) spreder sig ud i enhedskvadratet, og X 1 -histogrammet viser den forventede ligefordeling. Helt anderledes forholder det sig, hvis vi ordner observationerne før vi laver tegningen. På figur 18.1 har vi også optegnet et scatterplot af (X (1), X (2) ), baseret på de samme observationer som før, samt et histogram over X (1) -værdierne. Det er tydeligt at X (1) og X (2) er afhængige - en stor X (1) -værdi giver automatisk en stor X (2) -værdi. Og det er tydeligt ud fra histogrammet at X (1) ikke er ligefordelt. For en overfladisk betragtning er det måske overraskende at X (1) ikke er ligefordelt. Vi ved jo at X (1) er lig en af de oprindelige X er, og de er begge ligefordelte. Hvis man

384 Kapitel 18. Flerdimensionale transformationer X2 0.0 0.5 1.0 0.0 0.5 1.0 X 1 0.0 0.5 1.0 0.0 0.5 1.0 X 1 PSfrag replacements X(2) 0.0 0.5 1.0 0.0 0.5 1.0 X (1) 0 1 2 0.0 0.5 1.0 X (1) Figur 18.1: Øverst til venstre et scatterplot af 1 000 simulationer af to uafhængige variable X 1 og X 2, begge ligefordelte på (0, 1). Øverst til højre et histogram af de observerede X 1 - værdier. Nederst til venstre et scatterplot af de ordnede observationer X (1) og X (2), og nederst til højre et histogram af de observerede X (1) -værdier. havde taget en tilfældig af de oprindelige X er, så ville den resulterende variabel også være ligefordelt. Men vi tager ikke et tilfældig X, vi tager systematisk det mindste. Og det tvinger X (1) til at være lille - hvis X (1) er stor, må begge X er være store, og det er ikke så sandsynligt. Sætning 18.7 Lad X 1,..., X n være uafhængige, identisk fordelte stokastiske variable med fordelingsfunktion F. For m = 1,..., n er fordelingsfunktionen for X (m) givet ved n ( ) n G(y) = F(y) k( 1 F(y) ) n k, y R. (18.3) k k=m

18.2. Ordnede variable 385 BEVIS: At X (m) y er ækvivalent med at mindst m af X erne er mindre end y. Vi deler op efter præcis hvilke X er der er mindre end y: (X (m) y) = = I {1,...,n} n k=m I m Dette er en disjunkt forening, så G(y) = P(X (m) y) = = n k=m I {1,...,n} I =k I {1,...,n} n k=m I =k (X i y for i I, X j > y for j I) I {1,...,n} I =k (X i y for i I, X j > y for j I). F(y) k (1 F(y)) n k = P(X i y for i I, X j > y for j I) n k=m ( ) n F(y) k (1 F(y)) n k. k I specialtilfældet m = n, hvor vi altså tager maksimum af n stokastiske variable, bliver (18.3) til G(y) = F(y) n, for y R. (18.4) I specialtilfældet m = 1, hvor vi altså tager minimum af n stokastiske variable, bliver (18.3) til G(y) = 1 ( 1 F(y) )n, for y R. (18.5) Eksempel 18.8 Hvis X 1,..., X n er uafhængige og ligefordelte på (0, 1), så følger det af (18.3) at hvert X (m) har fordelingsfunktion G(y) = n k=m ( ) n y k (1 y) n k for y (0, 1). k

386 Kapitel 18. Flerdimensionale transformationer Differentieres fordelingsfunktionen, får vi G (y) = = n ( ) n (k y k 1 (1 y) n k (n k) y k (1 y) n k 1) k n ( ) n 1 n ( ) n 1 n y k 1 (1 y) n k n y k (1 y) n 1 k. k 1 k k=m k=m k=m Denne sum teleskoperer, og efter lidt reduktion ser man at G (y) = n! (m 1)! (n m)! ym 1 (1 y) n m. Dette er netop tætheden for B(m, n m + 1)-fordelingen. Og heraf slutter vi at X (m) er B(m, n m + 1)-fordelt. Blandt andet ser vi at hvis n = 2, følger X (1) en B(1, 2)- fordeling, i fin overensstemmelse med figur 18.1. I princippet kan man gå videre, og finde den flerdimensionale fordelingsfunktion for den simultane fordeling af alle X (m) erne - eller måske blot af nogle af dem. Udtrykkene bliver dog i almindelighed temmelig uhåndterlige. Hvis man skærper kravene, sådan at de indgående variable har tæthed, så kan man derimod få brugbare karakteriseringer af den simultane fordeling af de ordnede observationer frem, som vi senere skal se. Bemærk at den empiriske fordeling af punkterne x 1,..., x n R bliver den samme uanset hvordan observationerne er stillet i rækkefølge. Så man kan udlede den empiriske fordeling ud fra de ordnede observationer. Omvendt, hvis man kender den empiriske fordeling, kan man finde den empiriske fordelingsfunktion som i eksempel 14.7. Springpunkterne for den empiriske fordelingsfunktion fortæller netop hvor observationerne er faldet, men man kan ikke se i hvilken rækkefølge de er fremkommet. Man er altså i stand til at reproducere de ordnede observationer, men ikke de oprindelige observationer. Vi konkluderer, at en angivelse af de ordnede observationer er ækvivalent med en angivelse af den empiriske fordelingsfunktion. Empiriske fordelingsfunktioner spiller en betydelig rolle i statistik, så denne forbindelse kan til en vis grad forklare hvorfor man er interesseret i ordnede observationer.

18.3. Range 387 Eksempel 18.9 Lad X 1,..., X n være uafhængige og ligefordelte på (0, 1). Betragt et p (0, 1) og lad Y være den mindste empiriske p-fraktil, Y = X ([np]+1). Ifølge eksempel 18.8 er Y B-fordelt med formparametre ([np] + 1, n [np]). Vi ser at EY = [np] + 1 n + 1 p, VY = ([np] + 1)(n [np]) (n + 1) 2 (n + 2) p(1 p) n. Vi ser til vores tilfredsstillelse at den empiriske p-fraktil i det mindste ligger tæt på den sande p-fraktil, og jo tættere, jo flere observationer vi har. 18.3 Range Når man ordner observationer x 1,..., x n R, så opgiver man at holde styr på hvilke observationer, der er store, og hvilke, der er små. Et helt andet syn på observationerne får man, hvis man udelukkende fokuserer på deres kombinatoriske struktur, altså hvilke observationer, der er store og hvilke der er små, men ser bort fra præcis hvor store og små de er. Hvis alle observationerne er forskellige - vi siger at der ikke er ties - kan vi opsummere observationernes kombinatoriske struktur i rangene: vi ordner hele datamaterialet, og giver den mindste observation rang 1, den næstmindste rang 2 osv. Formelt udregner vi R i = n 1 (x j x i ), i = 1,..., n, (18.6) j=1 hvor vi tæller op hvor mange observationer, der er mindre end eller lig x i. Hvis der er ties mellem observationerne, kan to observationer få tildelt samme rang ud fra (18.6), og i så fald bliver rangbegrebet lidt ubehageligt. Men hvis der ikke er ties, så vil de forskellige observationer få hver sin rang. Med andre ord: rangene R(x 1,..., x n ) = (R 1,..., R n ) vil udgøre en n-permutation. Lemma 18.10 Lad X 1,..., X n være uafhængige, identisk fordelte reelle stokastiske variable med en kontinuert fordeling. Med sandsynlighed 1 er der ingen ties mellem observationerne, og rangene R(X 1,..., X n ) er ligefordelt på den symmetriske gruppe S n.

388 Kapitel 18. Flerdimensionale transformationer BEVIS: Sandsynligheden for at observere en tie mellem X i og X j er nul, ifølge Tonellis sætning. Dermed er der sandsynlighed nul for at observere en tie overhovedet. Så vi kan gå ud fra at rangene er veldefinerede. Hvis (r 1,..., r n ) er en konkret n-permutation, så er udsagnet at (R 1,..., R n ) = (r 1,..., r n ) simpelthen et udsagn om at X i erne er placeret i en speciel rækkefølge. Hvis (r 1,..., r n ) er den trivielle permutation (1,..., n), så er udsagnet det samme som at sige at X 1 < X 2 <... < X n. Men X i erne er ombyttelige, så den ene rækkefølge er præcis lige så sandsynlig som den anden. Og det oversættes til at enhver permutation har samme sandsynlighed for at blive ramt af R. Der er præcis n! permutationer i S n, så vi har at P((R 1,..., R n ) = (r 1,..., r n )) = 1 n! for alle permutationer (r 1,..., r n ) S n. Bemærk at kender vi både de ordnede observationer (x (1),..., x (n) ) og rangene (R 1,..., R n ), så kan vi reproducere de oprindelige observationer (x 1,..., x n ). 18.4 Foldninger Vi vil slutte dette kapitel af med at behandle en af de oftest udførte transformationer af flerdimensionale variable: hvad kan der siges om fordelingen af X + Y, hvis man kender den simultane fordeling af X og Y? Vi vil fokusere på situationen hvor X og Y er uafhængige variable. Vi skal dog se i senere kapitler, at det også er muligt at sige noget om fordelingen af X + Y, selv hvis variablene er afhængige. Definition 18.11 Lad µ og ν være sandsynlighedsmål på (R, B). Betragt funktionen φ : R 2 R givet ved φ(x, y) = x + y, (x, y) R 2. (18.7) Da kaldes billedmålet for foldningen af µ og ν. µ ν = φ(µ ν)

18.4. Foldninger 389 Foldning er en pæn komposition på rummet af sandsynlighedsmål på (R, B). Den er både kommutativ og associativ. Sætning 18.12 Hvis X og Y er uafhængige reelle stokastiske variable, defineret på (Ω, F, P), så er (X + Y)(P) = X(P) Y(P). BEVIS: Ved at bruge (18.7) ser vi at (X + Y)(P) = ( φ (X, Y) ) (P) = φ ( (X, Y)(P) ) = φ ( X(P) Y(P) ) = X(P) Y(P). Så at lægge uafhængige reelle stokastiske variable sammen, svarer til at folde deres fordelinger. Vi starter med at folde diskrete fordelinger: Sætning 18.13 Lad X og Y være uafhængige reelle stokastiske variable, defineret på (Ω, F, P). Hvis X og Y begge er koncentreret på Z, med sandsynlighedsfunktion p hhv. r, så er X + Y koncentreret på Z med sandsynlighedsfunktion q(n) = m= p(n m) r(m), for alle n Z. (18.8) BEVIS: Det er klart at X +Y er koncentreret på Z - en værdi uden for Z ville jo kræve at mindst én af variablene X eller Y havde værdi uden for Z, og det er der sandsynlighed nul for. Vi finder let sandsynlighedsfunktionen: P(X + Y = n) = m= P(X = n m, Y = m) = m= p(n m) r(m).

390 Kapitel 18. Flerdimensionale transformationer Eksempel 18.14 Lad X og Y være uafhængige og binomialfordelte med længde n hhv. m og samme successandsynlighed p. Da er sandsynlighedsfunktionen for fordelingen af X + Y p(i) = j= ( ) ( ) n m p i j (1 p) n i+ j p j (1 p) m j i j j )( ) m = p i (1 p) n+m i ( n + m = i j= ) p i (1 p) n+m i ( n i j for alle i Z. Altså er X + Y binomialfordelt med længde n + m og den oprindelige successandsynlighed p. Det vidste vi sådan set godt i forvejen, det kan ses som et specialtilfælde af resultaterne i sætning 18.5 om fordelingen af summen af to uafhængige polynomialfordelte variable. Eksempel 18.15 Hvis X og Y er uafhængige og Poissonfordelte med parametre λ hhv. µ, er sandsynlighedsfunktionen for fordelingen af X + Y p(i) = i j=0 λ i j (i j)! e λ µ j = (λ + µ) i e (λ+µ) = (λ + µ)i i! i! e (λ+µ) j! e µ i j=0 j ( ) ( i λ j λ + µ ) i j ( µ λ + µ ) j for alle i Z. Altså er X + Y Poissonfordelt med parameter λ + µ. Samme ide som førte til sætning 18.13 kan bruges i mere generelle situationer til at sige noget om fordelingsfunktionen af en sum af uafhængige variable. Sætning 18.16 Lad X og Y være uafhængige reelle stokastiske variable, defineret på (Ω, F, P). Lad X have fordeling µ og fordelingsfunktion F. Lad tilsvarende Y have

18.4. Foldninger 391 fordeling ν og fordelingsfunktion G. Da har X + Y fordelingsfunktionen H, bestemt ved H(z) = F(z y) dν(y) = G(z x) dµ(x). (18.9) BEVIS: Tag et z R. Da har vi at H(z) = P(X + Y z) = (X, Y)(P) ( {(x, y) R 2 x + y z} ) = µ ν ( {(x, y) R 2 x + y z} ). Tonellis sætning giver nu at H(z) = µ ( {x R x + y z} ) dν(y) = Ved tilsvarende at bruge Tonellis sætning på den anden led, fås H(z) = ν ( {y R x + y z} ) dµ(x) = F(z y) dν(y). G(z x) dµ(x). Ved at skærpe antagelsen om de indgående fordelinger, kan man på baggrund af (18.9) også skærpe konklusionen fra sætning 18.16. Korollar 18.17 Lad X og Y være uafhængige reelle stokastiske variable, defineret på (Ω, F, P). Hvis X eller Y har en kontinuert fordeling, så har X + Y også en kontinuert fordeling. BEVIS: Lad X og Y have fordeling µ hhv. ν og fordelingsfunktion F hhv. G, og lad X + Y have fordelingsfunktion H. Helt analogt med (18.9) kan man indse at H(z 0) = F(z y 0) dν(y) = G(z x 0) dµ(x). Hvis f.eks. X har en kontinuert fordeling, er F(z y 0) = F(z y) for alle z og y. Og dermed er H(z 0) = F(z y 0) dν(y) = F(z y) dν(y) = H(z) for alle z R. Så fordelingsfunktionen for X + Y er kontinuert. Argumentet hvis Y har en kontinuert fordeling, er analogt.

392 Kapitel 18. Flerdimensionale transformationer Korollar 18.18 Lad X og Y være uafhængige reelle stokastiske variable, defineret på (Ω, F, P). Hvis X eller Y har tæthed med hensyn til m, så har X + Y også tæthed med hensyn til m. Mere præcist, hvis X har tæthed f, og Y har fordeling ν, så har X + Y tæthed h(z) = f (z y) dν(y) for z R. (18.10) BEVIS: Det følger af (18.9) at X + Y har fordelingsfunktion H(z) = z y f (x) dx dν(y). Substitutionen w = x + y i det inderste integral, efterfulgt af en brug af Tonellis sætning, giver H(z) = z f (w y) dν(y) dw = z h(w) dw hvor h er funktionen fra (18.10). Heraf følger let at h er en sandsynlighedstæthed, og at fordelingen af X + Y har tæthed h. Den oftest benyttede variant af disse resultater, er den følgende, hvor vi antager at begge variable har tæthed. Bemærk hvor tæt beslægtet (18.11) er med (18.8). Korollar 18.19 (Foldning af tætheder) Lad X og Y være uafhængige reelle stokastiske variable, defineret på (Ω, F, P). Hvis X har tæthed f med hensyn til m, og Y har tæthed g med hensyn til m, så har X + Y tæthed h(z) = f (z y)g(y) dy = f (x)g(z x) dx for z R (18.11) BEVIS: Det første udtryk for h følger ved indsættelse af ν = g m i (18.10). Det andet følger af symmetrigrunde.

18.4. Foldninger 393 Eksempel 18.20 Lad X og Y være uafhængige stokastiske variable, og lad X N(ξ, σ 2 ), Y N(µ, ν 2 ). Vi vil vise, at X + Y er N(ξ + µ, σ 2 + ν 2 )-fordelt. Da X + Y = (X ξ) + (Y µ) + (ξ + µ) er det nok, at betragte tilfældet ξ = µ = 0. Ifølge foldningsformlen (18.11) er tætheden h for fordelingen af X + Y givet ved 1 (z x)2 1 h(z) = e 2σ 2 x2 e 2ν 2 dx 2πσ 2 2πν 2 1 1 = 2πσν e 2σ 2 ν 2 (ν2 z 2 +(σ 2 +ν 2 )x 2 2ν 2xz) dx for alle z R. Ideen er nu at omskrive eksponenten, så det er kvadratet på en toleddet størrelse. Vi ser at ( ν 2 z 2 + (σ 2 + ν 2 )x 2 2ν 2 xz = σ 2 + ν 2 ν 2 ) 2 x σ 2 + ν z + σ2 ν 2 z 2 2 σ 2 + ν 2. Dermed er h(z) = 1 2πσν e = 1 2πσν e = z 2 2(σ 2 +ν 2 ) z2 2(σ 2 +ν 2 ) 1 2π σ 2 + ν 2 e ( ) σ 2 e 1 2σ 2 ν 2 2 +ν 2 ν x σ 2 z 2 +ν 2 dx e (σ2 +ν 2 )x 2 2σ 2 ν 2 dx z2 2(σ 2 +ν 2 ) for alle z R. Og således er X + Y normalfordelt som ønsket. Det egentlige indhold af disse regninger er at X + Y er normalfordelt. De præcise parametre kan man nemt finde, hvis man blot ved at X + Y er normalfordelt, for uafhængigheden sikrer at E(X + Y) = EX + EY = ξ + µ, V(X + Y) = VX + VY = σ 2 + ν 2. Et oplagt induktionsargument fortæller at hvis X 1,..., X n er uafhængige og hver især normalfordelte, vi kan sige X i N(ξ i, σ 2 i ), så er n n n X i N ξ i, σ 2 i. i=1 i=1 i=1

394 Kapitel 18. Flerdimensionale transformationer Specielt ser vi at hvis X 1,..., X n er uafhængige, og alle N(ξ, σ 2 )-fordelte, så er 1 n ) X i N (ξ, σ2. n n i=1 Eksempel 18.21 Lad X og Y være uafhængige variable, Γ-fordelt med formparameter λ hhv. µ og med samme skalaparameter β > 0. Vi skal vise, at X + Y er Γ-fordelt med formparameter λ + µ og skalaparameter β. Da ( X X + Y = β β + Y ) β er det nok at betragte tilfældet β = 1. Ifølge foldningsformlen (18.11) er tætheden h for fordelingen af X + Y givet ved h(z) = = = z 0 1 Γ(λ) (z x)λ 1 e (z x) 1 Γ(µ) xµ 1 e x dx 1 Γ(λ)Γ(µ) e z z 0 (z x) λ 1 x µ 1 dx 1 Γ(λ)Γ(µ) e z z λ+µ 1 B(λ, µ) = 1 Γ(λ + µ) zλ+µ 1 e z for alle z > 0. Fordelingen af X + Y er således en Γ-fordeling med formparameter λ + µ som ønsket. Det egentlige budskab er at X + Y er Γ-fordelt. De præcise parametre kan man nemt finde ud fra middelværdi og varians, når man ved at X + Y er Γ-fordelt. Ved induktion udvides resultatet til summen X 1 +... + X n af n uafhængige Γ-fordelte variable med formparametre λ 1,..., λ n og samme skalaparameter β: denne sum er Γ-fordelt med formparameter λ 1 +... + λ n og skalaparameter β. Hvis Y 1,..., Y n er indbyrdes uafhængige N(0, 1)-fordelte variable, så er Y 2 1,..., Y2 n uafhængige og hver især χ 2 -fordelt med 1 frihedsgrad ifølge eksempel 12.6. Og dermed følger n i=1 Y 2 i en χ 2 -fordeling med n frihedsgrader. Tilsvarende, hvis Z 1,..., Z n er indbyrdes uafhængige eksponentialfordelte variable, hver med skalaparameter β, så er Z 1 + + Z n Erlangfordelt med formparameter n og skalaparameter β.

18.5. Foldninger og karakteristiske funktioner 395 18.5 Foldninger og karakteristiske funktioner Det blev i kapitel 15 flere gange antydet at den virkelige begrundelse for at indføre karakteristiske funktioner ikke så meget skal søges i den indsigt, der kan vindes ved at studere denne funktions opførsel. Det helt centrale er at foldning af sandsynlighedsmål lader sig udtrykke meget simpelt i termer af karakteristiske funktioner. Sætning 18.22 Lad X og Y være uafhængige reelle stokastiske variable, defineret på (Ω, F, P). Lad X have karakteristisk funktion φ 1 og lad Y have karakteristisk funktion φ 2. Da har X + Y karakteristisk funktion ψ givet ved ψ(θ) = φ 1 (θ) φ 2 (θ) for alle θ R (18.12) BEVIS: Man kan få resultatet frem ved at kombinere sætning 17.31 og sætning 17.28. Men man kan også benytte lemma 17.30 direkte: ψ(θ) = = e i θ(x+y) dp = e i θx e i θy d(x, Y)(P)(x, y) e i θx dx(p)(x) e i θy dy(p)(y) = φ 1 (θ) φ 2 (θ) Der er i virkeligheden ikke noget i sætningen der kræver reelle variable, den gælder ord til andet for uafhængige variable med værdier i R n - vi har blot formuleret den reelt for at kunne sammenligne med de tidligere foldningsresultater. Og man må sige at (18.12) udmærker sig kraftigt i forhold til (18.9) og (18.11): der er ingen komplicerede integraler, der skal regnes ud - i hvert fald ikke hvis man allerede har de to marginale karakteristiske funktioner. Til gengæld har svaret en karakter, der måske forekommer novicen lidt ulden. Man skal have vænnet sig til karakteristiske funktioner, før man ser lyset. Men visse anvendelser er umiddelbart overbevisende:

396 Kapitel 18. Flerdimensionale transformationer Eksempel 18.23 Lad X og Y være uafhængige reelle stokastiske variable, og lad X N(ξ, σ 2 ), Y N(µ, ν 2 ). Vi vil bruge (18.12) til (endnu en gang) at finde fordelingen af X + Y. De to variable X og Y har ifølge eksempel 15.18 karakteristisk funktion henholdsvis φ 1 (θ) = e i θξ e σ2 θ 2 /2 og φ 2 (θ) = e i θµ e ν2 θ 2 /2. Dermed har X + Y karakteristisk funktion ψ(θ) = ( e i θξ e σ2 θ 2 /2 )( e i µξ e ν2 θ 2 /2 ) = e i θ(ξ+µ) e (σ2 +ν 2 ) θ 2 /2. Men denne karakteristiske funktion nikker vi genkendende til: det er den karakteristiske funktion for N(ξ + µ, σ 2 + ν 2 )-fordelingen. Ved at henvise til sætning 15.22 kan vi konstatere at X + Y må være N(ξ + µ, σ 2 + ν 2 )-fordelt. Hvis man sammenligner med de komplicerede substitutioner, der var nødvendige for at kunne udregne foldningsintegralerne i eksempel 18.20, kan man nok godt få øje på gevinsten i at udnytte det trick med eksponentialfunktionens funktionalligning, som sætning 18.22 til syvende og sidst hænger på. Men man skal på den anden side ikke underkende det arbejde, der ligger bag konklusionen i eksempel 18.23. For det første har man behov for at kende den karakteristiske funktion for normalfordelingen. For det andet har man behov for at vide at summen X +Y faktisk karakteriseres entydigt af sin karakteristiske funktion - ellers kunne man jo ikke slutte baglæns og se at summen er normalfordelt. Ingen af disse resultater kom gratis til os i kapitel 15, hvor der måtte arbejdes hårdt for begge dele. Der er ikke noget specielt etdimensionalt ved regningerne i eksempel 18.23, og vi kan uden problemer gentage dem i højere dimensioner: Eksempel 18.24 Lad X og Y være uafhængige stokastiske variable med værdier i R n, og lad X N n (ξ 1, Σ 1 ), Y N n (ξ 2, Σ 2 ). De to variable X og Y har ifølge definition 17.33 karakteristisk funktion henholdsvis φ 1 (θ) = e i θt ξ 1 e θt Σ 1 θ/2 og φ 2 (θ) = e i θt ξ 2 e θt Σ 2 θ/2.

18.6. Opgaver 397 Dermed har X + Y karakteristisk funktion ψ(θ) = ( e i θt ξ 1 e θt Σ 1 θ/2 )( e i θt ξ 2 e θt Σ 2 θ/2 ) = e i θt (ξ 1 +ξ 2 ) e θt (Σ 1 +Σ 2 )θ/2. Men denne karakteristiske funktion nikker vi uden problemer genkendende til. Vi konstaterer således at X + Y er N n (ξ 1 + ξ 2, Σ 1 + Σ 2 )-fordelt. 18.6 Opgaver OPGAVE 18.1. Lad X og Y være uafhængige stokastiske variable med fordelingsfunktioner F og G henholdsvis. Find fordelingsfunktionen for max{x, Y}, min{x, Y} og max{x 3, Y}. Lad Z være en stokastisk variabel med en fordeling bestemt ved P(Z = 1) = 1 P(Z = 0) = p, p [0, 1]. Antag at X, Y og Z er indbyrdes uafhængige. Find fordelingsfunktionen for ZX +(1 Z)Y og ZX + (1 Z) max{x, Y}. OPGAVE 18.2. Lad X 1,..., X n være indbyrdes uafhængige identisk fordelte stokastiske variable med fordelingsfunktion F. Lad F m betegne fordelingsfunktionen for Γ- fordelingen med formparameter m og skalaparameter 1, m = 1,..., n. Vis under forudsætning af at F er strengt voksende og kontinuert, at for n vil P ( X (m) F 1 ( x n )) F m (x), x > 0. Vink: Betragt først tilfældet, hvor F er fordelingsfunktionen for ligefordelingen. Benyt opgave 14.8 og 14.9 OPGAVE 18.3. De uafhængige stokastiske variable X 1 og X 2 er identisk fordelte med tæthed (θ > 1) f (x) = log θ θ x, x > 0. Vis at f er en tæthed. Find fordelingen af X 1 + X 2. OPGAVE 18.4. Lad X 1, X 2,..., X n,... være en følge af indbyrdes uafhængige identisk fordelte stokastiske variable, alle ligefordelte på (0, 1). Vis at tætheden ϕ n for fordelingen af X 1 +... + X n tilfredsstiller relationen ϕ n+1 (y) = y y 1 ϕ n (t)dt, y R, n = 1, 2,...

398 Kapitel 18. Flerdimensionale transformationer OPGAVE 18.5. Lad X 1 og X 2 være uafhængige og ligefordelte over (0, 1). Vis at Cov(X (1), X (2) ) = 1 36.