4.1 Middelværdi, varians og kovarians

Transkript

1 Kapitel 4 Asymptotisk teori 4. Middelværdi, varians og kovarians Vi har indført begrebet middelværdi for visse reelle stokastiske variable. Hvis X har en diskret fordeling, f.eks. med værdier iz, så er E X= n= n P(X= n), forudsat at summen er absolut konvergent. Hvis X i stedet har en fordeling med tæthed f, så er E X= x f (x) dx, forudsat at integralet er absolut konvergent. Betingelserne om absolut konvergens skrives ofte som E X <, og læses højt på den måde at X har middelværdi. Lemma 4. Lad X være en reel stokastisk variabel med middelværdi. Hvis X er en ikke-negativ variabel, alstå hvis P(X 0)=, så er E X 0. Og hvis a, b R så har a + bx middelværdi, og E (a+bx)=a+be X. (4.) 63

2 64 Kapitel 4. Asymptotisk teori BEVIS: Checkes let efter i det diskrete tilfælde ved at bruge almindelige regneregler for summer. Og checkes tilsvarende let efter i tætheds-tilfældet ved at bruge almindelige regneregler for Riemann-integraler. Lemma 4.2 Lad X og Y være to reelle stokastiske variable med middelværdi. a har X+ Y middelværdi, og E X+ Y= E X+E Y. (4.2) BEVIS: Vises let i det tællelige tilfælde ved direkte udregning. et er noget vanskeligere at give et tilfredsstillende bevis i tæthedstilfældet, og vi vil ikke gøre det her. Eksempel 4.3 Lad X være en møntkastvariabel med successandsynlighed p, P(X= )= p, P(X= 0)= p. a er E X= 0 P(X= 0)+ P(X= )= p. Hvis Y Bin(n, p) så kan vi tænke på at Y= n X i hvor X,..., X n er uafhængige, identisk fordelte møntkastvariable med successandsynlighed p. ermed er E Y= E X i = E X i = np. ette resultat kan naturligvis også findes ved at regne på direkte definitionen af E Y ud fra binomialfordelingens punktsandsynligheder, men det anførte linearitetsargumentet giver simplere regninger. Eksempel 4.4 Hvis X N(0, ), så er E X= x 2π e x2 /2 dx=0 fordi integranden er en ulige funktion.

3 4.. Middelværdi, varians og kovarians 65 efinition 4.5 Lad X være en reel stokastisk variabel, og antag at E X 2 <. a sættes variansen af X til at være V X= E ( X EX ) 2. (4.3) Vi ser at 4.3 indeholder kvadratet på en toleddet størrelse. Ved at gange ud, og derefter bruge regnereglerne for middelværdier ses at V X=E X 2 ( E X )2. (4.4) Tilsvarende ser man ved at bruge regnereglerne for middelværdier at V X 0, og at V (A+bX)=b 2 V X. efinition 4.6 Lad X og Y være reelle stokastiske variable og antag at E X 2 < og E Y 2 <. a sættes covariansen mellem X og Y til at være Cov(X, Y)=E ( X EX )( Y E Y ). (4.5) er er ikke noget til hinder for at lade X og Y være den samme variabel. Så ser man umiddelbart at V X= Cov(X, X). Ved udnyttelse af regnereglerne for middelværdier ser vi at covariansen er symmetrisk. Cov(X, Y)=Cov(Y, X). (4.6) Hvis X, Y og Z er tre stokastiske variable, ser man at Cov(X+ Y, Z)=Cov(X, Z)+Cov(Y, Z). På grund af covariansens symmetri-egenskaber (4.6) fører additivitet på første indgang i covariansen uden videre til en tilsvarende additivitet i anden indgang. Hvis X og Y er stokastiske variable og hvis a, b R ser man at Cov(a+bX, Y)=bCov(X, Y). Og man kan tilsvarende få linearitet i anden indgang ved at udnytte (4.6).

4 66 Kapitel 4. Asymptotisk teori Korollar 4.7 Lad X, Y være reelle stokastiske variable. a er V (X+ Y)=VX+ V Y+ 2Cov(X, Y). BEVIS: Vi ser at V (X+ Y)=Cov(X+ Y, X+ Y) = Cov(X, X)+Cov(X, Y)+Cov(Y, X)+Cov(Y, Y) = V X+ Cov(X, Y)+Cov(X, Y)+V Y som ønsket. Sætning 4.8 Lad X og Y være reelle stokastiske variable og antag at E X 2 < og E Y 2 <. Hvis X og Y er uafhængige, så er Cov(X, Y)=0. BEVIS: Lineariteten af covariansen medfører at Cov(X, Y)=Cov(X EX, Y E Y). Vi kan derfor uden indskrænkning antage at E X= 0 og at E Y= 0. Udfordringen er altså at vise at hvis X og Y er uafhængige med middelværdi 0, så er E XY= 0. Vi vil kun regne det diskrete tilfælde igennem (tæthedstilfældet er svært hvis man ikke har de rigtige værktøjer til rådighed). Så lad os sige at både X og Y har værdier iz. a er E XY= = = n= np(xy= n)= n= x,y Z,xy=n x,y Z n= xyp(x=x, Y= y) n x,y Z,xy=n xyp(x=x, Y= y) P(X=x, Y= y) idet summen over først n Z og dernæst de (x, y) i heltalsgitteret Z Z der opfylder at xy = n simpelthen svarer til at gennemløbe Z Z i en usædvanlig rækkefølge.

5 4.. Middelværdi, varians og kovarians 67 Foreløbig holder regningerne for alle stokastiske variable med værdier i Z. Men ved at udnytte at X og Y er uafhængige, får vi ved at sætte uden for parentes at E XY= xyp(x=x)p(y= y)= xp(x=x) yp(y= y) = 0, x= y= x= y= idet det inderste parentes er nul. Som korollar ser vi at hvis X, Y er uafhængige reelle stokastiske variable, så er V (X+ Y)=VX+ V Y. (4.7) To variable X og Y kaldes ukorrelerede hvis de har covarians nul. Sætning 4.8 siger at uafhængige variable er ukorrelerede. et omvendte gælder ikke nødvendigvis, ukorrelerede variable er ikke altid uafhængige. Men der er et et meget vigtigt tilfælde hvor man faktisk kan vende implikationen i sætning 4.8: Sætning 4.9 Lad X og Y være normalfordelte reelle stokastiske variable. Hvis Cov(X, Y)=0 så er X og Y uafhængige. Eksempel 4.0 Lad X være en møntkastvariabel med successandsynlighed p, P(X= )= p, P(X= 0)= p. a er X 2 = X, så E X 2 = E X=p, og dermed er V X=E X 2 ( E X )2 = p p 2 = p( p). Hvis Y Bin(n, p) så kan vi tænke på at Y= n X i hvor X,..., X n er uafhængige, identisk fordelte møntkastvariable med successandsynlighed p. a er V Y= V X i = V X i = np( p), hvor vi i andet lighedstegn har udnyttet uafhængigheden af de underliggende møntkast. Potentielt kunne man naturligvis have fundet V Y ved at udregne E X 2 direkte ud Vi snyder en lille smule på vægten her: det er ikke nok at X og Y hver for sig er normalfordelte - der skal gælde at parret (X, Y) følger en såkaldt simultan normalfordeling. Men i praksis er det sådan at når der dukker to normalfordelte variable op, så vil de altid følge en simultan normalfordeling.

6 68 Kapitel 4. Asymptotisk teori fra punktsandsynlighederne for binomialfordelingen, men de nødvendige regninger i den strategi bliver ret ubehagelige. Eksempel 4. Lad X være en klassifikationsvariable med k labels, altså P(X= )= p, P(X= 2)= p 2,..., P(X= k)= p k, (4.8) for en passende sandsynlighedsvektor p = (p,..., p k ). a er (X=) og (X=2) to møntkastvariable med successandsynlighed p hhv. p 2. Vi ser at (X=) (X=2) = 0 fordi X ikke samtidigt kan antage både værdien og værdien 2, så mindst én faktor i produktet er altid nul. Og derfor er Cov ( (X=), (X=2) ) = E (X=) (X=2) ( E (X=) )( E (X=2) ) = 0 p p 2. Mere generelt er Cov ( (X=i), (X= j) ) = p i ( p i ) p i p j hvis i= j hvis i j idet tilfældet med i= j følger af eksempel 4.0. Lad nu Y = (Y,...Y k ) være en polynomialfordeling med længde n og sandsynlighedsvektor p. Vi kan tænke på Y som en tabellering af underliggende klassifikationsvariable X,..., X n der er uafhængige, og som hver især har en fordeling givet ved (4.8), altså Y j = (Xi = j) for j=,...,k. Linearitet af covariansen giver at Cov(Y, Y 2 )=Cov (Xi =), (X j =2) j= = Cov ( (Xi =), (X j =2)). Hvis i j, så er X i og X j uafhængige. ermed er også (Xi =) og (X j =2) uafhængige, ifølge princippet om separate transformationer. Og derfor har de covarians nul. I dobbeltsummen foroven er det således kun diagonal-leddene der effekt giver et bidrag. j=

7 4.2. Konvergens i fordeling 69 Og de er af den type der blev regnet igennem foroven, hvor hver diagonal-led bliver p p 2. Vi ser således at Cov(Y, Y 2 )= np p 2. Vi får et tilsvarende resultat for de øvrige kovarianser, og dermed er np j ( p j ) hvis j=l Cov(Y j, Y l )= np j p l hvis j l 4.2 Konvergens i fordeling efinition 4.2 En reel stokastisk variabel X har en kontinuert fordeling hvis P(X=x)=0 for alle x R. (4.9) Her skal man ikke tænke i baner af diskrete stokastiske variable, som vi ellers primært har beskæftiget os med: En diskret variabels fordeling er jo eksplicit givet ved positive punktsandsynligheder, så de har ikke en kontinuert fordeling. Man skal i stedet tænke på fordelinger med tæthed: normalfordelinger, eksponentialfordelinger etc. et er nemt at vise at hvis X er en reel stokastisk variabel med tæthed f, og hvis f er begrænset, så har X en kontinuert fordeling. Sætning 4.3 En reel stokastisk variable X har en kontinuert fordeling hvis og kun hvis dens fordelingsfunktion F : R R er en kontinuert funktion. BEVIS: Antaq at fordelingsfunktionen F er kontinuert. Betragt et fast x R, og lad os vise at P(X=x)=0. Idet x n x, ser vi at F( x n) F(x). Men P(X=x) P (x n ) ( < X x = F(x) F x ) n og da denne øvre grænse går mod 0 for n, ser vi at P(X=x)=0. Altså har X en kontinuert fordeling.

8 70 Kapitel 4. Asymptotisk teori en anden implikation er en smule mere besværlig.lad os starte med at vise at fordelingsfunktionen P(X x) altid er højrekontinuert. Vælg en følge (x n ) n N så x n ց x (altså så x x 2... og så x n x). a er P(x n+ < X x n )=P (x n+ < X x n ) n= n= = P(x< X x )=P(X x ) P(X x) < idet vi påberåber os det stærke additivitetetsaksion (ii ) fra formel (2.3.9) i Chung and AitSahlia (2003). Eftersom den uendelige sum er konvergent, siger det såkaldte halekriterium at P(x n+ < X x n ) 0 for N. n=n Specielt kan vi for givetε>0 vælge et N 0 N så N P(x n+ < X x n )<εfor alle N N 0. For N N 0 ser vi nu at P(X x N ) P(X x) =P(x< X X N )=P (x n+ < X x n ) = n=n P(x n+ < X x n )<ε. n=n Vi konkluderer at P(X x) er højrekontinuert i ethvert punkt x. Ganske tilsvarende kan man vise at P(X<x) altid er kontinuert fra venstre i ethvert punkt - de nødvendige regninger overlades til læseren. Under antagelse af at punktsandsynligheden P(X=x) er lig med 0 for alle x, så er de to funktioner P(X x) og P(X<x) ens. Og en funktion, der både er kontinuert fra venstre og fra højre i ethvert punkt, er en kontinuert funktion. efinition 4.4 For reelle stokastiske variable X, X, X 2,..., hvor X har en kontinuert fordeling, siger vi X n konvergerer i fordeling mod X, skrevet hvis der gælder at X n X, P(X n x) P(X x) for alle x R

9 4.2. Konvergens i fordeling 7 Vi definerer altså konvergens i fordeling ud fra punktvis konvergens af fordelingsfunktioner. Bemærk at vi insisterer på at grænsevariablen skal have en kontinuert fordeling. et er sådan set ikke ulovligt at diskutere konvergens i fordeling mod en grænsevariable med diskontinuert fordeling, men ovenstående definition er i så fald ikke vellykket - det bliver simpelthen et dysfunktionelt begreb. Sætning 4.5 Lad X, X, X 2,... være reelle stokastiske variable, hvor X har en kontinuert fordeling. Hvis X n X så gælder der at P(X n < x) P(X<x) for alle x R (4.0) et er valgfrit om grænseværdien i (4.0) skrives som P(X < x) eller som P(X x). Eftersom P(X=x)=0 er der ingen forskel. erimod har vi ikke antaget at X n erne har en kontinuert fordeling, så for dem spiller det rimeligvis en rolle om der står skarpt eller uskarpt ulighedstegn. Beviset for sætningen er for så vidt elementært, men det kræver en vis omhyggelighed, og vil ikke blive givet her. Korollar 4.6 Lad X, X, X 2,... være reelle stokastiske variable, hvor X har en kontinuert fordeling. Hvis der gælder at X n X så vil X 2 n X 2. BEVIS: Lad os først se at X 2 har en kontinuert fordeling. et er klart at hvis x<0 så er P(X 2 = x)=0, uanset hvilken type fordeling X har, for (X 2 = x)=. Hvis x>0 og hvis X har en kontinuert fordeling, så er P(X 2 = x)=p ( (X= x) (X= x) ) = P(X= x)+ P(X= x)=0 et overlades til læseren selv at tænke tilfældet x=0 igennem. Nu vi har konstateret at X 2 er en lovlig grænsevariabel i et udsagn om konvergens i fordeling, så kan vi direkte checke definitionen efter. Idet vi nøjes med at undersøge x>0, ser vi at P(X 2 n x)=p ( x X n x ) = P(X n x) P(X n < x) P(X x) P(X< x)=p ( x X x ) = P(X 2 x) idet vi undervejs har påberåbt os sætning 4.5.

10 72 Kapitel 4. Asymptotisk teori Sætning 4.7 Lad X, X, X 2,... være reelle stokastiske variable, hvor X har en kontinuert fordeling. Hvis der gælder at så vil X n X. P(a<X n x) P(a<X b) for alle a, b R,a<b, (4.) BEVIS: Ved hjælp af det stærke additivitetsaksiom (ii ) fra formel (2.3.9) i Chung and AitSahlia (2003), kan man vise at P( K< X K) Specielt findes der for givetε>0 et K så P( K< X K)> ε. for K. er findes ifølge (4.) et N 0 så P( K< X n K) P( K< X K) <ε for n N 0. Specielt er esmere gælder der at P( K< X n K)> 2ε for n N 0. P(X n K)<2ε for n N 0. Tag nu et b R. For alle a<b gælder der at P(X n b) P(X b) = P(X n a)+ P(a<X n b) P(X a) P(a<X b) P(X n a)+p(x a)+ P(a<X n b) P(a<X b) Hvis vi specielt vælger a= K, ser vi at P(X n b) P(X b) 3ε+ P( K< X n b) P( K< X b) for n>n 0. Ved at påberåbe os (4.) igen, ser vi at vi kan finde et N N så P(X n b) P(X b) 4ε for n>n. Og heraf aflæser vi at X n X. Vi har nu gjort alt det forberedende arbejde til at kunne præsentere et af kursets hovedresultater:

11 4.2. Konvergens i fordeling 73 Sætning 4.8 (Stirling-de Moivres CLT) Lad S n Bin(n, p). a vil S n np np( p) X hvor X N(0, ). BEVIS: Ved en elementær - omend omstændelig - argumentation baseret på Stirlings formel, definitionen af integraler som grænser af middelsummer og en smule bogholderi, viser Chung and AitSahlia (2003), Theorem 6 i afsnit 7.3, at P a< S n np b b np( p) a 2π e x2 /2 dx for alle a<b. Integralet på højre side er lig med P(a<X b) når X N(0, ). erfor følger Stirling-de Moivres CLT ved en henvisning til sætning 4.7. Forkortelsen CLT står for Central Limit Theorem. et er et navn der generelt bruges for sætninger der handler om konvergens i fordeling mod normalfordelte grænsevariable. er findes en hel del af den slags resultater og de er meget vigtige i anvendt statistik, for de tillader os at erstatte mange komplicerede fordelingsproblemer med tilsvarende problemer for normalfordelinger - og de er typisk meget nemmere at løse. Stirling-de Moivres CLT er det kernepunkt, hvor hele denne teori er vokset ud fra. Omtrent 00 år efter Stirling og de Moivre, arbejdede Laplace i 790 erne meget hårdt og systematisk på at udvide deres resultat. Hans gennembrud kom, da det lykkedes ham at håndtere summer af uafhængige stokastiske variable, hvor de enkelte led følger en symmetrisk trepunktsfordeling fremfor en topunktsfordeling: Sætning 4.9 Lad X, X 2,... være uafhængige variable så P(X i = )=P(X i = )= p P(X i = 0)= 2p for alle n N. (4.2) a vil n X i 2np X hvor X er standard normalfordelt.

12 74 Kapitel 4. Asymptotisk teori Symmetriske trepunktsfordelinger er ikke så besynderlig en ide som det måske u- middelbart kan tage sig ud. en slags fordelinger opstår naturligt i forbindelse med møntkast-eksperimenter: Hvis vi kaster 2n gange med en mønt, og lader Y n og Z n være antallet af successer i hhv. de første og de sidste n kast, så er Y n Z n = X i 2 i=n+ X i = (X i X n+i ) idet X,..., X 2n repræsenterer resultatet af de 2n kast. Altså er Y n Z n netop en sum af uafhængige led X i X n+i der hver især følger en symmetriske trepunktsfordeling, hvor sandsynligheden for at få± er p( p). et følger således af sætning 4.9 at hvis Y n og Z n er uafhængige, begge Bin(n, p)-fordelte, så vil Y n Z n 2np( p) X (4.3) hvor X er standard normalfordelt. Beviset for sætning 4.9 er et absolut ikke-intuitivt trick med den komplekse eksponentialfunktion, beslægtet med ideen bag Fourierrækker 2. a Laplaces først fik rigtigt styr over denne teknik, lykkedes det ham at generalisere sætning 4.9 voldsomt: Sætning 4.20 (Laplaces CLT) Lad X, X 2,... være uafhængige, identisk fordelte reelle stokastiske variable med E X 2 i <. a vil n ( n X i ) n E X V X X hvor X er standard normalfordelt. Her kan man begynde at ane hvorfor normalfordelinger spiller så stor en rolle i statistisk teori. Hvis man kan opfatte en observation som sum af mange uafhængige småbidrag, så spiller det ikke den store rolle hvordan de enkelte småbidrag er fordelt - summen vil under alle omstændigheder være approksimativt normalfordelt. 2 Fourier var student af Laplace, og havde mange af sine ideer fra Laplaces forelæsninger.

13 4.3. Goodness-of-fit problemet 75 efinition 4.2 Lad X,..., X k være uafhængige, standard normalfordelte stokastiske variable. a siges k W= at væreχ 2 -fordelt med k frihedsgrader. X i 2 Man kan vise at hvis W erχ 2 -fordelt med k frihedsgrader, så har den tæthed f (x)= 2 k/2 Γ(k/2) xk/2 e x/2 for x (0, ) (4.4) hvor normeringskonstanten sikrer at f integrerer til. Normeringskonstanten indeholder den såkaldte gammafunktion, Γ(λ)= 0 x λ e x dx for λ>0. et er sædvanlig fremgangsmåde i lærebøger at man angiver den ret ufordøjelige formel (4.4) som definition afχ 2 -fordelingen med k frihedsgrader, og at man derefter postulerer (eller i mere avancerede værker: beviser) et resultat, der svarer til vores definition 4.2. Men i forhold til den brug man gør atχ 2 fordelinger, er vores rækkefølge langt mest naturlig: Vi har ikke brug for at kende tætheden, for voresχ 2 -fordelte variable bliver eksplicit skabt ved hjælp af normalfordelte variable Goodness-of-fit problemet Lad X, X 2,... være uafhængige, identisk fordelte klassifikationsvariable med labels, 2,..., k. Vi vil undersøge om de sande klassifikationssandsynligheder er P(X i = )= p, P(X i= 2)= p 2,..., P(X i= k)= p k, for en given sandsynlighedsvektor p = (p, p 2,..., p k ). Når p er givet på forhånd, så kaldes denne problemstilling for goodness-of-fit problemet for en polynomialfordeling. 3 Vi har ikke selv brug for at kende tætheden, men vi har dog brug for at der er nogen, der forstår χ 2 -fordelingen godt nok til at kunne regne fordelingsfunktionen ud. et gøres ved hjælp af tætheden, men det kræver derudover en hel del analytisk indsigt - kendskab til tætheden er ikke nok i sig selv.

14 76 Kapitel 4. Asymptotisk teori Vi danner derfor tabellen på baggrund af de første n observationer, Y n = (Xi =),... (Xi =k). Her har vi brugt notationeny n for at signalere at der er tale om en vektor med k koordinater, Y n = (Y n, Y n2,...,y nk ). Under antagelse om at p vitterligt er den korrekte sandsynlighedsvektor for klassifikationen, så ery n polynomialfordelt med længde n og sandsynlighedsvektor p. et er naturligt at danne den forventede tabel på baggrund af n observationer, E n = (np, np 2,...,np k ). For at forholde os til goodness-of-fit problemet danner vi Pearson-teststørrelsen på baggrund af de første n observationer, K n = k (Y ni E ni ) 2 E ni. (4.5) Sætning 4.22 Lad X, X 2,... være uafhængige, identisk fordelte klassifikationsvariable med k labels, og lad p være en sandsynlighedsvektor af længde k. Lad K n være Pearson-teststørrelsen for det tilsvarende goodness-of-fit problem, baseret på de første n observationer. Hvis p vitterligt er den sande klassifikationssandsynlighed, så vil K n Z hvor Z erχ 2 -fordelt med k frihedsgrader. BEVIS: Lad os starte med at give et detaljeret bevis hvis klassifikationsprocessen kun har to labels, altså hvis k=2. I dette tilfælde er Y n binomialfordelt med længde n og successandsynlighed p. Tilsvarende kan man sige at Y n2 er binomialfordelt, men

15 4.3. Goodness-of-fit problemet 77 det er vigtigere for os at Y n2 = n Y n. Ved at bruge denne relation får vi at K n = (Y n np )2 np = (Y n np )2 n + ( p = (Y n np )2 np ( p ) Y n np 2 = np ( p ). ( (n Yn ) n( p )) 2 n( p ) ) + p et følger af sætning 4.8 at Y n np np ( p ) Y hvor Y N(0, ). Og det følger derefter af korollar 4.6 at Y n np 2 np ( p ) Y 2. Men når Y N(0, ), så er Y 2 jo netopχ 2 -fordelt med én frihedsgrad ifølgde definition 4.2. Hvis klassifikationsprocessen har tre labels, altså hvis k = 3, så kan vi gennemføre de fleste af de nødvendige regninger efter samme mønter. For at undgå at formlerner bliver for omfattende vil vi se på tilfældet hvor p = p 2 = p 3 = /3. Vi erstatter Y n3 med n (Y n + Y n2 ) og får K n = (Y n n 3 )2 n/3 = (Y n n 3 )2 n/3 + (Y n2 n 3 )2 n/3 + (Y n2 n 3 )2 n/3 + (Y n3 n 3 )2 n/3 + ( 2n 3 Y n Y n2 ) 2 n/3 Vi kan udnytte det elementære resultat 2a 2 + 2b 2 = (a b) 2 + (a+b) 2

16 78 Kapitel 4. Asymptotisk teori på de to første led til at opnå at K n = (Y n Y n2 ) 2 + (Y n + Y n2 2n 3 )2 2n/3 = (Y n Y n2 ) 2 2n/3 = V 2 2 n + V n2 + (Y n+ Y n2 2n 3 )2 2n/9 + ( 2n 3 Y n Y n2 ) 2 n/3 hvor V n = Y n Y n2 2n/3, V n2 = Y n+ Y n2 2n 3 2n/9. Bemærk at Y n + Y n2 under hypotesen er binomialfordelt med længde n og successandsynlighed 2/3. Ifølge Stirling-de Moivres CLT har vi derfor at V n2 Z hvor Z N(0, ). Og bemærk at Y n Y n2 kan opfattes som en sum led af formen (Xi =) (Xi =2). Under hypotesen følger disse led en symmetriske trepunktsfordeling hvor sandsynligheden for at få± er /3. et følger derfor af sætning 4.9 at V n Z2 hvor Z 2 N(0, ). et virker således plausibelt at K n Z 2 + Z 2 2. Vi vil ikke retfærdiggøre dette trin. et er inden for mulighedernes grænse, men det kræver lidt teknik. Vi vil ikke bruge kræfter på det, for vi kommer alligevel i knibe med det efterfølgende trin, der skulle afslutte argumentationen: Hvis vi skal vise at grænsevariablen Z 2 + Z 2 2 erχ 2 -fordelt med 2 frihedsgrader, skal vi ikke blot vise at Z og Z 2 ern(0, )-fordelte, men også at de er uafhængige af hinanden. et har vi ikke gjort de nødvendige forberedelser til. Vi kan dog give en skitse: Ved at bruge regnereglerne for covarianser, ser vi at Cov (V n, V n2 )= = Cov (Y n Y n2, Y n + Y n2 ) 2n/3 2n/9 (V Y n V Y n2 ) 2n/3 2n/9 = 0

17 4.3. Goodness-of-fit problemet 79 idet Y n og Y n2 begge har varians 2n/3. Man kan vise at denne egenskab følger med i grænseovergangen, så Cov(Z, Z 2 )=0. Og ifølge sætning 4.9så vil ukorrelerede normalfordelte variable faktisk være uafhængige. ermed har vi gennemført skitsen af beviset for at K n er asymptotiskχ 2 -fordelt med to frihedsgrader i dette specielle tilfælde. Vi kan nu skitsere hvordan beviset for vilkårligt k og vilkårlig p følger det mønster vi har tegnet: Man starter med at opskrive K n og indsætte n (Y n +...+Y n k ) i stedet for Y nk. Ved hjælp af betydelige mængder lineær algebra, kan man omskrive resultatet så det får følgende struktur: K n = V n V n k 2 med præcis k kvadratled. Hvert V ni er en kompliceret linearkombination af Y n,...,y n k, hvor linear-koefficienterne afhænger af egenvektorerne for matricen p ( p ) p p 2... p p k p p 2 p 2 ( p 2 )... p 2 p k p p k p 2 p k... p k ( p k ). Grunden til at vi i gennemregningen for k = 3 fokuserede på specialtilfældet hvor p = p 2 = p 3 = /3 var at så bliver egenvektorerne hhv. ( ) og ( ), og de er så tilpas trivielle at vi slet ikke opdagede at der indgik en diagonalisering i argumentet. Udfordringen er herefter at bevise at V ni konvergerer mod enn(0, )-fordeling for n, og at V n,...,v n k er ukorrelerede. Vi vil ikke gå i detaljer med disse ting. Hvis vi skulle gennemføre beviset for sætning 4.22 helt præcist, så mangler vi at diskutere en række tekniske emner: For det første skal man vide hvad flerdimensionale normalfordelinger er, og hvordan man arbejder med dem. For det andet skal man kunne arbejde med konvergens i fordeling i flere dimensioner, og specielt skal man have adgang til en flerdimensional version af CLT. Endelig skal man - for at opnå overskuelige regninger - have et vist greb om den del af den lineære algebra, der handler om såkaldt generaliserede inverse matricer.

18 80 Kapitel 4. Asymptotisk teori 4.4 Konvergens i sandsynlighed efinition 4.23 For reelle stokastiske variable X, X 2,... og x R siger vi X n konvergerer mod x i sandsynlighed, skrevet X n P x, hvis P( X n x ε) 0 for alle ε>0 Lemma 4.24 (Chebyshevs ulighed) Lad X være en reel stokatisk variabel med E X 2 <. For alle c>0 gælder der at P ( X E X >c) V X c 2. BEVIS: Vi kan uden tab af generalitet antage at E X= 0. Observer at ermed er c 2 ( X c) X 2 c 2 E ( X c) E X 2. Men ( X c) er en møntkastvariabel, så dens middelværdi netop er lig med dens successandsynlighed P( X c). Og E X 2 er jo netop variansen af X. Sætning 4.25 (Store tals lov) Lad X, X 2,... være uafhængige, identisk fordelte reelle stokastiske variable med E X 2 <. a vil n P X i E X. BEVIS: Bemærk at E n X i = n E X i = E X

19 4.4. Konvergens i sandsynlighed 8 fordi alle variablene har samme middelværdi. et følger så af Chebyshevs ulighed at for et vilkårligtε>0 er P n X i EX ε ε 2 V n X i = ε 2 n 2 V X i = ε 2 V X n idet alle variablene har samme varians. ette udtryk går oplagt mod nul for n, og dermed følger den ønskede. Eksempel 4.26 Hvis S n Bin(n, p) så vil S P n n p. et følger direkte af store tals lov, hvis vi skriver S n = n X i hvor X i erne er uafhængige møntkastvariable med successandsynlighed p. Lemma 4.27 Lad X, X 2,... være en følge af reelle stokastiske variable, og antag at X n P x0. Lad g :R R være en funktion, der er kontinuert i punktet x 0. a vil g(x n ) P g(x 0 ). BEVIS: Ladε>0 være givet. Kontinuiteten af g i x 0 betyder at der findes etδ>0 sådan at x x 0 <δ g(x) g(x 0 ) <ε. ermed er ( g(xn ) g(x 0 ) ε ) ( Xn x 0 δ ). et følger nu at P ( g(x n ) g(x 0 ) ε ) P ( X n x 0 δ ) 0 for n ved at udnytte at X n P x0.

20 82 Kapitel 4. Asymptotisk teori Sætning 4.28 Lad X, X, X 2,... og Y, Y 2,... være reelle stokastiske variable. Antag at X har en kontinuert fordeling, og at X n X og at Yn P. a vil X n Y n X Beviset for sætning 4.28 er for så vidt elementært nok, men det er lidt langt, så vi springer det over. 4.5 Pearson-test af uafhængighed i tovejstabel Lad os se på et klassifikationseksperiment med k labels. Eksperimentet forløbet i m grupper. Vi har altså uafhængige stokastiske variable X, X 2, X 3,... X 2, X 22, X 23, X m, X m2, X m3,... der hver især kan antage værdier,...,k. Som grundmodel antager vi at hver gruppe har sin egen vektor af klassifikationssandsynligheder. Svarende til gruppe i findes altså en sandsynlighedsvektor p i = (p i,..., p ik ) (med skarpt positive koordinater, der summer til ) så P(X il = )= p i, P(X il = 2)= p i2,... P(X il = k)= p ik, for l =, 2,... er er som udgangspunkt således m vektorer af klassifikationssandsynligheder, og da hver af dem har k fri parametre (den k te parameter er bundet af betingelseum om at koordinaterne skal summe til ), er dimensionen af parametermængden m(k ). et interessante spørgsmål er om disse m sandsynlighedsvektorer er ens - altså om gruppestrukturen er uden betydning for klassifikationsprocessen. Vi spørger altså om der findes en sandsynlighedsvektor p = (p,..., p k ) så p i j = p j for alle,...,m, j=,...k.

21 4.5. Pearson-test af uafhængighed i tovejstabel 83 Hvis det er opfyldt, siger man gerne at klassifikation er uafhængig af gruppestrukturen. er er er uddybning af denne terminologi i opgave 3.8. Under hypotesen om uafhængighed er dimensionen af parametermængden k. Vi bemærker at forskellen i dimension mellem parametermængde for model og hypotese er m(k ) (k )=(m )(k ). For at undersøge hypotesen om uafhængighed på baggrund af de første n observationer fra hver gruppe, starter vi med at tabellere observationerne inden for hver gruppe. Vi danner altså tabellen j= j=2... j=k Ialt Y Y 2... Y k n i=2 Y 2 Y Y 2k n i=m Y m Y m2... Y mk n Ialt Y Y 2... Y m mn hvor Y i j = n l= (Xil = j). Under hypotesen om uafhængighed skal man se på variablene X,..., X mn som en ikke-standard indeksering af nm uafhængige, identisk fordelte klassifikationsvariable med klassifikationssandsynlighed p. en naturlige tabel at danne på denne baggrund består af en optælling af hvor mange af disse klassifikationsvariable der har værdien, hvor mange der har værdien 2, etc. Man overbeviser sig let om at den resulterende table netop bliver søjlesummerne i gruppe-tabellen foroven. På baggrund af disse søjlesummer vil det naturlige estimat af p være p j = m nl= (Xil = j) nm = Y j nm. Vi så i eksempel 3.5 at dette naturlige estimat faktisk er MLE under hypotesen. Under hypotesen om uafhængighed er det enkelte celletal Y i j binomialfordelt med længde n og successandsynlighed p j. ermed er middelværdien E Y i j= np j. et er således naturligt at udregne de forventede celletal under hypotesen som E i j = n p j = Y j m for,...,m, j=,...k. Bemærk den lidt usædvanlige struktur i denne forventede tabel, sammenlignet med mange af de forventede tabeller vi ellers har set i eksempler og opgaver: e forventede celletal i en given søjle er alle ens. e varierer formentlig fra søjle til søjle, men

22 84 Kapitel 4. Asymptotisk teori ned gennem en given søjle er de ens. et er en konsekvens af at vi har antaget at der er lige mange observationer i hver gruppe, nemlig n. I de fleste virkeligt forekommende tabeller vil antallet af observationer veksle fra gruppe til gruppe, og dermed vil sådanne tabeller ikke umiddelbart passe ind i den formalisme vi er ved at udvikle. Man kan nu vurdere plausibiliteten af hypotesen ved at sammenholde den forventede tabel med den observerede tabel. Hvis de celle for celle er omtrent ens, så kan det tages som en støtte til hypotesen. Hvis de to tabeller afviger fra hinanden, f.eks. fordi der er mindst én celle med en meget betydelig forskel, eller fordi der celle for celle er systematiske forskelle, så kan det tages som evidens mod hypotesen. I praksis foretager man denne celle-for-celle sammenligning ved at opstille Pearsons teststørrelse for uafhængighed, K n = m k (Y i j E i j ) 2 j= E i j (4.6) Hvis K n 0, så tages det som støtte til hypotesen. Hvis K n derimod er meget større end 0, så opfattes det som kritisk for hypotesen. Sætning 4.29 Lad X il for,...,m ogl=, 2... være uafhængige klassifikationsvariable med k labels, inddelt i m grupper. Lad K n være Pearsons teststørrelse for uafhængighed mellem klassifikation og gruppe baseret på de første n observationer fra hver gruppe. Hvis der vitterligt er uafhængighed, så vil K n Z hvor Z erχ 2 -fordelt med (m )(k ) frihedsgrader. BEVIS: Lad os i første omgang se på 2 2-tilfældet, hvor der altså er to grupper og to labels. Vi regnede dette tilfælde igennem i eksempel 3.9 hvor formel (3.5) med den nu benyttede notation siger at K n = n n 2n ( Y n Y 2 n Y 2n ) ( Y 2n )= (Y Y 2 ) 2 2n p ( p ) 2 Y Y 2 p = ( p 2np ) ( p ) p ( p )

23 4.5. Pearson-test af uafhængighed i tovejstabel 85 En vanskelighed ved disse udtryk er at der tilsyneladende ikke er noget n i det udtryk vi er endt med. Men det er et notationsproblem. Vi har undertrykt n et i vores symbolik, men både Y Y 2 og p ( p ) er regnet ud på baggrund af de første n observationer i hver gruppe - der er altså et usynligt n til stede. et fremgår nu af sætning helt specifik i form af (4.3) - at hvis hypotesen er sand, så vil Y Y 2 2np X ( p ) hvor X N(0, ). Fra eksempel 4.26 får vi at Bruger vi den kontinuerte funktion p = Y n P p. g(p)= p ( p ) p( p) på det, får vi at p ( p ) p ( p ) P. Og samler vi nu trådene ved hjælp af sætning 4.28 får vi at K n X 2 Idet X 2 erχ 2 -fordelt med frihedsgrad, er dette netop det resultat vi ønskede i 2 2- tilfældet. Vi vil ikke gennemgå beviset i det generelle tilfælde. Men vi kan alligevel forklare strukturen i regningerne. Både den observerede og den forventede tabel har km celler, så derfor har K n som udgangspunkt mk led kvadratled. Man ville derfor være lovligt undskyldt, hvis man forestillede sig at der dukkede enχ 2 -fordeling med mk frihedsgrader op. Men eftersom rækkesrummen i den i te række for den observerede tabel og den forventede tabel er ens, så kan differensen i den højre søjle Y ik E ik udtrykkes som en sum af Y i E i,...,y i (k ) E i (k ). et betyder at der højst er er m(k ) forskellige differenser. Eftersom det også gælder at søjlesummerne i de to tabeller er ens, så kan man faktisk også udtrykke differenserne i den nederste række af tabellen ved differenserne højre oppe. Og på den måde ender man med (m )(k ) forskellige differenser. Hvis man kigger efter, så viser det sig at disse simple differenser

24 86 Kapitel 4. Asymptotisk teori hver især er linearkombinationer af Y i j erne et var præcis hvad der skete i 2 2- tilfældet hvor man endte med at udtrykke K n ved en enkelt simpel differens, nemlig ved Y Y 2. Men for større tabeller kommer der en ekstra komplikation: det viser sig at disse (m )(k ) simple differenser er ikke i nærheden af at være uafhængige. er kommer et ekstra argument hvor man (ligesom i beviset for sætning 4.22) ved hjælp af betydelige mængder lineær algebra finder nogle andre linearkombinationer V i j = i, j α (i, j),(i, j ) Y i j så disse V i j er har kovarians nul med hinanden, og så de hver især konvergerer i fordeling mod enn(0, )-fordelt grænse. Herefter udtrykker man K n som en sum af (m )(k ) modificerede kvadrater af V i j erne. Modifikationen består i hvert tilfælde af en faktor der konvergerer mod i sandsynlighed, og som derfor kan ignoreres - præcis som vi så i 2 2-tilfældet. Som vi bemærkede i indledningen af dette afsnit, så er der noget kunstigt over at forlange at alle rækkesummer er ens. Sådan er det jo sjældent i praksis. Når vi har insisterer på det, så er det udelukkende for at gøre grænseresultatet nemmere at formulere, for så var der et enkelt n der kunne gå mod uendelig. Hvis antallet af observationer i hver gruppe kaldes n, n 2,...,n k, uden at vi tvinger dem til at være ens, så skal det endelige resultat formuleres som en grænseovergang i grænsen n,...,n k, altså som en approksimation der bliver bedre og bedre hvis alle gruppestørrelserne vokser. en type grænseovergange er teknisk vanskelige at håndtere, og overlades bedst til specialister. Men påstanden er for så vidt sand nok. Og den klassiske tommelfingerregel er at approksimationen er god nok til at blive taget alvorlig hvis gruppestørrelserne er så store at E i j 5 for alle celler. Simulationer vil afsløre at det er en meget forsigtig tommelfingerregel - approksimationen er brugbar længe inden da. 4.6 Opgaver OPGAVE 4.. Lad X være en reel stokastisk variable, og antag at fordelingen af X har tæthed f, altså P(X A)= f (x) dx for alle A R. A

25 4.6. Opgaver 87 Vis at hvis f (x) C for alle x Rså er P(X=x)=0 for alle x R. Med andre ord: hvis tætheden f er begrænset, så har X en kontinuert fordeling. OPGAVE 4.2. Vis at hvis så vil X n X X n n P 0