4.1 Middelværdi, varians og kovarians
|
|
- Trine Vestergaard
- 4 år siden
- Visninger:
Transkript
1 Kapitel 4 Asymptotisk teori 4. Middelværdi, varians og kovarians Vi har indført begrebet middelværdi for visse reelle stokastiske variable. Hvis X har en diskret fordeling, f.eks. med værdier iz, så er E X= n= n P(X= n), forudsat at summen er absolut konvergent. Hvis X i stedet har en fordeling med tæthed f, så er E X= x f (x) dx, forudsat at integralet er absolut konvergent. Betingelserne om absolut konvergens skrives ofte som E X <, og læses højt på den måde at X har middelværdi. Lemma 4. Lad X være en reel stokastisk variabel med middelværdi. Hvis X er en ikke-negativ variabel, alstå hvis P(X 0)=, så er E X 0. Og hvis a, b R så har a + bx middelværdi, og E (a+bx)=a+be X. (4.) 63
2 64 Kapitel 4. Asymptotisk teori BEVIS: Checkes let efter i det diskrete tilfælde ved at bruge almindelige regneregler for summer. Og checkes tilsvarende let efter i tætheds-tilfældet ved at bruge almindelige regneregler for Riemann-integraler. Lemma 4.2 Lad X og Y være to reelle stokastiske variable med middelværdi. a har X+ Y middelværdi, og E X+ Y= E X+E Y. (4.2) BEVIS: Vises let i det tællelige tilfælde ved direkte udregning. et er noget vanskeligere at give et tilfredsstillende bevis i tæthedstilfældet, og vi vil ikke gøre det her. Eksempel 4.3 Lad X være en møntkastvariabel med successandsynlighed p, P(X= )= p, P(X= 0)= p. a er E X= 0 P(X= 0)+ P(X= )= p. Hvis Y Bin(n, p) så kan vi tænke på at Y= n X i hvor X,..., X n er uafhængige, identisk fordelte møntkastvariable med successandsynlighed p. ermed er E Y= E X i = E X i = np. ette resultat kan naturligvis også findes ved at regne på direkte definitionen af E Y ud fra binomialfordelingens punktsandsynligheder, men det anførte linearitetsargumentet giver simplere regninger. Eksempel 4.4 Hvis X N(0, ), så er E X= x 2π e x2 /2 dx=0 fordi integranden er en ulige funktion.
3 4.. Middelværdi, varians og kovarians 65 efinition 4.5 Lad X være en reel stokastisk variabel, og antag at E X 2 <. a sættes variansen af X til at være V X= E ( X EX ) 2. (4.3) Vi ser at 4.3 indeholder kvadratet på en toleddet størrelse. Ved at gange ud, og derefter bruge regnereglerne for middelværdier ses at V X=E X 2 ( E X )2. (4.4) Tilsvarende ser man ved at bruge regnereglerne for middelværdier at V X 0, og at V (A+bX)=b 2 V X. efinition 4.6 Lad X og Y være reelle stokastiske variable og antag at E X 2 < og E Y 2 <. a sættes covariansen mellem X og Y til at være Cov(X, Y)=E ( X EX )( Y E Y ). (4.5) er er ikke noget til hinder for at lade X og Y være den samme variabel. Så ser man umiddelbart at V X= Cov(X, X). Ved udnyttelse af regnereglerne for middelværdier ser vi at covariansen er symmetrisk. Cov(X, Y)=Cov(Y, X). (4.6) Hvis X, Y og Z er tre stokastiske variable, ser man at Cov(X+ Y, Z)=Cov(X, Z)+Cov(Y, Z). På grund af covariansens symmetri-egenskaber (4.6) fører additivitet på første indgang i covariansen uden videre til en tilsvarende additivitet i anden indgang. Hvis X og Y er stokastiske variable og hvis a, b R ser man at Cov(a+bX, Y)=bCov(X, Y). Og man kan tilsvarende få linearitet i anden indgang ved at udnytte (4.6).
4 66 Kapitel 4. Asymptotisk teori Korollar 4.7 Lad X, Y være reelle stokastiske variable. a er V (X+ Y)=VX+ V Y+ 2Cov(X, Y). BEVIS: Vi ser at V (X+ Y)=Cov(X+ Y, X+ Y) = Cov(X, X)+Cov(X, Y)+Cov(Y, X)+Cov(Y, Y) = V X+ Cov(X, Y)+Cov(X, Y)+V Y som ønsket. Sætning 4.8 Lad X og Y være reelle stokastiske variable og antag at E X 2 < og E Y 2 <. Hvis X og Y er uafhængige, så er Cov(X, Y)=0. BEVIS: Lineariteten af covariansen medfører at Cov(X, Y)=Cov(X EX, Y E Y). Vi kan derfor uden indskrænkning antage at E X= 0 og at E Y= 0. Udfordringen er altså at vise at hvis X og Y er uafhængige med middelværdi 0, så er E XY= 0. Vi vil kun regne det diskrete tilfælde igennem (tæthedstilfældet er svært hvis man ikke har de rigtige værktøjer til rådighed). Så lad os sige at både X og Y har værdier iz. a er E XY= = = n= np(xy= n)= n= x,y Z,xy=n x,y Z n= xyp(x=x, Y= y) n x,y Z,xy=n xyp(x=x, Y= y) P(X=x, Y= y) idet summen over først n Z og dernæst de (x, y) i heltalsgitteret Z Z der opfylder at xy = n simpelthen svarer til at gennemløbe Z Z i en usædvanlig rækkefølge.
5 4.. Middelværdi, varians og kovarians 67 Foreløbig holder regningerne for alle stokastiske variable med værdier i Z. Men ved at udnytte at X og Y er uafhængige, får vi ved at sætte uden for parentes at E XY= xyp(x=x)p(y= y)= xp(x=x) yp(y= y) = 0, x= y= x= y= idet det inderste parentes er nul. Som korollar ser vi at hvis X, Y er uafhængige reelle stokastiske variable, så er V (X+ Y)=VX+ V Y. (4.7) To variable X og Y kaldes ukorrelerede hvis de har covarians nul. Sætning 4.8 siger at uafhængige variable er ukorrelerede. et omvendte gælder ikke nødvendigvis, ukorrelerede variable er ikke altid uafhængige. Men der er et et meget vigtigt tilfælde hvor man faktisk kan vende implikationen i sætning 4.8: Sætning 4.9 Lad X og Y være normalfordelte reelle stokastiske variable. Hvis Cov(X, Y)=0 så er X og Y uafhængige. Eksempel 4.0 Lad X være en møntkastvariabel med successandsynlighed p, P(X= )= p, P(X= 0)= p. a er X 2 = X, så E X 2 = E X=p, og dermed er V X=E X 2 ( E X )2 = p p 2 = p( p). Hvis Y Bin(n, p) så kan vi tænke på at Y= n X i hvor X,..., X n er uafhængige, identisk fordelte møntkastvariable med successandsynlighed p. a er V Y= V X i = V X i = np( p), hvor vi i andet lighedstegn har udnyttet uafhængigheden af de underliggende møntkast. Potentielt kunne man naturligvis have fundet V Y ved at udregne E X 2 direkte ud Vi snyder en lille smule på vægten her: det er ikke nok at X og Y hver for sig er normalfordelte - der skal gælde at parret (X, Y) følger en såkaldt simultan normalfordeling. Men i praksis er det sådan at når der dukker to normalfordelte variable op, så vil de altid følge en simultan normalfordeling.
6 68 Kapitel 4. Asymptotisk teori fra punktsandsynlighederne for binomialfordelingen, men de nødvendige regninger i den strategi bliver ret ubehagelige. Eksempel 4. Lad X være en klassifikationsvariable med k labels, altså P(X= )= p, P(X= 2)= p 2,..., P(X= k)= p k, (4.8) for en passende sandsynlighedsvektor p = (p,..., p k ). a er (X=) og (X=2) to møntkastvariable med successandsynlighed p hhv. p 2. Vi ser at (X=) (X=2) = 0 fordi X ikke samtidigt kan antage både værdien og værdien 2, så mindst én faktor i produktet er altid nul. Og derfor er Cov ( (X=), (X=2) ) = E (X=) (X=2) ( E (X=) )( E (X=2) ) = 0 p p 2. Mere generelt er Cov ( (X=i), (X= j) ) = p i ( p i ) p i p j hvis i= j hvis i j idet tilfældet med i= j følger af eksempel 4.0. Lad nu Y = (Y,...Y k ) være en polynomialfordeling med længde n og sandsynlighedsvektor p. Vi kan tænke på Y som en tabellering af underliggende klassifikationsvariable X,..., X n der er uafhængige, og som hver især har en fordeling givet ved (4.8), altså Y j = (Xi = j) for j=,...,k. Linearitet af covariansen giver at Cov(Y, Y 2 )=Cov (Xi =), (X j =2) j= = Cov ( (Xi =), (X j =2)). Hvis i j, så er X i og X j uafhængige. ermed er også (Xi =) og (X j =2) uafhængige, ifølge princippet om separate transformationer. Og derfor har de covarians nul. I dobbeltsummen foroven er det således kun diagonal-leddene der effekt giver et bidrag. j=
7 4.2. Konvergens i fordeling 69 Og de er af den type der blev regnet igennem foroven, hvor hver diagonal-led bliver p p 2. Vi ser således at Cov(Y, Y 2 )= np p 2. Vi får et tilsvarende resultat for de øvrige kovarianser, og dermed er np j ( p j ) hvis j=l Cov(Y j, Y l )= np j p l hvis j l 4.2 Konvergens i fordeling efinition 4.2 En reel stokastisk variabel X har en kontinuert fordeling hvis P(X=x)=0 for alle x R. (4.9) Her skal man ikke tænke i baner af diskrete stokastiske variable, som vi ellers primært har beskæftiget os med: En diskret variabels fordeling er jo eksplicit givet ved positive punktsandsynligheder, så de har ikke en kontinuert fordeling. Man skal i stedet tænke på fordelinger med tæthed: normalfordelinger, eksponentialfordelinger etc. et er nemt at vise at hvis X er en reel stokastisk variabel med tæthed f, og hvis f er begrænset, så har X en kontinuert fordeling. Sætning 4.3 En reel stokastisk variable X har en kontinuert fordeling hvis og kun hvis dens fordelingsfunktion F : R R er en kontinuert funktion. BEVIS: Antaq at fordelingsfunktionen F er kontinuert. Betragt et fast x R, og lad os vise at P(X=x)=0. Idet x n x, ser vi at F( x n) F(x). Men P(X=x) P (x n ) ( < X x = F(x) F x ) n og da denne øvre grænse går mod 0 for n, ser vi at P(X=x)=0. Altså har X en kontinuert fordeling.
8 70 Kapitel 4. Asymptotisk teori en anden implikation er en smule mere besværlig.lad os starte med at vise at fordelingsfunktionen P(X x) altid er højrekontinuert. Vælg en følge (x n ) n N så x n ց x (altså så x x 2... og så x n x). a er P(x n+ < X x n )=P (x n+ < X x n ) n= n= = P(x< X x )=P(X x ) P(X x) < idet vi påberåber os det stærke additivitetetsaksion (ii ) fra formel (2.3.9) i Chung and AitSahlia (2003). Eftersom den uendelige sum er konvergent, siger det såkaldte halekriterium at P(x n+ < X x n ) 0 for N. n=n Specielt kan vi for givetε>0 vælge et N 0 N så N P(x n+ < X x n )<εfor alle N N 0. For N N 0 ser vi nu at P(X x N ) P(X x) =P(x< X X N )=P (x n+ < X x n ) = n=n P(x n+ < X x n )<ε. n=n Vi konkluderer at P(X x) er højrekontinuert i ethvert punkt x. Ganske tilsvarende kan man vise at P(X<x) altid er kontinuert fra venstre i ethvert punkt - de nødvendige regninger overlades til læseren. Under antagelse af at punktsandsynligheden P(X=x) er lig med 0 for alle x, så er de to funktioner P(X x) og P(X<x) ens. Og en funktion, der både er kontinuert fra venstre og fra højre i ethvert punkt, er en kontinuert funktion. efinition 4.4 For reelle stokastiske variable X, X, X 2,..., hvor X har en kontinuert fordeling, siger vi X n konvergerer i fordeling mod X, skrevet hvis der gælder at X n X, P(X n x) P(X x) for alle x R
9 4.2. Konvergens i fordeling 7 Vi definerer altså konvergens i fordeling ud fra punktvis konvergens af fordelingsfunktioner. Bemærk at vi insisterer på at grænsevariablen skal have en kontinuert fordeling. et er sådan set ikke ulovligt at diskutere konvergens i fordeling mod en grænsevariable med diskontinuert fordeling, men ovenstående definition er i så fald ikke vellykket - det bliver simpelthen et dysfunktionelt begreb. Sætning 4.5 Lad X, X, X 2,... være reelle stokastiske variable, hvor X har en kontinuert fordeling. Hvis X n X så gælder der at P(X n < x) P(X<x) for alle x R (4.0) et er valgfrit om grænseværdien i (4.0) skrives som P(X < x) eller som P(X x). Eftersom P(X=x)=0 er der ingen forskel. erimod har vi ikke antaget at X n erne har en kontinuert fordeling, så for dem spiller det rimeligvis en rolle om der står skarpt eller uskarpt ulighedstegn. Beviset for sætningen er for så vidt elementært, men det kræver en vis omhyggelighed, og vil ikke blive givet her. Korollar 4.6 Lad X, X, X 2,... være reelle stokastiske variable, hvor X har en kontinuert fordeling. Hvis der gælder at X n X så vil X 2 n X 2. BEVIS: Lad os først se at X 2 har en kontinuert fordeling. et er klart at hvis x<0 så er P(X 2 = x)=0, uanset hvilken type fordeling X har, for (X 2 = x)=. Hvis x>0 og hvis X har en kontinuert fordeling, så er P(X 2 = x)=p ( (X= x) (X= x) ) = P(X= x)+ P(X= x)=0 et overlades til læseren selv at tænke tilfældet x=0 igennem. Nu vi har konstateret at X 2 er en lovlig grænsevariabel i et udsagn om konvergens i fordeling, så kan vi direkte checke definitionen efter. Idet vi nøjes med at undersøge x>0, ser vi at P(X 2 n x)=p ( x X n x ) = P(X n x) P(X n < x) P(X x) P(X< x)=p ( x X x ) = P(X 2 x) idet vi undervejs har påberåbt os sætning 4.5.
10 72 Kapitel 4. Asymptotisk teori Sætning 4.7 Lad X, X, X 2,... være reelle stokastiske variable, hvor X har en kontinuert fordeling. Hvis der gælder at så vil X n X. P(a<X n x) P(a<X b) for alle a, b R,a<b, (4.) BEVIS: Ved hjælp af det stærke additivitetsaksiom (ii ) fra formel (2.3.9) i Chung and AitSahlia (2003), kan man vise at P( K< X K) Specielt findes der for givetε>0 et K så P( K< X K)> ε. for K. er findes ifølge (4.) et N 0 så P( K< X n K) P( K< X K) <ε for n N 0. Specielt er esmere gælder der at P( K< X n K)> 2ε for n N 0. P(X n K)<2ε for n N 0. Tag nu et b R. For alle a<b gælder der at P(X n b) P(X b) = P(X n a)+ P(a<X n b) P(X a) P(a<X b) P(X n a)+p(x a)+ P(a<X n b) P(a<X b) Hvis vi specielt vælger a= K, ser vi at P(X n b) P(X b) 3ε+ P( K< X n b) P( K< X b) for n>n 0. Ved at påberåbe os (4.) igen, ser vi at vi kan finde et N N så P(X n b) P(X b) 4ε for n>n. Og heraf aflæser vi at X n X. Vi har nu gjort alt det forberedende arbejde til at kunne præsentere et af kursets hovedresultater:
11 4.2. Konvergens i fordeling 73 Sætning 4.8 (Stirling-de Moivres CLT) Lad S n Bin(n, p). a vil S n np np( p) X hvor X N(0, ). BEVIS: Ved en elementær - omend omstændelig - argumentation baseret på Stirlings formel, definitionen af integraler som grænser af middelsummer og en smule bogholderi, viser Chung and AitSahlia (2003), Theorem 6 i afsnit 7.3, at P a< S n np b b np( p) a 2π e x2 /2 dx for alle a<b. Integralet på højre side er lig med P(a<X b) når X N(0, ). erfor følger Stirling-de Moivres CLT ved en henvisning til sætning 4.7. Forkortelsen CLT står for Central Limit Theorem. et er et navn der generelt bruges for sætninger der handler om konvergens i fordeling mod normalfordelte grænsevariable. er findes en hel del af den slags resultater og de er meget vigtige i anvendt statistik, for de tillader os at erstatte mange komplicerede fordelingsproblemer med tilsvarende problemer for normalfordelinger - og de er typisk meget nemmere at løse. Stirling-de Moivres CLT er det kernepunkt, hvor hele denne teori er vokset ud fra. Omtrent 00 år efter Stirling og de Moivre, arbejdede Laplace i 790 erne meget hårdt og systematisk på at udvide deres resultat. Hans gennembrud kom, da det lykkedes ham at håndtere summer af uafhængige stokastiske variable, hvor de enkelte led følger en symmetrisk trepunktsfordeling fremfor en topunktsfordeling: Sætning 4.9 Lad X, X 2,... være uafhængige variable så P(X i = )=P(X i = )= p P(X i = 0)= 2p for alle n N. (4.2) a vil n X i 2np X hvor X er standard normalfordelt.
12 74 Kapitel 4. Asymptotisk teori Symmetriske trepunktsfordelinger er ikke så besynderlig en ide som det måske u- middelbart kan tage sig ud. en slags fordelinger opstår naturligt i forbindelse med møntkast-eksperimenter: Hvis vi kaster 2n gange med en mønt, og lader Y n og Z n være antallet af successer i hhv. de første og de sidste n kast, så er Y n Z n = X i 2 i=n+ X i = (X i X n+i ) idet X,..., X 2n repræsenterer resultatet af de 2n kast. Altså er Y n Z n netop en sum af uafhængige led X i X n+i der hver især følger en symmetriske trepunktsfordeling, hvor sandsynligheden for at få± er p( p). et følger således af sætning 4.9 at hvis Y n og Z n er uafhængige, begge Bin(n, p)-fordelte, så vil Y n Z n 2np( p) X (4.3) hvor X er standard normalfordelt. Beviset for sætning 4.9 er et absolut ikke-intuitivt trick med den komplekse eksponentialfunktion, beslægtet med ideen bag Fourierrækker 2. a Laplaces først fik rigtigt styr over denne teknik, lykkedes det ham at generalisere sætning 4.9 voldsomt: Sætning 4.20 (Laplaces CLT) Lad X, X 2,... være uafhængige, identisk fordelte reelle stokastiske variable med E X 2 i <. a vil n ( n X i ) n E X V X X hvor X er standard normalfordelt. Her kan man begynde at ane hvorfor normalfordelinger spiller så stor en rolle i statistisk teori. Hvis man kan opfatte en observation som sum af mange uafhængige småbidrag, så spiller det ikke den store rolle hvordan de enkelte småbidrag er fordelt - summen vil under alle omstændigheder være approksimativt normalfordelt. 2 Fourier var student af Laplace, og havde mange af sine ideer fra Laplaces forelæsninger.
13 4.3. Goodness-of-fit problemet 75 efinition 4.2 Lad X,..., X k være uafhængige, standard normalfordelte stokastiske variable. a siges k W= at væreχ 2 -fordelt med k frihedsgrader. X i 2 Man kan vise at hvis W erχ 2 -fordelt med k frihedsgrader, så har den tæthed f (x)= 2 k/2 Γ(k/2) xk/2 e x/2 for x (0, ) (4.4) hvor normeringskonstanten sikrer at f integrerer til. Normeringskonstanten indeholder den såkaldte gammafunktion, Γ(λ)= 0 x λ e x dx for λ>0. et er sædvanlig fremgangsmåde i lærebøger at man angiver den ret ufordøjelige formel (4.4) som definition afχ 2 -fordelingen med k frihedsgrader, og at man derefter postulerer (eller i mere avancerede værker: beviser) et resultat, der svarer til vores definition 4.2. Men i forhold til den brug man gør atχ 2 fordelinger, er vores rækkefølge langt mest naturlig: Vi har ikke brug for at kende tætheden, for voresχ 2 -fordelte variable bliver eksplicit skabt ved hjælp af normalfordelte variable Goodness-of-fit problemet Lad X, X 2,... være uafhængige, identisk fordelte klassifikationsvariable med labels, 2,..., k. Vi vil undersøge om de sande klassifikationssandsynligheder er P(X i = )= p, P(X i= 2)= p 2,..., P(X i= k)= p k, for en given sandsynlighedsvektor p = (p, p 2,..., p k ). Når p er givet på forhånd, så kaldes denne problemstilling for goodness-of-fit problemet for en polynomialfordeling. 3 Vi har ikke selv brug for at kende tætheden, men vi har dog brug for at der er nogen, der forstår χ 2 -fordelingen godt nok til at kunne regne fordelingsfunktionen ud. et gøres ved hjælp af tætheden, men det kræver derudover en hel del analytisk indsigt - kendskab til tætheden er ikke nok i sig selv.
14 76 Kapitel 4. Asymptotisk teori Vi danner derfor tabellen på baggrund af de første n observationer, Y n = (Xi =),... (Xi =k). Her har vi brugt notationeny n for at signalere at der er tale om en vektor med k koordinater, Y n = (Y n, Y n2,...,y nk ). Under antagelse om at p vitterligt er den korrekte sandsynlighedsvektor for klassifikationen, så ery n polynomialfordelt med længde n og sandsynlighedsvektor p. et er naturligt at danne den forventede tabel på baggrund af n observationer, E n = (np, np 2,...,np k ). For at forholde os til goodness-of-fit problemet danner vi Pearson-teststørrelsen på baggrund af de første n observationer, K n = k (Y ni E ni ) 2 E ni. (4.5) Sætning 4.22 Lad X, X 2,... være uafhængige, identisk fordelte klassifikationsvariable med k labels, og lad p være en sandsynlighedsvektor af længde k. Lad K n være Pearson-teststørrelsen for det tilsvarende goodness-of-fit problem, baseret på de første n observationer. Hvis p vitterligt er den sande klassifikationssandsynlighed, så vil K n Z hvor Z erχ 2 -fordelt med k frihedsgrader. BEVIS: Lad os starte med at give et detaljeret bevis hvis klassifikationsprocessen kun har to labels, altså hvis k=2. I dette tilfælde er Y n binomialfordelt med længde n og successandsynlighed p. Tilsvarende kan man sige at Y n2 er binomialfordelt, men
15 4.3. Goodness-of-fit problemet 77 det er vigtigere for os at Y n2 = n Y n. Ved at bruge denne relation får vi at K n = (Y n np )2 np = (Y n np )2 n + ( p = (Y n np )2 np ( p ) Y n np 2 = np ( p ). ( (n Yn ) n( p )) 2 n( p ) ) + p et følger af sætning 4.8 at Y n np np ( p ) Y hvor Y N(0, ). Og det følger derefter af korollar 4.6 at Y n np 2 np ( p ) Y 2. Men når Y N(0, ), så er Y 2 jo netopχ 2 -fordelt med én frihedsgrad ifølgde definition 4.2. Hvis klassifikationsprocessen har tre labels, altså hvis k = 3, så kan vi gennemføre de fleste af de nødvendige regninger efter samme mønter. For at undgå at formlerner bliver for omfattende vil vi se på tilfældet hvor p = p 2 = p 3 = /3. Vi erstatter Y n3 med n (Y n + Y n2 ) og får K n = (Y n n 3 )2 n/3 = (Y n n 3 )2 n/3 + (Y n2 n 3 )2 n/3 + (Y n2 n 3 )2 n/3 + (Y n3 n 3 )2 n/3 + ( 2n 3 Y n Y n2 ) 2 n/3 Vi kan udnytte det elementære resultat 2a 2 + 2b 2 = (a b) 2 + (a+b) 2
16 78 Kapitel 4. Asymptotisk teori på de to første led til at opnå at K n = (Y n Y n2 ) 2 + (Y n + Y n2 2n 3 )2 2n/3 = (Y n Y n2 ) 2 2n/3 = V 2 2 n + V n2 + (Y n+ Y n2 2n 3 )2 2n/9 + ( 2n 3 Y n Y n2 ) 2 n/3 hvor V n = Y n Y n2 2n/3, V n2 = Y n+ Y n2 2n 3 2n/9. Bemærk at Y n + Y n2 under hypotesen er binomialfordelt med længde n og successandsynlighed 2/3. Ifølge Stirling-de Moivres CLT har vi derfor at V n2 Z hvor Z N(0, ). Og bemærk at Y n Y n2 kan opfattes som en sum led af formen (Xi =) (Xi =2). Under hypotesen følger disse led en symmetriske trepunktsfordeling hvor sandsynligheden for at få± er /3. et følger derfor af sætning 4.9 at V n Z2 hvor Z 2 N(0, ). et virker således plausibelt at K n Z 2 + Z 2 2. Vi vil ikke retfærdiggøre dette trin. et er inden for mulighedernes grænse, men det kræver lidt teknik. Vi vil ikke bruge kræfter på det, for vi kommer alligevel i knibe med det efterfølgende trin, der skulle afslutte argumentationen: Hvis vi skal vise at grænsevariablen Z 2 + Z 2 2 erχ 2 -fordelt med 2 frihedsgrader, skal vi ikke blot vise at Z og Z 2 ern(0, )-fordelte, men også at de er uafhængige af hinanden. et har vi ikke gjort de nødvendige forberedelser til. Vi kan dog give en skitse: Ved at bruge regnereglerne for covarianser, ser vi at Cov (V n, V n2 )= = Cov (Y n Y n2, Y n + Y n2 ) 2n/3 2n/9 (V Y n V Y n2 ) 2n/3 2n/9 = 0
17 4.3. Goodness-of-fit problemet 79 idet Y n og Y n2 begge har varians 2n/3. Man kan vise at denne egenskab følger med i grænseovergangen, så Cov(Z, Z 2 )=0. Og ifølge sætning 4.9så vil ukorrelerede normalfordelte variable faktisk være uafhængige. ermed har vi gennemført skitsen af beviset for at K n er asymptotiskχ 2 -fordelt med to frihedsgrader i dette specielle tilfælde. Vi kan nu skitsere hvordan beviset for vilkårligt k og vilkårlig p følger det mønster vi har tegnet: Man starter med at opskrive K n og indsætte n (Y n +...+Y n k ) i stedet for Y nk. Ved hjælp af betydelige mængder lineær algebra, kan man omskrive resultatet så det får følgende struktur: K n = V n V n k 2 med præcis k kvadratled. Hvert V ni er en kompliceret linearkombination af Y n,...,y n k, hvor linear-koefficienterne afhænger af egenvektorerne for matricen p ( p ) p p 2... p p k p p 2 p 2 ( p 2 )... p 2 p k p p k p 2 p k... p k ( p k ). Grunden til at vi i gennemregningen for k = 3 fokuserede på specialtilfældet hvor p = p 2 = p 3 = /3 var at så bliver egenvektorerne hhv. ( ) og ( ), og de er så tilpas trivielle at vi slet ikke opdagede at der indgik en diagonalisering i argumentet. Udfordringen er herefter at bevise at V ni konvergerer mod enn(0, )-fordeling for n, og at V n,...,v n k er ukorrelerede. Vi vil ikke gå i detaljer med disse ting. Hvis vi skulle gennemføre beviset for sætning 4.22 helt præcist, så mangler vi at diskutere en række tekniske emner: For det første skal man vide hvad flerdimensionale normalfordelinger er, og hvordan man arbejder med dem. For det andet skal man kunne arbejde med konvergens i fordeling i flere dimensioner, og specielt skal man have adgang til en flerdimensional version af CLT. Endelig skal man - for at opnå overskuelige regninger - have et vist greb om den del af den lineære algebra, der handler om såkaldt generaliserede inverse matricer.
18 80 Kapitel 4. Asymptotisk teori 4.4 Konvergens i sandsynlighed efinition 4.23 For reelle stokastiske variable X, X 2,... og x R siger vi X n konvergerer mod x i sandsynlighed, skrevet X n P x, hvis P( X n x ε) 0 for alle ε>0 Lemma 4.24 (Chebyshevs ulighed) Lad X være en reel stokatisk variabel med E X 2 <. For alle c>0 gælder der at P ( X E X >c) V X c 2. BEVIS: Vi kan uden tab af generalitet antage at E X= 0. Observer at ermed er c 2 ( X c) X 2 c 2 E ( X c) E X 2. Men ( X c) er en møntkastvariabel, så dens middelværdi netop er lig med dens successandsynlighed P( X c). Og E X 2 er jo netop variansen af X. Sætning 4.25 (Store tals lov) Lad X, X 2,... være uafhængige, identisk fordelte reelle stokastiske variable med E X 2 <. a vil n P X i E X. BEVIS: Bemærk at E n X i = n E X i = E X
19 4.4. Konvergens i sandsynlighed 8 fordi alle variablene har samme middelværdi. et følger så af Chebyshevs ulighed at for et vilkårligtε>0 er P n X i EX ε ε 2 V n X i = ε 2 n 2 V X i = ε 2 V X n idet alle variablene har samme varians. ette udtryk går oplagt mod nul for n, og dermed følger den ønskede. Eksempel 4.26 Hvis S n Bin(n, p) så vil S P n n p. et følger direkte af store tals lov, hvis vi skriver S n = n X i hvor X i erne er uafhængige møntkastvariable med successandsynlighed p. Lemma 4.27 Lad X, X 2,... være en følge af reelle stokastiske variable, og antag at X n P x0. Lad g :R R være en funktion, der er kontinuert i punktet x 0. a vil g(x n ) P g(x 0 ). BEVIS: Ladε>0 være givet. Kontinuiteten af g i x 0 betyder at der findes etδ>0 sådan at x x 0 <δ g(x) g(x 0 ) <ε. ermed er ( g(xn ) g(x 0 ) ε ) ( Xn x 0 δ ). et følger nu at P ( g(x n ) g(x 0 ) ε ) P ( X n x 0 δ ) 0 for n ved at udnytte at X n P x0.
20 82 Kapitel 4. Asymptotisk teori Sætning 4.28 Lad X, X, X 2,... og Y, Y 2,... være reelle stokastiske variable. Antag at X har en kontinuert fordeling, og at X n X og at Yn P. a vil X n Y n X Beviset for sætning 4.28 er for så vidt elementært nok, men det er lidt langt, så vi springer det over. 4.5 Pearson-test af uafhængighed i tovejstabel Lad os se på et klassifikationseksperiment med k labels. Eksperimentet forløbet i m grupper. Vi har altså uafhængige stokastiske variable X, X 2, X 3,... X 2, X 22, X 23, X m, X m2, X m3,... der hver især kan antage værdier,...,k. Som grundmodel antager vi at hver gruppe har sin egen vektor af klassifikationssandsynligheder. Svarende til gruppe i findes altså en sandsynlighedsvektor p i = (p i,..., p ik ) (med skarpt positive koordinater, der summer til ) så P(X il = )= p i, P(X il = 2)= p i2,... P(X il = k)= p ik, for l =, 2,... er er som udgangspunkt således m vektorer af klassifikationssandsynligheder, og da hver af dem har k fri parametre (den k te parameter er bundet af betingelseum om at koordinaterne skal summe til ), er dimensionen af parametermængden m(k ). et interessante spørgsmål er om disse m sandsynlighedsvektorer er ens - altså om gruppestrukturen er uden betydning for klassifikationsprocessen. Vi spørger altså om der findes en sandsynlighedsvektor p = (p,..., p k ) så p i j = p j for alle,...,m, j=,...k.
21 4.5. Pearson-test af uafhængighed i tovejstabel 83 Hvis det er opfyldt, siger man gerne at klassifikation er uafhængig af gruppestrukturen. er er er uddybning af denne terminologi i opgave 3.8. Under hypotesen om uafhængighed er dimensionen af parametermængden k. Vi bemærker at forskellen i dimension mellem parametermængde for model og hypotese er m(k ) (k )=(m )(k ). For at undersøge hypotesen om uafhængighed på baggrund af de første n observationer fra hver gruppe, starter vi med at tabellere observationerne inden for hver gruppe. Vi danner altså tabellen j= j=2... j=k Ialt Y Y 2... Y k n i=2 Y 2 Y Y 2k n i=m Y m Y m2... Y mk n Ialt Y Y 2... Y m mn hvor Y i j = n l= (Xil = j). Under hypotesen om uafhængighed skal man se på variablene X,..., X mn som en ikke-standard indeksering af nm uafhængige, identisk fordelte klassifikationsvariable med klassifikationssandsynlighed p. en naturlige tabel at danne på denne baggrund består af en optælling af hvor mange af disse klassifikationsvariable der har værdien, hvor mange der har værdien 2, etc. Man overbeviser sig let om at den resulterende table netop bliver søjlesummerne i gruppe-tabellen foroven. På baggrund af disse søjlesummer vil det naturlige estimat af p være p j = m nl= (Xil = j) nm = Y j nm. Vi så i eksempel 3.5 at dette naturlige estimat faktisk er MLE under hypotesen. Under hypotesen om uafhængighed er det enkelte celletal Y i j binomialfordelt med længde n og successandsynlighed p j. ermed er middelværdien E Y i j= np j. et er således naturligt at udregne de forventede celletal under hypotesen som E i j = n p j = Y j m for,...,m, j=,...k. Bemærk den lidt usædvanlige struktur i denne forventede tabel, sammenlignet med mange af de forventede tabeller vi ellers har set i eksempler og opgaver: e forventede celletal i en given søjle er alle ens. e varierer formentlig fra søjle til søjle, men
22 84 Kapitel 4. Asymptotisk teori ned gennem en given søjle er de ens. et er en konsekvens af at vi har antaget at der er lige mange observationer i hver gruppe, nemlig n. I de fleste virkeligt forekommende tabeller vil antallet af observationer veksle fra gruppe til gruppe, og dermed vil sådanne tabeller ikke umiddelbart passe ind i den formalisme vi er ved at udvikle. Man kan nu vurdere plausibiliteten af hypotesen ved at sammenholde den forventede tabel med den observerede tabel. Hvis de celle for celle er omtrent ens, så kan det tages som en støtte til hypotesen. Hvis de to tabeller afviger fra hinanden, f.eks. fordi der er mindst én celle med en meget betydelig forskel, eller fordi der celle for celle er systematiske forskelle, så kan det tages som evidens mod hypotesen. I praksis foretager man denne celle-for-celle sammenligning ved at opstille Pearsons teststørrelse for uafhængighed, K n = m k (Y i j E i j ) 2 j= E i j (4.6) Hvis K n 0, så tages det som støtte til hypotesen. Hvis K n derimod er meget større end 0, så opfattes det som kritisk for hypotesen. Sætning 4.29 Lad X il for,...,m ogl=, 2... være uafhængige klassifikationsvariable med k labels, inddelt i m grupper. Lad K n være Pearsons teststørrelse for uafhængighed mellem klassifikation og gruppe baseret på de første n observationer fra hver gruppe. Hvis der vitterligt er uafhængighed, så vil K n Z hvor Z erχ 2 -fordelt med (m )(k ) frihedsgrader. BEVIS: Lad os i første omgang se på 2 2-tilfældet, hvor der altså er to grupper og to labels. Vi regnede dette tilfælde igennem i eksempel 3.9 hvor formel (3.5) med den nu benyttede notation siger at K n = n n 2n ( Y n Y 2 n Y 2n ) ( Y 2n )= (Y Y 2 ) 2 2n p ( p ) 2 Y Y 2 p = ( p 2np ) ( p ) p ( p )
23 4.5. Pearson-test af uafhængighed i tovejstabel 85 En vanskelighed ved disse udtryk er at der tilsyneladende ikke er noget n i det udtryk vi er endt med. Men det er et notationsproblem. Vi har undertrykt n et i vores symbolik, men både Y Y 2 og p ( p ) er regnet ud på baggrund af de første n observationer i hver gruppe - der er altså et usynligt n til stede. et fremgår nu af sætning helt specifik i form af (4.3) - at hvis hypotesen er sand, så vil Y Y 2 2np X ( p ) hvor X N(0, ). Fra eksempel 4.26 får vi at Bruger vi den kontinuerte funktion p = Y n P p. g(p)= p ( p ) p( p) på det, får vi at p ( p ) p ( p ) P. Og samler vi nu trådene ved hjælp af sætning 4.28 får vi at K n X 2 Idet X 2 erχ 2 -fordelt med frihedsgrad, er dette netop det resultat vi ønskede i 2 2- tilfældet. Vi vil ikke gennemgå beviset i det generelle tilfælde. Men vi kan alligevel forklare strukturen i regningerne. Både den observerede og den forventede tabel har km celler, så derfor har K n som udgangspunkt mk led kvadratled. Man ville derfor være lovligt undskyldt, hvis man forestillede sig at der dukkede enχ 2 -fordeling med mk frihedsgrader op. Men eftersom rækkesrummen i den i te række for den observerede tabel og den forventede tabel er ens, så kan differensen i den højre søjle Y ik E ik udtrykkes som en sum af Y i E i,...,y i (k ) E i (k ). et betyder at der højst er er m(k ) forskellige differenser. Eftersom det også gælder at søjlesummerne i de to tabeller er ens, så kan man faktisk også udtrykke differenserne i den nederste række af tabellen ved differenserne højre oppe. Og på den måde ender man med (m )(k ) forskellige differenser. Hvis man kigger efter, så viser det sig at disse simple differenser
24 86 Kapitel 4. Asymptotisk teori hver især er linearkombinationer af Y i j erne et var præcis hvad der skete i 2 2- tilfældet hvor man endte med at udtrykke K n ved en enkelt simpel differens, nemlig ved Y Y 2. Men for større tabeller kommer der en ekstra komplikation: det viser sig at disse (m )(k ) simple differenser er ikke i nærheden af at være uafhængige. er kommer et ekstra argument hvor man (ligesom i beviset for sætning 4.22) ved hjælp af betydelige mængder lineær algebra finder nogle andre linearkombinationer V i j = i, j α (i, j),(i, j ) Y i j så disse V i j er har kovarians nul med hinanden, og så de hver især konvergerer i fordeling mod enn(0, )-fordelt grænse. Herefter udtrykker man K n som en sum af (m )(k ) modificerede kvadrater af V i j erne. Modifikationen består i hvert tilfælde af en faktor der konvergerer mod i sandsynlighed, og som derfor kan ignoreres - præcis som vi så i 2 2-tilfældet. Som vi bemærkede i indledningen af dette afsnit, så er der noget kunstigt over at forlange at alle rækkesummer er ens. Sådan er det jo sjældent i praksis. Når vi har insisterer på det, så er det udelukkende for at gøre grænseresultatet nemmere at formulere, for så var der et enkelt n der kunne gå mod uendelig. Hvis antallet af observationer i hver gruppe kaldes n, n 2,...,n k, uden at vi tvinger dem til at være ens, så skal det endelige resultat formuleres som en grænseovergang i grænsen n,...,n k, altså som en approksimation der bliver bedre og bedre hvis alle gruppestørrelserne vokser. en type grænseovergange er teknisk vanskelige at håndtere, og overlades bedst til specialister. Men påstanden er for så vidt sand nok. Og den klassiske tommelfingerregel er at approksimationen er god nok til at blive taget alvorlig hvis gruppestørrelserne er så store at E i j 5 for alle celler. Simulationer vil afsløre at det er en meget forsigtig tommelfingerregel - approksimationen er brugbar længe inden da. 4.6 Opgaver OPGAVE 4.. Lad X være en reel stokastisk variable, og antag at fordelingen af X har tæthed f, altså P(X A)= f (x) dx for alle A R. A
25 4.6. Opgaver 87 Vis at hvis f (x) C for alle x Rså er P(X=x)=0 for alle x R. Med andre ord: hvis tætheden f er begrænset, så har X en kontinuert fordeling. OPGAVE 4.2. Vis at hvis så vil X n X X n n P 0
Elementær sandsynlighedsregning
Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder
Læs mereRegneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)
Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen
Læs mereElementær sandsynlighedsregning
Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en
Læs mere5.3 Konvergens i sandsynlighed Konvergens i sandsynlighed 55. Hvis vi regner den karakteristiske funktion for X, v ud i argumentet 1, fås
5.3. Konvergens i sandsynlighed 55 BEVIS: Lad φ 1, φ 2,... og φ være de karakteristiske funktioner for X 1, X 2,... og X. Hvis vi regner den karakteristiske funktion for X, v ud i argumentet 1, fås φ X,v
Læs mereAgenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede
Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater
Læs mereEn martingalversion af CLT
Kapitel 11 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske
Læs mereStatistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen
Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager
Læs mereDeskriptiv teori i flere dimensioner
Kapitel 17 Deskriptiv teori i flere dimensioner I kapitel 13 og 14 udviklede vi en række deskriptive værktøjer til at beskrive sandsynlighedsmål på (R, B) Vi vil i dette kapitel forsøge at udvikle varianter
Læs mereReeksamen 2014/2015 Mål- og integralteori
Reeksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål. Ved bedømmelsen indgår de spørgsmål med samme vægt.
Læs mereEksamen 2014/2015 Mål- og integralteori
Eksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål Ved bedømmelsen indgår de spørgsmål med samme vægt
Læs mereSupplement til kapitel 7: Approksimationen til normalfordelingen, s. 136
Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man
Læs mereDen todimensionale normalfordeling
Den todimensionale normalfordeling Definition En todimensional stokastisk variabel X Y siges at være todimensional normalfordelt med parametrene µ µ og når den simultane tæthedsfunktion for X Y kan skrives
Læs mereStatistiske modeller
Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder
Læs mereHypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0
Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt
Læs mereTema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Læs mereKvantitative Metoder 1 - Forår 2007
Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte
Læs mereOm hypoteseprøvning (1)
E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;
Læs mereStatistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Læs mereEn martingalversion af CLT
Kapitel 9 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske variable,
Læs mereTeoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.
Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt
Læs mereLineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable
E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt
Læs mereSandsynlighedsregning Oversigt over begreber og fordelinger
Tue Tjur Marts 2007 Sandsynlighedsregning Oversigt over begreber og fordelinger Stat. MØK 2. år Kapitel : Sandsynlighedsfordelinger og stokastiske variable En sandsynlighedsfunktion på en mængde E (udfaldsrummet)
Læs mereStatistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Normalfordelingens venner og bekendte Helle Sørensen Uge 9, onsdag SaSt2 (Uge 9, onsdag) Normalfordelingens venner 1 / 20 Program Resultaterne fra denne uge skal bruges
Læs mereKvantitative Metoder 1 - Forår Dagens program
Dagens program Kontinuerte fordelinger Simultane fordelinger Kovarians og korrelation Uafhængighed Betingede fordelinger - Middelværdi og varians - Sammenhæng med uafhængighed 1 Figur 1: En tæthedsfunktion
Læs mereINSTITUT FOR MATEMATISKE FAG c
INSTITUT FOR MATEMATISKE FAG c AALBORG UNIVERSITET FREDRIK BAJERS VEJ 7 G 9220 AALBORG ØST Tlf.: 96 35 89 27 URL: www.math.aau.dk Fax: 98 15 81 29 E-mail: bjh@math.aau.dk Dataanalyse Sandsynlighed og stokastiske
Læs mereNote om Monte Carlo metoden
Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at
Læs mereDefinition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereRettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007
Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave
Læs mereProdukt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Læs mereStatistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Uafhængighed og reelle transformationer Helle Sørensen Uge 8, mandag SaSt2 (Uge 8, mandag) Uafh. og relle transf. 1 / 16 Program I dag: Uafhængighed af kontinuerte
Læs mereMLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som
MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,
Læs mereKursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereLøsning til eksamen d.27 Maj 2010
DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1
Læs mereDefinition. Definitioner
Definition Landmålingens fejlteori Lektion Diskrete stokastiske variable En reel funktion defineret på et udfaldsrum (med sandsynlighedsfordeling) kaldes en stokastisk variabel. - kkb@math.aau.dk http://people.math.aau.dk/
Læs mereIkke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Læs mereStatistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Lineære transformationer, middelværdi og varians Helle Sørensen Uge 8, onsdag SaSt2 (Uge 8, onsdag) Lineære transf. og middelværdi 1 / 15 Program I formiddag: Fordeling
Læs mereBilledbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)
; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians
Læs mereKarakteristiske funktioner og Den Centrale Grænseværdisætning
E6 efterår 1999 Notat 10 Jørgen Larsen 20. oktober 1999 Karakteristiske funktioner og Den Centrale Grænseværdisætning Karakteristiske funktioner som er nære slægtninge til Fourier-transformationen) er
Læs mereI dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd
I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt
Læs mereLandmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:
Læs mere1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable
Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder
Læs mereProgram. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål
Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner
Læs mereFor nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.
1 Uge 11 Teoretisk Statistik 8. marts 2004 Kapitel 3: Fordeling af en stokastisk variabel, X Kapitel 4: Fordeling af flere stokastiske variable, X 1,,X m (på en gang). NB: X 1,,X m kan være gentagne observationer
Læs mereEt eksempel på en todimensional normalfordeling Anders Milhøj September 2006
Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af
Læs merehvor a og b er konstanter. Ved middelværdidannelse fås videre
Uge 3 Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge ) 3. Middelværdivektor, kovarians- og korrelationsmatrix 4. Summer af stokastiske variable 5.Den
Læs mereMomenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål
Hvad vi mangler fra onsdag Momenter som deskriptive størrelser Sandsynlighedsmål er komplicerede objekter de tildeler numeriske værdier til alle hændelser i en σ-algebra. Vi har behov for simplere, deskriptive
Læs mereHvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.
Hvad vi mangler fra onsdag Vi starter med at gennemgå slides 34-38 fra onsdag. Slide 1/17 Niels Richard Hansen MI forelæsninger 6. December, 2013 Momenter som deskriptive størrelser Sandsynlighedsmål er
Læs mereLogistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder
Læs mereMatematisk modellering og numeriske metoder. Lektion 8
Matematisk modellering og numeriske metoder Lektion 8 Morten Grud Rasmussen 18. oktober 216 1 Fourierrækker 1.1 Periodiske funktioner Definition 1.1 (Periodiske funktioner). En periodisk funktion f er
Læs merestandard normalfordelingen på R 2.
Standard normalfordelingen på R 2 Lad f (x, y) = 1 x 2 +y 2 2π e 2. Vi har så f (x, y) = 1 2π e x2 2 1 2π e y2 2, og ved Tonelli f dm 2 = 1. Ved µ(a) = A f dm 2 defineres et sandsynlighedsmål på R 2 målet
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mereLøsning til eksaminen d. 29. maj 2009
DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Læs mereUge 10 Teoretisk Statistik 1. marts 2004
1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt
Læs mereTaylors formel. Kapitel Klassiske sætninger i en dimension
Kapitel 3 Taylors formel 3.1 Klassiske sætninger i en dimension Sætning 3.1 (Rolles sætning) Lad f : [a, b] R være kontinuert, og antag at f er differentiabel i det åbne interval (a, b). Hvis f (a) = f
Læs mereRepetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable
Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition
Læs mereLandmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen
Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,
Læs mereTeoretisk Statistik, 16. februar Generel teori,repetition
1 Uge 8 Teoretisk Statistik, 16. februar 2004 1. Generel teori, repetition 2. Diskret udfaldsrum punktssh. 3. Fordelingsfunktionen 4. Tæthed 5. Transformationer 6. Diskrete vs. Kontinuerte stokastiske
Læs mereTænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.
Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og
Læs mereSvag konvergens. Kapitel Historisk indledning
Kapitel 4 Svag konvergens 4.1 Historisk indledning I første halvdel af 1700-tallet var stort set al sandsynlighedsregning af kombinatorisk natur. Hovedværker fra perioden er Abraham de Moivres The Doctrine
Læs mereInstitut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med
Repetition: Varians af linear kombination Landmålingens fejlteori Lektion 5 Fejlforplantning - rw@math.aau.dk Antag X 1, X,..., X n er uafhængige stokastiske variable, og Y er en linearkombination af X
Læs mereLandmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable
Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/41 Landmålingens fejlteori - lidt om kurset
Læs merePreben Blæsild og Jens Ledet Jensen
χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt
Læs mereMat H /05 Note 2 10/11-04 Gerd Grubb
Mat H 1 2004/05 Note 2 10/11-04 Gerd Grubb Nødvendige og tilstrækkelige betingelser for ekstremum, konkave og konvekse funktioner. Fremstillingen i Kapitel 13.1 2 af Sydsæters bog [MA1] suppleres her med
Læs mereProgram. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål
Program Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag I formiddag: Tætheder og fordelingsfunktioner kort resume fra i mandags og et par eksempler mere om sammenhængen
Læs mereStatistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag SaSt2 (Uge 6, onsdag) Middelværdi og varians 1 / 18 Program I formiddag: Tætheder og fordelingsfunktioner kort resume
Læs mereLøsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Læs mereKvantitative Metoder 1 - Forår Dagens program
Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer
Læs mereKapitel 7 Forskelle mellem centraltendenser
Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens
Læs mereLogistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π
Læs mereNote til styrkefunktionen
Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H
Læs mereBernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen
Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen Repetition Lov om total sandsynlighed Bayes sætning P( B A) = P(A) = P(AI B) + P(AI P( A B) P( B) P( A B) P( B) +
Læs mereIntroduktion til Laplace transformen (Noter skrevet af Nikolaj Hess-Nielsen sidst revideret marts 2013)
Introduktion til Laplace transformen (oter skrevet af ikolaj Hess-ielsen sidst revideret marts 23) Integration handler ikke kun om arealer. Tværtimod er integration basis for mange af de vigtigste værktøjer
Læs mereKvantitative Metoder 1 - Efterår Dagens program
Dagens program Afsnit 6.1. Ligefordelinger, fra sidst Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler
Læs mereModule 1: Lineære modeller og lineær algebra
Module : Lineære modeller og lineær algebra. Lineære normale modeller og lineær algebra......2 Lineær algebra...................... 6.2. Vektorer i R n................... 6.2.2 Regneregler for vektorrum...........
Læs mereSandsynlighedsregning 11. forelæsning Bo Friis Nielsen
Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 28 Kgs. Lyngby Danmark Email: bfni@imm.dtu.dk Dagens nye emner afsnit 6.3 (og 6.4 Betingede
Læs mereLøsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Læs mereπ er irrationel Frank Nasser 10. december 2011
π er irrationel Frank Nasser 10. december 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold 1 Introduktion
Læs mereSandsynlighedsregning 3. forelæsning Bo Friis Nielsen
Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Science Danmarks Tekniske Universitet 28 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner Stokastiske variable: udfald
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mereKalkulus 2 - Grænseovergange, Kontinuitet og Følger
Kalkulus - Grænseovergange, Kontinuitet og Følger Mads Friis 8. januar 05 Indhold Grundlæggende uligheder Grænseovergange 3 3 Kontinuitet 9 4 Følger 0 5 Perspektivering 4 Grundlæggende uligheder Sætning
Læs mereChapter 3. Modulpakke 3: Egenværdier. 3.1 Indledning
Chapter 3 Modulpakke 3: Egenværdier 3.1 Indledning En vektor v har som bekendt både størrelse og retning. Hvis man ganger vektoren fra højre på en kvadratisk matrix A bliver resultatet en ny vektor. Hvis
Læs mereForelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)
Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske
Læs mereKapitel 4 Sandsynlighed og statistiske modeller
Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol
Læs mereSandsynlighedsregning 9. forelæsning Bo Friis Nielsen
Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner afsnit 5.3 og 5.4 Simultane kontinuerte
Læs mereFejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning
Fejlforplantning Landmålingens fejlteori Lektion 5 Fejlforplantning - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf13 Landmåling involverer ofte bestemmelse af størrelser som ikke kan
Læs mereNanostatistik: Konfidensinterval
Nanostatistik: Konfidensinterval JLJ Nanostatistik: Konfidensinterval p. 1/37 Fraktilpåmindelse u p : Φ(u p ) = p, Φ( z ) = 1 Φ( z ) t p [f] : F t[f] (t p [f]) = p, F t[f] ( t ) = 1 F t[f] ( t ) F-fordeling:
Læs mereTeoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger
Uge 49 I Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte
Læs mereNormalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Læs mereHilbert rum. Chapter 3. 3.1 Indre produkt rum
Chapter 3 Hilbert rum 3.1 Indre produkt rum I det følgende skal vi gøre brug af komplekse såvel som reelle vektorrum. Idet L betegner enten R eller C minder vi om, at et vektorrum over L er en mængde E
Læs mereLandmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3
Landmålingens fejlteori Repetition - Kontinuerte stokastiske variable Lektion 4 - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf10 Institut for Matematiske Fag Aalborg Universitet 29. april
Læs mereNoter til Perspektiver i Matematikken
Noter til Perspektiver i Matematikken Henrik Stetkær 25. august 2003 1 Indledning I dette kursus (Perspektiver i Matematikken) skal vi studere de hele tal og deres egenskaber. Vi lader Z betegne mængden
Læs mereMatematisk modellering og numeriske metoder. Lektion 5
Matematisk modellering og numeriske metoder Lektion 5 Morten Grud Rasmussen 19. september, 2013 1 Euler-Cauchy-ligninger [Bogens afsnit 2.5, side 71] 1.1 De tre typer af Euler-Cauchy-ligninger Efter at
Læs mereLøsning til eksamen 16/
1 IMM - DTU 245 Probability 24-5-11 BFN/bfn Løsning til eksamen 16/12 23 Spørgsmål 1) 2 44% Man benytter formlen for skalering og positionsskift i forbindelse med varians og standardafvigelse, samt formlen
Læs mereNoget om en symmetrisk random walks tilbagevenden til udgangspunktet
Random Walk-kursus 2014 Jørgen Larsen 14. oktober 2014 Noget om en symmetrisk random walks tilbagevenden til udgangspunktet Dette notat giver et bevis for at en symmetrisk random walk på Z eller Z 2 og
Læs mereNanostatistik: Opgavebesvarelser
Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,
Læs mereSupplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable
IMM, 00--6 Poul Thyregod Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable Todimensionale stokastiske variable Lærebogens afsnit 4 introducerede sandsynlighedsmodeller formuleret
Læs mereAlgebra - Teori og problemløsning
Algebra - Teori og problemløsning, januar 05, Kirsten Rosenkilde. Algebra - Teori og problemløsning Kapitel -3 giver en grundlæggende introduktion til at omskrive udtryk, faktorisere og løse ligningssystemer.
Læs mere