Sadsylighedsregig og statistisk J. C. F. Gauss 777 855) Peter Haremoës Niels Brock 2. april 23
Idledig Dette hæfte er lavet som supplemet til 2. udgave af boge Mat B. Der er lagt vægt på at give e bedre forståelse for de metoder, der beyttes i deskriptiv statistik på Mat C iveau. Edvidere er der lagt vægt på at teorie for kotiuerte fordeliger ka ses som e avedelse af B- og A-iveauets differetial- og itegralregig. 2 Itegraler over ubegræsede itervaller I det itegralregig vi stiftede bekedtskab med i Mat A-boge, blev alle bestemte itegraler taget over begræsedede itervaller. Ma ka imidlertid ofte også tage itegraler over ubegræsede itervaller. Eksempel Lad t > være et reelt tal. Da er t [ x dx = - ] t 2 x = - ) t = t. - ) Vi ser, at /t er e voksede fuktio og at /t for t. Vi skriver derfor dx =. x2 Defiitio 2 Lad f være e kotiuert fuktio. Hvis b f x) dx har e a græseværdi for b gåede mod uedelig, så beteges dee græseværdi a f x) dx. Tilsvarede defieres b f x) dx som de evetuelle græseværdi af b f x) dx - a for a gåede mod -. Hvis b f x) dx er defieret og har e græsevær - for b gåede mod uedelig, så beteges dee græseværdi med f x) dx. -
3 Kotiuerte fordeliger Defiitio 3 Lad X være e stokastisk variabel. Da er fordeligsfuktioe F for X defieret ved F x) = P X x). Fordeligsfuktioe svarer til de sumkurver vi har teget i deskriptiv statistik. Eksempel 4 E stokastisk variabel X siges at være ekspoetialfordelt med middelværdi λ dersom des fordeligsfuktio er givet ved { for x, F x) = e - x/λ for x >. E såda ekspoetialfordelig giver f.eks. e god beskrivelse for vetetide for et radioaktivt hefald af et atom. at Vi lægger mærke til at fordeligsfuktioe er e voksede fuktio og lim F x) =, x - F x) =. lim x Hvis vi keder fordeligsfuktioe for e stokastisk variabel, ka vi berege sadsylighede for at de stokastiske variabel ligger i et vilkårligt iterval, idet der gælder at P a < X b) = F b) F a). Defiitio 5 Hvis fordeligsfuktioe F for e stokastisk variabel X er e kotiuert fuktio, så siges X at være e kotiuert variabel. Hvis F er differetiabel, så kaldes fuktioe f x) = F x) for de stokastiske variabels tæthedsfuktio. Tæthedsfuktioe svarer til de pide- og søjlediagrammer vi har teget i deskriptiv statistik. Eksempel 6 Tæthedsfuktioe for e ekspoetialfordelig er givet ved f x) = F x) { for x, = λ e- x/λ for x >. 2
fx) = e x.5.5.5 2 2.5 3 x Figur : Tæthedsfuktio for ekspoetialfordelige. Hvis f er tæthed for e stokastisk variabel med for delig F, så er F stamfuktio til f og der gælder at Edvidere gælder der, at F t) = t - f x) dx. P a < X b) = F b) F a) = b a f x) dx. Sadsylighede for at a < X b svarer derfor til arealet uder grafe for f mellem a og b. For at e fuktio f ka være e tæthedsfuktio, skal der gælde, at f x) og at f x) dx =. - De fleste kotiuerte fordeliger er defieret ud fra deres tæthedsfuktio. Eksempel 7 Ved e ligefordelig i itervallet [a; b] forstå e fordelig med tæthed { for x / [a; b], f x) = for x [a; b]. b a Vi checker, at der ret faktisk er tale om e sadsylighedsfordelig ved at udrege b [ ] b x a b a dx = =. b a a Når vi teger søjlediagrammet for grupperede data, atager vi faktisk, at data er ligefordelt i hvert deliterval. Ligesom for diskrete variable ka ma berege middelværdi og varias for kotiuerte fordeliger. Dette sker ved at erstatte summer med itegraler. 3
fx) = 3 x 4 3 2 x 2 3 Figur 2: Tæthed for e Pareto-fordelig. Eksempel 8 Tæthedsfuktioe { for x <, f x) = 3 for x, x 4 defierer e såkaldt Pareto-fordelig. Vi checker at det ret faktisk er e tæthedsfuktio ved at itegrere [ ] 3 - x dx = 4 x 3 - x = lim =. x 3 -) Defiitio 9 Lad X være e stokastisk variabel med tæthedsfuktio f. Da defieres middelværdie af X ved E [X] = - x f x) dx. Hvis de stokastiske variabel X har middelværdi µ, så er variase af X defieret ved V ar X) = - x µ) 2 f x) dx. 4
Stadardafvigelse er givet ved σ X) = V ar X)) /2. Stadardafvigelse kaldes også stadardafvigelse. Eksempel Kræver kedskab til partiel itegratio) Ekspoetialfouktioe med tæthed e-x/µ µ for x har middelværdi - x f x) dx = x dx + x e-x/µ - µ dx x = + µ µ e-x/µ µ dx. Her laves substitutio t = x /µ, hvilket ved brug af partiel itegratio giver µ x µ e- x/µ µ dx = µ = µ = µ t e -t dt [t )] -e -t + = µ [-e -t] = µ. ) e -t dt ) ) -e -t dt For at berege variase laves ige substitutioe t = x /µ, hvilket giver x µ) 2 e - x/µ µ dx = µt µ) 2 e -t dt = µ 2 t ) 2 e -t dt. 5
Det sidste itegral bereges ved at lave partiel itegratio 2 gage: t ) 2 e -t dt = [ t ) 2 -e -t)] 2 t ) -e -t) dt = + 2 t ) e t dt [t = 2 )] ) -e -t ) = 2 + e -t dt = 2 + [ -e -t] ) = 2 + ) = 4. Derfor er variase 4µ 2, og stadardafvigelse er 2µ. ) ) -e -t dt Øvelse Bereg middelværdi, varias og stadardafvigelse af e ligefordelig. Øvelse 2 Rereg middelværdi, varias og stadardafvigelse for Pareto-fordelige fra Eksempel 8. Øvelse 3 Kræver kedskab til partiel itegratio) E stokatisk variabel med sadsylighedstæthed xe -x for x siges at være Gammafordelt. a Vis at dette er e sadsylighedstæthed. b Bestem middelværdie af dee Gammafordelig. c Bestem varias og stadardafvigelse af dee Gammafordelig. Det ka vises at - e- x 2 2 dx = 2π) /2. Derfor er φ x) = e- x 2 2 2π) /2 e tæthedsfuktio. De tilsvarede fordelig kaldes e stadard-ormalfordelig. Det ka vises, at de har middelværdi og varias. Fordeligsfuktioe for stadard ormalfordelige beteges Φ. Det ikke er muligt at opskrive et beregigsudtryk for Φ, så værdier af Φ ka ku bereges tilærmelsesvis 6
.5 fx) = e x 2 2π) /2 2 x 2 2 Figur 3: Tæthedsfuktio for stadardormalfordelige ved hjælp af såkaldt umerisk itegratio. Hvis tæthedsfuktioe i stedet er e - x µ)2 2σ 2 2π) /2 σ, så er der tale om e ormalfordelig med middelværdi µ og stadardafvigelse σ. 4 Middelværdi og varias Ude bevis æver vi, at hvis X og X 2 er to stokastiske variable, så gælder der at E [X + X 2 ] = E [X ] + E [X 2 ]. Hvis edvidere X og X 2 er uafhægige så gælder E [X X 2 ] = E [X ] E [X 2 ]. Sætig 4 Lad X og X 2 være uafhægige stokastiske variable. Da gælder at V ar X + X 2 ) = V ar X ) + V ar X 2 ). Bevis. Lad µ og µ 2 betege middelværdiere af X 2 og X 2. Da er middelværdie af X + X 2 lig µ + µ 2. Derfor gælder V ar X + X 2 ) = E [ X + X 2 ) µ + µ 2 )) 2] = E [ X µ ) + X 2 µ 2 )) 2] = E [ X µ ) 2 + X 2 µ 2 ) 2 + 2 X µ ) X 2 µ 2 ) ] = E [ X µ ) 2] + E [ X 2 µ 2 ) 2] + E [2 X µ ) X 2 µ 2 )]. 7
Da X er uafhægig af X 2 er X µ uafhægig af X 2 µ 2 og der gælder at E [2 X µ ) X 2 µ 2 )] = 2E [X µ ] E [X 2 µ 2 ] = 2 E [X ] E [µ ]) E [X 2 ] E [µ 2 ]) = 2 µ µ ) µ 2 µ 2 ) =. Derfor er V ar X + X 2 ) = E [ X µ ) 2] + E [ X 2 µ 2 ) 2] = V ar X ) + V ar X 2 ). 5 Estimatio Atag af vi om ogle data e stikprøve) ved at de er ormalfordelte med stadardafvigelse 2 me vi ikke keder ormalfordeliges middelværdi. Opgave er ud fra data at give et bud på værdie af ormalfordeliges middelværdi. Defiitio 5 Et estimat er e fuktio, der til e vilkårlig stikprøve kytter et reelt tal. Et estimat er med adre ord e stokastisk variabel defieret ud fra e stikprøve. Om et estimat er godt eller skidt er e ade sag. Hvis vi f.eks. skal estimere middelværdie af e ormalfordelig, ka vi bruge stikprøves media. Hvis stikprøve ellers er stor, vil mediae ligge tæt på middelværdie, så mediae er e udemærket estimator for middelværdie. I stedet for mediae kue ma tage de største værdi i stikprøve. Dee vil oplagt give et dårligt estimat af middelværdie, og jo større stikprøve er jo dårligere vil estimatet være. Defiitio 6 Et estimat siges at være cetralt dersom middelværdie af estimatet er de sade værdi. Hvis et estimat ikke er cetralt, siges det at være skævt. Mediae er et cetralt estimat af middelværdie, mes maksimum er et skævt estmat, idet maksimum i middel giver e for høj værdi. Sætig 7 Stikprøves geemsit giver et cetralt estimat af ormalfordeliges middelværdi. 8
Bevis. Lad X, X 2,..., X ) betege e stikprøve. Da er X = X i og i= E [ [ ] X] = E X i i= = E [X i ] = = µ. i= µ i= Vi ka udrege variase af geemsittet. Atag at de stokastiske variabel har middelværdi. Så gælder at ) ) V ar X i = V ar X 2 i i= i= = V ar X 2 i ) i= = 2 σ2 = σ2. Derfor er geemsittets stadardafvigelse σ/ /2. Det ka vises at stikprøves geemsit er det cetrale estimat, som har de midste varias. Derfor vil geemsittet være vores foretruke estimat for middelværdie. Hvis ma ved at e ormalfordelig har middelværdi µ og skal estimere des varias på grudlag af e stikprøve, så ka ma bruge estimatet X i µ) 2. i= Dette estimat er cetralt. Hvis ma hverke keder e ormalfordeligs middelværdi eller varias kue ma tage stikprøves varias Xi X ) 2, i= 9
som estimat for de ukedte varias. Det viser sig imidlertid, at dette er et skævt estimat, som er systematisk for lille. Hvis stikprøvestørrelse f.eks. er =, så vil X = X og så bliver i= Xi X ) 2 = X X ) 2 =. Sætig 8 Et cetralt estimat af variase af e ormalfordelig med ukedt middelværdi er givet ved for 2. Xi X ) 2 i= Bevis. Vi vil atage, at ormalfordelige har middelværdi og varias σ 2. Da gælder [ E Xi X ) ] 2 = [ Xi E X ) ] 2 i= i= = [ E X X ) ] 2 = E [ X 2 + X 2 2X X] [ ] [ ] E X 2 + E X2 2E [ X X]). =
Vi beytter u at E [X 2 ] = σ 2 og E [ X2 ] = σ 2 / samt at X = - i= X i til at få [ ] [ ] E X 2 + E X2 2E [ X X]) = σ 2 + σ2 2E = σ 2 + σ2 = σ 2 + σ2 = [ ]) X X i i= ) E [X X i ] 2 i= 2 E [ )) ] X 2 + E [X ] E [X i ] i=2 σ 2 + σ2 2 σ 2 + )) = ) σ 2 σ2 = σ 2. 6 Statistik med TI-spire Af de mage statistikfuktioer, som fides i TI-spire CAS, er det ku ogle få vi bruger. Her er e oversigt. 6. Oprettelse af lister Dataværdier tastes id mauelt eller importeres fra et adet program. TIspires listeformat er tabulator-separeret tekst. Ma ka importere fra MS-Excel ved at åbe datafile, markere de relevate felter og sætte id i e liste i TI-spire. Kommadoe frequecy x, y) laver e liste over hvor mage gage værdie y forekommer i liste x. Ma skal derfor først lave e liste over mulige værdier og kalde dee liste y. Kommadoe cumulativesum x) bruges til at dae e liste over summerede hyppigheder eller frekveser ud fra e liste x over hyppigheder/frekveser. 6.2 Udersøgelse af datasæt Deskriptorer For at bestemme diverse deskriptorer for et datasæt skrives værdiere som e koloe i et regeark. Ma ka evt. tilføje e hyppig-
hedsliste. Herfter vælges 4: Statis...>: Stat beregig...> : Statistik med é variabel... Uafhægighedstest Bruges til at test om to størrelser eller hædelser er uafhægige ud fra e tabel med to iddeligskriterier. Ma samler data i e matrix og vælger 4: Statis...> 4: Stat-tests...>8: χ 2 2-vejstest... Goodess-of-fittest Bruges til at teste om e størrelse eller hædelse følger e bestemt fordelig. De observerede og de forvetede hyppigheder skrives som koloer i et regeark hvorefter ma vælger 4: Statis... > 4: Stat-tests...> 7: χ 2 GOF... Kofidesitervaler Disse bereges uder forudsætiger af at data atages at være ormalfordelt eller tilærmelsesvis ormalfordelt. Hvis stikprøve er tilstrækkelig stor ka middelværdie altid atages at være ormalfordelt. For e dataliste vælges 4: Statis...>3: Kofidesitervaller... Herefter vælges : z-iterval...hvis stadardafvigelse af ormalfordelige kedes. Hvis stadardafvigelse ikke kedes me skal estimeres vha. datasættets stadardafvigelse, så vælges 2: t-iterval... Hvis kofidesitervallet for succes-sadsylighede i e biomialfordelig skal bereges, vælger ma 4: Statis...>3: Kofidesitervaller...> 5: -Prop z-iterval... Regressio Hvis ma skal udersæge om to størrelser i et datasæt ka beskrives me e lieær eller ekspoetiel fuktio, så skal de først idlæses som 2 koloer i et regeark. Her efter vælges 4: Statis...>: Stat beregig... hvoerefter ma vælger 3: Lieær regressio mx+b)... eller A: Ekspoetiel regressio... Bemærk at ma også ka lave regressio ved først at lave datalister, så lave et xy-plot med applikatioe 5: Tilføj Data og Statistik hvorefter ma vælger 4: Aalys...>6: Regressio, hvorefter ma vælger : Vis lieær mx+b) eller 8: Vis ekspoetiel. 6.3 Fordeliger I løbet af kurset har vi beskæftiget os med 3 forskellige fordeligstyper: Normalfordeliger, biomialfordeliger og χ 2 -fordeliger. Beregiger vedr. disse fordeliger ka laves ved at vælge 4: Statis...>2: Stat-fordeliger... Dem vi ka få brug for er: : Normal Pdf... giver sadsylighedstæthede i et pukt for e ormalfordelig. Dee bruges, hvis ma skal tege grafe for tæthedsfuktioe. 2
2: Normal Cdf... giver sadsylighede for et iterval for e ormalfordelt stokastisk variabel. 3: Ivers ormal... giver fraktile svarede til e bestemt sadsylighed, som vi ka opfatte som e procetdel. I TI-spire skal sadsylighede idtastes i feltet Areal. 7: χ 2 Pdf... giver sadsylighedstæthede i et pukt for e χ 2 -fordelig. Dee bruges, hvis ma skal tege grafe for tæthedsfuktioe. 8: χ 2 Cdf... giver sadsylighede for et iterval for e χ 2 -fordelt stokastisk variabel. De vigtigste avedelse er beregig af p-værdie svarede til e observeret værdi af χ 2 -teststørrelse. 9: Ivers χ 2... giver fraktile svarede til e bestemt sadsylighed for e χ 2 -fordelt stokastisk variabel. F.eks. giver 95 % fraktile det de kritiske værdi ved et 5 % sigifikasiveau. D: Biom Pdf... giver puktsadsylighede for e biomialfordelt stokastisk variabel. E: Biom Cdf... giver sadsylighede for et iterval for e biomialfordelt stokastisk variabel. 6.4 Diagramtyper Histogrammer ka daes ved at vælge data>frekvesplot. Søjlebreddere ka justeres ved at højreklikke på diagrammet og vælge søjleidstilliger. Pidediagrammer Disse laves som søjlediagrammere. Ma skal blot gøre søjlere meget smalle.4 er ofte passede bredde). Trappediagrammer sumkurver for ugrupperede data) ka f.eks. laves ved at lave e liste over kumulerede frekveser. Ma laver herefter et histogram hvor ma tilføjer de kumulerede frekveser som e y værdi-liste. Ved hjælp af søjleidstilliger justeres søjlere til side så trappetriee kommer de rigtige steder. Sumkurver for grupperede data laves ved at afsætte dataværdiere ud ad.-akse og de kumulerede frekveser ud ad 2.-akse. Herefter højreklikkes på diagrammet og ma vælger forbid datapukter. For at få et pæt diagram skal es dataliste starte og slutte med ogle tomme itervaller. 3
6.5 TI-83+/84+ Meue for ormalfordeliger ka fides uder DISTR 2d VARS). Bemærk at middelværdi og stadardafvigelse har defaultværdier og svarede til e stadard-ormalfordelig. : ormalpdf Returerer sadsylighedstæthede i et givet pukt. Sytax: ormalpdfx) ormalpdf x, middelværdi, stadardafvigelse) 2: ormalcdf Returerer værdie af fordeligsfuktioe i et givet pukt. Ma ka vælge både at agive e edre og e øvre græse. I stedet for - og ka ma bruge - 99 og 99 Sytax: ormalcdfx) ormalcdfx, middelværdi, stadardafvigelse) ormalormalcdf edre græse, øvre græse, middelværdi, stadardafvigelse) 3: ivnorm Returerer fraktile svarede til et et tal mellem og. Sytax: ivnormsadsylighed) ivnormsadsylighed, middelværdi, stadardafvigelse) Der er følgede kommadoer til at geerere tilfældige tal. Tast MATH > PRB : rad Returere et ligefordelt tal mellem i [; ] Sytax: rad radnorm Returerer et tilfældige ormalfordelte tal. Sytax: radnormmiddelværdi, stadardafvigelse, atal tilfældige tal) radit Returerer et tilfældigt helt tal. Sytaks: raditmidste tal, største tal) 4
6.6 TI-89/Voyage 2 Ma ka kalde kommadoer svarede til kommadoere i TI-83+/TI-84+ ved hete dem fra kataloget eller skrive heholdsvis: tistat.ormpdf tistat.ormcdf tistat.ivnorm Alterativt ka ma starte applicatioe list/stat og vælge F5 Distr :Shade :Shade Normal Et vidue kommer frem, hvor ma idtaster Upper value og Lower value itervaledepuktere), µ middelværdi) og σ stadardafvigelse). E graf bliver vist med e markerig af det areal uder kurve ma har agivet. 2:Iverse > :Iverse Normal... Et vidue kommer frem, hvor ma idtaster Area sadsylighed), µ middelværdi) og σ stadardafvigelse). Et yt vidue kommer frem med agivelse af de tilsvarede fraktil. 3:Normal Pdf... Et vidue kommer frem, hvor ma idtaster x, µ middelværdi) og σ stadardafvigelse). Et yt vidue kommer frem med agivelse af værdie af tæthedsfuktioe. 4:Normal Cdf... Et vidue kommer frem, hvor ma idtaster Upper value og Lower value itervaledepuktere), µ middelværdi) og σ stadardafvigelse). I stedet for - og ka ma bruge - 99 og 99. Et yt vidue kommer frem med agivelse af sadsylighede for at e ormalfordelt variabel med de agive parametre ligger i itervallet. Tilfældige tal ka geereres ved at taste [MATH] 7:Probability 4:rad Returerer et tilfældigt helt tal hvis e størsteværdi agives eller et ligefordelt decimaltal fra hvis itet argumet itastes. Sytax: rad) radstørste tal) 6:radNorm Returerer et atal tilfældige ormalfordelte tal. Sytax: radnormatal tilfældige tal, middelværdi, stadardafvigelse). 5