MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER med avedelse af TI 89 og Excel 8 5 9 6 3 0 Histogram for ph 6,9 7, 7,3 7,5 7,7 7,9 ph. udgave 0
FORORD Der er i dee bog søgt at give letlæst og askuelig fremstillig af de statistiske grudbegreber til brug ved e idledede udervisig i statistik. De væsetligste defiitioer og sætiger forklares derfor fortrisvist ved hjælp af figurer og geemregede praktiske eksempler. Øskes e mere matematisk uddybede forklarig, bevis for sætiger osv. ka dette ofte fides i et særskilt tillæg til boge, som fides på ettet uder title Supplemet til statistiske grudbegreber. Læsig: Boge er bygget således op, at der hurtigt ås frem til ormalfordelige og de vigtige ormalfordeligstest. Disse vigtige begreber ka derfor blive grudigt idarbejdet, selv om der ku er kort tid til rådighed. Er det af tidsmæssige grude svært at å hele otatet ka ma ude skade for helhede oversprige kapitlere 0 og, ligesom ma evetuelt ka tage kapitlere og 9 mere oversigtsagtigt. Sidst i hver kapitel fides e række opgaver, der yderligere ka fremme forståelse. Bagerst i boge fides e facitliste til alle opgavere. I et lægere kursusforløb er dee bog tækt at skulle efterfølges af M. Oddershede Larse: Videregåede Statistik, som ka hetes gratis på e-mailadresse www.larse-et.dk Regemidler. Det er hesigtsmæssigt, at ma har adgag til e lommereger eller e PC med de sædvalige fordeliger idbygget. I eksemplere agives således, hvorledes beregigere ka foretages med de i øjeblikket mest populære lommereger TI-89, det tilsvarede PC-program TI-Nspire samt med det meget udbredte regeark Excel. Edvidere er der i et afsit sidst i boge også kort agivet hvorledes beregigere ka udføres med matematikprogrammere Maple og Mathcad. I 8- udgave fides tabeller over de sædvalige statistiske fuktioer, samt forklaret hvorda tabellere avedes Dee udgave, samt 8 udgave ka samme med e række adre oter fides på adresse: www.larse-et.dk Jeg vil gere takke igeiørdocet L. Brødum og J. D. Morad for de mage gode råd geem åree. E særlig tak til lektor Bjare Hellese, som dels har skrevet afsit, dels er kommet med mage værdifulde kommetarer og bidrag til forbedriger. jauar 03 Moges Oddershede Larse i
INDHOLD INTRODUKTION TIL STATISTIK... DESKRIPTIV STATISTIK. Kvalitative data.... Kvatitative data... 4.3 Karakteristiske tal... 7 Opgaver... 3 STOKASTISK VARIABEL 3. Sadsylighed... 5 3. Stokastisk variabel... 6 3.3 Tæthedsfuktio, middelværdi og spredig for kotiuert stokastisk variabel... 7 3.4 Liearkombiatio af stokastiske variable... 4 NORMALFORDELINGEN 4. Idledig... 3 4. Defiitio og sætiger om ormalfordelig... 4 4.3 Beregig af sadsyligheder... 7 Opgaver... 3 5 KONFIDENSINTERVAL FOR NORMALFORDELT VARIABEL 5. Udtagig af stikprøver... 33 5. Fordelig og spredig af geemsit... 34 5.3 Kofidesiterval for middelværdi... 35 5.3. Defiitio af kofidesiterval... 35 5.3. Populatioes spredig kedt eksakt... 36 5.3.3 Populatioes spredig ikke kedt eksakt... 38 5.4 Kofidesiterval for spredig... 43 5.5 Oversigt over cetrale formler i kapitel 5... 45 Opgaver... 46 6 HYPOTESETESTNING ( NORMALFORDELT VARIABEL) 6. Grudlæggede begreber... 48 6. Hypotesetest med ukedt middelværdi og spredig... 5 6.3 Fejl af type I og typr II... 54 6.4 Oversigt over cetrale formler i kapitel 6... 58 Opgaver... 6 7 HYPOTESETESTNING ( NORMALFORDELTE VARIABLE) 7. Idledig... 65 7. Sammeligig af ormalfordelte variable... 66 7.3 Oversigt over cetrale formler i kapitel 7... 7 Opgaver... 7 ii
Idhold 8 REGNEREGLER FOR SANDSYNLIGHED, KOMBINATORIK 8. Regeregler for sadsylighed... 75 8. Betiget sadsylighed... 77 8.3 Kombiatorik... 79 8.3. Idledig... 79 8.3. Multiplikatiospricippet... 79 8.3.3 Ordet stikprøveudtagelse... 80 8.3.4 Uordet stikprøveudtagelse... 8 Opgaver... 83 9 VIGTIGE DISKRETE FORDELINGER 9. Idledig... 86 9. Hypergeometrisk fordelig... 86 9.3 Biomialfordelig... 89 9.4 Poissofordelig... 95 9.5 Approksimatioer... 98 9.6 De geeraliserede hypergeometriske fordelig... 98 9.7 Polyomialfordelig... 99 9.8 Oversigt over cetrale formler i kapitel 9... 00 Opgaver... 0 0 ANDRE KONTINUERTE FORDELINGER 0. Idledig... 08 0. De rektagulære fordelig... 08 0.3 Ekspoetialfordelige... 0 0.4 Weibullfordelige... 0.5 De logaritmiske fordelig... 3 0.6 De todimesioale ormalfordelig... 3 Opgaver... 4 FLERDIMENSIONAL STATISTISK VARIABEL. Esses... 5. Idledig... 6. Kovarias og korrelatioskoefficiet... 8.3 Liearkombiatio... Opgaver... 3 STATISTISKE BEREGNINGER UDFØRT PÅ LOMMEREGNER OG PC TI-89... 6 TI-Nspire... 8 Excel... 9 Maple... 3 Mathcad... 33 APPENDIX. OVERSIGT OVER APPROKSIMATIONER... 35 iii
FACITLISTE... 37 STIKORD... 4 iv
Itroduktio til statistik INTRODUKTION TIL STATISTIK Ved æste alle igeiørmæssige problemer vil de idsamlede data udvise variatio. Måler ma således getage gage idholdet (i %) af et bestemt stof i et levedsmiddel, vil det procetvise idhold ikke blive præcis samme tal for hver gag ma foretager e målig. Dette kue aturligvis være e usikkerhed ved målemetode, me det vil sjældet være de væsetligste årsag. Ved mage idustrielle processer vil e række ukotrollable forhold idvirke på det edelige resultat. Eksempelvis vil udbyttet af e kemisk proces variere fra dag til dag, fordi ma ikke har fuldstædig kotrol over forsøgsbetigelser som temperatur, omrørigstid, tidspukt for tilsætig af råmaterialer, fugtighed osv. Edvidere er forsøgsmaterialere muligvis ikke homogee ok. Råmaterialere ka f.eks. være af varierede kvalitet, der må bruges forskelligt apparatur uder produktiosprocesse, forskelligt persoale deltager i arbejdet osv. Statistik drejer sig om at samle, præsetere og aalysere data med heblik på at foretage beslutiger og løse problemer. I de deskriptive statistik beskrives data ved tabeller, grafisk (lagkagediagrammer, søjlediagrammer) og ved beregig af karakteristiske tal såsom geemsit og spredig. Ma ka eksempelvis i Damarks Statistik (fides på ettet uder adresse www.statistikbake.dk ) fide, hvor mage persobiler der er i Damark i 009 opdelt efter alder. Ma keder her populatioe (biler i Damark), ka grafisk vise deres fordelig i et søjlediagram og berege deres geemsitlige alder. I de mere aalyserede statistik (kaldet iferetiel statistik) søger ma ved mere avacerede statistiske metoder ud fra e repræsetativ stikprøve at kokludere oget om hele populatioe. Eksempelvis udtages ved e meigsmålig e forhåbetlig repræsetativ stikprøve på 000 vælgere, som ma spørger om hvilket politisk parti de ville stemme på, hvis der var valg i morge. Ma vil så ud fra stikprøve kokludere, at hvis ma spurgte hele populatioe (alle vælgere i Damark), så ville ma med e vis usikkerhed få samme resultat. Viser stikprøve, at partiet Vestre vil gå.5% tilbage, så vil det samme ske, hvis der var valg i morge. Et sådat tal er aturligvis usikkert. Ma må derfor avede passede statistiske metoder til eksempelvis at berege, at usikkerhede er på %.
Deskriptiv statistik. DESKRIPTIV STATISTIK I de deskriptive statistik (eller beskrivede statistik) beskrives de idsamlede data i form af tabeller, søjlediagrammer, lagkagediagrammer, kurver samt ved udregig af cetrale tal som geemsit, typetal, spredig osv. Kurver og diagrammer forstås lettere og mere umiddelbart ed koloer af tal i e tabel. Øjet er uovertruffet til møstergekedelse ( e tegig siger mere ed 000 ord ).. KVALITATIVE DATA Hvis der er e aturlig opdelig af talmaterialet i klasser eller kategorier siges, at ma har kategorisk eller kvalitative data. Alle spørgeskemaudersøgelser, hvor ma eksempelvis bliver bedt om at sætte kryds i ogle rubrikker meget god, god, acceptabel osv. er af dee type. De følgede eksempler viser avedelse af heholdsvis lagkagediagram og søjlediagram Eksempel. Lagkagediagram Nedefor er agivet hvorda e kommues udgifter fordeler sig på de forskellige områder. Udligig 3, øvrige 8,4 Socialområdet,øvrige 9,4 Ældre 8,6 Børepasig 0,4 Bibliotek,9 fritid 3,8 Skoler 0,5 Admiistratio 7,3 Tekik,alæg 6,6 Da et lagkagediagram til askueliggørelse heraf. Løsig: Data opskrives i Excel og der gives følgede ordrer 003: Marker udskriftsområde Vælg på værktøjsliie Guide diagram Cirkel Marker øsket figur Næste - Nav på kategori Udfør 007: Marker udskriftsområde Vælg på værktøjsliie Idsæt Cirkel Marker øsket figur og Øskes tekst placeret som på figur 00 Cursor på figur Formater dataetiketter Vælg kategoriav og udefor. TI-Nspire:Vælg tilføj lister og regeark skriv listes av x i avecalle og skriv data opret tilsvarede de ade liste Vælg diagrammer og statistik midt på de lodrette akse på figur vælg x diagramtyper cirkeldiagram Admiistr. Tekik Udgifter udligig Skoler Fritid kultur Æ Øvrige socialområdetøvrige Børepasig Ældre
. Kvalitative data Eksempel. (kvalitative data) Følgede tabel agiver madattallet ved to folketigsvalg. Partier A B C F K O V Ø Madater 00 5 9 6 4 56 4 005 47 7 8 0 4 5 6 A = Socialdemokratere, B =Radikale vestre, C = Koservative folkeparti, F =Socialistisk folkeparti, K = Kristedemokratere, O = Dask Folkeparti, V = Vestre, Ø = Ehedsliste Askueliggør disse madattal ved i Excel at tege et søjlediagram Løsig: Et søjlediagram fås i Excel ved at opskrive A B C F K O V Ø 5 9 6 4 56 4 47 7 8 0 4 5 6 003: Vælg på værktøjsliie Guide diagram Søjle Marker øsket figur Næste marker udskriftsområde Næste Næste Udfør 007+00: Som i eksempel. blot vælges Søjle TI-Nspire: Som i eksempel. blot vælges Søjlediagram 60 50 40 30 Serie Serie 0 0 0 A B C F K O V Ø Fordele ved e grafisk fremstillig er, at de væsetligste egeskaber ved data opås hurtigt og sikkert. Me etop det, at figurer appellerer umiddelbart til os, gør at vi ka komme til at lægge mere i dem, ed det som tallee egetlig ka bære. Eksempelvis viser forsøg, at i lagkagediagrammer, hvor ma skal sammelige vikler (eller arealer), da vil dee sammeligig afhæge oget af i hvilke retig vikles be peger. Nedeståede eksempel viser hvorda e figur ka være misvisede ude direkte at være forkert. 3
Deskriptiv statistik Eksempel.3. Misvisede figur Tødere i figure edefor skal illustrere hvorda osteeksporte fordeler sig på de forskellige verdesdele. De giver imidlertid et helt forkert idtryk. Det er højdere på tødere der agiver de korrekte forhold, me af tegige vil ma tro, at det er rumfagee af tødere. De 3 små tøder ka umiddelbart være flere gage idei de store tøde, me det svarer jo ikke til talforholdee. De mest almidelige figurer til at give et visuelt overblik over større talmaterialer er histogrammer (søjlediagrammer) og kurver i et koordiatsystem... KVANTITATIVE DATA (VARIABLE) Kvatitative data er data, hvor registrerige i sig selv er tal, der agiver e bestemt rækkefølge, f. eks. som i eksempel.4 hvor data registreres efter det tidspukt hvor registrerige foregår eller som i eksempel.5, hvor det er størrelse af registrerede værdi der er af iteresse. Eksempel.4. Kvatitativ variabel: tid Fra statistikbake (adresse http://www.statistikbake.dk/) er hetet følgede data id i Excel, der beskriver hvorledes idvadriger og udvadriger er sket geem tide. Excel: Vælg Befolkig og valg Id- og udvadrig Id- og udvadrig på måed uder bevægelse vælges alle og uder måed vælges år og derefter alle Tryk på tabel Drej tabel med uret Gem som Excel fil Idvadriger og udvadriger efter tid og bevægelse Idvadrede Udvadrede 983 778 5999 984 9035 5053 985 364 675 986 3893 798 987 3696 303 988 3505 34544 989 3839 34949 990 4075 3383 99 43567 369 99 43377 395 993 43400 3344 994 4496 3470 995 6387 34630 996 54445 373 997 5005 38393 998 537 40340 999 5036 4340 000 595 4347 00 55984 43980 00 5778 4348 003 49754 43466 004 49860 4507 005 5458 45869 006 56750 46786 007 64656 4566 008 7749 43490 009 676 44874 4
. Kvatitative data Giv e grafisk beskrivelse af disse data. Løsig: Da dataee er registreret efter tid (år) (de kvatitative variabel tid ) teges to kurver i samme koordiatsystem: 003: Marker udskriftsområde Vælg på værktøjsliie Guide diagram Kurve Marker øsket figur Næste Næste Næste Udfør 007 + 00: Marker udskriftsområde Vælg på værktøjsliie Idsæt Streg Marker øsket figur Der er foretaget ekelte adre justeriger ide følgede figur fremkom. 80000 70000 60000 50000 40000 30000 Idvadrede Udvadrede 0000 0000 0 983985987989 9999399599799900003005007009 Eksempel.5. Kvatitativ variabel, størrelse af britiokocetratioe ph I meeskers led udskiller de iderste hide e "ledvæske" som "smører" leddet. For visse ledsygdomme ka britiokocetratioe (ph) i dee væske tækes at have betydig. Som led i e ordisk medicisk udersøgelse af e bestemt ledsygdom udtog ma bladt samtlige patieter der led af dee sygdom e repræsetativ stikprøve ved simpel udvælgelse 75 patieter og målte ph i ledvæske i kæet. Resultatere (som ka fides som excel-fil på adresse www.larse-et.dk ) var følgede: 7.0 7.6 7.3 7.6 7.45 7.3 7. 7.35 7.5 7.4 7.0 7. 7.7 7.8 7.9 7.39 7.40 7.33 7.3 7.35 7.34 7.4 7.8 7.7 7.8 7.33 7.0 7.5 7.4 7.35 7.38 7.3 7.7 7.34 7.0 7.35 7.5 7.9 7.44 7. 7. 7. 7.37 7.5 7.9 7.30 7.4 7.36 7.09 7.3 6.95 7.35 7.36 7.5 7.9 7.3 7.35 7.40 7.3 7.6 7.6 7.47 7.6 7.3 7.6 7.37 7.6 7.43 7.08 7.56 7.07 7.08 7.7 7.9 7.0 Giv e grafisk beskrivelse af disse data. Løsig: I dette tilfælde, hvor vi er iteresseret i at få et overblik over tallees idbyrdes størrelse er det fordelagtigt at tege et histogram. Et histogram liger et søjlediagram, me her gælder, at atallet af eheder i hver søjle repræseteres ved søjles areal (histo er græsk for areal). Ma bør så vidt muligt sørge for at gruppere er lige brede, da atallet af eheder så svarer til højde af søjle. Excel ka umiddelbart tege er histogram, me af hesy til det følgede forklares hvorda ma bestemmer itervalopdelig m.m. Først fides det største tal x max og det midste tal x mi i materialet og derefter berege variatiosbredde x max - x mi. Vi ser, at største tal er 7.7 og midste tal er 6.95 og variatiosbredde derfor 7.7-6.95 = 0.76. 5
Deskriptiv statistik Deræst deles tallee op i et passede atal itervaller (klasser). Som det første bud vælges ofte et atal ær. Da 0. 76 75 9 vælges ca. 9 klasser. Da 0. 08 deler vi op i de klasser, der 9 ses af tabelle. Dette giver 0 itervaller. Vi tæller op hvor mage tal der ligger i hvert iterval (gøres emmest ved at starte forfra og sæt e streg i det iterval som tallet tilhører). Klasser Atal ]6.94-7.0] // ]7.0-7.0] ///// 5 ]7.0-7.8] //////// 8 ]7.8-7.6] ///////////////// 7 ]7.6-7.34] ////////////////// 8 ]7.34-7.4] //////////////// 6 ]7.4-7.50] //// 4 ]7.50-7.58] /// 3 ]7.58-7.66] / ]7.66-7.74] / Allerede her ka ma se, at atallet er størst omkrig 7.30, og så falder hyppighede ogelude symmetrisk til begge sider. I Excel sker det på følgede måde: Data idtastes i eksempelvis søjle A til A75 ( data fides på adresse www.larse-et.dk ) 003: Vælg Fuktioer Dataaalyse Histogram 007+00: Vælg Data Dataaalyse Histogram I de fremkome tabel udfyldes iputområdet med A:A75 og ma vælger diagramoutput.. ) Trykkes på OK fås e tabel med hyppigheder, og e figur, hvor itervalgræsere er fastlagt af Excel. ) Øsker ma selv at bestemme græsere, skal ma også udfylde itervalområdet. Dette gøres ved at skrive de øvre græser i e søjle (f.eks. i B 6.94, i B 7.0 osv. til B0: 7.66) og så skrive B:B0 i iputområdet Da et histogram har søjlere samlet, foretages følgede: cursor på e søjle tryk højre musetast formater dataserie idstillig mellemrumsbredde = 0 ok TI-Nspire:Ma ka ikke lægge exceldata id, så ma må selv skrive data id. Vælg tilføj lister og regeark skriv listes av x i avecelle og skriv data opret tilsvarede de ade liste med av y på de lodrette akse diagramtyper histogram I tilfælde fremkommer så følgede udskrift og tegig (efter at have valgt udskrift med decimaler): Iterval Hyppighed 6,95 7,05 7,4 7 7,4 7 7,33 7,43 8 7,5 6 7,6 Mere 5 0 5 0 5 0 Hyppighed 6,95 7,045 7,4 7,35 7,33 7,45 7,5 7,65 Mere Hyppighed 6
.3 Karakteristiske tal I tilfælde følgede Iterval Hyppighed 6,94 0 7,0 7, 5 7,8 8 7,6 7 7,34 8 7,4 6 7,5 4 7,58 3 7,66 Mere 0 8 6 4 0 8 6 4 0 Hyppighed 6,94 7,0 7, 7,8 7,6 7,34 7,4 7,5 7,58 7,66 Mere Hyppighed Histogrammet er et "klokkeformet histogram", hvor der er flest tal fra 7.9 til 7.4, og derefter falder atallet til begge sider. Ma reger ormalt med, at resultatere af forsøg, hvor ma har foretaget måliger (hvis ma lavede ok af dem) har et sådat klokkeformet histogram og siger, at resultatere er ormalfordelt (beskrives ærmere i æste kapitel).3 KARAKTERISTISKE TAL Skal ma sammelige to talmaterialer, eksempelvis sammelige de 75 ph-værdier i eksempel.4 med 00 dårlige kæ fra Tysklad, har det ige meig at sammelige hyppighedere Ma må i sådae tilfælde agive ogle tal, som gør det muligt at foretage e sammeligig. Dette kue bladt adet ske ved at ma udregede de relative hyppigheder.3. Relativ hyppighed Ved de relative hyppighed forstås hyppighede divideret med det totale atal. I eksempel.5 er de relative hyppighed for ph - værdier i itervallet ]7.8-7.6]: 7 = 0. 67 =. 57% 75 Ma kue sige, at sadsylighede er.57% for at ph ligger i dette iterval. 7
Deskriptiv statistik.3. Middelværdi og spredig. Middelværdi, geemsit. Kedes hele populatioe (målt højde på alle daske mæd) ka bereges e korrekt midterværdi kaldet middelværdi µ (græsk my) Ud fra stikprøve vil e tilærmet værdi (kaldet et estimat) for µ være geemsittet x (kaldt x streg). x + x +... + x Kaldes observatioere i e stikprøve x, x,..., x er x = Eksempel.6: Geemsit Fid geemsittet af tallee 6, 7, 7, 3, 5, 3 6 Løsig: x = + 7 + 7 + 3 + 5 + 3 = 85. 6 TI 89: Catalog mea ({6, 7, 7, 3, 5, 3}) TI-Nspire: Skriv. mea ({6, 7, 7, 3, 5, 3}) Excel: Tast tallee i e koloe eksempelvis A til A6 Vælg på værktøjsliie fx Middel( A..A6) Spredigsmål Egetlige målefejl, såsom at ogle af observatioere ikke bliver korrekt registreret, uklarheder i spørgeskemaet osv. skal aturligvis fjeres. Derudover er der de aturlige variatio som også kue kaldes re støj (pure error), som skyldes, at ma ikke ka forvete, at to persoer der på alle områder er stillet fuldstædigt es også vil svare es på et spørgsmål. Tilsvarede hvis ma måler udbyttet ved e kemisk proces, så vil udfaldet af to forsøg ikke være es, da der altid er e række ukotrollable støjkilder (ureheder i råmaterialer, lidt forskel på persoer og apparatur osv.) Dee aturlige variatio skal aturligvis iddrages i de statistiske behadlig af problemet, og dertil spiller et mål for, hvor meget tallee spreder sig aturligvis e væsetlig rolle.. Spredig (egelsk: stadard deviatio) Hvis spredige baserer sig på hele populatioe beæves de σ (sigma). Baserer spredige sig ku på e stikprøve beæves de s. Ma siger, at s er et estimat (skø) for σ. s bereges af formle s = ( xi x ) i= hvor observatioere i e stikprøve er x, x,..., x Kvadratsumme ( x x) beæves kort SAK (Summe af Afvigelseres Kvadrater) eller SS (Sum of Squares) i= i Ved variase for e stikprøve forstås s. 8
.3 Karakteristiske tal Eksempel.7: Spredig Fid varias og spredig af tallee 6, 7, 7, 3, 5, 3 Løsig: I eksempel.6 fides geemsittet x = 8. 5 ( 6 85. ) + ( 7 85. ) + ( 7 85. ) + ( 3 85. ) + ( 5 85. ) + ( 3 85. ) Variase s = 6 Spredige s = 8. 7 = 5. 357 TI 89: Catalog Variace ({6, 7, 7, 3, 5, 3}), Catalog stddev ({6, 7, 7, 3, 5, 3}) TI-Nspire: Beregiger Statistik Listematematik Stikprøvevarias udfyld liste som TI89 Samme. u blot vælge Stadardafvigelse for stikprøve Excel: Tast tallee i e koloe eksempelvis A til A6, (alle) vælg fx Varias( A..A6) vælg fx STDDEV( A..A6) = 8. 7 Askuelig forklarig på formle for s. At formle for s skulle være særlig veleget til at agive, hvor meget resultatere spreder sig (hvor mege støj der er ) er ikke umiddelbart idlysede. I det følgede gives e askuelig forklarig. Lad os betragte forsøgsvariable X og Y, hvorpå der for hver er udført e stikprøve på 4 forsøg. Resultatere var: X: 35.9, 33.3, 34.7, 34. med geemsittet x = 34.5, og Y: 34.3, 34.6, 34.7, 34.4 med geemsittet y = 34.5. De to forsøgsvariable har samme geemsit, me det er klart, at Y-resultatere grupperer sig meget tættere om geemsittet ed X-resultatere, dvs. Y-stikprøve har midre spredig (der er midre støj på Y - forsøget) ed X- stikprøve. For at få et mål for stikprøves spredig bereges resultateres afvigelser fra geemsittet. xi x yi y 35.9-34.5 =.4 34.3-34.5 = - 0. 33.3-34.5 = -. 34.6-34.5 = 0. 34.7-34.5 = 0. 34.7-34.5 = 0. 34. - 34.5 = - 0.4 34.4-34.5 = -0. Summe af disse afvigelser er aturligvis altid 0 og ka derfor ikke bruges som et mål for stikprøves spredig. I stedet betragtes summe af kvadratere på afvigelsere (forkortet SS: Sum of Squares eller SAK: Sum af afvigelseres Kvadrat). SAK = ( x x) = 4. + (. ) + 0. + ( 0. 4) = 360. x i= i SAK = ( y y) = ( 0. ) + 0. + 0. + ( 0. ) = 00. y i= i Da et mål for variase ikke må være afhægig af atallet af forsøg, divideres med -. Umiddelbart ville det være mere rimeligt at dividere med. Imidlertid ka det vises, at i middel bliver et skø for variase for lille, hvis ma dividerer med, mes de rammer præcist, hvis ma dividerer med -. Det ka forklares ved, at tallee x i har e tedes til at ligge tættere ved deres geemsit x ed ved middelværdie µ. 9
Deskriptiv statistik s = 3. 60 x. og 4 = 0.. s y = = 0. 0333 s 4 x =. = 095. s y = 0. 0333 = 083. Som vi forudså, er stikprøves spredig betydelig større for X-resultatere ed for Y-resultatere. Frihedsgrader. Ma siger, at stikprøves varias er baseret på f = - frihedsgrader. Navet skyldes, at ku - af de led ka vælges frit, idet summe af de led er ul. Eksempel- vis ser vi af oveståede eksempel, at der er 3 frihedsgrader, da kedskab til de første 3 led på.4, -. og 0. er ok til at bestemme det fjerde led, da summe er ul. x x i Vurderig af størrelse af stikprøves spredig. Ma ka vise, at for tæthedsfuktioer med ku et maksimumspukt gælder, at mellem x s og x + s ligger ca. 89% af resultatere, og mellem x 3 s og x + 3 s ligger ca. 95% af resultatere. For såkaldte ormalfordelte resultater, er de tilsvarede tal ca. 95% og 99.7 %.3.3 Media og kvartilafstad. Media. Mediae bereges på følgede måde: ) Observatioere ordes i rækkefølge efter størrelse. a) Ved et ulige atal observatioer er mediae det midterste tal b) Ved et lige atal er mediae geemsittet af de to midterste tal. Eksempel.8: Media Fid mediae af tallee 6, 7, 7, 3, 5, 3. Løsig: Ordet i rækkefølge: 3, 5, 6, 7 3, 7. Media 6,5 TI 89: Catalog media ({ 6, 7, 7, 3, 5, }). TI-Nspire: Beregiger skriv media ({ 6, 7, 7, 3, 5, }) Excel (alle): Tast tallee i e koloe eksempelvis A til A6 Vælg fx Media( A..A6) Mediae kaldes også for 50% fraktile, fordi de brøkdel (fraktil) der ligger uder mediae er ca. 50%. Er media og geemsit ogelude lige store fordeler tallee sig ogelude symmetrisk omkrig middelværdie. Er mediae midre ed geemsittet er der muligvis tale om e højreskæv fordelig som har de lage hale til højre.(se figure) Er mediae større ed geemsittet, er der muligvis tale om e vestreskæv fordelig At ma eksempelvis i løstatistikker agives mediae og ikke geemsittet fremgår af følgede lille eksempel. Lad os atage at e virksomhed har 0 asatte, med måedsløiger ordet efter størrelse på 0000, 000, 000, 3000, 4000, 5000, 6000, 7000, 8000, 00000 Geemsittet er her 3600, mes mediae er 4500. jævfør statistisk årbog 005 tabel 44 eller se www.statistikbake.dk Og vælg lø\løstatistik for de statslige sektor\lø3\klik for at vælge\alle værdier\hovedgrupper\ledelse på højt iveau+kotorarbejde 0
.3 Karakteristiske tal Mediae ædrer sig ikke selv om de højeste lø vokser fra 00000 til millio, mes geemsittet aturligvis vokser. Mediae giver derfor e mere rimelig beskrivelse af middelløe i firmaet. Kvartilafstad. Hvis fordelige ikke er rimelig symmetrisk, er mediae det bedste skø for e midterværdi, og kvartilafstade ka være et mål for spredige. I de tidligere omtalte løstatistik fides bl.a. følgede tal, idet de to sidste koloer er vor bearbejdig af tallee. r geemsit x edre kvartil k Ledelse på højt iveau Lø pr. præsteret time media m øvre kvartil k3 353.4 3.63 33.38 433.78.3 0.64 Kotorarbejde 96.8 58.86 86.99.78.05 0.34 x m k3 k m x Af koloe ses, at for begge rækker er geemsittet større ed mediae dvs. begge forde- m liger er højreskæv, me det gælder mest for række r.. Her gælder åbebart, at ogle få forholdsvis høje løiger trækker geemsittet op. Skal ma sammelige løspredige i de to tilfælde, må ma tage hesy til, at mediae er meget forskellig. Ma vil derfor som der er sket i sidste koloe berege de relative kvartilafstad. De viser også, at løspredige er væsetlig midre for række ed for række. Eksempel.9 Kvartil Fid kvartiler og media af de tal 7, 9,, 3, 6,, 5, 8,, 8,, 0 Løsig: TI89:APPS Stat/List Idtast tal i e liste F4 -Var Stats Agiv listes av Eter Bladt mage tal fås kvartil 7.5 og 3 kvartil 5.5 TI-Nspire: Lister og regeark giv e liste et av og idtal tal i liste vælg statistik statistiske beregiger statistik med variabel udfyld meuer Eter. Bladt mage tal fides kvartilere Excel (alle): Data idtastes i eksempelvis søjle A til A På værktøjsliie forove: Tryk på f x = På rullemeu vælges Kvartil (evt. først vælg kategorie statistik ) Der fremkommer e tabel med avisig på, hvorda de skal udfyldes Resultat :. kvartil 7.75 3 kvartil 5.5 Ligesom ma på TI 89 /TI-Nspire ka få mage karakteristiske tal på e gag har Excel e tilsvarede meu. Excel: 003: Fuktioer Dataaalyse Beskrivede statistik udfyld iputområde Resumestatistik 007: Data Dataaalyse Beskrivede statistik udfyld iputområde Resumestatistik jævfør statistisk årbog 005 tabel 44 eller se www.statistikbake.dk uder lø\løstatistik for de offetlige sektor \lø 3
Deskriptiv statistik OPGAVER Opgave.. I www.statistikbake.dk/luft4 er følgede oplysiger for året 003 hetet id i Excel. Udslip til luft af drivhusgasser efter ehed, type, kilde og tid 003 Mia. C0-ækvivaleter I alt Eergisektore 3 Idustri og produktio 8 Trasport 3 Affaldsbehadlig Ladbrug 0 Adet 9 a) Het selv disse data id i Excel, og opstil et lagkagediagram til belysig af tallee. b) Fid de tilsvarede tal for 996, og vælg e passede grafisk fremstillig til sammeligig af tallee fra 996 og 003. c) Bereg i Excel for åree 990 til 003 eergisektores udslip i forhold til det samlede udslip af drivhusgasser (i %), og teg dette grafisk. Opgave. Følgede tabel agiver for et udvalgt atal lade oplysig om middellevetid for befolkige og idbyggeratal. Lad Middellevetid Idbyggertal i millioer Australie 80.3 9.9 Caada 80.0 3.5 Damark 77,5 5.5 Frakrig 79.4 60.4 Marokko 70.4 3. Pole 74. 38.6 Sri Laka 7.9 9.9 USA 77.4 93.0 ) Idskriv oveståede tabel i Excel, hvor ladee er opskrevet alfabetisk. Beyt Excel til ) at orde ladee efter middellevetid (lægst levetid først), og afbild dem grafisk. ) teg i et koordiatsystem to kurver, som agiver såvel ladees størrelse som middellevetid Opgave.3 I http://www.statistikbake.dk/statbak5a/default.asp?w=600 fides ogle oplysiger om Damarks forbrug af eergi efter type og mægde. ) Het produktio af aturgas og råolie id målt i tos for de sidste år (i måeder) id i Excel ) Teg i Excel i samme koordiatsystem to kurver for heholdsvis produktioe af aturgas og råolie.
Opgaver til kapitel Opgave.4 Færdselspolitiet overvejede, om der burde idføres e fartgræse på 70 km/h på e bestemt ladevejsstrækig, hvor der hidtil havde været e fartgræse på 80 km/h. Som et led i aalyse af hesigtmæssighede af de overvejede ædrig observeredes ide for et bestemt tidsrum ved hjælp af radarkotrol de forbipasserede bilers fart. Resultatet af måligere (som ka fides som excel-fil på adresse www.larse-et.dk ) var: 50 observatioer 64 50 59 75 98 7 63 49 74 55 8 35 55 64 85 5 60 99 74 80 60 77 65 6 78 ) Foretag e vurderig af, om fordelige er ogelude symmetrisk (ormalfordelt) ved a) at tege et histogram b) at berege karakteristiske værdier ) Agiv hvor stor e procet af bilistere, der approksimativt overstiger hastighedsgræse på 80 km/h. (Vik: Vælg formler, statistisk, Tæl hvis). Opgave.5 Til fabrikatio af herreskjorter beyttes et råmateriale, som ideholder e vis procetdel uld. For ærmere at udersøge uldprocete, måles dee i 64 tilfældigt udvalgte batch. Resultatet (som ka fides som excel-fil på adresse www.larse-et.dk ) var (i %): 95 4 76 70 53 34. 33. 34.5 35.6 36.3 35. 34.7 33.6 33.6 34.7 35.0 35.4 36. 36.8 35. 35.3 33.8 34. 33.4 34.7 34.6 35. 35.0 34.9 34.7 33.6 3.5 34. 35. 36.8 37.9 36.4 37.8 36.6 35.4 34.6 33.8 37. 34.0 34. 3.6 33. 34.6 35.9 34.7 33.6 3.9 33.5 35.8 37.6 37.3 34.6 35.5 3.8 3. 34.5 34.6 33.6 4. 34.7 35.7 36.8 34.3 3.7 ) Foretag e vurderig af, om fordelige er ogelude symmetrisk (ormalfordelt) ved a) at tege et histogram b) at berege karakteristiske værdier Der er i datamaterialet e såkaldte outliers (e mulig fejlmålig). E såda ka ødelægge ehver aalyse. Det er i dette tilfælde tilladeligt at fjere de, da vi går ud fra det er e fejlmålig. ) Bereg stikprøves relative kvartilafstad 86 47 76 85 96 70 88 68 73 7 63 6 5 93 84 48 66 80 65 03 3
Deskriptiv statistik Opgave.6 De følgede tabel (som ka fides som excel-fil på adresse www.larse-et.dk ) viser vægtee (i kg) af 80 kaier..90.60.45.75.60.55.45.70.75.80.95.65.65.85.45,70 3.5.95.70.95 3.0 3.40.80.95.65.75.90.85.75.90 3.0 3.00.70.70.95.85.50.95.65.90.60.95 3.05 3.05.95.90 3.00.65.90.75.85 3.5.70 3.00.75.70.80.70.75.80.80.70 3.00.60 3.00.55.60.80 3.00.50 3.0.80.70 3.5 3.00 ) Foretag e vurderig af, om fordelige er ogelude symmetrisk (ormalfordelt) ved a) at tege et histogram b) at berege karakteristiske værdier ) Agiv hvor stor e procet af kaiere, der approksimativt overstiger e vægt på 3 kg (Vik: (Vik: Vælg formler, statistisk, Tæl, Hvis).90.70 3.00.60 3.5 Opgave.7 I statistikbake fider ma uder puktet Uddaelse og kultur, Fuldførte kompetacegivede uddaelser ved bacheloruddaelsere e statistik over atal elever i Maskitekik og Desig og Iovatio i 008 fordelt efter alder fra 0 til 36 år for hele ladet. ) Idsæt data i Excel for de to uddaelser. ) Lav et søjlediagram over aldersfordelige for de to uddaelser 3) Bereg på basis af oveævte tal de geemsitlige alder af de studerede for de to uddaelser i. Opgave.8 I statistikbake fid uder Lø,fortjeeste for privatasatte efteruddaelse osv., Højere uddaelse, Tekisk, ledere i 008 Geemsit, media, øvre og edre kvartil for såvel mæd som kvider ) Overfør data til Excel på ege harddisk ) Agiv om de to fordeliger er symmetrisk, højre eller vestreskæv 3) Er der forskel på løspredige for mæd og kvider (Vik: Bereg de relative kvartilafstad) 4
3 STOKASTISK VARIABEL 3. Sadsylighed 3. SANDSYNLIGHED Statistik bygger på sadsylighedsteorie, som giver metoder til at fide, hvor stor chace (sadsylighede) er for at et bestemt resultat af et eksperimet forekommer. DEFINITION af tilfældigt eksperimet. Et eksperimet som ka resultere i forskellige udfald, selv om eksperimetet getages på samme måde hver gag, kaldes et tilfældigt eksperimet (egelsk : radom experimet). Det er karakteristisk for tilfældige eksperimeter, at ma ka afgræse e mægde kaldet eksperimetets udfaldsrum U, der ideholder de mulige udfald. Derimod ka ma ikke forudsige, hvilket udfald der vil idtræffe ved udførelse af eksperimetet. Består eksperimetet eksempelvis i kast med e terig er udfaldsrummet U = {,, 3, 4,5, 6}, me ma ka ikke forudsige udfaldet af æste kast (eksperimet). Selv om ma 4 gage i træk har fået udfaldet øjetal ", ka ma ikke forudsige, hvilket udfald der idtræffer æste gag. Resultatet af 5. kast afhæger ikke af resultatere af de foregåede 4 spil. Ma siger, at eksperimetere er "statistisk uafhægige" (e præcis defiitio ses i kapitel 9). Som eksempler på tilfældige eksperimeter ka æves: a) Ét kast med e møt. Udfaldsrum U = Plat, Kroe. { } b) Fremstillig af et parti levedsmiddel og målig af det procetvise idhold af protei. U = mægde af reelle tal fra 0 til 00. c) Udtage e stikprøve på 400 elektroiske kompoeter af e dagsproduktio og optællig af 0,,, 3, 4, 5,..., 400 atallet af defekte kompoeter. U = { } d) Udtagig af et tilfældigt TV-apparat fra e dagsproduktio af TV-apparater og optællig af atallet af loddefejl. U = mægde af positive hele tal. E hædelse er e delmægde af et eksperimets udfaldsrum. Eksempelvis er A: At få et lige øjetal e hædelse ved kast med e terig. Hædelse A siges at idtræffe, hvis et udfald fra A forekommer. Sadsylighedsbegrebet tager udgagspukt i det i kapitel omtalte begreb relativ hyppighed. DEFINITION af relativ hyppighed for hædelse A. Getages et eksperimet gage, og forekommer hædelse A etop A gage af de gage, er A s relative hyppighed h( A) = A 5
3. Kotiuert stokastisk variabel Lad eksempelvis eksperimetet være kast med e terig og hædelse A være at få et lige øjetal. Kastes terige 00 gage og bliver resultatet et lige øjetal 45 af de 00 gage er h(a) = 0.45. Det er e erfarig, at øges atallet af getagelser af eksperimetet, vil de relative hyppighed af hædelse A stabilisere sig. Når går mod,vil de relative hyppighed erfarigsmæssigt ærme sig til e græseværdi ("de store tals lov"). Ved sadsylighede for A som beæves P(A) forstås dee græseværdi. (P = probability) Da defiitioe af sadsylighed bygger på relativ hyppighed, er det aturligt, at det for ethvert par af hædelser A og B i udfaldsrummet U skal gælde : 0 P( A), P( U ) = og P(ete A eller B) = P(A) + P(B) forudsat A og B ige elemeter har fælles (er disjukte). De sidste regel skrives kort P( A B) = P( A) + P( B) (e mere geerel regel fides i kapitel 8) Eksempel 3. Avedelse af regel P( A B) = P( A) + P( B) Lad A = at få et ulige øjetal ved et kast med e terig B = at få e sekser ved et kast med e terig Fid sadsylighede for ete at få et ulige øjetal eller e sekser( evt. begge dele) ved kast med e terig. Løsig: P(A) =. P(B) = P( A B) = P( A) + P( B) = + = 6 3 6 De 3 regler kaldes sadsylighedsregiges aksiomer. I kapitel 8 udledes på dette grudlag e række regler for regig med sadsyligheder. 3. STOKASTISK VARIABEL Ethvert statistisk problem må det på e eller ade måde være muligt at behadle talmæssigt. Betragtes et eksempel med kast med e møt, kue ma til udfaldet plat tilorde tallet 0 og til udfaldet kroe tilorde tallet og på de måde få problemet overført til oget, hvor ma ka foretage beregiger. Ma siger, ma har idført e stokastisk (eller statistisk) variabel X, som er 0, år udfaldet er plat, og år udfaldet er kroe. Geerelt gælder følgede defiitio: DEFINITION af stokastisk variabel (egelsk: radom variable). E stokastisk variabel (også kaldet statistisk variabel) er e fuktio, som tilorder et reelt tal til hvert udfald i udfaldsrummet for et tilfældigt eksperimet. E stokastisk variabel beteges med et stort bogstav såsom X, mes det tilsvarede lille bogstav x beteger e mulig værdi af X. Er eksempelvis eksperimetet udtagig af e kasse med 00 møtrikker, ud af e løbede produktio af kasser, kue de stokastiske variabel X være defieret som atal defekte møtrikker i kasse. 6
3.3 Tæthedsfuktio Et adet eksempel kue være eksperimetet avedelse af e y metode til fremstillig af et produkt. Her kue de stokastiske variabel Y være det målte procetvise udbytte ved forsøget. Ved e diskret variabel (eller tællevariabel) forstås e variabel, hvis mulige værdier udgør e edelig eller tællelig mægde. I eksemplet hvor X er atal defekte møtrikker, er X e diskret variabel, da de ku ka atage heltallige værdier fra 0 til 00. Vi vil i seere afsit behadle diskrete variable. Ved e kotiuert stokastisk variabel forstås e stokastisk variabel, hvis mulige værdier er alle reelle tal i et vist iterval. I eksemplet, hvor Y er det målte procetiske udbytte, er Y e kotiuert variabel, da de ka atage alle værdier fra 0% til 00%. 3.3 TÆTHEDSFUNKTION FOR KONTINUERT STATISTISK VARIABEL Vi vil beytte eksempel.5 til illustratio. Eksempel 3.. Kotiuert stokastisk variabel I meeskers led udskiller de iderste hide e "ledvæske" som "smører" leddet. For visse ledsygdomme ka kocetratioe af britioer (ph) i dee væske tækes at have betydig. Som led i e ordisk medicisk udersøgelse af e bestemt ledsygdom udtog ma bladt samtlige patieter der led af dee sygdom tilfældigt 75 patieter og målte ph i ledvæske i kæet. Resultatere fides i eksempel.5 Populatio og stikprøve. Samtlige idbyggere i Norde med dee sygdom udgør populatioe. Da det er gaske uoverkommeligt at udersøge alle, udtages e stikprøve på 75 patieter. Det er målet ved hjælp af statistiske metoder på basis af e stikprøve at sige oget geerelt om populatioe. Histogram. For at få et overblik over et større datamateriale, vil ma sædvaligvis starte med at tege et histogram. Hvorledes dette gøres fremgår af eksempel.5. I skemaet ses resultatet af e opdelig i 0 klasser med e bredde på 0.08. Edvidere er der bereget e søjle ved at dividere de relative hyppighed med itervallægde. Klasser Atal Relativ hyppighed 75 Skalerig 75 0. 08 ]6.94-7.0] 0.067 0.3333 ]7.0-7.0] 5 0.0667 0.8333 ]7.0-7.8] 8 0.067.3333 ]7.8-7.6] 7 0.67.8333 ]7.6-7.34] 8 0.400 3.0000 ]7.34-7.4] 6 0.33.6667 ]7.4-7.50] 4 0.0533 0.6667 ]7.50-7.58] 3 0.0400 0.5000 ]7.58-7.66] 0.033 0.667 ]7.66-7.74] 0.033 0.667 7
3. Kotiuert stokastisk variabel Vi får det edefor tegede histogram (ka ses bereget i eksempel.5) Dette viser et "klokkeformet histogram", hvor der er flest tal fra 7.9 til 7.4, og derefter falder atallet til begge sider. 8 5 9 6 3 Histogram for ph 0 6,9 7, 7,3 7,5 7,7 7,9 ph Ma reger ormalt med, at resultatere af forsøg hvor ma har foretaget måliger (hvis ma lavede ok af dem) har et sådat klokkeformet histogram. Hvis ma tæker sig atallet af forsøg stiger (for eksempel udersøger hele populatioe på måske millio ordiske kæ), samtidig med at ma øger atallet af klasser tilsvarede (til for eksempel 0 6 000 ), vil histogrammet blive mere og mere fitakket, og til sidst ærme sig til e kotiuert klokkeformet kurve (idteget på grafe). Hvis ma beytter de skalerede skala fra skemaet, som også er afsat på højre side af tegige, vil arealet af hver søjle være de relative hyppighed, og for de idealiserede kotiuerte kurve, vil arealet uder kurve i et bestemt iterval fra a til b være sadsylighede for at få e værdi mellem a og b. Det samlede areal uder kurve er aturligvis. Ma siger, at de kotiuerte stokastiske variabel X (ph værdie) har e tæthedsfuktio f(x) hvis graf er de ovefor ævte kotiuerte kurve. Da arealet uder e kotiuert kurve bereges ved et bestemt itegral, følger heraf følgede defiitio: DEFINITION af tæthedsfuktio f(x) for kotiuert variabel X. P( a X b) f ( x) dx for ethvert iterval af reelle tal a b = [ a ; b] f ( x ) dx =, f ( x) 0 for alle x Bemærk, at for kotiuerte variable er P( a X b) = P( a < X b) = P( a X < b) = P( a < X < b). 8
3.3 Tæthedsfuktio Et eksempel på e tæthedsfuktio for e kotiuert variabel er de i æste kapitel beskreve ormalfordelig. Måleresultater vil sædvaligvis være værdier af ormalfordelte variable, så e rimelig hypotese for de i eksempel 3. agive kotiuerte stokastiske variabel X = ph er således, at de er ormalfordelt. Dette bestyrkes af at grafe for sådae etop er klokkeformede. Det er væsetlig at fide e cetral værdi i populatioe, samt agive et spredigsmål Disse agives i de følgede kapitler for de kokrete fuktioer, der behadles. Geerelt gælder følgede defiitioer DEFINITION af middelværdi for kotiuert variabel. Middelværdi for e kotiuert variabel X med tæthedsfuktio f ( x ) beæves µ eller E ( X ) og er defieret som µ = E( X ) = x f ( x) dx DEFINITION af varias og spredig for kotiuert variabel. Variase for e kotiuert variabel X med tæthedsfuktio f ( x ) beæves σ eller V( X ) og er defieret som σ = V ( X ) = ( x µ ) f ( x) dx Spredige (egelsk: stadard deviatio) for e diskret variabel X med tæthedsfuktio f(x) beæves defieret som σ = V ( X ) σ og er Eksempel 3.3 Kotiuert stokastisk variabel. 3 x for 0 x < 8 Lad der være givet følgede fuktio: f ( x) =. 0 ellers a) Vis, at f ( x) dx = I det følgede atages, at f ( x ) er tæthedsfuktio for e kotiuert stokastisk variabel X. b) Skitser grafe for f. c) Bereg middelværdi og spredig for X. Løsig: x a) f ( x) dx = x dx = 3. 3 = 0 8 8 0 b) Grafe, som er e del af e parabel, ses på Fig 3.. c) µ = E X = = =. x f x dx 4 = x 3 x dx x 3 ( ) ( ) 3 0 8 3 0 Fig.3. Tæthedsfuktio 5 x V ( X ) = x f ( x) dx = x x dx.... = 3 3 µ = 3 5 05 σ ( X ) = 05. = 0. 387 0 8 40 0 9
3. Kotiuert stokastisk variabel Fordeligsfuktio. I visse situatioer er det e fordel at betragte de kotiuerte variabels fordeligsfuktio F(x) DEFINITION af fordeligsfuktio F(x) for kotiuert variabel. x Fordeligsfuktioe for e kotiuert variabel X er defieret ved F( x) = P( X x) = f ( x) dx DEFINITION af p-fraktil. Lad p være et vilkårligt tal mellem 0 og. Ved p-fraktile eller 00 p % fraktile forstås det tal x p F( x ) = P( X x ) = p ( = f ( x) dx ) p p 0 x p, for hvilket det gælder, at Særlig ofte beyttede fraktiler er 50% fraktile, som kaldes mediae (eller. kvartil), 5 % fraktile, som kaldes edre kvartil (eller. kvartil) og 75% fraktile, som kaldes øvre kvartil (eller 3. kvartil). Eksempel 3.4. Fordeligsfuktio for kotiuert variabel. For de i eksempel 3.3 agive kotiuerte variabel X med tæthedsfuktio f (x) øskes fudet: ) Fordeligsfuktioe F (x). ) Mediae. x Løsig: 0 dx = 0 for x < 0 x x x x x ) F( x) = f ( x) dx = + x dx = 3 3 x 3 0 = for 0 0 8 8 8 0. x 0 + 3 + dx = 8 0 for x > 3 x 3 ) Mediae er bestemt ved F( x) = 0. 5 = 0. 5 x = 4 x = 59.. 8 0
3.4 Liearkombiatio af stokastiske variable 3.4 LINEARKOMBINATION AF STOKASTISKE VARIABLE Vi betragter i dette afsit flere stokastiske variable. Eksempel 3.5 vil blive beyttet som geemgåede eksempel Eksempel 3.5. To variable. Isektpulver sælges i papkartoer. Lad de stokastiske variable X være vægte af pulveret, mes X er vægte af papkartoe. I middel fyldes der 500 gram isektpulver i hver karto med e spredig på 5 gram. Kartoe vejer i middel 0 gram med e spredig på.0 gram. Y = X + X er da bruttovægte. ) Fid middelværdie af Y ) Fid spredig af Y. Mere geerelt haves: Lad X, X,..., X være stokastiske variable. Ved e liearkombiatio af disse forstås Y = a0 + a X + a X +... + a X, hvor a 0, a, a,..., a er kostater. Ma ka vise (se evetuelt kapitel ) at der gælder følgede Liearitetsregel: E( Y) = a + a E( X ) + a E( X ) +... + a E( X ). 0 I eksempel 3.5 syes det rimeligt at atage, at vægte af pulveret og vægte af papkartoe er uafhægige ( påfyldige ka tækes at ske maskielt, ude at de er afhægig på oge måde af hvilke vægt, kartoe tilfældigvis har). Ma ka vise (se evetuelt kapitel, for e mere udførlig behadlig af uafhægighed m.m.), at hvis X, X,..., X er statistisk uafhægige, gælder Kvadratregel for statistisk uafhægige variable: V ( Y) = a V ( X ) + a V ( X ) +... + a V ( X ). Eksempel 3.5. (fortsat) To variable. Spørgsmål : E(Y) = E(X ) + E(X ) = 500 + 0 = 50 gram. Spørgsmål : V(Y) = V(X ) + V(X ) = 5 + = 6. σ ( Y ) = 6 = 5. gram. Esfordelte uafhægige variable. Lad os atage, at vi uafhægigt af hiade og uder de samme betigelser udtager elemeter fra e populatio med middelværdi µ og spredig σ. Lad X være de stokastiske variabel, der er resultatet af første udtagig af et elemet i stikprøve, X være de stokastiske variabel, der er resultatet af ade udtagig, osv. X, X,..., X vil da være esfordelte uafhægige stokastiske variable, dvs. have samme fordelig med middelværdi µ og spredig σ.
3. Kotiuert stokastisk variabel Eksempel 3.6. Esfordelte variable Bruttovægte af det i eksempel 3.4 ævte karto isektpulver havde middelvægte 50 g med e spredig på 5. g. Vi udtager u tilfældigt og uafhægigt af hiade 0 pakker isektpulver. a) Hvad bliver i middel de samlede vægt af de 0 kartoer b) Hvad bliver i middel spredige på de samlede vægt af de 0 kartoer Løsig: Lad X være vægte af karto, X være vægte af karto osv. X 0 være vægte af karto 0. Y= X + X +... + X 0 er da vægte af alle 0 kartoer. a) E(Y) = E(X )+E(X )+... +E(X 0 ) =0 50 = 500 g b) V(Y) = V(X )+V(X )+... +V(X 0 ) =0 (5.) = 60. g σ( Y ) = 60.. = 63. Bemærk: E almidelig fejl er her, at ma tror, at Y=0 X og dermed V(Y)=0 V(X)=600 Vi har her at gøre med 0 esfordelte uafhægige variable, og ikke 0 vægte af karto. For esfordelte uafhægige stokastiske variable gælder: SÆTNING 3. (middelværdi og spredig for stikprøves geemsit ) σ X + X +... + X E( X ) = µ og σ ( X ) =, hvor X = X + X +... + X Bevis: Af liearitetsregle fås E( X ) = E ( ( ) ( )... ( )) = E X + E X + + E X = µ X + X +... X σ ο Af kvadratregle fås V ( X ) = V = ( V ( X ) + V ( X ) +... + V ( X )) = =. Eksempel 3.7. Spredig på geemsit (eksempel 3.5 fortsat) Hvis der udtages 5 kartoer isektpulver, hvad vil da være spredige på geemsittet af vægte af isektpulveret. Løsig: Da spredige på karto er 5. gram, vil spredige på geemsittet af 5 kartoer være σ 5. σ ( X ) = = =. 8 5 Opgave 3. Vægte af e (tilfældigt udvalgt) tablet af e vis type imod hovedpie har middelværdie µ = 0. 65 g og spredige σ = 0. 04 g Bereg middelværdi og spredig af de sammelagte vægt af 00 (tilfældigt udvalgte) tabletter
4. Idledig 4 NORMALFORDELINGEN 4. INDLEDNING Lad os som eksempel tæke os et kemisk forsøg, hvor vi måler udbyttet af et stof A. Selv om vi getager forsøget ved avedelse af de samme metode og i øvrigt søger at gøre forsøgsbetigelsere så esartet som muligt, varierer udbyttet dog fra forsøg til forsøg. Disse variatioer fra de ee forsøg til det æste må skyldes forhold vi ikke ka styre. Det ka skyldes små ædriger i temperature, i luftes relative fugtighed, vibratioer uder fremstillige, små forskelle i de avedte råmaterialer (korstørrelse, rehed), forskelle i meeskelig reaktioseve osv. Hvis ige af disse variatiosårsager er domierede, der er et stort atal af dem, de er uafhægige og lige så godt ka have e positiv som e egativ idvirkig på resultatet, så vil de totale fejl sædvaligvis approksimativt være fordelt efter de såkaldte ormalfordelig. (også kaldet Gauss-fordelige) Som illustratio af dette ka avedes Galtos apparat. Eksempel 4.. Eksperimet med et Galto-apparat. På de aførte figur er skitseret et Galto-apparat. A er e tragt; B er sømrækker, hvor sømmee i e uderliggede række er abragt midt ud for mellemrummee mellem sømmee i de overliggede række; C er opsamligskaaler. Lader ma mage kugler passere geem tragte A ed geem sømrækkere B til opsamligskaalere C, vil ma kostatere, at de ekelte kugler ok bliver tilfældigt fordelt i opsamligskaalere, me at kugleres samlede fordelig giver et møster, som getages, hver gag ma udfører eksperimetet. Fordelige er hver gag med tilærmelse e klokkeformet symmetrisk fordelig som skitseret på tegige, oget som er karakteristisk for ormalfordelige. Galto-apparatet illustrerer, hvorfor ma så ofte atager, at måleresultater er værdier af e ormalfordelt variabel: Hver sømrække repræseterer e faktor, hvis iveau det ikke er muligt at holde kostat fra målig til målig, og sømrækkeres påvirkig af kugles bae symboliserer de samlede virkig, som de ukotrollerede faktorer har på størrelse af de målte egeskab. 3
4.Normalfordelige. E ade illustratio af uder hvilke omstædigheder e ormalfordelt variabel ka forekomme i praksis så vi i kapitel eksempel.5 hvor ma på 75 meesker med e bestemt ledsygdom målte ph i kæleddet. Histogrammet som er getaget edefor har et klokkeformet udseede, som kraftigt atyder, at de kotiuerte stokastiske variabel X = ph er ormalfordelt. Hyppighed 0 8 6 4 0 8 6 4 0 6,94 7,0 7, 7,8 7,6 7,34 7,4 7,5 7,58 7,66 Mere Hyppighed I de teoretiske statistik giver de cetrale græseværdisætig e forklarig på, hvorfor ormalfordelige er e god model ved mage avedelser. De cetrale græseværdi siger (løst sagt), at selvom ma ikke keder fordelige for de esfordelte stikprøvevariable X, X,..., X, så vil geemsittet X være approksimativt ormalfordelt blot er tilstrækkelig stor (i praksis over 30). 4. DEFINITION OG SÆTNINGER OM NORMALFORDELING Defiitio af ormalfordelig ( µ, σ ) Noralfordelige er sadsylighedsfordelige for e kotiuert stokastisk variabel X med tæthedsfuktioe f(x) bestemt ved f ( x) = e π σ De har middelværdi µ og spredig σ Grafe er klokkeformet og symmetrisk om liie x = µ. x µ σ for ethvert x At f (x ) virkelig er e tæthedsfuktio med de agive egeskaber vises i Supplemet til statistiske grudbegreber afsit.a For at få et overblik over betydige af µ og σ er der edefor afbildet tæthedsfuktioe for ormalfordeligere (0, ), (4.8,.), (4.8, 0.7) og (0, ). 4
4. Defiitio og sætig om ormalfordelig 0,6 0,5 0,4 0,3 0, 0, 0-7 -3 5 9 3 7 0, 4,8,, 4,8,0,7 0, Fig 4. Forskellige ormalfordeliger Det ses, at tæthedsfuktioere er klokkeformede, og at et iterval på [ µ 3 σ ; µ + 3 σ ] ideholder stort set hele sadsylighedsmasse. Vi æver ude bevis følgede sætig: SÆTNING 4. (Additiossætig for liearkombiatio af ormalfordelte variable). Er Y e liearkombiatio af stokastisk uafhægige, ormalfordelte variable, vil Y også være ormalfordelt. Kedes middelværdi og spredig for de ormalfordelte variable, ka ma ved avedelse af liearitetsregel og kvadratregel fide Y s middelværdi og spredig. Edvidere følger det af additiossætige, og sætig 3., at geemsittet σ med e spredig på. x er ormalfordelt 5
4.Normalfordelige. Normeret ormalfordelig Af særlig iteresse er de såkaldte ormerede ormalfordelig. De er bestemt ved at have middelværdie 0 og spredige. Grafe for de er teget som graf A i figur 4. De kaldes sædvaligvis U eller Z og des fordelig U- eller Z-fordelige. Des tæthedsfuktio beæves ϕ og des fordeligsfuktio Φ. Specielt vil des p - fraktil z p idgå i adskillige formler i de æste afsit. Fig 4. Normeret ormalfuktio E vigtig sammehæg mellem fraktiler for X og fraktiler for Z er følgede x p = z σ + µ p (4.) Beviset for dee relatio idgår i beviset for de følgede sætig, som også viser, at ma ka overføre e vilkårlig ormalfordelig til de ormerede ormalfordelig. Det er derfor ok at lave e tabel over de ormerede ormalfordelig. Dette er det ma udytter, hvis ma ikke har rådighed over et program, der som beskrevet i afsit 4.3 direkte ka berege værdiere. Der gælder følgede SÆTNING 4.. (ormerig af ormalfordelig). Når X er ormalfordelt ( µ, σ ) X µ er de variable Z = ormalfordelt ( 0, ), og der gælder σ b µ b µ a µ P( X b) = Φ og P( a< X b) = Φ Φ. σ σ σ Edvidere gælder x p = z σ + µ p Bemærk, at det for de to formler er ligegyldigt, om ulighedere er med eller ude lighedsteg. 6
Bevis: At Z også er ormalfordelt vises ikke her. E Z E X µ x µ µ µ ( ) = = f ( x) dx = x f ( x) dx f ( x) dx = E( X ) = σ σ σ σ σ σ V Z V X µ x µ V ( X ) ( ) = = f ( x) dx = ( x ) f ( x) dx = = σ σ σ µ σ Z har derfor middelværdi 0 og spredig. Edvidere fås P X b P X b b b ( ) = µ µ = P Z µ µ = Φ og σ σ σ σ P a X b P a b b a ( < ) = µ < Z µ µ µ = Φ Φ σ σ σ σ x p µ x p Bevis for formel.: P( X x p ) = p = p µ Φ = z p x p = z p σ + µ σ σ 4.3. Bereg af sadsyligheder 0 4.3. BEREGNING AF SANDSYNLIGHEDER Stikprøves geemsit og spredig. Ofte er middelværdie µ og spredige σ ukedt i e foreliggede ormalfordelig. I så fald erstattes fordelige ( µ, σ ) i praksis med e approksimerede fordelig ( x, s), såfremt der foreligger et rimelig stort atal observatioer fra de give fordelig. På basis af de i eksempel.5 agive stikprøve på 75 patieter bereges et geemsit af ph værdiere på 546. 5 SAK x = = 7. 868 og e s værdi på s =. 75 = 034355. Vi vil altså atage, at ph værdiere er approksimativt ormalfordelt (7.9, 0.34). Øsker vi at beytte oveståede ormalfordelig (7.9, 0.34) til at fide sadsylighede for, at ph er midre ed 7., er dee sadsylighed lig med arealet af det skraverede areal uder tæthedsfuktioe. Øsker vi tilsvarede at berege sadsylighede for, at ph ligger mellem 7. og 7.5 er sadsylighede lig med det skraverede areal uder kurve på omståede figur. 7
4.Normalfordelige. Eksempel 4.. Beregig med TI89, Ti-Nspire og Excel Lad X være ormalfordelt ( µ, σ ), hvor µ = 7.9 og σ = 0.34. ) Fid P( X 7. ) ) Fid P( 7. X 7. 5) 3) Fid P( X > 7. 6) 4) Fid 90% fraktile x 0. 9 Løsig: TI89: Ma fider de beyttede sadsylighedsfordeliger ved at trykke på CATALOG F3 ) P( X 7. ) = ormcdf(, 7., 7.9, 0.34) = 0.509 ) P( 7. X 7. 5) = ormcdf( 7.,7,5, 7.9, 0.34) = 0.69 3) P( X > 7. 6) = ormcdf( 7.6, 7.9, 0.34) = 0.003 4) Har ma omvedt givet e sadsylighed p = 0.9 og øsker at fide de tilsvarede værdi x p for hvilke P( X x p ) = 0. 9 betyder det, at ma keder arealet 0.9 og skal fide x-værdie. Det svarer jo til at fide de iverse (omvedte) fuktio af ormalfordelige. x 0. 9 = ivorm(0.9, 7.9, 0.34) = 7.46 TI-Nspire: Vælg Beregiger og skriv som uder TI89.(eller vælg Statistik Fordeliger) Excel: Ma fider de beyttede sadsylighedsfordeliger ved på værktøjsliie forove: Tryk f x P( X 7. ) = Vælg kategorie Statistisk ) NORMFORDELING(7,;7,9;0,34,)=0.509. ) Beregige sker ved (se det skraverede areal på figure ) at berege arealet fra til 7.5 og derfra trække arealet fra til 7., dvs. P( 7. X 7. 5) = P( X 7. ) P( X 7. 5) = NORMFORDELING(7,5;7,9;0,34;)-NORMFORDELING(7,;7,9;0,34;)=0,69 3) Da arealet uder kurve er, fås P( X 7. 6) = P( X < 7. 6) 4) x 0. 9 = NORMINV(0.9, 7.9, 0.34) = 7.46. =-NORMFORDELING(7,6;7,9;0,34;)= 0,0035 8
4.3. Bereg af sadsyligheder Eksempel 4.3. Kvalitetskotrol. E fabrik støber plastikkasser. Fabrikke får e ordre på kasser, som bladt adet har de specifikatio, at kassere skal have e lægde på 90 cm. Kasser, hvis lægder ikke ligger mellem toleracegræsere 89. og 90.8 cm bliver kasseret. Det vides, at fabrikke producerer kassere med e lægde X, som er ormalfordelt med e spredig på 0.5 cm. a) Hvis X har e middelværdi på 89.6, hvad er så sadsylighede for, at e kasse har e lægde, der ligger idefor toleracegræsere. b) Hvor stor er sadsylighede for at e kasse bliver kasseret, hvis ma justerer støbige, så middelværdie bliver de der giver de midste procetdel kasserede (spredige ka ma ikke ædre). Fabrikate fider, at selv efter de i spørgsmål foretage justerig kasseres for stor e procetdel af kassere. Der øskes højst 5% af kassere kasseret. c) Hvad skal spredige σ formidskes til, for at dette er opfyldt? Hvis det er umuligt at ædre σ, ka ma prøve at få ædret toleracegræsere. d) Fid de ye toleracegræser (placeret symmetrisk omkrig middelværdie 90,0) idet spredige stadig er 0.5, og højst 5% må kasseres. E y maskie idkøbes, og som et led i e udersøgelse af, om der dermed er sket ædriger i middelværdi og spredig produceres kasser ved avedelse af dee maskie. Ma fadt følgede lægder: 89. 90. 89.4 90.0 90.3 89.7 89.6 89.9 90.5 90.3 89.9 90.6. e) Agiv på dette grudlag et estimat for middelværdi og spredig. LØSNING: TI89: Ma fider de beyttede sadsylighedsfordeliger ved at trykke på CATALOG F3 a) P( 89. X 908. ) = ormcdf(89., 90.8, 89.6, 0.5)= 0.7799 = 77.99% b) Middelværdie justeres til midtpuktet 90.0 P( X > 908. ) + P( X < 89. ) = ormcdf(90.8,, 90, 0.5)+ormCdf(-,89., 90, 0.5)= 0.96% c) Da der ligger 5% udefor itervallet, så må af symmetrigrude,5% ligge på hver si side af itervallet. Vi har følgelig, at vi skal fide spredige σ så P( X 89. ) = 0. 05 Metode :Af relatioe (4.) fås 0. 8 0. 8 89. = 0. 05 + 90 = z σ σ σ = = 0. 408. z ivnorm( 0. 05) 0. 05 Metode : solve( ormcdf(,89., 90,x)=0.05,x) x > 0 eller solve(ivnorm(0.05,90,x)=89.,x) x > 0 Resultat x = σ = 0. 408 d) Kaldes de edre toleracegræse for a fås med samme begrudelse som i pukt c : P( X a) = 0. 05. Vi ka her beytte de iverse ormalfordelig Nedre græse a = ivnorm(0.05, 90,0.05) = 89.0 Øvre græse b = 90 +(90-89.0) = 90.98 e) APPS Stat/List idtastig af de tal i list F4 :Calc Udfylde meu Ma fider x = 89. 97 og s = 0. 435 TI-Nspire: a) + b) Vælg Beregiger og skriv som uder TI89.(eller vælg Statistik Fordeliger) c) Skriv Solve(ivNorm(0.05,90,x)=89.,x) x>0 (da ikke fides eksakt løsig bruges solve) d) som TI89 e) Lister og regeark giv e liste et av og idtal tal i liste vælg statistik statistiske beregiger statistik med variabel udfyld meuer Eter. Bladt mage tal fides geemsit og spredig 9
4.Normalfordelige. Excel: Ma fider de beyttede sadsylighedsfordeliger ved På værktøjsliie forove: Tryk f x Vælg kategorie Statistisk a) P( 89. X 908. ) = P( X 908. ) P( X 89. ) = NORMFORDELING(90,8;89,6;0,5;) - NORMFORDELING(89,;89,6;0,5;)=0,7799 b) Middelværdie justeres til midtpuktet 90.0 P( X > 908. ) + P( X < 89. ) = P( X 908. ) + P( X < 89. ) = -NORMFORDELING(90,8;90;0,5;) - NORMFORDELING(89,;90;0,5;) = 0.096 c) Metode : Som uder TI89, pukt c σ =(-0.8)/NORMINV(0,05;0;)=0,4087 0.408 Metode : I celle A skrives e startværdi for σ eksempelvis 0,5. I celle B skrives =NORMFORDELING(89,;90;A;) 003: Fuktioer Målsøgig 007: Data Hvad-hvis aalyse Målsøgig I Agiv celle skrives B. I Til Værdi skrives 0,05. I Ved ædrig af celle skrives A. 00: som 007 me kaldes What if aalyse Facit :0,408444 d) Med samme begrudelse som uder TI89 pukt d fås: P( 90. 0 d < X < 90. 0 + d) = 0. 95 P( X 90. 0 d) = 0. 05 og P( X 90. 0 + d) = 0. 975. Vi får edre græse =NORMINV(0,05;90;0,5) = 89,000 = 89.0 Øvre græse =NORMINV(0,975;90;0,5) = 90,97998 = 9.0 5) Ved idtastig af de tal i Excel i cellere A til A fides x = Middel( A: A ) = 89. 97 og s = STDAFV(A:A) = 0.435 Eksempel 4.4. Additiossætig. E boreproces fremstiller huller med e diameter X, der er ormalfordelt med e middelværdi µ og e spredig på 0.04. E ade proces fremstiller aksler med e diameter X, der er ormalfordelt med e middelværdi µ og e spredig på 0.03. Atag, at µ = 0. 00, og at µ = 9. 94. Fid sadsylighede for, at e tilfældig valgt aksel har e midre diameter ed e tilfældig valgt borehul. LØSNING: P( X < X ) = P( X X < ). 0 Sættes Y = X X er Y ormalfordelt. E( Y) = E( X ) E( X ) = 9. 94 0. 00 = 0. 06. V ( Y) = V ( X ) + ( ) V ( X ) = 0. 04 + 0. 03 = 0. 05 σ ( Y ) = 0. 005 = 0. 05 TI89+TI-Nspire: P( X < X ) = P( Y < 0) = ormcdf(, 0, -0.06, 0.05) = 0.8849 = 88.49% Excel: P( X < X) = P( Y < 0) = NORMFORDELING(0;-0,06;0,05;) = 0.8849 30
Opgaver til kapitel OPGAVER Opgave 4. ) E stokastisk variabel X er ormalfordelt med µ = 0 og σ =. Fid P( X 0. 75), P( X > 6. ) og P( 0. 75 < X < 6. ). ) E stokastisk variabel X er ormalfordelt med µ = 5. og σ =.4. Fid P(. 3 < X 7. 8). Opgave 4. Maksimumstemperature, der opås ved e bestemt opvarmigsproces, har e variatio der er tilfældig og ka beskrives ved e ormalfordelig med e middelværdi på 3.3 o og e spredig på 5.6 o C. ) Fid procete af maksimumstemperaturer, der er midre ed 6. o C. ) Fid procete af maksimumstemperaturer, der ligger mellem 5 o C og 6.7 o C. 3) Fid de værdi, som overskrides af 57.8% af maksimumstemperaturere. Ma overvejer at gå over til e ade opvarmigsproces. Ma udfører derfor 6 gage i løbet af e periode forsøg, hvor ma måler maksimumstemperature, der opås ved dee ye proces. Resultatere var 6.6, 6,6, 7,0, 4,5,,, 8,6, 09,9, 4,8, 06,4, 0,7, 0,7, 3,7, 8,, 8,8, 5,4, 3, 4) Giv et estimat for middelværdie og spredige. Opgave 4.3 E fabrik plalægger at starte e produktio af rør, hvis diametre skal opfylde specifikatioere,500 cm ± 0,05 cm. Ud fra erfariger med tilsvarede produktioer vides, at de producerede rør vil have diametre, der er ormalfordelte med e middelværdi på,500 cm og e spredig på 0,00 cm. Ma øsker i forbidelse med plalægige svar på følgede spørgsmål: ) Hvor stor e del af produktioe holder sig idefor specifikatiosgræsere. ) Hvor meget skal spredige σ ed på, for, at 95% af produktioe holder sig idefor specifikatiosgræsere (middelværdie er uædret på,500 cm). 3) Fabrikke overvejer, om det er muligt at få idført ogle specifikatiosgræser (symmetrisk omkrig,500), som bevirker, at 95% af dets produktio falder idefor græsere. Fid disse græser, idet det stadig atages at middelværdie er.500 og spredige 0.00 cm. Opgave 4.4 E automatisk dåsepåfyldigsmaskie fylder høskødssuppe i dåser. Rumfaget er ormalfordelt med e middelværdi på 800 ml og e spredig på 6,4 ml. ) Hvad er sadsylighede for, at e dåse ideholder midre ed 790 ml?. ) Hvis alle dåser, som ideholder midre ed 790 ml og mere ed 805 ml bliver kasseret, hvor stor e procetdel af dåsere bliver så kasseret? 3) Bestem de specifikatiosgræser der ligger symmetrisk omkrig middelværdie på 800 ml, og som ideholde 99% af alle dåser. 3
4.Normalfordelige. Opgave 4.5 I et laboratorium lægges et yt gulv. Det forudsættes, at vægte Y der hviler på gulvet, er summe af vægte X af maskier og apparater og vægte X af varer og persoale, dvs. Y = X + X Da både X og X er sum af mage relativt små vægte, atages det, at de er ormalfordelte. Det atages edvidere at X og X er statistisk uafhægige. Erfariger fra tidligere gør det rimeligt at atage, at der gælder følgede middelværdier og sprediger (målt i tos): E(X ) = 6.0, σ ( X ) =., E(X ) = 3.5, σ ( X ) = 0.4. ) Bereg E(Y) og σ ( Y). ) Bereg det tal y 0, som vægte Y med de oveævte forudsætiger ku har e sadsylighed på % for at overskride. 3) Bereg sadsylighede for, at vægte af varer og persoale e tilfældig dag, efter at det ye gulv er lagt, er større ed vægte af maskier og apparater. (Vik: se på differese X - X ) Opgave 4.6 Ved fabrikatio af et bestemt mærke opvaskemiddel fyldes vaskepulver i papkartoer. I middel fyldes 400 g pulver i hver karto, idet der herved er e spredig på g. Pulverfyldige ka forudsættes ikke at afhæge af kartoeres vægt, der i middel er 50 g med e spredig på 5g. Bereg sadsylighede p for, at e tilfældig pakke opvaskemiddel har e bruttovægt mellem 450 g og 4300 g. Opgave 4.7 Et system er af sikkerhedsmæssige grude opbygget af to apparater A, der er parallelforbude (se figur) således, at systemet virker, så læge blot et af apparatere virker. Svigter et af apparatere, startes reparatio. Det atages, at reparatiostide er ormalfordelt med middelværdie µ rep = 0 timer og spredig σ rep = 3 timer. I reparatiostide overbelastes de ade kompoet, og det atages, at des levetid fra reparatioes start (approksimativt) er ormalfordelt med middelværdi µ og spredig σ = 4 timer. ) Fid sadsylighede for, at reparatioe er afsluttet, ide de ade kompoet fejler, hvis µ = 0 timer. ) Hvor stor skal µ være, for at sadsylighede for, at reparatioe ka afsluttes før de ade kompoet fejler, er mere ed 99.9%? Opgave 4.8 Vægte af e (tilfældig udvalgt) tablet af e vis type mod hovedpie har middelværdie 0.65 g og spredige 0.04 g. ) Bereg middelværdi og spredig af de sammelagte vægt af 00 (tilfældigt udvalgte ) tabletter. ) Atag, at ma beytter følgede metode til at fylde tabletter i et glas. Ma placerer glasset på e vægt og fylder tabletter på, idtil vægte af tablettere i glasset overstiger 65,3 g. Bereg sadsylighede for, at glasset kommer til at ideholde mere ed 00 tabletter (se bort fra vægtes fejlvisig). 3
.3 Stikprøver 5. Kofidesiterval for ormalfordelt variabel 5. UDTAGNING AF STIKPRØVER I lagt de fleste i praksis forekome tilfælde vil det bl.a. af tidsmæssige og omkostigsmæssige grude være umuligt at foretage e totaltællig af hele populatioe. Helt klart er dette ved afprøvige ødelægger emet (åbig af koservesdåser) eller populatioe i pricippet er uedelig ( for at udersøge om e metode giver et større udbytte ed et adet, udføres e række kemiske forsøg og her er der teoretisk ige øvre græse for atal delforsøg) Som det seere vil fremgå ka selv e forholdsvis lille repræsetativ stikprøve give svar på væsetlige forhold omkrig hele populatioe. Det er imidlertid klart, at e betigelse herfor er, at stikprøve er repræsetativ, dvs. at stikprøve med hesy til de egeskab der øskes er et mii-billede af populatioe. For at opå det, foretager ma e eller ade form for lodtrækig (kaldes radomiserig). Afhægig af problemet ka dette gøres på forskellig måde. Simpel udvælgelse: De ekleste form for stikprøveudtagig er, at ma ummererer populatioes elemeter, og så radomiserer (ved lodtrækig, evt. ved at beyttet et program der geerer tilfældige tal) udtager de N elemeter der skal idgå i stikprøve. Eksempel: For at udersøge om e ædrig af vitamiidholdet i foderet for svi ædrede deres vægt, udvalgte ma ved radomiserig de svi, som fik det ye foder. Stratificeret udvælgelse. Uder visse omstædigheder er det fordelagtigt (midre stikprøvestørrelse for at opå samme sikkerhed) at opdele populatioe i midre grupper (kaldet strada), og så foretage e simpel udvælgelse idefor hver gruppe. Dette er dog ku e fordel, hvis elemetere idefor hver gruppe er mere esartet ed mellem gruppere. Eksempel: Øsker ma at spørge vælgere om deres holdig til et politisk spørgsmål (f.eks. om deres holdig til et skattestop) kue det måske være e fordel at dele dem op i idkomstgrupper (høj, mellem og lav). Systematisk udvælgelse: Ved e såkaldt systematisk udvælgelse, vælger ma at udtage hver k te elemet fra populatioe. Eksempel: E detailhadler øsker at måle tilfredshede hos sie kuder. Der øskes udtaget 40 kuder i løbet af e speciel dag. Da ma aturligvis ikke på forhåd keder de kuder der kommer i butikke, vælges e systematisk udvælgelse, ved at vælge hver 7'ede kude der forlader butikke. Ma starter dage med ved lodtrækig at vælge et af tallee fra til 7. Lad det være tallet 5. Ma udtager u kude r. 5, 5+ 7 =, 5+ 7 = 9,..., 5+ 39 7 = 78. Derved har ma fået valgt i alt 40 kuder. Problemet er aturligvis, om tallet 7 er det rigtige tal. Hvis ma får valgt tallet for stort, eksempelvis sætter det til 30, så vil e stikprøve på 40 kræve, at der er 75 kuder de dag, og det behøver jo ikke at være tilfældet. Omvedt hvis tallet er for lille, så får ma måske udtaget de 40 kuder i løbet af formiddage, og så er stikprøve ok ikke repræsetativ, da ma ikke får eftermiddagskudere med. 33
5 Stikprøver Klygeudvælgelse (Cluster samplig) Dee metode ka med fordel beyttes, hvis populatioe består af eller ka iddeles i delmægder (klyger). Metode består i, at ma ved radomiserig vælger et midre atal klyger, som så totaltælles. Eksempel: I et vareparti på 000 emer fordelt på 00 kasser hver med 0 emer øsker ma e vurderig af fejlprocete. I alt øskes udtaget 50 emer. Ma udtager radomiseret 5 kasser, og udersøger alle emere i kassere. 5.. FORDELING OG SPREDNING AF GENNEMSNIT Udtages e stikprøve fra e populatio er det jo for, at ma ud fra stikprøve ka fortælle oget cetralt om hele populatioe. I eksempel.5 var vi således iteresseret i kocetratioe af britioer (ph) i ledvæske i kæet hos patieter, der led af dee sygdom. Som led i e ordisk medicisk udersøgelse udtog ma bladt patieter der led af dee sygdom tilfældigt e stikprøve på 75. På basis heraf beregede ma geemsittet af ph værdiere til x = 7.868 og spredige s = 0.34355. Ma vil u sige, at et estimat (skø) for de sade middelværdi µ for hele populatioe er 7.9 og de sade spredig σ er 0.34. Det er imidlertid klart, at disse tal er behæftet med e vis usikkerhed. Havde vi valgt 75 adre patieter havde vi ude tvivl fået lidt adre tal. Det er derfor ikke ok, at agive at de sade middelværdi er x, vi må også agive et usikkerhedsiterval. For at kue berege et sådat iterval er det ødvedigt at kede fordelige. Her spiller de tidligere ævte cetrale græseværdisætig e vigtig rolle, idet de jo (løst sagt) siger, at selv om ma ikke keder fordelige af de kotiuerte stokastiske variabel, så vil geemsittet af værdiere i e stikprøve på tal vil være tilærmelsesvis ormalfordelt, hvis blot er tilstrækkelig stor ( i praksis over 30). Dette er af stor praktisk betydig, idet det så ikke er så vigtigt, om selve populatioe er ormalfordelt. Ofte er det jo ku af iteresseret at kue forudsige oget om hvor middelværdie af fordelige er placeret. σ Edvidere fremgik det af sætig 3., at spredige på x er σ ( x) =, hvor σ er spredige på de ekelte værdi i stikprøve. Heraf fremgår, at geemsittet ka ma stole mere på ed de ekelte målig, da de har e midre spredig. 34
5.3 Kofidesiterval for middelværdi Eksempel 5.. Fordelig af geemsit De tid, et kude må veter i e lufthav ved e check-i disk, er givet at være e stokastisk variabel med e ukedt fordelig. Ma har dog erfarig for, at vetetide i middel er på 8. miutter med e spredig på 3 miutter. Udtages e stikprøve på 50 kuder, øskes fudet sadsylighede for, at de geemsitlige vetetid for disse kuder er mellem 7 og 9 miutter Løsig: Da atallet i stikprøve på 50 er større ed 30, ka vi atage at geemsittet er approksimativt σ 3 ormalfordelt med e middelværdi på 8. og e spredig på σ = = = 0. 44 x. 50 Vi har derfor TI89+TI-Nspire: P( 7 < X < 9) = ormcdf(7,9,8.,0.44) = 0.968 = 96.8% Excel: P( 7 < X < 9) = P( X < 9) P( X < 7) = NORMFORDELING(9;8,;0,44;)-NORMFORDELING(7;8,;0,49;) =0,968 = 96.8% 5.3. KONFIDENSINTERVAL FOR MIDDELVÆRDI 5.3. Defiitio af kofidesiterval Udtages e stikprøve fra e populatio er det jo for, at ma ud fra stikprøve ka fortælle oget cetralt om hele populatioe. Ma vil eksempelvis berege geemsittet middelværdi µ for hele populatioe x og agive det som et estimat (skø) for de sade Det er imidlertid klart, at selv om et geemsit har e midre spredig ed de ekelte målig, så er det stadig behæftet med et vis usikkerhed Det er derfor ikke ok, at agive at de sade middelværdi er x, vi må også agive et usikkerhedsiterval. Et iterval idefor hvilket de sade værdi kaldes et 95% kofidesiterval for middelværdie. µ med eksempelvis 95% sikkerhed vil ligge, Mere præcist gælder det, at hvis ma for et stort atal stikprøver på de samme stokastiske variabel agav 95% kofidesitervaller, så ville de sade middelværdi tilhøre 95% af disse itervaller. Præcis defiitio af kofidesiterval. Lad være givet e stikprøve for e stokastisk variabel X, lad være et tal mellem 0 og. Lad edvidere Θ være e puktestimator for parametere θ og lad L og U være stokastiske variable, for hvilke det gælder, at P( L θ U ) = β. På basis af de give stikprøve fides tal l og u som bestemmer det øskede iterval l u. Dette kaldes et procet kofidesiterval for de ukedte parameter. θ 00 β θ 35 β
5 Stikprøver 5.3.. Populatioes spredig kedt eksakt Et 95% kofidesiterval [ x r; x + r] må ligge symmetrisk omkrig geemsittet, og således, at P( x r X x + r) = 0. 95. Heraf følger, at hvis de sade middelværdi µ ligger i et af de farvede områder på figur 5., så er der midre ed.5% chace for, at vi ville have fået det fude geemsit x. For at fide græse for itervallet, må vi fide e middelværdi µ så P( X x) = 0. 05. x r x x + r Fig 5.. 95% kofidesiterval σ Ma må her huske, at et geemsit har spredige, hvor σ er spredige på de ekelte målig og er atal måliger i stikprøve. Fremfor at løse oveståede ligig, er det lettere at beytte formle x = µ + z σ som ved σ beyttelse af, at σ ( X ) = giver følgede sætig Er spredige eksakt kedt er et 95% kofidesiterval bestemt ved formle σ σ x z0. 975 µ x + z0. 975 () p p Sædvaligvis udtrykkes de geerelle formler ved sigifikasiveauet α, som er sadsylighede for at begå e fejl. α sættes sædvaligvis til 0%, 5%, % eller 0.% svarede til heholdsvis 90%, 95%, 99% og 99.9% kofidesitervaller. σ σ x z x + z I så fald bliver formle (udtrykt ved α ) α µ α () Alle de avedte regemidler har programmer, der automatisk bereger ete kofidesiterval eller radius r i kofidesitervallet. 36
5.3 Kofidesiterval for middelværdi Eksempel 5.. Kofidesiterval hvis spredige er kedt eksakt Lad geemsittet af måliger være x = 90, og lad os atage, at spredige kedes eksakt til σ = 0.5. Bestem et 95% kofidesiterval for middelværdie µ. Løsig: Metode Løsig af ligig: σ 05. Vi ved, at spredige på geemsittet er stadardfejle σ( X ) = = = 0443.. For at fide græse kue ma fide µ af ligige P( X 90) = 0. 05 TI89: solve(ormcdf (,90, x, 0.443) =0.05,x) Resultat 90.83 Radius r = 90.83-90 = 0.83. Kofidesiterval [90-0.83; 90 + 0.83] = [89.77 ; 90.83] TI-Nspire: Som TI89 idet ma dog skriver solve Excel σ σ Metode Beytte formel x z α µ x + z α σ 0. 5 z 0. 9755 = ormiv( 0. 975) TI89: r = = 0.83 Da der er symmetri omkrig x fås kofidesitervallet [90-0.83;90+0.83] = [89.77 ; 90.83] TI-Nspire samme formel Metode 3: Beytte regemaskiers program TI89: APPS STAT/LIST F7, : Z-Iterval Vælg Stats Udfyld meue med 0.5 90 osv. Resultat [85.7 ; 90.83 ] TI-Nspire: Beregiger Statistik Kofidesitervaller z-iterval for variabel meu:statisk udfyld meu ENTER Excel: På værktøjsliie forove: Tryk på = eller f x Vælg kategorie Statistisk Vælg kofidesiveau udfylde meue : r = KONFIDENSINTERVAL(0,05;5;)=0.83 95% kofidesiterval: [90-0.83;90+0.83] = [89.77 ; 90.83] Vi ved derfor med 95% sikkerhed, at populatioes sade middelværdi ligger idefor disse itervaller 3. I celle A skrives e startværdi for µ eksempelvis 90. I celle B skrives =NORMFORDELING(90;A;0,5/0.443;) Fuktioer Målsøgig I Agiv celle skrives B. I Til Værdi skrives 0,05. I Ved ædrig af celle skrives A. Resultat 90,84 3 Mere præcist, at af de 00 stikprøver med tilhørede 95% kofidesitervaller, vil i middel ku 5 af disse itervaller ikke ideholde de sade værdi. 37
5 Stikprøver 5.3.3. Populatioes spredig ikke kedt eksakt Sædvaligvis er populatioes spredig σ jo ikke eksakt kedt, me ma reger et estimat s ud for de. Da s jo også varierer fra stikprøve til stikprøve, giver dette e ekstra usikkerhed, så kofidesitervallet for µ bliver bredere. Hvis stikprøvestørrelse er over 30 er dee usikkerhed dog ude væsetlig betydig, så i sådae tilfælde ka ma i formel () (eller formel ()) blot erstatte σ med s. Er stikprøvestørrelse uder 30 bliver dee usikkerhed på s så stor, at ma i formel () må erstatte Z-fraktile med e såkaldt T-fraktil t 0.975 (f) (også beævt ) hvor frihedsgradz 0. 975 t0. 975, f stallet f = -, og = atal måliger). (eller udtrykt ved α i formel () erstatte z- fraktile z med t - fraktile t.) α α, f t-fordeliger E t - fordelig har samme klokkeformede udseede som e Z - fordelig (e ormalfordelig med middelværdi 0 og spredig ) I modsætig til Z - fordelige afhæger des udseede imidlertid af atallet af tal i stikprøve. Er frihedsgradstallet f = - stort (over 30) er forskelle mellem e U- fordelig og e t- fordelig ude praktisk betydig. Er f lille bliver t - fordelige så meget bredere ed Z - fordelige, at t-fordelige må avedes i stedet for Z-fordelige. Grafe viser tæthedsfuktioe for t-fordeligere for f =, 5 og 30. Eksempel 5.3. Beregig af t-værdier. ) Fid t 0. 975 ( ) og t 0. 05 ( ). ) Fid P( X ), hvor X er t - fordelt med frihedsgrader. Løsig: TI-89: ) t 0. 975 ( ) = iv_t(0.975,) =.8 t 0. 05 ( ) = iv_t(0.05,) = -.8 ) P( X ) = tcdf(,,) = 0.685 = 6.85% TI-Nspire: skriv ivt(0.975,) osv som TI89 38
5.3 Kofidesiterval for middelværdi Excel: På værktøjsliie forove: Tryk på = eller f x Vælg kategorie Statistisk Vælg TINV Der fremkommer e tabel med avisig på, hvorda de skal udfyldes. Bemærk: TINV( α ; f) udreger de fraktil, der svarer til - Sætter vi således α = 5% fås t 0. 975, dvs. der bereges arealet af øverste hale hvilket jo også altid er det ma har brug for. ) = TINV(0.05;) =,7883 t 0. 975 ( ) t 0. 05 ( ) P( X ) = -,7883 ) =TFORDELING(;;) = 0,6855 α Er spredige ukedt er et 95 % kofidesiterval bestemt ved formle: s s x t0, 975( ) µ x + t0. 975( ) (3) (eller udtrykt ved α x t α µ x + t α (4) s,, Eksempel 5.4. Kofidesiterval, hvis spredige ikke er kedt eksakt. Ved fremstillig af et bestemt levedsmiddel er det vigtigt, at et tilsætigsstof fides i levedsmidlet i e kocetratio på 8.50 (g/l). For at kotrollere dette udtager levedsmiddelkotrolle 6 prøver af levedsmidlet. Resultatere var: Målig r 3 4 5 6 kocetratio x (g/l) 8.54 7.89 8.50 8. 8.5 8.3 Idet ma atager, på baggrud af tidligere ligede måliger, at resultatere er ormalfordelte, skal ma besvare følgede spørgsmål:. a) Agiv et estimat for kocetratioes middelværdi og spredig. b) Agiv et 95% kofidesiterval for kocetratioe, og vurder herudfra om kravet på 8.50 er opfyldt. Løsig Såvel TI89, Ti-Nspire som Excel har idbygget programmer, så ma ikke behøver at avede formlere direkte. a) TI-89: APPS Stat/List Idtast tal i e liste F7, : T-Iterval Vælg Data Udfyld meue Resultater: x = 8. 68 og s = 0. 4. b) C It :[ 8. 0 ; 85. ] Da itervallet ideholder 8.50, er kravet opfyldt, me da itervallet ku lige etop ideholder tallet 8.50, så det vil ok være rimeligt, at foretage e y vurderig på basis af ogle flere måliger. TI-Nspire Lister og regeark udfyld liste (husk overskrift) Statistik Kofidesitervaller t-iterval for variabel eu:data udfyld meu ENTER 39 s
5 Stikprøver Excel: Data idtastes i cellere A til A6 Excel: 003: Fuktioer 007 + 00: Data derefter Dataaalyse Beskrivede statistik udfyld iputområde vælg Resumestatistik og kofidesiveau Middelværdi 8,68333333 Stadardfejl 0,098434976 Media 8,65 Tilstad #I/T Stadardafvigelse 0,45463 Stikprøvevarias 0,05836667 Kurtosis -0,376446 Skævhed -0,500530903 Område 0,65 Miimum 7,89 Maksimum 8,54 Sum 49,6 Atal 6 Kofidesiveau(95,0%) 0,530356 a) Resultater: x = 8. 68 og s = 0. 4. b) 95% kofidesiterval: x ± r = 8. 68 ± r hvor r = 0.53 [8.68-0.53 ; 8.68 + 0.53] =[8.0 ; 8.5] Eksempel 5.5 Kofidesiterval, hvis origiale data ikke kedt Fid kofidesitervallet for middelværdie µ, idet stikprøve er på 0 tal, som har et geemsit på 50 og e spredig på. Løsig: TI89:APPS Stat/List F7, : T-Iterval Vælg Stats Udfyld meue C It :[44.38 ; 55.6] TI-Nspire: Beregiger Statistik Kofidesitervaller t-iterval for variabel meu:statisk udfyld meu ENTER Excel : Har itet færdigt program, så her må ma avede formle for kofidesiterval I koloe D er de formler agivet, som er brugt i koloe E, me koloe D er aturligvis stregt taget uødvedig. Bemærk, at for overskuelighedes skyld er udskrevet gitterliier og søjle/række overskrifter (se herom side 9) A B C D E Eksempel 4.6 Kofidesradius r = TINV(B6;B3-)*B5/KVROD(B3) = 5,6673 edre græse = B4-E 44,38383 3 = 0 øvre græse = B4+E 55,667 4 geemsit = 50 5 spredig s = 6 Sigifikasiveau α = 0,05 95% kofidesiterval: [44.38 ; 55.6] 40
5.3 Kofidesiterval for middelværdi Prædistiatiositerval. Ved mage avedelser øsker ma at forudsige, hvor værdie af e kommede observatio af de variable med 95% sikkerhed vil falde, sarere ed at give et 95% kofidesiterval for middelværdie af de variable. Ma siger, at ma øsker at bestemme et 95% prædistiatiositerval (forudsigelsesiterval). SÆTNING 4. ( 00 ( α ) % prædiktiositerval for e ekelt observatio ). Et 00 ( α ) % prædiktiositerval for e ekelt fremtidig observatio X + er bestemt ved x t s + x + t s + α ( ) µ α ( ). Bevis: Lad X + være e ekelt fremtidig observatio. Eftersom X + er uafhægig af de øvrige X er, er X + også uafhægig af X. Variase af differese X X + er følgelig V ( X X ) = V ( X ) + V ( X ) = σ + = + + + σ σ. Da ma sædvaligvis først reger kofidesitervallet ud, så er de emmeste måde at berege det tilsvarede prædistiatiositerval at beytte, at radius r p i prædistiatiositerval fås af radius r k i kofidesitervallet ved formle r = r + p k Bevis: r p s s + + s = + = s = = + = rk + Eksempel 5.6. Prædistiatios-iterval for middelværdi af ormalfordelig. Samme problem som i eksempel 5.4, me u øskes bestemt et 95% prædistiatiositerval for e ekelt y målig af kocetratioe. Løsig Da kofidesitervallet har lægde 8.5-8.0 = 0.50 er radius r k = 0.5 Vi har derfor r p = 0. 5 6 + = 0. 66 og dermed 95% prædistiatiositerval = 8. 7 0. 66; 8. 7 + 0. 66 == 7. 6; 8. 93. [ ] [ ] Bestemmelse af stikprøves størrelse Før ma starter sie måliger, kue det være yttigt på forhåd at vide ogelude hvor mage måliger ma skal foretage, for at få resultat med e give øjagtighed. Hvis spredige atages kedt, ved vi, at radius i kofidesitevallet er σ r = z α Løses dee ligig med hesy til fås z α σ = r 4
5 Stikprøver Det grudlæggede problem er her, at ma æppe keder spredige eksakt. Ma keder muligvis på basis af tidligere erfariger størrelsesordee af spredige. Hvis ikke må ma evetuelt lave ogle få måliger, og berege et s på basis heraf. Som e første tilærmelse atages, at atallet af getagelser er over 30, så ma ka bruge U- fordelige. Hvis det derved viser sig, at er uder 30 avedes i stedet e t-fordelig, idet vi løser ligige t = α ( ) σ r Det følgede eksempel illustrerer fremgagsmåde. Eksempel 5.7. Bestemmelse af stikprøves størrelse. E forstmad er iteresseret i at bestemme middelværdie af diametere af vokse egetræer i e bestemt fredet skov. Der blev målt diametere på 7 tilfældigt udvalgte egetræer (i meters højde over jorde) På basis af måligere på de 7 træer sættes s 4. a) Fid hvor mage træer der skal måles, hvis et 95% kofidesiterval højst skal have e radius på ca. 5 cm. b) Fid hvor mage træer der skal måles, hvis et 95% kofidesiterval højst skal have e radius på ca. 6 cm. Løsig: a) Først beyttes formle = z 0. 975 r s TI89+TI-Nspire: (ivnorm(0.975)*4)/5)^ = 30. = 3 Excel: (NORMINV(0,975;0;)*4/5)^ = 30. Da > 30 er det rimeligt, at beytte e Z- fordelig frem for e t-fordelig. Der skal altså tilfældigt udvælges ca. 3 egetræer. b) Beyttes samme formel som uder spm. a) fås = Da < 30 burde ma have avedt e t - fordelig. t s = ( 0 975 )., r TI 89: solve(x=(ivt(0.975,x-)*4/6)^,x) x> Efter oge tid fås x = 3.37 TI-Nspire: som TI89, idet der bruges solve Excel: I celle A skrives e startværdi for eksempelvis. I celle B skrives= (TINV(0,05;A)*4/6)^-A 003: Fuktioer Målsøgig 007+00: Data Hvad-hvis aalyse Målsøgig I Agiv celle skrives B. I Til Værdi skrives 0. I Ved ædrig af celle skrives A. Facit :3,9865 Der skal altså tilfældigt udvælges ca. 4 egetræer. Da overslaget jo er afhægigt af om vurderige af s er korrekt, bør ma dels for e sikkerheds skyld vælge s lidt rigelig stor, dels efter at ma har målt de 3/4 træer lige kotrollere beregige af kofidesitervallet. 4
5.4 KONFIDENSINTERVAL FOR SPREDNING 5.4 kofidesiterval for spredige I visse situatioer øsker ma at fide et kofidesiterval for spredige. Vi vil ikke gå ærmere id på teorie herfor, me blot hevise til formlere i oversigt 5.5. Formel 3 i oversigt 5.5 beyttes: ( ) s ( ) s σ χ ( ) χ ( ) α I formlere idgår de såkaldte χ - fordelig, (udtales ki i ade). χ -fordeliger χ -fordelige beyttes ved beregiger omkrig variaser, år disse er erstattet af et estimat s. På figure er afbildet tæthedsfuktioe for χ - fordeligere χ ( 5), χ ( 0) og χ ( 0). α Det ses, at χ ku er defieret for tal større ed eller lig ul, og at χ -fordeliger ikke er symmetriske om middelværdie. Jo større frihedsgradstallet bliver jo mere symmetriske bliver de dog, og for store f - værdier - i praksis f > 30 - ka e χ -fordelig χ ( f ) approksimeres med ormalfordelige ( µ, σ ), hvor µ = f og σ = f. TI89, TI-Nspire og Excel har e kumuleret χ - fordelig ligesom aturligvis alle statistikprogrammer har det. Eksempel 5.8. Beregig af χ - værdier. ) Fid χ 0. 05 ( 8) og χ 0. 975 ( 8). ) Fid P( X 5), hvor X er χ - fordelt med 8 frihedsgrader. Løsig: TI89: Vælg Catalog F3 ) χ 0. 05 ( 8) =ivchi(0.05, 8) =.8 χ 0. 975 ( 8) =ivchi(0.975, 8) = 7.5 (se det skraverede areal på figure) ) P( X 5) = chicdf(0, 5, 8) = 0.4 Defiitio af χ -fordelige. Lad U, U,..., U f være uafhægige ormerede ormalfor-delte variable. Sadsylighedsfordelige for de stokastiske variabel χ = U + U +,..., U f kaldes χ -fordelige med frihedsgradstallet f og beteges χ ( f ) 43
5 Stikprøver TI-Nspire: Beregiger, Statistik, Fordeliger, ivχ Excel:) χ 0. 05 ( 8) =CHIINV(0,975;8)=.8 χ 0. 975 ( 8) =CHIINV(0,05;8)=7.5 ) P( X 5) =-CHIFORDELING(5;8) = 0.4 Bemærk Excel bereger de øvre hale Eksempel 5.9. Kofidesiterval for varias og spredig af ormalfordelig. E virksomhed øsker at kotrollere med hvilke spredig e bestemt målemetode agiver saltidholdet i e opløsig. Der foretages følgede måliger af e opløsig af det pågældede salt. Resultatere var: Målig r 3 4 5 6 7 8 9 0 % opløsig 6.8 6.0 6.4 6.6 6.8 6. 6.4 6.3 6.0 6. 5.8 6. a) Agiv på basis af måleresultatere et estimat for opløsiges spredig. b) Agiv et 95% kofidesiterval for variase og for spredige. Løsig: TI-89, TI-Nspire og Excel har itet færdigt program. De må avede formel 3 i oversigt 5.5 : ( ) s ( ) s σ χ ( ) χ ( ) α TI89: a) Data idtastes i list F4 var Stats meu udfyldes Vi fider s = 0.36. b) Nedre græse: (*0.36^/ ivchi(0.975,) = 0.050 Øvre græse : (*0.36^/ ivchi(0.05,) = 0.88 0. 050 σ 0. 88. 0. 050 σ 0. 880 0. 4 σ 05366.. TI-Nspire: Data idtastes i Lister og regeark Statistik Statistiske beregiger Statistik med variabel meu udfyldes spreig fides bladt mage tal kopier over i beregiger foretag beregige som i TI89 Excel: A B C D E 6,8 spm. A s= STDAFV(A:A) 0,368 6 3 6,4 spm b 4 6,6 Kofidesiterval for varias 5 6,8 Nedre græse (-)*E^/CHIINV(0,05;-) 0,0508 6 6, Øvre græse (-)*E^/CHIINV(0,975;-) 0,8879 7 6,4 [0.050;0.88] 8 6,3Kofidesiterval for spredig 9 6 0 6, Nedre græse KVROD(E5) 0,404 5,8 Øvre græse KVROD(E6) 0,53696 6, [0.4; 0.537] α 44
5.5. OVERSIGT over cetrale formler i kapitel 5 5.5 Oversigt X atages ormalfordelt ( µ, σ ).Givet stikprøve af størrelse med geemsit x og spredig s Oversigt over kofidesitervaller r Forudsætiger Estimat for parameter 00 ( - α ) % kofidesiterval for parameter 3 4 µ ukedt. σ ukedt µ ukedt. σ kedt µ ukedt σ ukedt. µ kedt σ ukedt. For µ : x For µ : x For σ : s ( ) For σ : s µ = ( ) s + ( x µ ) s x t α ( ) µ x + t α ( ) TI89 :F7: t-iterval TI-Nspire:Kofidesitervaller t-iterval for variabel Excel: Kofidesiveau (= radius) σ σ x z α µ x + z α TI89 :F7: Z-iterval TI-Nspire:Kofidesitervaller z-iterval for variabel Excel: Kofidesiterval (= radius) s ( ) s σ χ ( ) χ ( ) α ( ) s + ( x µ ) ( ) s + ( x µ ) σ χ ( ) χ ( ) α α α s Oversigt over prædistiatiositervaller r Forudsætiger Estimat for parameter 00 ( - α ) % kofidesiterval for parameter µ ukedt. σ kedt For µ : x radius i kofidesiterval r k = z α σ radius i prædistiatiositerval r = r + p k µ ukedt. σ ukedt For µ : x s radius i kofidesiterval rk = t α ( ) radius i prædistiatiositerval r = r + p k Bestemmelse af stikprøves størrelse. σ kedt eller > 30 Øsket værdi af radius r i 00 ( - α ) % kofidesiterval z α σ TI89+TI-Nspire: (ivnorm(- α /)* σ /r)^ = Excel:(NORMINV(- α /);0;)* σ /r)^ r σ ukedt, me atag de højst er s t α ( ) s Løs ligig, se eksempel 5.8 = r 45
5 Stikprøver OPGAVER Opgave 5. Lad der være givet 0 uafhægige observatioer af e syres kocetratio (i %)..4 0.8..0 3..6.5.9.8.0 ) Fid et estimat for kocetratioes middelværdi µ og spredig σ. ) Agiv et 95% kofidesiterval for µ. 3) Agiv et 95% prædistiatiositerval for e ekelt y målig af kocetratioe.. 4) Agiv et 95% kofidesiterval for µ, idet det atages, at ma fra tidligere måliger ved, at σ = 0.65. Opgave 5. Trykstyrke i beto blev kotrolleret ved at ma støbte betoklodser og testede dem. Resultatet var: 6 5 38 37 30 55 49 8 75 04 63 95 ) Fid et estimat for trykstyrkes middelværdi µ og spredig σ. ) Agiv et 95% kofidesiterval for µ. 3) Agiv et 95% prædistiatiositerval for e ekelt målig af trykstyrke på e y betoklods. 4) Ma fadt, at radius i kofidesitervallet var for stor. Bestem med tilærmelse atallet af måliger der skal udføres, hvis radius højst skal være 5. Opgave 5.3 E fabrik producerer stempelrige til e bilmotor. Det vides, at stempelrigees diameter er approksimativt ormalfordelt. Stempelrigee bør have e diameter på 74.036 mm og e spredig på 0.00 mm. For at kotrollere dette udtog ma tilfældigt 5 stempelrige af produktioe og målte diametere. I resultatere har ma for simpelheds skyld, ku agivet de 3 sidste cifre, altså 74.0365 agives som 365. Ma fadt følgede resultater 34 364 370 36 35 368 357 374 340 36 378 384 354 356 369 ) Fid et estimat for rigees diameter µ og spredig σ. ) Agiv et 99% kofidesiterval for µ. Opgave 5.4 E polymer produceres i batch. Viskositetsmåliger udført på hver batch geem et stykke tid har vist, at variatioe i processe er meget stabil med spredig σ = 0. På 5 batch gav viskositetsmåligere følgede resultater: 74 78 776 760 745 759 795 756 74 740 76 749 739 747 74 ) Fid et estimat for viskositetes middelværdi µ. ) Agiv et 95% kofidesiterval for µ idet ma atager spredige er 0. 3) Fid et estimat for viskositetes spredig σ. 4) Agiv et 95% kofidesiterval for σ, for at kotrollere påstade om, at σ = 0. 46
Opgaver til kapitel 5 Opgave 5.5 Ved e fabrikatio af et bestemt sprægstof er det vigtigt, at e reaktoropløsig har e phværdi omkrig 8.0. Der foretages 6 måliger på e bestemt reaktatopløsig. Resultatere var: ph 8.4 7.36 8.04 7.7 7.65 7.8 De beyttede ph-målemetode atages på baggrud af tidligere ligede måliger at give ormalfordelte resultater. ) Agiv et estimat for opløsiges middelværdi og spredig. ) Agiv et 95% kofidesiterval for ph. 3) Ma fider, at radius i kofidesitervallet er for bredt. Agiv med tilærmelse atallet af måliger der skal foretages, hvis radius skal være 0.. Opgave 5.6 Samme tal som i opgave 5. Fid et 95% kofidesiterval for trykprøves spredig. Opgave 5.7 Samme tal som i opgave 5.3 Fid ud fra stikprøve et 99% kofidesiterval for diameteres spredig. Opgave 5.8 De 0 øverste ark papir i e pakke med priterpapir har følgede vægt 4. 4.33 4.6 4.7 4.9 4.30 4.4 4.4 4.8 4.4 a) Agiv et 95%-kofidesiterval for middelværdi af papirets vægt. b) Agiv med tilærmelse atallet af ark, der skal avedes, hvis radius i kofidesitervallet højst skal være r = 0.0 c) Agiv et 95%-prædistiatiositerval for e ekelt yt ark papir. d) Agiv et 95%-kofidesiterval for spredige af papirets vægt. Opgave 5.9 Til udersøgelse af alkoholprocete i e persos blod foretages 4 uafhægige måliger, som gav følgede resultater (i ): 08 0 07 98 ) Opstil et 95% kofidesiterval for persoes alkoholkocetratio. ) Opstil et 95% kofidesiterval for målemetodes spredig. 47
Hypotesetestig ( ormalfordelt variabel) 6 HYPOTESETEST (ÉN NORMALFORDELT VARIABEL) 6. GRUNDLÆGGENDE BEGREBER Ofte vil ma se vediger som Stikprøve viser, at udbyttet ved de y metode er sigifikat større ed ved de hidtidig avedte metode Statistiske problemer, hvor ma på basis af e stikprøve øsker med eksempelvis 95% sikkerhed at bevise e påstad om hele populatioe kaldes hypotesetest. De forskellige begreber der idgår i e hypotesetest vil blive geemgået i forbidelse med følgede eksempel. Eksempel 6.. Hypotesetest. E fabrik har geem mage år beyttet e metode, der på basis af e give mægde råmateriale gav et middeludbytte af et produceret stof på 0 = 69. kg og spredige =.0 kg. E yasat igeiør får til opgave at søge at forøge middeludbyttet ved e passede (billig) modifikatio af procesbetigelsere. Efter e række lovede eksperimeter i laboratoriet syes opgave at være lykkedes, me det edelige bevis herfor er, ud fra et passede atal driftsforsøg statistisk at kue bevise, at middeludbyttet er blevet forøget. Ud fra kedskab til de forskellige mulige støjfaktorer atages spredige at være uædret på.0 kg. Da driftsforsøgee er meget ressourcekrævede, bevilges der ku delforsøg. Der foretages uafhægige delforsøg og udbyttet x måltes: Forsøg r 3 4 5 6 7 8 9 0 x 68.8 70.7 70.3 70. 70.7 68.7 69. 68.9 70.0 69.6 7.0 69. ) Ka ma ud fra disse data bevise på sigifikasiveau = 0.05, at middeludbyttet er blevet forøget? ) Hvis svaret i spørgsmål er bekræftede, så agiv et estimat for det ye middeludbytte, og agiv et 95% kofidesiterval herfor. 48
Løsig: ) Løsige opdeles for overskuelighedes skyld i e række tri a) Defiitio af stokastisk variabel X. X = udbyttet ved de modificerede proces. b) Valg af X s fordeligstype. X atages at være approksimativt ormalfordelt (, 0. ). 6. Grudlæggede begreber c) Opstillig af ulhypotese og alterativ hypotese Der opstilles e såkaldt Nulhypotese H 0 : = 69. kg. Nulhypotese skal ideholde e kokret påstad (her et lighedsteg). Påstade er, at modifikatioe ige (ul) virkig har Der opstilles edvidere e alterativ hypotese H: > 69. kg. De alterative hypotese skal så vidt muligt ideholde det, der øskes bevist. I dette tilfælde øskes vist, at middeludbyttet er vokset, dvs. > 69. kg. Teste kaldes e esidet test i modsætig til e tosidet test : H 0 : = 69. kg cotra H: 69. kg, hvor vi blot øsker at vise, at middeludbyttet har ædret sig. d) Agivelse af testes sigifikasiveau. Hvis stikprøves geemsit x er meget større ed 69. kg ( måske helt op mod 00 kg), så er der stor sadsylighed for at udbyttet er steget. Ma siger så, at ulhypotese forkastes, eller at x ligger i forkastelsesområdet (se figur 6.). Hvis derimod x ku ligger lidt over 69. kg, så ka det skyldes tilfældige udsvig, og ma ka ikke med oge stor sikkerhed kokludere, at udbyttet er steget. Ma siger, at ulhypotese accepteres, eller at x ligger i acceptområdet. Fig. 6. Accept- og forkastelsesområde Lad x 0 være græse mellem acceptområdet og forkastelsesområdet. x 0 skal bestemmes såda, at forudsat H 0 : = 69. kg er sad, så er det yderst usadsyligt, at e stikprøves geemsit x vil komme til at ligge i forkastelsesområdet. Hvis stikprøves geemsit alligevel ligger i forkastelsesområdet, må det være forudsætige H 0 der er forkert, d.v.s. middeludbyttet må være blevet større. Det er aturligvis ikke etydigt bestemt, hvad det vil sige, at oget er yderst usadsyligt. Ma starter derfor ehver test med at fastlægge det såkaldte sigifikasiveau. Er valgt til 5%,så har ma derved fastlagt, at sadsylighede for fejlagtigt at påstå, at middeludbyttet er steget, er uder 5%. Da det ka have alvorlige økoomiske kosekveser fejlagtigt at påstå at middeludbyttet 49
Hypotesetestig ( ormalfordelt variabel) er steget (produktioe omstilles osv.),så er ma aturligvis iteresseret i, at dette ikke sker. Det ormale i idustriel produktio er, at sætte = 5%, me er det eksempelvis mediciske forsøg, hvor det ka have alvorlige meeskelige kosekveser, sættes måske så lavt som % eller 0.%, mes ma i adre situatioer måske sætter sigifikasiveauet til 0%. I dette eksempel er sat til 5%. e) Beregig af P - værdi Geemsittet af de resultater giver x = 69.76 kg. Uder forudsætig af at ulhypotese H 0 : = 69. kg er sad, så er X er ormalfordelt med middelværdi 0 = 69. og spredig. 0. 0. 887 Vi ka derfor emt fide de præcise adskillelse mellem accept og forkastelsesområdet, da de jo er bestemt ved at arealet skal være 95% TI89: ivnorm(0.95,69.,.0/)= 69.67 Da 69.76 > 69.76 ligger det målte geemsit altså i forkastelsesområdet. Imidlertid vælger ma i stedet at berege de såkaldte P-værdi (Probability value) som er sadsylighede for at få e værdi på det fude stikprøvegeemsit 69.76 eller derover, dvs. P-værdi = P( X 69. 76) Er dee P-værdi er midre ed =0.05 må x = 69.76 ligge i forkastelsesområdet (se figur 6.) Hvis P-værdie ligger over ligger x = 69.76 i acceptområdet, dvs. vi ka ikke bevise at middeludbyttet er steget. Fig 6. P-værdi TI89+TI-Nspire: P - værdi = ormcdf(69.76, 69 =0.06 Excel: P - værdi = P( X 69. 76),., / ( )) P( X 69. 76) -NORMFORDELING(69,76;69,;/KVROD();)=0,0696 f) Koklusio Da P - værdi =.6% < 5% forkastes H 0, Vi har et statistisk bevis for, at de modificerede proces giver et større middeludbytte. 50
Alterativt kue vi have beyttet ogle testfuktioer: 6. Grudlæggede begreber TI-89: APPS STAT/LIST data idtastes i list F6, : Z-Test Meu udfyldes : 0 69., =, list =list, Alterate Hyp: 0, Calculate TI-Nspire: Lister og regeark data idtastes Statistik Statistiske test z-test for middelværdi meu udfyldes ENTER Excel: Data idtastes i A til A f x Statistisk Z-test ZTEST(A:A;69,;) Vi får i alle tilfælde P-værdi = 0.065, dvs. samme værdi som før. ) Udbyttet ka i middel forvetes at være ca. x 69. 76 kg 95% kofidesiterval: TI-89: APPS STAT/LIST data idtastes i list F7, : Z-Iterval C It : [ 699. ; 70. 3] TI-Nspire: Beregiger Statistik Kofidesitervaller z-iterval for variabel meu:statisk udfyld meu EN- TER Excel: På værktøjsliie forove: Tryk på = eller f x Vælg kategorie Statistisk Vælg kofidesiveau udfylde meue (se evt. beregig uder eksempel 5.) At kofidesitervallet ideholder tallet 69. er klart i modstrid med at vi lige har vist, at middelværdie er større ed 69.. Det skyldes, at kofidesitervallet forkaster med.5% til hver side, mes e esidet test forkaster ku til e side med 5%. Mere logisk ville det være, at lave e esidet 95% kofidesiterval, x z 095 69 76 65 0.. ;.. ; 69. 8; Det er imidlertid ikke stadard, ok fordi det er sværere at forklare e udeforståede, at middelværdie med 95% sikkerhed ligger over 69.8. Eksempel 6.. Hypotesetest, hvor ma får accept af H 0. Samme problem som i eksempel 6., me u er sigifikasiveauet =%. Løsig: H 0 : = 69. mod H: H 0 : > 69. I eksemplet fadt vi på basis af forsøg, at P-værdi =.6%. Koklusio: H 0 accepteres, dvs. vi ka ikke på et sigifikasiveau på % bevise, at middelværdie var steget. Bemærk: Vi skriver ikke at vi har bevist de ikke er steget, det ka meget vel være tilfældet. Vi ka bare ikke bevise det med de øskede sikkerhed. 5
Hypotesetestig ( ormalfordelt variabel) 6. HYPOTESETEST MED UKENDT MIDDELVÆRDI OG SPREDNING I eksempel 6. blev baggrude for teste geemgået. Samtidig atog vi, at spredige var kedt eksakt. Dette er sjældet tilfældet, me havde vi haft over 30 måliger i stikprøve, ville det være tilladeligt, at erstatte de eksakte værdi med de beregede spredig s, og foretage de samme beregiger Havde vi uder 30 måliger bliver det for upræcist, og ma må i stedet beytte e t-fordelig. Eksempel 6.3. Esidet hypotesetest om middelværdi (spredig ikke kedt eksakt) Samme problem som i eksempel 6., me u er spredige ikke kedt eksakt. Løsig: ) X = udbyttet ved de modificerede proces. X atages at være approksimativt ormalfordelt (, ). H 0 : = 69. kg. H: > 69. kg. Beregig TI89: APPS STAT/LIST data idtastes i list F6, : T-Test 0 69. 0 Meu udfyldes :, list =list, Alterate Hyp:, Calculate P-værdi = 0.085 =.85%. TI-Nspire: Lister og regeark data idtastes Statistik Statistiske test t-test for middelværdi meu udfyldes ENTER Excel Her beyttes formle i oversigt 6.4. ( x PT ( t), hvor t 0 ) og T er t-fordelt med - frihedsgrader s Data idtastes i A til A A B C D 68,8 x streg = MIDDEL(A:A) 69,75833 70,7 s= STDAFV(A:A) 0,8665 3 70,3 Ho μ0= 69, 4 70, 5 68,7 t= (D-D3)*KVROD()/D,36948 6 69, 7 68,9 P-værdi= TFORDELING(ABS(D5);;) 0,08593 Da P-værdi < 5% forkastes H 0, dvs. vi har et statistisk bevis for, at de modificerede proces giver et større middeludbytte. ) TI-89: APPS Stat/List F7, : T-Iterval Vælg Data Udfyld meue C It :[69.4 ; 70.8] TI-Nspire: Beregiger Statistik Kofidesitervaller t-iterval for variabel meu:statisk udfyld meu ENTER Excel: 003: Fuktioer 007: Data Dataaalyse Beskrivede statistik udfyld iputområde vælg kofidesiveau Resultat : Kofidesiveau(95,0%) 0,5863 Kofidesiterval [69.758-0.57;69.758+0.579] = [69.4 ; 70.8] 5
6. Eksempler på hypotesetest reget med TI89 og Excel Eksempel 6.4 Tosidet hypotesetest om middelværdi (spredig ikke kedt eksakt). Ved fremstillig af et bestemt levedsmiddel er det vigtigt, at et tilsætigsstof fides i levedsmidler i e kocetratio på 8.40 (g/l). For at kotrollere om tilsætigsstoffet har e kocetratio på ca. 8.40, udtager levedsmiddelkotrolle 6 prøver af levedsmidler. Resultatere var: Målig r 3 4 5 6 7 8 Kocetratio x (g/l) 8.54 7.89 8.50 8. 8.5 8.3 8.45 8.3 Det øskes på dee baggrud udersøgt om kocetratioe har de øskede værdi. Sigifikasiveau sættes til 5%. Løsig: Lad X være kocetratioe af tilsætigsstoffet i levedsmidlet. Det atages, at X er ormalfordelt (, ) Da det både er uøsket, at kocetratioe er for lille og at de er for stor, bliver ulhypotese H 0 : = 8.4 mod H: 84., dvs. vi har e tosidet test. Bemærk, at selv om ma vel egetlig hellere ville bevise, at kocetratioe er 8.4 og derfor helst ville have dee påstad i de alterative hypotese, er dette ikke muligt, da ulhypotese skal ideholde et lighedsteg. TI-89: APPS STAT/LIST data idtastes i list F6, : T-Test Meu udfyldes : 0 84., list =list, Alterate Hyp: 0, Calculate Vi får P-værdi = 0.7 =.7%. Da P-værdi > 5% accepteres ulhypotese, dvs. vi ka ikke bevise, at kocetratioe afviger sigifikat fra 8.4 g/l Bemærk, at TI-89 bereger begge haler, så vi skal sammelige med 5%. TI-Nspire: Lister og regeark data idtastes Statistik Statistiske test t-test for middelværdi meu udfyldes ENTER Excel Beytter formler i oversigt 6.4 Data idtastes i A til A8 A B C D 8,54 x streg = MIDDEL(A:A8) 8,965 7,89 s= STDAFV(A:A8) 0,3537 3 8,50 Ho μ0= 8,4 4 8, = 8 5 8,5 t= (D D3)*KVROD(D4)/D,3743 6 8,45 P værdi= TFORDELING(ABS(D5);D4 ;) 0,05877 Da P-værdi >.5 % accepteres ulhypotese, dvs. vi ka ikke bevise, at kocetratioe afviger sigifikat fra 8.4 g/l Bemærk, at da det er e tosidet test hvor ma forkaster til begge sider sammeliges med,5% I de tilfælde, hvor ma har e tosidet test, kue ma i stedet berege et kofidesiterval 53
Hypotesetestig ( ormalfordelt variabel) Eksempel 6.5. Test af spredig E fabrikat af læskedrikke har købt e automatisk påfyldigsmaskie. Ved købet af maskie har ma betiget sig, at rumfaget af de påfyldte væske i middel skal have e spredig, der ikke overstiger 0.0 ml. Efter kort tids avedelse får ma mistake om, at spredige er for stor. Mage klager over uderfyldte flasker. Derfor foretages e kotrol, hvor ma tilfældigt udtager 0 flasker med læskedrik, og måler rumfaget af væske i flaske. Det viser sig, at stikprøves spredig er s = 0.4 ml. Med et sigifikasiveau på 5% er det da et statistisk bevis for, at de ye maskie ikke opfylder det stillede krav? Løsig: Lad X = rumfag af drik i flaske. X atages ormalfordelt (, ), hvor såvel som er ukedte. H o : 0. imod H: > 0., eller udtrykt ved variase : H o : 0. mod H: 0.. Ifølge oversigt 6.4 ses, at vi skal berege teststørrelse, hvor ( ) s dvs. i det foreliggede tilfælde ( 0 ) 0. 4 7. 36. 0. 0 TI 89+ TI-Nspire: P- værdi = PQ ( 7. 36) chicdf(7.36,,9) = 0.0965 = 9.65% Excel: chi i ade= (0-)*0,4^/0,^ 7,36 P-værdi= CHIFORDELING(C;9) 0,096543 Da P-værdi=9.65% > 5 %, accepteres H 0, dvs. det er ikke påvist, at spredige ved påfyldige er for stor, me der er dog ær ved at være sigifikas. 6.3. FEJL AF TYPE I OG TYPE II: Ved ehver test ka der være to typer fejl, hvoraf vi hidtil ku har taget hesy til de ee type. For bedre at forstå problemstillige vil vi se på følgede skema. Beslutig H 0 accepteres H 0 forkastes Forudsætig H 0 er sad Rigtig beslutig Forkert beslutig Type I fejl H 0 er falsk Forkert beslutig Type II fejl Rigtig beslutig Det må være et krav til e god test, at der ku er e lille sadsylighed for at begå e fejl af type I eller type II. 54
6.3 Fejl af type I og type II I eksempel 6. ville e type I fejl være, hvis ma kokluderer, at de modificerede proces giver et større udbytte, selv om det ikke er tilfældet. Virksomhede bruger måske milliobeløb på at omlægge produktioe, og det er gaske forgæves. E type II fejl ville være, at ma ikke opdager, at de modificerede proces giver et større udbytte. Dette er aturligvis uheldigt, me hvis det skyldes, at forbedrige ikke blev opdaget, fordi de er gaske rige, har det muligvis ige praktisk betydig. Hvis e test har sigifikasiveau og de beregede P-værdi < så forkastes H o. Vi ved hermed, at P(type I fejl), dvs. vi rimelig sikre på, at have foretaget e korrekt beslutig. P-værdie agiver jo ogelude sadsylighede for at vi træffer e forkert beslutig. Hvis = 5% og P-værdie er 4.5% forkastes H 0. Det samme sker, hvis P-værdi = 0.00%, me vi er her uægtelig oget sikrere på, at vi at vi træffer e korrekt beslutig. Hvis vi accepterer H o er det blot udtryk for, at vi ikke ka forkaste(svag koklusio: "H o frikedes på grud af bevisets stillig"). Ma ka have begået e type II fejl, dvs. ikke opdaget, at de alterative hypotese var sad. Eksempel 6.6. Fejl af type Samme problem som i eksempel 6., me u er sigifikasiveauet =% Løsig: H 0 : = 69. mod H: H 0 : > 69. I eksemplet fadt vi på basis af forsøg, at P-værdi =.6%. Koklusio: H 0 accepteres, dvs. vi ka ikke på et sigifikasiveau på % bevise, at middelværdie var steget. Imidlertid ka middeludbyttet meget vel være steget, me vi kue bare ikke bevise det med de øskede sikkerhed. Vi ka have begået e fejl af type. Som det ses af eksempel 6.6, så vil e formidskelse af mulighede for at begå e type fejl ( formidskes) forøge sadsylighede for at begå e type fejl. De eeste måde hvorpå begge ka formidskes er at øge atallet af forsøg. Problemet hermed er, at ma derved måske opdager e så lille forbedrig, at det ikke er retabelt at foretage e dyr ædrig af fremstilligsprocesse. Først år udbyttet overstiger e bagatelgræse vil ma reagere. Dimesioerig af forsøg (vælge stikprøvestørrelse ). Lad os atage, at virksomhede i eksempel 6. fider, at hvis stigige i udbyttet ved de modificerede proces er midre ed = 0.5 kg, så har det ige praktisk iteresse ( = 0.5 kg er bagatelgræse), og derfor gør det itet, hvis ma ikke opdager det (begår e type II fejl). Hvis derimod stigige er større ed 0.5 kg, så har det stor betydig, og sadsylighede for at begå e type II fejl må derfor være lille. Lad os sætte de til højst = 0%. Problemet er u, hvor stor e stikprøvestørrelse (atallet af delforsøg) der skal udføres, for at oveævte krav er opfyldt. 55
Hypotesetestig ( ormalfordelt variabel) E såda vurderig kaldes e dimesioerig af forsøget. Udfører ma det ud fra e dimesioerig ødvedige atal forsøg, vil e accept af ulhypotese u betyde, at ok ka udbyttet være steget, me ikke så meget, at det har praktisk iteresse. I oversigt 6.4 er agivet de formler, der skal avedes ved e dimesioerig. De følgede eksempler viser avedelse heraf. Eksempel 6.7. Dimesioerig (kedt spredig). Ide ma i eksempel 6. begydte at lave de dyre delforsøg, vil igeiøre gere have e vurderig af, hvor mage driftsforsøg der er ødvedige, år det vides, at det først er økoomisk retabelt at gå over til de ye metode, hvis middeludbyttet er steget med midst 0.5 kg. ) Fid stikprøvestørrelse, i det tilfælde, hvor = 0.5 kg og = 0%. Det atages stadig, at =.0 kg og sigifikasiveauet er = 5 %. Lad være de i spørgsmål fude stikprøvestørrelse. ) Idet der udføres delforsøg skal ma besvare følgede spørgsmål: a) Hvilke koklusio ka drages, hvis ma fider, at x = 69.8 b) Hvilke koklusio ka drages, hvis ma fider, at x = 69.4 Løsig ) X = udbyttet ved de modificerede proces. X atages at være approksimativt ormalfordelt (, 0. ). H 0 : = 69. kg. H: > 69. kg. z z z z Da teste er esidet fremgår det af oversigt 6.4) at: 05. TI89+ TI-Nspire: ((ivnorm(0.95)+ivnorm(0.90))/(0.5/.0))^ = 34.5, dvs. 35. 095. 090. Excel: =((NORMINV(0,95;0;)+NORMINV(0,9;0;))/(0,5/0,))^ Resultat 0,34554 dvs. = 35 a) H 0 : = 69. mod H: H 0 : > 69. TI89: APPS STAT/LIST F6, : Z-Test Vælg Stats, da data ikke kedt Meu udfyldes : 0 69., =, x = 69.8, = 35, Alterate Hyp: 0, Calculate P-værdi = 0.09%, TI-Nspire: Lister og regeark Statistik Statistiske test z-test for middelværdi meu udfyldes ENTER Excel: P-værdi = = - NORMFORDELING(69,8;69,;/KVROD(35);) = 0,00093 Da P_værdi < 0.05 forkastes H 0 : = 69. kg, dvs. vi er på et Sigifikasiveau på 5% sikre på at middelværdie er over 69. kg. Imidlertid ka vi ikke være sikre på at de er over bagatelgræse 69. + 0.5 = 69.7 kg Lad H 0 : = 69.7 mod H: H 0 : > 69.7 Vi fider på samme måde som ovefor, at P-værdi = 7.7%, dvs. e påstad om at middeludbyttet ligger over 69.7 kg vil være fejlagtig i ca. 8% af tilfældee. Vi vil derfor æppe på de baggrud gå over til de ye metode. b) H 0 : = 69. mod H: H 0 : > 69. Vi fider på samme måde som i pukt a), at P-værdi =.8%%, H 0 : = 69. kg accepteres, dvs. vi ka ikke vise, at middeludbyttet er steget. Dette ka dog godt være tilfældet, me da vi har dimesioeret er vi rimeligt sikre på, at e evetuel stigig ikke har praktisk iteresse. 0. 56
6.3 Fejl af type I og type II Eksempel 6.8. Dimesioerig, (ukedt spredig) E virksomhed bliver af miljøkotrolle pålagt at formidske idholdet i sit spildevad af et stof A, der mistækes for at kue foruree grudvadet. Idholdet af stoffet A i spildevadet skal uder.7 mg/l, og miljøkotrolle heviser til e y metode, som burde kue formidske idholdet til det øskede iveau. For at vurdere de ye metode øskes foretaget e række delforsøg. Hvor mage forsøg skal der midst foretages, hvis = 5%, = 0%, = 0.0 mg/l og et overslag over hvor stor er sætter dee til 0.5 mg/l. Løsig: Lad X = idhold af A (i mg/l) efter beyttelse af de y metode. X atages ormalfordelt (, ), hvor såvel som er ukedte. Da idholdet af stoffet A øskes formidsket, bliver ulhypotese H 0 : 7. mg/l mod H: 7. mg/l, dvs. vi har e esidet test. Da ikke er kedt (ku et løst skø kedes), er teste e t - test. Formle i oversigt 6.4 avedes: z z Først bereges 095. 090. TI89: ((ivorm(0.95)+ivorm(0.90))/(0.0/0.5))^ Resultat = 9.7 t095. ( ) Da < 30 løses u ligige 9. 7 z095. solve(x = 9.7 (iv_t(0.95,x-)/ivorm(0.95))^,x) x 9 Heraf følger x =.7, dvs. = De øskede dimesioerig kræver altså forsøg. TI-Nspire: som TI89, idet dog skrives solve Excel: ((NORMINV(0,95;0;)+NORMINV(0,9;0;))/(0,/0,5))^ Resultat = 9.7 t095. ( ) Da < 30 løses u ligige 9. 7 0 u 095. Resultatet 9.7 abriges i celle A I celle B skrives som startværdi for tallet 9. I celle C skrives =A*(TINV(0,0;B-)/NORMINV(0,95;0;))^-B 003: Fuktioer Målsøgig 007: Data Hvad-hvis aalyse Målsøgig I Agiv celle skrives C. I Til Værdi skrives 0. Ved ædrig af celle skrives B Resultat: I celle Bstår,853 dvs. = 57
Hypotesetestig ( ormalfordelt variabel) 6.4. OVERSIGT over cetrale formler i kapitel 6 X atages ormalfordelt (, ).Givet stikprøve af størrelse med geemsit x og spredig s Sigifikasiveau:. 0 er e give kostat Oversigt over test af middelværdi T er e stokastisk variabel der er t - fordelt med f = -. Y er e stokastisk variabel, der er ormalfordelt ( 0, Forudsætiger ukedt. ( x ) t 0 s kedt eksakt. Alterativ hypotese H P - værdi Beregig H 0 forkastes H: 0 PT ( t) TI89+TI-Nspire: tcdf (, t, ) eller : t-test P - værdi Excel:tfordelig(t,-,) H: 0 PT ( t) TI89+TI-Nspire: tcdf (, t, ) eller t-test Excel:-tfordelig(t,-,) H: 0 PT ( t) for x som række 0 som række PT ( t) for x 0 H: 0 PY ( x) TI89+TI-Nspire : ormcdf x (,, 0, ) eller Z-test Excel:-ormfordelig x H: 0 PY ( x) H:, 0, eller ztest TI89+TI-Nspire : ormcdf x,, 0, eller Z-test Excel:ormfordelig x,, eller ztest 0 PY ( x) for x 0 som række som række PY ( x) for x 0 0 P - værdi < dog hvis t-test P - værdi P - værdi P - værdi < dog hvis Z-test avedes P - værdi 58
6.4 Oversigt Dimesioerig 0 er de midste ædrig i der har praktisk iteresse. =P(type I fejl), = P(type II fejl) Forudsætig Hypotese Formel Beregig kedt eksakt Esidet z z TI89+TI-Nspire: ((ivnorm(- )+ivnorm(- ))/( / ))^ Excel: =((NORMINV(- ;0;)+NORMINV(- ;0;))/ ( / ))^ Tosidet z z TI89+TI-Nspire: ((ivnorm(- /)+ivnorm(- ))/( / ))^ Excel: =((NORMINV(- /;0;)+NORMINV(- ;0;))/ ( / ))^ er ukedt, me erstattes i formlere af det bedste estimat eller gæt for spredige. Esidet Løse ligig, se eksempel 6.0 Tosidet z z t ( ) u z z t ( ) Løse ligig, se eksempel 6.0 u 59
Hypotesetestig ( ormalfordelt variabel) Oversigt over test af varias Q er fordelt med f = -. er e give kostat 0 Forudsætig ukedt ( ) s 0 Alterativ hypotese H H: 0 H: 0 PQ ( ) PQ ( ) P - værdi Beregig H 0 forkastes TI89+TI-Nspire: chicdf (,, ) Excel: se eksempel 6.7 TI89+TI-Nspire: chicdf (,, ) P-værdi< H: 0 PQ ( ) for PQ ( ) for som række som række P-værdi< kedt ( ) s ( x ) 0 H: 0 H: 0 PQ ( ) PQ ( ) TI89+TI-Nspire: chicdf (,, ) Excel: se eksempel 6.7 P-værdi< TI89+TI-Nspire : chicdf (,, ) H: 0 PQ ( ) for PQ ( ) for som række som række P-værdi< 60
Opgaver til kapitel 6 OPGAVER Opgave 6. Et levedsmiddel ( cored beef ) forhadles i pakker på 00 g. Ved fabrikatioe tilsættes traditioelt et koserverigsmiddel B (itrit). Da ma har mistake om, at B avedt i større mægder ka have uøskede bivirkiger, må der højst tilsættes.5 mg B pr. 00 g. Fabrikate reklamerer med, at der i middel højst er mg B pr. pakke. E kokurret tvivler herpå, og vil teste påstade. Der købes i forskellige butikker i alt 36 pakker, og idholdet af B blev målt. Ma fadt et geemsit af B på. Ka ma ud fra disse data bevise på sigifikasiveau x =.0 mg med et estimat på spredige på s = 0.30 mg = 0.0, at reklame lyver. Opgave 6. Et flyselskab overvejer at lukke e flyrute, såfremt = middelværdie af atal solgte pladser pr. afgag er uder 60. På de sidste = 00 afgage er der i geemsit solgt x = 58.0 pladser med e stadardafvi- gelse på s =.0 pladser. ) Ka ma ud fra disse data bevise på sigifikasiveau = 0.05, at der i middel er solgt uder 60 pladser pr. afgag? (Husk at aføre: Hvad X er. Atagelser. Nulhypotese. Beregiger. Koklusio.). ) Agiv et estimat ~ for middelværdie. 3) Forudsat, at ma i spørgsmål ka bevise, at der er solgt uder 60 pladser, skal der agives et 95% kofidesiterval for middelværdie. Opgave 6.3 E fabrikatio er baseret på e kemisk reaktio, hvor processe forudsætter tilstedeværelse af e katalysator. Med de hidtil beyttede katalysatortype C udyttes i middel ku ca. 70% af de dyreste råvare. Firmaet overvejer at gå over til e mere effektiv katalysatortype C ved produktioe. Omlægig hertil vil imidlertid kræve betydelige etablerigsomkostiger, hvorfor firmaet ku vil lægge produktioe om, såfremt i middel midst 80% af de dyreste råvare udyttes, år C beyttes. Til vurderig heraf foretoges e række forsøg med beyttelse af C. Følgede udyttelsesproceter fadtes: 68.3 87.7 80.0 84. 84.0 83.6 76.4 79.9 89.3 75.8 96. 88.0 79.8 83.7 84.4 95.5 84. 9. 9.4 83.9 ) Lad X = udyttelsesprocete år C beyttes. Bereg estimater x og s for middelværdi E(X) og spredig ( X ). ) Vurder, om de opåede forsøgsresultater ka opfattes som et eksperimetelt bevis for, at i middel over 80% af de dyreste råvare udyttes, år C beyttes. 3) Forudsat, at ma i spørgsmål ka bevise, at i middel over 80% udyttes. Skal opstilles et (tosidet) 95% kofidesiterval for E(X). Vi atager i det følgede, at X (approksimativt) er ormalfordelt xs (, ). 4) Bereg sadsylighede for, at udyttelsesprocete X (for e ekelt målig) er midre ed 80%, år C beyttes. 6
Hypotesetestig ( ormalfordelt variabel) Opgave 6.4 Et kemikalium fremstilles idustrielt ved iddampig af e bestemt opløsig. Det var vigtigt, at dee opløsig var svagt basisk med ph = 8.0. Ma foretog derfor kotrolmæssigt ogle ph-bestemmelser for de beyttede opløsig. Følgede værdier fadtes: 8. 8.3 7.9 8. 7.8 8.6 8.9 7.8 8. a) Foretag e testig af om opløsige ka atages at opfylde kravet til ph-værdi b) Forudsat, at ma i spørgsmål a ka bevise, at opløsige ikke opfylder kravet, skal opstilles et 95% kofidesiterval for ph-værdie. Opgave 6.5 Ma frygter, at de såkaldte syrereg er årsag til, at e bestemt skov er stærkt medtaget. Ma måler SO - kocetratioe forskellige steder i skovbude (i g/m 3 ) og fider: 3.7 3.9.7 8.6 7.6 35. 4. 36.5 3.4 4.8 34.3 30.0 I ubeskadede skove er SO - kocetratioe 0 g/m 3. a) Giver forsøgee et bevis for, at middelkocetratioe af SO i de beskadigede skov er større ed ormalt? b) Forudsat, at ma i spørgsmål a ka bevise, at middelkocetratioe af SO i de beskadigede skov er større ed ormalt, skal ma agive et tosidet 95%-kofidesiterval for SO - kocetratioe. Opgave 6.6 Et yt måleapparat påstås at give måleresultater med spredige =.8 mg/l ved målig af salt-idholdet i e opløsig. Da dette er midre ed det sædvalige, køber et laboratorium et eksemplar af apparatet for at kotrollere påstade. Der foretages 5 måliger med følgede resultater: 3.4 7.7 6.0 8. 8.4.7 4.9.. 5.4 3.5.5 5. 4. 3.9 Test på basis af disse resultater, om spredige afviger fra.8 mg/l. (Husk altid at aføre: Hvad X er. Atagelser. Nulhypotese. Beregiger. Koklusio.). Opgave 6.7 E medicialvarefabrik overvejer at idføre e y aalysemetode. Det formodes, at spredige er midre ed.0 mg/l. Ma ved, at de ye metode er ude systematiske fejl. Der fremstilles ved afvejig et præparat med øjagtig 40.5 mg/l, dvs. middelværdie er kedt. Følgede måleresultater (i mg/l) fides med de ye metode: 4.8 39.3 4. 40.9 40. 40.7 40.6 40.0 4.5 ) Bekræfter de foretage observatioer forhådsformodige om spredige. (Husk altid at aføre: Hvad X er. Atagelser. Nulhypotese. Beregiger. Koklusio.). ) Agiv et estimat for spredige. 3) Agiv et 95% kofidesiterval for spredige. 6
Opgaver til kapitel 6 Opgave 6.8 Ved idkøbet af et yt måleapparat oplystes det, at apparatet målte med e spredig på.8 eheder. Efter at have brugt apparatet et stykke tid ærede købere mistake om, at apparatet målte med større spredig ed oplyst. For at få spørgsmålet udersøgt lod købere e bestemt målig udføre et atal gage. Følgede resultater fadtes: 8.8 5.5. 4.8 4.80.0.43 9.60.39.7 5.60.7.35 8.70.3.40.0.65.9.4.46.59.54.0.80 Hvilke koklusioer ka købere drage ud fra e statistisk aalyse af de fude forsøgsresultater? Opgave 6.9 E sukkerfabrik leverer sukkeret i kg-poser og kg-poser. Vægte af de fyldte poser varierer. ) For kg-poseres vedkommede atages vægte at have e middelværdi på 000 gram. E række forsøg har vist, at sadsylighede for, at e tilfældig udtaget kg-pose vejer mere ed 05 gram, er 0%. Giv på det grudlag e vurderig af spredige. ) For kg-poseres vedkommede bør middelværdie være 00 gram, og spredige må ikke overstige 5 gram. For at kotrollere, om e y pakkemaskie overholder disse ormer, udtages tilfældigt 00 pakker af dee maskies produktio. Geemsittet bereges til x = 008 gram, og et estimat for spredige til s = 5 gram. Det formodes på forhåd, at de ye maskie overholder de oveævte ormer. Foretag e statistisk vurderig af, om dette ka atages at være tilfældet. Opgave 6.0 Uder produktioe forekommer bladt e fabriks affaldsprodukter,5 mg/l af et stof A, som i større mægder ka være kræftfremkaldede. Ma håber ved e y og mere kostbar metode, at formidske idholdet af det pågældede stof. ) Ide ma lavede forsøgee, foretog ma e dimesioerig. Hvis formidskelse er uder 0. mg/l, er det ikke rimeligt at gå over til de ye metode. Ma øsker derfor at fide det midste atal måliger, der skal idgå i udersøgelse, for at ma ved e ædrig i idholdet af A på = 0. mg/l højst har, at P (type II fejl) = = 0%. Ma har e begrudet formodig om, at spredige i resultatere højst ka være 0. mg/l ( = 0.05 ). ) Ved e række kotrolmåliger efter tilsætig af additivet fadtes følgede resultater (i mg/l)..47.35.7.7.6.83.0.39.5.44.4 Test på 5% iveau, om måligere beviser, at der er sket e formidskelse af middelidholdet af stoffet A. (Husk altid at aføre: Hvad X er. Atagelser. Nulhypotese. Beregiger. Koklusio.). 3) Er det på basis af resultatere muligt at vurdere, om de fude formidskelse er stor ok til, at ma vil gå over til de ye metode? 63
Hypotesetestig ( ormalfordelt variabel) Opgave 6. På et kraftvarmeværk meer ma, at e y metode vil kue formidske svovlidholdet i de slagger, der bliver tilbage efter kulfyrige. Med e bestemt kvalitet kul, har det hidtidige svovlidhold været.70 %. For at vurdere de ye metode øsker igeiøre at foretage e række forsøg. ) Hvor mage forsøg skal der midst foretages, hvis = 5%, = 0%, = 0.04 og et overslag over sprediges størrelse sætter de til højst 0.08%. ) Uaset resultatet af dimesioerige i spørgsmål ), er der ku praktiske muligheder for at lave 6 forsøg. Følgede værdier af svovlidholdet fadtes (%)..58.64.80.50.5.69.60.73.6.6.65.58.70.67.6.64 Test om disse måleresultater beviser, at svovlidholdet ved de ye metode i middel er blevet midre. 3) Er det på basis af resultatere muligt at vurdere, om de fude formidskelse er stor ok til, at ma vil gå over til de ye metode? Opgave 6. På pakke af e iscreme står, at portioe ideholder 4 gram fedt. For at kotrollere dette købes pakker is, og fedtidholdet måles. ) Bestem de ødvedige stikprøvestørrelse, for at ma ved e forskel i fedtidhold på = 0.50 gram højst har, at P (type I fejl) = = 0.0 og P (type II fejl) = = 0.05. ( 04. gram). ) Ma fider et geemsit på 3. gram og et estimat s for spredige på 0.4 gram. Ka ma ud fra disse data bevise på sigifikasiveau = 0.0, at middelidholdet afviger fra 4 gram? (Husk altid at aføre: Hvad X er. Atagelser. Nulhypotese. Beregiger. Koklusio.). ) Agiv et estimat for middelidholdet. 3) Forudsat, at ma i spørgsmål ka bevise, at middelidholdet afviger fra 4 gram, skal agives et 95% kofidesiterval for middelidholdet. 64
7. Idledig 7. HYPOTESETEST TO NORMALFORDELTE VARIABLE 7. INDLEDNING I dette kapitel beyttes følgede eksempel til at forklare problemstillig, metode osv. Eksempel 7.. Sammeligig af ormalfordelte variable To produktiosmetoder M og M øskes sammeliget. Der udvælges tilfældigt 0 persoer, hvoraf de 0 bliver sat til at arbejde med de ee metode, og de 0 adre med de ade. Efter ugers forløb, beregede ma for hver perso det geemsitlige tidsforbrug pr. ehed. Da metode er mere kostbar ed metode, øsker ma ku at gå over til de, hvis tidsforbruget pr. ehed ved metode er midst miutter midre ed ved metode. Ma fik følgede resultater. M 87.8 9.9 89.8 89.0 9.6 89.4 9.4 88.7 90. 9.4 M 9.4 94.6 93.0 94.0 9.4 9.9 96.4 9. 9.8 94.6 For at forsøgsresultatere skal være statistisk gyldige, skal måligere være uafhægige og repræsetative for det ma skal udersøge. Det er således ikke korrekt, hvis ma i eksempel 7. først udtager 0 persoer, foretager måligere, laver e test, opdager ma ikke ka vise at metode giver miutters lavere tidsforbrug, udtager yderligere 0 persoer, tester på de samlede fremkome tal, osv. idtil ma opår de øskede sigifikas. Forsøg bør udføres så der er lige mage getagelser. Det er klart, at det ville være forkert, at udtage persoer til at arbejde med metode M og 8 persoer til at arbejde med metode M. Hvis e af persoere bliver syg uder arbejdet, så der ku er 9 på det ee hold, ødelægger det dog ikke teste. Ved sammeligig af ormalfordelte variable er der afhægigt af hvorda stikprøve er idsamlet valg mellem metoder. Er stikprøvere for de to variable som i eksempel 7. idsamlet uafhægigt af hiade beyttes sædvaligvis de i appedix 7. agive metode. Er observatioere idsamlet parvist skal ma beytte de i eksempel 7.3 agive metode. 65
7. Hypotesetest variable 7.. SAMMENLIGNING AF NORMALFORDELTE VARIABLE Eksempel 7.. Sammeligig af ormalfordelte variable To produktiosmetoder M og M øskes sammeliget. Der udvælges tilfældigt 0 persoer, hvoraf de 0 bliver sat til at arbejde med de ee metode, og de 0 adre med de ade. Efter ugers forløb, beregede ma for hver perso det geemsitlige tidsforbrug pr. ehed. Da metode er mere kostbar ed metode, øsker ma ku at gå over til de, hvis tidsforbruget pr. ehed ved metode er midst miutter midre ed ved metode. Ma fik følgede resultater. M 87.8 9.9 89.8 89.0 9.6 89.4 9.4 88.7 90. 9.4 M 9.4 94.6 93.0 94.0 9.4 9.9 96.4 9. 9.8 94.6 ) Udersøg på basis af disse resultater, om det på et sigifikasiveau på 5% ka påvises at tidsforbruget ved metode M er miutter midre ed ved metode M ) Hvis dette ka påvises, skal der agives et 95% kofidesiterval for differese i tidsforbrug. Løsig: ) Lad X = udbyttet ved avedelse af metode M og X = udbyttet ved avedelse af metode M. X og X atages approksimativt ormalfordelte med middelværdi og spredig heholdsvis µ, σ og µ, σ. H 0 : µ µ = H: µ µ > Begrudelse: Nulhypotese udtrykker jo, at itet er ædret (ul virkig), så de agiver, at differese i middeltidsforbruget er præcist. Begrudelse: De alterative metode udtrykker jo det vi øsker at bevise, så de agiver, at differese i middeltidsforbruget er større ed. Såvel TI89 som Excel aveder et færdigt program, der aveder e testmetode (Satterthwaites metode), som er robust overfor midre afvigelser fra kravet om ormalitet, år blot atallet af getagelser er (æste) de samme. Er det ikke tilfældet ka ma stadig foretage teste, me så stilles der større krav til, at de variable X og X virkelig er ormalfordelte. Formle for Satterthwaites metode ka fides i oversigt 7.3. Når regemidlere avedes, omskrives hypotesere til H 0 TI89: APPS, STAT/LIST, idtast data i list og list F6, 4: - SampTtest ENTER I de fremkome meu vælg Data ok : µ + = µ H: µ + < µ µ < µ I meu for list " skrives list+, for alterative Hyp og pooled til NO OK Ma får P-værdi = 0.0464. TI-Nspire: Lister og regeark Udfyld lister med overskrift m og m Statistik statistiske tests t-iterval for variable meu:data ok meu: List: beyt pil til at vælge m" og skriv + List : Vælg m" alterative Hyp µ < µ samlet: ej ok Excel: Tallee for metode idtastes i A til A0 Tallee for metode idtastes i B til B0 I C til C0 idsættes tallee fra A-koloe + (Skriv i C =A+, og kopiere resultat ed) På værktøjsliie forove: Tryk på f x Vælg kategorie Statistisk Vælg TTEST Tabel udfyldes: =TTEST(C:C0;B:B0;;3) P-værdi= 0,0464 Da P-værdi =4.64% < 5% forkastes H 0, dvs. vi har bevist, at tidsforbruget ved metode M er miutter midre ed ved metode M. 66
7. Sammeligig af ormalfordelte variable ) 95% Kofidesiterval for differes TI89: F7, 4: - SampTit ENTER I de fremkome meu vælg Data ok I meu for list " skrives blot list, osv. poole til No OK Differese er 3. og 95% kofidesiterval for differese er [.77 ; 4.64] TI-Nspire: Lister og regeark Udfyld lister med overskrift m og m Statistik kofidesitervaller t-iterval for variable meu:data ok meu: List: beyt pil til at vælge m" List : Vælg m" samlet: ej ok Excel: Excel har itet program til beregig af kofidesiterval, så ma må beytte formle s s µ µ : x x t f c x x t f c, hvor 0, 975 ( ) µ µ + 0, 975 ( ) c = + c og frihedsgradstallet f er det ærmeste hele tal der er større ed g = s s + A B C D E 87.8 9.4 xa streg= MIDDEL(A:A0) 90,3 9.9 94.6 xb streg= MIDDEL(B:B0) 93,5 3 98.8 93 va= VARIANS(A:A0),785444 4 89 94 VB= VARIANS(B:B0),839556 5 9.6 9.4 = 0 6 89.4 9.9 = 0 7 9.4 96.4 c= E3/E5+E4/E6 0,465 8 88.7 9. f= AFRUND.LOFT(E7^/((E3/E5)^/(E5-)+(E4/E6)^/(E6-));) 8 9 90. 9.8 Differes E-E 3, 0 9.4 94.6 Nedre græse E-E-TINV(0,05;E8) * KVROD(E3/E5+E4/E6),789 Øvre græse E-E+TINV(0,05;E8) * KVROD(E3/E5+E4/E6) 4,63878 Differese er 3. og 95% kofidesiterval for differese er [.77 ; 4.64] Gemmes oveståede excelfil, ka ma u hurtigt fide kofidesiterval for adre data. Eksempel 7.. Sammeligig af ormalfordelte variable (opridelige data ikke givet) Et luftfartsselskab A hævder, at dets fly til USA i geemsit afgår mere præcist ed et kokurrerede luftfartsselskab. E forbrugergruppe udersøger dee påstad ved i e give periode at bestemme forsikelsere for samtlige flyafgage til USA for hver af de to selskaber. Ma fadt følgede tal: Luftfartsselskab Atal afgage x s A 00 55 miutter 30 miutter B 80 60 miutter 35 miutter Støtter udersøgelse luftfartsselskab A's påstad? 67
7. Hypotesetest variable Løsig: X A = forsikelse i miutter for luftfartselskab A. X B =forsikelse i miutter for luftfartselskab B. X A og X B atages approksimativt ormalfordelte med middelværdi og spredig heholdsvis µ og µ B, σ B. Da vi øsker at vise, at A er mere præcise ed B, så haves: H0: µ A = µ B H: µ A < µ B TI89 t - test: APPS STAT/LIST F6, 4 - SampTtest ENTER I de fremkome meu vælg STATS OK (da opridelige data ikke er kedt) Meue udfyldes bl.a. alterative Hyp µ < µ og poole til No OK P-værdi = 0.56 Koklusio: Da P-værdi > 0.05 accepteres H 0, dvs. vi ka ikke vise, at A er mere præcis ed B. TI-Nspire: Lister og regeark Statistik Statistiske test t-iterval for variable meu:statistik ok udfyld meu alterative Hyp µ < µ samlet: ej ok Excel har itet program til beregig af P-værdi, så ma må beytte formle fra oversigt 7.3 x x d s s t =, hvor c = + P-værdi = P(T < t) c og frihedsgradstallet f er det ærmeste hele tal der er større ed g c = s s + A B C D E Eksempel 7. 3 XA =forsikelse for luftfartselskab A XA er ormalfordelt med middelværdi µa 4 XB =forsikelse for luftfartselskab A XB er ormalfordelt med middelværdi µb 5 H0: µa =µb H: µa < µb 6 Data Beregig 7 A = 00 a= B9^/B7 9 8 x-streg-a= 55 b= B^/B0 5,35 9 sa = 30 c= E7+E8 4,35 0 B = 80 t= (B8-B-B3)/KVROD(E9) -,0404 x-streg-b= 60 g= E9^/(E7^/(B7-)+E8^/(B0-)) 56,94 sb = 35 f = RUND.OP(E;0) 57 3 d= 0 P-værdi= TFORDELING(ABS(E0);E;) 0,5606 4 Koklusio: Da p -værdi > 0.05 accepteres H0, dvs. 5 det ka ikke på dette grudlag vises, at A er mere præcis ed B A, σ A 68
7. Sammeligig af ormalfordelte variable Parvise observatioer Parvise observatioer (Matched pairs samples) ka avedes, hvis det har meig at samme lige observatioere to og to (i par) Som et eksempel herpå vil vi ige betragte problemstillige i eksempel 7., me u atage, at forsøget er foretaget på e ade måde. Eksempel 7.3. Parvise observatioer To produktiosmetoder M og M øskes sammeliget. Der udvælges tilfældigt 0 persoer. Efter lodtrækig bliver 5 persoer sat til først i uger, at arbejde med produktiosmetode M og derefter i de æste uger med produktiosmetode M. De øvrige 5 persoer arbejder omvedt først med metode M og derefter med metode M. Efter ugers forløb, beregede ma for hver perso det geemsitlige tidsforbrug pr. ehed. Da metode er mere kostbar ed metode, øsker ma ku at gå over til de, hvis tidsforbruget pr. ehed ved metode er midst miutter midre ed ved metode. Ma fik følgede resultater. Perso r. 3 4 5 6 7 8 9 0 M 87.8 9.9 89.8 89.0 9.6 89.4 9.4 88.7 90. 9.4 M 9.4 94.6 93.0 94.0 9.4 9.9 96.4 9. 9.8 94.6 ) Udersøg på basis af disse resultater, om det på et sigifikasiveau på 5% ka påvises at tidsforbruget ved metode M er miutter midre ed ved metode M ) Agiv edvidere et 95% kofidesiterval for differese mellem de to middeludbytter. Forklarig på metode: Da e forsøgsperso ka være hurtig og e ade lagsom (perso er således hurtigere ed perso ) ka spredige på M og M være så stor, at ma itet ka vise. Hvis ma i stedet tager differesere M - M vil disse forskelle jo udjæves, da perso jo er hurtig uder arbejdet med begge metoder, mes perso er lagsom ved begge. Perso r. 3 4 5 6 7 8 9 0 M 87.8 9.9 89.8 89.0 9.6 89.4 9.4 88.7 90, 9,4 M 9.4 94.6 93.0 94.0 9.4 9.9 96.4 9. 9,8 94,6 D = M - M 4.6.7 3. 5-0. 3.5 5 3.4,7, I stedet for at beytte metode i eksempel 7. ka vi u teste ulhypotese H : D = mod H: D > ved metode i eksempel 6. (e variabel) 0 Løsig: ) D = forskelle i tidsforbruget ved metode M og metode M D atages approksimativt ormalfordelt med middelværdi µ og spredig σ. H 0 : D = H: D > TI89:Data idtastes (de samme som i eksempel 7.) APPS STAT/LIST data idtastes i list og list Cursor på list 3 list - list Eter F6 t-test meu udfyldes P-værdi = 0.078 TI-Nspire: Lister og regeark Udfyld lister med overskrift m og m y liste beæves m3 i celle lige uder højre musetast :tryk gage og skriv m - m ENTER vælg på meu variabelreferece Statistik t-iterval for variabel meu:data ok meu udfyldes med m3 ok 69
7. Hypotesetest variable Excel Tallee for metode idtastes i A til A0 Tallee for metode idtastes i B til B0 I C til C0 idsættes tallee fra A-koloe + (Skriv i C =A+, og kopiere resultat ed) På værktøjsliie forove: Tryk på f x Vælg kategorie Statistisk Vælg TTEST Tabel udfyldes: =TTEST(C:C0;B:B0;;) (bemærk for parvis) P-værdi= 0,07836 Koklusio: Da P-værdi < 0.05 forkastes H 0, dvs. M er sigifikat miutter lavere ed M, dvs. ma vil gå over til at beytte metode M ) Kofidesiterval for differes: TI89:F6 t-iterval meu udfyldes Differes =.3 KONFIDENSINTERVAL [.0 ; 4.3 ] TI-Nspire: Beregiger Statistik Kofidesitervaller t-iterval for variabel meu:statisk udfyld meu bl.a. med m3 ENTER Excel: Daer e koloe D til D0 med differesere mellem A og B koloer. På værktøjsliie forove: Tryk på f x Vælg kategorie Statistisk Middel Excel: 003: Fuktioer 007: Data derefter Dataaalyse Beskrivede statistik udfyld iputområde vælg kofidesiveau Resultat x streg 3, Kofidesiveau(95,0%),0896985 edre græse,0 øvre græse 4,390 70
7.3 OVERSIGT over cetrale formler i kapitel 7 µ og µ µ µ Oversigt. Test af middelværdier og kofidesiterval for differes for ormalfordelte variable. X og X atages ormalfordelte heholdsvis ( µ, σ ) og ( µ, σ ). Givet stikprøver af X og X. Størrelse, geemsit og spredig heholdsvis,, s og,, s. Sigifikasiveau er α Lad d være e give kostat. s s c Forkortelser: a =, b =, c = a + b, g = a b + T er t - fordelt med frihedsgradstallet f. x x Forudsætiger σ, σ ukedte x x d t = c f er det ærmeste hele tal, som er større ed g Alterativ hypotese H µ > µ + d P( T t) µ < µ + d P( T t) P - værdi Beregig H 0 forkastes TI89+TI-Nspire: tcdf ( t,, f ) el. F6: -sampttest,pooled, No Excel:TTEST(se eksempel 7.) TI89+TI-Nspire: tcdf (, t, f ) µ µ + d P( T t) for x > x + d P( T t) for x < x + d el. F6: -sampttest,pooled, No Excel:TTEST(se eksempel 7.) som række som række α µ µ 00 ( )% kofidesiterval for differes : x x t ( f ) c µ µ x x + t ( f ) c α α TI89: F7, -SampTit Excel: Formel beyttes: se eksempel 7. P - værdi<α P - værdi < α dog hvis Ttest P - værdi<α x = x x d σ σ Forkortelser: Y er ormalfordelt σ = + ( µ, σ ) Forudsætiger Alterativ hypotese H P - værdi Beregig H 0 forkastes σ, σ kedte µ > µ + d P( Y x) TI89: ormcdf ( x,, µ, σ ) eller F6: -sampztest Excel: -ormfordelig( x, µ, σ ) µ < µ + d P( Y x) TI89: ormcdf (, x, µ, σ) eller F6: -sampztest Excel: ZTEST µ µ + d P( Y x) for x > x + d P( Y x) for x < x + d som række som række α µ µ 00 ( )% kofidesiterval for differes : x x z σ µ µ x x + z σ α α P - værdi<α P - værdi < α dog hvis Ztest P - værdi<α TI89: F7, -SampZit Excel: Formel beyttes: 7
7. Hypotesetest variable OPGAVER Opgave 7. Det påstås at modstade i e tråd af type A er større ed modstade i e tråd af type B. Til afklarig af dee påstad udtages tilfældigt 6 tråde af hver type og deres modstade måles. Følgede resultater fadtes: Modstad i tråd A (i ohm) 0.40 0.38 0.43 0.4 0.44 0.37 Modstad i tråd B (i ohm) 0.35 0.40 0.4 0.36 0.38 0.40 Hvilke koklusioer ka drages med hesy til påstade? Opgave 7. Et levedsmiddelfirma havde udviklet e diæt, som har lavt idhold af fedt, kulhydrater og kolesterol. Diæte er udviklet med heblik på patieter med hjerteproblemer, me firmaet øsker u at udersøge diætes virkig på folk med vægtproblemer. To stikprøver på hver 00 persoer med vægtproblemer blev udtaget tilfældigt. Gruppe A fik de ye diæt, mes gruppe B fik de diæt, ma ormalt gav. For hver perso blev registreret størrelse af vægttabet i e 3 ugers periode. Ma fadt følgede værdier for geemsit og spredig: Gruppe A: x A = 9. 3 kg, s A = 4. 67 Gruppe B: x B = 7. 40 kg, s B = 4. 04. ) Udersøg om vægttabet for gruppe A er sigifikat større ed for gruppe B. Sigifikasiveau α = 5%. ) I tilfælde af sigifikas bereg da et 95% kofidesiterval for differese mellem de to gruppers middelværdier. Opgave 7.3 I et laboratorium foretoges 5 uafhægige bestemmelser af furfurols kogepukt, idet 8 af bestemmelsere foretoges af é kemiigeiør, de resterede bestemmelser af e ade kemiigeiør. Resultatere var ( 0 C ) :. igeiør 6. 6.3 6.9 6. 63.4 6.4 6.5 6.0. igeiør 63.3 6.6 6.8 63.8 63.0 63. 64. Udersøg, om de to igeiørers resultater i middel er es. Opgave 7.4 På et laboratorium udersøgtes filtrerigstide for e opløsig af et bestemt gødigsstof ved beyttelse af to forskellige filtertyper (F ) og (F ). Følgede stikprøveværdier observeredes: (F ) 8 0 3 3 9 4 0 (F ) 9 0 0 7 9 7 Det atages, at filtrerigstidere X og X er ormalfordelte ( µ, σ ) og ( µ, σ ) Test om det ka atages, at filtrerigstidere i middel er forskellige. 7
Opgaver til kapitel 7 Opgave 7.5 E produktio af plastikvarer må omlægges på grud af bestemmelser i e y miljølov. Ved de fremtidige produktio ka ide for miljøloves rammer vælges mellem pro- duktiosmetoder I og II. Metode I er de dyreste, og fabrikate har reget ud, at det (ku) ka betale sig at beytte metode I, såfremt de giver et middeludbytte, som er midst 0 måleeheder (udbytteproceter) større ed udbyttet ved beyttelse af metode II. Ved et fuldstædigt radomiseret forsøg fadtes følgede måleresultater: Metode I 35. 38. 37.6 37.6 34.9 37.9 36.5 40.0 36. 37.4 37. 37.9 Metode II 6.. 4.3 4.5.0 7.6 3.8.8 3.4 0.8 Fabrikate valgte herefter at beytte metode I. a) Foretag e udersøgelse af, om valget var statistisk velmotiveret. b) Hvis forslaget er velmotiveret skal der opstilles et 95% - kofidesiterval for differese mellem middeludbyttere ved beyttelse af metodere l og II. Opgave 7.6 To sjælladske fabrikker producerer begge e bestemt type kvægfoder, for hvilke det øskes, at proteiidholdet i færdigvare skal være 6%. På de fabrikkers driftslaboratorier foretoges følgede måliger af proteiidholdet i e uges produktio: Fabrik 7.3 6. 6.9 4.8 6. 5.7 6.5 Fabrik 6.0 6.7 5.6 6. 6. 5.5 6.0 6. 6. 5.9 Foretag e statistisk vurderig af, om de to produktioer ka atages i middel at give kvægfoder med samme proteiidhold. Opgave 7.7 Målig af itelligeskvotiet på 6 tilfældigt udvalgte studerede ved e diplom-retig (med mere ed 00 studerede) viste et geemsit på x = 07 og e empirisk varias på s =00, medes e tilsvarede målig på 4 tilfældigt udvalgte studerede fra e ade diplomretig viste et geemsit på x = og e empirisk varias på s = 64. Tyder disse tal på e forskel på studetermaterialet på de to retiger? Opgave 7.8 Et bestemt medikamet øskes testet for dets effekt på blodtrykket. mæd fik deres blodtryk målt før og efter idtagelse af medikametet. Resultatere var: mad r 3 4 5 6 7 8 9 0 Før 0 4 30 8 40 8 40 35 6 30 6 7 Efter 8 3 3 7 3 5 4 37 8 3 9 35 Udfør e testig af, om disse tal tyder på, at medikametet påvirker blodtrykket. 73
7. Hypotesetest variable Opgave 7.9 Et diætprodukt påstår i e reklame, at brug af produktet i e måed vil resultere i et vægttab på 3 kg. E forbrugerorgaisatio øsker at teste dee påstad, dvs. om vægttabet er etop 3 kg 8 persoer bruger produktet i e måed, og resultatet fremgår af edeståede tabel: Perso r 3 4 5 6 7 8 Startvægt 8 0 98 99 78 7 75 93 Slutvægt 79 95 95 97 73 69 7 89 ) Udersøg på grudlag af disse tal, om det på basis af disse tal på et sigifikasiveau på 5% ka vises, at reklames påstad er fejlagtig, dvs. om vægttabet afviger sigifikat fra 3 kg? ) Opstil et 95% tosidet kofidesiterval for middelværdie af vægttabet, og giv på grudlag heraf e vurderig af virkige af diætproduktet. Opgave 7.0 (parvise observatioer). E producet af malervarer har laboratorieresultater, der tyder på, at e y lak A, har e større slidstyrke ed de sædvalige lak B. Ha øsker e afprøvig i praksis og aftaler med ejere af 6 bygiger med mage trapper, at ha må lakere deres trapper. Efter 3 måeders forløb måles grade af slid (i %) i hver bygig. ) Agiv hvorledes du ville foretage forsøget. ) De målte værdier af slid efter valg af pla var Bygig r 3 4 5 6 Ny lak 0.3 5..8 9.6 8.9 3.5 Sædvalig lak 9.5 8.4.6.0 0.9 5.8 Udersøg om observatioere leverer et eksperimetelt bevis for, at de ye lak er mere slidstærk ed de sædvalige lak. 74
8. Regeregler for sadsylighed 8. REGNEREGLER FOR SANDSYNLIGHED, KOMBINATORIK 8. REGNEREGLER FOR SANDSYNLIGHEDER Vi har tidligere omtalt sadsylighed. I dette kapitel omtales ogle af de grudlæggede defiitioer og begreber Det følgede eksempel blive beyttet til illustratio af defiitioer og begreber. Eksempel 8.. Geemgåede eksempel. To skytter Aders og Bria skyder hver ét skud mod e skydeskive. Sadsylighede for at Aders rammer skive er 0.80 mes Bria har e træfsadsylighed på 0,60. Et eksperimet består i at de hver skyder et skud. Lad A være hædelse at Aders rammer skive og lad B være sadsylighede for at Bria rammer skive. Vi har derfor, at P(A) = 0.80 og P(B) = 0.60. Lad os ved at sætte e streg over A forstå ikke A. Geerelt gælder P( A) = - P ( A ) I eksempel 8. er A hædelse at Aders ikke rammer skive. Vi har derfor, at P( A ) = - P(A) = - 0.8 = 0.0 Fællesmægde til A og B beæves A B og er mægde af alle udfald i udfaldsrummet U, der tilhører både A og B (De skraverede mægde i figur 8. ). Eksempelvis er A B i eksempel 8. hædelse, at både Aders og Bria rammer skive Fig 8.. Fællesmægde Foreigsmægde af A og B beæves A B og er mægde af alle udfald i udfaldsrummet U, der ete tilhører A eller B evetuelt dem begge (de skraverede mægde på figur 8. ) Eksempelvis er A B i eksempel 6. de hædelse, at ete rammer Aders eller også rammer Bria skive evetuelt gør de det begge. Ma kue også udtrykke det ved at midst e af dem rammer skive. Fig. 8. Foreigsmægde 75
8. Regeregler for sadsylighed, Kombiatorik Der gælder u følgede sætiger: Additiossætig: P( A B) = P( A) + P( B) P( A B). Sætige fremgår umiddelbart ved at betragte arealere i figur 8.3. P( AU B) P( A) P( B) P AI B ( ) Fig.8.3 Additiossætig Statistisk uafhægighed. To hædelser A og B siges at være statistisk uafhægige, såfremt sadsylighede for, at de ee hædelse idtræffer, ikke afhæger af, om de ade hædelse idtræffer. I eksempel 8. må ma eksempelvis atage, at om Aders rammer skive har ige idflydelse på om Bria rammer, så her må ma atage A og B er uafhægige. Et adet eksempel er kast med e terig. Her vil sadsylighede for at få e sekser i adet kast være uafhægigt af udfaldet i første kast Der gælder følgede sætig: Produktsætig for uafhægige hædelser: For to uafhægige hædelser gælder P( A B) = P( A) P( B) Eksempel 8. (eksempel 8. fortsat) Lad A være hædelse, at Aders rammer skive, og lad B være hædelse, at Bria rammer skive. Det er givet, at P(A) = 0.80 og P(B) = 0.60. Fid sadsylighede for a) At både Aders og Bria rammer skive b) At ete Aders eller Bria (evt. begge) rammer skive, dvs. midst e af dem rammer skive. c) At hverke Aders elle Bria rammer skive Løsig: a) Da hædelsere atages at være uafhægige gælder ifølge produktsætige P( A B) = 08. 0. 6 = 0. 48 b) Ifølge additiossætige gælder P( A B) = 0. 6 + 08. 0. 48 = 0. 9 c) P( A B) = P( A) P( B) = ( 08. )( 0. 6) = 0. 08 76
8. Betiget sadsylighed Produktsætig og additiossætig ka geeraliseres til flere hædelser ed. For tre hædelser A, B og C gælder således P( A B C) = P( A) + P( B) + P( C) P( A B) P( A C) P( B C) I tilfælde af at hædelsere A, B og C er uafhægige gælder således: P( A B C) = P( A) P( B) P( C). Er hædelsere A og B ikke uafhægige, ka ma som beskrevet i afsit.3 udlede e mere geerel produktsætig 8.. Betiget sadsylighed Er hædelsere A og B ikke uafhægige vil P( A B) P( A) P( B) Eksempel 8.3. Ikke uafhægige hædelser E fabrik har erfarig for, at de daglige produktio af glasfigurer ideholder 0 % misfarvede, 0% har ridser, og % af produktioe er både ridsede og misfarvede. Et eksperimet består i tilfældigt at udtage e glasfigur af produktioe. Lad A være hædelse at få e misfarvet og lad B være hædelse at få e ridset. Her er P( A) P( B) = 0. 0. = 0. 0 P( A B) = 0. 0. For at få e mere geerel regel idføres P( B A) som kaldes sadsylighede for, at B idtræffer, år A er idtruffet (de af A betigede sadsylighed for B). For at forklare de følgede defiitio, vil vi simplificere eksempel 8.3, idet vi atager, at de daglige produktio er 00 glasfigurer. I så fald er der 0 misfarvede figurer, 0 ridsede figurer, og figur der er både misfarvet og ridset. Hvis vi begræser vort udfaldsrum til A, så er P( A B) P( B A) = = 00 =. 0 0 P( A) 00 Fig. 8.4 Taleksempel Dee beregig begruder rimelighede i følgede defiitio: De af A betigede sadsylighed for B skrives P( B A) (eller sadsylighede for, at B idtræffer, år A er idtruffet ) P( A B) defieres ved P( B A) =. P( A) Ved multiplikatio fås Produktsætige: P( A B) = P( A) P( B A). Beyttes produktsætige på eksempel 8. fås P( A B) = P( A) P( B A) = 0. 0. = 0. 0. 77
8. Regeregler for sadsylighed, Kombiatorik Eksempel 8.4: Betiget sadsylighed. E beholder ideholder 3 røde og 3 hvide kugler. Vi udtrækker successivt kugler fra ure. Vi betragter følgede hædelser: A: De først udtruke kugle er rød. B: De ade udtruke kugle er rød. Bereg P( A B) hvis ) kugleudtrækige foregår, ved at de først udtruke kugle lægges tilbage før de ade udtrækkes. ) kugleudtrækige foregår, ved at de først udtruke kugle ikke lægges tilbage før de ade udtrækkes. Løsig ) Her er P( B A) = 3 6 og derfor ifølge produktsætige P( A B) = P( A) P( B A) = 4 ) Her er P( B A) = 5 og derfor 3 P( A B) = = 6 5 5 Bayes sætig For to hædelser A og B for hvilke P(A) > 0 gælder P( B) P( A B) Bayes sætig: P( B A) = P( A) Bevis: P( A B) P( B A) P( B) P( A B) Af defiitioe på betiget sadsylighed og produktsætige fås P( B A) = = = P( A) P( A) P( A) Bayes sætig gør, at det er let at omskrive fra de ee betigede sadsylighed til de ade. Dette er tilfældet, hvis de ee af de to betigede sadsyligheder P( B A) og P( A B) er meget lettere at berege ed de ade. Eksempel 8.5 (Bayes sætig) I e officeruddaelse ka ma vælge mellem e tekisk liie og e operativ liie. På e bestemt årgag har 60 % valgt de operative liie og af disse er 0% kvider. På de tekiske liie er 0% kvider. Ved lodtrækig vælges e elev. a) Fid sadsylighede for, at dee er e kvide. Ved oveståede lodtrækig viste det sig at eleve var e kvide. b) Hvad er sadsylighede for, at hu kommer fra de tekiske liie. Løsig: Vi defierer følgede hædelser: T: De udtruke er tekiker K: De udtruke er e kvide. a) P( K) = P( T K) + P( O K) = P( K T) P( T) + P( K O) P( O) = 0. 0. 4 + 0. 0. 6 = 06. = 6% P( K T) P( T) 0. 0. 4 b) Af Bayes sætig fås: P( T K) = = = = 5% P( K) 06. 4 E ade metode ville det være, at atage, at der bliver optaget 00 elever. Vi har så følgede skema Kvider I alt Operativ 60 Tekisk 4 40 Heraf fås umiddelbart 6 4 P( K) = = 6% og P( T K) = = 5% 00 6 78
8.3 Kombiatorik 8.3. Kombiatorik 8.3.. Idledig: Såfremt et udfaldsrum U ideholder udfald som alle er lige sadsylige, vil sadsylighede for hvert udfald være P( u) =. E hædelse A som ideholder a udfald vil da have sadsylighede P( A) =. Dette udtrykkes ofte kort ved at sige, at sadsylighede for A er atal gustige udfald i A divideret med det totale atal udfald i udfaldsrummet. I sådae tilfælde, bliver problemet derfor, hvorledes ma let ka optælle atal udfald. Dette ka ofte gøres ved beyttelse af kombiatorik. 8.3.. Multiplikatiospricippet Multiplikatiospricippet: Lad et valg bestå af delvalg, hvoraf det første valg har valgmuligheder, det æste valg har valgmuligheder,... og det te valg har r r r valgmuligheder. Det samlede atal valgmuligheder er da r r... r a Multiplikatiospricippet illustreres ved følgede eksempel. Eksempel 8.6. Multiplikatiospricippet E mad ejer forskellige jakker, 4 slips og 3 forskellige fabrikater skjorter. På hvor mage forskellige måder ka ha sammesætte si påklædig af skjorte,slips og jakke. Løsig: ) Valg af skjorte giver 3 valgmuligheder ) Valg af slips giver 4 valgmuligheder 3) Valg af jakke giver valgmuligheder Ifølge multiplikatiospricippet giver det i alt 3 4 = 4 Ma kue illustrere løsige ved følgede forgreigsgraf muligheder 79
8. Regeregler for sadsylighed, Kombiatorik Eksempel 8.7 Fakultet På hvor mage måder ka 5 persoer opstilles i e kø (i rækkefølge) Løsig: Pladsere i køe ummereres,,3,4,5. Plads r. i køe besættes 5 valgmuligheder Plads r. i køe besættes 4 valgmuligheder Plads r. 3 i køe besættes 3 valgmuligheder Plads r. 4 i køe besættes valgmuligheder Plads r. 5 i køe besættes valgmulighed I alt 5 4 3 = 0 forskellige rækkefølger. Ved fakultet ( udråbsteg) forstås! = ( ) ( )... Edvidere defieres 0! =. TI89: 5 MATH Probability! 5! = 0 TI-Nspire: 5 Sadsylighedsregig Fakultet ENTER Excel: f x Math/trig FAKULTET(5) 0 8.3.3 Ordet stikprøveudtagelse Lad os tæke os vi har e beholder ideholdede 9 kugler med umree,, 3,..., 9. Vi udtager u e stikprøve på 4 kugler. Det ka ske ) ude tilbagelægig: E kugle er taget op, ummeret oteres, me de lægges ikke tilbage ide ma tager e y kugle op. ) med tilbagelægig: E kugle tages op, ummeret oteres, og derefter lægges kugle tilbage ide ma tager e y kugle op. Ma ka følgelig få de samme kugle op flere gage. Ved e ordet stikprøveudtagelse lægges vægt på de rækkefølge hvori kuglere udtages,. dvs. der er forskel på,,3,5 og 3,,,5 a) Ude tilbagelægig Eksempel 8.8. Ordet ude tilbagelægig I e foreig skal der bladt 0 kadidater vælges e bestyrelse På hvor mage forskellige måder ka ma sammesætte dee bestyrelse, hvis ) Bestyrelse består af e formad og e kasserer Bestyrelse består af e formad, e æstformad, e kasserer og e sekretær. Løsig: ) E formad vælges bladt 0 kadidater 0 valgmuligheder E Kasserer vælges bladt de resterede 9 kadidater 9 valgmuligheder Da der for hvert valg af formad er 9 muligheder for kasserer, følger af multiplikatiospricippet, at det totale atal forskellige bestyrelser er 0 9 = 90. ) Aalogt fås ifølge multiplikatiospricippet at atal forskellige bestyrelser er 0 9 8 7 = 5040 TI89: MATH Probability Pr(0,4). Resultat: = 5040 Excel: f x Statistisk PERMUT(0;4) 5040 Eksempel 8.8 begruder følgede defiitio Permutatioer. Atal måder (rækkefølger eller permutatioer ) som m elemeter ka udtages (ordet og ude tilbagelægig) ud af elemeter er P(, m) = ( ) ( )...( m + ) 80
8.4 Kombiatorik b) Med tilbagelægig Eksempel 8.9. Ordet, med tilbagelægig I e foreig skal 4 tillidshverv fordeles mellem 0 persoer. E perso ka godt have flere tillidshverv. På hvor mage forskellige måder ka disse hverv fordeles.? Løsig: Tillidshverv placeres. 0 valgmuligheder Tillidshverv placeres 0 valgmuligheder Tillidshverv 3 placeres 0 valgmuligheder Tillidshverv 4 placeres 0 valgmuligheder I alt (ifølge multiplikatiospricippet) 0 0 0 0 = 0 4 8.3.4. Uordet stikprøveudtagelse Eksempel 8.0 Uordet ude tilbagelægig E beholder ideholdede 5 kugler med umree k, k, k3, k4, k5 Vi udtager u e stikprøve på 3 kugler ude tilbagelægig. Rækkefølge kugle tages op er ude betydig, dvs. der er ikke forskel på eksempelvis k, k, k og k k k 4 4,, Hvor mage forskellige stikprøver ka forekomme? Løsig: Atallet er ikke flere ed ma ka foretage e simpel optællig: k, k, k, k, k, k k, k, k k, k, k k, k, k k, k, k k, k, k k, k, k k3, k, k { } { }{ }{ }{ }{ }{ }{ }{ } 3 4 5 3 4 3 5 3 4 3 5 4 5 4 5 Atal stikprøver = 0 Det er klart, at re optællig er uoverkommeligt, hvis mægde er stor. Defiitio af kombiatio Lad M være e mægde med elemeter. E kombiatio af r elemeter fra M er et udvalg af r elemeter udtaget af M ude at tage hesy til rækkefølge af elemeter Atallet af kombiatioer med r elemeter beteges K(,r) eller ( over r). r Sætig 8. (Atal kombiatioer).! Atal kombiatioer med r elemeter fra e mægde på elemeter er K(, r) = r! ( r)! Bevis: Beviset kyttes for ekelheds skyld til et taleksempel, som let ka geeraliseres. Lad os atage, vi på tilfældig måde udtager 3 kugler af e kasse, der ideholder 5 kugler med umree k, k, k3, k4, k5. 5! Vi skal u vise, at k( 5, 3) = 3!! Lad os først gå ud fra, at rækkefølge hvori kuglere trækkes er af betydig, Der er altså eksempelvis forskel på k, k3, k4 og k, k, k. Dette ka gøres på P(5,3) = 5 4 3 måder. 3 4 8
8. Regeregler for sadsylighed, Kombiatorik Hvis de 3 kugler udtages, så rækkefølge ikke spiller e rolle, har vi vedtaget, det ka gøres på K(5,3) måder. Lad e af disse måder være k, k3, k4. Disse 3 elemeter ka ordes i rækkefølge på 3! = 3 måder. P( 5, 3) 5 4 3 5 4 3 5! Vi har følgelig, at P( 5, 3) = K( 5, 3) 3! K( 5, 3) = K( 5, 3) = = = 3! 3! 3!! 3!! Eksempel 8.. Atal kombiatioer I e foreig skal der bladt 0 kadidater vælges 4 persoer til e bestyrelse På hvor mage forskellige måder ka ma sammesætte dee bestyrelse? Løsig: Atal måder ma ka sammesætte bestyrelse er 0! 0 9 8 7 K(0,4) = = = 0 3 7 = 0 måder 4! 6! 4! TI89: MATH Probability Cr(0,4). Resultat: = 0 TI-Nspire: Sadsylighedsregig Kombiatioer Cr(0,4) Excel: f x Matematik og trig KOMBIN(0;4) 0 8
Opgaver til kapitel 8 OPGAVER Opgave 8. I e midre by viser e udersøgelse, at 60% af alle husstade holder e lokal avis, mes 30% holder e ladsdækkede avis. Edvidere holder 0% af husstadee begge aviser. Lad e husstad være tilfældig udvalgt, og lad A være de hædelse, at husstade holder e lokal avis, og B de hædelse, at husstade holder e ladsdækkede avis. Bereg sadsylighedere for følgede hædelser. C: Husstade holder begge aviser. D: Husstade holder ku de lokale avis. E: Husstade holder midst é af avisere. F: Husstade holder ige avis G: Husstade holder etop é avis. Opgave 8. ) I figur er vist et elektrisk apparat, som ku fugerer, hvis ete alle kompoeter a, b og c i de øverste ledig eller alle kompoeter a, b og c i de ederste ledig fugerer. Sadsylighede for at hver kompoet fugerer er vist på tegige, og det atages, at sadsylighede for at e kompoet fugerer er uafhægig af om de øvrige kompoeter fugerer. ) Hvad er sadsylighede for at apparatet i figur fugerer. ) I figur er vist et adet elektrisk apparat, som tilsvarede ku fugerer, hvis alle de tre kredsløb I, II og III fugerer, og det er ku tilfældet hvis ete de øverste eller de ederste kompoet fugerer. Hvad er sadsylighede for at apparatet i figur fugerer. 83
8. Regeregler for sadsylighed, Kombiatorik Opgave 8.3 Tre skytter skyder hver ét skud mod e skydeskive. De har træfsadsyligheder 0.75, 0.50 og 0.30. Bereg sadsylighede for ) ige træffere, ) é træffer, 3) to træffere, 4) tre træffere. Opgave 8.4 E terig har form som et regulært polyeder med 0 sideflader. På 4 sideflader er der skrevet, på 8 sideflader er der skrevet 6 mes der er skrevet, 3, 4 og 5 på hver sideflader. Fid sadsylighede for i tre kast med dee terig at få ) tre seksere ) midst é sekser 3) ete tre seksere eller tre eere Opgave 8.5 Fire projektgrupper på e virksomhed atages at have sadsylighedere 0.6, 0.7, 0.8 og 0.9 for at få succes med deres projekt. Gruppere atages at arbejde uafhægigt af hiade. Fid sadsylighede for, at a) alle grupper får succes, b) ige grupper får succes, c) midst gruppe får succes, d) i alt etop gruppe får succes, e) i alt etop 3 grupper får succes, f) i alt etop grupper får succes. Opgave 8.6 E klasse med elever skal uder e øvelse fordeles på 5 grupper. 4 af gruppere skal være på 4 elever, og gruppe skal være på 5 elever. På hvor mage måder ka fordelige af elevere på de 5 grupper foregå? Opgave 8.7 Af e forsamlig på 8 kvider og 4 mæd skal udtages e arbejdsgruppe på 5 persoer. a) Gør rede for, at gruppe ka udvælges på 448 forskellige måder, år det forlages, at de skal bestå af højst 3 kvider og højst 3 mæd. b) Bereg atallet af måder, hvorpå gruppe ka udvælges, år det forlages, at de 5 persoer ikke alle må være af samme kø. Opgave 8.8 a) Bestem det atal måder, hvorpå bogstavere A, B og C ka stilles rækkefølge. b) Samme opgave for A, B, C og D. Opgave 8.9. På et spisekort er opført 6 forretter, 0 hovedretter og 4 desserter. ) Hvor mage forskellige middage beståede ete af forret og hovedret eller af hovedret og dessert ka ma sammesætte. ) Hvor mage forskellige middage beståede af e forret, e hovedret og e dessert ka ma sammesætte. Opgave 8.0 Bestem atallet af 5-cifrede tal, der ka skrives med to l-taller, et - tal og to 3-taller. 84
Opgaver til kapitel 8 Opgave 8. E virksomhed fremstiller e bestemt slags apparater. Hvert apparat er sammesat af 5 kompoeter. Heraf er 3 tilfældigt udvalgt bladt kompoeter af type a og bladt kompoeter af type b. Det vides, at 0% af a- kompoetere er defekte og 0% af b-kompoetere er defekte. Et apparat fugerer hvis og ku hvis det ikke ideholder oge defekt kompoet. Der udtages på tilfældig måde et apparat fra produktioe. Lad os betragte hædelsere: A: Det udtage apparat ideholder midst defekt a-kompoet. B: Det udtage apparat ideholder midst defekt b-kompoet. ) Fid P( A), P( B) og P( A B). ) Fid sadsylighede for, at et apparat, der på tilfældig måde udtages af produktioe ikke fugerer. 3) Et apparat udtages på tilfældig måde fra produktioe og det kostateres ved afprøvig at det ikke fugerer. Fid sadsylighede for, at apparatet ikke ideholder oge defekt a-kompoet. Opgave 8. E test består af 40 spørgsmål, der alle skal besvares med,'ja'. 'ej' og 'ved ikke'. På hvor mage forskellige måder ka prøve besvares? Opgave 8.3 I e virksomhed skal der istalleres et kaldesystem. I hvert lokale opsættes et batteri af lamper, og hver af de asatte har si bestemte lampekombiatio. ) Hvis = 5, hvor mage asatte ka da have deres eget kaldesystem (se figure) ) Hvis virksomhede har 500 asatte, hvor stor skal så være. Opgave 8.4 Normale persobilers idregistrerigsumre består af to bogstaver og et ummer mellem 0000 og 59999. Lad os atage, at ma er ået til umre der begyder med UV. Et eksempel på e ummerplade er da UV 54755 Hvad er sadsylighede for, at e yidregistreret bil får et registrerigsummer med lutter forskellige cifre, år vi atager, at alle cifre har samme sadsylighed? Opgave 8.5 Hvor mage forskellige telefoumre på 8 cifre ka ma dae, år første ciffer ikke må være ul? 85
9. Vigtige diskrete fordeliger 9. VIGTIGE DISKRETE FORDELINGER 9. INDLEDNING Vi vil i dette kapitel betragte diskrete stokastiske variable, hvis værdier er hele tal. Vi vil især behadle de diskrete fordeliger: De hypergeometriske fordelig, Biomialfordelige og Poissofordelige 9. HYPERGEOMETRISK FORDELING De hypergeometriske fordelig, fider bl.a. avedelse ved kvalitetskotrol af varepartier (jævfør eksempel 9.), ved markedsudersøgelser, hvor ma ude tilbagelægig udtager e repræsetativ stikprøve på eksempelvis 500 persoer I det følgede eksempel udledes formle for de hypergeometriske fordelig. Eksempel 9.. Hypergeometrisk fordelig I e foreig skal der bladt 5 kvidelige og 8 madlige kadidater vælges e bestyrelse på 4 persoer. Fid sadsylighede for, at der er etop kvide i bestyrelse.. Løsig: X = atal kvider i bestyrelse At der skal være etop kvide i bestyrelse forudsætter, at vi udtager kvide ud af de 5 kvider og 3 mæd ud af de 8 mæd. At udtage kvide ud af 5 kvider ka gøres på K(5,) måder At udtage 3 mæd ud af 8 mæd ka gøres på K(8,3) måder. Atal gustige udfald er ifølge multiplikatiospricippet K(5,) K(8,3) Det totale atal udfald fås ved at udtage 4 persoer ud af de 3 kadidater Dette ka gøres på K(3,4) måder. K(,) 5 K(,) 83 P( X ) K( 3, 4) TI-89: Vælg MATH Probability Cr Cr(5,) Cr(8,3)/Cr(3,4) =0.396 TI-Nspire: Vælg Sadsylighedsregig Kombiatioer Cr(5,) Cr(8,3)/Cr(3,4) Excel: Vælg f x Matematik og trig KOMBIN(5;)*KOMBIN(8;3)/KOMBIN(3;4) =0,39608 Karakteristisk for e hypergeometrisk fordelig er, at elemetere i udfaldsrummet (kugler i e beholder) ka opdeles i to grupper. E opdelig kue som i eksempel 9. være kvider og mæd eller som i kvalitetskotrol være i defekte varer og ikke-defekte varer. 86
9. Hypergeometrisk fordelig Lad os atage, at vi har e beholder med N kugler, hvoraf de M er røde og reste har e ade farve. Der udtrækkes e stikprøve på kugler ude tilbagelægig. Lad X være atallet af røde kugler bladt de kugler. X er hypergeometrisk fordelt med parametree N, M, (kort skrevet h(n,m,)) P(X = x) er sadsylighede for at etop x kugler er røde bladt de udtruke kugler. X siges at være hypergeometrisk fordelt med parametree N, M, (kort skrevet h(n,m,)) hvor K( M, x) K( N M, x) PX ( x) K( N, ) Formle udledes på samme måde som det skete i eksempel 9. Sætte x = 0,,,... fider vi forskellige værdier af tæthedsfuktioe. I Supplemet til statistiske grudbegreber afsit 9A bevises, at de hypergeometriske fordelig N M har middelværdie E( X) p og spredige ( X) p( p), hvor p. N N Eksempel 9.: Hypergeometrisk fordelig h (0, 6, 3 ). I e ure fides 0 kugler, hvoraf 6 er sorte, 4 er hvide. Vi betragter det tilfældige eksperimet: "Udtrækig af e kugle og observatio af farve på kugle. Eksperimetet getages 3 gage, idet de udtruke kugle ikke lægges tilbage mellem hver udtrækig. Lad X betege atallet af udtruke sorte kugler. Fid og skitser tæthedsfuktioe for X, og bereg middelværdi og spredig for X. Løsig: X er e diskret stokastisk variabel, der som er hypergeometrisk fordelt h (0, 6, 3) med tæthedsfuktioe f (x) = P(X = x): K( 60, ) K( 43, ) 4 0. 033 for x 0 K( 0, 3) 0 K(,) 6 K(,) 4 36 0. 300 for x K( 0, 3) 0 f ( x) P( X x) K( 6, ) K( 4, ) 60 0500. for x K( 0, 3) 0 K( 63, ) K( 40, ) 0 067. for x 3 K( 0, 3) 0 0 ellers Stolpediagram for h (0, 6, 3). 87
9. Vigtige diskrete fordeliger M Sættes p 6 er middelværdie E( X) p3 6. og N 0 0 8 N N 3 6 0 6 0 3 0 0 spredige ( X) p( p) = 0.748 De hypergeometriske fordelig fider bl.a. avedelse i kvalitetskotrol, hvilket følgede eksempel viser. Eksempel 9.3: Stikprøveudtagig (kvalitetskotrol) E producet fabrikerer kompoeter, som sælges i æsker med 600 kompoeter i hver. Som led i e kvalitetskotrol udtages hvert kvarter tilfældigt e æske produceret idefor de sidste 5 miutter, og 5 tilfældigt udvalgte kompoeter i dee udersøges, hvorefter det foregåede kvarters produktio godkedes, såfremt der højst er é defekt kompoet i stikprøve. Hvor stor er acceptsadsylighede p, hvis æske ideholder i alt 0 defekte kompoeter, såfremt udtrækige sker ude mellemliggede tilbagelægiger? Løsig: X = atal defekte bladt de 5 kompoeter Da partiet godkedes, hvis der ete er 0 defekte eller defekt, følger af additiossætige at p = P (X = 0) + P (X = ). Hædelse "X = 0" forudsætter, at vi i alt udtager 0 af de 0 defekte og 5 forskellige af de 590 K( 0, 0) K( 590, 5) ikke-defekte, dvs. P( X 0) 065.. K( 600, 5) Hædelse "X = " forudsætter, at vi i alt udtager af de 0 defekte og 4 forskellige af de 590 K( 0, ) K( 590, 4) ikke-defekte, dvs. P( X ) 0. 876. K( 600, 5) Vi har altså p = 0.65 + 0.876 = 0.9388 = 93.88%. TI-89: Vælg MATH\Probability\Cr (Cr(0,0) Cr(590,5)+Cr(0,) Cr(590,4))/Cr(600,5) = 0.9388 TI-Nspire: Bereger Skriv (Cr(0,0) Cr(590,5)+Cr(0,) Cr(590,4))/Cr(600,5) Excel: Vælg f x Statistik HYPGEOFORDELING Udfyld meu HYPGEOFORDELING(0;5;0;600)+HYPGEOFORDELING(;5;0;600) = 0,938876 88
9.3 Biomialfordelige 9.3 BINOMIALFORDELING Biomialfordelige beyttes som model for atallet af "succeser" ved uafhægige getagelser af et eksperimet, som hver gag har samme sadsylighed p for "succes". Problemstillige fremgår af følgede eksempel. Eksempel 9.4. E biomialfordelt variabel. E drejebæk producerer % defekte emer. Lad X være atallet af defekte bladt de æste 5 emer der produceres. Vi øsker at fide sadsylighede for at fide etop defekte bladt disse 5, det vil sige P( X ). Løsig: Lad et eksperimet være at udtage et eme fra produktioe. Resultatet af eksperimetet har to udfald: defekt, ikke defekt. Eksperimetet getages 5 gage uafhægigt af hiade. Der er e bestemt sadsylighed for at få e defekt, emlig p = 0.0. Lad d være det udfald at få e defekt, og d være det udfald at få e fejlfri. Vi opskriver u samtlige forløb, der giver defekte ud af 5 ddddd,,,, ddddd,,,, ddddd,,,, ddddd,,,, ddddd,,,, ddddd,,,, ddddd,,,,. ddddd,,,, ddddd,,,, ddddd,,,, Da eksperimetere getages uafhægigt af hiade, følger det af produktsætige (både -og), at det første forløb må have sadsylighede 0. 00. 0( 0. 0) ( 0. 0) ( 0. 0) 0. 0 ( 0. 0) 3. Det æste forløb må have sadsylighede 00. ( 00. ) 00. ( 00. ) ( 00. ) 00. ( 00. ) 3 Vi ser, at alle gustige forløb har samme sadsylighed. Atal forløb må være lig atal måder ma ka placere d er på 5 tomme pladser (eller atal måder ma ka tage kugler ud af e mægde på 5). Dette ved vi ka gøres på K(5,)=0 måder (svarede til de 0 forløb). 3 Vi får følgelig, at p K(,) 5 00. ( 00. ) 000097. TI-89: CATALOG\F3\biomPdf(5, 0.0,) = 0.00097 TI-Nspire: Statistik Fordeliger biomialpdf Udfyld meu Excel: Vælg f x Statistik BINOMIALFORDELING Udfyld meu BINOMIALFORDELING(;5;0,0;0) = 0,00097 89
9. Vigtige diskrete fordeliger I eksemplet har vi udledt de såkaldte biomialfordelig, som er defieret på følgede måde: DEFINITION af biomialfordelig. ) Lad et tilfældigt eksperimet have udfald succes og fiasko ) Lad eksperimetet blive getaget gage uafhægigt af hiade, og lad sadsylighede for succes være e kostat p Lad X være atallet af succeser bladt de getagelser X er e diskret stokastisk variabel med tæthedsfuktioe Kx p x x (, ) ( p) for x0,,,..., f ( x) P( X x) 0 ellers X siges at være biomialfordelt b (, p). SÆTNING 9.. (middelværdi og spredig for biomialfordelig). Lad X være biomialfordelt b (, p). Der gælder da E( X) p og ( X) p( p). Bevis: Lad os betragte et eksperimet, hvor resultatet succes har sadsylighede p for at ske. Lad os foretage uafhægige getagelser af eksperimetet. At getagelsere er uafhægige betyder, at udfaldet af et eksperimet ikke afhæger af udfaldet af de forrige eksperimeter. Lad os betragte stokastiske variable X, X,..., X, hvor X i hvis i' te getagelse af eksperimetet giver succes. 0 ellers Vi har E( Xi) xi f ( xi) p0( p) p, og i V( Xi) ( xi ) f ( xi) ( p) p( 0 p) ( p) p p p( p) i Idet X X X... X er biomialfordelt b (, p) fås af liearitetsregle (kapitel afsit 5), at E( X) E( X) E( X) E( X3)... E( X ) p p p... p p. Edvidere fås af kvadratregle i kapitel afsit 5, idet vi har uafhægige getagelser, at V( X) V( X) V( X)... V( X ) p( p) p( p)... p( p), eller V( X) p( p). Eksempel 9.5: Tæthedsfuktio for biomialfordelt variabel. Lad der på to af sidefladere på e terig være skrevet tallet, på to adre sideflader være skrevet tallet og på de sidste to sideflader være skrevet tallet 3.Vi betragter det tilfældige 90
9.3 Biomialfordelige eksperimet: "7 kast med e terige og observatio af det fremkome tal. Lad X betege atallet af toere ved de 7 kast. X atages at være biomialfordelt b 7,. 3 ) Agiv tæthedsfuktioe f (x) for X (3 betydede cifre), og teg et stolpediagram for f (x). ) Fid middelværdi og spredig for X E perso foretager eksperimetet gage, d.v.s. foretager gage e serie på 7 kast med terige. Stikprøve gav følgede resultat Atal toere i e serie 0 3 4 5 6 7 Atal gage dette skete 4 3 0 0 0 3) Giv på grudlag af stikprøve et estimat for p i biomialfordelige. 4) Giv på grudlag af stikprøve et estimat for middelværdi og spredig Løsig: x x ) f ( x) P( X x) K(, x) 7 3 3 TI89+TI-Nspire: biompdf(7,/3,x) x 0 og derefter x = osv. Excel:BINOMIALFORDELING(0;7;/3;0), og derefter BINOMIALFORDELING( ;7;/3;0) osv. 0. 059 for x 0 05 for x 0. 307 for x 0. 56 for x 3 f ( x) P( X x) 08. for x 4 0. 038 for x 5 0. 006 for x 6 0. 000 for x 7 ellers 0 0 Stolpediagram for biomialfordelige ) E( X) p7 33. og ( X) p( p) 7 5. 3 3 3 3) Der er i alt 0 4 33 4 3 toere i 77 kast. 3 Et estimat for p er p 099. 77 3 4) Stikprøves middelværdi er x 09., og stikprøves spredig er ( X) p( p) 7 3 3. 77 77 Hypotesetest for biomialfordelt variabel. I kapitel 6 geemgik vi ved e række eksempler de grudlæggede begreber for hypotesetest- 9
9. Vigtige diskrete fordeliger ig for é ormalfordelt variabel. Disse begreber ka uædret overføres til hypotesetestig for biomialfordelt variabel. Kofidesitervaller. Som beskrevet i appedix er det ofte muligt at approksimere med e ormalfordelig. Derved fremkommer de formler som er beskrevet i appedix 4. pukt 5. Ka approksimatioe ikke avedes, ka ma ved løsig af e passede ligig fide de eksakte græser for kofidesitervallere. Da det er ret besværligt, foretrækkes så vidt muligt (selv i statistikprogrammer) at avede approksimatioe med ormalfordelige. De følgede to eksempler viser avedelser heraf. Eksempel 9.6. Esidet biomialfordeligstest. E levedsmiddelproducet fremstiller et levedsmiddel A, som imidlertid har e ret rige holdbarhed. Efter e række eksperimeter lykkedes det at frembrige et produkt B, som i alt væsetligt er idetisk med A, me som har e bedre holdbarhed. Af markedsmæssige grude er det vigtigt, at der ikke er forskel på smage af B og af det velkedte produkt A. For at udersøge dette, lader producete et pael af 4 ekspertsmagere vurdere, om ma ka smage forskel. Ma foretog derfor følgede smagsprøvigseksperimet. Hver ekspertsmager fik 3 es udseede portioer, hvoraf e portio var af det ee levedsmiddel og de to adre portioer var af det adet levedsmiddel. Hvilket af de 3 portioer der skulle ideholde et adet levedsmiddel ed de to adre, og om det skulle være levedsmiddel A eller B, afgjordes hver gag ved lodtrækig. Ku forsøgsledere havde kedskab til resultatet. Hver ekspertsmager fik besked på, at de skulle fortælle forsøgsledere hvilke af de tre portioer der smagte aderledes. Hvis ma ikke kue smage forskel, skulle ma gætte. Resultatet viste, at af de 4 svar var 3 svar rigtige. Ved re gætig kue ma forvete ca. 3 dvs. ca. 8 rigtige svar. 3 rigtige svar er betydeligt flere, me ka det alligevel tilskrives tilfældigheder ved gætig? Ka der på et sigifikasiveau på 5% statistisk påvist, at ekspertsmagere ka smage forskel på smage af A og B? Løsig: Lad X = atallet af rigtige svar. X er biomialfordelt b (, p), hvor = 4 og p er ukedt. Nulhypotese H0: p mod de alterative hypotese Hp : 3 3 TI89+TI-Nspire: P - værdi = P( X 3) biomcdf(4, /3, 3, 4) = 0.084 =.84% Excel: P - værdi = P( X ) = -BINOMIALFORDELING(;4;/3;) = 0,0844 Da P - værdi < 5% forkastes ulhypotese (estjeret), dvs. der må kokluderes, at der er e smagsforskel mellem produkt A og B. Eksempel 9.7. Kofidesiterval for parametere p i biomialfordelig. E plastikfabrik har udviklet e y type affaldsbeholdere. Ma overvejer at give e 6 års garati 9
9.3 Biomialfordelige for holdbarhede. For at få et skø over om det er økoomisk retabelt, bliver 00 beholdere udsat for et accelereret livstidstest som simulerer 6 års brug af beholdere. Det viste sig, at af de 00 beholdere overlevede de 85 teste. Idet atallet af overlevede beholdere atages at være biomialfordelt, skal ma ) Agive et estimat for sadsylighede p for at e beholder overlever i 6 år. ) Agive et 95% kofidesiterval for p. Løsig: ) Lad X være atallet af overlevede beholdere. X forudsættes biomialfordelt b (00, p). Ifølge oversigt 9.8 er et estimat for p: ~ x 85 p 085. 00 ) Da 0 x 0 er forudsætigere for at beytte ormalfordeligsapproksimatio opfyldt. Vi får: ~ ~ p ( ~ p ) 085. ( 085. ) p z 0. 85 ivnorm( 0. 975) 085. 007. 00 dvs. 078. p 09. TI 89, TI-Nspire og Excel beytter dee formel, dvs. ma skal altid først udersøge om forudsætige er opfyldt. TI89: APPS STATS/List F7 5:-PropZIt ENTER Meue udfyldes med x: 85 : 00 C-level: 0.95 ENTER Resultat: C It : [0.78 ; 0.9 ] TI-Nspire: Statistik Kofidesitervaller z-iterval for e adel Udfyld meu ENTER Excel: radius= NORMINV(0,975;0;)*KVROD(0,85*(-0,85)/00) 0,069985 Nedre græse 0,85-I3 0,78005 Øvre græse 0,85+I3 0,99985 Eksakt løsig: Er betigelse ikke opfyldt (eller vil ma have det eksakte resultat) beyttes formel i oversigt 9.8. Øvre græse: Løs ligige P( X 85) = 0.05 med hesy til p. TI89: solve(biomcdf(00, p,0,85)=0.05,p) p 0 Resultatet blev p = 0.94. Nedre græse: Løs ligige P( X 85) = 0.05 med hesy til p. TI89: solve(biomcdf(00, p,85,00)=0.05,p) p 0 Resultatet blev p = 0.765. 95% Kofidesiterval: [0.765; 0.94] Bemærk, at kofidesitervallet ikke ligger helt symmetrisk omkrig 0.85, da biomialfordelige ikke er helt symmetrisk omkrig 0.85 Forklarig på formle: Udefor et 95% kofidesiterval ligger 5%, og af symmetrigrude ligger der,5% på hver side. (jævfør figure) Jo større de sade værdi p er i forhold til 0.85 jo midre bliver sadsylighede for at 85 eller færre overlevede teste. Vi leder derfor i græse efter et p > 0.85, så P( X 85) = 0.05. Deræst fides edre græse ved at lade p falde, idtil P( X 85) 0. 05 Bestemmelse af stikprøves størrelse Før ma starter sie måliger, kue det være yttigt på forhåd at vide ogelude hvor 93
9. Vigtige diskrete fordeliger mage måliger ma skal foretage, for at få resultat med e give øjagtighed. Hvis ma atager, at ma ka approksimere med ormalfordelige, ved vi, at radius for et p ( p ) 95% kofidesiterval er r z0. 975. Løses dee ligig med hesy til fås z p p 0975. ( ) r Det grudlæggede problem er her, at ma æppe keder p eksakt. Ma keder muligvis på basis af tidligere erfariger størrelsesordee af p. Hvis ikke kue ma evetuelt udtage e lille stikprøve, og berege et p på basis heraf. Edelig er der de mulighed, at sætter p = 0.5, som er maksimumsværdie af p ( p) Beyttes dee værdi får ma de størst mulige værdi af for e give værdi af r. Ulempe er, at dette fører til e større stikprøvestørrelse ed ødvedigt. Det følgede eksempel illustrerer fremgagsmåde. Eksempel 9.8. Bestemmelse af atal i stikprøve. I e opiiosudersøgelse vil ma spørge et repræsetativt atal vælgere om hvilket parti de vilde stemme på, hvis der var valg i morge. I dee udersøgelse øskes ide udtagig af stikprøve, at atallet skal være så stort, at radius i kofidesitervallet højst er %. Løsig: Metode. For at få e øvre græse, sættes p = 0.5. Vi får z ivnorm p p 0. 975 r (. 0 975) ( ) 40 00. Metode Da ma på forhåd ved, at ved sidste valg fik ige partier mere ed 30% af stemmere sættes p = 0.3. z ivnorm p p 0975. r (. 0 975) ( ) 0. 30. 7 07 00. Approksimatio af hypergeometrisk fordelig med biomialfordelig. 94
9.4 Poissofordelige At erstatte de hypergeometriske fordelig h (N, M, ) med biomialfordelige b (, p) vil for de fleste avedelser kue gøres med e passede øjagtighed, hvis stikprøvestørrelse N er midre ed eller lig 0% af partistørrelse N ( ). 0 N 0 M I så fald sættes i biomialfordelige p. N Eksempel 9.9. Approksimatio af hypergeometrisk fordelig til biomialfordelig. I eksempel 9.3, hvor ma udtog 5 kompoeter fra æsker på 600 kompoeter, skete udtagige logisk ok ude tilbagelægig. Imidlertid er det klart, at da æskere ideholder mage kompoeter vil sadsylighede for at få e defekt ikke ædrer sig meget, hvis ma i stedet havde foretaget udtagige med tilbagelægig. Der blev ataget, at der var 0 defekte i e såda æske med 600, og dette atal defekte vil så være kostat, uder hver udtrækig. 0 Vi har derfor, at P(at få e defekt) =. Betigelsere for at beytte biomialfordeli- 600 60 ge er u til stede. Løsige af problemet i eksempel 9.3 vil derfor u være: TI89: pa P( X ) P( X 0) P( X ) = biomcdf(5,/60,0,) = 0.9353 Det ses, at vi får praktisk samme resultat som i eksempel 9.3. 9.4 POISSONFORDELINGEN Poissofordeliger beyttes ofte som statistisk model for atallet af "impulser" pr. tidsehed. Disse impulser atages at komme tilfældigt og uafhægigt af hiade. Som eksempler ka æves: Atal trafikuheld på e bestemt vejstrækig i løbet af et år, atal biler, der passerer e militær kotrolpost, atal varevoge der akommer pr. time til et stort varehus og atal telefosamtaler der føres fra e telefocetral, der er oprettet uder e øvelse. Modelle ka dog også avedes på adet ed pr. tidsehed, eksempelvis også på atal rever pr. km kabel, hvis disse rever forekommer tilfældigt og uafhægigt af hiade. Uder sådae omstædigheder ka ma ofte beytte de i det følgede omtalte Poissofordelig som statistisk model for atallet af "impulser" pr. tidsehed eller volumeehed eller lægdeehed osv. 95
Vigtige diskrete fordeliger SÆTNING 9. (Poissofordelig). Lad X være e stokastisk variabel, som agiver atallet af impulser i et givet tidsrum (eller areal, volume, produktiosehed osv.), idet ethvert tidspukt i tidsrummet har samme mulighed for at være impulstidspukt som ethvert adet tidspukt. Edvidere skal impulsere idtræffe tilfældigt og uafhægigt af hiade * ). Hvis det geemsitlige atal impulser i tidsrummet er 0, så siges X at være Poissofordelt p ( ) med sadsylighedsfordelige (tæthedsfuktioe) f(x) = P(X = x) bestemt ved x f ( x) P( X x) e for x {,,,...} 0 x! 0 ellers Middelværdie for p( ) er E ( X ) = og spredige er ( X ). I formulerige af de oveævte betigelser ka efter behov "et lille tidsrum med "e lille lægde ", "et lille areal A" eller "et lille volume V". t" erstattes *) Præcis formulerig: Følgede 3 betigelser skal være opfyldt: ) Sadsylighede for etop é impuls i et meget lille tidsrum t er med tilærmelse proportioal med t. P (Matematisk formulerig lim ( X ) ( er e positiv kostat) t 0 t ) Sadsylighede for eller flere impulser i det meget lille tidsrum t er lille sammeliget med t. P (Matematisk formulerig lim ( X ) 0 ) t 0 t 3) Atal impulser i forskellige, ikke overlappede tidsrum er statistisk uafhægige. E bevisskitse for sætige ka ses i Supplemet til statistiske grudbegreber afsit 9.C. Eksempel 9.0: Atal rever p. meter i et tydt kobberkabel. På e fabrik fremstilles kobberkabler af e bestemt tykkelse. Mikroskopiske rever forekommer tilfældigt lags disse kabler. Ma har erfarig for, at der i geemsit er.3 af de type rever p. 0 meter kabel. Bereg sadsylighede for, at der ) ige ridser er i meter tilfældigt udvalgt kabel. ) er midst ridser i meter tilfældigt udvalgt kabel. 3) er højst 4 ridser i meter tilfældigt udvalgt kabel Fabrikke går u over til e ade og billigere produktiosmetode. For at få et estimat for middelværdie ved de ye metode måltes atallet af rever på kabelstykker på hver 0 meter. Resultatere var Kabel r. 3 4 5 6 7 8 9 0 Atal rever 8 4 4 6 8 0 0 6 6 8 4) Agiv på basis heraf et estimat for middelværdie af atal rever pr. 0 m kabel. 96
9.4 Poissofordelige Løsig: X = atal rever i meter kabel. X atages Poissofordelt p ( ). (idet vi med tilærmelse ka atage, at betigelsere i sætig 9. er opfyldt (impuls er her ridser).. 3 Da det geemsitlige atal rever pr. m kabel er 3. fås: 0 0 3. 3. ) P( X 0) e 0. 9. 0! TI89: PoissPdf(.3,0) = 0.9 TI-Nspire:Statistik, Fordeliger, PoissoPdf,Udfyld meu Excel: POISSON(0;,3;0) =0,993 ) TI-89+Excel: P( X ) P( X ) -PoissCdf(.3, 0, ) = 0.348 Excel: - POISSON(;,3;) = 0,34888 P( X ) P( X ) 3) Y = atal rever i meter kabel. Da der i geemsit er,46 rever i meter kabel, er.46 et estimat for. Vi har derfor TI89+TI-Nspire: P( X 4) = poisscdf(.46, 0, 4) = 0.8965 Excel: P( X 4) =POISSON(4;,46;) = 0,896458 4) Der er i alt 94 rever i kabelstykker på hver 0 meter. Et estimat for er derfor ~ 94 783.. Hypotesetest for Poissofordelt variabel. I kapitel 5 geemgik vi ved e række eksempler de grudlæggede begreber for hypotesetestig for é ormalfordelt variabel. Disse begreber ka uædret overføres til hypotesetestig for Possofordelt variabel. Har ma rådighed over e lommereger med kumuleret Poissofordelig ka testee geemføres eksakt. (se appedix 5.5) Kofidesitervaller. Som beskrevet i afsit 9.5 er det ofte muligt at approksimere med e ormalfordelig. Derved fremkommer de formler som er beskrevet i oversigt 9.8 97
Vigtige diskrete fordeliger Eksempel 9.. Esidet Poissotest. I eksempel 9.0 betragtede vi mikroskopiske rever i et kobberkabel. Fabrikke gik over til e ade og billigere produktiosmetode. ) Test, om de ye metode giver færre rever ed de gamle metode. ) Forudsat, de ye metode giver sigifikat færre rever ed de gamle metode, skal ma a) Agiv et 95% kofidesiterval for middelværdie af atal rever pr. 0 meter kabel. b) Agiv et 95% kofidesiterval for middelværdie af atal rever pr. 0 meter kabel. Løsig: ) Lad X betege atallet af rever i 0 meter kabel ved y metode X atages Poissofordelt p( ), hvor vi i eksempel 9.8 fadt at et estimat for var ~ 94. Ved gammel metode er atal rever i 0 m kabel i middel. 3 47. 6 Nulhypotese H 0 : 47. 6 mod de alterative hypotese H: 47. 6. TI89+TI-Nspire :P - værdi = PY ( 94) PoissCdf(47.6, 0, 94) = 0.00000 Excel:P - værdi = PY ( 94) Poisso(94;47,6;) =,5403E-06 Da P - værdi < 0.05 forkastes ulhypotese (stærkt),dvs. vi er sikre på, at middelatallet af rever er blevet formidsket ved at avede de ye metode a) Idet m= 94>0 ka formel i oversigt 9.8 avedes. Atal rever pr 0 m kabel: 94 Idet x 94 er et 95% kofidesiterval for x x z0. 975 94 ivnorm(. 0 975) b) Atal rever pr 0 m kabel: 75 3 ; 65. ; 94. 94. [75 ; 3]. 9.5 APPROKSIMATIONER Vi har udertide beyttet os af, at det uder visse forudsætiger er muligt med e rimelig øjagtighed, at foretage approksimatioer, f.eks. at approksimere e biomialfordelig eller e Poissofordelig med e ormalfordelig. Dette ka give ogle simplere beregiger, eksempelvis år ma approksimerer e hypergeometrisk fordelig med e biomialfordelig eller år ma ved udregig af kofidesitervaller for biomialfordelig approksimerer med ormalfordelig. I appedix 9. er agivet e samlet oversigt over de mulige approksimatioer. 98
9.6 Polyomialfordelige 9.6 De geeraliserede hypergeometriske fordelig. De hypergeometriske fordelig beyttes som model ved stikprøveudtagig ude tilbagelægig, hvor hvert elemet har ete e bestemt egeskab (defekt) eller ikke har dee egeskab (ikke defekt). Hvis der foreligger flere ed to egeskaber, f.eks. udtagig af møtrikker, hvis diameter ete tilhører et givet toleraceiterval eller er for stor eller for lille, ka ma geeralisere de hypergeometriske fordelig. Dette illustreres ved følgede eksempel: Eksempel 9.. Geeraliseret hypergeometrisk fordelig. I e ure fides kugler, hvoraf 5 er sorte, 4 er hvide og 3 er røde. Vi betragter det tilfældige eksperimet: "Udtrækig af 6 kugler ude tilbagelægig og observatio af farve på kuglere. Bereg sadsylighede for at få sorte, 3 hvide og rød kugle. LØSNING: Lad X være atallet af sorte kugler, X være atallet af hvide kugler og X 3 være atallet af røde kugler. Aalogt med begrudelse for de hypergeometriske fordelig fås: K(,) 5 K(,) 43 K(,) 3 P( X, X 3, X3 ) K(, 6) 04 3 94 03. 9.7 Polyomialfordelige. Biomialfordelige beyttes som model ved uafhægige getagelser af samme eksperimet. Eksperimetet har to udfald succes eller ikke succes og der er e kostat sadsylighed for succes. Hvis der foreligger flere ed to udfald, f.eks. udtagig af møtrikker fra e løbede produktio, hvor diameter ete tilhører et givet toleraceiterval eller er for stor eller for lille, ka ma geeralisere til polyomialfordelige. Idet formle for biomialfordelige ka skrives f x p x p x! p x p x! ( ) ( ) ( ) p x p x, hvor x x!( x)! x! x! p p og x x fås aalogt DEFINITION af polyomialfordelig. p p... p k x x... x Lad være et positivt helt tal, og lad og hvor alle pér er positive tal og alle xér er hele tal. Sadsylighedsfordelige for e polyomialfordelt stokastisk variabel P( X x, X x,..., X x ) k k k ( X, X,..., X k ) er! x x p p... p x! x!... x! k x k k Dette illustreres ved følgede eksempel: Eksempel 9.. Polyomialfordelige E stor produktio af glaskugler ideholder 40% sorte, 35% hvide og 5% røde kugler. Vi betragter det tilfældige eksperimet: "Udtrækig af 6 kugler observatio af farve på kuglere. Bereg sadsylighede for at få sorte, 3 hvide og rød kugle. LØSNING: Lad X være atallet af sorte kugler, X være atallet af hvide kugler og X 3 være atallet af røde kugler. Vi får u P( X!, X, X )!!!.. 3.. 6 3 3 0 4 0 35 0 5 009 3 99
Vigtige diskrete fordeliger 9.8. OVERSIGT over cetrale formler i kapitel 9 X er biomialfordelt bp (, ), hvor er kedt og p ukedt. Givet stikprøveværdi x Kofidesiterval Forudsætiger Estimat for parameter 00 ( - ) % kofidesiterval for parameter 0 x x 0 For p: ~ p x ~ p z ~ p ( ~ p ) ~ ~ p ( ~ p ) p p z TI89: F7: -prop Z-iterval TI-Nspire;z-imterval for e adel Excel: Se eksempel 9.7 eksakt edre græse:løs ligig P( X x) med hesy til p. øvre græse: Løs ligig P( X x) med hesy til p Test af parameter p for biomialfordelt variabel Der foreligger e stikprøve på X. Observeret stikprøveværdi x. Sigifikasiveau er. Y er biomialfordelt bp (, ), hvor er e give kostat Alterativ hypotese H H: p p 0 P( Y x) 0 p 0 P - værdi Beregig H 0 forkastes TI89+TI-Nspire:biomCdf(, p 0, x,) Excel:-Biomialfordelig(x-;;p,) P-værdi < H: p p 0 P( Y x) TI89+TI-Nspire:biomCdf(, p 0,0, x) Excel: Biomialfordelig(x;;p;) H: p p 0 P( Y x) for x p0 P( Y x) for x p0 som række som række P-værdi < 00
9.8 Oversigt X er Poissofordelt p( ), hvor ukedt. Stikprøve er af størrelse, og der optælles i alt m impulser Kofidesiterval Forudsætiger Estimat for parameter 00 ( - ) % kofidesiterval for parameter m 0 For : m x x x z x z x Test af parameter for Poissofordelt variabel. Der foreligger e stikprøve på X af størrelse med geemsit x. Sigifikasiveau er. Y er Poissofordelt p ( 0 ), hvor 0 er e give kostat. Alterativ hypotese H H: 0 PY ( x) P - værdi Beregig på TI 89 H 0 forkastes TI89+TI-Nspire: poisscdf ( 0, x, 000) P - værdi Excel: -Poisso( x -; 0 ;) H: 0 PY ( x) H: TI89+TI-Nspire: poisscdf ( 0, 0, x) 0 PY ( x) for x 0 som række PY ( x) for x 0 som række Excel: Poisso( x ; 0 ;) P-værdi 0
Vigtige diskrete fordeliger OPGAVER Opgave 9. Ved e lodtrækig fordeles 3 gevister bladt 5 lodsedler. E spiller har købt 5 lodsedler. ) Bereg sadsylighede for at spillere vider etop é gevist. Lad de stokastiske variable X være bestemt ved X = Spillere vider x gevister ) Fid og skitser tæthedsfuktioe for X 3) Bereg middelværdie for X Opgave 9. Fra et sædvaligt spil kort udtrækkes på tilfældig måde 3 kort ude tilbagelægig. Bestem sadsylighedere for hver af hædelsere A: Der udtrækkes ku 8'ere. B: Der udtrækkes lutter hjerter. C: Der udtrækkes sorte og rødt kort. Opgave 9.3 På e udervisigsistitutio skal 05 studerede holde fest samme med deres 3 lærere. Et festudvalg på 3 persoer vælges tilfældigt. Bereg sadsylighede for at der kommer både lærere og studerede med i udvalget. Opgave 9.4. I e kortbuke er der 6 kort, hvoraf etop 4 er spar. Kortee fordeles i lige store buker A og B. ) Peter påstår, at sadsylighede for at buke A ideholder etop 3 spar er 4.87%. Har Peter ret? ) Bereg sadsylighede for, at e af bukere ideholder etop spar. Opgave 9.5 E fabrikat fremstiller e bestemt type radiokompoeter. Disse leveres i æsker med 30 kompoeter i hver æske. E køber har de aftale med fabrikate, at hvis e æske ideholder 4 defekte kompoeter eller derover, ka købere returere æske, i modsat fald skal de godkedes. Købere kotrollere hver æske ved e stikprøve, idet ha af æske udtager 0 kompoeter tilfældigt. Lad X være atal defekte i stikprøve. Der overvejes u to plaer: ) Hvis X = 0, så godkedes æske, ellers udersøges æske ærmere. ) Hvis X, så godkedes æske, ellers udersøges æske ærmere. Hvad er sadsylighede for, at e æske, der ideholder etop 4 defekte kompoeter, bliver godkedt af købere ved metode og ved metode. Opgave 9.6 E tipskupo har 3 kampe med 3 mulige teg -, x og - for hver kamp. E perso bestemmer teget, der skal sættes for hver kamp, ved tilfældig udtrækig af e seddel fra 3 sedler med tegee heholdsvis, x og. Agiv sadsylighede for, at persoe opår etop 8 rigtige tippede kampe på si kupo. 0
Opgaver til kapitel 9 Opgave 9.7 I et elektrisk specialapparat idgår 30 kompoeter, som hver er idkapslet i et heliumfyldt hylster. Bereg, idet sadsylighede for, at et kompoethylster lækker, er 0.%, sadsylighede for, at midst ét af de 30 kompoethylstre lækker. Opgave 9.8 E sypigetipper (M/K) deltog i tipig 4 gage i løbet af et år. På hver tipskupo var der 3 kampe, ved hver af hvilke tippere ved systematisk gætig satte et af de 3 teg:, x,. Bereg sadsylighede p for, at tippere det pågældede år tippede midst 00 kampe rigtigt. Opgave 9.9 Bladt familier med 3 bør udvælges 50 familier tilfældigt. Agiv sadsylighede for, at der i midst 8 af disse familier udelukkede er bør af samme kø. Opgave 9.0. Ved e fabrikatio af plastikposer leveres disse i æsker med 00 poser i hver. Ved e godkedelseskotrol af et parti plastikposer udtages og udersøges e tilfældigt udtaget æske, og partiet godkedes, såfremt æske højst ideholder é defekt pose. Vi atager, at de løbede produktio af poser er således, at hver produktio med sadsylighede % giver e pose, der er defekt; vi vil seere formulere dette således, at produktioe er i statistisk kotrol med fejlsadsylighede p = %. Hvor stor er sadsylighede for, at partiet uder disse omstædigheder accepteres? Opgave 9. Det er oplyst, at der for e give vaccie er 80% sadsylighed for, at de ved avedelse har de øskede virkig. På et hospital foretoges vacciatio af 00 persoer med de pågældede vaccie. Bereg sadsylighede for, at 5 eller færre af de foretage vacciatioer er ude virkig. Opgave 9. E y vaccie formodes med e sadsylighed på midst 85% at have e forebyggede virkig over for e bestemt ifluezatype. Før e truede ifluezaepedemi vaccieres et hospitalspersoale på 600 persoer med de pågældede vaccie. 5 af disse bliver smittet af sygdomme. Ka dette opfattes som e eksperimetel påvisig af, at vaccie er midre virksom ed vetet? Opgave 9.3 ) Atag, at e vis type af fostermisdaelse ormalt forekommer med hyppighede 64 tilfælde p. 00000 fødsler. Bereg sadsylighede for 3 eller flere fostermisdaelser bladt 56 fødsler. ) For at udersøge om forholdee i et bestemt arbejdsmiljø forøger hyppighede af dee type misdaelse, udersøgte ma hyppighede af misdaelser for mødre, som uder graviditete havde haft de aktuelle type af arbejde, og fadt 3 misdaelser bladt 56 fødsler. Ka de forøgede relative hyppighed i dette materiale skyldes tilfældigheder? Opgave 9.4 03
Vigtige diskrete fordeliger Udsættes platere af e bestemt sort roser for meldugssmitte, bliver i middel brøkdele p agrebet, hvor p er midst 0.0. E rosegarter fremavler e rosestamme, som ha påstår er mere modstadsdygtig over for meldugssmitte. For at kotrollere dee påstad bliver 00 roser af de ye stamme udsat for meldugssmitte. Det viser sig, at roser bliver agrebet. ) Bekræfter dette resultat rosegarteres påstad? (Husk altid at aføre: Hvad X er. Atagelser. Nulhypotese. Beregiger. Koklusio.). ) Agiv et estimat ~ p for de ye stammes p. 3) Agiv et 95% kofidesiterval for de ye stammes p. Opgave 9.5 E fabrikat af chip til computere reklamerer med, at højst % af e bestemt type chip, som fabrikke seder ud på markedet er defekte. Et stort computerfirma vil købe et meget stort parti af disse chip, hvis påstade er rigtigt. For at teste påstade købes 000 af dem. Det viser sig, at 33 ud af de 000 er defekte. Ka fabrikates påstad på dee baggrud forkastes på sigifikasiveau 5%? Opgave 9.6 E producet af billigt plastiklegetøj får mage klager over at e bestemt type legetøj er defekt ved salget. Legetøjet sælges til butikkere i kasser på 0 stk, og som et led i e kvalitetetskotrol udtages 00 kasser og atallet x af defekt legetøj optaltes. Følgede resultater fadtes: x 0 3 4 5 6 Atal kasser 34 38 9 6 0 Lad p være sadsylighede for at få et defekt stykke legetøj. ) Fid et estimat ~ p for p. ) Agiv et 95% kofidesiterval for p. Opgave 9.7 Af 000 tilfældigt udvalgte patieter, der led af lugekræft, var 83 døde seest 5 år efter sygdomme blev opdaget. Agiv på dette grudlag et 95% kofidesiterval for sadsylighede for at dø af dee sygdom seest 5 år efter at sygdomme bliver opdaget. Opgave 9.8 E fabrikat af lommeregere vurderer, at ca. % af de producerede lommeregere er defekte. For at få e øjere vurderig heraf øskes udtaget e stikprøve, der er så stor, at radius i et 95% kofidesiterval for fejlprocete p er højst 0.5%. Fid stikprøves størrelse. Opgave 9.9 Ved et køb af 00000 plastikbægre aftaltes med leveradøre, at det skal være e forudsætig for købet, at partiet godkedes ved e stikprøvekotrol. Kotrolle udøves ved, at 00 bægre udtages tilfældigt af partiet og kotrolleres. Partiet godkedes, såfremt ige af de 00 bægre er defekte. Bereg sadsylighede for, at partiet godkedes, hvis det i alt ideholder 50 defekte bægre. 04
Opgaver til kapitel 9 Opgave 9.0 E fabrikat får halvfabrikata hjem i partier på 00000 eheder. Fra hvert parti udtages e stikprøve på 00 eheder og atallet af fejlagtige bladt disse oteres. Hvis dette atal er midre ed eller lig med, accepteres hele partiet; i modsat fald udersøges partiet yderligere. ) Hvad er sadsylighede for, at et parti med e fejlprocet på vil blive yderligere udersøgt. ) Hvor stor er sadsylighede for, at et parti med e fejlprocet på 5 vil blive accepteret. Opgave 9. E maskifabrikat påtæker at købe 00000 møtrikker af e bestemt type. Ma beslutter sig til at købe et tilbudt parti af de ævte størrelse, såfremt e stikprøve på 50 møtrikker højst ideholder 4% defekte møtrikker. ) Bereg sadsylighede for, at partiet bliver godkedt af maskifabrikke, såfremt det ideholder a) 4% defekte møtrikker, b),5% defekte møtrikker, c) 7,5% defekte møtrikker, ) Bestem, for hvilke procetdel defekte møtrikker det oveævte parti (approksimativt) har 50% sadsylighed for at blive godkedt af maskifabrikke. Opgave 9. På e fabrik fremstilles gulvtæpper, som har størrelse 0 m. Ved fabrikatioe er der geemsitlig 6 vævefejl p. 00 m klæde. ) Bereg sadsylighede for, at et tilfældigt gulvtæppe ige vævefejl har. ) Bereg sadsylighede for, at et tilfældigt gulvtæppe højst har vævefejl. Fabrikke køber e y væv. For at få et estimat for middelværdie måltes atallet af vævefejl i gulvtæpper hver på 0 m. Resultatere var Gulvtæppe r 3 4 5 6 7 8 9 0 Atal vævefejl 4 7 3 4 5 5 8 3 5 3) Fid et estimat for middelværdie af atal vævefejl p. 0 m klæde. Opgave 9.3 Et radioaktivt præparat udergår geemsitligt 00 desitegratioer (søderdeliger) p. miut. Lad X betege atal desitegratioer i et sekud (som er lille i forhold til præparatets halverigstid). Fid P( X ). 05
Vigtige diskrete fordeliger Opgave 9.4 Ved e TV-fabrikatio optælles som led i e godkedelseskotrol atal loddefejl p. 5 TVapparater. Fabrikate øsker at få et overblik over atal loddefejl, og optalte derfor atal loddefejl på 4 tilfældigt udtage TV apparater. Resultatet fremgår af skemaet: Atal loddefejl 0 3 4 5 6 7 8 9 Atal TV apparater 3 4 6 5 0 0 Lad X være atallet af loddefejl i 5 TV apparater. ) Agiv de sadsylighedsfordelig X approksimativt ka atages at følge, og giv et estimat for parametere i fordelige. ) Bereg på basis af svaret i spørgsmål sadsylighede for, at der på 5 tilfældigt udtage TV-apparater højst er i alt 8 loddefejl? Opgave 9.5 På et tekisk uiversitet er et cetralt edb-alæg i kostat brug. Ma har erfarig for, at alægget i løbet af e 0 ugers periode har geemsitligt 7 maskistop. Bereg sadsylighede p for, at alægget i e 4 ugers periode har midst ét maskistop. Opgave 9.6 På e fabrik idtræffer i geemsit 7 ulykker om året. Atag, at de forskellige ulykker idtræffer uafhægigt af hiade, og at de er ogelude jævt fordelt over året. Bereg, idet et arbejdsår sættes lig med 48 uger, sadsylighede for at der i e uge idtræffer flere ed 3 ulykker. Opgave 9.7 Til et bestemt telefoummer er der i løbet af aftee i middel 300 opkald i time. Bereg sadsylighede for, at der i løbet af et miut er højst 8 opkald. Opgave 9.8 E fabrikatio af fortiede plader fider sted ved e kotiuerlig elektrolytisk proces. Umiddelbart efter produktioe kotrolleres for pladefejl. Ma har erfarig for, at der i middel er pladefejl hvert 5'te miut. Bereg sadsylighede for, at der højst er 5 pladefejl ved e halv times produktio. Opgave 9.9 Lastbiler med affald akommer tilfældigt og idbyrdes uafhægigt til e losseplads. Lossepladses maksimale kapacitet er bereget til, at der i middel akommer 90 lastbiler p. time. Ledelse af pladse føler, at travlhede er blevet større i de sidste tid, således at atallet af lastbiler overskrider de maksimale kapacitet. For at udersøge dette, foretages e optællig af lastbiler i perioder à 0 miutter. Følgede resultater fremkom: 3 6 7 5 8 6 8 ) Bekræfter disse resultater ledelses formodig? (Husk altid at aføre: Hvad X er. Atagelser. Nulhypotese. Beregiger. Koklusio.). ) Agiv et estimat ~ for middelværdie [lastbiler/time]. 3) Agiv et 95% kofidesiterval for middelværdie [lastbiler/time]. 06
Opgaver til kapitel 9 Opgave 9.30 Nedeståede tabel viser fordelige af 400 volumeeheder med hesy til atal gærceller p. volumeehed. Atal gærceller 0 3 4 5 6 7 8 9 0 Atal volumeeheder 0 0 43 53 86 70 54 37 8 0 5 Lad X være atal gærceller p. volumeehed. Det atages, at X er e stokastisk variabel der er Poissofordelt p ( ). ) Fid et estimat ~ for. ) Agiv et 95% kofidesiterval for. 3) Forudsat at X er Poissofordelt p ( ~ ) øskes bereget det forvetede atal volumeeheder, hvori der forekommer 5 gærceller (for x = 5). Opgave 9.3 Ved ispektio af e produktio med isolerig af kobberledig taltes der i løbet af 50 miutter i alt isolerigsfejl. Idet atallet af isolerigsfejl p. 50 miutter atages at være Poissofordelt p ( ), skal ma a) agive et estimat for. b) agive et 95% kofidesiterval for. Det oplyses u, at ma i hver 5 miutters periode i de ovefor omtalte 50 miutters periode havde observeret følgede atal isolerigsfejl: Periode 3 4 5 6 7 8 9 0 Atal fejl 0 3 0 0 Idet atallet af isolerigsfejl p. 5 miutter atages at være Poissofordelt p ( a) agive et estimat for. b) agive et 95% kofidesiterval for. ), skal ma Opgave 9.3 I e ure fides 0 røde kugler, 5 hvide kugler og 3 sorte kugler.6 gage efter hiade optages tilfældigt e kugle fra ure. Bestem sadsylighede for, at der i alt er optaget rød, hvide og 3 sorte kugler, år ) kuglere optages ude tilbagelægig ) kuglere optages med tilbagelægig. Opgave 9.33 E virksomhed fabrikerer farvede glasklodser til dekoratiosbrug. Defekte glasklodser frasorteres. Ma har erfarig for, at af de frasorterede klodser har i middel 50% ku rever, 35% ku farvefejl, medes reste har begge disse fejl. Bereg sadsylighede for, at af tilfældige defekte klodser har 6 ku rever, 4 ku farvefejl og begge disse fejl. Opgave 9.34 I et kortspil med de sædvalige 5 spillekort har e spiller modtaget 3 kort. Agiv i procet med decimaler sadsylighede for, at 3 af disse er esser og 5 er billedkort. 07
0 ANDRE KONTINUERTE FORDELINGER 0. INDLEDNING Vi vil i dette kapitel kort orietere om e række fordeliger, som er vigtige i specielle sammehæge, 0. DEN REKTANGULÆRE FORDELING DEFINITION af rektagulær fordelig med parametree a og b. Lad a og b være to reelle tal, hvor a<b. Sadsylighedsfordelige for e kotiuert stokastisk variabel X med tæthedsfuktioe f for a x b (x) bestemt ved f ( x) = b a 0 ellers siges at være rektagulært fordelt rekt (a, b ). SÆTNING 0.. ( Middelværdi og spredig for rektagulær fordelig ). a + b b a De rektagulære fordelig har E( X ) = og σ ( X ) = (a < b) 3 Bevis: E( X ) = V ( X ) = b a a x b a dx x b a = ( b a) = + b a b a b x + x + 3 ( b a) dx = = b a 3( b a) b a b a Eksempel 0. giver et eksempel på de rektagulære fordelig. 08
0. De rektagulære fordelig Eksempel 0. Kotiuert variabel. Lad rade af e roulette være ækvidistat iddelt efter e skala fra 0 til, jævfør figure. Ved et roulettespil briges roulettes viser til at rotere, hvorefter de stadser ud for et tilfældigt pukt på skalae. Lad X være det tal som roulettes viser peger på. Idet X må kue atage ethvert tal mellem 0 og, må X være e kotiuert variabel. Agiv tæthedsfuktio og fordeligsfuktio for X og skitser disse. LØSNING: x Da P( 0 X x) = for 0 x er fordeligsfuktioe for X 0 for x 0 x F( x) = for 0 x for x Ved differetiatio fås tæthedsfuktioe for 0 x f ( x) = 0 ellers 09
0.Adre kotiuerte fordeliger 0.3 EKSPONENTIALFORDELINGEN I kapitel 7 betragtede vi atallet N af rever pr. meter lags et kobberkabel. Vi atog, at N var Poissofordelt. Hvis vi i stedet havde betragtet afstade X mellem revere, havde vi fået e y stokastisk variabel, som må være kotiuert. Som det fremgår af følgede sætig er X ekspoetialfordelt. SÆTNING 0. (Ekspoetialfordelig). Lad W være e Poissofordelt stokastisk variabel. Lad det geemsitlige atal impulser i e tidsehed være æste impuls. X er da e kotiuert stokastisk variabel med sadsylighedsfordelige (tæthedsfuktioe) f ( x ) = P ( X = x) bestemt ved x µ e for x > 0 f ( x) = µ 0 ellers hvor µ = λ X siges at være ekspoetialfordelt exp ( µ ) med parametere µ. λ. Lad X være tide idtil Bevis: I tidsrummet fra x 0 til x 0 + x er der I geemsit λ x impulser. Lad W være det aktuelle atal impulser i tidsrummet [x 0 ; x 0 + x ]. W er da Poissofordelt p( λ x). Idet X er tide fra é impuls til de æste, er P( X > x) = P( W = 0), da der ige impulser er i tidsrummet [x 0 ; x 0 + x ]. 0 ( λ x) λ x λ x x Da P( W = 0) = e = e, er P( X > x) = e λ. 0! x Vi har derfor F( x) = P( X x) = P( X > x) = e λ. λ x Ved differetiatio fås tæthedsfuktioe: f ( x) = F'( x) = λ e. Sættes λ = fås formle. µ Bevis for middelværdi og spredig: E X x x x ( ) = λ λ λ e dx = - e ( x = = µ 0 λ λ x V ( X ) = E( X ) ( E( X )) = λ λ x e dx µ = - e λ x x x + 0 λ λ 0 0 µ = =. µ µ λ Som det fremgår af beviset for sætig 0., er fordeligsfuktioe for e ekspoetialfordelt variabel bestemt ved udtrykket 0
0.3 Ekspoetialfordelige x µ F( x) = P( X x) = e for x > 0 0 ellers På edeståede graf er afbildet tæthedsfuktioe for ekspoetialfordeligere exp(.0) og exp(.0) 0,8 0,6 0,4 0, 0 0 4 6 8 0 Fig 0. Ekspoetialfordeligere exp() og exp() Eksempel 0.. Afstade mellem successive rever i kabel. Vi betragter det i eksempel 5. omtalte problem, hvor ma fadt, at atallet N af mikroskopiske rever i et kobberkabel er Poissofordelt. Der var i geemsit.3 af de type rever pr. 0 meter. Lad X være afstade mellem to på hiade følgede rever. Bereg sadsylighede for, at der er mere ed meter mellem to rever. Løsig Da der i geemsit er.3 rever pr. meter, må der i geemsit være = 08. meter mellem. 3 to rever. Vi har derfor at X er ekspoetialfordelt med µ = 0.83. 0. 83. 3 P( X > ) = P( X ) = e = e = 0. 93 Levetider. I apparater, som består af elektroiske kompoeter (eksempelvis lommeregere), er der et meget rige mekaisk slid. Apparatets fremtidige levetid vil derfor (æste ikke) afhæge af, hvor læge det har fugeret idtil u. I sådae tilfælde vil ekspoetialfordelige erfarigsmæssigt være e god approksimativ model for apparatets levetid. Det ka emlig vises, at ekspoetialfordelige er de eeste kotiuerte fordelig, som har oveævte egeskab (er ude hukommelse) Bevis: Lad X være ekspoetialfordelt med middelværdi da: (( > + ) ( > )) P X a b X a P( X > a + b X > a) = P( X > a) µ og lad b > a > 0 være vilkårlige kostater. Der gælder a b + µ P( X > a + b) e µ = = b = e = P( X > b) P( X > a) µ e b
Adre kotiuerte fordeliger Eksempel 0.3. Levetid for elektriske pærer. Ma har erfarig for, at e bestemt type elektriske pærer har e "brædtid" T (målt i timer), som approksimativt er ekspoetialfordelt. På basis af et stort atal måliger ved ma, at middellevetide er µ = 500 timer. ) Hvor stor er sadsylighede for, at e tilfældig pære bræder over, ide de har været tædt i 00 timer? ) Fid sadsylighede for, at e tilfældig pære bræder i mere ed 800 timer. 3) E pære har brædt i 800 timer. Hvad er sadsylighede for, at de bræder i midst 800 timer mere. Løsig ) P( T < ) = F( ) = 00 500 00 00 e = - 0.449 = 55%.. 800 ) 500 P( T > 800) = F( 800) = e = 30%. 3) Da ekspoetialfordelige ige hukommelse har, vil svaret blive som i spørgsmål, dvs. 30.%. 0.4 WEIBULLFORDELINGEN Hvis kompoetere i et elektroisk apparat ikke slides, dvs. de fremtidige levetid ikke afhæger af de foregåede tid, er som ævt i afsit 0.3 ekspoetialfordelige veleget som model for apparatets levetid. Hvis derimod de pågældede kompoeters evetuelle svigte afhæger af de forløbe tid, ka ma ofte med fordel beytte de i det følgede ævte Weibullfordelig som approksimativ model for apparatets levetid (model for apparatets pålidelighed). DEFINITION af Weibulfordelig. Lad k og µ være positive tal. Sadsylighedsfordelige for e kotiuert stokastisk variabel X med tæthedsfuktioe f ( x ) bestemt ved x k k k f ( x) = x µ e for x > 0 k µ 0 ellers siges at være Weibullfordelige wei( k, µ ). Det ka vises, at Weibullfordelige og spredige σ ( X ) = µ k + wei( k, µ ) har middelværdie E( X ) = µ Γ k k + k + Γ k Γ k Det ses, at Weibullfordelige ka opfattes som e geeralisatio af ekspoetialfordelige, idet wei(, µ ) = exp( µ ). Såfremt levetidere for kompoeter i et apparat aftager jo lægere tid apparatet har været i fuktio (på grud af slid), ka ma beytte e Weibullfordelig med k > som approksimativ model for apparatets levetid. ) ) Gammafuktioe 3A Γ( x) er defieret i Supplemet til statistiske grudbegreber
Logormal Distributio 0.6 De -dimesioale ormalfordelig 0.5 DEN LOGARITMISKE NORMALFORDELING Idefor det biokemiske eller biologiske område (forsøgsdyrs reaktiostid, cellevækst m.v.) er de stokastiske variabel X ikke ormalfordelt, me hvis ma foretager e logaritmisk trasformatio Y = l X er Y (approksimativt) ormalfordelt. Ma siger så, at X er logaritmisk ormalfordelt. l x µ Tæthedsfuktioe for X er bestemt ved f ( x) = for x > 0. x e σ π σ Det ka vises, at mes Y = l X har middelværdi µ og spredig σ har X middelværdi σ µ E( X ) = e e og V ( X ) = e µ σ σ e ( e ). Nedefor er teget e logaritmisk ormalfordelig med middelværdi 8 og spredig 5. 0,5 0, Mea,Std. dev. 8,5 desity 0,09 0,06 0,03 0 0 0 0 30 40 x 0.6 DEN -DIMENSIONALE NORMALFORDELING Flerdimesioale fordeliger vil blive omtalt ærmere i kapitel. Her æves ude forklarig et eksempel herpå. DEFINITION af -dimesioal ormalfordelig Lad µ, µ være reelle tal og σ, σ være positive tal. Sadsylighedsfordelige for -dimesioal kotiuert stokastisk variabel (X,X ) med tæthedsfuktio bestemt ved f ( x) = π σ σ ρ e x x x x µ µ µ + µ ρ ( ρ ) σ σ σ σ kaldes de -dimesioale ormalfordelig med parametree µ, µ, σ og σ. Det ka vises, at E( X ) = µ, E( X ) = µ, σ ( X ) = σ, σ ( X ) = σ og ρ( X, X ) = ρ ( defieres i kapitel 9). Grafe ses overfor. 3
Adre kotiuerte fordeliger OPGAVER Opgave 0. På et betaligsummer måltes ma i tidsrummet fra kl 0 til tide t (atal miutter) mellem på hiade følgede telefoopkald. Følgede resultater fadtes: Beliggehed af t ]0;] ];] ];3] ]3;4] ]4;5] ]5;6] ]6;7] ]7;8] ]8;9] ]9;0] ]0; [ Atal observatioer 36 6 3 7 9 6 6 0 Det atages, at atallet N af telefoopkald til ummeret er Poissofordelt. Lad T være tide mellem to opkald. ) Agiv fordeligsfuktioe for T, og giv et estimat for middelværdie µ. Vik: Atage, at for alle observatioer i et iterval er tidsrummet mellem observatioere itervallets midterværdi. ) På baggrud af de i spørgsmål fude estimat for µ, øskes bestemt P( < T 3). 3) Af tabelle ses, at i itervallet ]; 3] forekommer i alt 6 observatioer. Agiv hvor mage observatioer ma må forvete, ud fra resultatet i spørgsmål. Opgave 0. Om e bestemt type elektriske kompoeter vides, at deres levetider er ekspoetialfordelte med e middellevetid på 800 timer. ) Fid sadsylighede for, at e kompoet holder midst 00 timer. ) Fid sadsylighede for, at e kompoet holder mellem 600 og 800 timer. 3) E kompoet har holdt i 900 timer. Fid sadsylighede for, at de ka holde i midst 00 timer mere. 4) I et elektrisk system idgår etop é kompoet af dee type. Hver gag kompoete svigter, udskiftes de øjeblikkeligt med e y kompoet af samme type. Fid sadsylighede for, at kompoete udskiftes gage i løbet af 8000 timer. Opgave 0.3 Atag, at levetidere for e bestemt slags elektroiske kompoeter er uafhægige og alle er ekspoetialfordelt med e middellevetid på 3 (år). Betragt et delsystem beståede af 3 sådae kompoeter i seriekoblig:(e seriekoblig ophører at fugere, år é af kompoetere ophører at fugere). Bestem middellevetide for et sådat system. Opgave 0.4 Nedbrydigstide i de meeskelige orgaisme for et givet kvatum af et bestemt stof atages at være ekspoetialfordelt med middelværdie 5 timer. Ved et forsøg idsprøjtes stoffet samtidig i 0 patieter. ) Bereg sadsylighede (afrudet til et helt atal procet) for, at stoffet hos e tilfældig valgt patiet vil være edbrudt efter 8 timers forløb. ) Bereg sadsylighede for, at stoffet efter 8 timers forløb vil være edbrudt hos midst 5 af patietere. 3) Efter hvor mage timers forløb vil der være ca. 90% sadsylighed for, at stoffet er edbrudt hos samtlige 0 patieter? 4) Hvor mage patieter skal idgå i e y udersøgelse, hvis der skal være ca. 95% sadsylighed for, at der er midst e patiet, hvis orgaisme efter 8 timers forløb edu ikke har edbrudt stoffet? 4
. Idledig Bjare Hellese: FLERDIMENSIONAL STOKASTISK VARIABEL ESSENS ( ) Kovariase V ( X, X ) = E ( X µ ) ( X µ ) i j i er et mål for to variables tedes til at variere i takt med hiade (samvarias). Kovariase er f.eks. positiv(egativ), år afvigelse µ har e tedes til at være positivt (egativt) proportioal med afvigelse X j µ j. Er X i X i i X j og statistisk uafhægige, bliver kovariase 0 (me ma ka ikke slutte de ade vej). V ( Xi, X j ) Korrelatioskoefficiete ρ( X i, X j ) er ormeret, så ρ( X i, X j ). σ σ i j X 95 85 75 65 55 X3 85 75 65 55 X4 64 54 44 34 4 45 50 60 70 80 90 00 X 45 50 60 70 80 90 00 X 4 50 60 70 80 90 00 Stikprøve viser positiv Stikprøve viser ige Stikprøve viser egativ korrelatio: ρ( X, X ) 084.. korrelatio: ρ( X, X ) = 0. 00 korrelato: ρ( X, X ) 084... fs + f s +... + f ksk Poolet estimat spool = med f pool = f + f +... + f k frihedsgrader beyttes, f + f +... + f år ma har k uafhægige estimater for de samme varias σ : SAK SAK SAK s =, s =,..., s k k =, f f f k k X 5
Flerdimesioal statistisk variabel Har to stikprøver givet estimatere s =. 345, s = 3456. med f = 6, f = 4 frihedsgrader, f s f s + 6. 345 + 4 3456. bliver det poolede estimat spool = = =. 7894. 789 f + f 6 + 4 med f pool = f + f = 6 + 4 = 0 frihedsgrader. Liearitetsregle E( a0 + a X + a X +... + ak X k ) = a0 + ae( X) + ae( X ) +... + ak E( X k ), (a ere er kostater). Er, fås E( X ) = E( X ) = 3 E( 4 + 5X + 6X ) = 4 + 5E( X ) + 6E( X ) = 4 + 5 + 6 3 = 3. Kvadratregle V ( a + a X + a X +... + a X ) Er 0 = a V ( X ) + a V ( X ) +... + a V ( X ) + a a V ( X, X ) V ( X ) =, V ( X ) = 3, V ( X, X ) = 5., k k k k k i j i j i= j= i+ V ( 4 + 5X + 6X ) = 5 V ( X ) + 6 V ( X ) + 5 6 V ( X, X ) fås = 5 + 6 3 + 5 6 5. = 48 k.. INDLEDNING Ved avedelsere optræder der ofte rflere stokastiske variable X, X,..., X k ad gage. Det ka da være aturligt at samle dem i et ordet sæt X = ( X, X,..., X k ), som kaldes e k-dimesioal stokastisk variabel. Eksempelvis: * Et levedsmiddel ka af e tilfældig r udtaget forbruger bedømmes ved e karakter for smage og e karakter X for lugte. Så er X = ( X, X ) = ( ) e -dimesioal stokastisk variabel. Smag, Lugt * Et tilfældigt eksperimet r går ud på at udtage e tilfældig perso og måle vedkommedes højde og masse X. Så er X = ( X, X ) = ( ) e -dimesioal stokastisk variabel. Højde, Masse r * Uges 7 lottotal udgør e 7-dimesioal stokastisk variabel X = ( X, X,..., X ). 7 r * Et tilfældigt eksperimet går ud på at kaste e rød og e hvid terig. Så er X = ( X, X ) = (Atal øje op på rød terig, Atal øje op på hvid terig) e -dimesioal stokastisk variabel. For hver af de -dimesioale stokastiske variable X, X,..., X k har vi defieret: * Fordeligsfuktioer F, F,..., F k : F ( X ) P( X x ), F ( X ) P( X x ),..., F ( X ) P( X x ). k k k k * Tæthedsfuktioer f, f,..., f k, år X, X,..., X k er diskrete variable: f ( x ) P( X = x ), f ( x ) P( X = x ),..., f ( x ) P( X = x ), og år de er kotiuerte variable: df ( x) df ( x) dfk ( x k ) f( x), f ( x),..., f k ( x k ). dx dx dx k k k k * Middelværdier, år X, X,..., X k er diskrete variable: E( g( X ) g( x ) f ( x ),..., E( g( X ) g( x ) f ( x ), ( ) ( ) x og år de er kotiuerte variable: k k k k k x k X X 6
( ) E( g( X ) g( x ) f ( x ) dx,..., E( g( X ) g( x ) f ( x ) dx, ( ) k k k k k specielt µ E( X ) x f ( x ),..., µ k E( X ) x k f k ( x k ), og x xk µ,...,. E( X ) x f ( x ) dx µ k E( X k ) x k f k ( x k ) dx k Af defiitioe på middelværdi følger liearitetsregle: E a g( X ) + b h( X ) = a E g( X ) + b E h( X ). ( ) ( ) ( ) i i i i r For e k-dimesioal stokastisk variabel X = ( X, X,..., X k ) defierer vi aalogt: * Fordeligsfuktioe F : ( betyder både og ) F( x, x,..., xk ) P( X x) P( X x )... P( X k x k ). * Tæthedsfuktioe f, år X, X,..., X k er diskrete variable: f ( x, x,..., x k ) P( X = x) P( X = x )... P( X k = x k ) k F( x, x,..., x k ) og år de er kotiuerte variable: f ( x, x,..., x k ). x x,..., x * Middelværdier, år X, X,..., X k er diskrete variable: E g( X, X,..., X ) =... g( x, x,..., x ) f ( x, x,..., x ) ( k ) k x x xk og år de er kotiuerte variable: k k. Idledig E( g( X, X,..., X k )) = dx dx... g( x, x,..., xk ) f ( x, x,..., xk ) dx k r r r r Af defiitioe på middelværdi følger liearitetsregle: E( a g( X ) + b h( X )) = a E( g( X )) + b E( h( X )) De variable X, X,..., X k kaldes stokastisk uafhægige, såfremt de for alle værdier af x, x,..., x k opfylder betigelse: f ( x, x..., x ) = f ( x ) f ( x )... f ( x ), k k k der ka vises at være ækvivalet med betigelse: F( x, x..., x ) = F ( x ) F ( x )... F ( x ). k k k r E r stikprøve r r af størrelse på e stokastisk variabel X = ( X, X,..., X k ) defieres som ( X, X,..., X ) = (( X X X X X X X X X ),,..., k ),(,,..., k ),...,(,,..., ) r r r k r hvor X, X,..., X er statistisk uafhægige variable, der hver har samme fordelig som X. Eksempel.. -dimesioal stokastisk variabel. Et levedsmiddel ka af e tilfældig forbruger bedømmes ved e karakter X for smage og e karakter X for lugte. Karaktere X ka atage værdiere 0, og, mes X ku ka atage værdiere 0 og. a) Atag, at ma teoretisk keder tæthedsfuktioe f ( x, x ) : f ( x, x ) x 0 x 0 0. 0. 0. 0. 0. 0.3. a) Fid de -dimesioale tæthedsfuktioer f( x) og f ( x ). a) Er X og X statistisk uafhægige? a3) Fid middelværdiere µ = E( X ) og µ = E( X ) samt spredigere σ = σ( X) og σ = σ( X ). a4) Fid middelværdie E( X, X ). b) Atag, at ma i stedet keder e stikprøve på ( X, X ) : (,), (0,0), (,), (,), (,0), (,), (0,), (,), (0, ), (,). b) Beyt stikprøve til at fide estimater for størrelsere i spørgsmål a3) 7
Flerdimesioal stokastisk variabel LØSNING: a) Ved summatio ed geem de lodrette søjler i tabelle for tæthedsfuktioe f ( x, x ) P( X = x X = x) fås de -dimesioale tæthedsfuktio f( x) = P( X = x) : f ( 0) = 0. + 0. = 0. 3, f ( ) = 0. + 0. = 0. 3, f ( ) = 0. + 0. 3 = 0. 4. Ved summatio he geem de vadrette rækker i tabelle for tæthedsfuktioe -dimesioale tæthedsfuktio f( x ) : f ( 0) = 0. + 0. + 0. = 0. 4, f ( ) = 0. + 0. + 0. 3 = 0. 6. f ( x, x ) fås aalogt de a) De variable X og X er statistisk uafhægige, hvis og ku hvis f ( x, x) = f( x) f ( x) for alle værdier af ( x, x ) i defiitiosmægde. Me da f.eks. f( 0) f ( 0) = 0. 3 0. 4 = 0. er forskellig fra f ( 0, 0) = 0., er X og X ikke statistisk uafhægige. a3) Vi fider µ = E( X ) = x f ( x ) = 0 f ( 0) + f ( ) + f ( ) = 0 0. 3 + 0. 3 + 0. 4 =. = E( X ) = x f ( x ) = 0 f ( 0) + f ( ) = 0 0. 4 + 0. 6 =. µ ( ) σ = σ ( X ) V ( X ) E ( X µ ) = ( x µ ) f ( x ) = ( 0. ) 0. 3 + (. ) 0. 3 + (. ) 0. 4 = 0. 69 = 083067. ( ) σ = σ ( X ) V ( X ) E ( X µ ) = ( x µ ) f ( x ) = ( 0. ) 0. 4 + (. ) 0. 6 = 0. 96 = 0. 97980 a4) Vi fider E( X X ) x x f ( x, x ) = 0 0 f ( 0, 0) + 0 f (, 0) + x x 0 f (, 0) + 0 f ( 0, ) + f (, ) + f (, ) = 0 0. + 0 0. + 0 0. + 0 0. + 0. + 4 0. 3 = 6.. x b) Stikprøves -værdier, 0,,,,, 0,, 0, ka idtastes på e lommereger, der fider geemsittet x og stadardafvigelse s som tilærmelser til middelværdi µ og spredig σ for X. Ma fider: µ E( X ) x =., σ = σ( X) s = 0. 989. x Aalogt idtastes stikprøves - værdier, 0,,, 0,,,,,, og ma fider µ E( X ) x = 6., σ = σ( X ) s = 08433. Det ses, at estimatere har e vis lighed med de eksakte værdier i spørgsmål a3).. KOVARIANS OG KORRELATIONSKOEFFICIENT Vi har omtalt, at hver stokastisk variabel har e varias. Me et par variable X og X ka have e tedes til at variere i overesstemmelse med hiade (samvarias), således at afvigelsere X µ og X µ overvejede har samme forteg (positiv korrelatio) eller overvejede har modsat forteg (egativ korrelatio). Eksempelvis ka e høj forekomst af ét vitami i et levedsmiddel ofte være ledsaget af e høj forekomst af et adet vitami (positiv korrelatio). Og studeredes højde og masse ka også have e positiv rkorrelatio. Vi betragter ige e k-dimesioal stokastisk variabel X = ( X, X,..., X k ). For et par af variable X og i X j defieres kovariase ( samvariase ) ( µ µ ) V ( X, X ) E ( X ) ( X ) i j i i j j (de giver jo et vist mål for, om afvigelsere X i µ i og X j µ j i middel har samme forteg eller modsat forteg). Sættes i = j, fås V ( Xi, Xi ) = E( ( Xi µ i ) ), som er idetisk med variase V ( X i ) for variable X i 8
( ) µ µ ( ) Ma ka vise (se edefor), at V ( X i, X j ) = E X i X j i j, som for i = j giver V ( X ) = E X µ.. Idledig i i i Bevis: V ( X i, X j ) E( ( Xi µ i ) ( X j µ j )) = E( XiX j µ ix j X iµ j + µ iµ j ). Avedes liearitetsregle ka sidste led omformes: = E( X X ) µ E( X ) E( X ) µ + µ µ = E( X X ) µ µ µ µ + µ µ = E( X X ) µ µ i j i j i j i j i j i j i j i j i j i j For bedre at kue vurdere hvor meget de variable varierer i takt med hiade, divideres kovariase med spredigere, så ma får de såkaldte korrelatioskoefficiet: V ( X i, X j ) ρ( X i, X j ) σ σ Ma ka vise (se edefor), at ρ( Xi, X j ). Bevis: Vi har 0 E ( λ X + X ) i µ i j µ j = E λ ( X i µ i ) + λ ( X i µ i )( X j µ j ) + ( X j µ j ) ( ) ( ) ( ) (( i i ) ) (( i i )( j j )) (( j j ) ) = λ V X i + V X i X j λ + V X j = λ E X µ + λ E X µ X µ + E X µ Da dette adegradspolyomium i λ ( ) (, ) ( ) aldrig er egativt, ka diskrimiate ikke være positiv, dvs. ( ) V ( Xi, X j ) 4( V ( X i, X j )) 4 V ( Xi ) V ( X j ) 0 ( ρ( Xi, X j )) ρ( X i, X j ). V ( X ) V ( X ) Ma ka (som det ses edefor) vise, at X og X stat. uafhægige E( X X ) = E( X ) E( X ) V ( X, X ) = 0 ρ( X, X ) = 0 i j i j i j i j i j Bevis: Vi har X og X stat. uafhægige f ( x, x ) = f ( x ) f ( x ) i j i i j j E( X X ) = x x f ( x, x ) = x x f ( x ) f ( x ) i j i j i j xi x j xi x j i j i i j j = x f ( x ) x f ( x ) = E ( X ) E ( X ) i i i j j j i j xi x j V ( X i, X j ) V ( X i, X j ) = E( Xi X j ) µ i µ j = E( X i ) E( X j ) µ i µ j = 0 ρ( X i, X j ) = = 0. σ σ i j Estimater for kovarias, varias og korrelatioskoefficiet Ud fra e stikprøve ( x, y ),( x, y ),...,( x, y ) SAPXY ( xi x) ( yi y), SAK X ( xi x), i= i= ka ma berege SAK X ( xi x) ( SAP = Sum af Afvigelsers Produkter, SAK = Sum af Afvigelsers Kvadrater ) og heraf dae estimater for kovarias, variaser og korrelatioskoefficiet: SAPXY SAK X SAKY kovarias: V ( X, Y) og variaser: V ( X ), V ( Y) i= korrelatioskoefficiet: ρ( X, Y) r SAK SAP X XY SAK Y 9
Flerdimesioal stokastisk variabel Det ka således vises (for ehver fordeligstype), at E SAP XY = V ( X, Y), E SAK X = V ( X ), E SAK Y = V ( Y) Bevis: Vi har ( i µ x µ x ) ( i µ Y µ Y ) SAP = ( X X )( Y Y) = ( X ) ( X ( Y ) ( Y ) XY i i i= i= = ( X µ )( Y µ ) + ( X µ )( Y µ ) ( X µ )( Y µ ) ( X µ )( Y µ ) i x i Y x Y i x Y i= i= i= i= x i Y = ( X i µ x )( Yi µ Y ) + ( X µ x )( Y µ Y ) ( X µ x )( Y µ Y ) ( X µ x )( Y µ Y ) i= = ( X i µ x )( Yi µ Y ) ( X µ x )( Y µ Y ). i= Altså fås ved hjælp af liearitetsregle: ( ) ( ) E( SAPXY ) = E ( X i µ x )( Yi µ Y ) E ( X µ x )( Y µ Y ) i= = V ( X Y + + + + + + E X X X Y Y Y i, i ) (... x )(... Y ) i= ( µ µ ) = V X Y (, ) = E ( X Y i µ x ) ( j µ Y ) i i= j= = V ( X, Y) E( ( Xi µ x )( Yj µ Y ) = V ( X, Y) V ( X i, Yj ) i= j = = V ( X, Y) V ( X i, Yi ) i= i= j = ( idet V ( X, Y ) = 0 for i j i e stikprøve) i j = V ( X, Y ) =, dvs.. V ( X, Y) ( ) V ( X, Y) E SAP XY = V ( X, Y) Erstattes Y med X i beviset, bliver SAP XY erstattet med SAK X, og V ( X, Y) bliver erstattet med V ( X ), hvorved vi også får bevist, at E SAK X = V ( X ). Erstattes X med Y, fås edelig E SAK Y = V ( Y) Poolet estimat Som ævt er SAK e forkortelse for Sum af Afvigelsers Kvadrater. De afvigelser der tækes på er de differeser X X, X X,..., X X. De har summe 0, så år - af dem er kedt, er de sidste fastlagt. Da SAK således ku er baseret på - uafhægige differeser, siger ma, at SAK har f = - frihedsgrader. Det er også atallet SAK af frihedsgrader der optræder i estimatet for varias: s X = f Ofte har ma taget k stikprøver på variable med samme varias σ, så vi får k uafhægige estimater for de samme varias σ : SAK SAK SAK s =, s =,......, s k k = f f f k og det er da fordelagtigt at foree dem i et såkaldt fællesestimat eller poolet estimat: fs + f s +... + f k sk spool = f + f +... + f k med f pool = f + f +... + f k frihedsgrader. Dette ka også skrives SAK + SAK +... + SAKk spool =, med f pool = f + f +... + f k f + f +... + f frihedsgrader. s pool k Det ses, at har de rigtige middelværdi σ, idet liearitetsregle giver fe( s ) + fe( s ) +... + f k E( sk ) fσ + fσ +... + f kσ E( spool ) = = = σ. f + f +... + f f + f +... + f k k 0
.3 Liearkombiatio Eksempel.. Kovarias. Korrelatioskoefficiet. Vi betragter ige de -dimesioale fordelig fra eksempel.. a5) Fid kovariase og korrelatioskoefficiete. b) Beyt stikprøve til at fide estimater for kovariase og korrelatioskoefficiete. LØSNING: a5) Idet vi i eksempel. har fudet µ =., µ =., σ = 0. 69 og σ = 0. 96, fider vi u kovariase V ( X, X ) og korrelatioskoefficiete ρ( X, X ) : ( ) V ( X, X ) E ( X µ ) ( X µ ) = ( x µ )( x µ ) f ( x, x ) i j i i j j x x = ( 0 µ ) ( 0 µ ) f ( 0, 0) + ( µ ) ( 0 µ ) f (, 0) + ( µ ) ( 0 µ ) f (, 0) + ( 0 µ ) ( µ ) f ( 0, ) + ( µ ) ( µ ) f (, ) + ( µ ) ( µ ) f (, ) = ( 0. ) ( 0.. ) 0. + (. ) ( 0. ) 0. + (. ) ( 0. ) 0. + ( 0. ) (.. ) 0. + (. ) (. ) 0. + (. ) (. ) 0. 3 = 0. 8 V ( X, X ) ρ( X, X ) = σ ( X ) σ ( X ) 0. 8 = 0. 3440. 0. 69 0. 96 b) Stikprøves værdier (,), (0,0), (,), (,), (,0), (,), (0,), (,), (0,), (,) ka idtastes på e lommereger, der fider tilærmelser (estimater) til kovariase V ( X, X ) og korrelatioskoefficiete ρ( X, X ) : ( x i x)( xi x) SAP i= V ( X, X ) = = 0. 3 ρ( X, X ) r SAP SAK SAK = i= i= ( x x )( x x ) i i ( x x ) ( x x ) i j j= = 0. 405 Det ses, at estimatere har e vis lighed med de eksakte værdier i spørgsmål a5)...3 LINEARKOMBINATION Når vi skal tage e stikprøve ( X, X,..., X ) på e -dimesioal stokastisk variabel X, så skal vi gage skaffe et tal r X fra et tilfældigt eksperimet. Derfor ka vi opfatte stikprøve som e -dimesioal stokastisk variabel X = ( X, X,..., X ). X + X +... + X Vi bruger ofte stikprøve til at dae geemsittet X = X = + X + + X... som er e speciel liearkombiatio af X, X,..., X. r Ved e liearkombiatio L for e k-dimesioal stokastisk variabel X = ( X, X,..., X k ) forstås et udtryk af forme L = a0 + a X + a X +... + a X, hvor a 0, a, a 3,..., a k er kostater. k k For middelværdie af L giver liearitetsregle: E( L) = a0 + ae( X ) + a E( X ) +... + ak E( X k ). Eksempelvis ka vi se, at et geemsit X altid har de rigtige middelværdi µ : E X. E X E X E X ( ) = ( ) + ( ) +... + ( ) = µ + µ +... + µ = µ For variase af e liearkombiatio L gælder kvadratregle: V ( L) = a V ( X ) + a V ( X ) +... + a V ( X ) + a a V ( X, X ) k k k i j i j i= j= i+ k
Flerdimesioal stokastisk variabel Eksempelvis: a) V ( a + bx + cy) = b V ( X ) + c V ( Y) + bcv ( X, Y) b) V ( a + bx + cy + dz) = b V ( X ) + c V ( Y) + d V ( Z) + bcv ( X, Y) + cdv ( Y, Z) + dbv ( Z, X ). c) V X (X ere statistisk uafhægige) V X V X ( ) = ( ) + ( ) +... + V ( X ) σ σ( X ) = + + + =, dvs.. σ σ... σ σ( X ) = De sidste ligig viser, at spredige på et geemsit ku er omvedt proportioal med kvadratrode på stikprøvestørrelse. For at få et geemsit med e 0 gage midre spredig, skal stikprøve altså gøres 00 gage større! Bevis for kvadratregle. Vi fider ( ) ( 0 k k 0 µ kµ k ) ( ( µ )... ( µ )) V ( L) E ( L E( L)) = E ( a + a X +... + a X a a... a ) ( k k k ) = E a X + + a X k k = E a X + + a X + a a X X ( µ )... k ( k µ k ) i j ( i µ i )( j µ j ) i= j= k k (( µ ) )... k (( k µ k ) ) i j (( i µ i )( j µ j )) = a E X + + a E X + a a E X X i= j= = a V ( X ) +... + a V ( X ) + a a V ( X, X ). k k k i j i j i= j= k Eksempel.3. Liearkombiatio af stokastiske variable. Et levedsmiddel leveres i poser. Lad X og X [mg/kg] betege kocetratioere af to stoffer A og B i e tilfældig udvalgt pose. Det vides, at E( X) = 0. 0, E( X ) = 30. 0, σ( X ) =. 0, σ( X ) = 4. 0 og V ( X, X ) = 4. 0. Holdbarhede Y er teoretisk givet ved Y = 5 + 4 X + 3X [dage]. Fid holdbarhedes middelværdi E( Y) og spredig σ( Y). LØSNING: Vi fider E( Y) = E( 5 + 4 X + 3X ) = 5 + 4 E( X ) + 3 E( X ) = 5 + 4 0. 0 + 3 30. 0 = 750. V ( Y) = V ( 5 + 4X + 3X ) = 4 V ( X) + 3 V ( X ) + 4 3 V ( X, X ) = 4. 0 + 3 4. 0 + 4 3 ( 4. 0) = σ( Y) V ( Y) = = 0. 5830.
Opgaver til kapitel OPGAVER Opgave.. (-dimesioal stokastisk variabel) Et spil i et casio går ud på at trække e tilfældig seddel fra e ure (og lægge sedle tilbage ige). Ure ideholder 0 sedler, og på hver seddel står tal ( X, X ) : (,0) (3,0) (4,0) (,0) (3,3) (4,3) (,3) (4,3) (,3) (,3) a) Fid de -dimesioale tæthedsfuktio f ( x, x ) : a) Fid de -dimesioale tæthedsfuktioer f( x) og f ( x ). a3) Er X og X statistisk uafhægige? a4) Fid middelværdiere µ = E( X ) og µ = E( X ) samt spredigere σ ( X ) og σ ( X ). a5) Fid middelværdie E( X X ). b) Atag, at ma i stedet keder e stikprøve på ( X, X ) : (,3), (,0), (,0), (4,3), (3,0), (4,3), (,0), (3,0), (3,3 ), (,3). b) Beyt stikprøve til at fide estimater for størrelsere i spørgsmål a4). Opgave.. (kovarias, korrelatioskoefficiet) a6) Fid kovariase V ( X, X ) og korrelatioskoefficiete ρ( X, X ). b) Beyt stikprøve til at fide estimater for størrelsere i spørgsmål a6). Opgave..3 (liearkombiatio) For det i opgave.. og.. omtalte casio aftales et spil, hvor geviste er G = 0 + 0X + 5X. a7) Fid gevistes middelværdi E( G) og spredig σ( G). b3) Beyt stikprøve til at fide estimater for størrelsere i spørgsmål a7). Opgave.. (-dimesioal stokastisk variabel) Uder e produktio ka der optræde fejl. Lad ( X, X ) =( Atal gage der optræder fejl af type, Atal gage der optræder fejl af type ) i e tilfældig produktio. Variable X ka atage værdiere 0, og, mes X ku ka atage værdiere 0 og. a) Atag, at ma teoretisk keder tæthedsfuktioe f ( x, x ) : f ( x, x ) x 0 x 0 0.3 0. 0. 0. 0. 0. a) Fid de -dimesioale tæthedsfuktioer f( x) og f ( x ). a) Er X og X statistisk uafhægige? a3) Fid middelværdiere µ = E( X ) og µ = E( X ) samt spredigere σ ( X ) og σ ( X ). a4) Fid middelværdie E( X + X ). b) Atag, at ma i stedet keder e stikprøve på ( X, X ) : (0,), (0,0), (,), (,), (0,0), (0,0), (0,), (,), (0,0 ), (,). b) Beyt stikprøve til at fide estimater for størrelsere i spørgsmål a3). Opgave.. (kovarias, korrelatioskoefficiet) Vi betragter ige produktiosprocesse fra opgave... a5) Fid kovariase V ( X, X ) og korrelatioskoefficiete ρ( X, X ). b) Beyt stikprøve til at fide estimater for størrelsere i spørgsmål a5). 3
Flerdimesioal stokastisk variabel Opgave..3 (liearkombiatio) For de i opgave.. og.. omtalte produktiosproces er fortjeeste F = 0000 3000X 4000X. a6) Fid fortjeestes middelværdi E( F) og spredig σ( F). b3) Beyt stikprøve til at fide estimater for størrelsere i spørgsmål a6). Opgave.3. (-dimesioal stokastisk variabel) År 400. E sode er vedt hjem med oplysiger om idivider på e fremmed plaet. De ka have, 4 eller 6 øje, og eller 4 ører. Lad ( X, X ) = (Atal øje, Atal ører) for et tilfældigt udtaget idivid på plaete. a) Professor Cosmusse har teoretisk opstillet tæthedsfuktioe f ( x, x ) : f ( x, x ) x 4 6 x 0. 0. 0. 4 0. 0.3 0. a) Fid de -dimesioale tæthedsfuktioer f( x) og f ( x ). a) Er X og X statistisk uafhægige? a3) Fid middelværdiere µ = E( X ) og µ = E( X ) samt spredigere σ ( X ) og σ ( X ). a4) Fid middelværdie E +. X X b) Atag, at ma i stedet keder e stikprøve på ( X, X ) : (6,), (,4), (6,4), (,), (6,4), (4,4), (,), (4,), (4,4 ), (4,4). b) Beyt stikprøve til at fide estimater for størrelsere i spørgsmål a3). Opgave.3. (kovarias, korrelatioskoefficiet) Vi betragter ige idividere fra opgave... a5) Fid kovariase V ( X, X ) og korrelatioskoefficiete ρ( X, X ). b) Beyt stikprøve til at fide estimater for størrelsere i spørgsmål a5). Opgave.3.3 (liearkombiatio) For de i opgave.3. og.3. omtalte idivider har professor Cosmusse opstillet e formel for deres masse: M = 00 + 0X + 0X kg. a6) Fid masses middelværdi E( M) og spredig σ( M). b3) Beyt stikprøve til at fide estimater for størrelsere i spørgsmål a6). Opgave.4. (-dimesioal stokastisk variabel) Lad ( X, X ) = ( Højde [cm], Masse [kg] ) af e tilfældigt udtaget studerede på 3. halvår. Der foreligger følgede stikprøve: (78,63), (86,85), (80,68), (83,75), (64,55), (93,77), (93,84), (60,55), (65,63), (80,84), (69,74), (89,79). Fid estimater for middelværdiere µ = E( X ) og µ = E( X ) samt spredigere σ ( X ) og σ ( X ). Opgave.4. (kovarias, korrelatioskoefficiet) Beyt stikprøve i opgave.4. til at fide estimater for kovariase V ( X, X ) ρ( X, X ). og korrelatioskoefficiete Opgave.4.3 (liearkombiatio) Vi betragter ige de i opgave.4. og.4. omtalte studerede. E frugtavler har opstillet e formel for de timelø, ha vil give dem som frugtplukkere: L = 00 + 0. 3X 0. X kroer/time. Beyt stikprøve til at fide estimater for timeløes middelværdi E( L) og spredig σ( L). 4
Opgave.5 (poolet estimat) Kocetratioe af et stof A blev målt i 3 partier råvarer: Råvare : 56, 60, 54, 49, 6 Råvare : 78, 73, 80 Råvare 3: 66, 6, 70, 7, 60 Det atages, at der er samme spredig i de 3 tilfælde. Fid et estimat for spredige. Opgave.6 (poolet estimat) Kocetratioe af et stof A blev målt i levedsmidler: Levedsmiddel : 87, 89, 94, 86, 89, 95 Levedsmiddel : 93, 99, 94, 9, 98. Det atages, at der er samme spredig i de tilfælde. Fid et estimat for spredige. Opgave.7 (poolet estimat) Kocetratioe af et stof A blev målt i mælke fra 5 køer: Ko : 44, 48, 46, 43, 45 Ko : 40, 38, 4 Ko 3: 43, 45, 4, 4 Ko 4: 36, 3 Ko 5: 50 Det atages, at der er samme spredig i de 5 tilfælde. Fid et estimat for spredige. s pool s pool s pool Opgaver til kapitel σ σ σ 5
Statistiske beregiger på lommereger og PC-er STATISTISKE BEREGNINGER PÅ LOMMEREGNER TI89 SAMT PÅ PC-PROGRAMMERNE TI-Nspire, EXCEL, MAPLE OG MATHCAD TI 89 ) Geerelt: Beregig af sadsylighedsfordeliger: Metode Vælg HOME\ CATALOG,, F3\ vælg de øskede fordelig\enter (tryk evt på forbogstav for hurtigt at komme til det øskede av). Fordel: Hurtig ved beregig af sadsyligheder, såsom P(X < 0.87) da resultatet straks idsættes på HOME-liie. Ulempe: Ma skal huske parametrees rækkefølge (de ka dog ses ederst på skærme) Metode : Vælg APPS\ Stats/List\F5\vælg de øskede fordelig\enter Fordel: Der fremkommer u e meu, som er æste selvforklarede. Ulempe:Skal resultatet ed på HOME-liie (ma vil rege videre), bliver det lidt besværligt: HOME, Var-Lik\I StatsVar mappe markeres de øskede størrelse, ENTER Tal idlagt på liste Vælg APPS\ Stats/List\ idtast data i eksempelvis list" Fordele og ulemper som uder metode ovefor Beregig af geemsit, spredig, middelværdi osv. ) Hvis tal idlagt på liste F4\ : -Var Stats, I meu sættes List til List" (Beyt evt. Var-Lik til at fide List) Udskrifte består af e række statistiske størrelser. ) Avedes med få tal og ku øsker beregig af e ekelt størrelse. HOME\ MATH\6.Statistics\ Geemsit: Mea ({liste}), Varias: Variace({liste}), Spredig: stddev({liste}) Beregig af test ) Hvis tal idlagt på liste(r) F6\i meu vælg relevat test\enter\data\enter\udfyld meu\enter ) Opridelige data ikke kedt, me ku middelværdi osv. Som ovefor, me u vælges Stats fremfor Data Beregig af kofidesitervaller ) Hvis tal idlagt på liste(r) F7\i meu vælg relevat kofidesiterval\enter\data\enter\udfyld meu\enter ) Opridelige data ikke kedt, me ku middelværdi osv. Som ovefor, me u vælges Stats fremfor Data Oprette e Folder : VAR-Lik\ F\ 5: Create Folder\ Skriv av på folder. Vælg e mappe som de aktuelle mappe: MODE\ Curret Folder\av Formål: Det ka være praktisk ikke at gemme alle sie resultater i MAIN. 6
) Sadsylighedsfordeliger. Normalfordelig (μ,σ) a) p P( a X b), hvor a,b,μ,σ er give kostater(a og b kue evt. være 4): p = ormcdf( ab,,, ) b) Fid x p : P( X xp ) p, hvor p, μ, σ er give kostater. x p =ivnorm(p,μ,σ) t - fordelig. Lad T være t - fordelt med frihedsgradstallet f. a) Fid p = P(a # T # b), hvor a og b er give kostater.(a og b kue evt. være 4): p = tcdf(a,b,f) b) Fid t ( f ): P( T t ( f )) ( give kostat). t ( f ) ivt(,f ) χ - fordelig. Lad Q være χ - fordelt med frihedsgradstallet f. a) Fid p P( a Qb), hvor a og b er give kostater. p = chicdf(a,b,f) b) Fid fraktile ( f ): PQ ( ( f)) ( give kostat). ivchi(,f) Biomialfordelig. Lad X være biomialfordelt b(,p) Fid Pl ( Xm), hvor 0 l mm og l og m er hele tal. biomtcdf(,p,l,m) Poissofordelig. Lad X være Poissofordelt p( ) Fid Pl ( Xm), hvor 0 l m og l og m er hele tal. poisscdf(,l,m) 3) Kofidesitervaller Normalfordelig. variabel ) ukedt: F7\ : T-Iterval (hvis opridelige data ikke kedt så Stats ellers Data) ) kedt: F7\ : Z-Iterval (hvis opridelige data ikke kedt så vælg Stats ellers Data) Normalfordelig. variable F7\ 4: -SampTit\ udfyld meu(se eksempel 7., parvis så eksempel 7.3) Biomialfordelig. F7, 5: -Prop-ZIt (Kræver der ka approksimeres til ormalfordelig) Poissofordelig: fides ikke, så her må formel for kofidesiterval beyttes 4) Hypotesetest Normalfordelig. variabel ) kedt: F6\ : Z-Test (hvis opridelige data ikke kedt så Stats ellers Data) ) ukedt: F6\ : T-Test (hvis opridelige data ikke kedt så Stats ellers Data) Normalfordelig. variable F6\ 4: -SampTtest\ udfyld meu (se eksempel 7. eller 7.3) Biomialfordelig. F7, 5: -Prop-ZTest (Kræver der ka approksimeres til ormalfordelig) Poissofordelig: fides ikke, så her må formel for kofidesiterval beyttes TI89 7
Statistiske beregiger på lommereger og PC-er TI-Nspire ) Geerelt: Beregig af sadsylighedsfordeliger: Vælg Beregiger\Statistik\Fordeliger\ vælg de øskede fordelig\udfyld meu\enter Huskes fordeliges av og parametrees rækkefølge ka ma skrive direkte Tal idlagt på liste Lister og regeark giv e liste et av og idtal tal i liste Beregig af geemsit, spredig, middelværdi osv. ) Hvis tal idlagt på liste Lister og regeark giv e liste et av og idtal tal i liste vælg statistik statistiske beregiger statistik med variabel udfyld meuer Eter. Bladt mage tal fides det øskede ) Avedes med få tal og ku øsker beregig af e ekelt størrelse. Beregiger\statistik\listematematik\vælg Middel: mea({liste}), Stikprøvevarias: varsamp({liste}), Stadardafvigelse for stikprøve: stdevsamp({liste}) Beregig af test ) ormal, variabel ) Lister og regeark udfyld liste (husk overskrift) Statistik t-test for variabel meu:data udfyld meu ENTER ) Opridelige data ikke kedt, me ku middelværdi osv. Som ovefor, me u vælges Stats fremfor Data ) ormal, variable ) Lister og regeark Udfyld lister med overskrift m og m Statistik t-test for variable meu:data ok meu: List: skriv m List : Skriv m alterative Hyp samlet: ej (hvis parvise observatioer så ja vælg variabelreferece ok ) Opridelige data ikke kedt, me ku middelværdi osv. Som ovefor, me u vælges Stats fremfor Data Beregig af kofidesitervaller Som uder test blot vælges u kofidesitervaller De kokrete beregiger af e give sadsylighedsfordelig kofidesiterval eller test svarer til det der står uder TI89 8
Excel Excel ) Geerelt Forudsætiger. Da ikke alle de avedte statistiske fuktioer er idbygget fra starte, skal ma først vælge et tilføjelsesprogram: I Excel 003: Vælg Fuktioer, Tilføjelsesprogrammer, marker Problemløser I Excel 007: Vælg Excel-Office-kappe, Excel idstilliger (fides forede), Tilføjelsesprogrammer, Udfør, marker Aalysis toolpak, Aalysis toolpak VBA, Problemløser, Istaller. Iddata. Vi vil i det følgede for kortheds skyld atage, at de første stikprøves værdier står i cellere A, A, A3... A0. Kræves der flere variable vil de æste stå i cellere B, B, B3... B8, osv. Ma agiver udskriftsområdet eller iputområdet f.eks e søjle placere i cellere A:A0 ved a) at markere området A til A0 b) at skrive eksempelvis A:A0 c) at give det et av: Vælg Idsæt i Excel 003: Nav i Excel 007:Formler Defier i meu skriv søjles av og (ederst)a:a0 Skrive, berege og kopiere formler. Vælg de celle hvor resultatet skal stå. Lad det være B: På værktøjsliie forove skriv = formel skrives ENTER Resultatet står u i celle B Hvis selve formle skal stå i e ade celle. Lad det være A: Cursor placeres i B I formelfelt markeres formle ude lighedsteg og ma kopierer de (CTRL C) ENTER (så formle ige er bereget i B Cursor over i A og paste (CTRL V) Udskrive gitterliier og række og koloeoverskrifter Excel 003: Vælg Filer Sideopsætig Ark Marker gitterliier marker række- og koloeoverskrifter. Excel 007: Vælg Sidelayout Uder Gitterliier marker Udskriv Uder Overskrifter marker Udskriv : Idsætte og tege diagrammer Lagkage eller søjle: se eksempel. side Kurve: se eksempel.4 side 4 Tege histogram: se eksempel.5 side 6 3: Berege statistiske størrelser og fuktioer Beregig af Karakteristiske tal (se evt. ekempel.9) Data idtastes i eksempelvis søjle A til A0 Excel 003: Fuktioer Dataaalyse Beskrivede statistik udfyld iputområde Resumestatistik Excel 007: Data Dataaalyse Beskrivede statistik udfyld iputområde Resumestatistik Valg af statistiske størrelser (fuktioer) ) Vælg de celle hvor resultatet skal stå (eksempelvis A). ) På værktøjsliie forove: a) Tryk på f x b) På de fremkomme meu vælges de øskede fuktio eksempelvis NORMALFORDELING c) Der fremkommer e meu med avisig på, hvorda de skal udfyldes. Geemsit, spredig, media, kvartil Navee aføres edeuder, me de fremkome meu gør det let at idsætte de rette parametre. Geemsit x = MIDDEL(A:A0) Spredig s = STDAFV (A:A0) Media m = MEDIAN(A:A0) (= KVARTIL(A:A0;) ). Kvartil = KVARTIL(A:A0;) 9
Statistiske beregiger på lommereger og PC-er Fakultet, kombiatio, Permutatio (se evt. eksempel 8.8) Fakultet! = FAKULTET() Eksempel: 5! =FAKULTET(5) = 0 Kombiatio K(,p) = KOMBIN(;p) Eksempel: K(5,3)==KOMBIN(5;3) = 0 Permutatio P(,p = PERMUT(;p) Eksempel: P(5,3) = PERMUT(5;3) = 60 Normalfordelig. Lad X være ormalfordelt med middelværdi og spredig ) P( X x) = NORMFORDELING(x ; ; ;) ) P( X x) = - NORMFORDELING(x ; ; ;) 3) Pa ( Xb) P( X b) P( Xa) NORMFORDELING(b ; ; ;) -NORMFORDELING(a ; ; ;) Fraktil x p : P( X x ) p NORMINV(p; ; ) p Eksempel: u 0975. = NORMINV(0,975;0;) =,95996 t - fordelig. (se evt. eksempel 5.3 side 44) Lad T være t - fordelt med f frihedsgrader.. ) PT ( t) = TFORDELING(abs(t); f ;) (bemærk: TFORDELING(abs(t); f ;) udreger øvre hale af fordelige) ) PT ( t) + PT ( t) = TFORDELING(abs(t); f ;) (udreger hale til begge sider) Fraktil t ( f ) = TINV(( - ) ; f), > 0.5 t ( f ) = - TINV( ; f), < 0.5 Bemærk: TINV( ;f) udreger øvre hale, svarede til - Bemærk: Ma må må udytte symmetrie i t-fordelige, for værdier midre ed 0 (svarede til < 0.5) Eksempel: Lad T være t - fordelt med frihedsgrader ) P( X ) = P( X ) = TFORDELING(abs(-);;) = 0,6855 ) t 0 975 = TINV(0,05;) =,7883. ( ) t 0. 05 ( ) = - TINV(0,05;) = -,7883 - fordelig. (se evt.eksempel 5,8 side 49) Lad X være - fordelt med f frihedsgrader P( X x) = CHIFORDELING(x;f) (bemærk: CHIFORDELING(x;f) udreger øvre hale af fordelige) Fraktil ( f ) =CHIINV(- ;f) (bemærk: CHIINV( ;f) udreger øvre hale ) Eksempel: Lad X være - fordelt med 8 frihedsgrader ) P( X 5) = - CHIFORDELING(5;8) = 0,444 ) 0. 975 () 8 =CHIINV(0,05;8) = 7,53454 0 05. () 8 =CHIINV(0,975;8) =,7975 Hypergeometrisk fordelig (se evt. eksempel 9. side 9) Lad X være hypergeometrisk fordelt med parametree N, M og P( X x) = HYPGEOFORDELING(x ; ; M ; N) Eksempel: Lad N = 600, M = 0 og = 5 P( X ) = HYPGEOFORDELING(;5;0;600)+HYPGEOFORDELING(0;5;0;600) = 0,938876 30
TI - 83 Biomialfordelig ( se evt. eksempel 9.5 side 96) Lad X være biomialfordelt med parametree og p P( X x) = BINOMIALFORDELING(x ; ; p; 0) P( X x) = BINOMIALFORDELING(x ; ; p; ) Eksempel (jævfør eksempel 7) Lad X være biomialfordelt med = 6 og p = 0.5 P( X 3) = BINOMIALFORDELING(3;6;0,5;0) = 0,04453 P( X 3) = - P( X ) = - BINOMIALFORDELING(;6;0,5;) = 0,047339 Poissofordelig (se evt. eksempel 9.0 side 0) Lad X være Poissofordelt med middelværdie P( X x) = POISSON(x; ; 0) P( X x) = POISSON(x; ; ) Eksempel Lad X være Poissofordelt med middelværdie 0 P(X = 4) = POISSON(4; 0;0) = 0.0897 P( X 4) = - POISSON(4;0;) = 0,970747 Ekspoetialfordelig Lad T være ekspoetialfordelt med middelværdie. PT ( t) EKSPFORDELING(t,/,) Eksempel: Lad T være ekspoetialfordelt med middelværdi = PT ( 3) EKSPFORDELING(3;/;) = 0,77687 Kofidesitervaller Kofidesiterval middelværdi for ormalfordelt variabel. kedt eksakt Radius r i et 95% kofidesiterval for : x r x u 0975. (se evt. eksempel 5. side 4) r = KONFIDENSINTERVAL(0,05;, ). Eksempel. Lad stikprøve have =6 værdier, lad spredig = 0.5 og geemsit x =8 r =KONFIDENSINTERVAL(0,05;0,5;6). Resultat 0,00038 95% kofidesiterval: 8,0 0.00 Kofidesiterval for middelværdi for ormalfordelt variabel. ikke kedt eksakt se eksempel 5.4 side 45 Kofidesiterval for sadsylighed p for biomialfordelt variabel. se eksempel 9.7 side 98 Hypotesetest ormalfordelt variabel kedt eksakt se eksempel 6. side 55 ikke kedt eksakt se eksempel 6.3 side 57 ormalfordelte variable ) Ikke parvise observatioer: data givet: se Excel-program i eksempel 7. side 7 data ikke givet: se Excel-program i eksempel 7. side 73 ) Parvise observatioer: se Excel-program i eksempel 7.3 side 74 biomialfordelt variabel se eksempel 9.5 side 96 3
Statistiske beregiger på lommereger og PC-er MAPLE Bereg geemsit og spredig af tallee 3 4 8 > with(stats): data:=[,3,4,8]; data := [, 3, 4, 8] > describe[mea](data); 4 > describe[stadarddeviatio[]](data); Berege korrelatioskoefficiet for de i eksempel 9. ævte stikprøve (,), (0,0), (,), (,), (,0), (,), (0,), (,), (0,), (,). Programudførelse: > data:=[,0,,,,,0,,0,]; x- værdier data := [, 0,,,,, 0,, 0, ] udskrift > data:=[,0,,,0,,,,,]; y-værdier data := [, 0,,, 0,,,,, ] udskrift > describe[liearcorrelatio](data,data): evalf(");.404775343 resultat Normalfordelig. Fid for (3.3,5.6) P( X 6.). Programudførelse: > with(stats): > with(statevalf): > cdf[ormald[3.3,5.6]](6.); Facit.6946463 fordelig. Fid e tests P-værdi: P( Q 7.6) idet frihedsgradstallet er 9 (jævfør eksempel 5.6) Programudførelse: > with(stats): > with(statevalf): > -cdf[chisquare[9]](7.36); Facit:.096543 t - fordelig. Fid e tests P-værdi: PT ( -.3) idet frihedsgradstallet er 4 (jævfør eksempel 5.5) Programudførelse: > with(stats): > with(statevalf): > cdf[studetst[4]](-.3); Facit:.05640798 Fid for biomialfordelige b(00,0.3) Programudførelse: > with(stats): > with(statevalf): > dcdf[biomiald[00,0.3]](35); Facit:.88393940 P( X 35) 3
MATHCAD MATHCAD ) Geerelt: Sadsylighedsfuktioer : Skriv fuktioes av eller vælg fra (øverste) værktøjsliie f ( x) \Probability Desity (dfuktiosav). Tæthedsfuktio PX ( a), f ( x) \Probability Distributio (pfuktiosav). Fordeligsfuktio PX ( a) eller f ( x) \Probability Distributio (qfuktiosav) Ivers tæthedsfuktio: P( X xp ) pfid x p. Rækkefølge af parametree ka fides ved at placere cursor på avet og trykke på taste F. ) Sadsylighedsfordeliger. Normalfordelig (, ) a) Fid p P( a X b), hvor a,b,, er give kostater. p P( a X b) P( X b) P( X a) porm(b,, ) - porm(a,, ) Eksempel: p P( X 6. ), hvor 3., 5 p = porm(.6,.3,5) = 0.54 b) Fid x p : P( X x ) p, hvor p,, er give kostater. x p =qorm( p,, ) p Eksempel: P( X x p ) 07.,hvor,, 4 6 x p =qorm(0.7,.4,6) =4.55 t - fordelig. Lad T være t - fordelt med frihedsgradstallet f. a) Fid p P( a T b), hvor a og b er give kostater. p P( a X b) P( X b) P( X a) pt(b,f) -pt(a,f) Eksempel: p P( T 3. ), med f = 4 p = pt(-.3,4) = 0.073 b) Fid t ( f ): P( T t ( f )) ( give kostat). t ( f ) = qt(,f ) Eksempel: t 0975. ( ) = qt (0.975,) =.79 fordelig. p P( a Qb) Lad Q være fordelt med frihedsgradstallet f. a) Fid, hvor a og b er give kostater. p = pchisq(b,f) - pshisq(a,f) Eksempel:Fid p P( Q7. 3), med f = 9 p P( Q73. ) =- pchisq(7.3,9) = 0.0979 b) Fid fraktile ( f ) : PQ ( ( f)) ( give kostat). ( f ) = qchisq(,f ) Eksempel: 0. 05 () 8 = qchisq(0.05,8) =.8 Biomialfordelig. Lad X være biomialfordelt b(,p) a) P(X=x) =dbiom(x,,p) P( X x) pbiom(x,,p) Eksempel :q = P( 3 X 6), hvor = 0 og p = 0.3 q = P( X6) P( X) = pbiom(6,0, 0.3)-pbiom(,0,0.3) = 0.6066 b) Fid det hele tal m for hvilket PX ( m) m = qbiom(p,, ) Eksempel: Lad X være biomialfordelt med p = 0.3 og = 0. Fid det hele tal m for hvilket PX ( m) 095. m = qbiom(0.3, 0,0.95 ) = 9 33
Statistiske beregiger på lommereger og PC-er Poissofordelig. Lad X være Poissofordelt p( ) a) P(X=x) =dpois(x, ) P( X x) ppois(x, ) Eksempel: p = P( X 94), hvor = 47.6 p = ppois(94,47.6) =.54 0-6 b) Fid det hele tal m for hvilket PX ( m) m = qpois(, ) Eksempel: Lad X være Poissofordelt med = 47.6. Fid det hele tal m for hvilket PX ( m) 095. m = qpois(0.95, 47.6 ) =68 Hypergeometrisk fordelig: Lad X være hyprgeometrisk fordelt h(n,m,) a) P(X=x) =dhypgeo(x,m, N-M,) P( X x) phypgeo(x,m,n-m,) 3) Geemsit, varias og spredig Fid geemsit, varias og spredig af tallee, 3, 4, 8 Opret e søjlematrix v:= Vælg fra værktøjsliie 3 4 8 f ( x) \ Category: Statistics \ Fuctio Name: eksempelvis mea Eksempel : Geemsit: mea (v) =4 Mea({,3,4,8}) = 4 Varias: Var(v) = 8.667 Spredig: Stdev (v) =.944 34
APPENDIX APPENDIX. Oversigt over approksimatioer. N 0 M N p 0 0 < p < 9 0 5 p 5 ) Når og beyttes, at. N > M 0 N h( N, M, ) = h( N,, M) 0 ) For p 9 beyttes, i stedet for at tælle X gammel = atal af successer, så at tælle X = atal fiaskoer dvs. 0 p = pgammel og X = X gammel. 3) Husk heltalskorrektio ved approksimatio med ormalfordelig. (se æste side) 35
APPENDIX Approksimatio af biomialfordelig til ormalfordelig. Det ka vises, at tæthedsfuktioe for biomialfordelige b (, p) ærmer sig ubegræset til ormalfordelige ( µ, σ ), hvor µ = p og σ = p ( p), år vokser ubegræset ). Approksimatio af e biomialfordelig med e ormalfor- delig ases, år 0 < p < 9 i praksis for at være tilfreds- 0 stillede, såfremt p 5 (og ( p) 5 ). Da biomialfordelige ku atager heltalsværdier, medes e ormalfordelig ka atage alle værdier på talakse, svarer hvert helt tal ved biomialfordelige til et iterval af lægde ved ormalfordelige. På figur er derfor teget e firkat, der har bredde, og hvis højde er P( X = 4) udreget ved biomialfordelige. Arealet uder ormalfordeligskurve fra x = 3.5 til x = 4,5 er med tilærmelse lig firkates areal. Ma siger, at ma ved approksimatioe må heltalskorrigere (korrigeres for kotiuitet). Fig.. Heltalskorrektio Ved approksimatioe beyttes derfor følgede aførte formler, gældede for e biomialfordelt variabel X fordelt 9 b (, p), hvor p og 5 p 5. 0 0 Eksempel 7.3: Approksimatio af biomialfordelig med ormalfordelig. E kude til de i eksempel.3 producerede plastikkasser køber kassere i partier på 000. Kude godkeder et parti efter e stikprøvekotrol, hvor der udtages 00 kasser. Hvis atallet af defekte kasser i stikprøve højst er 4 godkedes hele partiet. I modsat fald kasseres partiet. Hvor stor er sadsylighede for at et parti bliver godkedt, hvis der er 300 defekte kasser i hele partiet på de 000. Løsig: P( X 4) Lad X være atallet af defekte kasser i stikprøve. Vi øsker at udrege. Umiddelbart er X hypergeometrisk fordelt med N = 000, M = 300, og = 00. Da stikprøvestørrelse er lille ka fordelige af X umiddelbart approksimeres med N = 00 < 000 0 biomialfordelige b (00, p), hvor p = M. Dette giver ved beyttelse af e lommereger som N = 300 000 = 05. TI-89 at P( X 4) = 45.7%. Idet p = 5 > 5, ka i stedet for approksimeres med ormalfordelige med µ = 5 og σ = 5 085. = 357.. Ved hjælp af dee approksimatio ka vi berege: P( X ) = ormcdf(, 4.5, 5, 3.57) = 44.43% 4 Det ses, at der er ca..5 % afvigelse, hvilket ormalt ige betydig har. ) Matematisk formulerig: Når X er fordelt b(, p), vil for de tilsvarede ormerede variabel X p Y = gælde, at P( Y y) Φ( y) for ethvert tal y. p ( p) 36
Facitliste FACITLISTE KAPITEL. -. -.3.4 () - () ca 4%.5 () - () ca 0.05.6 () - () ca 3%.7 () - () 4.8 4.5.8 () - () - (3) - KAPITEL 4 4. () 0.7734 0.0548 0.78 () 0.7480 4. () 69.5% () 0.88% (3). (4) 7.3 6.535 4.3 () 86.64% () 0.008 (3) 0.00 4.4 () 5.94% () 7.7% (3) [783.5; 86.49] 4.5 () 9.5.65 ().45 (3).4% 4.6 () 9.8% 4.7 () 97.7% () 5.45 4.8 () 65 0.4 () 77.34% KAPITEL 5 5. ().3 0.6783 () [.65 ;.6] (3) [0.5 ; 3.74] (4) [.73 ;.53] 5. () 59.9 35.569 () [37 ; 83] (3) [78 ; 34] 5.3 () 74.036 0.004 () [74.035; 74.037] 5.4 () 750. () [740. ; 760.3] (3) 9.3 (4) [4.0 ; 30.] 5.5 () 7.83 0.363 () [7.45 ; 8.] (3) 53 5.6 [5.0 ; 60.39] 5.7 [0.00083 ; 0.003] 5.8 (a) [4.3 ; 4.9] (b) (c ) [4.6 ; 4.36] (d) [0.08 ; 0.076] 5.9 () [0.965 ;.] () [0.063; 0.74] KAPITEL 6 6. () ej P-værdi =.7% 6. ja 3.45% () 58.0 (3) [55.84; 60.6] 6.3 () 84.47 6.85 () ja P-værdi = 0.44% (3) [8.7 ; 87.67] (4) 5.7% 6.4 (a)ej P-værdi =.% (b) [7.93 ; 8.49 ] 6.5 (a) ja P-værdi = 0.57% (b) [4.07 ; 35.56] 6.6 ej P-værdi = 6.45% 6.7 () ja, P-værdi = 0.0 () 0.987 (3) [0.68 ;.80 ] 6.8 ja, P-værdi =8. 0 9 6.9 () 9.5 () ej, P-værdi =0.%, (eller P-værdi =0.35%) 6.0 () () ja P-værdi = 0.48 (3) ej 37
Facitliste 6. () 4 () ja P-værdi = 0.6% (3) ej [.59 ;.67] 6. () 6 () ja P-værdi = 5. 0 3 (3) ja KAPITEL 7 7. P - værdi = 0.044 7. () P - værdi = 0.00 () [0.69 ; 3.3] 7.3 P - værdi = 0.004 7.4 () P - værdi = 0.074 () P - værdi = 0.40 7.5 () 8 () P - værdi = 0.0007, [.9 ; 5.0] 7.6 P - værdi = 0.589 7.7 P - værdi = 0.398 7.8 () ej P-værdi =9.9% 7.9 () ej, P-værdi =9.85% () [0. ;7.8 ] 7.0 () - () Ja, P-værdi =3.63% KAPITEL 8 8. 0. 0.8 0. 0.7 8. () 0.934 () 0.9678 8.3 () 8.75% () 38.75% (3) 4.5% (4).5% 8.4 () 6.4% () 78.4% (3) 7.% 8.5 (a) 30.4% (b) 0.4% (c ) 99.76% (d) 4.04% (e) 44.04% (f).44% 8.6.83 0 8.7 (a) - (b) 736 8.8 (a) 6 (b) 4 8.9 (a) 00 /b) 400 8.0 60 8. () 7.% 36.0% 9.756% () 53.34% (3) 49.0% 8. 3 40 8.3 () 5 () 9 8.4 30.4% 8.5 90 7 KAPITEL 9 9. () 4.3% )- 3) 0.6 9. (A) 0.08% (B).9% ( C) 38.4% 9.3 44.57% 9.4 () ja () 49.73% 9.5 () 7.68% () 59.8% 9.6.58% 9.7 5.83% 9.8 5.6% 9.9 94.9% 9.0 40.33% 9. 3% 9. ej, P-værdi =0.08% 38
Facitliste 9.3 () 0.9% () ej 9.4 () ja, P-værdi =.53% () 0. (3) [0.056 ; 0.84] 9.5 ja p = 0.43% 9.6 () 0.08 () [0.089 ; 0.7] 9.7 [0.799 ; 0.847] 9.8 5 9.9 77.86% 9.0 () 7.94% ().8% 9. () (a) 60.6% (b) 9.6% (c) 6.% () 4.4% 9. () 30.% () 87.9% (3) 4 9.3 50.37% 9.4 () 5 () 8.9% 9.5 75.3% 9.6 6.56% 9.7 9.% 9.8 44.6% 9.9 () ej P-værdi = 7.84% () 00.8 (4) [85.56 ; 6.04] 9.30 () 4.68 () [4.47 ; 4.89] (3) 69.44 9.3 (a) (b) [4.5 ; 7.5] (a). (b) [0.45 ;.75] 9.3 () 0.539% () 0.9% 9.33 7.3% 9.34 0.88% KAPITEL 0 0. ().90 () 4.6% (3) 6.98 0. () 77.88% () 0.45% (3) 77.88% (4) 9.48% 0.3 0.4 () 79.8% () 99.33% (3).8 (4) 4 KAPITEL.. (a) - (a) - (a3) ej (a4).3.8.345.470 (a5).6 (b)..5.36.58.. (a6) 0.06 0.0304 (b) 0.6667 0.303..3 (a7) 5 5.5 (b3) 53.33 7.5.. (a) - (a) ej (a3) 0.9 0.5 0.830 0.5 (a4) 0.9707 (b) 0.6 0.6 0.843 0.56.. (a5) 0.5 0.36 (b) 0.667 0.64..3 (a6) 5300 376.8 (b3) 5800 43.8.3. (a) - (a) ej a3) 4. 3..4 0.9798 (a4) 0.65 (b) 4 3..633.033.3. (a5) 0.6 0.034 (b) 0.4444 0.635.3.3 (a6) 36 44.36 (b3) 300 8.8.4. 78.33 7.833.48 0,870.4. 00.97 0.88.4.3 39.3.089.5 4.6344 39
Facitliste.6 3.559.7 3.3466 40
Stikord Facitliste STIKORDSREGISTER A acceptområde 49 additiossætig for sadsyligheder 76 for liearkomb. af ormalf. variable 5, 30 alterativ hypotese 53 approksimatio 99 biomial til ormalfordelig 35 biomial til Poissofordelig 35 hypergeometrisk til biomialford. 95, 35 Poisso til ormalfordelig 35 B bagatelgræse 55 Bayes sætig 78 betiget sadsylighed 77 biomialfordelig biomialfordeligstest 9, 00 både A og B 75 C cetrale græseværdisætig 34 chi i ade fordelig 44 D deskriptiv statistik dimesioerig 55, 59 diskret variabel 6, 86 E eksperimet, tilfældigt 5 ekspoetialfordelig 00 esfordelte variable esidet biomialtest 97, 05 chi-i-ade test 54 Poissotest 97, 0 t -test 5, 58 test 48 ete A eller B 75 estimat 7 Excel, oversigt 9 F fakultet 80 fejl af type I 54 fejl af type II 54 flerdimesioal variabel 5 fordelig biomial- 89 chi i ade- 44 ekspoetial- 0 hypergeometrisk- 86 kotiuert 7 logaritmisk ormal- 4 ormal- 3 rektagulær 08 t- 38 To-dimesioal ormal- 3 Weibull- fordeligsfuktio kotiuert variabel 0 foreigsmægde 75 forkastelsesområde 49 fraktil 9, 0 frihedsgrad 0 fællesmægde 75 G Galto apparat 4 Gauss fordelig 4 geeraliseret hypergeometrisk ford. 98 geemsit 7, 7, 34 H heltalskorrektio 36 histogram 5, 7 hypergeometrisk fordelig 86 hypotesetest ormalfordelt variabel 48 ormalfordelte variable 65 biomialfordelig 9 Poissofordelig 97 hyppighed, relativ 7, 5 hædelse 5 additiossætig 76 både A og B 75 ete A eller B 75 4
Stikord foreigsmægde 75 fællesmægde 75 ikke A 75 uafhægige 76 I,J ikke A 75 iferetiel statistik K karakteristiske tal 7 kombiatio 8 kombiatorik 79 kofidesiterval 35, 37, 39, 43, 44 kofidesiterval ormalfordelt variabel 35, 37, 39, 43, 44 ormalfordelte variable, differes 67, 7 biomialfordelig 93, 00 Poissofordelig 98, 0 kotiuert stokastisk variabel 7 korrelatioskoefficiet 5, 8 kovarias 5, 8 kvadratregel kvalitative data kvalitetskotrol 9 kvatitative data 4 kvartil 8 kvartilafstad kvartilafstad, relativ L lagkagediagram levetid liearitetsregel liearkombiatio logaritmisk ormalfordelig 3 lommereger TI - 89 7 M Maple 3 Mathcad 33 media 8 middelværdi 7 diskret variabel 86, 90 kotiuert variabel 9 multiplikatiospricip 79 N edre kvartil 9 fakultet 80 ormalfordelig 8 logaritmisk 3 ormeret 6 todimesioal 3 ulhypotese 49 O observatioer, parvise 69 opgaver kapitel 4 3 5 46 6 6 7 7 8 83 9 0 0 4 3 ophobigslov 4 oversigt kap 45 kap6 58 kap 7 7 kap 9 00 P parvise observatioer 69 Poissofordelig 95 Poissofordeligstest 97 polyomialfordelig 99 populatio, 7 produktsætig 76, 77 prædistiatiositerval 4 P-værdi 50 R radomiserig 33 rektagulær fordelig 08 relativ hyppighed 7 relativ usikkerhed 3 repræsetativ stikprøve 33 S SAK 0 4
Stikord Facitliste sadsylighed 6, 75 additiossætig 76 betiget 77 produktsætig 76 Satterwaithes metode 66 sigifikasiveau 49 simpel udvælgelse 33 spredig 9, 7 på geemsit 3 SS 0 stadard deviatio 9 statistisk uafhægige 76 stikprøve 7, 33 geemsit 7, 7 ordet 80 spredig 9, 7 udvælgelse 3 uordet 8 varias 9 stikprøvestørrelse 4, 96 stokastisk variabel 6 stratificeret udvælgelse 33 systematisk udvælgelse 33 søjlediagram 3 udfald 5 udfaldsrum 5 V variabel biomialfordelt 89 diskret kotiuert 7 stokastisk 6 varias 9 diskret variabel 6, 86 kotiuert variabel 9 variatiosbredde 5 W Weibullfordelig Z Z - fordelig 6 Ø øvre kvartil 9 T test af middelværdi 48, 58 af spredig 54, 60 fejl af type I 54 fejl af type II 54 P-værdi 48 testfuktioer - fordelig 44 t - fordelige 38 t-fordelig 38 to-dimesioal ormalfordelig 3 tosidet test 53 TI - 89 6 TI-Mspire 8 t-test, esidet 5 tæthedsfuktio diskret variabel 87, 9 kotiuert variabel 7 U uafhægige hædelser 5 uafhægige stokastiske variable 5 43