Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul



Relaterede dokumenter
Statistisk beskrivelse og test

for gymnasiet og hf 2017 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul

Lineære sammenhænge. Udgave Karsten Juul

Deskriptiv statistik for hf-matc

Deskriptiv statistik for matc i stx og hf

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)

for matematik pä B-niveau i hf

Deskriptiv statistik. for C-niveau i hf Karsten Juul

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Variabel- sammenhænge

Eksponentielle sammenhænge

for matematik pä B-niveau i hf

Differential- regning

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

for matematik på C-niveau i stx og hf

Differential- regning

Antal timer Køn k m k m m k m k m k k k m k k k

Funktioner generelt. for matematik pä B- og A-niveau i stx og hf Karsten Juul

Personlig stemmeafgivning

Potensfunktioner samt proportional og omvent proportional. for hf Karsten Juul

Eksponentielle funktioner for C-niveau i hf

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Differential- ligninger

Start pä matematik. for gymnasiet og hf (2012) Karsten Juul

Statistik. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer.

Symbolsprog og Variabelsammenhænge

Funktioner. 2. del Karsten Juul

Differentialregning. Et oplæg Karsten Juul L P

Ved et folketingsvalg eller en folkeafstemning spørger man alle stemmeberettigede, og kun en del af dem stemmer.

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Asymptoter. for standardforsøgene i matematik i gymnasiet Karsten Juul

Nogle emner fra. Deskriptiv Statistik Karsten Juul

Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå.

Deskriptiv statistik (grupperede observationer)

Funktioner. 1. del Karsten Juul

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema:

Schweynoch, Se eventuelt

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

GrundlÄggende variabelsammenhänge

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Løsninger til kapitel 1

Start-mat. for stx og hf Karsten Juul

Lektion 7 Funktioner og koordinatsystemer

Kapitel 3 Lineære sammenhænge

Taldata 1. Chancer gennem eksperimenter

Konfidensintervaller og Hypotesetest

Hvad er meningen? Et forløb om opinionsundersøgelser

Løsning til eksaminen d. 14. december 2009

Opstilling af model ved hjælp af differentialkvotient

Forslag til løsning af Opgaver til afsnittet om de naturlige tal (side 80)

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Funktioner. 3. del Karsten Juul

Bogstavregning. En indledning for stx og hf Karsten Juul

Analyse af en lineær regression med lav R 2 -værdi

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

for matematik pä B-niveau i hf

Noter til Statistik. Lisbeth Tavs Gregersen. 1. udgave

Uafhængig og afhængig variabel

sammenhänge for C-niveau i stx 2013 Karsten Juul

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal.

Trekants- beregning for hf

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

bernitt-matematik.dk Fjordvej Holbæk

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Hvad siger statistikken?

Bedste rette linje ved mindste kvadraters metode

Funktioner generelt. for matematik pä B-niveau i stx Karsten Juul

fortsætte høj retning mellem mindre over større

Modelkontrol i Faktor Modeller

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

c) For, er, hvorefter. Forklar.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Ligningsløsning som det at løse gåder

Lektion 9s Statistik - supplerende eksempler

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0

Statistiske modeller

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

for C-niveau i stx 2017 Karsten Juul

Kapitel 4 Sandsynlighed og statistiske modeller

Fig. 1 Billede af de 60 terninger på mit skrivebord

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

statistik basis+g DEMO

Allan C. Malmberg. Terningkast

Dig og din puls Lærervejleding

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Huskeliste Printark. U4 Tastetider U5 Hvor hurtigt regner du? E4 Begreber og fagord - Statistik. Materialer. Mobiltelefon Stopur

Temaopgave i statistik for

Statistik i løb Supplerende opgaver

xxx xxx xxx Potensfunktioner Potensfunktioner... 2 Opgaver... 8 Side 1

Eksempler på problemløsning med differentialregning

Regnetest B: Praktisk regning. Træn og Test. Niveau: 9. klasse. Med brug af lommeregner

Transkript:

Statistik Deskriptiv statistik, normalfordeling og test Karsten Juul

Intervalhyppigheder En elevgruppe på et gymnasium har spurgt 100 tilfældigt valgte elever på gymnasiet om hvor lang tid det tager dem at komme fra deres hjem til skolen. Hver af de 100 elever fik en seddel hvor de skulle skrive hvor mange minutter det tager dem at komme i skole. Her er de 100 tal eleverne skrev: Hvordan kan man få overblik over disse tal? For at få overblik over disse tal talte elevgruppen op hvor mange af de spurgte elever der der havde en transporttid i intervallet 0-5, hvor mange der havde en transporttid i intervallet 5-10, osv. Skal 5 tælles med i intervallet 0-5 eller i intervallet 5-10? Eleverne går ud fra at halvdelen af de elever der har skrevet 5, har en transporttid mellem 4 1 og 5, og at den anden halvdel har en transporttid mellem 5 og 51. 2 2 Derfor talte de 5 med som 1 2 i hvert af intervallerne 0-5 og 5-10. Statistik udg.1.01 Side 1 af 44 8/2-04 Karsten Juul

Resultatet af optællingen blev følgende: Tabellen er taget direkte fra det matematikprogram der har beregnet den. Normalt skriver man ikke anførselstegn om intervaller og overskrifter. Hvordan kan tabellens tal anskueliggøres på en figur? For at anskueliggøre tallene der står i tabellen, tegnede eleverne en figur på følgende måde: Over hvert interval tegnede de et rektangel hvis areal var lig antallet af elever hvis transporttid lå i intervallet. Beregning af rektanglernes højder Arealet af rektanglet over intervallet 10-15 skal altså have arealet 25, og rektanglets bredde er 15 10 = 5. Derfor gælder om højden h at 5 h = 25, så h = = 5. 25 5 Højderne af de andre rektangler er udregnet på tilsvarende måde. Statistik udg.1.01 Side 2 af 44 8/2-04 Karsten Juul

Forenklet figur I intervallerne til højre for 20 er der ikke ret mange elever, så det er nok ret tilfældigt om det er det ene eller det andet rektangel der er størst. Derfor tegnede eleverne en ny figur hvor de seks intervaller blev erstattet af intervallerne 20-35 og 35-50: Opgave 1 Intervalhyppigheder Elevgruppen prøver en gang til at spørge 100 tilfældigt valgte elever om hvor lang tid det tager dem at komme fra deres hjem til skolen. De tegner både en figur med lige lange intervaller og en figur hvor nogle af disse intervaller er slået sammen. De to figurer er vist nedenfor. Sammenlign disse figurer med de to første figurer og besvar følgende spørgsmål: a) De sidste seks intervaller blev slået sammen. Hvis det indbyrdes størrelsesforhold mellem de seks intervalhyppigheder er meget forskelligt i de to stikprøver, så skyldes det tilfældigheder som følge af at der er for få observationer pr. interval. Bevares disse størrelsesforhold nogenlunde fra den ene stikprøve til den anden? Hvad er svaret på dette spørgsmål hvis vi i stedet ser på de to store intervaller der hver er fremkommet ved at slå tre små intervaller sammen? Ser det ud til at det var en fordel at slå nogle intervaller sammen? b) Kan man med en vis rimelighed sige at de to stikprøver i store træk viser det samme vedrørende hvilke transporttider der forekommer, og hvor mange elever der har disse transporttider? c) Eleverne der har lavet undersøgelsen, skal skrive et par linjer om hvor lange transporttider skolens elever har. Hvad kunne de fx skrive? Statistik udg.1.01 Side 3 af 44 8/2-04 Karsten Juul

Nogle fagudtryk Ved hjælp af fagudtryk kan undersøgelsen på de første sider beskrives sådan: De minuttal eleverne har givet som svar, udgør observationssættet. Observationssættets størrelse er 100. Tabellen angiver hyppighedsfordelingen for det grupperede observationssæt. Observationsintervallerne er 0-5, 5-10, osv. De tilsvarende intervalhyppigheder er 9, 33 osv. På figuren er hyppighedsfordelingen anskueliggjort ved hjælp af et histogram. Statistik udg.1.01 Side 4 af 44 8/2-04 Karsten Juul

Opgave 2 Intervalhyppigheder På en anden skole spurgte man også 100 elever om deres transporttid i minutter. Man fik observationssættet nedenfor. a) Gruppér observationerne og tegn et histogram. b) Hvordan kan gymnasiet og boligerne tænkes at være placeret når histogrammet ser sådan ud? Opgave 3 Intervalhyppigheder Et gymnasiums elever bor jævnt fordelt i et stort byområde, og gymnasiet ligger midt i området. Tegn et eksempel på hvordan transporttids-histogrammet kan tænkes at se ud, og skriv en begrundelse for udseendet. Opgave 4 Intervalhyppigheder Et gymnasium ligger ved en landevej, og gymnasiets elever bor jævnt fordelt langs landevejen. Tegn et eksempel på hvordan transporttids-histogrammet kan tænkes at se ud, og skriv en begrundelse for udseendet. Statistik udg.1.01 Side 5 af 44 8/2-04 Karsten Juul

Middelværdi Der findes mange slags gennemsnit. Den slags gennemsnit der bruges når en elevs karaktergennemsnit udregnes, kaldes middelværdi. Middelværdien af nogle tal fås ved at lægge tallene sammen og dividere resultatet med antallet af tal. Opgave 5 Oplæg til middelværdi En elev har vejet sine matematikhæfter. 8 vejede 10 gram hver, 6 vejede 20 gram hver, 4 vejede 25 gram hver, og 2 vejede 30 gram hver. Bestem middelværdien af vægtene. Opgave 6 Oplæg til middelværdi Hver af frugterne i en kasse er blevet vejet. Resultatet fremgår af histogrammet. Når vi skal udregne middelværdien af frugterne ud fra histogrammet, går vi ud fra observationerne mellem 9.5 og 10.5 er jævnt fordelt, så vi kan lade som om de alle har vægten 10.0: Hvis vi lægger tallene 9.7, 10.0 og 10.3 sammen, så får vi det samme som hvis vi lægger tallene 10.0, 10.0 og 10.0 sammen. For de andre intervaller gælder det tilsvarende. Bestem middelværdien af frugternes vægte. Hvis vægtene afrundes til et helt antal gram, gælder: Mange frugter vejer 9 gram, men ingen vejer 8 gram. Hvad kan tænkes at være grunden til dette? Middelværdi for grupperet observationssæt Når man udregner middelværdien for et grupperet observationssæt, så regner man som om det for hvert observationsinterval gjaldt at alle observationerne i intervallet lå midt i intervallet. For det grupperede observationssæt der er givet ved histogrammet på side 3 (se også tabellen side 2), er middelværdien altså 14.7 gram: 2.5 9 + 7.5 33 + 12.5 25 + 17.5 11+ 27.5 16 + 42.5 6 100 = 14.7 Statistik udg.1.01 Side 6 af 44 8/2-04 Karsten Juul

Kumuleret hyppighed På side 2 er hyppighedsfordelingen for elevernes transporttider vist både ved hjælp af en tabel og ved hjælp af et histogram. Det ses at 42 elever har en transporttid på 10.0 minutter eller derunder. Man siger at den kumulerede hyppighed af 10.0 er 42. Ved den kumulerede hyppighed af et tal forstås antallet af observationer der er mindre end eller lig tallet. Opgave 7 Uddybning vedr. kumuleret hyppighed Følgende spørgsmål drejer sig om observationssættet der er beskrevet på side 2. Hvor mange elever har en transporttid på 25.0 minutter eller derunder, og hvor mange har en transporttid på 60.0 minutter eller derunder? Hvad er den kumulerede hyppighed af 25.0, og hvad er den kumulerede hyppighed af 60.0? Bestem den kumulerede hyppighed af hvert af tallene 45 og -10. Opgave 8 Oplæg til kumuleret hyppighed Følgende spørgsmål drejer sig om observationssættet der er beskrevet i opgave 6. Bestem den kumulerede hyppighed af 10.5. Bestem den kumulerede hyppighed af 11.0. Kumuleret hyppighed af tal der ligger mellem intervalendepunkterne Når man beregner kumulerede hyppigheder for grupperede observationssæt, så går man ud fra at observationerne ligger helt jævnt fordelt i ethvert af observationsintervallerne. Hvis et observationsinterval går fra 30 til 40, så regner man altså som om en hundrededel af observationerne ligger i intervallet fra 33.2 til 33.3 da dette intervals længde er en hundrededel af hele intervallets længde. Ligger der 17 observationer mellem 30 og 40, så regner man altså som om der ligger 17 hundrededele af en observation (altså 0.17 observation) mellem 33.2 og 33.3. Kumuleret hyppighedsfordeling Lad H betegne funktionen bestemt ved at H(x) = kumuleret hyppighed af x, x R. Denne funktion kaldes den kumulerede hyppighedsfordeling. Statistik udg.1.01 Side 7 af 44 8/2-04 Karsten Juul

Opgave 9 Tegne graf for kumuleret hyppighedsfordeling Et grupperet observationssæt er givet ved at observationsintervallerne er 0-6, 6-10 og 10-16, og at disses intervalhyppigheder er hhv. 300, 400 og 300. Lad H betegne den kumulerede hyppighedsfordeling H(x) = kumuleret hyppighed af x, x R. Udfyld tabellen og tegn grafen for H. x -4-2 0 2 4 6 8 10 12 14 16 18 20 H(x) Opgave 10 Bruge graf for kumuleret hyppighedsfordeling Vægtfordelingen for en sending æbler fremgår af figuren nedenfor. a) Hvor mange æbler vejer under 160 gram? b) Hvor mange æbler vejer under 140 gram? c) Hvor mange æbler vejer mellem 140 og 160 gram? d) Hvor mange æbler er der? e) Hvor mange æbler vejer over 160 gram? f) Lav en tabel der viser intervalhyppighederne for intervallerne 40-80, 80-100, 100-120, 120-140, 140-160, 160-200. g) Bestem middelværdien af æblernes vægte. Statistik udg.1.01 Side 8 af 44 8/2-04 Karsten Juul

Opgave 11 Indsigt vedr. graf for kumuleret hyppighedsfordeling På figuren er et observationssæt angivet på førsteaksen. På figuren skal du tegne grafen for den kumulerede hyppighed svarende til en gruppering i intervallerne 10-30, 30-40, 40-45, 45-55, 55-70. Hvordan ser man på grafen hvor observationerne ligger tættest? Opgave 12 Indsigt vedr. graf for kumuleret hyppighedsfordeling I foregående opgave var tallene i et observationssæt angivet med prikker på førsteaksen, og du skulle tegne grafen for den kumulerede hyppighedsfordeling. I denne opgave er det omvendt: Her er grafen for den kumulerede hyppighedsfordeling givet, og du skal på førsteaksen afsætte prikker som angiver tallene i et observationssæt som har den viste hyppighedsfordeling. Der er mange observationssæt som har den viste hyppighedsfordeling, men du skal kun angive et af dem. Statistik udg.1.01 Side 9 af 44 8/2-04 Karsten Juul

Et sprogproblem Hvis nogle frugter måles og resultatet angives som et helt antal cm, kan sætningen 26 af frugterne er under 8 cm både betyde (1) 26 af frugterne er under 8.00 cm (fx 7.98 cm) og (2) 26 af frugterne er målt til under 8 cm (dvs. er under 7.5 cm). I disse noter er betydningen (1). Er 8 med blandt de der er "under 8"? Når betydningen (1) bruges, har det ingen betydning for vores udregninger om 8 regnes med eller ej. Vi regner jo som om observationerne var helt jævnt fordelt i et observationsinterval, og der er uendelig mange tal i intervallet, så i vores udregninger er 0% af frugterne 8.00 cm. Opgave 13 Fordelingsfunktion for grupperede observationer Betragt det grupperede observationssæt som er givet ved grafen i opgave 12. Hvor mange observationer x opfylder at x < 50? Hvor mange observationer x opfylder at x < 50? Statistik udg.1.01 Side 10 af 44 8/2-04 Karsten Juul

Intervalfrekvenser Af tabellen på side 2 ses at 33 af de spurgte elever har en transporttid der ligger i intervallet 5-10 minutter. Da man har spurgt 100 elever, er det altså 33% af de spurgte elever der har en transporttid i intervallet 5-10 minutter. Dette udtrykkes ved at sige at intervallet 5-10 har intervalfrekvensen 33% (eller 0.33). Tabellen nedenfor angiver frekvensfordelingen for det grupperede observationssæt. Histogrammet nedenfor anskueliggør frekvensfordelingen. Opgave 14 Intervalfrekvenser Antag at man havde spurgt 352 elever, og at tabellen og histogrammet ovenfor viser intervalfrekvenserne for disse elevers transporttider. Hvor stort et antal elever havde så en transporttid mellem 5.0 og 15.0 minutter? Statistik udg.1.01 Side 11 af 44 8/2-04 Karsten Juul

Opgave 15 Oplæg til middelværdi Figuren viser frekvensfordelingen for nogle skruers længder. a) Hvis observationssættets størrelse er 50, hvor mange skruer er der så i hvert af intervallerne 0-4, 4-6 og 6-10. Og hvad er middelværdien af skruerne? b) Hvis observationssættets størrelse er 100, hvor mange skruer er der så i hvert af intervallerne 0-4, 4-6 og 6-10. Og hvad er middelværdien af skruerne? c) Uden at foretage udregninger skal du argumentere for at følgende to lighedstegn gælder: 2 15 + 5 20 + 8 15 2 15 5 20 8 15 15 20 15 = + + = 2 + 5 + 8 50 50 50 50 50 50 50 15 d) Tallene 15, 20 og 15 kaldes intervalhyppigheder. Hvad kaldes tallene, 50 20 15 og? 50 50 e) Hvis de tre intervallers intervalfrekvenser i stedet var hhv. 0.2, 0.5 og 0.3, hvad var så middelværdien af skruernes længde? Beregning af middelværdi ud fra frekvensfordeling Middelværdien af et grupperet observationssæt kan beregnes ud fra frekvensfordelingen ved hjælp af følgende metode: 1. For hvert interval ganges tallet i intervallets midte med intervallets frekvens. 2. Disse resultater lægges sammen. Det tal man får, er middelværdien. Man skal altså ikke dividere summen med noget. Fra opgave 15 ved vi at dette skyldes at de intervalfrekvenser man ganger med, er fremkommet ved at dividere intervalhyppighederne med observationssættets størrelse. Der er altså blevet divideret før der blev lagt sammen. Statistik udg.1.01 Side 12 af 44 8/2-04 Karsten Juul

Opgave 16 Beregning af middelværdi ud fra histogram Bestem middelværdien for det grupperede observationssæt som er givet ved følgende histogram: Kumuleret frekvens På side 11 er frekvensfordelingen for elevernes transporttider vist både ved hjælp af en tabel og ved hjælp af et histogram. Det ses at 67% af eleverne har en transporttid under 15.0 minutter. Man siger at den kumulerede frekvens af 15.0 er 67%. Ved den kumulerede frekvens af et tal forstås den procentdel (eller brøkdel) af observationer der er mindre end eller lig tallet. Opgave 17 Uddybning vedr. kumuleret frekvens Følgende spørgsmål drejer sig om observationssættet der er beskrevet på side 11. Hvor mange procent af eleverne har en transporttid under 30.0 minutter, og hvor mange har en transporttid under 60.0 minutter? Hvad er den kumulerede frekvens af 30.0?, og hvad er den kumulerede frekvens af 60.0? Bestem den kumulerede frekvens af hvert af tallene 40 og -5. Kumuleret frekvensfordeling Lad F betegne funktionen bestemt ved at F(x) = kumuleret frekvens af x, x R. Denne funktion kaldes den kumulerede frekvensfordeling. Statistik udg.1.01 Side 13 af 44 8/2-04 Karsten Juul

Opgave 18 Tegne graf for kumuleret frekvensfordeling Betragt det grupperede observationssæt som er givet ved histogrammet i opgave 16. Lad F være den kumulerede frekvensfordeling F(x) = kumuleret frekvens af x, x R. Udfyld tabellen og tegn grafen for F. x 1 2 3 4 4.5 5 5.5 6 7 8 9 10 F(x) Opgave 19 Indsigt vedr. graf for kumuleret frekvensfordeling På figuren er et observationssæt angivet ved at der på førsteaksen er sat en prik ved hvert tal som er en observation. På figuren skal du tegne grafen for den kumulerede frekvensfordeling svarende til en gruppering i intervallerne 15-30, 30-50, 50-75. Statistik udg.1.01 Side 14 af 44 8/2-04 Karsten Juul

Opgave 20 Træning i forståelse af symboludtryk Tabellen viser frekvensfordelingen for et grupperet observationssæt, hvis middelværdi er 5.2. Interval 2-4 4-5 5-7 7-10 Intervalfrekvens f1 f 2 f3 f 4 a) Bestem tallet f 1+ f2 + f3+ f 4. b) Bestem tallet 3 f1+ 4.5 f2 + 6 f3 + 8.5 f4. c) Lad F betegne den kumulerede frekvens. Afgør hvilken af følgende ligninger der er korrekt : F(4) = f 1 + f 2, F(4. 5) = f 1 + f2, F( 5) = f 1 + f2. Opgave 21 Opstille formler vedr. middelværdi Tabellen viser frekvensfordelingen for et grupperet observationssæt. Interval a ;a ] ] 0 1 ] a1 ;a 2 ] ] a 2;a 3] Intervalfrekvens f1 f 2 f3 Lad x, 1 x 2 og x 3 betegne midtpunkterne af de tre intervaller. a) Skriv en ligning x 1 = som viser hvordan x 1 kan beregnes ud fra tallene i tabellen. På ligningens højreside må ud over regnetegn og cifre kun stå nogle af talbetegnelserne a 0, a 1, a 2, a 3, f 1, f 2 og f 3. b) Lad x betegne middelværdien af observationssættet. Skriv en ligning x =, der viser hvordan middelværdien kan beregnes. På ligningens højreside må ud over regnetegn kun stå nogle af talbetegnelserne a 0, a 1, a 2, a 3, f 1, f 2, f 3, x, 1 x 2 og x 3. Statistik udg.1.01 Side 15 af 44 8/2-04 Karsten Juul

Opgave 22 Opstille formler vedr. middelværdi Tabellen viser hyppighedsfordelingen for et grupperet observationssæt hvis størrelse er n. Interval a ;a ] ] 0 1 ] a1 ;a 2 ] ] a 2;a 3] Intervalhyppighed h1 h 2 h3 Lad x, 1 x 2 og x 3 betegne midtpunkterne af de tre intervaller. a) Skriv en ligning x = der viser hvordan middelværdien x kan beregnes. På ligningens højreside må ud over regnetegn kun stå nogle af talbetegnelserne n, a 0, a 1, a 2, a 3, h 1, h 2, h 3, x, 1 x 2 og x 3. b) Skriv en ligning f 2 = der viser hvordan intervalfrekvensen f 2 for det andet interval kan beregnes. På ligningens højreside må ud over regnetegn kun stå nogle af talbetegnelserne n, a 0, a 1, a 2, a 3, h 1, h 2, h 3, x, 1 x 2 og x 3. Opgave 23 Bevis vedr. middelværdi Vi forestiller os nu at de to foregående opgaver drejer sig om de samme observationer. Lad dig inspirere af din besvarelse af spørgsmål c) i opgave 15 og bevis at det udtryk du i opgave 22 fandt for middelværdien x, er lig det udtryk du i opgave 21 fandt for middelværdien. Skriv beviset her: Statistik udg.1.01 Side 16 af 44 8/2-04 Karsten Juul

Opgave 24 Indfører begreberne varians og spredning På den øverste tallinje er vist et observationssæt bestående at 5 tal. a) Bestem middelværdien af disse tal. 0 1 2 3 4 5 6 7 8 På tallinje nr. 2 er vist et andet observationssæt, som også består af 5 tal. b) Bestem middelværdien af disse tal. 0 1 2 3 4 5 6 7 8 Tallene på tallinje nr. 2 ligger mere spredt end tallene på den øverste tallinje. Dette kan også udtrykkes ved at sige at de gennemsnitligt ligger længere væk fra middelværdien. På figuren nedenfor er anskueliggjort kvadratet på afstanden fra middelværdien til observationen 5.2. Arealet af det viste kvadrat bruges som et mål for hvor langt 5.2 ligger fra middelværdien. c) Bestem kvadratet på afstanden fra middelværdien til observationen 5.2. 0 1 2 3 4 5 6 7 8 På figuren nedenfor er for hvert af de 5 tal tegnet det tilhørende kvadrat. d) Bestem middelværdien af kvadraterne på observationernes afstande fra middelværdien. 0 1 2 3 4 5 6 7 8 Middelværdien af kvadraterne på observationernes afstande til middelværdien kaldes variansen. Variansen er altså et mål for hvor spredt observationerne ligger. e) Bestem variansen af de 5 tal på tallinje nr. 2. Kvadratroden af variansen kaldes spredningen. f) Bestem spredningen for observationssættet på den øverste tallinje, og for observationssættet på tallinje nr. 2. Statistik udg.1.01 Side 17 af 44 8/2-04 Karsten Juul

Opgave 25 Varians og spredning for et grupperet observationssæt Når man udregner varians og spredning for et grupperet observationssæt, så regner man som om alle observationer i et observationsinterval lå i intervallets midtpunkt. Tabellen nedenfor viser hyppighedsfordelingen for et grupperet observationssæt. Det ses at der er 9 observationer. For at udregne variansen skal man altså udregne middelværdien af 9 kvadrater. a) Bestem varians og spredning for det grupperede observationssæt. Interval 3-5 5-6 6-8 Intervalhyppighed 2 4 3 Opgave 26 Spredning Tegn to histogrammer der viser to frekvensfordelinger A og B, sådan at B har større spredning end A. Opgave 27 Opstille formel til beregning af varians I denne opgave betegner V variansen for observationssættet i opgave 22. Skriv en ligning V = der viser hvordan variansen kan beregnes. Opgave 28 Udlede regel for varians Et observationssæt består af de n tal x. 1, x 2,..., x n Følgende ligning viser hvordan middelværdien x kan beregnes: x1 + x 2 +... + x n x =. n Skriv en ligning der viser hvordan variansen kan beregnes: V x = Opskriv udtrykket for middelværdien af tallene k x, k x en konstant. Omskriv udtrykket til et udtryk på formen 1 2,..., k x n, hvor k er En konstant gange udtrykket for middelværdien af tallene x 1, x 2,..., x n. Skriv udregningerne her: Opgaven fortsættes på næste side. Statistik udg.1.01 Side 18 af 44 8/2-04 Karsten Juul

Opskriv udtrykket for variansen af tallene k x, k x konstant. Omskriv udtrykket til et udtryk på formen 1 2,..., k x n, hvor k er en En konstant gange udtrykket for variansen af tallene x 1, x 2,..., x n. Skriv udregningerne her: Hermed er vist følgende regel om varians: Når k er en konstant, gælder: Variansen af tallene k x1, k x 2,..., k x n er gange variansen af tallene x, x,...,. 1 2 x n Opgave 29 Oplæg vedr. spredning a) To terninger A og B blev kastet. Forskellen på øjetallene blev 5. Hvilke muligheder er der for hvad A kan have vist? Hvilke muligheder er der for hvad A og B kan have vist? Skriv mulighederne som talpar (, ) hvor A's øjetal står først. b) Hvis forskellen på øjetallene havde været 4, hvilke muligheder er der så for hvad A og B kunne have vist? c) Terningerne kastes ekstremt mange gange. Så kan man gå ud fra at alle muligheder (, ) forekommer ca. lige tit. Hvis det en million gange forekommer at forskellen på øjetallene er 5, hvor mange gange vil forskellen så være 4? d) Hvilke tal kan forekomme som forskel på øjetallene? e) Bestem frekvensen for hver af disse. f) Bestem middelværdi og spredning. g) Udfør nogle gange eksperimentet der består i at kaste to terninger og notere forskellen på øjetallene. h) Bestem middelværdien for din stikprøve. i) Bestem ud fra din stikprøve spredningen på to måder: Ved at bruge den rigtige middelværdi fra spørgsmål f). Ved at bruge middelværdien fra spørgsmål h). Statistik udg.1.01 Side 19 af 44 8/2-04 Karsten Juul

Beregning af middelværdi og spredning ud fra stikprøve Tallene Der er fremstillet et stort antal dimser. De har ikke præcis samme længde, men det vides at middelværdien af deres længder er 14.0 cm. Varians bestemt ud fra alle tallene For at bestemme variansen af længderne skal man for hver dims måle længden x 2 og udregne kvadratet (x 14.0). Variansen er middelværdien af alle disse kvadrater. Varians bestemt ud fra stikprøve når middelværdi er kendt I stedet for at måle længden af alle dimser nøjes man normalt med tilfældigt at udtage en del af dimserne og udregne middelværdien af de tilsvarende kvadrater 2 (x 14.0). Dette er et rimeligt gæt på variansen af alle dimsernes længder. Varians bestemt ud fra stikprøve når middelværdi ikke er kendt 2 Hvis man ikke ved at middelværdien er 14.0, så må man i (x 14.0) erstatte 14.0 med et gæt på middelværdien. Middelværdien x af de udtagne dimsers længder er et rimeligt gæt på middelværdien af alle dimsernes længder. 2 For en stikprøve er middelværdien af kvadraterne (x x) dog altid mindre end 2 middelværien af kvadraterne (x 14.0). Dette skyldes at tallene i stikprøven gennemsnitligt ligger tættere på deres egen middelværdi end på middelværdien af alle. (Se opgave 29 i). Hvis man ved udregning af middelværdien af kvadraterne (x x) ikke dividerer med deres antal n, men i stedet dividerer med n 1, så får man et resultat der er lidt større. Dette resultat er det bedste gæt på variansen. Der gælder altså: Ud fra en stikprøve bestående af de n tal x1, x 2,..., x n udregnes det bedste gæt x på middelværdien sådan: x1 + x 2 + + x n x =. n Og det bedste gæt s på spredningen udregnes sådan: 2 (x1 x) + (x 2 x) + + (x n x) s =. n 1 2 2 2 Statistik udg.1.01 Side 20 af 44 8/2-04 Karsten Juul

Opgave 30 Beregning af middelværdi og spredning ud fra stikprøve Ved en fest med 428 deltagere vil man bestemme middelværdi og spredning for deltagernes alkoholpromille. For 10 tilfældigt udtagne deltagere måles promillen. Resultaterne blev følgende: ( 2.9 1.6 1.3 2.5 3.1 2.9 1.7 2.5 2.5 1.7 ) Beregn de bedst mulige gæt på middelværdi og spredning ved hjælp af formlerne som står i rammen på foregående side.. Opgave 31 Øvelse som er af betydning for det følgende En bager sælger to typer brød. Figurerne nedenfor viser frekvensfordelingerne for de to typer brøds vægt. a) Hvorfor kan man her bestemme middelværdierne uden at regne? b) Afgør uden at regne for hvilken af de to typer brød spredningen er størst? c) Hvor mange procent af brødene af type 1 afviger mindre end 10 gram fra middelværdien? En kunde vil vide hvor store de to typer brød er, og vejer derfor et af hver type. d) Er det mest sandsynligt at det købte brød af type 1 har en vægt der afviger mindre end 10 gram fra middelværdien? e) Er det mest sandsynligt at det købte brød af type 2 har en vægt der afviger mindre end 10 gram fra middelværdien? Statistik udg.1.01 Side 21 af 44 8/2-04 Karsten Juul

Opgave 32 Forbereder indførelse af tæthedsfunktion Figuren nedenfor viser frekvensfordelingen for vægten (i gram) af nogle frugter. a) Hvad er arealet af rektanglet svarende til intervallet ] 12.5;15.0]? b) Hvor mange procent af frugterne vejer ifølge figuren mellem 12.5 og 15.0 gram? c) Hvor mange procent af frugterne vejer ifølge figuren mellem 15.0 og 17.5 gram? d) Hvor mange procent af frugterne vejer ifølge figuren mellem 17.5 og 20.0 gram? e) Hvor mange procent af frugterne vejer ifølge figuren mellem 20.0 og 22.5 gram? f) Betragt de fire intervaller: gram * ).5;15.0.0;17.5.5; 20.0] 20.0; 22.5. Ifølge figuren gælder: Når vi bevæger os fra venstre mod højre i denne række af intervaller, så er frekvensen konstant før og efter 17.5, mens der sker en kraftig stigning ved 17.5. Dette skyldes den forenkling der er foretaget ved gruppering i de store intervaller ] 12.5;17.5] og ] 17.5, 22.5]. I virkeligheden stiger frekvensen nok også fra det første til det andet, og fra det tredje til det fjerde af intervallerne (*). Over hvert af intervallerne (*) skal du på figuren tegne et rektangel sådan at arealerne af disse rektangler kunne være mere i overensstemmelse med virkeligheden end svarene på spørgsmålene b) - e). Husk at de frekvenser for intervallerne ] 12.5;17.5] og ] 17.5, 22.5] som histogrammet angiver, er i overensstemmelse med virkeligheden. ( ] 12 ], ] 15 ], ] 17 ], ] ] Statistik udg.1.01 Side 22 af 44 8/2-04 Karsten Juul

Tæthedsfunktion og fordelingsfunktion Tæthedsfunktion Der foreligger et meget stort antal observationer. Det første histogram nedenfor viser den frekvensfordeling der fås når man grupperer observationerne i intervaller af længde 4. De næste to histogrammer er fremkommet ved gruppering i intervaller af længde 2 og 1. Når intervallængden er tæt på 0, så er histogrammet tæt på den afrundede figur i det fjerde koordinatsystem. Kurven i dette koordinatsystem er grafen for tæthedsfunktionen. Statistik udg.1.01 Side 23 af 44 8/2-04 Karsten Juul

Brug af tæthedsfunktion Tæthedsfunktionen angiver frekvensen af et interval på samme måde som et histogram, dvs. ved et areal. Frekvensen af intervallet 60-70 er altså arealet af det sorte område i det femte koordinatsystem på foregående side. Fordelingsfunktion Hvis man tegnede graferne for de kumulerede frekvensfordelinger svarende til de tre histogrammer på foregående side, ville man se at de nærmede sig til kurven i det sidste koordinatsytem. Denne kurve er grafen for fordelingsfunktionen. Brug af fordelingsfunktion Fordelingsfunktionen F angiver frekvenser på samme måde som den kumulerede frekvensfordeling, dvs. fx er F(60) den brøkdel af observationerne som ligger til venstre for 60.0 på x-aksen. På grafen aflæses at F(60) = 0.50 og F(70) = 0.92. Da 0.92 0.50 = 0. 42, ligger 42% af observationerne i intervallet 50-60, og arealet af det sorte område i det femte koordinatsystem på foregående side er 0.42. Opgave 33 Fordelingsfunktion Fordelingsfunktionen F svarende til nogle observationer har forskriften 1 F(x) = x 1+ 63 1.2. På figuren er vist grafen for den tilhørende tæthedsfunktion f. a) Beregn arealet af det sorte område. b) Hvor mange procent af observationerne ligger mellem 10 og 30 på x-aksen? c) Hvor mange procent af observationerne ligger til højre for 40 på x-aksen (ikke kun den viste del af x-aksen)? Statistik udg.1.01 Side 24 af 44 8/2-04 Karsten Juul

Normalfordeling Hvad er en normalfordeling? På side 23 er i to af koordinatsystemerne vist en klokkeformet graf for en tæthedsfunktion. Grafer af nøjagtig denne form (bortset fra bredde, højde og placering) optræder i mange sammenhænge. Når tæthedsfunktionens graf har nøjagtig denne form, siges observationerne at være normalfordelt. Hvor bruges normalfordelinger? Når samme størrelse måles flere gange, så fås en række tal der ikke er helt ens. Disse tal er typisk normalfordelt. Hvis man for nogle dyr eller planter af samme slags måler vægt, længde, omkreds, temperatur eller lignende, så fås en række tal der typisk er normalfordelt. Når en vare der skal sælges, hældes i poser eller flasker, vil der ikke komme præcis lige meget i hver. Måles indholdet, fås en række tal der typisk er normalfordelt. I et utal af andre situationer der minder om en af disse tre, er tallene også normalfordelt. Hvorfor kan normalfordelinger bruges i alle disse sammenhænge? At normalfordelingen optræder i alle disse sammenhænge, skyldes at en sum af mange uafhængige, tilfældige størrelser altid vil være normalfordelt. Middelværdi og spredning for normalfordeling Som nævnt i det foregående er der mange forskellige tæthedsfunktioner for normalfordelinger. Man angiver hvilken af dem man taler om, ved at angive middelværdien µ og spredningen σ. På figuren nedenfor er vist tæthedsfunktionen f for en normalfordeling med µ = 8 og σ = 2. Statistik udg.1.01 Side 25 af 44 8/2-04 Karsten Juul

På grafen er tegnet tre prikker der markerer toppunktet og de to punkter hvor grafen skifter mellem at krumme opad og nedad. For alle normalfordelinger er førstekoordinaterne til disse punkter µ σ, µ og µ+ σ. For alle normalfordelinger gælder desuden: Grafen er symmetrisk om den lodrette linje gennem toppunktet. Intervallerne [ µ σ; µ ] og [ ; µ σ] µ + indeholder (angivet med én decimal) hver 34.1% af observationerne. µ 2σ; µ σ og [ µ + σ; µ + 2σ] indeholder (angivet med én decimal) hver 13.6% af observationerne. Intervallerne [ ] Opgave 34 Middelværdi og spredning for normalfordeling Spørgsmålene i denne opgave vedrører den normalfordeling som er angivet på figuren ovenfor, og de skal besvares ved hjælp af de oplysninger om normalfordeling der står øverst på denne side. a) Hvor mange procent af observationerne ligger til venstre for µ 2σ på x- aksen? b) Hvor mange procent af observationerne ligger mellem 6 og 10 på x-aksen? c) Hvor mange procent af observationerne ligger til højre for 8 på x-aksen? d) Den del af området mellem grafen og x-aksen som ligger til højre for linjen med ligningen x = 12, er uendelig langt. Hvad er arealet af dette område? Opgave 35 Middelværdi og spredning for normalfordeling Denne opgave skal besvares ved hjælp af de oplysninger om normalfordeling der står øverst på denne side. En maskine fylder rødvin på literkartoner. Mængden der fyldes i en karton, er normalfordelt. Middelværdien er 0.995 liter, og spredningen er 0.005 liter. Hvor mange procent (helt tal) af kartonerne indeholder under 1.000 liter rødvin? Om sprogbrug Udtrykket "Mængden i en karton har middelværdi 0.995" betyder at når man måler indholdet af mange kartoner, så fås en række tal hvis middelværdi er 0.995. Opgave 36 Repetition af beregning af varians ud fra stikprøve Brug oplysningerne i afsnittet "Beregning af middelværdi og spredning ud fra stikprøve" på side 20 til at besvare følgende spørgsmål: En stikprøve x 1, x 2,..., x8 udtages af en population (en samling tal). Summen af 2 2 2 kvadraterne (x x), (x x),..., (x x er 19.3. 1 2 8 ) Hvilket tal er det bedst mulige gæt på populationens varians? Statistik udg.1.01 Side 26 af 44 8/2-04 Karsten Juul

Opgave 37 Repetition af tæthedsfunktion og fordelingsfunktion Brug oplysningerne i afsnittet "Tæthedsfunktion og fordelingsfunktion" side23-24 til at besvare følgende spørgsmål: a) En graf viser tæthedsfunktionen for vægten af en bestemt type fisk. Hvilken forbindelse er der mellem denne graf og histogrammer der viser frekvensfordelinger for vægten af denne type fisk? b) Når man har grafen for tæthedsfunktionen, hvordan kan man så se hvor stor en brøkdel af fiskene der vejer mellem 400 gram og 500 gram? (I svarets formulering kan indgå en skitse). c) Lad G være fordelingsfunktionen for vægten af den pågældende type fisk. Det er oplyst at G(500) = 47%. Hvad siger dette om fiskenes vægt? d) Hvordan kan man ved hjælp af fordelingsfunktionen G beregne hvilken brøkdel af fiskene der vejer mellem 400 gram og 500 gram? Opgave 38 Situationer hvor normalfordeling kan bruges På side 25 er omtalt tre typer situationer hvor man typisk får tal der er normalfordelt. Giv for hver af disse typer et konkret eksempel på hvad du kunne måle for at få nogle tal der sandsynligvis er normalfordelt. Computer Man kan få computeren til at foretage beregninger og tegne grafer vedrørende normalfordelinger. I det følgende forudsættes at du har fået at vide hvordan dette gøres. Opgave 39 Normalfordeling Ejeren af en fadølsrobot kan indstille hvor meget robotten skal hælde i hvert glas. Robotten er ikke præcis, så der kommer ikke samme mængde i alle glas. Mængden der kommer i et glas, er normalfordelt med spredningen 0.04 liter. Middelværdien afhænger af hvad robotten er indstillet til at hælde i hvert glas. Ejeren påstår at robotten er indstillet sådan at middelværdien er 0.50 liter, men en kunde får kun 0.40 liter i sit glas og påstår at robotten ikke er indstillet så middelværdien er 0.50 liter. I hvor stor en procentdel af glassene vil robotten hælde 0.40 liter eller mindre hvis det er rigtigt at middelværdien er 0.50? Antag at ejeren for at snyde har indstillet robotten så middelværdien er 0.45 liter. I hvor stor en procentdel af glassene vil der så blive hældt 0.40 liter eller mindre? Tegn i samme koordinatsystem graferne for tæthedsfunktionerne svarende til middelværdierne 0.50 og 0.45. Statistik udg.1.01 Side 27 af 44 8/2-04 Karsten Juul

Markér (fx ved en prik) 0.40 på x-aksen. Sørg for at figuren er omhyggeligt udført (passende udsnit, passende tal på akserne, overskrift, tekst ved x-aksen osv.) Tilføj tekst hvor der står hvad det er der regnes ud. Udskriv besvarelsen. Opgave 40 Normalfordeling På samme måde som i opgave 39 skal du lave en omhyggelig besvarelse af spørgsmålene i denne opgave. Husk figur og tekst. Et stort antal elever regner samme prøve. I stedet for en sædvanlig karakter får eleverne et pointtal. Teoretisk set skulle pointtallet være normalfordelt med middelværdi 50.0 og spredning 10.0. Bestågrænsen er ca. 44.0 point. Hvor mange procent af eleverne består? Der uddeles et diplom til de bedste elever. Ca. 10% får diplom. Hvilket pointtal er diplomgrænse? Et år begås en fejl så middelværdien bliver 60.0. Hvor mange procent får dette år et pointtal over bestågrænsen 44.0 point? Diplomgrænsen var offentliggjort før fejlen blev opdaget. Hvor mange procent fik et pointtal der lå over den diplomgrænse du bestemte ovenfor? Opgave 41 Normalfordeling Man har givet 1254 børn en intelligenstest. Deres intelligenskvotienter var normalfordelt med middelværdi 100 og spredning 13. Børn med intelligenskvotient i intervallet 90-110 kaldes almindeligt begavede. Hvor mange procent af børnene var almindeligt begavede? Hvor mange procent af børnene havde en intelligenskvotient over 120? Lav en illustration af samme type som i de to foregående opgaver. Opgave 42 Normalfordeling En maskine fremstiller metalkugler. Deres vægt (målt i gram) er normalfordelt med middelværdi µ = 28. 60 og spredning σ = 0. 91. Hvor mange procent af kuglerne vejer under 26.00 gram? Kugler hvis vægt afviger mere end 3% fra 28.60 gram, bliver kaseret. Hvor mange procent af kuglerne bliver kaseret? Lav en illustration med tæthedsfunktion og markering af de grænser en kugles vægt skal ligge imellem for at kuglen ikke bliver kaseret. Statistik udg.1.01 Side 28 af 44 8/2-04 Karsten Juul

Test En maskine pakker pulver i poser. Posernes vægte, målt i gram, er normalfordelt med spredning σ = 9. Middelværdien µ afhænger af hvordan maskinen er indstillet. Det påstås at middelværdien er 140 gram. Vi vil undersøge denne påstand, dvs. vi vil teste hypotesen µ = 140. På figuren er vist to tal a og b som ligger lige langt fra middelværdien 140. Bestemmelse af a og b Vi vil bestemme a og b så der gælder: Hvis hypotesen µ = 140 er korrekt, så ligger 5% af posernes vægte uden for grænserne a og b. Dette kan gøres sådan: De to tal a og b er bestemt ved at 2.5% af vægtene er a og 2.5% af vægtene er b. På computeren taster vi at F skal være fordelingsfunktionen for normalfordelingen med µ = 140 og σ = 9. Ved at lade computeren løse ligningerne F(a) = 2.5% og 100% F(b) = 2.5% fås a = 122 og b = 158. På figuren nedenfor er disse grænser markeret. Statistik udg.1.01 Side 29 af 44 8/2-04 Karsten Juul

Test af hypotesen De to små områder under grafen uden for grænserne 122 og 158 har begge arealet 0.025, dvs. 5% af posernes vægte ligger på x-aksen uden for disse grænser. Vi køber en pose og vejer den. Dens vægt er 162 gram. Da vægten ligger uden for grænserne 122 og 158, forkaster vi hypotesen. Begrundelsen for dette er følgende: Hvis figuren var rigtig (dvs. hvis µ = 140 ), så var det usandsynligt at vi ville få en pose hvis vægt lå uden for grænserne. Signifikansniveau Ovenfor valgte vi forkastelsesgrænserne a og b sådan at der gjaldt: Hvis hypotesen er rigtig, så ligger 5% af alle vægtene uden for disse grænser. Undertiden vælger man en anden procent end 5%, fx 1%. Den procent man vælger, kaldes signifikansniveauet. For hypotesen µ = 140 om poserne gælder altså: På signifikansniveau 5% forkastes hypotesen. Opgave 43 Test Bestem de forkastelsesgrænser a og b som vi skulle bruge hvis vi ville teste hypotesen på signifikansniveu 1%. Forkastes hypotesen hvis vi vælger et signifikansniveau på 1%? Hvis hypotesen er rigtig, hvilken procentdel af alle posernes vægte ligger så uden for de grænser du bestemte i første spørgsmål? Forestil dig at hypotesen er korrekt, og at mange kunder tester hypotesen ved at købe en pose og veje den. Hvilken procentdel af disse kunder får en vægt der ligger uden for forkastelsesgrænserne? Det er et dårligt test På figuren ses at hvis den korrekte værdi af µ er fx 155, så er det sandsynligt at den udtagne poses vægt ligger mellem grænserne 122 og 158. Selv om den rigtige middelværdiværdi 155 ligger langt fra 140, er det altså sandsynligt at hypotesen µ = 140 ikke forkastes. Senere i disse noter står hvordan man kan lave et bedre test. Statistik udg.1.01 Side 30 af 44 8/2-04 Karsten Juul

Opgave 44 Test Prisen for en vare er er ikke den samme i alle forretninger. Prisen er normalfordelt med spredning 800 kr. I en tilfældig forretning ses at prisen er 4995 kr. Kan man ud fra denne oplysning forkaste hypotesen µ = 5800 på signifikansniveau 5%? Lav en illustration som figuren nederst på foregående side. Regler om varians En bestemt type vares vægt fås ved at lægge emballagens vægt x 1 sammen med indholdets vægt x 2. Hvis variansen af vægten af emballage og indhold er hhv. 0.7 kg og 4.2 kg, så vil varens vægt x 1+ x 2 have variansen 0.7 kg+ 4.2kg = 4.9 kg. Tilsvarende gælder at hvis n forskellige uafhængige størrelser x 1, x 2,..., x n har varianser V 1, V2,..., Vn, så vil deres sum x 1+ x 2 +... + x n have variansen V + V +... +. 1 2 Vn For en bestemt vare er prisen med afgifter lig 3 gange prisen uden afgifter. Hvis variansen af prisen uden afgifter er 41 kr., så er variansen af prisen med afgifter 3 2 41 kr = 369 kr. (At "variansen af prisen er 41", betyder at hvis man noterer priserne i mange forretninger, så fås en række tal der har variansen 41). Tilsvarende gælder at hvis en størrelse x har variansen V, så har størrelsen Dette er bevist i opgave 28 på side 18-19. Opgave 45 Regler for varians k x variansen k 2 V. Tre størrelser x 1, x 2 og x3 er uafhængige målinger af samme størrelse der har varians 2.3. Hvad er variansen af summen x 1+ x 2 + x3? Som bekendt fås middelværdien af de tre størrelser ved at gange x 1+ x 2 + x3 med 1. Hvad er variansen af middelværdien? 3 Spredning af middelværdi Hvis n uafhængige størrelser x 1, x 2,..., x n alle har spredningen σ, så vil 1 σ middelværdien (x x... x ) n 1 + 2 + + n have spredningen. n Statistik udg.1.01 Side 31 af 44 8/2-04 Karsten Juul

Opgave 46 Begrundelse for reglen i rammen på foregående side Da fås at x alle har spredningen σ 1, x 2,..., x n 1, x 2,..., x n x alle har variansen. Ved at bruge dette sammen med ovenstående regler for varians fås at x + + har variansen + +... + =. 1 x 2 +... x n Heraf fås ved hjælp af ovenstående regler for varians 1 2 at (x x... x ) n 1 + 2 + + n har variansen n σ =. 1 Så må (x x... x ) n 1 + 2 + + n have spredningen. Forbedret test På siderne 29-30 blev omtalt et test af hypotesen µ = 140 vedrørende vægten nogle poser med pulver. Antag at den rigtige middelværdi er 150. Af figuren nedenfor til venstre ses at det ikke er sandsynligt at vi får forkastet den forkerte hypotese. Dette skyldes at spredningen σ = 9 er for stor. Statistik udg.1.01 Side 32 af 44 8/2-04 Karsten Juul

Testen kan forbedres ved at bruge reglen nederst på side 31: Hvis vi i stedet for vægten af én poses indhold bruger middelværdien af vægtene af 10 posers indhold, så bliver spredningen σ = 2. 85. Grafen for tæthedsfunktionen svar- 9 10 ende hertil er den højre graf på foregående side. Det ses at nu er det sandsynligt at få forkastet den forkerte hypotese. Opgave 47 Tæthedsfunktion Hvorfor må grafen for tæthedsfunktionen nødvendigvis blive højere samtidig med at den bliver smallere? Opgave 48 Test Antag at vi ved undersøgelsen af ovennævnte poser benyttede middelværdien af vægtene af 100 poser. Hvad ville så være grænserne for at forkaste på signifikansniveau 5%? Forestil dig at hypotesen er korrekt, og at mange personer tester den ved at bestemme 100 posers vægte og se om disses middelværdi ligger uden for de grænser du bestemte i første spørgsmål. Hvor mange procent af disse personer forkaster hypotesen? Computer Det forudsættes at du har fået at vide hvordan du kan gøre følgende på computeren: Taste et observationssæt (dvs. en række tal) sådan at du kan få udført flere udregninger med tallene uden at taste dem igen. Nemt udregne middelværdi og spredning ud fra stikprøve. Opgave 49 Test Længderne målt i cm af nogle fisk er normalfordelt med spredning 2 cm. Den nøjagtige middelværdi afhænger af hvor gunstige vækstbetingelserne har været. Man vil teste hypotesen µ = 16. Hvis hypotesen er rigtig, hvilken middelværdi og spredning har så middelværdien x af en stikprøve på 30 observationer? Bestem de forkastelsesgrænser a og b som x skal ligge udenfor for at hypotesen forkastes på signifikansniveu 5%. Kan følgende stikprøve forkaste hypotesen på signifikansniveau 5%: 16.3 17.0 17.0 17.3 17.5 15.9 16.8 16.8 16.4 17.5 16.8 16.9 16.7 16.6 16.4 17.4 16.5 16.8 17.3 17.3 16.9 17.4 17.1 16.7 16.9 17.3 16.4 17.4 17.1 17.2 Statistik udg.1.01 Side 33 af 44 8/2-04 Karsten Juul

U-test Den type test som er behandlet på de foregående halvanden side, udføres ofte på en lidt anden måde (som giver samme resultat). Når de udføres på denne anden måde, kaldes de u-test. En samling tal er normalfordelt med µ = 15 og σ = 2. Grafen for deres tæthedsfunktion f er vist på figuren nedenfor. Vi laver en ny samling tal ved at trække middelværdien 15 fra hvert af tallene. Disse nye tal er normalfordelt med µ = 0 og σ = 2. Grafen for deres tæthedsfunktion g er vist på figuren nedenfor. Hvert af de nye tal divideres med spredningen 2. Herved fås en samling tal som er normalfordelt med µ = 0 og σ = 1. Grafen for deres tæthedsfunktion h er vist på figuren nedenfor. I stedet for at teste hypotesen µ = 15 ved at spørge: Ligger tallet x uden for forkastelsesgrænserne svarende til signifikansniveau 5% for normalfordelingen med µ = 15 og σ = 2? kan vi teste hypotesen ved at spørge: x 15 Ligger tallet u = uden for forkastelsesgrænserne svarende til signifikansniveau 5% for normalfordelingen med middelværdi 0 og spredning 2 1? Når u bruges, er grænserne de samme uanset hvilke værdier µ og σ har. Opgave 50 Forkastelsesgrænser for u-test Bestem forkastelsesgrænserne svarende til signifikansniveau 5% for normalfordelingen med middelværdi 0 og spredning 1. Skriv grænserne her: Statistik udg.1.01 Side 34 af 44 8/2-04 Karsten Juul

Opgave 51 U-test Nogle varers vægte er normalfordelt med spredning 62 gram. Vætenes middelværdi kontrolleres dagligt ved at udtage en stikprøve på 20 styk. Hvad er spredningen σ for middelværdien af en stikprøve på 20 styk? En dag fås middelværdien x = 807. x 830 Beregn u = og afgør om hypotesen µ = 830 bliver forkastet. σ U-test En samling tal er normalfordelt med middelværdi µ og kendt spredning σ. For at teste hypotesen µ = µ 0 ud fra en stikprøve på n tal beregnes tallet x µ 0 u =. σ n Hvis hypotesen er sand, er u normalfordelt med middelværdi 0 og spredning 1. Om sprogbrug I rammen står der at "u er normalfordelt". Hermed menes at hvis man mange gange tager en stikprøve på n tal, og hver gang udregner u ved hjælp af formlen i rammen, så vil samlingen af beregnede tal være normalfordelt. Opgave 52 U-test Nogle perlers vægte, målt i gram, er normalfordelt med spredning 1.3. For at teste hypotesen µ = 7 udtages følgende stikprøve: ( 8 6 6 6 7 5 8 6 5 4) Benyt et u-test til at afgøre sagen. Statistik udg.1.01 Side 35 af 44 8/2-04 Karsten Juul

T-test En samling tal er normalfordelt. Ud fra en stikprøve på 4 tal vil vi teste hypotesen µ = 23. Hvis spredningen σ var kendt, ville vi udregne tallet x 23 u =. σ 4 I denne formel erstatter vi σ med det bedst mulige gæt på σ som kan udregnes ud fra stikprøven, dvs. tallet s som er defineret ved formlen i rammen på side 20. Så fås tallet x 23 t =. s 4 Størrelsen u er normalfordelt med middelværdi 0 og spredning 1. Størrelsen t er ikke normalfordelt, den er t-fordelt med 3 frihedsgrader. Antallet af frihedsgrader er én mindre end anttallet af tal i stikprøven. Computer Det forudsættes at du har fået at vide hvordan man taster at f og F skal være hhv. tæthedsfunktion og fordelingsfunktion for en t-fordelingen med et givet antal frihedsgrader. Graf for en t-fordelings tæthedsfunktion På figuren er vist grafen for t's tæthedsfunktion f og grafen for u's tæthedsfunktion g. Det ses at grafen for t's tæthedsfunktion er lidt bredere end grafen for u's tæthedsfunktion. Statistik udg.1.01 Side 36 af 44 8/2-04 Karsten Juul

Hvis antallet af frihedsgrader havde været større, så ville grafen for f have været tættere på grafen for g, og hvis antallet af frihedsgrader havde været stort (fx 30) ville graferne stort set være sammenfaldende. Hvilke grænser skal t ligge udenfor for at hypotesen forkastes? Vi taster at F skal være fordelingsfunktionen for t-fordelingen med 3 frihedsgrader, og får løst ligningerne F(x) = 2.5% og F(x) = 97.5%. Løsningerne er -3.18 og 3.18. Altså forkastes hypotesen på signifikansniveau 5% netop hvis t 3.18 eller 3.18 t. Beregning af t Vi indtaster stikprøven ( 24 25 26 23 ) og får beregnet x og s. Der fås x = 24.50 og s = 1.291. Ved hjælp af disse tal beregnes at t = 2.32. Da dette tal ikke ligger uden for de fundne grænser, kan vi ikke forkaste hypotesen. T-test En samling tal er normalfordelt med middelværdi µ. For at teste hypotesen µ = µ 0 ud fra en stikprøve på n tal beregnes tallet x µ 0 t =. s n (Formlerne for x og s står i rammen på side 20, men du skal ikke taste disse formler da de er indbygget i det program du bruger). hvor s er det bedste gæt på spredningen som kan udregnes ud fra stikprøven. Hvis hypotesen er sand, vil t være t-fordelt med n 1 frihedsgrader. Om sprogbrug I rammen står der at "t er t-fordelt". Hermed menes at hvis man mange gange tager en stikprøve på n tal, og hver gang udregner t ved hjælp af formlen i rammen, så vil samlingen af beregnede tal være t-fordelt. Statistik udg.1.01 Side 37 af 44 8/2-04 Karsten Juul

Opgave 53 T-test Indholdet af aktivt stof i en pille skal gennemsnitligt være 0.27 gram. For at undersøge hypotesen µ = 0.27 målte man indholdet af aktivt stof i nogle piller. Resultaterne blev følgende: 0.31 0.32 0.26 0.29 0.37 0.31 0.24 0.33 0.37 0.32 0.27 0.32 0.24 0.35 0.26 0.24 Da spredningen ikke er kendt, benyttes et t-test. Bestem de grænser t skal ligge udenfor for at forkaste hypotesen. Bestem t og afgør om hypotesen kan forkastes. Statistik udg.1.01 Side 38 af 44 8/2-04 Karsten Juul

Test af om der er forskel Varians af x y Uafhængigt af hinanden udtages x fra en samling af tal og y fra en samling af tal. Fra tidligere ved vi følgende: Hvis x har varians så gælder at y V x og y har varians V y, x + har varians V x + Vy. Der gælder også følgende: Hvis x har varians så gælder at y V x og y har varians V y, x har varians V x + Vy. Bemærk at der skal stå + mellem varianserne uanset om der står + eller mellem x og y. Opgave 54 Udfyld de tomme pladser i følgende afsnit. Spredning af x y Uafhængigt af hinanden udtages x fra en samling af tal og y fra en samling af tal. Hvis x har spredning gælder σ x og y har spredning σ y, x har varians og y har varians, og så gælder at x y har varians, og dermed at x y har spredning Statistik udg.1.01 Side 39 af 44 8/2-04 Karsten Juul

Opgave 55 Udfyld de tomme pladser i følgende afsnit. Spredning af x y To samlinger af tal har samme spredning σ. Lad x 1, x 2,..., x 7 være en stikprøve fra den ene samling, og lad y 1, y2,..., y9 være en stik prøve fra den anden samling. Så gælder at x har varians og y har varians, og dermed at x y har varians, så x y har spredning. Ved omskrivningen fås: x y har spredning 1 1 σ +. 7 9 Test af µ x = µ y To ens maskiner fremstiller fliser. For begge maskiner gælder at flisernes vægte er normalfordelt med spredning σ. Vi vil undersøge om der er forskel på de to maskiner mht. vægten af fliserne. Vi vil altså teste hypotesen µ x = µ y, hvor µ x og µ y er middelværdierne af vægtene af de to maskiners fliser. Lad x 1, x 2,..., x m være vægtene af m fliser fra den ene maskine og y 1, y2,..., yn være vægtene af n fliser fra den anden maskine. Vi vil forkaste hypotesen hvis tallet z = x y er tæt på nul. Hvis σ havde været kendt, kunne vi have benyttet at tallet u = z 0 σ z = (x σ y) 1 m + 0 1 n er normalfordelt med middelværdi 0 og spredning 1. Da spredningen ikke er kendt, erstatter vi σ med det bedste gæt på σ udregnet ud fra stikprøverne. Der gælder: Statistik udg.1.01 Side 40 af 44 8/2-04 Karsten Juul