Noter til Statistik Lisbeth Tavs Gregersen 1. udgave 1
Indhold 1 Intro 3 1.1 HF Bekendtgørelsen........................ 3 1.2 Deskriptiv statistik......................... 3 2 Ikke-grupperet Talmateriale 4 2.1 Hyppighed.............................. 4 2.1.1 Prikdiagram......................... 5 2.1.2 Typetallet.......................... 5 2.2 Frekvens............................... 5 2.2.1 Kumulerede frekvens.................... 5 2.3 Kvartilsæt.............................. 6 2.3.1 Median........................... 6 2.3.2 Nedre (første) kvartil.................... 6 2.3.3 Øvre (tredje) kvartil.................... 6 2.4 Boksplot............................... 6 2.5 Fortolkning og kommentering af boksplot............. 7 2.6 Middeltal (ikke-grupperet talmateriale).............. 8 3 Grupperet Talmateriale 9 3.1 Intervalhyppighed.......................... 9 3.1.1 Typeinterval......................... 9 3.2 Intervalfrekvens........................... 9 3.2.1 Kumuleret frekvens..................... 10 3.3 Sumkurve.............................. 10 3.4 Kvartilsæt.............................. 10 3.5 Histogram.............................. 11 3.6 Middeltal (grupperet talmateriale)................. 12 3.7 Specielt for aldersfordelinger.................... 12 4 Opgaver 14 4.1 Ikke-grupperet talmateriale:.................... 14 4.2 Grupperet talmateriale:....................... 17 5 Eksamenslignende opgaver: 20 2
1 Intro Statistik består af bearbejdning af datamateriale (talmateriale). Målet med bearbejdningen er at skabe sig et overblik over datamaterialet, så man bedre kan beskrive og overskue det. 1.1 HF Bekendtgørelsen Kursisterne skal kunne: - give en statistisk behandling af et talmateriale og kunne formidle konklusioner i et klart sprog Kernestoffet er: - deskriptiv statistik med grafisk præsentation og bestemmelse af simple empiriske statistiske deskriptorer 1.2 Deskriptiv statistik En deskriptor er et tal, som fortæller noget karakteristisk om et talmateriale. Eksempel: Ved en række eksamener har Josephine opnået følgende karakterer: 7, 4, 4, 7, 10, 7, 7, 10, 7, 2, 4, 7, 10, 4, 7, 10, 7, 4, 12, 10. Hvis der er tale om 20 enkeltkarakterer, kan det virke uoverskueligt. Derimod synes beskeden: Josephine bestod sine eksamener med gennemsnittet 7 at være en klar besked og ofte lige så god som alle enkeltkaraktererne. Her vil vi i stedet for ordet gennemsnit bruge ordet middelværdi. Ofte vil man også være interesseret i, hvilke karakterer Josephine har fået flest af: dvs. hendes typiske karakter. Josephine har typisk fået 7 Når vi har en række observationer, kaldes den observation (her karakter), der er flest af, typetallet. Vi kunne også sortere alle Josephines karakterer i størrelsesorden begyndende med 2, så 4, 4... og til sidst 12. Den karakter, der står midt i rækken er 3
medianen. Er der et lige antal observationer, benytter vi middelværdien af de to midterste observationer. Både middelværdi, typetal og median beskriver Josephines eksamen; de er deskriptorer. Det er slet ikke hver gang at tallene er ens, men at de har omtrent samme værdier er heller ikke unormalt. Hvad der er vigtigt (for os) er, at deskriptoren fortæller det vigtigste uden at vildlede. Her var det karakterer vi observerede, men det kunne have været alt muligt andet: mord på ægtefæller, længden af torsk, antal rugende ørne i Danmark, prisen på en tønde olie... Når vi har en række af sådanne (samhørende) data, kan vi give dem en statistisk behandling. 2 Ikke-grupperet Talmateriale Eksemplet vi vil anvende: På et hold med 25 elever har eleverne sendt følgende antal SMS er det seneste døgn: 4, 3, 8, 2, 0, 3, 0, 10, 5, 5, 3, 9, 7, 0, 8, 2, 4, 8, 3, 5, 0, 8, 4, 12, 3 Hvert af tallene kaldes en observation, hvormed der er 25 observationer i alt. Tilsammen udgør tallene et observationssæt. Det er normalt at sortere observationerne efter størrelse (voksende): 0, 0, 0, 0, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5, 5, 7, 8, 8, 8, 8, 9, 10, 12 2.1 Hyppighed Hyppighed betyder det antal gange en observation optræder i observationssættet. For at gøre observationerne overskuelige kan vi lave en hyppighedstabel: Observation 0 2 3 4 5 7 8 9 10 12 Hyppighed 4 2 5 3 3 1 4 1 1 1 I tabellen ses det at observationen 0 har en hyppighed på 4, mens observationen 2 har en hyppighed på 2, o.s.v. 4
2.1.1 Prikdiagram Hyppigheden kan desuden illustreres ved et prikdiagram, som vist nedenfor. I prikdiagrammet viser antallet af prikker hyppigheden for en given observation. 0 1 2 3 4 5 6 7 8 9 10 11 12 antal SMS er 2.1.2 Typetallet Typetallet er den observation der er flest af. I eksemplet med SMS er er typetallet 3, da der er flest af denne observation. 2.2 Frekvens Observationers frekvens beskriver observationens andel af samtlige observationer. Frekvensen er således hyppigheden omregnet til procent. I eksemplet med SMS er er frekvensen 16% for observationen 0, da hyppigheden er 4 og det totale antal observationer er 25; = 0,16 = 16%. 4 25 Man kan således opstille en frekvenstabel: Observation 0 2 3 4 5 7 8 9 10 12 Frekvens 0,16 0,08 0,20 0,12 0,12 0,04 0,16 0,04 0,04 0,04 Frekvens i procent 16% 8% 20% 12% 12% 4% 16% 4% 4% 4% 2.2.1 Kumulerede frekvens Den kumulerede frekvens for en observation er den samlede frekvens for de observationer der er mindre end eller lig med observationen. En tabel over den kumulerede frekvens ser således ud: Observation 0 2 3 4 5 7 8 9 10 12 Frekvens i procent 16% 8% 20% 12% 12% 4% 16% 4% 4% 4% Kumulerede frekvens 16% 24% 44% 56% 68% 72% 88% 92% 96% 100% 5
2.3 Kvartilsæt Et kvartilsæt består af nedre (første) kvartil, medianen og øvre (tredje) kvartil. 2.3.1 Median Medianen er den midterste observation, når observationerne er ordnet efter størrelse. Er der to i midten (når antal observationer er lige), benyttes gennemsnittet af disse to. I eksemplet med SMS er er medianen altså 4. 2.3.2 Nedre (første) kvartil Nedre kvartil findes som medianen men kun i den første halvdel af observationerne (sorteret i voksende rækkefølge.) Ved ulige antal ses der bort fra midterste observation - den som udgør medianen. I eksemplet med SMS er er nedre kvartil altså 2 + 3 2 2.3.3 Øvre (tredje) kvartil = 2,5 Øvre kvartil findes på tilsvarende måde blandt de største observationer. I eksemplet med SMS er er øvre kvartil altså 8 + 8 = 8 2 Observationssættets kvartilsæt er således (2,5; 4; 8) [(nedre kvartil; median; øvre kvartil). 2.4 Boksplot Et boksplot er en grafisk måde kort at beskrive et bearbejdet statistisk materiale. Et boksplot indeholder følgende oplysninger: Den mindste værdi i materialet (minimum) Den største værdi i materialet (maksimum) 6
Nedre kvartil Median Øvre kvartil Selve boksplottets udformning kan ses på nedenstående figur: 2.5 Fortolkning og kommentering af boksplot Man starter med at kommentere de 5 oplysninger man kan aflæse af boksplottet. Bemærk at man skal kommentere med et ordvalg, som beskriver den realistiske situation bedst muligt. I eksemplet med SMS er er man nødt til at runde den fundne nedre kvartil op til 3, da man ikke kan sende 2,5 SMS er. Fortolkningen bliver således: 1. Minimum: Det laveste antal sendte SMS er var 0. 2. Nedre kvartil: 25% af eleverne sendte 3 SMS er eller mindre. 3. Median: 50% af eleverne sendte 4 SMS er eller mindre. 4. Øvre kvartil: 75% af eleverne sendte 8 SMS er eller mindre. 5. Maksimum: Den største antal sendte SMS er var 12. Derudover kan vi også udtale os om boksen og pindene i boksplottet: 6. Boksens placering og/eller udstrækning: De midterste 50% af antal sendte SMS er lå mellem 3 og 8. Eller alternativt: Det typiske antal sendte SMS er lå i intervallet fra 3 til 8. 7. Udstrækningen af venstre pind: 25% af antal sendte SMS er lå mellem 0 og 3. 7
8. Udstrækningen af højre pind: 25% af antal sendte SMS er lå mellem 8 og 12. Dette kan bruges som en opskrift på at beskrive enkelte boksplot. Når man sammenligner 2 boksplot, kan man også med fordel sammenligne de samme 8 punkter. 2.6 Middeltal (ikke-grupperet talmateriale) Middeltallet er gennemsnittet af observationerne. Dvs. middeltallet findes ved at lægge alle observationerne sammen og dividere med antallet af observationer. Man kan med fordel benytte hyppighedstabellen når middeltallet skal findes: Middeltal = 0 4 + 2 2 + 3 5 + 4 3 + 5 3 + 7 + 8 4 + 9 + 10 + 12 25 = 4,64 Eleverne har altså i gennemsnit sendt 4,64 SMS er. Løs opgave 1-7 s. 14-17 8
3 Grupperet Talmateriale Grupperet talmateriale er observationer i et datasæt, der er inddelt i intervaller. Eksemplet vi vil anvende: Vi vælger 10 tilfældige VUC-kursister som vores population og betragter deres højde i centimeter som vores observationssæt. Det ikke-grupperede observationssæt er så listen over observationer, fx 162, 178, 192, 157, 163, 167, 181, 171, 160, 187 Vi grupperer observationssættet ved at inddele det i passende intervaller. Fx kunne vi vælge intervallerne 150-160, 160-170, 170-180, 180-190, 190-200. 3.1 Intervalhyppighed For hvert interval angiver intervalhyppigheden det antal observationer, som intervallet indeholder. Som et eksempel er intervalhyppigheden hørende til 160-170 lig med 4, da vi har 4 observationer indehold i dette interval. BEMÆRK: Vi vedtager at 150-160 betyder intervallet [150-160[ (fra og med 150 til 160) osv. Så en højde på 160 skal placeres i intervallet 160-170. En hyppighedstabel ser således ud: Interval 150-160 160-170 170-180 180-190 190-200 Intervalhyppighed 1 4 2 2 1 3.1.1 Typeinterval Et typeinterval er det interval, hvor intervalhyppigheden er størst. I det valgte eksempel er typeintervallet 160-170, da dette er intervallet med det største antal observationer. 3.2 Intervalfrekvens For hvert interval angiver intervalfrekvensen den procentdel af observationerne, som intervallet indeholder. Intervalfrekvensen hørende til et interval findes ved at omregne intervalhyppigheden til procentdelen af det totale antal observationer: Frekvensen for 160-170 er 4 = 0,4 = 40% 10 En tabel for intervalfrekvensen ser således ud: 9
Interval 150-160 160-170 170-180 180-190 190-200 Intervalfrekvens 0,10 0,40 0,20 0,20 0,10 Intervalfrekvens i procent 10% 40% 20% 20% 10% 3.2.1 Kumuleret frekvens Den kumulerede frekvens hørende til et interval findes ved at lægge intervallets frekvens sammen med de foregående. Interval 150-160 160-170 170-180 180-190 190-200 Intervalfrekvens 10% 40% 20% 20% 10% Kumuleret frekvens 10% 50% 70% 90% 100% 3.3 Sumkurve Sumkurven er defineret som grafen for funktionen, der for enhver mulig observationsstørrelse (x-værdi) angiver brøken (eller procenten) af observationer, der er mindre end denne x-værdi. I et koordinatsystem afsættes de punkter, hvis x-værdi bestemmes af højre intervalendepunkt, og hvis y-værdi bestemmes af den tilsvarende kumulerede intervalfrekvens. Punkterne forbindes af rette linier. Dette har den konsekvens, at man derved antager at observationerne fordeler sig jævnt i hvert interval. 100 kumuleret frekvens 80 60 40 20 0 150 155 160 165 170 175 180 185 190 195 200 højde [cm] 3.4 Kvartilsæt Et kvartilsæt består af nedre (første) kvartil, medianen og øvre (tredje) kvartil: 10
Nedre kvartil er det tal, som er bestemt ved, at 25% af observationerne er mindre end eller lig med tallet. Medianen er det tal, som er bestemt ved, at 50% af observationerne er mindre end eller lig med tallet. Øvre kvartil er det tal, som er bestemt ved, at 75% af observationerne er mindre end eller lig med tallet. Kvartilsættet kan aflæses på sumkurven: 100 kumuleret frekvens 75 50 25 0 150 155 160 163.8 170 175 180182.5 190 200 højde [cm] Kvartilsættet aflæses på sumkurven til: Nedre kvartil: Værdien på første-aksen hørende til 25% på anden-aksen = 163,8. Dvs. 25% af eleverne har en højde, som er mindre end eller lig med 163,8 cm. Medianen: Værdien på første-aksen hørende til 50% på anden-aksen = 170. Dvs. 50% af eleverne har en højde, som er mindre end eller lig med 170 cm. Øvre kvartil: Værdien på første-aksen hørende til 75% på anden-aksen = 182,5. Dvs. 75% af eleverne har en højde, som er mindre end eller lig med 182,5 cm. 3.5 Histogram Et histogram er et søjlediagram, hvor søjlernes bredde er hele intervallet og alle intervaller har samme bredde. Højden af søjlerne svarer til intervalfrekvensen eller intervalhyppigheden. 11
50 40 intervalfrekvens 30 20 10 0 150 155 160 165 170 175 180 185 190 195 200 højde [cm] 3.6 Middeltal (grupperet talmateriale) Middeltallet er gennemsnittet af observationerne. Middeltallet udregnes som (sum af intervalmidtpunkter gange hyppighed)/(antal observationer). Intervalmidtpunktet for intervallet 150-160 er 155 o.s.v. Middelværdien for elevernes højde er således: Middeltal = 155 1 + 165 4 + 175 2 + 185 2 + 195 1 10 = 173,0 3.7 Specielt for aldersfordelinger Eksempel: I tabellen nedenfor ses aldersfordelingen for de børn, der blev adopteret i Danmark i 2002 (kilde: Danmarks Statistik): Alder 0-4 5-9 10-14 15-19 Sum Hyppighed 681 94 93 88 956 Frekvens 71% 10% 10% 9% 100% Bemærk, at intervalinddelingen er anderledes end vi hidtil har set, idet eksempelvis første intervals sidste endepunkt tilsyneladende ikke grænser helt op 12
til andet intervals første endepunkt. Dette er specielt for observationssæt, der vedrører en aldersfordeling. I det første interval er medtaget de observationer, hvor det adopterede barn er fra og med 0 til og med 4 år. Da man er 4 år indtil den dag, man fylder 5 år, vælger man at angive 4 som højre intervalendepunkt. Således vil et barn, der er 4,9 år på adoptionstidspunktet, tælle med i intervallet fra 0 til 4. Delepunktet mellem de to første intervaller er 5, mellem de to næste intervaller er delepunktet 10 o.s.v. Når man skal tegne histogrammet, afsætter man derfor tallene 0, 5, 10 og 20 på x-aksen: 80 intervalfrekvens 60 40 20 0 0 5 10 15 20 alder 13
4 Opgaver 4.1 Ikke-grupperet talmateriale: 1. Klassens skostørrelser: a. Udfyld nedenstående skema. Skostørrelse 36 37 38 39 40 41 42 43 44 45 46 Hyppighed Frekvens Kum. frekvens b. Tegn et prikdiagram af observationssættet. c. Bestem typetallet. d. Bestem kvartilsættet. e. Tegn et boksplot for observationssættet. f. Bestem observationssættets middeltal. 2. Pigernes skostørrelse VS drengenes skostørrelse. a. Udfyld nedenstående skema for pigernes skostørrelser. Pige skostr. 36 37 38 39 40 41 42 43 44 45 46 Hyppighed b. Bestem kvartilsættet. c. Tegn et boksplot af observationssættet for pigernes skostørrelser. d. Udfyld nedenstående skema for drengenes skostørrelser. Drenge skostr. 36 37 38 39 40 41 42 43 44 45 46 Hyppighed e. Bestem kvartilsættet. f. Tegn et boksplot af observationssættet for drengenes skostørrelser. g. Sammenlign de to boksplot. 14 3. Slutstillingerne i kvindehåndbold 2003-04 er angivet nedenfor:
Nr. Hold Point 1 Slagelse FH 43 2 Viborg HK 36 3 Ikast/Bording 33 4 Randers HK 27 5 GOG 23 6 Horsens HK 22 7 FCK Håndbold 22 8 Aalborg DH 19 9 SK Århus 12 10 KIF Kolding 12 11 Fox Team Nord 9 a. Bestem kvartilsættet. b. Tegn et boksplot for observationssættet. c. Bestem observationssættets middeltal. 4. Sammenligning af fordelingen af antal scorede mål i SAS Ligaen i fodbold. Nedenstående tabeller viser hvor mange mål hvert hold scorede i SAS Ligaen i fodbold i sæsonerne 2001-02 og 2004-05 (kilde: www.onsidedk.com). Sæson 2001-02 Hold Antal mål Brøndby IF 74 FC København 62 FC Midtjylland 47 AaB 52 AB 48 OB 56 Esbjerg FB 42 Viborg FF 46 Silkeborg IF 41 AGF 42 Vejle Boldklub 38 Lyngby BK 25 Sæson 2004-05 Hold Antal mål Brøndby IF 61 FC København 53 FC Midtjylland 49 AaB 59 Esbjerg fb 61 OB 61 Viborg FF 43 Silkeborg IF 50 AGF 47 FC Nordsjælland 36 Herfølge BK 29 Randers FC 30 15
a. Bestem kvartilsættet for antal scorede mål i de to sæsoner. b. Tegn boksplot for de to fordelinger i samme diagram. c. Beskriv hvad boksplottene fortæller om fordelingen af scorede mål i de to sæsoner. 5. Sammenligning af fordelingen af pointscoring i basketball. Materialet i denne opgave er fordelingen af pointscoring i en basketballkamp 15.11.2005 i den nordamerikanske basketballliga NBA. Kampen var mellem Nuggets (fra Denver) og Hornets (fra New Orleans) (kilde: www.nba.com). Datamateriale fra kampen: Nuggets Spiller Antal point A. Miller 15 D. Johnson 2 C. Anthony 31 M. Camby 15 F. Elson 2 E. Najera 6 E. Boykins 10 E. Watson 10 G. Buckner 0 Hornets Spiller Antal point C. Paul 18 K. Snyder 11 D. West 16 B. Nachbar 7 P. Brown 8 S. Claxton 4 D. Mason 7 C. Andersen 10 A. Macijauskas 0 a. Bestem kvartilsættet for antal scorede point for henholdsvis Nuggets og Hornets. b. Tegn boksplot for de to fordelinger i samme diagram. c. Beskriv hvad boksplottene fortæller om fordelingen af scorede point i de to kampe. 6. En gymnasieklasse på B-niveau skal til skriftlig eksamen én time uden hjælpemidler og tre timer med alle hjælpemidler. Læreren ønsker at undersøge hvor stor effekt én måned intensiv træning i løsning af opgaver uden hjælpemidler har. Derfor bliver eleverne testet både før og efter den intensive træning. I begge test kan man maksimalt opnå 50 point. 16
Resultaterne af de to test kan ses af følgende tabel: Test FØR 12 16 22 41 7 18 3 11 16 19 Test FØR fortsat 9 26 17 31 22 18 10 8 19 Test EFTER 26 31 42 49 20 38 22 31 23 31 Test EFTER fortsat 26 40 42 50 46 46 25 21 40 a. Bestem kvartilsættet for de to test, og indtegn boksplot for de to resultater i samme diagram. b. Beskriv i ord forskelle på de to test. 7. Hastighedsmåling: Man har observeret 16 bilers hastighed gennem en by, hvor den højest tilladte hastighed er 50 km/t. De observerede hastigheder var 70, 61, 55, 60, 52, 49, 72, 54, 48, 53, 47, 62, 49, 51, 52, 50 a. Bestem kvartilsættet. b. Tegn et boksplot for observationssættet. c. Hvad fortæller boksplottet om bilernes hastighed? d. Bestem observationssættets middeltal. 4.2 Grupperet talmateriale: 8. Feminas kvindeløb 1. Tabellen nedenfor viser resultatet af Feminas kvindeløb 2005 for de deltagere, som gennemførte på 45 minutter og derunder: Tid [min.] 15-20 20-25 25-30 30-35 35-40 40-45 Frekvens 0,2% 5,3% 30,6% 40,7% 17,0% 6,1% a. Lav et histogram, der illustrerer dette datasæt. b. Beregn de kumulerede frekvenser. c. Tegn en sumkurve. d. Bestem kvartilsættet. e. Opskriv intervalmidtpunkterne. 17
f. Bestem observationssættets middeltal. 9. Feminas kvindeløb 2. Tabellen nedenfor viser aldersfordelingen blandt deltagerne i Feminas kvindeløb 2005: Alder under 16 16-20 21-30 31-40 41-50 51-60 over 61 Frekvens 6,9% 4,4% 21,4% 29,7% 26,0% 10,1% 1,4% a. Lav et histogram, der illustrerer dette datasæt. b. Beregn de kumulerede frekvenser. c. Tegn en sumkurve. d. Bestem kvartilsættet. e. Opskriv intervalmidtpunkterne. f. Bestem observationssættets middeltal. 10. Agurker. Et parti på 1000 agurker er blevet vejet, fordi man ønsker at sortere agurker fra, som er for små eller for store. I nedenstående tal ses agurkernes vægt målt i gram: Vægt 200-300 300-400 400-500 500-600 600-700 Antal 95 240 325 230 110 a. Lav et histogram, der illustrerer datasættet. b. Beregn de kumulerede frekvenser. c. Tegn en sumkurve. d. Beregn middeltallet. e. Hvor stor en procentdel af agurkerne vejede 250 gram eller derunder? f. Hvor stor en procentdel af agurkerne vejede mellem 350 og 450 gram? g. Hvor stor en procentdel af agurkerne vejede over 550 gram? 11. Førtidspension. I alt 260.455 danskere modtog i 2003 førtidspension. Aldersfordelingen fremgår af nedenstående tabel: 18
Alder 18-29 30-39 40-49 50-54 55-59 60-66 Hyppighed 9.013 23.919 51.558 40.286 55.692 79.987 a. Beregn frekvenserne og de kumulerede frekvenser. b. Beregn middeltallet. c. Lav en sumkurve. d. Aflæs kvartilsættet. e. Hvad fortæller middeltallet og kvartilsættet om aldersfordelingen? 12. Løs opgave 1 i Matema10k s. 252. 13. Løs opgave 2 i Matema10k s. 252. 14. Løs opgave 3 i Matema10k s. 252. 15. Løs opgave 4 i Matema10k s. 252. 16. Løs opgave 5 i Matema10k s. 253. 17. Løs opgave 6 i Matema10k s. 253. 18. Løs opgave 10 i Matema10k s. 255. 19. Løs opgave 12 i Matema10k s. 255. 20. Løs opgave 13 i Matema10k s. 256. 19
5 20 Eksamenslignende opgaver:
21