5. Statistik Hayati Balo,AAMS Følgende fremstilling er baseret på 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime 1. Ugrupperede Observationer Hvis der foreligger et antal målinger eller observationer i form af tal, taler man om ugrupperede observationer, hvis man ikke slår dem sammen i grupper. Som eksempel tænker vi os, at man har bedt 200 familier om at opgøre, hvor mange reklametryksager de har modtaget en bestemt week-end. Resultaterne kan sammenfattes i en tabel som denne: 1
Antal tryksager Antal familier Antal familier kumuleret Antal familier i pct. Antal familier kumuleret i pct. Observation - x Hyppighed - h(x) Kumuleret hyppighed - H(x) Frekvens i pct. f(x) Kumuleret frekvens F(x) 8 24 24 12% 12% 9 30 54 15% 27% 10 42 96 21% 48% 11 40 136 20% 68% 12 36 172 18% 86% 13 28 200 14% 100% 200 Der er altså 24 familier, der modtog 8 tryksager og disse 24 udgjorde 12% af de 200 familier. Kumuleret betyder opsummeret og den kumulerede frekvens angiver hvor mange procent af talmaterialet der ligger under en given grænse. Fx. har 68% af familierne modtaget højst 11 tryksager og 86% har modtaget 12 eller derunder. Stolpediagram og fraktiler Frekvenserne kan anskueliggøres i et såkaldt stolpediagram ved at bruge antal tryksager(x) og frekvenser (f(x)) i pct. som vist nedenunder. Brug kommandoen StickGraph[List of points]. Ordet fraktil betyder brøkdel. Vi kan f.eks. være interesseret i at finde, under hvilket antal tryksager 40% af familierne ligger. Der er 27% af familierne, der har modtagert 9 eller færre tryksager og 48% har modtaget 10 eller færre, så grænsen på 40 tryksager omfatter i hvert fald 40% af familierne. Derfor siger man at 40 %-fraktilen er 10. 2
I GeoGebra s regneark facilitet kan man også lave stolpediagrammer ved at bruge antal tryksager x sammen med kumulerede frekvenser F(x) ved at bruge kommandoen StickGraph[List of points]. 3
Ordet fraktil betyder brøkdel. Vi kan f.eks. være interesseret i at finde, under hvilket antal tryksager 40% af familierne ligger. Der er 27% af familierne, der har modtagert 9 eller færre tryksager og 48% har modtaget 10 eller færre, så grænsen på 40 tryksager omfatter i hvert fald 40% af familierne. Derfor siger man at 40 %-fraktilen er 10. Vi forestiller os nu materialet stillet op i voksende rækkefølge: 8,8,8,...8,9,9,...9,10,10,...,10,11,11,...,11,12,12,...,12,13,13,...,13 Medianen er den midterste observation, hvis der er et ulige antal observationer og gennemsnittet af de to midterste, hvis der er et lige antal. Medianen er et tal med den egenskab, at halvdelen af materialet ligger under halvdelen over. I dette tilfælde er der 200 observationer, så medianen er gennemsnittet af observation nr. 100 og nr. 101 dvs. den er 11 + 11 2 4 = 11
I GeoGebra kan man indsætte talmaterialet som en liste ved at skrive følgende. {8,8,...8,9,9,...9,10,10,...,10,11,11,...,11,12,12,...,12,13,13,...,13} Og skrive følgende kommandoer i inputfeltet: Q1[List1] beregner 1. kvartil Meadian[list1] beregner medianen Q3[list1] beregner 3. kvartil Mean[list1] beregner middelværdi Variance[list1] beregner variansen SD[list1] beregner spredningen list1 er GeoGebra s navn til det ugruppererede observationer ovenover. Den nederste halvdel af talmaterialet har også en median, som kaldes 1.kvartil. Dette tal har altså den egenskab, at en fjerdedel af talmaterialet ligger under, tre fjerdedel over. På samme måde har den øverste halvdel af materialet en median, som kaldes 3.kvartil. Tre fjerdedele af materialet ligger under dette tal, en fjerdedel over. I eksemplet ovenover, består talmaterialets nederste halvdel af 100 tal. 1. kvartil fås som gennemsnittet mellem tal nr. 50 og tal nr. 51, dvs. den er 9. GeoGebra s kommando til at finde 1.kvartil hedder Q1 og ses af GeoGebra filen. På samme måde fås 3. kvartil som gennemsnittet af tal nr. 150 og tal nr. 151, dvs. den er 12. 5
Kvartilsættet består af 1. kvartil, median og 3. kvartil, så det vises som Kvartilsættet=(9, 11, 12) Kvartilsættet kan sammen med mindsteværdien og størsteværdien (8 og 13) illustreres på et såkaldt boxdiagram. GeoGebra s kommando BoxPlot[2,1,list1] bruges til at tegne boxdiagrammet. Kassen i midten strækker sig fra 1. til 3. kvartil og er delt med en tværstreg ved medianen. Linjerne i enderne strækker sig til mindsteværdien og størsteværdien. Forskellen mellem største- og mindsteværdi kaldes variationsbredden,og den er 13-8=5. Middelværdi Vi kan beregne middelværdien eller gennemsnittet ved at lægge observationerne sammen og dividere med antallet. Det gennemsnitlige antal tryksager, som en familie har modtaget bliver µ = 8 24 + 9 30 + 10 42 + 11 40 + 12 36 + 13 28 200 6 = 10,59
Middelværdien kan også beregnes ved at bruge frekvenserne i stedet på følgende måde: µ = 8 0,12 + 9 0,15 + 10 0,21 + 11 0,20 + 12 0,18 + 13 0,14 = 10,59 Her har man brugt det græske bogstav µ(my) til at betegne middelværdien. Man kan sige, at middelværdien af tallene i materialet (8,9,10,11,12,13) fremkommer som et såkaldt vejet gennemsnit. Tallet 8 har vægten 12%, tallet 9 har vægten 15% osv. og middelværdien på 10,59 fås netop ved at tallene bidrager til middelværdien med deres vægte, dvs. med deres frekvenser. Talmaterialets middelværdi omtales også som den matematiske forventning - familien kan jo forvente at modtage ca. 10,59 tryksager i gennemsnit. Man bruger også betegnelsen E(X), hvor X betegner observationerne(antal tryksager) og hvor E står for expectation,så E(X) = 10, 59. I almindelighed er middelværdien ikke tilstrækkelig til at beskrive et talmateriale. I en prøve kan en klasses elever fx. alle opnå karakteren 7, mens en anden klasses gennemgår prøven med det resultat at halvdelen får 00 og halvdelen 12. Også denne klasse har et gennemsnit på 7 - men man må sige at de to klasser trods ens gennemsnit er meget forskellige. EKSEMPEL 1 To skoleklasser A-klassen og B-klassen med henholdsvis 13 og 11 elever, har gennemgået en prøve, hvor der kan gives maksimalt 50 points. der blev givet følgende pointtal: 7
A-klassen B-klassen 7 20 11 23 17 24 22 27 24 28 29 30 30 31 31 32 35 33 39 34 41 37 45 46 i alt 377 points ialt 319 points Middelværdien for pointtallene i de to klasser er ens: A klassen : 377 13 = 29 B klassen : 319 11 = 29 Man kan alså ikke vurdere klasserne baseret alene på middelværdierne! Medianen er den midterste observation og ved optælling ser vi, at det midterste tal i både A-.klassen og B-klassen er 30. Altså er medianen for de to klasser også ens. A klassen = 30 8
B klassen = 30 Medianerne er heller ikke nok til at vurdere klasserene! Derimod ligger pointtallene åbenbart mere spredt i B-klassen end i A-klassen. Vi finder kvartilsættene i de to klasser for at finde et bedre vurderingsgrundlag. For A-klassen er den nederste halvdel af talmaterialet 7,11,17,22,24,29 og medianen af dette talsæt er gennemsnittet af 17 og 22, dvs. Øverste halvdel af materialet er 17 + 22 Dvs. 1. kvartil = = 19,5 2 31,35,39,41,45,46 39 + 41 3.kvartil = = 40 2 Kvartilsættet for A-klassen er = (19,5;30;40) For B-klassen er nederste og øverste halvdel af materialet henholdsvis 20,23,24,27,28 31,32,33,34,37 1. kvartil er 24 og 3.kvartil er 33. Kvartilsættet for B-klassen er = (24,30,33) 9
Og tallet i midten 30 er jo medianen så kvartilsættet skrives som (1. kvartil, medianen,3.kvartil) De to boxdiagrammer nedenunder illustrerer udmærket den meget forskellige spredning af pointtallene i de to klasser. Diagrammet er konstrueret vha. GeoGebra kommandoen: BoxPlot[2,1,{7,11,17,22,24,29,30,31,35,39,41,45,46}] Og på tilsvarende måde: 10
BoxPlot[2,1,{20,23,24,27,28,30,31,32,33,34,37}] Vi ser at A-klassen har en variationsbredde på 46-7=39 mens den for B-klassen kun er 37-20=17 Varians og Spredning Vi skal indføre et mål for, hvor spredt observationerne ligger i forhold til middelværdien. Vi bruger nu antal tryksager og antal familier i starten af dokumentet og indfører et mål for, hvor spredt observationerne ligger i forhold til middelværdien. Man udregner kvadraterne på forskellene mellem middelværdioen µ og observationerne, dvs. tallene og ganger dem med frekvenserne i pct.og summere 0,12(8 10,59) 2 = 0,80 0,15(9 10,59) 2 = 0,38 0,21(10 10,59) 2 = 0,073 0,20(11 10,59) 2 = 0,034 0,18(12 10,59) 2 = 0,36 0,14(13 10,59) 2 = 0,81 Sum 2,46 Dette tal kaldes observationssættets varians og skrives som: Var(X) = 2,46 11
Spredningen σ(x) defineres som kvadratroden af dette tal: σ(x) = 2,46 = 1,57 Dette giver et mål for, hvor spredt søjlerne i stolpediagrammet står. Spredningen -eller standartafvigelsen som også kaldes- for et talmateriale kan ikke umiddelbart aflæses på en figur. Man kan ved hjælp af GeoGebra beregne varians og spredning(standartafvigelsen) på følgende måde: Variance[list1, list2] SD[list1, list2] hvor list1 indeholder observationerne og list2 indeholder frekvenserne som vist i tabellen nednunder: Create list vælges i GeoGebra. x f(x) 8 24 9 30 10 42 11 40 12 36 13 28 Ellers kan beregningerne foretages i hånden som vist nedenunder: 12
Antal tryksager(x) frekvens i pct. - f(x) f(x) (x-µ) 2 8 0,12 0,12(8-10,59) 2 = 0,80 9 0,15 0,15(9-10,59) 2 = 0,38 10 0,21 0,21(10-10,59) 2 = 0,073 11 0,20 0,20(11-10,59) 2 = 0,034 12 0,18 0,18(12-10,59) 2 = 0,36 13 0,14 0,14(13-10,59) 2 = 0,81 Var(x) = 2.46 13
2. Grupperede Observationer Et eksempel på grupperede observation: En virksomhed fremstiller reservedele til maskiner. Der produceres bl.a. små metalaksler, hvis længde varierer mellem 10 og 20 mm. Man udtager 40 sådanne aksler og måler deres længde. De 40 målinger sammensættes i en tabel, hvor tallene er grupperet i intervaller: Observationsinterval(mm) Intervalhyppighed(antal) Intervalfrekvens(%) Kumuleret intervalfrekvens(%) x h(x) f(x) F(x) ]10;12] 4 10,0 10,0 ]12;14] 7 17,5 27,5 ]14;16] 15 37,5 65,0 ]16;18] 8 20,0 85,0 ]18;20] 6 15,0 100,0 Hver af de 40 målinger kaldes en observation. Observationsintervallerne er de intervaller, man har valgt at dele målingerne i. Man har vedtaget, at højre endepunkt er med i intervallet, venstre ikke. Intervalhyppighederne angiver det antal målinger, der ligger i hvert interval. Intervalfrekvenser er den procentdel af observationerne, der ligger i hvert interval. Vi ser desuden, at 27,5% af observationerne er på 14 mm. eller derunder. 14
Histogram For at lette overblikket anskueliggør man de tal, der er samlet i en tabel som ovenstående, i forskellige figurer. Et histogram ses på nedenstående figur. For at tegne histogrammet i GeoGebra skal man først i regnearket indtæste følgende værdier fra grupperede tabel og lave to lister en for hver kolonne. Observationsinterval Interval frekvens (%) x f(x) 10 10 12 17,5 14 37,5 16 20,0 18 15,0 20-15
Læg mærke til hvordan tabellen er konstrueret og som ses hyppigheds kolonnen mangler sidste tal. Sådan skal det være for at konstruere histogrammet vha. kommandoen Histogram[list1, list2] På x-aksen er intervalendepunkterne afsat og over hvert interval er tegnet et rektangel, hvis areal svarer til procentdelen af observationer i intervallet. Sumkurve De kumulerede intervalfrekvenser afbildes ved hjælp af en sumkurve. Vi konstruerer følgende tabel for at tegne sumkurve. Observationsinterval x Kumuleret intervalfrekvens(%) F(x) 10 0,0 12 10,0 14 27,5 16 65,0 18 85,0 20 100,0 Der laves nu liste af punkter vha. GeoGebra ved at vælge begge kolonner samtidig og kommandoen StickGraph[List of points ] til at konstruere følgende. 16
Man kan allerede læse kvartilsættet altså, første kvartil, medianen og tredie kvartil ud fra figuren. Ved hjælp af sumkurven - som kan konstrueres ved at markere begge kolonner i regnearket og vælge polyline between points- kan man besvare forskellige spørgsmål: 17
- Hvor mange procent af akslerne er højst 17 mm lange? Dette kan aflæses direkte på figuren ovenover som funktionsværdien af 17, altså 75 %. - Hvor mange procent af akslerne er mindst 13 mm lange? På figuren ses at 19% er 13 mm lange eller derunder, så 81% må være mindst 13 mm lange. - Hvor mange procent af akslerne er mellem 15 og 19 mm lange? På figuren ses, at 93% af akslerne er højst 19 mm lange og 46 % er højst 15 mm lange. Derfor er 93 % - 46 % = 47 % mellem 15 og 19 mm lange. 18
Fraktiler Fraktiler defineres på samme måde som ved ugrupperede observationer. Således er 40 %-fraktilen den grænse under hvilken 40 % af materialet ligger. På sumkurven er det den værdi på x-aksen, der svarer til 40 % på y-aksen. 40 %-fraktilen er 14,7 mm, så 40 % af materialet har en længde på 14,7 mm eller derunder. Kvartilsættet er (13, 7; 15, 2; 17). Middelværdi Man finder middelværdien eller gennemsnittet af en række målinger ved at lægge dem sammen og dividere med antallet. I dette tilfælde kender vi imidlertid ikke hver enkelt aksels længde. Vi kan alligevel beregne et tal, som er tæt på det rigtige gennemsnit. Vi tillader os at gå ud fra, at de aksler, der er mellem 10 og 12 mm lange, er jævn fordelt i intervallet ]10;12], så vi ikke begår nogen særlig fejl ved at tillægge dem alle længden 11 mm. Akslerne bidrager altså med 4*11=44 mm til den samlede længde. De 7 aksler i intervallet ]12;14] tillægges alle en længde på 13 mm osv. Derfor indfører vi middelværdien af materialet sådan: Middelværdien beregnes ved at gange hvert intervalmidtpunkt med antallet af observationer i intervallet,lægge sammen og dividere med det samlede antal observationer. I dette tilfælde får vi: 4 11 + 7 13 + 15 15 + 8 17 + 6 19 = 610 mm 19
Så middelværdien bliver µ = 610 40 = 15,25 mm Hvis intervalhyppighederne ikke oplyses, men kun intervalfrekvenserne, kan vi bruge disse til beregning af middelværdien. Observationsinterval Intervalhyppighed Intervalmidtpunkt Frekvens x h(x) m f(x) m f(x) m 2 E(X 2 ) =m 2 f (x) ]10;12] 4 11 0,10 1,1 121 121 0, 10 = 12, 1 ]12;14] 7 13 0,175 2,275 169 169 0, 175 = 29, 575 ]14;16] 15 15 0,375 5,625 225 225 0, 375 = 84, 375 ]16;18] 8 17 0,20 3,4 289 289 0, 20 = 57, 8 ]18;20] 6 19 0,15 2,85 361 361 0, 15 = 54, 15 40 µ = E(X) = 15,25 E(X 2 ) = 238 µ = E(X) = 11 0,1 + 13 0,175 + 15 0,375 17 0,2 + 19 0,15 = 15,25 Varians og spredning Varians og spredning er Var(X) = 238 15,25 2 = 5,4375 σ(x) = 5,4375 = 2,33 20
Opgave Der er registreret følgende fødselsvægte i gram for børn. vægt 2800-3000 3000-3200 3200-3400 3400-3600 3600-3800 3800-4000 4000-4200 sum antal 2 3 6 7 6 4 2 30 frekvens 0,067 0,100 0,200 0,233 0,200 0,133 0,067 1,000 kumuleret 0,067 0,167 0,367 0,600 0,80 0,933 1,000 a) Tegn en sumkurve b) Bestem kvartilsættet og middelværdien Løsning: a) For at tegne sumkurve skal vi lave følgende tabel: Interval Kumuleret frekvens 2800 0 3000 6.7 3200 16.7 3400 36.7 3600 60 3800 80 4000 93.3 4200 100 21
Vi indtaster disse to søjler i GeoGebras regneark markerer begge søjler og vælger polyline between pointsog. Kvartilsættet kan aflæses direkte ud fra figuren. b) Middelværdien beregnes µ = E(X) = (m i f i ) hvor m i er intervalmidtpunkter og f i er frekvenserne 22
µ = (2900 0,067 + 3100 0,100 + 3300 0,2 + 3500 0,233 + 3700 0,2 + 3900 0,133 + 4100 0,67) = 3513,2 23