Opgave. a) observation hyppighed frekvens kum. frekvens 2,25,25 3,875,325 2 3,875,5 3 3,875,6875 4,625,75 5,625,825 6,,825 7 2,25,9375 8,,9375 9,625, Frekvenser illustreres i et pindediagram,2,8,6,4,2,,8,6,4,2 2 3 4 5 6 7 8 9 De kumulerede frekvenser plottes i en sumkurve som nedenfor:,2,8,6,4,2-3 5 7 9 b) For at beregne kvartilsættet, dvs. 25%, 5% og 75% percentilerne, skal vi først sortere data i voksende rækkefølge: 2 2 2 3 3 3 4 5 7 7 9 Vi har n 6 observationer.. kvartil (25% percentilen) har positionen ( 6 ),25 + 4, 75 og er således et vejet gennemsnit af observationerne x 4 og x 5. Vi ser at x 25 %. (Gennemsnittet er 25% x4 + 75% x5 )
2. kvartil, eller medianen eller 5% percentilen, har positionen ( 6 ) 5% + 8, 5 og er et vejet gennemsnit af x 8 2 og x 3. Derfor 5% 5% 2, 5 9 x 5 % x8 + x9 3. kvartil, eller 75% percentilen, har positionen ( 6 ),75 + 2, 25 og er et vejet gennemsnit af observationerne x 4 og x 5. Derfor 2 x % x + 25% x 4,25. 75 % 75 2 3 3 Disse beregninger kan naturligvis også foretages i Excel vha. funktionerne MEDIAN() og KVARTIL() - og dette er meget lettere! c) Middelværdien er + 2 + 3+ 7 + 2 + + 5 + 3+ 2 + 7 + + + + 9 + 4 + 3 x 3,25 6 (Det er nemmere at bruge Excel) Medianen blev fundet ovenfor og var 2,5. Modaltallet eller typetallet er ikke veldefineret, da vi har tre mulige værdier, 2, 3. d) Variansen findes i Excel til 7,2. Spredningen er tilsvarende 2,69. e) Variationsbredden er den maximale observation - den minimale observation 9-9 Interkvartilbredden er x x 4,25 3, 25 75 % 25% Opgave.2 a): Deskriptiv statistik for diskrete data Observationssættet Kum. Kum. Observation Hyppighed Frekvens hyppighed frekvens 8,33 8,33 295,2 375,53 2 474,93 849,345 3 547,223 396,568 4 463,88 859,756 5 37,25 266,88 6 73,7 2339,952 7 56,23 2395,974 8 38,5 2433,99 9 4,6 2447,996 4,2 245,997 3, 2454,998 2, 2454,998 3 4,2 2458, Sum 2458, - - Middelværdi 3,35882836 Varians 3,436534 Spredning,853783537 Så middelværdien er på 3,36 dage med variansen 3,44 dage 2 og spredningen,85 dage. 2
b) For at finde medianen og kvartilerne skal man forestille sig, at alle 2458 observationer er stillet op i voksende rækkefølge. Medianen står da på positionen ( 2458 ),5 + 229, 5. Af de kumulerede hyppigheder ovenfor ses, at på positionerne 229 og 23 står der begge 2 og gennemsnittet af disse tal er naturligvis 2. Medianen er derfor 2.. kvartil står på positionen, og på positionerne 65 og 66 står der begge.. kvartil er derfor. 3. kvartil har positionen, og på positionerne 843 og 844 står der begge 3.. kvartil er derfor 3. Interkvartilbredden er. c) Pindediagrammet bliver Trappediagrammet bliver: Opgave.3 a) og b) Hyppighederne, frekvenserne og de kumulerede frekvenser bliver Nedre Øvre Hyppighed Frekvens Kum. frekvens 8,75 9,,33,33 9, 9,25 5,67,2 9,25 9,5 3,,3 9,5 9,75 3,,4 9,75, 6,2,6,,25 4,33,733,25,5 3,,833,5,75,33,867,75,,33,9,,25 3,, 3
Histogrammet er let at lave i Excel, da alle intervaller er lige brede. Et standarddiagram i Excel giver nedenstående (omend etiketterne på førsteaksen ikke er korrekte),25,2,5,,5, 8,75 9 9,25 9,5 9,75,25,5,75 Sumkurven er,2,8,6,4,2 8,5 9 9,5,5,5 c) Disse størrelser kan beregnes ud fra de rå data i Excel: middelværdi : 9,96 varians:,37 spredning:,68 Alternativt kan vi benytte intervallernes midtpunkter og få følgende: x,33 8,875 +,67 9,25 +... +,,25 9,98 s 2 3 (,33 (8,875 9,98) 2 +...),43 3 s,643 d) Kvartilerne aflæses på sumkurven 4
,75,5,25 8,5 9 9,5,5,5 x 9,37 x 9, 87 x, 3 25 % Interkvartilbredden er x 5 %,3 9,37 75 % x25%,97 75 % Opgave.4 Det første problem er at finde en passende øvre grænse for det sidste interval (24 sekunder eller mere). Der er ingen generel metode til dette, men vi kan anvende vores sunde fornuft og antage, at ingen kunde vil vente mere end 5 minutter. Den øvre grænse er således 3 sekunder. a) og c) Nedre Øvre Hyppighed Frekvens Kum frekvens 5 456,88,88 5 3 78,37,225 3 45 98,9,45 45 6 823,59,575 6 75 6,8,693 75 9 459,89,782 9 5 385,75,856 5 2 22,43,899 2 5 58,3,93 5 8 27,25,954 8 24 84,6,97 24 3 53,3, 5
b),2,8,6 2%,4,2,,8,6,4,2 5 5 2 25 3 d),2,8,6,4,2 5 5 2 25 3 e) Kvartilerne findes ud fra sumkurven som følger:,75,5,25 5 5 2 25 3 x 32 x 52 x 84 25 % 5 % 75 % Interkvartilbredden er x x 84 32 52 75 % 25% f) Middelværdien, variansen og spredningen beregnes i Excel middel: 66,22 sek. varians: 2892,37 sek 2 spredning: 53,78 sek 6
Opgave.5 a) Deskriptiv statistik for grupperede data Observationssættet Løsninger til kapitel Lav Høj Midt Bredde Kum. Kum. Observationsinterval Hyppighed Frekvens hyppighed frekvens,5 35,35 35,35 2,5 342,342 477,477 2 3 2,5 26,26 683,683 3 4 3,5 47,47 83,83 4 5 4,5 23,23 953,953 5 6 5,5 47,47, Sum, - - b) Middelværdi 2,422 Varians,939856 Spredning,392787 Middelværdien er på 2,42 og spredningen er på,39. 7
c) På sumkurven kan kvartilsættet aflæses. Det ses, at. kvartil er,35, medianen er 2, og 3. kvartil er 3,5. Interkvartilafstanden er. (Man kan naturligvis også beregne disse kvartiler eksakt ved interpolation, men dette er næppe besværet værd) Opgave.6 a) Den gennemsnitlige alder og spredningen heraf beregnes i Excel vha. funktionerne MIDDEL() og STDAFV(). Middelværdien er 5,32 år og spredningen er 9,47 b) Inddeles kursisterne i de givne aldersgrupper, fås ved simpel optælling nedenstående: Lav Høj Midt Bredde Kum. Kum. Observationsinterval Hyppighed Frekvens hyppighed frekvens 2 5 2,8 2,8 2 3 25 2,8 4,6 3 4 35 3,2 7,28 4 5 45 6,24 3,52 5 6 55 3,2 6,64 6 7 65 4,6 2,8 7 8 75 3,2 23,92 8 9 85 2,8 25, Sum 25, - - Middelværdi 5 5 Varians 48,3333 48,3333333 Spredning 2,2726 2,2725942 c) Histogrammet bliver: 8
d) Ovenfor ses, at opfatter man data som grupperede, så bliver middelværdien 5 år og spredningen 2,2 år. e) Forskellen på de to beregningsmåder er naturligvis, at man i den sidste beregning har smidt information væk (om de enkelte observationers fordeling inden for hvert interval) og i stedet antaget, at observationerne er ligeligt fordelt i intervallerne. Dette giver naturligvis et andet resultat. Moralen er dels, at man opnår det mest korrekte resultat, hvis man anvender de oprindelige, 'rå' data, dels, at man begår en marginal fejl ved at anvende de grupperede resultater i stedet. Opgave.7 a) Pindediagrammet bliver: Sumkurven bliver: b) Deskriptiv statistik for diskrete data Observationssættet Kum. Kum. Observation Hyppighed Frekvens hyppighed frekvens,, 3 2, 22,2 5 67,88 89,99 6 244,28 433,227 7 36,66 749,393 8 468,245 27,638 9 436,229 653,866 236,24 889,99 9, 98, 3, 98, Sum 98, - - 9
Middelværdi 7,76257866 Varians 2,53435822 Spredning,5948655 Det ses, at middelværdien er 7,76, mens spredningen bliver,59 c) Opstilles alle 98 karakterer i voksende rækkefølge, bliver positionen for medianen. Da både observation 954 og 955 er 7, er medianen gennemsnittet af disse og er derfor 7. Tilsvarende ses, at. kvartil har positionen observation 477 og 478 begge er 6, bliver. kvartil 6., og da 3. kvartil findes på position, og da denne er omgivet af observationerne 8, ses det, at 3. kvartil er 8. Interkvartilafstanden er derfor. d) Blandt de 98 studerende, var der, som ikke bestod. Resten, dvs., bestod, og den tilsvarende andel er derfor. Opgave.8 a) Beregninger i Excel giver: Deskriptiv statistik for diskrete data Observationssættet Kum. Kum. Observation Hyppighed Frekvens hyppighed frekvens 34,3 34,3 2 6,2 94,33 3 98,327 92,64 4 82,273 274,93 5 26,87 3, Sum 3, - - Middelværdi 3,2 Varians,2779635 Spredning,328592 Middelværdien er 3,, mens spredningen er,3. b) Opskrives alle 3 observationer i voksende rækkefølge, så ses, at medianen er i position. Da tallene i position 5 og 5 begge er 3, så må medianen også være 3. c) Pindediagrammet bliver:
Sumkurven bliver: Opgave.9 a) Da der er 4 ud af 3 personer, som anvender mere end time ugentligt, fås andelen. b) Da der blandt kunderne mellem 25 og 6 år, som der i øvrigt er 29 af, er 58, som anvender under en halv time, fås andelen: c) Da der blandt de 95 kunder, som anvender under en halv time ugentligt, er 58 med en alder mellem 25 og 6 år, bliver den tilsvarende andel Opgave. a) Da der iblandt de i alt komponenter er, fås andelen: b) Iblandt de 87 komponenter fra leverandør er der 3 med ubetydelige fejl. Dette giver andelen:. c) Iblandt de 8 komponenter med ubetydelige fejl er der 3 fra leverandør. Dette giver andelen: