Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå. Hvis man fx samler de karakterer, der er givet til en eksamen i én stor bunke (se herunder), kan det være svært at se, om eleverne generelt klarede sig godt eller dårligt. 8 7 10 5 6 7 8 5 7 7 13 9 6 00 8 9 5 8 9 6 7 8 7 10 7 9 8 6 9 8 11 7 13 Hvis man derimod (som her til højre) samler karaktererne i én bunke med 13- taller, én bunke med 11- taller, én bunke med 10- taller osv., så bliver det meget lettere at overskue det store talmateriale og at se, hvordan eleverne klarede sig. 7 7 8 7 8 7 8 9 6 7 8 9 5 6 7 8 9 5 6 7 8 9 10 13 00 5 6 7 8 9 10 11 13 Da det i dette tilfælde er karaktererne, man observerer (ser på), kaldes karaktererne for observationer. Hvis man nu talte de enkelte observationer/karakterer op, kunne man angive antallet af hver observation (se herunder) - det ville gøre talmaterialet endnu mere overskueligt. Obs 00 03 5 6 7 8 9 10 11 13 Hyppighed 1 0 3 4 8 7 5 2 1 2 Der er i alt givet karakterer - observationssættets størrelse er altså. Man kunne ønske at vide, hvor mange procent af eleverne, der fik de forskellige karakterer - fx hvor stor en procentdel af klassen, der fik 8 Procentdelen (kaldes frekvensen) skal altså udregnes for hver karakter (der afkortes til 1 decimal): - for karakteren 00: hvor mange procent er 1 af? - udregnes: 1 100 = 3,0 % - for karakteren 03: hvor mange procent er 0 af? - udregnes: 0 100 = 0,0 % - for karakteren 5: hvor mange procent er 3 af? - udregnes: 3 100 = 9,1 % - for karakteren 6: hvor mange procent er 4 af? - udregnes: 4 100 = 12,1 % - osv. Frekvensen angives i tabellen under Hyppighed (se herunder) Obs 00 03 5 6 7 8 9 10 11 13 Hyppighed 1 0 3 4 8 7 5 2 1 2 Frekvensen 3,0 0,0 9,1 12,1 24,2 21,2 15,1 6,1 3,0 6,1 Summen af alle frekvenstallene skal give 100 % - hvis mange af tallene er afrundede, kan summen dog godt blive fx. 99.5 eller 101,2 eller et andet tal tæt på 100. Hans Phil, KVUC Side 1 f 4 sider
Deskriptorer (deskriptorer er tal der, beskriver noget) - de deskriptorer, vi beskæftiger os med, er middeltallet, mindsteværdien, størsteværdien, variationsbredden og typetallet - de beskrives her: Middelværdi Hvis man skal beregne middelværdien (gennemsnittet) af alle karakterer, kan det gøres ved at lægge alle karakterer sammen og dividere med antallet af karakterer - det er dog lettere at bruge tabellen og gange hver eneste karakter med dens antal, lægge dem sammen og derefter dividere med antal karakterer, dvs. at gange hver observation med dens hyppighed, lægge dem sammen og dividere med observationssættets størrelse (se brøkstregen herunder). Observationssættets middelværdi: 00 1+ 03 0 + 5 3 + 6 4 + 7 8 + 8 7 + 9 5 + 10 2 + 11 1+ 13 2 = 7,666 ~ 7,7 Mindsteværdi Den mindste observation (der ikke har hyppigheden 0) kaldes for mindsteværdien - her er det 00 Størsteværdi Den største observation (der ikke har hyppigheden 0) kaldes for størsteværdien - her er det 13 Variationsbredden Variationsbredden er forskellen på størsteværdien og mindsteværdien - her: 13 Typetallet Typetallet er den observation, der er flest af - her er 7 typetallet. Hvis der er flere observationer, der har samme hyppighed, er der ikke et typetal På forrige side er talmaterialet vist med tal i et skema. Det er også muligt, at vise talmaterialet grafisk - dvs. med et billede. Herunder er vist hyppigheden i et pindediagram og frekvensen i et søjlediagram - det kunne også have været omvendt. Pindediagram Søjlediagram Pindediagrammet giver et godt billede af, hvor store tallene er i forhold til hinanden. Cirkeldiagrammet giver et godt billede af, hvor stor en del hvert tal udgør af det hele. Kurvediagrammer er gode, når man skal vise, hvorledes fx en temperatur ændrer sig igennem en tid. Hans Phil, KVUC Side 2 f 4 sider
Hvis man har mange observationer, kan det være mere overskueligt at gruppere dem i intervaller (grupper), før man begynder at ordne og tælle. Observationer, der er grupperede i intervaller, kaldes grupperede observationer. Hvis observationerne kun er hele tal (fx. antal personer), kan man inddele i intervaller som herunder: 1. gruppe er observationer fra 0 til 4 (begge inkl.) - skrives: 0-4 2. gruppe er observationer fra 5 til 9 (begge inkl.) - skrives: 5-9 3. gruppe er observationer fra 10 til14 (begge inkl.) - skrives: 10-14 osv. Hvis observationerne også kan være brøker og decimaltal (fx 4½ eller 5,234), kan man inddele i intervaller som herunder: 1. gruppe er observationer fra og med 0 indtil 5 (0 er med - 5 er ikke) - skrives: [0;5[ 2. gruppe er observationer fra og med 5 indtil 10 (5 er med - 10 er ikke) - skrives: [5;10[ 3. gruppe er observationer fra og med 10 indtil 15 (10 er med - 15 er ikke) - skrives: [10;15[ osv. I ovenstående første gruppe (eller: første interval) kan man ikke præcist angive det største tal - da det er 4,9999999999999999999999999999999999999999999999999999...osv. i al evighed Tilsvarende er det højeste tal i 2. interval 9,99999999999999999999999999999...osv. Hvis observationerne er hele tal, kunne et grupperet observationssæt indsat i en tabel se sådan ud: Obs 0-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-99 Hyppighed 5 8 13 10 17 14 9 7 3 2 Frekvensen 5,7 9,1 14,8 11,4 19,3 15,9 10,2 8,0 3,4 2,3 Hvis observationerne ikke er hele tal (fx. 6 4 / 9 eller 45,63), kunne et grupperet observationssæt se sådan ud: Obs [0;10[ [10;20[ [20;30[ [30;40[ [40;50[ [50;60[ [60;70[ [70;80[ [80;90[ [90;100[ Hyppighed 5 8 13 10 17 14 9 7 3 2 Frekvensen 5,7 9,1 14,8 11,4 19,3 15,9 10,2 8,0 3,4 2,3 Middelværdien udregnes ved at bruge intervalmidtpunkterne 5, 15, 25, 35 osv. Altså: 5 5 + 8 15 + 13 25 + 10 35 + 17 45 + 14 55 + 9 65 + 7 75 + 3 85 + 2 95 88 = 44,4318 ~ 44,4 Typeintervallet er det interval, der er flest af - her er typeintervallet [40;50[. Man bruger ikke størsteværdi og mindsteværdi og variationsbredde, som man gør med enkeltobservationer (ikke-grupperede observationer) Hans Phil, KVUC Side 3 f 4 sider
Man kan vise intervalhyppighed og intervalfrekvens grafisk med et histogram Intervalhyppighed Intervalfrekvens Hans Phil, KVUC Side 4 f 4 sider
Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå. Hvis man fx samler de karakterer, der er givet til en eksamen i én stor bunke (se herunder), kan det være svært at se, om eleverne generelt klarede sig godt eller dårligt. 8 7 10 5 6 7 8 5 7 7 13 9 6 00 8 9 5 8 9 6 7 8 7 10 7 9 8 6 9 8 11 7 13 Hvis man derimod (som her til højre) samler karaktererne i én bunke med 13- taller, én bunke med 11- taller, én bunke med 10- taller osv., så bliver det meget lettere at overskue det store talmateriale og at se, hvordan eleverne klarede sig. 7 7 8 7 8 7 8 9 6 7 8 9 5 6 7 8 9 5 6 7 8 9 10 13 00 5 6 7 8 9 10 11 13 Da det i dette tilfælde er karaktererne, man observerer (ser på), kaldes karaktererne for observationer. Hvis man nu talte de enkelte observationer/karakterer op, kunne man angive antallet af hver observation (se herunder) - det ville gøre talmaterialet endnu mere overskueligt. Obs 00 03 5 6 7 8 9 10 11 13 Hyppighed 1 0 3 4 8 7 5 2 1 2 Der er i alt givet karakterer - observationssættets størrelse er altså. Man kunne ønske at vide, hvor mange procent af eleverne, der fik de forskellige karakterer - fx hvor stor en procentdel af klassen, der fik 8 Procentdelen (kaldes frekvensen) skal altså udregnes for hver karakter (der afkortes til 1 decimal): - for karakteren 00: hvor mange procent er 1 af? - udregnes: 1 100 = 3,0 % - for karakteren 03: hvor mange procent er 0 af? - udregnes: 0 100 = 0,0 % - for karakteren 5: hvor mange procent er 3 af? - udregnes: 3 100 = 9,1 % - for karakteren 6: hvor mange procent er 4 af? - udregnes: 4 100 = 12,1 % - osv. Frekvensen angives i tabellen under Hyppighed (se herunder) Obs 00 03 5 6 7 8 9 10 11 13 Hyppighed 1 0 3 4 8 7 5 2 1 2 Frekvensen 3,0 0,0 9,1 12,1 24,2 21,2 15,1 6,1 3,0 6,1 Summen af alle frekvenstallene skal give 100 % - hvis mange af tallene er afrundede, kan summen dog godt blive fx. 99.5 eller 101,2 eller et andet tal tæt på 100. Hans Phil, KVUC Side 5
Deskriptorer (deskriptorer er tal der, beskriver noget) - de deskriptorer, vi beskæftiger os med, er middeltallet, mindsteværdien, størsteværdien, variationsbredden og typetallet - de beskrives her: Middelværdi Hvis man skal beregne middelværdien (gennemsnittet) af alle karakterer, kan det gøres ved at lægge alle karakterer sammen og dividere med antallet af karakterer - det er dog lettere at bruge tabellen og gange hver eneste karakter med dens antal, lægge dem sammen og derefter dividere med antal karakterer, dvs. at gange hver observation med dens hyppighed, lægge dem sammen og dividere med observationssættets størrelse (se brøkstregen herunder). Observationssættets middelværdi: 00 1+ 03 0 + 5 3 + 6 4 + 7 8 + 8 7 + 9 5 + 10 2 + 11 1+ 13 2 = 7,666 ~ 7,7 Mindsteværdi Den mindste observation (der ikke har hyppigheden 0) kaldes for mindsteværdien - her er det 00 Størsteværdi Den største observation (der ikke har hyppigheden 0) kaldes for størsteværdien - her er det 13 Variationsbredden Variationsbredden er forskellen på størsteværdien og mindsteværdien - her: 13 Typetallet Typetallet er den observation, der er flest af - her er 7 typetallet. Hvis der er flere observationer, der har samme hyppighed, er der ikke et typetal På forrige side er talmaterialet vist med tal i et skema. Det er også muligt, at vise talmaterialet grafisk - dvs. med et billede. Herunder er vist hyppigheden i et pindediagram og frekvensen i et søjlediagram - det kunne også have været omvendt. Pindediagram/ Søjlediagram Pindediagrammet giver et godt billede af, hvor store tallene er i forhold til hinanden. Cirkeldiagrammet giver et godt billede af, hvor stor en del hvert tal udgør af det hele. Kurvediagrammer er gode, når man skal vise, hvorledes fx en temperatur ændrer sig igennem en tid. Hans Phil, KVUC Side 6
Om ordet kumulering: i en bil sidder der et batteri der kaldes en akkumulator, der opsamler strøm så bilen kan starte - en akkumulator er altså en ting der kan opsamle - når vi i ken taler om at kumulere menes der også opsamle - og det vi kumulerer (opsamler) er hyppigheder eller frekvenser. Det følgende handler om kumulering (opsamling) af hyppigheder og frekvenser Følgende bogstavsforkortelser benyttes: observationerne kaldes x hyppigheden af observationerne kaldes h(x) frekvensen af observationerne kaldes f(x) den kumulerede hyppighed kaldes H(x) den kumulerede frekvens kaldes F(x) KUMULERING Herunder er et skema, der angiver karaktererne i en klasse: 1. række angiver en række observationer x (karakterer) 2. række angiver hyppighederne for observationerne h(x) 3. række angiver frekvenserne for observationerne f(x) 4. række angiver den kumulerede hyppighed H(x) 5. række angiver den kumulerede frekvens F(x) x 00 03 5 6 7 8 9 10 11 13 h(x) 1 0 3 4 8 7 5 2 1 2 f(x) 3,0 0,0 9,1 12,1 24,2 21,2 15,1 6,1 3,0 6,1 H(x) 1 1 4 8 16 23 28 30 31 F(x) 3,0 3,0 12,1 24,2 48,4 69,6 84,7 90,8 93,8 99,9 At kumulere en hyppighed betyder at man lægger de foranstående hyppigheder sammen - dvs.: H(6) er altså summen af H(00)+ H(03)+ H(5)+H(6) dvs. 1 + 0 + 3 + 4 som er 8 At kumulere en frekvens betyder at man lægger de foranstående frekvenser sammen - dvs.: F(6) er altså summen af F(00)+ F(03)+ F(5)+F(6) dvs. 3,0 + 0 + 9,1 + 12,1 som er 24,2 Hans Phil, KVUC Side 7
Kumulerede hyppigheder og kumulerede frekvenser vises i trappediagrammer - herunder vises et trappediagram for F(x) - altså den kumulerede frekvens. Trappediagrammet her er lavet ved at afsætte et punkt over 00 ved 3 et punkt over 03 ved 3 et punkt over 5 ved 12,1 et punkt over 6 ved 24,2 osv. Herefter forbindes punkterne i et trappemønster På et trappediagram kan man aflæse fraktiler: 50 % fraktilen er 8 (følg den stiplede linje) Det betyder, at der er 50 %, der har fået 8 og derunder 10 % fraktilen er 5 Det betyder, at der er 10 %, der har fået 5 og derunder 75 % fraktilen er 9 Det betyder, at der er 75 %, der har fået 9 og derunder 25 % fraktilen er 7 Det betyder, at der er 25 %, der har fået 7 og derunder 25 % fraktilen kaldes også for 1. kvartil og nedre kvartil 50 % fraktilen kaldes også for 2. kvartil og median 75 % fraktilen kaldes også for 3. kvartil og øvre kvartil 25 % fraktilen og 50 % fraktilen og 75 % fraktilen kaldes tilsammen for kvartilsættet Kvartilsættet her er altså 7, 8, 9 Hans Phil, KVUC Side 8
Kvartilsæt og median og boksplot 8 7 10 5 6 7 8 5 7 7 13 9 6 00 8 9 5 8 9 6 7 8 7 10 7 9 8 6 9 8 11 7 13 Herover er karaktererne fra før og herunder er de sat i rækkefølge 0 5 5 5 6 6 6 6 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 9 9 9 9 9 10 10 11 13 13 1. kvartil 2. kvartil eller median 3. kvartil Det mindste tal kaldes mindsteværdien Det største tal kaldes størsteværdien Det midterste tal kaldes 2. kvartil eller median Midten af venstre halvdel kaldes 1. kvartil Midten af venstre halvdel kaldes 3. kvartil (hvis der er et lige antal er midten ikke et tal - så er midten midt mellem 2 tal i så fald tages gennemsnittet at de to tal) I dette tilfælde er mindsteværdi 0 1. kvartil: 6,5 medianen: 8 3. kvartil: 9 størsteværdi 13 Disse 5 tal viser noget om, hvordan karaktererne fordeler sig Man kan vise tallene grafisk ved at lave et boksplot mindsteværdi median 2. kvartil 1. kvartil 3. kvartil størsteværdi Hans Phil, KVUC Side 9
Hvis man har mange observationer, kan det være mere overskueligt at gruppere dem i intervaller (grupper), før man begynder at ordne og tælle. Observationer, der er grupperede i intervaller, kaldes grupperede observationer. Hvis observationerne kun er hele tal (fx. antal personer), kan man inddele i intervaller som herunder: 1. gruppe er observationer fra 0 til 4 (begge inkl.) - skrives: 0-4 2. gruppe er observationer fra 5 til 9 (begge inkl.) - skrives: 5-9 3. gruppe er observationer fra 10 til14 (begge inkl.) - skrives: 10-14 osv. Hvis observationerne også kan være brøker og decimaltal (fx 4½ eller 5,234), kan man inddele i intervaller som herunder: 1. gruppe er observationer fra og med 0 indtil 5 (0 er med - 5 er ikke) - skrives: [0;5[ 2. gruppe er observationer fra og med 5 indtil 10 (5 er med - 10 er ikke) - skrives: [5;10[ 3. gruppe er observationer fra og med 10 indtil 15 (10 er med - 15 er ikke) - skrives: [10;15[ osv. I ovenstående første gruppe (eller: første interval) kan man ikke præcist angive det største tal - da det er 4,9999999999999999999999999999999999999999999999999999...osv. i al evighed Tilsvarende er det højeste tal i 2. interval 9,99999999999999999999999999999...osv. Hvis observationerne er hele tal, kunne et grupperet observationssæt indsat i en tabel se sådan ud: Obs 0-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-99 Hyppighed 5 8 13 10 17 14 9 7 3 2 Frekvensen 5,7 9,1 14,8 11,4 19,3 15,9 10,2 8,0 3,4 2,3 Hvis observationerne ikke er hele tal (fx. 6 4 / 9 eller 45,63), kunne et grupperet observationssæt se sådan ud: Obs [0;10[ [10;20[ [20;30[ [30;40[ [40;50[ [50;60[ [60;70[ [70;80[ [80;90[ [90;100[ Hyppighed 5 8 13 10 17 14 9 7 3 2 Frekvensen 5,7 9,1 14,8 11,4 19,3 15,9 10,2 8,0 3,4 2,3 Middelværdien udregnes ved at bruge intervalmidtpunkterne 5, 15, 25, 35 osv. Altså: 5 5 + 8 15 + 13 25 + 10 35 + 17 45 + 14 55 + 9 65 + 7 75 + 3 85 + 2 95 88 = 44,4318 ~ 44,4 Typeintervallet er det interval, der er flest af - her er typeintervallet [40;50[. Man bruger ikke størsteværdi og mindsteværdi og variationsbredde, som man gør med enkeltobservationer (ikke-grupperede observationer) Hans Phil, KVUC Side 10
Man kan vise hyppighed og frekvens grafisk med et histogram Intervalhyppighed Intervalfrekvens Hans Phil, KVUC Side 11
Ligesom med enkeltobservationer, kan man med intervalobservationer kumulere (opsamle) hyppighed og frekvens - se skemaet herunder hvor de kumulerede værdier er indsat i de to nederste rækker. x [0;10[ [10;20[ [20;30[ [30;40[ [40;50[ [50;60[ [60;70[ [70;80[ [80;90[ [90;100[ h(x 5 8 13 10 17 14 9 7 3 2 f(x) 5,7 9,1 14,8 11,4 19,3 15,9 10,2 8,0 3,4 2,3 H(x) 5 13 26 36 53 67 76 83 86 88 F(x) 5,7 14,8 29,6 41 60,3 76,2 86,4 94,4 97,8 99,8 Kumulerede hyppigheder og kumulerede frekvenser for intervalobservationer vises i sumkurver - herunder vises en sumkurve for F(x) - altså den kumulerede frekvens. Sumkurven her er lavet ved at afsætte et punkt over 10 ved 5,7 et punkt over 20 ved 14,8 et punkt over 30 ved 29,6 et punkt over 40 ved 41 osv. Kvartilsættet, der jo består af 25 % fraktilen, 50 % fraktilen og 75 % fraktilen, er: 27, 44 og 58 - hvilket betyder at 25 % af observationerne ligger fra 27 og nedefter at 50 % af observationerne ligger fra 44 og nedefter at 75 % af observertionerne ligger fra 58 og nedefter Derudover kan man aflæse at 80 % fraktilen er 63, hvilket betyder at 80 % af alle observationerne ligger fra 63 og nedefter. Hans Phil, KVUC Side 12