Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k



Relaterede dokumenter
5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal.

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå.

Statistik. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer.

Statistik med GeoGebra

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Deskriptiv statistik for hf-matc

Deskriptiv statistik for matc i stx og hf

Ved et folketingsvalg eller en folkeafstemning spørger man alle stemmeberettigede, og kun en del af dem stemmer.

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

brikkerne til regning & matematik statistik preben bernitt

Huskeliste Printark. U4 Tastetider U5 Hvor hurtigt regner du? E4 Begreber og fagord - Statistik. Materialer. Mobiltelefon Stopur

En lille introduktion til WordMat og statistik.

6. Regression. Hayati Balo,AAMS. 1. Nils Victor-Jensen, Matematik for adgangskursus, B-niveau 1

Noter til Statistik. Lisbeth Tavs Gregersen. 1. udgave

Løsninger til kapitel 1

Undervisningsbeskrivelse

Grupperede observationssæt Deskriptiv statistik: Middelværdi, frekvensfordeling, sumkurve, kvartilsæt, boxplot

Et CAS program til Word.

Undervisningsbeskrivelse

for gymnasiet og hf 2017 Karsten Juul

Undervisningsbeskrivelse

Undervisningsbeskrivelse

H Å N D B O G M A T E M A T I K 2. U D G A V E

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Formelsamling. Ib Michelsen

statistik og sandsynlighed

Hvad siger statistikken?

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Taldata 1. Chancer gennem eksperimenter

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode

Undervisningsbeskrivelse

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Undervisningsbeskrivelse

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema:

1hf Spørgsmål til mundtlig matematik eksamen sommer 2014

Undervisningsbeskrivelse for: 1q mah

Undervisningsbeskrivelse

Deskriptiv statistik

Undervisningsbeskrivelse & Oversigt over projektrapporter

Graph brugermanual til matematik C

Undervisningsbeskrivelse for: 1s mah

Undervisningsbeskrivelse & Oversigt over projektrapporter

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Supplerende opgaver til TRIP s matematiske GRUNDBOG. Forlaget TRIP. Opgaverne må frit benyttes i undervisningen.

Undervisningsbeskrivelse

Forklar hvad betyder begrebet procent og hvordan man beregner det. Forklar, hvordan man lægger procenter til og trækker procenter fra.

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Formelsamling Matematik C

Rentesregning. Procent- og rentesregning. Rentesregning. Opsparingsannuitet

Eksamensspørgsmål 4emacff1

Statistisk beskrivelse og test

Matematik A, STX. Vejledende eksamensopgaver

Deskriptiv statistik. for C-niveau i hf Karsten Juul

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Statistik (deskriptiv)

Undervisningsbeskrivelse

for gymnasiet og hf 2016 Karsten Juul

Stamoplysninger til brug ved prøver til gymnasiale uddannelser

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau)

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Nogle emner fra. Deskriptiv Statistik Karsten Juul

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse for: hf15b 0813 Matematik C, 2HF

1q + 1qs Ikast-Brande Gymnasium maj Procent og rente Forklar hvad betyder begrebet procent og hvordan man beregner det.

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Gør rede for begrebet fremskrivningsfaktor og giv eksempler på anvendelse heraf.

Kapitel 3 Centraltendens og spredning

I. Deskriptiv analyse af kroppens proportioner

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Deskriptiv statistik (grupperede observationer)

SPØRGSMÅL TIL MUNDTLIG EKSAMEN, MAT C sommer2014

Transkript:

Statistik 5 Statistik er en meget omfattende matematisk disciplin, og den anvendes i meget stor udstrækning i vores moderne samfund. Den handler om at analysere et (ofte meget stort) talmateriale. Det kan være alt muligt forskelligt, så som vejrdata, sportsresultater, varepriser, lønninger, arbejdsløshed, læsefærdigheder, tidsforbrug på internettet, osv. osv. I dette kapitel bliver du introduceret til de mest grundlæggende begreber og diagrammer indenfor statistik. 5.1 Observationssæt Det talmateriale, som man gerne vil undersøge, kaldes et observationssæt. Vi skal nu se på et eksempel. I en undersøgelse har man spurgt 52 eleverne i to gymnasieklasser, hvor mange timer om ugen de bruger på profiler og chat på internettet (Facebook, Twitter, MSN osv.). Svarene ser du i skemaet herunder. Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k 7 5 8 3 2 6 9 5 7 2 15 0 19 8 5 6 8 12 k k k m k k k m m m k m k m m m k m 6 21 2 7 10 8 5 15 7 6 5 3 12 8 5 3 9 6 k k m k k k k m m m m m k m k m k k Tabel 5.1 Vi vil betegne det samlede observationssæt med X. Du skal nu se forskellige statistiske måder at behandle disse data på. 139

5 Statistik 5.2 Ugrupperede observationer Vi vil i første omgang se bort fra kønsfordelingen og kun se på, hvor mange elever der bruger x antal timer om ugen. Tæller vi sammen, hvor mange elever der har brugt 0 timer, 1 time, 2 timer osv., får vi følgende ugrupperede observationssæt. Antal timer 0 2 3 4 5 6 7 8 9 10 12 14 15 19 21 Antal elever 2 3 4 1 8 9 6 5 2 3 3 1 2 2 1 Tabel 5.2 Vi vil nu se på frekvensen af de enkelte observationer, dvs. hvor mange procent af eleverne der bruger 0 timer, hvor mange procent der bruger 1 time osv. Frekvenserne beregnes således 2 3 = 0.038 4% 52 52 = 0.058 6% 4 = 0.077 8% osv. 52 Tallene er samlet i tabel 5.3 her under. Den kumulerede frekvens er summen af frekvenserne ned gennem tabellen. F.eks. betyder den kumulerede frekvens 63% ud for 7 timer, at der er 63% af eleverne der bruger 7 timer eller mindre. 140 Observation (antal timer) Hyppighed (antal elever) Frekvens (brøk) Frekvens (procent) Kumuleret frekvens 0 2 0.038 4% 4% 2 3 0.058 6% 10% 3 4 0.077 8% 17% 4 1 0.019 2% 19% 5 8 0.154 15% 35% 6 9 0.173 17% 52% 7 6 0.115 12% 63% 8 5 0.096 10% 73% 9 2 0.038 4% 77% 10 3 0.058 6% 83% 12 3 0.058 6% 88% 14 1 0.019 2% 90% 15 2 0.038 4% 94% 19 2 0.038 4% 98% 21 1 0.019 2% 100% Tabel 5.3 Vi kan afbilde vores data i et såkaldt stolpediagram. Stolpediagrammet for vores data vil vise antallet af brugte timer på 1. aksen og antal elever og/eller frekvensen på 2. aksen. Du kan se diagrammet herunder. Bemærk, at det ikke gør nogen forskel, om du afbilder hyppighed eller frekvens på 2. aksen.

5.2 Ugrupperede observationer Det første, vi vil beregne for vores datasæt, er middelværdien (kaldes også middeltallet eller gennemsnittet). Som nævnt i afsnit 5.1 betegnes vores observationssæt med X. Middelværdien betegnes da E(X). Der er tre måder at beregne middelværdien på. Den første måde er at lægge alle tallene fra tabel 5.1 sammen og dividere med antal elever dvs. 52. Vi får da E(X) = 19 + 5+ 7 +10 + 0 + 6 +... 52 = 385 52 = 7.4 Eleverne i de to klasser bruger altså i gennemsnit 7.4 timer om ugen, dvs. ca. 1 time om dagen. Den anden måde at beregne middelværdien på er at gange tallene i de to rækker i tabel 5.2 med hinanden, lægge disse sammen og dividere med 52. Dvs. E(X) = 0 2 + 2 3+ 3 4 + 4 1+ 5 8 + 6 9 +... 52 = 385 52 = 7.4 Den tredje måde er at gange tallene i anden og tredje søjle i tabel 5.3 med hinanden og lægge disse sammen. Dvs. E(X) = 2 0.038 + 3 0.058 + 4 0.077 +... = 7.4 Vi skal nu se på nogle flere statistiske begreber. 5.2.1 Definition Medianen for et observationssæt er den mindste observation hvis kumulerede frekvens er 50% eller derover. Første kvartil (eller nedre kvartil) for et observationssæt er den mindste observation, hvis kumulerede frekvens er 25% eller derover. Tredje kvartil (eller øvre kvartil) for et observationssæt er den mindste observation, hvis kumulerede frekvens er 75% eller derover. Tilsammen kaldes førstekvartil, medianen og trejde kvartil for observationssættets kvartilsæt. 141

5 Statistik For vores data betyder det, at medianen er 6 (det mindste antal timer med en kumuleret frekvens på over 50% - i dette tilfælde 53%), 1. kvartil er 5 (35%), og 3. kvartil er 9 (77%). Kvartilsættet er da (5, 6, 9). Kvartilsættet kan sammen med observationssættets mindste værdi (som her er 0 timer) og sættets størsteværdi (som her er 21 timer) vises i et såkaldt boksdiagram. Du kan se boksdiagrammet for vores data herunder. Den vandrette linie går fra observationssættets mindste værdi til den største værdi. Boksen begynder ved 1. kvartil og slutter ved 3. kvartil. Medianen er angivet inde i boksen. Forskellen mellem observationssættets største værdi og mindste værdi kaldes variationsbredden. I vores tilfælde er den 21-0 = 21. Vi kan nu prøve at kigge på vores data igen, men denne gang fordele dem på køn. Vi får da følgende to observationssæt vist på figur 5.4 og 5.5. Observation (antal timer) Hyppighed (antal elever) Piger Frekvens (procent) Kumuleret frekvens 2 1 3% 3% 3 1 3% 7% 4 1 3% 10% 5 4 14% 24% 6 5 17% 41% 7 3 10% 52% 8 3 10% 62% 9 2 7% 70% 10 2 7% 76% 12 2 7% 83% 14 1 3% 86% 15 1 3% 90% 19 2 7% 97% 21 1 3% 100% Tabel 5.4 I tabel 5.4 kan du se, at kvartilsættet for piger er (6, 8, 10) og i tabel 5.5 kan du se, at kvartilsættet for drenge er (3, 6, 7). Dette er afbildet i de to boksdiagrammer herunder. 142

5.2 Ugrupperede observationer Observation (antal timer) Hyppighed (antal elever) Drenge Frekvens (procent) Kumuleret frekvens 0 2 9% 9% 2 2 9% 17% 3 3 13% 30% 5 4 17% 48% 6 4 17% 65% 7 3 13% 78% 8 2 9% 87% 10 1 4% 91% 12 1 4% 96% 15 1 4% 100% Tabel 5.5 Dette viser meget tydeligt, at der er en væsentlig forskel på piger og drenges tidsforbrug på nettet i disse to klasser. Men her skal man være meget opmærksom på, at datamængden er alt for lille til, at man kan drage en generel konklusion om, at der er denne kønsforskel. Dette er en af de store farer ved statistik hvis man ikke passer på og hvis man ikke behandler data korrekt eller hvis man har for lidt data kan man hurtigt drage nogen helt forkerte konklusioner. Det næste, vi skal kigge på, er fraktiler. Fraktil betyder brøkdel. Begrebet kan bedst forklares ud fra vores data i tabel 5.3. En p-fraktil angiver det mindste antal timer, som bruges af mindst p% af eleverne. Hmm, vi må vist hellere se på et par eksempler. For at bestemme 15%-fraktilen skal du kigge i tabel 5.3. I søjlen med kumuleret frekvens kan du se, at den første kumulerede frekvens, der er 15% eller derover, finder du ved 3 timer. Altså er 15%-fraktilen 3. Du kan også se, at den første kumulerede frekvens, der er 80% eller derover, finder du ved 10 timer. Altså er 80%-fraktilen 10. Vær opmærksom på, at middelværdien for et observationssæt ikke siger noget som helst om sammensætningen af data i sættet. To datasæt kan have nøjagtig samme middelværdi men fordelingen af data kan være vidt forskellig. Dette illustreres af følgende eksempel. 143

5 Statistik 5.2.2 Eksempel Ved en matematikprøve er der givet følgende karakterer i to forskellige klasser. A-klassen: 7 4 7 10 7 10 10 7 4 7 7 7 4 B-klassen: 7 12 10 3 12 02 4 3 10 7 12 12 4 7 7 12 Middelværdierne for de to klasser er (du skal selv foretage beregningen) A-klassen: 91 = 7.0 B-klassen: 13 112 16 = 7.0 Altså er gennemsnittet for de to klasser nøjagtig ens. Men lad os se på kvartilsættet og tegne boksdiagrammer for de to klasser. Indtegn data for de to klasser i hver sin tabel og beregn frekvenserne og de kumulerede frekvensen. Bestem derefter kvartilsættene for hver af de to observationssæt. Du skulle da kunne tegne følgende boksdiagrammer. Heraf kan du tydeligt se, at selv om de to datasæt har præcis samme middelværdi, er fordelingen af tallene vidt forskellig. Ovenstående eksempel viser med al tydelighed, at det er nødvendigt med nogle størrelser, som kan fortælle noget om spredningen i vores observationer. Det fører os videre til begreberne varians og spredning. 5.2.3 Definition Lad et observationssæt være givet ved X = x 1, x 2, x 3,..., x n de tilsvarende frekvenser være f 1, f 2, f 3,..., f n. Lad middelværdien være m. Observationssættets varians defineres ved n Var(X) = f i (m x i ) 2 i=1 Observationssættets spredning defineres ved σ (X) = Var(X) { } og lad = f 1 (m x 1 ) 2 + f 2 (m x 2 ) 2 +...+ f n (m x n ) 2 Spredningen er et mål for, hvor spredt observationerne ligger i forhold til middelværdien. Dvs. jo større σ (X) er, jo mere spredt ligger observationerne og omvendt. Værdien af spredningen kan ikke direkte aflæses på nogen figur det er kun størrelsen af tallet, der giver en vis information om, hvor spredte tallene ligger. 144

5.2 Ugrupperede observationer 5.2.4 Eksempel Lad os beregne varians og spredning for vores datasæt fra tidligere. Middelværdien har vi tidligere beregnet til 7.4. Så ud fra tabel 5.3 får vi Var(X ) = 0.038 (7.4 0) 2 + 0.058 (7.4 2) 2 +... + 0.019 (7.4 21) 2 = 20.3 σ (X ) = Var(X ) = 20.3 = 4.5 Som du kan se er det meget besværligt at beregne variansen (og dermed spredningen). Nedenstående sætning kan gøre det lidt lettere. 5.2.5 Sætning Variansen for et observationssæt X kan beregnes således Var(X) = E(X 2 ) E(X) 2 hvor E(X) er middelværdien og E(X 2 ) er middelværdien af kvadraterne på alle data i observationsættet. Bevis: Lad et observationssæt være givet ved X = x 1, x 2, x 3,..., x n tilsvarende frekvenser være f 1, f 2, f 3,..., f n. Ifølge sætning 5.2.3 er variansen da (husk at m er middelværdien) n Var(X) = f i (m x i ) 2 i=1 { } og lad de = f 1 (m x 1 ) 2 + f 2 (m x 2 ) 2 +...+ f n (m x n ) 2 Da = f 1 (m 2 2m x 1 + x 2 1 ) + f 2 (m 2 2m x 2 + x 2 2 ) +......+ f n (m 2 2m x n + x 2 n ) = m 2 ( f 1 + f 2 +...+ f n ) 2m ( f 1 x 1 + f 2 x 2 +...+ f n x n ) + f 1 x 2 1 + f 2 x 2 2 2 +...+ f n x n f 1 + f 2 +...+ f n = 1 og f 1 x 1 + f 2 x 2 +...+ f n x n = m får vi nu = m 2 1 2m (m) + f 1 x 2 1 + f 2 x 2 2 2 +...+ f n x n = m 2 2m 2 + f 1 x 2 1 + f 2 x 2 2 2 +...+ f n x n = f 1 x 1 2 + f 2 x 2 2 +...+ f n x n 2 m 2 = E(X 2 ) E(X) 2 Q.E.D. Bemærk, at formlerne for varians og spredning i dette afsnit gælder for et fuldstædigt observationssæt (modsat udsnit/stikprøve som behandles i afsnit 5.4). For at bruge sætning 5.2.5 til at beregne variansen er det en fordel, at lave en tabel med de relevante tal i. For vores observationssæt fra tidligere kan du se tallene i tabellen herunder. 145

5 Statistik 146 Antal timer x i Frekvens f i Bidrag til E(X) x i f i Kvadrat x i 2 Bidrag til E(X 2 ) x i2 f i 0 0.038 0 0.038 = 0 0 0 0.038 = 0 2 0.058 2 0.058 = 0.115 4 4 0.058 = 0.231 3 0.077 3 0.077 = 0.231 9 9 0.077 = 0.692 4 0.019 0.077 16 0.308 5 0.154 0.77 25 3.846 6 0.173 1.038 36 6.231 7 0.115 0.808 49 5.654 8 0.096 0.769 64 6.154 9 0.038 0.346 81 3.115 10 0.058 0.577 100 5.769 12 0.058 0.692 144 8.308 14 0.019 0.269 196 3.769 15 0.038 0.577 225 8.654 19 0.038 0.731 361 13.885 21 0.019 0.404 441 8.481 E(X) = 7.404 E(X 2 ) = 75.096 Herved fås variansen og spredningen til Tabel 5.6 Var(X) = E(X 2 ) E(X) 2 = 75.096 7.404 2 = 20.279 σ (X) = Var(X) = 20.279 = 4.5 Denne værdi er forholdsvis stor, hvilket passer glimrende med det faktum, at vores data ligger meget spredt i forhold til middelværdien (sammenlign med vores stolpediagram tidligere i dette afsnit sammenlign også med eksempel 5.2.4 og se, at vi selvfølgelig fik sam- me resultat der). Som du nok har fået indtryk af, er statiske beregninger meget tidskrævende at udføre med håndkraft selv med den lille mængde data, vi havde i vores observationssæt. Hvis der er tale om tusindvis af data, bliver det selvfølgelig helt galt. Heldigvis findes der masser af hjælpemidler til rådighed. Både lommeregnere og forskellige matematikprogrammer eller regneark kan udføre beregningerne for os. Så behøver vi kun at indtaste data fra vores observationssæt. Lad os slutte dette afsnit af med at se på sammenhængen mellem spredningen og fordelingen af observationer. Herunder ser du stolpediagrammerne for tre forskellige datasæt. De har alle nøjagtig samme middelværdi, men data er fordelt forskelligt. Spredningen for de tre datasæt er også angivet, og det ses, at der er en tydelig sammenhæng mellem størrelsen af spredningen σ (X) og den faktiske fordeling af data i stolpediagram-met. Læg også mærke til, at spredningen σ (X) ikke kun afhænger af variationsbredden men også af hvor mange data, der ligger langt væk fra middelværdien. De størrelser du har lært om i dette afsnit (middelværdi, median, kvartiler osv.) kaldes statistiske diskriptorer.

5.2 Ugrupperede observationer E(X) = 90 σ(x) = 10.95 E(X) = 90 σ(x) = 18.97 E(X) = 90 σ(x) = 26.08 5.2.6 Øvelse Bestem ud fra tabel 5.3 10%-fraktilen, 60%-fraktilen og 90%-fraktilen. Bestem derefter de samme fraktiler i tabel 5.4 og 5.5. 5.2.7 Øvelse Et observationssæt har mindsteværdien 10 og størsteværdien 22. Kvartilsættet er (12, 14, 17). Tegn boksdiagrammet og angiv variationsbredden. 5.2.8 Øvelse Bestem kvartilsættet og beregn middelværdien for følgende observationssæt. Observation 10 20 30 40 50 Frekvens 0.2 0.1 0.3 0.3 0.1 5.3 Grupperede observationer I det foregående afsnit så vi på ugrupperede observationer. Vi vil nu gruppere vores observationssæt fra tabel 5.3 og gruppere dem i intervallerne af 3 timers længde, dvs. [0;3], ]3;6], ]6;9] osv. Dvs. vi tæller sammen, hvor mange elever der bruger mellem 0 og 3 timer pr. uge, hvor mange der bruger fra 3 til 6 timer osv.. Vi får da følgende nye tabel. Observationsinterval (antal timer) Intervalhyppighed (antal elever) Intervalfrekvens (brøk) Intervalfrekvens (procent) Kumuleret intervalfrekvens [0;3] 9 0.173 17% 17% ]3;6] 18 0.346 35% 52% ]6;9] 13 0.250 25% 77% ]9;12] 6 0.115 12% 88% ]12;15] 3 0.058 6% 94% ]15;18] 0 0.000 0% 94% ]18;21] 3 0.058 6% 100% Tabel 5.7 147

5 Statistik Vi kan afbilde disse data i et såkaldt histogram. Et histogram minder meget om et stolpediagram, men viser i stedet de anvendte intervaller. Histogrammet for vores data fra tabel 5.7 kan du se herunder. Bemærk, at det ikke gør nogen forskel, om du afbilder intervalhyppighed eller intervalfrekvens på 2. aksen. I vores eksempel er alle intervallerne lige lange. Det er ikke noget krav. Men hvis intervallerne ikke er lige lange, skal du være opmærksom på, at det er arealet af rektanglet, der angiver mængden af observationer i intervallet. Hvis vi f.eks. slår de 3 sidste intervaller sammen til et interval ]12;21], kommer histogrammet til at se sådan ud. Middelværdien for et grupperet observationssæt beregnes ved at anvende interval-midtpunkterne og gange disse med intervalfrekvenserne. Middelværdien for vores observationssæt i tabel 5.7 er da E(X) = 1.5 0.173 + 5 0.346 + 8 0.25 + 11 0.115 + 14 0.058 + 17 0 + 20 0.058 = 7.2 Som du kan se, giver denne beregning ikke helt samme middelværdi, som vi fik i afsnit 5.2. Det skyldes, at dette er en tilnærmet middelværdi, da vi har antaget, at alle observatio- 148

5.3 Grupperede observationer ner er jævnt fordelt i hvert interval (så vi kan bruge intervalmidtpunktet i beregningen), hvilket jo ikke nødvendigvis er tilfældet. Men for grupperede observationer er dette det bedste vi kan gøre for at beregne middelværdien. Den kumulerede intervalfrekvens kan afbildes i en sumkurve. Du skal afsætte de kumulerede intervalfrekvenser for hvert interval ved det højre intervalendepunkt. Vores observationssæt fra tabel 5.7 giver følgende sumkurve. Median, kvartiler og fraktiler kan bestemmes ved aflæsning på sumkurven. På figuren herunder kan du se, hvordan du aflæser kvartilsættet. Kvartilsættet er (3.7, 5.8, 8.7). Igen får vi ikke helt samme kvartilsæt som i afsnit 5.2, hvilket vi heller ikke kan forvente, når vores data er grupperede. Fraktiler aflæses på tilsvarende måde, hvilket du kan se på figuren herunder. Som du kan se er 15%-fraktilen 2.5 og 80%-fraktilen 9.6. Endnu engang som forventet ikke helt samme værdier som i afsnit 5.2. 149

5 Statistik Varians og spredning beregner du også på samme måde som for et ugrupperet observationssæt. Dvs. at du anvender sætning 5.2.5 og bruger ligesom ved beregning af middelværdien intervalmidtpunkterne. For vores grupperede observationssæt kan du da lave følgende skema. 150 Observationsinterval (antal timer) Intervalmidtpunkt m i Intervalfrekvens f i Bidrag til E(X) m i f i [0;3] 1.5 0.173 1.5 0.173 = 0.26 Kvadrat Bidrag til E(X 2 ) 2 m i x i2 f i 2.25 2.25 0.1.73 = 0.389 ]3;6] 5 0.346 5 0.346 = 1.73 25 25 0.346 = 8.654 ]6;9] 8 0.250 2.0 64 16 ]9;12] 11 0.115 1.269 212 13.96 ]12;15] 14 0.058 0.808 196 11.31 ]15;18] 17 0.000 0 289 0 ]18;21] 20 0.058 1.154 400 23.08 E(X) = 7.221 E(X 2 ) = 73.40 Herved fås variansen og spredningen til Tabel 5.8 Var(X) = E(X 2 ) E(X) 2 = 73.40 7.221 2 = 21.244 Som du kan se, passer disse værdier ganske godt med de værdier vi fik i afsnit 5.2. σ (X) = Var(X) = 21.244 = 4.6

5.3 Grupperede observationer 5.3.1 Øvelse Her ser du et grupperet observationssæt. Interval 62-63 64-65 66-67 68-69 70-71 72-73 74-75 Antal 10 13 20 11 13 8 5 a) Tegn et histogram for observationssættet. b) Tegn den tilhørende sumkurve. c) Bestem kvartilsættet. d) Angiv det interval hvori de 30% største observationer ligger. 5.3.2 Øvelse Herunder ser du et histogram for et grupperet observationssæt a) Beregn middelværdien. b) Tegn sumkurven. c) Bestem kvartilsættet. d) Beregn spredningen. 5.3.3 Øvelse Herunder ser du en sumkurve for et grupperet observationssæt a) Angiv kvartilsættet. b) Beregn middelværdien c) Tegn histogrammet for observationssættet. 151

5 Statistik 5.4 Stikprøver I de foregående afsnit har vi set på fuldstændige observationssæt. Hvis du kun har et udsnit eller en stikprøve af et observationssæt, ser formlerne for varians og spredning lidt anderledes ud. 5.4.1 Sætning For en stikprøve, med n forskellige observationer og middelværdi x, er variansen givet ved Var S (X) = 1 n (x i x ) 2 = 1 n 1 n 1 og spredningen i=1 n i=1 X S = { x 1, x 2,..., x n } (x 2 i ) n (x) 2 S(X) = Var S (X) Hvis nogle af observationerne er ens, samler du disse, tæller dem op og angiver hyppigheden (jvf. afsnit 5.2). 5.4.2 Sætning { } med tilhø- For en stikprøve, med k observationer X S = x 1, x 2,..., x k rende hyppighederne h 1,h 2,...,h k og middelværdi x, er variansen givet ved Var S (X) = 1 k h i (x i x ) 2 = 1 k 1 k 1 og spredningen i=1 k i=1 (h i x 2 i ) k (x) 2 S(X) = Var S (X) Men husk, at formlerne i dette afsnit kun gælder for stikprøver. 152

Regression 6 Mange gange kan man komme ud for, at man har nogle målinger, som man indtegner i et koordinatsystem, hvor man så kan se, at der tilsyneladende en eller anden sammenhæng mellem disse tal. Altså at der må findes en funktion, som kan beskrive denne sammenhæng - en såkaldt matematisk model. Men hvilken type model er der tale om? Er det en lineær sammenhæng, en eksponentiel sammenhæng, en potens sammenhæng eller noget helt fjerde. Og hvad er så regneforskriften for den funktion, som bedst beskriver de givne data, dvs. hvilken regneforskrift giver en graf der, ligger tættest muligt på samtlige punkter? Beregning af denne funktion kaldes regression. Dette er ikke simpelt at regne ud. Man vil derfor altid bruge et matematisk værktøj til at foretage beregningerne (lommeregner, matematikprogram, regneark). Det, der er vigtigt for dig, er, at du lærer at vurdere, hvilken form for sammenhæng der er mellem de data, du har, og at se på hvor godt den regneforskrift du får beregnet, passer med dine data. Vi vil i de følgende afsnit se på lineære, eksponentielle og potens sammenhænge. 6.1 Lineær regression På figuren herunder er indtegnet punkterne A(2, 1), B(5, 2), C(6, 3), D(7. 4) og E(9, 5). Som du kan se, ligger disse punkter næsten på en ret linie. Den linie, der er indtegnet, har ligningen y = 0.75 x - 0.8. Men er det den linie, der ligger så tæt som muligt på alle punkterne? Ville y = 0.72 x - 0.7 eller y = 0.77 x - 0.9 være bedre? 153

6 Regression Til at afgøre hvilken ret linie der bedst passer til punkterne, benytter man typisk en metode, der hedder mindste kvadraters metode. Den går ud på, at man kigger på den lodrette afstand mellem linien og hvert enkelt punkt. Se figuren herunder. Summen af kvadraterne af disse afstande kaldes kvadratsummen D. D = d 1 2 + d 2 2 + d 3 2 + d 4 2 Den linie, som giver den mindste kvadratsum, er den bedst mulige linie, og denne kaldes regressionslinien. Som nævnt tidligere anvender man matematiske værktøjer til at foretage denne beregning af regressionsliniens ligning. Normalt giver det anvendte matematiske værktøj også en størrelse, der fortæller noget om, hvor godt den beregnede linie passer med punkterne. Dette kan f.eks. være i form af en korrelationskoefficient r. Hvis r = 1 er hældningskoefficienten positiv, og samtlige punkter ligger på linien. Hvis 0 < r < 1 er hældningskoefficienten positiv. Jo tættere r er på 1 jo tættere ligger punkterne på den beregnede linie. Hvis r = 0 (eller tæt på nul) er sammenhængen mellem punkterne ikke lineær. Hvis -1 < r < 0 er hældningskoefficienten negativ. Jo tættere r er på -1 jo tættere ligger punkterne på den beregnede linie. Hvis r = -1 er hældningskoefficienten negativ, og samtlige punkter ligger på linien. I praksis gør du det, at du indtaster dine punkter og beder om at få beregnet regressionslinien. Hvordan, du helt præcist gør, afhænger selvfølgelig af hvilket matematisk værktøj, du anvender. Men under alle omstændigheder giver værktøjet dig enten hele regneforskriften y = a x + b eller værdierne af a og b. 6.1.2 Øvelse Ved en undersøgelse har man fundet følgende sammenhæng mellem størrelserne x og y. Bestem regneforskriften for den linie, som passer bedst muligt med punkterne. x -1 0.5 5 6 8 y -3-1 1 2 4 154

6.2 Eksponentiel regression 6.2 Eksponentiel regression Hvis det formodes, at der er en eksponentiel sammenhæng mellem punkterne, anvendes eksponentiel regression. Fremgangsmåden er den samme som før. Du anvender et matematisk værktøj og indtaster punkterne og vælger at få beregnet regneforskriften for den eksponentialfunktion y = b a x, der passer bedst muligt med punkterne. Alt efter hvilket værktøj du anvender, får du enten hele regneforskriften eller værdierne af a og b. Korrelationkoefficienten fortæller på samme måde som før, hvor godt den beregnede graf passer med punkterne. For at afgøre om der er en eksponentiel sammenhæng mellem punkterne kan du evt. først indtegne punkterne i et enkelt-logaritmisk koordinatsystem. Hvis punkterne i dette koordinatsystem er tæt på at ligge på en ret linie, vil der være en eksponentiel sammenhæng mellem punkterne. 6.2.1 Eksempel Her ser du en sammenhæng mellem størrelserne x og y, og nedenunder er de indtegnet som punkter i et almindelig retvinklet koordinatsystem. En beregning giver, at eksponentialfunktionen y = 4.4 1.08 x er den, der bedst passer med punkterne. Korrelationsfaktoren er r = 0.995. Grafen for funktionen er også indtegnet i koordinatsystemet. x 0 2 4 6 8 10 12 14 16 18 y 4.9 5.2 5.9 6.9 8.0 9.4 10.6 13.1 15.3 19.0 6.2.2 Øvelse Ved nogle målinger har man fundet følgende sammenhæng mellem størrelserne x og y. Bestem regneforskriften for den eksponentialfunktion, som passer bedst muligt med punkterne. x 2 3 5 13 y 5 5.6 7 17 155

6 Regression 6.3 Potens regression Hvis det formodes, at der er en potens sammenhæng mellem punkterne, anvendes potens regression. Fremgangsmåden er den samme som før. Du anvender et matematisk værktøj, indtaster punkterne og vælger at få beregnet regneforskriften for den potensfunktion y = b x a, der passer bedst muligt med punkterne. Alt efter hvilket værktøj du anvender, får du enten hele regneforskriften eller værdierne af a og b. Korrelationkoefficienten fortæller på samme måde som før, hvor godt den beregnede graf passer med punkterne. For at afgøre om der er en potens sammenhæng mellem punkterne, kan du evt. først indtegne punkterne i et dobbelt-logaritmisk koordinatsystem. Hvis punkterne i dette koordinatsystem er tæt på at ligge på en ret linie, vil der være en eksponentiel sammenhæng mellem punkterne. 6.3.1 Eksempel Her ser du en sammenhæng mellem størrelserne x og y, og nedenunder er de indtegnet som punkter i et almindelig retvinklet koordinatsystem. En beregning giver, at potensfunktionen y = 0.3 x 0.5 er den, der bedst passer med punkterne. Korrelationsfaktoren er r = 0.995. Grafen for funktionen er også indtegnet i koordinatsystemet. x 0.5 2 6 30 y 0.2 0.4 0.8 1.5 6.3.2 Øvelse Ved nogle målinger har man fundet følgende sammenhæng mellem størrelserne x og y. Bestem regneforskriften for den potensfunktion, som passer bedst muligt med punkterne. x 2 4 7 9 13 16 y 8.5 24.0 55.6 80.0 140.6 193.1 6.3.3 Øvelse Ved nogle målinger har man fundet følgende sammenhæng mellem størrelserne x og y. Undersøg ved regression, hvilken af de tre modeller der bedst beskriver disse målinger. x 2 4 7 9 13 16 y 8.5 24.0 55.6 80.0 140.6 193.1 156

Opgaver 5 Statistik 5.1 Herunder ser du stolpediagrammet for et observationssæt. Bestem kvartilsættet. 5.2 Ved en undersøgelse blev 33 unge spurgt om, hvor mange gange de havde dyrket sport den sidste måned. Man fik følgende svar. 9, 8 7, 6, 7, 7, 8, 3, 4, 7, 9, 8, 3, 4, 4, 7, 10, 3, 4, 4, 6, 9, 7, 3, 4, 10, 4, 6, 7, 8, a) Lav ud fra disse data en tabel mage til den i figur 5.3. b) Hvor mange procent af de unge har højst dyrket sport 4 gange? c) Tegn et stolpediagram. d) Angiv kvartilsættet og tegn et boksdiagram. e) Beregn middelværdi, varians og spredning. 5.3 Indenfor sportsverdenen taler man tit om begrebet hjemmebanefordel altså at det er nemmere at vinde på hjemmebane end på udebane. For at undersøge om det er en skrøne, eller om der er en reel fordel ved at spille på hjemmebane, har man undersøgt resultaterne af en lang række fodboldkampe og observeret hvor mange hjemmekampe de enkelte hold havde vundet i en sæson. Resultaterne af undersøgelsen ses i tabellen herunder. Vundne kampe 0 1 2 3 4 5 6 7 8 9 10 Frekvens i % 0 0 0 5 15 10 0 25 25 15 5 Tegn et stolpediagram og bestem på grundlag af de kumulerede frekvenser kvartilsættet. Beregn middelværdi og spredning. 157

Opgaver 5.4 Figurerne herunder viser stolpediagrammer for 6 forskellige observationssæt. Prøv ud fra din intuition for hvad spredningen er, at angive hvilket observationssæt, der har den mindste spredning, den næstmindste spredning osv. op til den med den største spredning. 5.5 To hold har været til en prøve. Der kunne opnås højst 20 point i prøven. Resultat af prøven er illustreret i nedenstående boksdiagrammer. Angiv de 5 diskriptorer der kan aflæses på hver figur og beskriv med dine egne ord forskellen på de to hold. 5.6 Fra et motionsløb har man undersøgt deltagernes løbetider. Resultatet ser du på figuren herunder. a) Hvor mange personer gennemførte løbet? b) Beregn middelværdien for løbetiderne. c) Bestem kvartilsættet. 158

5 Statistik 5.7 I en forbrugerundersøgelse har man set på udsalgsprisen af en bestemt vare i 50 forretninger. Resultaterne ses i herunder. Lav på grundlag af en passende gruppering en statistisk undersøgelse af materialet. 304 347 353 319 340 332 338 348 310 307 333 338 292 318 343 302 361 343 312 344 353 383 345 299 322 298 367 267 366 389 361 323 325 354 332 289 401 356 343 357 345 367 378 344 329 334 331 330 340 351 6 Regression 6.1 Indtegn punkterne A(-1, -2), B(1, -1), C(2, 2), D(4, 3) og E(6, 4) i et almindeligt retvinklet koordinatsystem. Bestem derefter regessionslinien og indtegn den i samme koordinatsystem. 6.2 Bestem for hver af de to figurer herunder regressionslinien for punkterne. 6.3 I et forsøg har man dyrket en bakteriekultur på en glasplade. Tabellen herunder viser mængden af bakterier for hver time. Tid i timer 1 2 3 4 6 8 Mængde i mg 331 543 901 1485 4047 11001 a) Bestem regneforskriften for den bedste linie gennem punkterne. b) Bestem regneforskriften for den bedste eksponentialfunktion gennem punkterne. c) Hvilken model passer bedst? d) Efter 20 timer var der 3897992 mg bakterier. Passer det med modellen? 159

Opgaver 6.4 I et forsøg har man fået følgende sammenhæng mellem x og y. Bestem den bedste eksponentielle model for disse værdier. x 1 2 5 7 10 15 y 3.5 4.1 6.2 8.2 12.5 25.2 6.5 Hvis en dykker opholder sig i længere tid i en vis dybde, skal han, for at undgå dykkersyge, stige langsomt op til overfladen igen. Der er en bestemt sammenhæng mellem dybden under havoverfladen og den tid, dykkeren kan opholde sig i denne dybde uden at få dykkersyge. Sammenhængen fremgår af tabellen herunder. Dybde meter 10 12 14 16 18 20 22 25 40 42 Tid minutter 219 147 98 72 56 45 37 29 9 8 a) Benyt potensregression til at bestemme en model for denne sammenhæng. b) Hvor lang tid kan en dykker opholde sig i 35 meters dybde? c) Hvor dybt kan en dykker dykke ned, hvis han kan må blive i denne dybde i 20 minutter? 6.6 I et forsøg har man undersøgt sammenhængen mellem personers maksimale puls og deres alder. Nogle af resultaterne ses i tabellen herunder. Alder år 20 30 37 45 60 Puls 199 195 182 176 161 a) Benyt lineær regression til at bestemme en model for denne sammenhæng. b) Hvad er da den maksimale puls for en 25-årig.? c) Hvilken alder svarer til en maksimal puls på 145? 6.7 Tyngdekraften påvirker et 1 kg lod med en kraft, der afhænger af afstanden til jordens centrum. Sammenhængen mellem afstanden r og kraften F ses i tabellen herunder. r 6500 6700 7000 7500 F 9.44 8.89 8.14 7.09 Bestem vha. regression en forskrift for den funktion, der bedst beskriver sammenhængen mellem r og F. 6.8 Trykket over jordoverfladen falder, jo højere man kommer op. I tabellen herunder ser du sammenhængen. Højde km 0.5 1.0 1.5 2.0 5 8 Tryk pascal 941 889 835 785 554 384 Bestem vha. regression regneforskriften for den funktion der bedst beskriver denne sammenhæng. Mount Everest er ca. 8500 meter højst. Benyt modellen til at bestemme lufttrykket på toppen af Mount Everest. 160

6 Regression 6.9 Hvilken af de tre matematiske modeller passer bedst med disse data? x 2 5 7 10 y 0.8 3.84 6.81 12.79 161