Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)



Relaterede dokumenter
Grupperet materiale kan f.eks. være befolkningsdata eller indkomstfordelinger.

Hvad er meningen? Et forløb om opinionsundersøgelser

Statistik. Erik Vestergaard

Et CAS program til Word.

Den lille hjælper. Positionssystem...3. Positive tal...3. Negative tal...3. Hele tal...3. Potenstal...3. Kvadrattal...3

Oversigt over Procent, absolut og relativ tilvækst samt indekstal

Løs nu opgaverne i a) brug alt materialet her samt evt. regnearkene i Fronter som hjælp.

Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse.

Sådan gør du i GeoGebra.

Den lille hjælper. Krogårdskolen. Hvordan løses matematik? Indskoling klasse, mellemtrin klasse og udskoling 7. 9.

Piger bryder den sociale arv drengene gør det modsatte

Kapital- og rentesregning

INDHOLDSFORTEGNELSE. Side Indledning 2. Kapitel 1 Introduktion til funktioner af 2 variable 3 Niveaukurver 5

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September [Fjerde udgave]

Mellem stjerner og planeter

areal og rumfang trin 1 brikkerne til regning & matematik preben bernitt

Maple. Skærmbilledet. Vi starter med at se lidt nærmere på opstartsbilledet i Maple. Værktøjslinje til indtastningsområdet. Menulinje.

Afstande Afstande i universet

Løsningsforslag til Geometri klasse

Hvor meget energi har jeg brug for?

Uafhængighed et eksempel på en rød tråd i statistikken

Elevprofil af hovedforløbselever pa socialog sundhedsskolerne

Differential- regning

Emmas og Frederiks nye værelser - maling eller tapet?

Den sociale arv er ligeså stærk som for 20 år siden

Vejledning om sammenhængen. Post og e-boks til erhverv samt hvilke muligheder det giver for synkronisering

opløsning - det om DPI, PPI og LPI » DPI - PPI - LPI? » Hvad er opløsning for noget? » Opløsning - i praksis S I D E 1

Her er et spørgsmål, du måske aldrig har overvejet: kan man finde to trekanter med samme areal?

Transkript:

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres) Til Gribskovløbet 006 gennemførte 118 kvinder 1,4 km distancen. Fordelingen af kvindernes løbstider fremgår af tabellen nedenfor. Tid (minutter) 50-60 60-65 65-70 70-75 75-80 80-90 Antal kvinder 16 18 34 4 16 10 Her er det underforstået at det første interval er ] ;60] med i første interval. Observationssættets størrelse er 118, da det består af 118 observationer. Vi kan herefter udarbejde følgende tabel: 50 så en løber med en løbetid på 60 min. er talt Tidsinterval I 50-60 60-65 65-70 70-75 75-80 80-90 Intervalhyppighed h(i) Intervalfrekvens f(i) 16 18 34 4 16 10 13,6 % 15,3 % 8,8 % 0,3 % 13,6 % 8,5 % Intervalhyppigheden angiver altså hvor mange observationer der er i det aktuelle interval, og intervalfrekvensen hvor stor en procentdel af alle observationerne der er i det aktuelle interval. Intervalhyppighederne eller intervalfrekvenserne kan illustreres grafisk med et histogram. Histogram 40 50 60 70 80 90 100 observationer Arealet over et interval svarer til intervalfrekvensen. Man vælger altså en passende arealenhed til f.eks. 10 % hvis histogrammet tegnes i hånden. Bemærk at 1. og 5. interval begge har intervalfrekvensen 13,6 %. Da det første interval er dobbelt så bredt som det 5. interval, er højden af rektanglet over det første interval kun det halve af højden på rektanglet over det 5. interval. Hermed er arealerne lige store. 1/4

Middeltallet (my) kan beregnes ved hjælp af intervalmidtpunkterne og intervalfrekvenserne: µ = 55 0,136+ 6,5 0,153+ 67,5 0,88+ 7,5 0,03+ 77,5 0,136+ 85 0,085 68,7 min. dvs. den gennemsnitlige løbetid for kvinderne er 68,7 minutter variansen v (læs først sidste afsnit i denne tekst) kan udregnes ved v = f ( I1 ) ( m1 µ ) + f ( I ) ( m µ ) + f ( I 3) ( m3 µ ) +... hvor f(i 1 ) er frekvensen af det første interval, m 1 er midtpunktet af det første interval osv. v= 0,136 (55 + 0,153 (6,5 + 0,88 (67,5 + 0,03 (7,5 + 0,136 (77,5 + 0,085 (85 v= 67,8687 Spredningen udregnes herefter, idet s = v og heraf fås s= 67,8687 8, Sumkurven tegnes ud fra de kumulerede frekvenser: Her finder man ud fra intervalfrekvenserne at f.eks. F(65)=13,6 % + 15,3 % =8,8 % Det betyder af 8,8% af løbstiderne er 65 minutter eller derunder. x løbstid i minutter 50 60 65 70 75 80 90 F(x) Kumulerede frekvens 0 % 13,6 % 8,8 % 57,6 % 78,0 % 91,5 % 100 % Sumkurve kumuleret frekvens i % 100 90 80 70 60 50 40 30 0 10 0 40 50 60 70 80 90 tid i minutter Punkterne (x,f(x)) afsættes i koordinatsystemet og herefter forbindes punkterne med rette liniestykker. Vi går nemlig ud fra at observationerne i et interval er jævnt fordelt. /4

Herefter kan kvartilsættet aflæses, som markeret på sumkurven. 1. kvartil er 63,7 minutter (dvs. 5 % af kvinderne løb på 63,7 minutter eller kortere tid). kvartil er 68,7 minutter (dvs. 50 % af kvinderne løb på 68,7 minutter eller kortere tid) 3. kvartil er 74,3 minutter (dvs. 75 % af kvinderne løb på 74,3 minutter eller kortere tid) Kvartilsættet kan dog også beregnes ud fra de kumulerede frekvenser: Her vises hvordan 1. kvartil kan beregnes. Af tabellen over de kumulerede frekvenser ses at F(60)=13,6 % og F(65)=8,8 %. Dvs. at 1. kvartil, må være mellem 60 og 65 minutter. Der er 15,3 % af kvinderne der har en tid i intervallet ]60;65]. Da 13,6%+11,4%=5 % skal vi bruge 11,4%-point ud af de 15,3%-point der er i intervallet 11,4 ]60;65]. Derfor udregnes 1. kvartil ved 60 + (65 60) = 63, 73 minutter 15,3 Til sidst er vist et boksplot for tiderne: Her er mindste og største observation liniens endepunkter, og kassen tegnes ud fra kvartilsættet. Kassens højde vælges frit. boksplot 40 50 60 70 80 90 100 Indførelse af begreberne varians og spredning. Vi tager udgangspunkt i to forskellige observationssæt som viser vægtfordelingen i to forskellige persongrupper I og II. Histogrammerne ses nedenfor. Histogram I Histogram II 30 % 40 % 30 % 50 60 70 80 90 100 Observationer - vægt i kg 15 % 0 % 30 % 0 % 15 % 50 60 70 80 90 100 Observationer vægt i kg Af histogrammerne ses at begge observationssæt har middelværdien 75 kg. Det er tydeligt at se der er større variation i vægtene hos gruppe II. Vi vil indføre et tal som skal være et mål for variationens størrelse. 3/4

Som ved udregning af middeltallet vil vi tage udgangspunkt i intervalmidtpunkterne, idet vi går ud fra at fx de 30% fra gruppe I som vejer mellem 60 og 70 kg, i gennemsnit vejer 65 kg. Vi ser nu på forskellene mellem intervalmidtpunkterne og middelværdien for observationssæt I: (65-75)= -10 kg, (75-75)kg=0 kg og (85-75)=10 kg Det er egentlig afstandene til middelværdien og ikke forskellene mellem intervalmidtpunkt og middelværdi der er interessant. Derfor ses på størrelsen af kvadraterne (65-75), (75-75) og (85-75) Nu udregnes middelværdien af disse kvadrater (intervalfrekvenserne aflæses på histogrammet) 0,30 (65 75) + 0,40 (75 75) + 0,30 (85 75) = 60 Dette tal kaldes variansen af vægtfordelingen X i gruppe I og vi skriver var(x)=60 Dette tal er altså et udtryk for hvor meget vægtene varierer i gruppe I. På samme måde beregnes variansen for vægtfordelingen Y i gruppe II: var( Y ) = 0,15 (55 75) + 0,0 (65 75) + 0,30 (75 75) + 0,0 (85 75) var( Y ) = 160 + 0,15 (95 75) Variansen for gruppe II er størst og det passer jo med hvad vi ser af histogrammerne. Kvadratroden af variansen kaldes spredningen så vi har σ ( X ) = 60 7,7 ogσ (Y) = 160 1,6 ( σ er det græske bogstav: lille sigma) Både varians og spredning er altså udtryk for hvor stor variation der er i observationerne, og de kan bruges til at sammenligne observationssæt som her. Definition Vi definerer variansen for et observationssæt ved tallet Var ( X ) = f ( I ) ( m µ ) + f ( I ) ( m µ ) + f ( I ) ( m µ ) 1 1 3 3 + Hvor µ er middelværdien, f(i 1 ) er frekvensen af det første interval, m 1 er midtpunktet af det første interval osv. Og spredningen defineres ved σ ( X ) = var( X )... 4/4