Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Relaterede dokumenter
Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer.

Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå.

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal.

Deskriptiv statistik for hf-matc

Ved et folketingsvalg eller en folkeafstemning spørger man alle stemmeberettigede, og kun en del af dem stemmer.

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik for matc i stx og hf

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)

for gymnasiet og hf 2017 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul

brikkerne til regning & matematik statistik preben bernitt

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime

Antal timer Køn k m k m m k m k m k k k m k k k

Noter til Statistik. Lisbeth Tavs Gregersen. 1. udgave

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema:

Statistik - supplerende eksempler

En lille introduktion til WordMat og statistik.

Deskriptiv statistik

Hvad siger statistikken?

Grupperet materiale kan f.eks. være befolkningsdata eller indkomstfordelinger.

Grupperede observationssæt Deskriptiv statistik: Middelværdi, frekvensfordeling, sumkurve, kvartilsæt, boxplot

Nogle emner fra. Deskriptiv Statistik Karsten Juul

Personlig stemmeafgivning

Løsninger til kapitel 1

Taldata 1. Chancer gennem eksperimenter

Median, kvartiler, boksplot og sumkurver

Statistik (deskriptiv)

Deskriptiv statistik. for C-niveau i hf Karsten Juul

Et CAS program til Word.

c. Radius for hver sekter er målt i cm og angivet i følgende tabel. Desuden er arealet af hvert område beregnet.

Formelsamling. Ib Michelsen

for matematik pä B-niveau i hf

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Undervisningsbeskrivelse & Oversigt over projektrapporter

Huskeliste Printark. U4 Tastetider U5 Hvor hurtigt regner du? E4 Begreber og fagord - Statistik. Materialer. Mobiltelefon Stopur

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul

Under 63 år : 92% Under 55 år : 55% Ved at trække den nederste fra den øverste af de to grupper fås: Melllem 55 og 63 år :

Supplerende opgaver til TRIP s matematiske GRUNDBOG. Forlaget TRIP. Opgaverne må frit benyttes i undervisningen.

Simulering af stokastiske fænomener med Excel

9 Statistik og sandsynlighed

Statistikkompendium. Statistik

Statistisk beskrivelse og test

statistik og sandsynlighed

Undervisningsbeskrivelse & Oversigt over projektrapporter

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

S. 55 AFSNIT 3.2 Ø1 S. 55. Pindediagram

Deskriptiv statistik (grupperede observationer)

Navn:&& & Klasse:&& STATISTIK - Fase 2. Undersøge sammenhæng i omverdenen med datasæt. Vurdering fra 1 til 5 (hvor 5 er højst) Lærer.

Simulering af stokastiske fænomener med Excel

Undervisningsbeskrivelse

Torben Rønne. Statistik. med TI InterActive

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

OM KAPITLET STATISTIK. egne svar eller Elevernes egne forklaringer. I disse

Eksamensspørgsmål 4emacff1

Under 63 år : 88% Under 55 år : 55% Ved at trække den nederste fra den øverste af de to grupper fås: Melllem 55 og 63 år :

Maple-oversigt til matematik B-niveau: Rungsted Gymnasium Definer en funktion og funktionsværdier. Tegn grafen for en funktion.

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Undervisningsbeskrivelse

H Å N D B O G M A T E M A T I K 2. U D G A V E

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Tegning af grafer. Grafen for en ligning (almindelig) Skriv ligningen ind. Højreklik og vælg Plots -> 2-D Plot of Right Side.

Arbejdsplan generel Tema 4: Statistik

Undervisningsbeskrivelse

x + 4 = 3x - 2 Redegør for opstilling af formler til løsning af praktiske problemer. Vis, hvordan en formel kan omskrives.

Navn:&& & Klasse:&& STATISTIK - Fase 2. Undersøge sammenhæng i omverdenen med datasæt. Vurdering fra 1 til 5 (hvor 5 er højst) Lærer.

M A T E M A T I K B A NK E NS S T A T I S T I K K O M P E ND I U M

Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode

(VIDENSKABSTEORI) STATISTIK (EKSPERIMENTELT ARBEJDE)

Undervisningsbeskrivelse

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Undervisningsbeskrivelse

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Undervisningsbeskrivelse

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

1. Tal. Du skal redegøre for løsningsregler for ligninger. Forklar, hvordan følgende ligning kan løses grafisk: x + 4 = 3x - 2

I. Deskriptiv analyse af kroppens proportioner

Undervisningsbeskrivelse

Emne Mål Brug af IT Materialer Evaluering Timetal

Undervisningsbeskrivelse

for C-niveau i stx 2017 Karsten Juul

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Formelsamling Matematik C

Undervisningsbeskrivelse

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

OM KAPITLET ELEVFORUDSÆTNINGER STATISTIK

Undervisningsbeskrivelse

Navn:&& & Klasse:&& STATISTIK - Fase 2. Undersøge sammenhæng i omverdenen med datasæt. Vurdering fra 1 til 5 (hvor 5 er højst) Lærer.

Decimaltal, brøker og procent Negative tal Potens, rødder og pi Reelle og irrationale tal

J E T T E V E S T E R G A A R D

1hf Spørgsmål til mundtlig matematik eksamen sommer 2014

Kapitel 4 Sandsynlighed og statistiske modeller

Undervisningsbeskrivelse

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for

Undervisningsbeskrivelse

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

SPØRGSMÅL TIL MUNDTLIG EKSAMEN, MAT C sommer2014

Transkript:

Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke grupperede observationer således:... 2 Boksplot (eller kassediagram):... 2 Grupperede observationer... 3 hyppighed (antal)... 3 Sumkurve... 3 Frekvensen... 3 Kumuleret hyppighed... 3 Kumuleret frekvens... 3 Median og kvartiler defineres ved grupperede observationer således:... 4 Middeltal ved grupperede observationer... 5 Illustration af forskel på middeltal og median... 5 Histogram... 5 Boksplot bruges også ved grupperede observationer... 5 Normalfordeling... 6 Sandsynlighed... 9 Stikprøver... 9 Formålet med statistik er at få overblik over et stort talmateriale. Vi anvender nogle såkaldte deskriptorer, der beskriver talmaterialet. De enkelte tal i talmaterialet kaldes observationer. Hele talmaterialet kaldes observationssættet Vi vil her lærer betydningen af følgende såkaldte deskriptorer: Mindsteværdi (den mindste observation) Størsteværdi (Den største observation) Middeltal (gennemsnit), Median eller andet kvartil (midten af observationerne, altså grænsen efter første halvdel) Første kvartil eller nedre kvartil (Grænsen efter første fjerdedel af observationerne) Tredje kvartil eller øvre kvartil (Grænsen efter tredje fjerdedel af observationerne) Kvartilsæt (de 3 tal 1. kvartil, median og 3. kvartil) Første kvartil og nedre kvartil er det samme. Ligeledes er tredje kvartil lig øvre kvartil. Når vi arbejder med statistik kan vi gøre det på to måder. Nogen gange grupperer vi observationerne i intervaller. Så kalder vi det grupperede observationer. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer. Peter Sørensen: Statistik og sandsynlighed Side 1

Ikke grupperede observationer Median og kvartiler defineres ved ikke grupperede observationer således: Observationerne sorteres i stigende orden Ved et ulige antal observationer defineres medianen som den midterste observation. Ved et lige antal observationer defineres medianen som midtpunktet af de 2 midterste observationer. Fx Medianen for 4 personer i alderen 4, 6, 8 og 10 år er 7 år. Medianen kaldes også anden kvartil eller 2. kvartil. Første kvartil eller 1. kvartil eller nedre kvartil defineres som medianen for de observationer, der er før hele observationssættets median. Tredje kvartil eller 3. kvartil eller øvre kvartil defineres som medianen for de observationer, der er efter hele observationssættets median. Kvartilsættet udgøres af 1. kvartil, 2.kvartil og 3. kvartil Middeltal defineres ved ikke grupperede observationer således: Middeltallet ved ikke grupperede observationer er summen af alle observationer divideret med antal observationer. Eksempel: Vi betragter 7 personer med følgende aldre: 3, 5, 9, 10, 12, 14, 20 Median: 10 1. kvartil: 5 3. kvartil: 14 Kvartilsæt: 5, 10, 14 Mindsteværdi: 3 Størsteværdi: 20 Middeltal: (3+5+9+10+12+14+20) / 7 = 10,4 afrundet. Boksplot (eller kassediagram): En boksplot er en grafisk fremstilling af nogle observationer. Boksplotten viser mindsteværdien, de 3 kvartiler og størsteværdien. I en boksplot indgår et rektangel, hvor de to tider angiver 1. og 3. kvartil. Parellelt med disse sider er inde i rektanglet et linjestykke, som viser 2. kvartil (medianen) Vinkelret herpå, tværs gennem rektanglet, er et linjestykke, hvis endepunkter viser mindste og størsteværdi. Peter Sørensen: Statistik og sandsynlighed Side 2

Grupperede observationer Når der er mange forskellige observationer vælger man ofte at gruppere observationerne, fx: Alder: 0 29 30 59 60 89 90 120 Alder: [0;30[ [30;60[ [60;90[ [90;120[ hyppighed (antal) 3500 3000 2000 1500 Sumkurve Ved grupperede observationer tegner man ofte en såkaldt sumkurve. Inden vi ser hvordan må vi lige høre om yderligere et par deskriptorer: Frekvensen angiver hvor stor en brøkdel, der er i et interval i forhold til alle observationer. Frekvens = hyppighed / antal observationer i alt Frekvens kan angives i % eller som decimalbrøk, fx 35% eller 0,35 Kumuleret hyppighed, der beregnes ved at lægge hyppigheder sammen. Kumuleret frekvens, der beregnes ved at lægge frekvenser sammen. Hvis frekvenserne er afrundede tal, kan det være mere nøjagtigt i stedet at dividere kumuleret hyppighed med antal observationer i alt. Her ses et skema med beregninger af de forskellige deskriptorer: Alder: 0 29 30 59 60 89 90 120 Alder: [0;30[ [30;60[ [60;90[ [90;120[ Antal (hyppighed) h 3500 3000 2000 1500 Kumuleret hyppighed H 3500 Frekvens (Benyttes ved tegning af et såkaldt histogram, som vi senere skal se) Kumuleret frekvens (Benyttes ved tegning af en såkaldt sumkurve, som vi senere skal se) Interval-midtpunkt Midtpunkt af aldersintervallet (Benyttes ved beregning af middeltal) f 3500 / 10000 = 0,35 = 35% F 35% 15 3500+3000 = 6500 3000 / 10000 = 0,30 = 30% 6500 / 10000 = 0,65 = 65% (30+60)/ 2 = 45 6500+2000 = 8500 Peter Sørensen: Statistik og sandsynlighed Side 3 8500+1500 = 10000 20% 15% 8500 / 10000 = 0,85 = 85% (60+90)/ 2 = 75 100% h, f, H og F er hyppigt anvendte forkortelser for hyppighed, frekvens, kumuleret hyppighed og kumuleret frekvens. 105

Den kumulerede frekvens F er en funktion, der fortæller hvor mange %, der er under en bestemt alder. Fx ses at 65% er under 60 år. Grafen for denne funktion kaldes en sumkurve og sumkurver tegnes altid med rette linjestykker mellem støttepunkterne. Skemaet fortæller ikke, hvordan de grupperede observationer fordeler sig i hvert interval, men man har vedtaget at betragte det som om, de fordeler sig jævnt i hvert interval. Det er derfor, der tegnes rette linjestykker mellem støttepunkterne. De rette linjestykker er udtryk for, at man betragter observationerne, som om de fordeler sig jævnt i hvert interval. Støttepunkter: Alder 0 30 60 90 120 F 0% 35% 65% 85% 100% Median og kvartiler defineres ved grupperede observationer således: Ved grupperede observationer aflæser vi kvartilsættet ved hjælp af sumkurven: 1. kvartil: Gå vandret fra 25% på 2.aksen til sumkurven og så lodret til 1.aksen. Medianen: Gå vandret fra 50% på 2.aksen til sumkurven og så lodret til 1.aksen. 3. kvartil: Gå vandret fra 75% på 2.aksen til sumkurven og så lodret til 1.aksen. Ved ovenstående sumkurve bliver kvartilsættet: 22 år, 45 år, 75 år Peter Sørensen: Statistik og sandsynlighed Side 4

Middeltal ved grupperede observationer Ved grupperede observationer kan man som tidligere nævnt ikke vide, hvordan observationerne fordeler sig i hvert interval, og man har vedtaget at betragte det som om, de fordeler sig jævnt. Ved beregning af middeltallet kommer det ud på det samme, som at betragte det som om, alle observationer i hvert interval ligger midt i intervallet. Derfor beregnes middeltallet ved for hvert interval at gange intervalmidtpunktet med intervallets frekvens og derefter lægge alle produkterne sammen I ovenstående eksempel er intervalmidtpunkterne: 15, 45, 75 og 105. Middeltallet = 15 35% + 45 30% + 75 20% + 105 15% = 15 0,35 + 45 0,30 + 75 0,20 + 105 0,15 = 49,5 Illustration af forskel på middeltal og median Man kan forestille ovennævnte aldersfordeling i en lille kommune. Lad os antage at nogen af de 90 120 årige fraflytter kommunen. I stedet flytter nogen endnu ældre på mellem 120 og 130 til kommunen i samme antal. Derfor ændrer vi det sidste interval til 90 130. Vil denne ændring ændre på medianen og/eller Middeltallet? Medianen forbliver den samme, kun sidste del af sumkurven ændres. Det stykke, hvor medianen aflæses ændres ikke. Derimod ændres middeltallet, fordi det sidste intervalmidtpunkt bliver ændret. De meget gamle trækker i middeltallet, men ikke i medianen. Histogram Frekvensen (eller hyppigheden) kan fremstilles grafisk i et såkaldt histogram: Boksplot bruges også ved grupperede observationer og defineres på samme måde som ved ikke-grupperede observationer. Peter Sørensen: Statistik og sandsynlighed Side 5

Kumuleret frekvens frekvens Normalfordeling Betragt følgende observationssæt over højden på danske soldater ved en bestemt kasserne. Højde i cm 160 170 170 180 180 190 190 200 Frekvens 5 % 38 % 52 % 5 % Kumuleret frekvens 5 % 43 % 95 % 100 % Ud fra frekvenserne og de kumulerede frekvenser tegnes histogram og sumkurve: 60% Histogram 40% 20% 0% 150 160 170 180 190 200 210 100% 80% 60% 40% 20% 0% 150 160 170 180 190 200 Peter Sørensen: Statistik og sandsynlighed Side 6

Når man skal beskrive et statistisk talmateriale, kan man nogle gange sige, at observationerne er normalfordelt, og allerede ved det er der sagt noget om, hvordan observationerne fordeler sig. Der findes en lidt indviklet definition på normalfordeling. Her vil vi nøjes med at nævne nogle egenskaber ved normalfordelinger: Histogrammet ved en normalfordelinger er symmetrisk omkring middeltallet, der således også er median. Histogrammet ligner en klokke Her ses et par klokkeformede histogrammer for normalfordelinger med middelværdien 7 og ekstremt mange bitte små intervaller. Man har lavet noget teknisk papir, som kaldes normalfordelingspapir. Det er indrettet således, at netop normalfordelinger vil få lineære sumkurver i dette papir. Sådant papir kan benyttes til at afgøre om en fordeling er en normalfordeling. På næste side ses sumkurven for en normalfordeling indtegnet i normalfordelingspapir. Medianen kan her aflæses til 4. Da det er en normalfordeling, er også middeltallet = 4 Tilsvarende kan nedre kvartil aflæses til 3,1 og øvre kvartil til 4,9 Peter Sørensen: Statistik og sandsynlighed Side 7

Opgave Højden på danske soldater er normalfordelt. 5% af soldaterne har en højde på under 170 cm og 70 % af soldaterne har en højde på under 185 cm. Udfyld skemaet til højre og indtegn sumkurven i normalfordelingspapir. Aflæs kvartilsættet: (177, 182, 187) Du kan eventuelt printe denne side og tegne oven i. Højde i cm 170 185 Kumuleret frekvens Peter Sørensen: Statistik og sandsynlighed Side 8

Sandsynlighed Vi betragter et eksperiment med forskellige udfald. Fx kast med terning Vi vil ikke nødvendigvis udføre eksperimentet, men vi vil forestille os, at eksperimentet udføres mange gange. Ved sandsynlighed for et bestemt udfald forstås den brøkdel af gange, man forventer udfaldet. Eksempel Hvis man kaster en terning, er sandsynligheden for 6: 1 / 6, og det er den fordi, hvis man forestiller sig kastet gentaget mange gange, så forventer vi, at frekvensen for 6 bliver 1 / 6. Opgave 0 Hvad er sandsynligheden for ikke at slå en sekser? Svar: 1-1 / 6 = 5 / 6, da det at slå en sekser eller ikke en sekser er udtømmende. Opgave 1 Hvad er sandsynligheden for at slå en sekser to gange i træk? Svar: 1 / 6 1 / 6 = 1 / 36 Opgave 2 Hvad er sandsynligheden for at slå 3 seksere i træk? Svar: ( 1 / 6 ) 3 = 1 / 216 Opgave 3 Jeg kaster først en mønt og så en terning. Hvad er sandsynligheden for, at det lykkes mig både at få krone og en sekser? Svar: 1 / 2 1 / 6 = 1 / 12 Vi bemærker, at sandsynligheden for nogle bestemte udfald ved flere forskellige eksperimenter kan beregnes som produktet af de enkelte sandsynligheder. Stikprøver Man kan formode, at 10% af alle danskere vil sige ja til fri heroin. En sådan formodning kaldes en hypotese. For at vurdere hypotesen vil vi foretage en stikprøve. Vi vil spørge 20 tilfældige danskere, og er indstillet på at forkaste hypotesen, hvis ingen af de 20 svarer ja. Vi ved godt, at selv om hypotesen skulle være sand, kan vi ikke udelukke, at der i vores stikprøve slet ikke er nogen, der går ind for fri heroin, men vi antager, at sandsynligheden for det er meget lille. Peter Sørensen: Statistik og sandsynlighed Side 9

Lad os beregne den sandsynlighed. Altså sandsynligheden for, at alle 20 svarer noget andet end ja, sunder forudsætning af at hypotesen er sand. For hver af de 20 tilfældige danskere er sandsynligheden at få et ja: 10% = 0,10 og sandsynligheden for ikke at få ja: 90 % = 0,90. Sandsynligheden for at alle 20 ikke svarer ja er 0,90 20 = 0,121 = 12% Det er således 12 % sandsynligt, at vi kommer til at forkaste en sand hypotese. 12 % er i den forbindelse temmelig meget og spørgsmålet er, om det var en rimelig beslutning at forkaste hypotesen på baggrund af en sådan stikprøve. Vi vil nu spørge 100 tilfældige danskere, og hvis ingen af dem siger ja, må vi vel kunne forkaste hypotesen. Under forudsætning af at hypotesen er sand, kan vi beregne sandsynligheden for, at vi alligevel forkaster hypotesen og får 0,90 100 = 0,000026 = 0,003%. Denne sandsynlighed er ekstrem lille, så hvis resultatet af stikprøven bliver, at nul svarer ja, så tør vi godt forkaste hypotesen. Det vil være næsten usandsynligt, at nul svarer ja ud af 100, hvis 10% af befolkningen skulle gå ind for fri heroin. Måske ville det også være rimeligt at forkaste hypotesen, hvis resultatet blev et enkelt ja. Det at foretage en stikprøveundersøgelse af 100 personer er et eksempel på en såkaldt eksperimentserie bestående af 100 såkaldte basiseksperimenter. Hvert basiseksperiment består i at undersøge om pågældende person vil svare ja. Hvis hypotesen er rigtig, er sandsynligheden for ja 10%, og det kalder vi basissandsynligheden, forkortet lille p. Sandsynligheden for nej er 100% - p = 90%. Udfaldet af stikprøven kaldes ofte χ (χ er et græsk bogstav, der udtales noget i retning af ksi, men vi kan bare sige store X) Vi har beregnet sandsynligheden for (χ =0). Denne sandsynlighed betegnes P(χ =0). Sandsynligheden for et enkelt ja betegnes P(χ =1). Sandsynligheden for netop 2 svar med JA betegnes P(χ =2) osv. Peter Sørensen: Statistik og sandsynlighed Side 10