Introduktion til. DataMeter 2. Bjørn Felsager. Statistik med DataMeter. Forlag Malling Beck Læhegnet 71 2620 Albertslund



Relaterede dokumenter
Statistik med TI-Nspire CAS (Til version 1.6)

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September [Fjerde udgave]

Deskriptiv statistik for hf-matc

Deskriptiv statistik for matc i stx og hf

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

for gymnasiet og hf 2017 Karsten Juul

Taldata 1. Chancer gennem eksperimenter

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

I. Deskriptiv analyse af kroppens proportioner

for gymnasiet og hf 2016 Karsten Juul

Statistik. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer.

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

brikkerne til regning & matematik statistik preben bernitt

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

Statistik (deskriptiv)

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Deskriptiv statistik. for C-niveau i hf Karsten Juul

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau)

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal.

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Statistik med TI-Nspire CAS version 2.1

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Grupperede observationssæt Deskriptiv statistik: Middelværdi, frekvensfordeling, sumkurve, kvartilsæt, boxplot

QR15 Vejledning i at bestemme kvartilsæt og at tegne sumkurver med Nspire, Maple og Geogebra

Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå.

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge

Nogle emner fra. Deskriptiv Statistik Karsten Juul

Schweynoch, Se eventuelt

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Noter til Statistik. Lisbeth Tavs Gregersen. 1. udgave

Antal timer Køn k m k m m k m k m k k k m k k k

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

c. Radius for hver sekter er målt i cm og angivet i følgende tabel. Desuden er arealet af hvert område beregnet.

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Deskriptiv statistik (grupperede observationer)

Simulering af stokastiske fænomener med Excel

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime

Seriediagrammer - Guide til konstruktion i LibreOffice Calc

statistik og sandsynlighed

for matematik pä B-niveau i hf

Analyse af en lineær regression med lav R 2 -værdi

Statistik med Boxplot

Statistik - supplerende eksempler

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)

Hvad siger statistikken?

Løsninger til kapitel 1

Ved et folketingsvalg eller en folkeafstemning spørger man alle stemmeberettigede, og kun en del af dem stemmer.

Matematik og samfundsfag Gini-koefficienten

Grupperet materiale kan f.eks. være befolkningsdata eller indkomstfordelinger.

Huskeliste Printark. U4 Tastetider U5 Hvor hurtigt regner du? E4 Begreber og fagord - Statistik. Materialer. Mobiltelefon Stopur

Grupperede observationer

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Lektion 9s Statistik - supplerende eksempler

Vejledning i brug af Gym-pakken til Maple

Graph brugermanual til matematik C

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Simulering af stokastiske fænomener med Excel

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

Mini AT-forløb om kommunalvalg: Mandatfordeling og Retfærdighed 1.x og 1.y 2009 ved Ringsted Gymnasium MANDATFORDELING

Kvantitative Metoder 1 - Forår Dagens program

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0

Matematik i Word. En manual til elever og andet godtfolk. Indhold med hurtig-links. Kom godt i gang med Word Matematik. At regne i Word Matematik

Dig og din puls Lærervejleding

Median, kvartiler, boksplot og sumkurver

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Residualer i grundforløbet

bernitt-matematik.dk Fjordvej Holbæk

Kapitel 3 Lineære sammenhænge

Vejledning i at tegne boksplot i Excel 2007

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Potensfunktioner samt proportional og omvent proportional. for hf Karsten Juul

Lineære sammenhænge. Udgave Karsten Juul

Introduktion til SPSS

9 Statistik og sandsynlighed

Undervisningsbeskrivelse

How to do in rows and columns 8

SPAM-mails. ERFA & Søren Noah s A4-Ark Køber varer via spam-mails. Læser spam-mails. Modtager over 40 spam-mails pr. dag. Modtager spam hver dag

Talrækker. Aktivitet Emne Klassetrin Side

Lineære sammenhænge, residualplot og regression

Projektopgave Observationer af stjerneskælv

statistik basis+g DEMO

Deskriptiv statistik ud fra berømte måleserier

En lille introduktion til WordMat og statistik.

Excel regneark. I dette kapitel skal I arbejde med noget af det, Excel regneark kan bruges til. INTRO EXCEL REGNEARK

Deskriptiv statistik

Årsplan matematik 5. klasse. Kapitel 1: Godt i gang

Et CAS program til Word.

Supplerende opgaver til TRIP s matematiske GRUNDBOG. Forlaget TRIP. Opgaverne må frit benyttes i undervisningen.

T A L K U N N E N. Datasæt i samspil. Krydstabeller Grafer Mærketal. INFA Matematik Allan C

Gør det selv-øvelser udi regneark for begyndere! - en manual fra Skolekonsulenterne.dk

Projekt 1.4 Tagrendeproblemet en instruktiv øvelse i modellering med IT.

Excel tutorial om lineær regression

Bjørn Felsager Seks guidede ture med DataMeter

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Excel tutorial om indekstal og samfundsfag 2008

Funktioner. 1. del Karsten Juul

Transkript:

Introduktion til DataMeter 2 Bjørn Felsager Statistik med DataMeter Forlag Malling Beck Læhegnet 71 2620 Albertslund

Titel: Introduktion til DataMeter 2: Statistik med DataMeter Samhørende titel: DataMeter den danske udgave af "Fathom" Forfatter: Bjørn Felsager Forlagsredaktion: Frants Toft 1. udgave, 1. oplag Nærværende version af manuskriptet kan frit gøres til genstand for kopiering til undervisningsformål. Al anden mekanisk, fotografisk, elektronisk eller andre former for gengivelser af denne bog eller dele heraf er her ud over kun tilladt efter Copy-Dans regler. Nærværende introduktion er tænkt som elevmateriale. Den bør læses med programmet tændt, så man kan arbejde eksemplerne igennem og få en god førstehåndsfornemmelse for hvordan programmet virker. Den kan læses i flere omgange efterhånden som klassen når frem til de forskellige emner. Emnerne er af forskellig sværhedsgrad, så det er ikke alle eksempler, der egner sig til alle studieretninger. Hæftet kan downloades som en pdf-fil fra programmets hjemmeside: www.datameter.dk

Indhold Forord... 4 1 Beskrivende statistik... 5 1.1 Grundlæggende DataMeter-teknikker... 5 Velkommen til DataMeter... 5 Oprettelse af et datasæt: Variable i DataMeter... 7 Oprettelse af grafer: Prikdiagram og histogram... 9 Oprettelse af grafer: Kvartilsæt og boksplot...11 Middelværdien versus medianen...14 Statistiske beregninger...16 1.2 På opdagelse i data...17 Case: Rayleigh og densiteten for kvælstof...17 På jagt efter variabelsammenhænge...20 1.3 Fraktiler...23 Opdeling af et datasæt i lige store dele...23 Fraktilplot...27 1.4 Grupperede observationer...29 Gruppering af data: Hyppigheder og frekvenser...29 Søjlediagram som erstatning for histogram...30 Sumkurve som erstatning for fraktilplot...31 Teknisk bemærkning: Histogrammer/søjlediagrammer...32 Boksplot for grupperede observationer...35 Middelværdi for grupperede observationer...36 2 Bekræftende statistik...37 2.1 Introduktion til bekræftende statistik...37 Tilfældig variation: Eksperimentelle metoder...37 Case: Nedstyrtningen af et brintbombefly i Thule...39 Simulering af en tilfældig variation...43 2.2 Simulering og usikkerhedsintervaller...46 Simulering af en opinionsundersøgelse...46 Usikkerheden for en opinionsundersøgelse...48 Teknisk bemærkning: Kanonisk skøn for en andel...51 Bootstrap og usikkerhed: Tyngdeaccelerationen...52 2.3 Omrøring og hypotesetest...54 Challenger-ulykken...54 Beskrivende statistik: Hvem er skurken?...56 Bekræftende statistik: Omrøring og uafhængighed...58 Teknisk bemærkning: Kanonisk t-test...64 2.4 Spørgeskemaanalyser og χ²-test...66 Gråzonekriminalitet: En spørgeskemaanalyse...66 Beskrivende statistik: Søjle- og blokdiagrammer...67 Bekræftende statistik: Krydstabeller og uafhængighed...70 Teknisk bemærkning: Kanonisk χ²-test...78 Indeks...80 3

Forord DataMeter er et dynamisk databehandlingsprogram, der egner sig til undervisning i databehandling på mange niveauer: folkeskolens ældste klasser, gymnasiet og de videregående uddannelser. Statistik med Datameter er det andet hæfte skrevet som introduktion til DataMeter til brug for undervisningen i matematik på det indledende niveau i gymnasiet, dvs. Mat C. Det kan benyttes uafhængigt af det første hæfte, men for at få et bedre kendskab til DataMeter kan det anbefales også at gennemarbejde det introducerende kapitel i det første hæfte om variabelsammenhænge. Første del omhandler den beskrivende statistik: Hvordan trækker man information ud om et datasæt. I det indledende afsnit indføres de vigtigste graftyper og deskriptorer: prikdiagram, histogram og boksplot, kvartilsæt og middelværdi. Dernæst følger et afsnit, der kommer rundt om de vigtigste kendetegn ved en statistisk fordeling: niveauet, spredningen og formen. I det følgende afsnit gives der en introduktion til en generel opdeling af et datasæt i lige store dele ved hjælp af fraktiler. De fungerer dels som bindeled til de grupperede observationer, dels er de afgørende for kunne arbejde med metoder fra den bekræftende statistik. Da mange datasæt i praksis præsenteres som grupperede data (som også udgør et centralt emne i kernestoffet for MatC) afsluttes der med et længere afsnit om grupperede data med en gennemgang af de tilhørende graftyper og deskriptorer: søjlediagram, sumkurve og boksplot, kvartilsæt og middelværdi. Anden del omhandler den bekræftende statistik: Hvordan vurderer man en usikkerhed? Hvordan sandsynliggør man en hypotese? Der lægges vægt på eksperimentelle metoder, som i langt højere grad er tilgængelige for undervisningen på dette indledende niveau. I det første indledende afsnit indføres en række centrale begreber, som fx stikprøve og population. Det følgende afsnit omhandler de to vigtigste metoder til at skønne over usikkerhedsintervaller: simulering med tilfældighedsgeneratorer og bootstrap. Derefter følger et afsnit om hypotesetest med sammenligning af middelværdier for to numeriske variable via en omrøring af variable. Endelig giver det sidste afsnit en introduktion til spørgeskemaanalyser med vægten på krydstabeller og det eksperimentelle χ 2 -test for uafhængigheden af to kategoriserede variable. Dermed har også de elever, der kun har matematik på c-niveau mulighed for at stifte kvalificeret bekendtskab med de vigtigste typer hypotesetests, som de senere kan møde andre fag, fx samfundsfag eller biologi. De undervisningsforløb som hæftet lægger op til har været afprøvet i samarbejde med to inspirerende kolleger, Morten Birk Christensen (nu Oure Idrætsgymnasium) og Brian Olesen. Jeg er dem meget tak skyldig, men er naturligvis kun selv ansvarlig for de fejl og uhensigtsmæssigheder, der måtte have indsneget sig undervejs. Bjørn Felsager 4

1. Beskrivende statistik 1.1 Grundlæggende DataMeter-teknikker Velkommen til DataMeter Når du åbner for DataMeter 1 viser der sig følgende skærmbillede Det er især værktøjslinjen, der er interessant På den finder du tre rum: I det første er der simple værktøjer til at arbejde med tabeller, grafer og beregninger. I det sidste er der tilsvarende simple værktøjer til at arbejde med parametre, målinger og tekstbokse. I det midterste rum findes der ret så avancerede værktøjer til statistik. Dem vil vi kun kort omtale i dette hæfte, da den fulde brug af disse værktøjer kræver et indgående kendskab til statistisk teori. Men tilbage til de simple værktøjer: Dem kan vi hente ind i dokumentet ved at trække dem ned med markøren der forvandles til en gribende hånd, når vi klikker på et værktøj og slippe dem præcis, hvor det passer os. På næste side har vi fx trukket et datasæt ind i dokumentet. Præcis samme teknik virker med de andre værktøjer med undtagelse af måleværktøjet, hvor vi først skal vælge måleinstrument, vist på næste side med en afstandsmåler, hvorefter vi trækker en skyder ned, der virker sammen med måleinstrumentet. 1 I version 1.0 vil der dog ikke være et måleværktøj til rådighed. Måleværktøjet tillader opkobling af computeren til forskellige sonder fra det amerikanske firma Vernier, hvorefter målingerne kan importeres direkte til DataMeter. 5

1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker De to første værktøjer Datasæt og Tabel er uløseligt forbundne og bærer den samme titel, mens de resterende Graf, Beregning, Parameter, Måling og Tekst kan bruges for sig selv uafhængigt af et datasæt. Men lad os komme i gang med et eksempel: Kernen i DataMeter er dets unikke evne til at håndtere variable, så lad os gøre nogle observationer og knytte variable til dem. Det kunne være om klassen, hvor vi kunne se på datasættet bestående af de enkelte elever karakteriseret ved forskellige egenskaber, såsom navn, køn, alder, højde osv. Det kan I imidlertid selv lege med. 6

1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Oprettelse af et datasæt: Variable i DataMeter Her vil vi i stedet se på et eksempel, der også er så simpelt, at vi selv nemt kan taste data ind. FCK er en af topklubberne i dansk fodbold. I 1999 var lønningerne for spillerne på A-holdet givet ved den følgende tabel: Spiller Løn Christian Poulsen 400000 Thomas Røll 400000 Peter Hansen 350000 Heine Fernandez 500000 Thomas Thorninger 450000 Morten Bisgaard 800000 Christian Lønstrup 450000 Jacob Laursen 700000 Diego Tur 400000 Sibussio Zuma 1750000 Thomas Rytter 400000 I den ovenstående tabel er der to variable: Spilleren og hans løn. Vi trækker derfor et tabelværktøj ned i dokumentet og starter med at give et navn til den første variabel spillerens navn ved at klikke på titlen <ny> og skrive løs Straks begynder der at ske noget: Dels dukker der en celle op lige under titlen på variablen, dels får tabellen selv en titel Datasæt 1 og der dukker et datasæt op i form af en tom skattekiste Derefter skriver du bare løs i de tomme celler der dukker op hver gang en celle er udfyldt og trykker ENTER. Lige så snart de første data i form af navne på spillerne dukker op i tabellen, kommer der guldkugler i skattekisten. Til sidst kan du også gå ind og dobbeltkikke på tabeltitlen og ændre navnet på datasættet til fx FCK 1999. Men spillerne er jo karakteriseret ved andet end deres navne, så vi fortsætter med at indtaste andre typiske egenskaber for spillerne, i dette tilfælde deres årsløn. 7

1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Den første variabel er nem nok at indtaste, da den bare består af en tekst. Sådanne tekstvariable kaldes også for kategoriserede variable, fordi de opdeler spillerne i forskellige kategorier, fx navn eller hvilken funktion de har på holdet, fx forsvarsspiller eller angrebsspiller. Tekstvariable er venstrestillede, ligesom i et almindeligt regneark. I det hele taget minder tabellen i sin struktur minder meget om et regneark med nummererede rækker, idet hver spiller har fået tildelt sit eget indeks, der angiver hans plads i tabellen. Læg mærke til at søjlerne, dvs. de enkelte variable, alle er navngivne. De er altså ikke født med bogstavnavne A, B, C osv. som i et almindeligt regneark. Og det er ikke nemt at referere til en enkelt celle. I DataMeter som er et dynamisk regneark arbejder vi med hele søjler/lister ad gangen, sådan som du måske også kender det fra din grafregner. Den anden variabel, lønnen er en talvariabel. De kaldes også for numeriske variable. Men her skal vi nu være opmærksomme på at der ikke blot kan være tale om talværdier, men også om enheder, idet de fleste størrelser er forsynet med en naturlig enhed. Lønnen udbetales fx i kroner. Da DataMeter er konstrueret til at arbejde med enheder er der ingen grund til at se bort fra dette. 8

1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker DataMeter kender de fleste grundlæggende enheder såsom meter, sekund, kilogram osv., men den kender fx ikke møntenheden kr. Ved at få vist enheder (højreklik i tabellen eller benyt menupunktet Vis enheder i Tabel-menuen) kan vi indskrive den ønskede enhed. Oprettelse af grafer: Prikdiagram og histogram Hvordan kan vi nu danne sig et overblik over disse tal? Det kan gøres på flere forskellige måder. Her vil vi nu først se på nogle grafiske metoder til at danne sig et overblik over numeriske variable (vi vil så senere også se nærmere på graftyperne for de kategoriserede variable). Vi trækker derfor et grafværktøj ned fra værktøjshylden Vi kan nu oprette en graf over lønningerne ved som vist at trække variablen Løn over på førsteaksen i grafrummet. Læg mærke til kommentaren (i gult), der fremkommer før vi slipper variablen. Vi kan tvinge DataMeter til at opfatte variablen som en kategoriseret/numerisk variabel ved at holde Skift/CTRL-tasten nede, mens vi slipper variablen. Men her ser vi udelukkende på numeriske variable, så vi slipper bare variablen løn FCK 1999 enhed 1 2 3 4 5 6 7 8 9 10 11 Navn Løn kr FCK 1999 Prikdiagram Christian Poulsen 400000 kr Thomas Røll 400000 kr Peter Hansen 350000 kr Heine Fernandez 500000 kr Thomas Thorninger 450000 kr Morten Bisgaard 800000 kr Christian Lønstrup 450000 kr Jacob Laursen 700000 kr Diego Tur 400000 kr 0 400000 800000 1200000 1600000 Sibussio Zuma 1750000 kr Løn (kr) Thomas Rytter 400000 kr 9

1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Herved fremkommer der et prikdiagram, der giver en god fornemmelse for lønfordelingen, der er tydeligt højreskæv, har en central klump omkring 400 000 kr. og en lang hale til højre med dels et par spillere omkring 800 000 kr. og så den virkelige topscorer Sibussio Zuma med 1 750 000 kr. i årsløn. Læg mærke til at prikdiagrammet er stakket, dvs. i stedet for at prikkerne dækker for hinanden, anbringes de oven på hinanden, så vi får en tydelig fornemmelse af fordelingens form. Selv om spillernes navne ikke optræder på grafen kan vi nemt finde ud af hvem der gemmer sig bag prikkerne. Klikker vi på et datapunkt, lyser det nemlig op i tabellen. Dobbeltklikker vi datapunktet åbnes grafinspektøren og vi får direkte adgang til spillerens generalieblad Vi kan også skifte graftype og afsætte lønningerne i et histogram FCK 1999 6 Histogram 5 4 3 2 1 Histogrammet viser det samlede overordnede mønster som prikdiagrammet. Vi kan nu selv tilpasse histogrammet ved at dobbeltklikke i grafrummet og derved få adgang til grafinspektøren. Fx kan vi som vist sætte intervalbredden ned fra 10 000 til 5 000 og få lidt finere detaljer med. Tilsvarende kan vi regulere intervalstarten, dvs. placeringen af det første intervalendepunkt. 0 600000 1200000 1800000 Løn (kr) 10

1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Læg mærke til at hvert af intervallerne starter i det venstre endepunkt 2. Hvis vi fx som vist markerer typeintervallet, kan vi på statusbjælken for neden se at det drejer sig om fire spillere med lønninger fra 400 000 kr. (inklusive) op til 450 000 kr. (eksklusive): Oprettelse af grafer: Kvartilsæt og boksplot Hvis vi ordner lønningerne i rækkefølge ved at højreklikke på variablen Løn og vælge kommandoen Sortér stigende, kan vi uden videre aflæse den mindste lønning, dvs. minimum, den midterste lønning, dvs. medianen, samt den største lønning, dvs. maksimum Vi finder da: Min = 350 000 Med = 450 000 Max = 1 750 000 2 Der er tale om et tilfældigt valg. I andre undervisningstraditioner kan man derfor møde det modsatte valg, hvor det er højre endepunkt, der regnes med. 11

1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Medianen er den midterste observation. Hvis der er et lige antal observationer, vil der i stedet være to midterobservationer. Man har da vedtaget at medianen i dette tilfælde er gennemsnittet af de to midterste observationer 3. I dette tilfælde viser det sig, at de to midterste observationer er ens, så her er den detaljerede regel ikke så afgørende. Medianen deler nu det ordnede datasæt i to halvdele. Vi kan derfor fortsætte med at fastlægge medianerne for hver af disse. De kaldes første og tredje kvartil Q 1 og Q 3 (jfr. ordet kvart, som står for en fjerdedel, idet kvartilerne deler datasættet i fjerdedele). Hvis der er et lige antal observationer er det oplagt, hvordan datasættet splittes i to halvdele. Med et ulige antal er det lidt mere indviklet, fordi Data- Meter både kan medtage og udelukke den midterste observation i de to halvdele. I DataMeter prioriteres det nu højt, at kvartilerne så vidt som symmetrien tillader det svarer til en observation. De to kvartiler udgør medianerne for de to halvdele af det ordnede datasæt. Hvis der i alt er et ulige antal observationer regnes midterobservationen kun med til de to halvdele, når dette også fører til et ulige antal observationer i hver halvdel. Det sikrer at kvartilen også i dette tilfælde selv bliver en observation. I det ovenstående tilfælde skal medianen altså ikke regnes med, da de to halvdele ellers ville komme til at indeholde et lige antal. De to halvdele ser derfor således ud: FCK 1999 Spiller Løn FCK 1999 Spiller Løn 1 Peter Hansen 350000 1 Peter Hansen 350000 2 Christian Poulsen 400000 2 Christian Poulsen 400000 Q 1 3 Thomas Røll 400000 3 Thomas Røll 400000 4 Diego Tur 400000 4 Diego Tur 400000 5 Thomas Rytter 400000 5 Thomas Rytter 400000 6 Thomas Thorninger 450000 6 Thomas Thorninger 450000 7 Christian Lønstrup 450000 7 Christian Lønstrup 450000 8 Heine Fernandez 500000 8 Heine Fernandez 500000 9 Jacob Laursen 700000 9 Jacob Laursen 700000 Q 3 10 Morten Bisgaard 800000 10 Morten Bisgaard 800000 11 Sibussio Zuma 1750000 11 Sibussio Zuma 1750000 Første kvartil Q 1 er altså givet ved 400 000 kr. i årsløn, mens tredje kvartil Q 3 er givet ved 700 000 kr. i årsløn. 3 Der findes forskellige traditioner for hvad man skal lægge vægt på, når man definerer statistiske deskriptorer. I ældre dansk undervisningstradition har man i stedet prioriteret højest, at medianen altid faldt sammen med en observation. Man har derfor vedtaget (tilfældigt!) at medianen skulle være den største af de to observationer. 12

1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Kvartilsættet bestående af den første kvartil, medianen og den tredje kvartil (hvor medianen kan opfattes som den anden kvartil) deler datasættet i fire dele, som hver for sig rummer (ca!) en fjerdedel af observationerne. Tilføjer vi ydermere minimum og maksimum (den nulte kvartil og den fjerde kvartil) til kvartilsættet kaldes det for det udvidede kvartilsæt eller de fem nøgletal. Vi samler ofte de fem nøgletal i et såkaldt boksplot, hvor boksens to ender angiver første og tredje kvartil, mens medianen markeres med en lodret streg inde i boksen. Boksen indeholder altså (mindst!) halvdelen af observationerne. Dertil føjer vi vandrette streger, der i princippet rækker helt ud til den mindste observation og den største observation Boksplottet giver et klart indtryk af den skævhed der er i aflønningen af spillerne på A-holdet. Halvdelen af lønninger ligger i den venstre hale og den venstre halvdel af boksen, som begge er meget små i forhold til den højre halvdel og den meget lange højre hale. Boksplottet giver derimod ikke noget indtryk af hvordan de enkelte individuelle data fordeler sig. Skyldes den højre hale fx blot nogle få observationer eller er der tale om en hel stribe af observationer. Trykker vi CTRL-A for at vælge alle observationer, ser vi at boksplottet er udspændt af 7 værdier (hvoraf en stor del af de mindre værdier optræder flere gange). Her kan vi nu få glæde af begrebet en atypisk eller perifer observation. En observation kaldes en afviger eller siges at være perifer, hvis den ligger usædvanligt langt ude i forhold til den centrale boks. Det er selvfølgelig et skøn, hvornår noget ligger så langt ude at det må betragtes som ekstremt. FCK 1999 Boksplot 0 400000 800000 1200000 1600000 Løn (kr) DataMeter benytter en tommelfingerregel opstillet af den amerikanske statistiker Tukey, der har vist sig i praksis at være yderst nyttig til at spotte afvigerne. Tukey tager udgangspunkt i boksens bredde, den såkaldte kvartilbredde, dvs. Q 3 Q 1 : 13

1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Tukeys regel: Hvis en observation ligger længere væk end halvanden kvartilbredde fra den centrale kasse, anses den for at være en afviger. Grænserne for linjestykkerne, dvs. nedre kvartil minus halvanden kvartilbredde og øvre kvartil plus halvanden kvartilbredde, kaldes Tukeys hegn. I vores tilfælde er kvartilbredden 300 000 kr. (= 700 000 400 000). Halvanden kvartilbredde er derfor 450 000 kr. Trækker vi 450 000 kr. fra den venstre kant, dvs. Q 1 = 400 000 kr., fås en negativ løn. Dvs. vi skal ned på en negativ løn for at have en ekstrem lav løn. Det er der ingen, der har. Tilsvarende skal vi lægge 450 000 kr. til den højre kant, dvs. Q 3 = 700 000 kr. Vi skal altså op over en årsløn på 1 150 000 kr. for at have en ekstremt høj løn. Det er der kun én, der har! Middelværdien versus medianen Inden vi forlader eksemplet med fodboldspillerne vil vi se på endnu en statistisk deskriptor som kan være af stor nytte til beskrivelse af data. Som et mål for den centrale eller typiske værdi har vi indtil videre benyttet medianen. Men i mange sammenhænge vil vi foretrække middelværdien eller gennemsnittet. I det ovenstående tilfælde skal vi altså finde den samlede lønsum og dividere den med antallet af spillere, dvs. 11. Grafisk tilføjer vi middelværdien ved at højreklikke i grafrummet og vælge kommandoen Plot værdi (der åbner for en formelregner, hvor vi indskriver formlen middel() for at få tegnet middelværdien og formlen median() for at få tegnet medianen) 350000 +... + 1750000 middelløn = = 600000 11 FCK 1999 Boksplot 0 400000 800000 1200000 1600000 Løn (kr) middel ( ) = 600000 kr median ( ) = 450000 kr Gennemsnitslønnen i FCK er altså 600 000 kr., hvilket ligger et godt stykke over medianen på 450 000 kr. Det afspejler den uforholdsmæssige store indflydelse afvigeren har på gennemsnittet. Det er derfor det er godt også at have medianen til rådighed. Medianen ligger altid i den centrale klump. Ydermere er medianen robust dvs. påvirkes ikke af tilstedeværelsen af en enkelt eller nogle få afvigere. Medianen er derfor et bedre mål for den typiske spillerløn. 14

1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Trækker vi afvigeren ud af statistikken falder gennemsnittet for de resterende 10 spillere ned til 350000 +... + 800000 middelløn = = 485000 uden Zuma 10 Grafisk opnås det samme ved at indføre et filter, der skærer Zuma ud af grafen (højreklik i grafrummet og hold CTRL-tasten nede for at forvandle lighedstegnet, =, til et ulighedstegn, ) FCK 1999 Boksplot 0 400000 800000 1200000 1600000 Løn (kr) middel ( ) = 485000 kr median ( ) = 425000 kr Navn "Sibussio Zuma" FCK 1999 enhed 1 2 3 4 5 6 7 8 9 10 11 Navn Løn kr Peter Hansen 350000 kr Christian Poulsen 400000 kr Thomas Røll 400000 kr Diego Tur 400000 kr Thomas Rytter 400000 kr Thomas Thorninger 450000 kr Christian Lønstrup 450000 kr Heine Fernandez 500000 kr Jacob Laursen 700000 kr Morten Bisgaard 800000 kr Sibussio Zuma 1750000 kr Nu er der ikke længere så stor forskel på median og middeltal, om end middellønnen endnu engang er den største, hvilket afspejler lønfordelingens asymmetri med en tydelig lang hale til højre. Denne gang er det Jacob Laursen og Morten Bisgaard, der har en perifer løn. I stedet for at sætte et filter på kan vi også bare gribe fat i det perifere datapunkt og trække i det. Men kan da netop se, hvordan middellønnen hele tiden flytter sig, mens medianlønnen ligger stille indtil vi kører forbi den og selv da giver den kun et lille ryk På samme måde rykker kvartilerne selvfølgelig også, når vi passerer dem. Læg dog mærke til at vi ikke kan trække middellønnen forbi medianlønnen i det ovenstående eksempel. Fordelingen forbliver altså højreskæv. Bemærkning: En sådan dynamisk tilpasning af modellen er fin til at demonstrere, hvilken indflydelse udvalgte data har på modellen. Men vi kan også ved et uheld komme til at flytte rundt på datapunkterne. Det er derfor godt at vide, at vi kan låse datapunkterne i grafer ved hjælp af menupunktet Lås data i grafvindue i Datasæt-menuen. 15

1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Statistiske beregninger Til slut vil vi se lidt på mulighederne for at udføre simple statistiske beregninger. Vi trækker altså beregningsværktøjet ned i arbejdsvinduet. Der er nu mulighed for at trække variable ind vandret og lodret i beregningsboksen, jfr. grafværktøjet FCK 1999 Løn 600000 kr R1 = middel ( ) Trækker vi nu den numeriske variabel Løn ind i den lodrette søjle får vi som udgangspunkt beregnet middelværdien. Højreklikker vi i beregningsboksen får vi nu også adgang til fempunkts-oversigten (dvs. de fem nøgletal eller det udvidede kvartilsæt): FCK 1999 Løn R1 = middel ( ) R2 = min ( ) R3 = Q1 ( ) R4 = median ( ) R5 = Q3 ( ) R6 = maks ( ) 600000 kr 350000 kr 400000 kr 450000 kr 700000 kr 1750000 kr Dermed har vi adgang til alle de statistiske deskriptorer som vi har introduceret i det foregående. Men ligesom i grafværktøjet kan vi også tvinge DataMeter til at håndtere variablen Løn som en kategorisk variabel ved at holde SKIFT-tasten nede. Derved frembringes en hyppighedstabel over lønningerne, der bl.a. kan bruges til at finde typetallet, dvs. den hyppigst forekommende løn, her 400 000 kr. FCK 1999 1750000 kr 350000 kr 500000 kr Løn 700000 kr 800000 kr 450000 kr 400000 kr Søjle total R1 = tæl ( ) 1 1 1 1 1 2 4 11 16

1.2 På opdagelse i data Vi har nu fået en første fornemmelse for strukturen af et datasæt. Kernen i den beskrivende statistik er de grafiske fremstillinger af data. Øjet er vores bedste mønstergenkender, så når vi vil danne os et overblik over strukturen for et datasæt, dvs. fordelingen af de variable, er det langt det nemmeste, hvis vi begynder med at visualisere fordelingen før vi kigger dybt i tabeller og begynder at udføre indviklede beregninger. Det udtrykkes ofte med sloganet: 'Du skal tegne, før du kan regne'. Den mest grundlæggende graftype for en variabel hørende til et datasæt er prikdiagrammet. Men dertil kommer så de supplerende graftyper: histogram, boksplot og fraktilplot, som hver for sig er gode til at fremhæve forskellige sider af strukturen. Hvad er det så man kan hæfte sig ved, når man forsøger at danne sig et indtryk af strukturen for en variabel? Der er første og fremmest de følgende tre kendetegn: Form, niveau og spredning 1. Form: Ligger dataene jævnt fordelt ud over et interval eller er de fleste data samlet i en eller flere klumper? Ligger dataene symmetrisk eller ligger de skævt. Som hjælp til det sidste kan man også se på forskellen mellem middelværdien og medianen, der kan opfattes som et mål for skævheden. 2. Niveau: Hvad er den typiske værdi for variablen? Hvis dataene med tilnærmelse ligger symmetrisk, vil vi ofte foretrække middelværdien som den typiske værdi, men hvis dataene ligger skævt vil vi ofte foretrække medianen som den typiske værdi. 3. Spredning: Ligger dataene meget tæt på den typiske værdi eller spreder de sig ud over et stort område? For en jævn fordeling, vil vi ofte benytte variationsbredden (forskellen mellem den mindste og den største værdi) som et mål for spredningen. For en fordeling med en central pukkel og lange haler ud til siden vil vi ofte benytte kvartilbredden (tykkelsen af kvartilboksen) som et mål for spredningen. Men andre kendetegn kan også falde i øjnene: Er der fx typiske gab? Er der tydelige perifere/afvigende observationer osv. Case: Rayleigh og densiteten for nitrogen Som et typisk eksempel på en opdagelsesrejse i et datasæt vil vi se på et berømt historisk eksempel 4 : Rayleighs undersøgelse af densiteten for kvælstof N 2, som udgør den vigtigste komponent i atmosfærisk luft. Den næst vigtigste er ilt O 2. Ved at fjerne ilten fra atmosfærisk tør luft kunne han isolere kvælstoffet. Tilsvarende kunne han frembringe rent kvælstof ved at nedbryde forskellige simple kemiske forbindelser. Derved fandt han frem til følgende eksperimentelle data 4 Rayleighs egen beskrivelse findes fx på hjemmesiden http://web.lemoyne.edu/~giunta/rayleigh.html 17

1.2 Beskrivende statistik: På opdagelse i data Rayleighs data Dato Kilde Metode Vægt enhed 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 gram 29 nov 93 Nitrogenoxid Varmt jern 2.30143 gm 5 dec 93 Nitrogenoxid Varmt jern 2.29816 gm 6 dec 93 Nitrogenoxid Varmt jern 2.30182 gm 8 dec 93 Nitrogenoxid Varmt jern 2.2989 gm 12 dec 93 Atmosfærisk luft Varmt jern 2.31017 gm 14 dec 93 Atmosfærisk luft Varmt jern 2.30986 gm 19 dec 93 Atmosfærisk luft Varmt jern 2.3101 gm 22 dec 93 Atmosfærisk luft Varmt jern 2.31001 gm 26 dec 93 Dinitrogenoxid Varmt jern 2.29889 gm 28 dec 93 Dinitrogenoxid Varmt jern 2.2994 gm 9 jan 94 Ammoniumnitrogendioxid Varmt jern 2.29849 gm 13 jan 94 Ammoniumnitrogendioxid Varmt jern 2.29889 gm 27 jan 94 Atmosfærisk luft Jernhydrat 2.31024 gm 30 jan 94 Atmosfærisk luft Jernhydrat 2.3103 gm 1 feb 94 Atmosfærisk luft Jernhydrat 2.31028 gm For at danne sig et indtryk af fordelingen for de målte vægte afbildes de i et prikdiagram henholdsvis et boksplot Rayleighs data Prikdiagram Rayleighs data Boksplot 2.298 2.300 2.302 2.304 2.306 2.308 2.310 2.312 Vægt middel ( ) = 2.30446 median ( ) = 2.30182 2.298 2.300 2.302 2.304 2.306 2.308 2.310 2.312 Vægt middel ( ) = 2.30446 Prøver vi først at se på boksplottet er boksen usædvanlig bred i forhold til de to haler. Samtidigt er fordelingen tydeligt højreskæv, idet den højre del af boksen er meget større end den venstre del; dette bekræftes yderligere af at middelværdien ligger langt inde i den højre del. Men der ud over er det svært at se på boksplottet, hvad det egentlig er der gør fordelingen så usædvanlig. Kigger vi der i mod på prikdiagrammet falder det tydeligt i øjnene at fordelingen er skilt ad i to (måske endda tre) klumper: En snæver klump omkring massen 2.310g og en bredere klump omkring 2.299g (og måske er der endda tegn på en tredje klump omkring 2.301g). Hvad kan nu være årsagen til denne opsplitning af datasættet? Indkranser vi den snævre klump omkring 2.310g i prikdiagrammet ses det tydeligt i tabellen, at den er koblet til alle målingerne, der stammer fra atmosfærisk luft, se figuren næste side. der er altså tydeligvis en skjult variabel, der giver anledning til en systematisk forskel på den kvælstof, der isoleres fra den atmosfæriske luft og den kvælstof, der isoleres fra forskellige kemiske forbindelser. I virkeligheden er der altså tale om en sammenblanding af to adskilte datasæt. Det kan vi se tydeligt, hvis vi indfører en sammensat variabel, Oprindelse, der skelner mellem de målinger, der stammer fra kemiske forbindelser og de målinger, der stammer fra atmosfærisk luft 18

1.2 Beskrivende statistik: På opdagelse i data Ved at indføre Oprindelse som uafhængig variabel og Vægt som afhængig får vi netop tydeligt adskilt de to grupper data Rayleighs data 2.312 Boksplot 2.310 2.308 2.306 2.304 2.302 2.300 2.298 Atmosfærisk luft Kemisk forbindelse Oprindelse middel ( ) = 2.30446 gm Rayleighs data Atmosfærisk luft Oprindelse Kemisk forbindelse Søjle total R1 = middel ( ) Vægt 2.3101371 gm 2.2994975 gm 2.3044627 gm Tilbage stod så bare at identificere den sande natur af den skjulte variabel: Hvorfor adskilte den kvælstof, der blev udskilt af atmosfærisk luft sig fra den kvælstof, der blev isoleret fra en kemisk forbindelse? Rayleigh gættede på at den atmosfæriske luft måske indeholdt et ukendt stof, der forstyrrede målingerne. I så fald repræsenterer målingerne fra de kemiske forbindelser den rene kvælstof, mens målingerne fra den atmosfæriske luft er 'forurenet' af det skjulte stof. Hvis dette skjulte stof havde en højere densitet end kvælstof, ville det netop kunne trække målingerne en anelse i vejret, så de kom til at ligge på et højere niveau. Rayleigh gik på jagt efter det ukendte stof, hvorved han netop opdagede den første ædelgas, argon, hvilket udløste en nobelpris. Bemærk i øvrigt hvordan hans opdagelse kun kunne lade sig gøre, fordi han dels målte meget præcist, dels benyttede flere af hinanden uafhængige metoder til fremstillingen af kvælstof. 19

1.2 Beskrivende statistik: På opdagelse i data På jagt efter variabelsammenhænge Som et andet eksempel på hvordan man kan gå på opdagelse i data vil vi se på hvordan man kan analysere den information, der ligger gemt i en spørgeskemaundersøgelse. Her tager vi udgangspunkt i et udsnit af en stor tysk undersøgelse af gymnasieelevers fritidsvaner. En dansk udgave, Unges fritidsvaner, kan hentes på DataMeters hjemmeside www.datameter.dk, der fx nås via hjælpemenuen. Undersøgelsen rummer 140 forskellige variable, så der er nok at tage fat på. Her vil vi se nærmere på variablen TidTV, der registrerer de unges ugentlige timeforbrug til TV-kiggeri. Trækkes variablen ind i et grafrum kan vi dels kigge på et boksplot for det store overblik, dels supplere med et prikdiagram for de finere detaljer Unges fritidsvaner Boksplot 0 5 10 15 20 25 30 35 TidTV median ( ) = 10 middel ( ) = 9.75514 Unges fritidsvaner Prikdiagram 0 5 10 15 20 25 30 35 TidTV Boksplottet afslører at niveauet for de unges tv-kiggeri ligger på 10 timer om ugen (og der er ikke stor forskel på median og middelværdi i denne forbindelse). Faktisk er 10 timer om ugen også typetallet. Spredningen kan angives via kvartilbredden på 9 timer, idet halvdelen af de unge ser tv mellem 5 og 14 timer om ugen. Ser vi til sidst på formen er der karakteristisk at der er en lang hale til højre, der ender i en række perifere observationer med unge 'tv-narkomaner', der ser tv mindst 30 timer om ugen. Man kunne så naturligt forvente at tv-kiggeriet var højreskævt, men faktisk ligger middelværdien en anelse til venstre for medianen. Den venstre halvdel af kvartilboksen er da også større end den højre halvdel, hvilket kompenserer for den lange hale. Men detaljerne kan først rigtigt ses på prikdiagrammet, hvor det fx fremgår at mange unge er tilbøjelige til at opgive deres ugentlige tv-forbrug i multipla af 5, idet der er tydelige toppe ved 5, 10, 15, 20, 25 og 30 timer. Andre går ud fra deres daglige forbrug, hvilket giver toppe ved 7, 14 og 21 timer om ugen. 20

1.2 Beskrivende statistik: På opdagelse i data Vi går nu videre med at overveje nogle mulige sammenhænge hvilke variable kan tænkes at have indflydelse på tv-kiggeriet? hvilke variable kan tv-kiggeriet tænkes at have indflydelse på? Kunne det fx tænkes at kønnet spillede en rolle for tv-kiggeriet? Kigger piger mere tv end drenge? Er de fx mere afhængige af 'serier'? Unges fritidsvaner 35 Boksplot 30 25 20 15 10 5 0 Unges fritidsvaner Køn Dreng Pige 10 8 TidTV 10.447425 9.2210265 8 9 R1 = median ( ) R2 = middel ( ) R3 = kvartilbredde ( ) Række total 10 9.7551402 9 Dreng Køn middel ( ) = 9.75514 Pige Det kan vi afklare, ved at trække variablen Køn ind som den uafhængige variabel på førsteaksen og variablen TidTV ind som den afhængige variabel på andenaksen. Grafen viser da at niveauet for drengenes tv-kiggeri faktisk ligger en anelse højere end pigernes, både målt på middelværdi og median, idet drengen typisk kigger 12 timers mere tv om ugen. Og sjovt ligger middelværdien over medianen for begge køns vedkommende. Ellers er der ikke den store forskel på formen i de to fordelinger: Drengenes spredning er en anelse mindre end pigernes, mens pigernes fordeling er lidt mere skæv end drengenes. En anden interessant mulig sammenhæng er spørgsmålet om det spiller en rolle, om de unge har deres eget tv-apparat eller om de er 'tvunget' til at se tv på familiens apparat Unges fritidsvaner 35 Boksplot 30 25 20 15 10 5 0 Unges fritidsvaner Ege ttv ja nej 10 7 TidTV 10.838235 7.5857558 8 6 R1 = median ( ) R2 = middel ( ) R3 = kvartilbredde ( ) Række total 10 9.7807183 9 ja Ege ttv middel ( ) = 9.75514 nej 21

1.2 Beskrivende statistik: På opdagelse i data Det kan vi afklare ved at trække variablen EgetTV ind som den uafhængige variabel og variabel TidTV som den afhængige variabel. Denne gang er forskellen mere markant. Niveauet for tv-kiggeriet for de unge med eget tv-apparat ligger typisk 3 timer over niveauet for de unge uden eget tv-apparat. Tilsvarende er spredningen af tvkiggeriet større for de unge med eget tv, idet fx kvartilbredden for de unge med eget tv-apparat ligger to timer over kvartilbredden for de unge uden eget tv-apparat. Begge fordelinger har i øvrigt stort set samme form. Faktisk synes den største forskel at være at den ene fordeling synes at være en forstørret udgave af den anden, dvs. de er stort set ligedannede, hvilket vi som vist kan illustrere ved at tilføje passende linjer gennem beslægtede punkter i et tegneprogram Vi kan også fremhæve den fælles form, ved fx at udregne den relative kvartilbredde (sat i forhold til medianen) Unges fritidsvaner Ege ttv Række ja nej total TidTV 0.8 0.85714286 0.9 kvartilbredde ( R1 = ) median ( ) I begge tilfælde fås da en relativ kvartilbredde på 80-85%, så kvartilbredden for tv-kiggeriet er ca. 80% af niveauet. Læg i øvrigt mærke til at årsagssammenhængen mellem to variable sjældent er entydig: Har man eget tv-apparat kan det friste til at se mere tv. men omvendt kan et stort behov for tv-kiggeri føre til et pres på familien for at man kan se det uden at forstyrre de andre. Sammenfattende kan man altså arbejde med at undersøge data på flere forskellige niveauer: ved at trække statistiske informationer ud om de enkelte variable ved at sammenholde statistiske informationer for flere variable ved at knytte de statistiske informationer sammen med den kontekst variablen indgår 22

1.3 Fraktiler Opdeling af et datasæt i lige store dele I det foregående har vi set hvordan vi dels ved hjælp af medianen kan dele et datasæt i to lige store halvdele, dels ved hjælp af kvartiler kan dele et datasæt i fire lige store fjerdele. Men der er selvfølgelig intet helligt ved halvdele og fjerdedele og vi kunne lige så godt dele et datasæt i ti lige store dele (ved hjælp af deciler), i hundrede lige store dele (ved hjælp af centiler) osv. I almindelighed bruger vi fraktiler til at dele et datasæt i et bestemt antal lige store dele. Den praktiske opdeling af datasættet i lige store brøkdele ved hjælp af fraktiler afhænger af datasættets størrelse, dvs. antallet af observationer n. Det er nemmest hvis antallet af observationer n kan deles med nævneren for brøkdelen. Lad os fx se på femtedele. Hvis 5 går op i antallet af observationer, fx n = 20 hvor 5 går op netop 4 gange, ordnes disse observationer i voksende rækkefølge, hvorefter de første fire observationer udgør den første femtedel, de næste fire observationer den anden femtedel osv. Som skillepunkter, dvs. kvintiler, bruger vi da som sædvanlig gennemsnittet af de to nærmeste observationer. Se fx det nedenstående eksempel, hvor vi har fundet kvintilerne for et ordnet datasæt bestående af vægtene for 20 amerikanske bamser (målt i den amerikanske vægtenhed pund, dvs. lb): Nulte kvintil Første kvintil Anden kvintil Tredje kvintil Fjerde kvintil Femte kvintil Vilde bjørne enhed 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Vægt pounds 65 lb 70 lb 74 lb 80 lb 108 lb 121 lb 142 lb 166 lb 220 lb 262 lb 334 lb 344 lb 348 lb 360 lb 371 lb 386 lb 416 lb 432 lb 476 lb 478 lb Ingen data Slip en variabel her 80 lb R1 = ( + 108lb) 2 R2 = ( 166lb + 220lb) 2 R3 = ( 344lb + 348lb) 2 R4 = ( 386lb + 416lb) 2 Vilde bjørne 65 lb 94 lb 193 lb 346 lb 401 lb 478 lb R1 = fraktil ( 0; Vægt) R2 = fraktil ( 20; Vægt) R3 = fraktil ( 40; Vægt) R4 = fraktil ( 60; Vægt) R5 = fraktil ( 80; Vægt) R6 = fraktil ( 100; Vægt) 94 lb 193 lb 346 lb 401 lb Datasættet/titlen er trukket ind i beregningsboksen for at give adgang til variablen vægt. 23

1.3 Beskrivende statistik: Fraktiler Vilde bjørne Prikdiagram 0 100 200 300 400 500 Vægt (pounds) fraktil ( 20; Vægt) = 94 lb fraktil ( 40; Vægt) = 193 lb fraktil ( 60; Vægt) = 346 lb fraktil ( 80; Vægt) = 401 lb Men hvad gør vi så, hvis 5 ikke går op i antallet af observationer? Hvordan skal vi så håndtere resterne, dvs. hvordan definerer vi fraktiler helt generelt? 5 Nu bliver det lidt mere indviklet og det er nemmest at forklare opdelingen i fraktiler i almindelighed. Vi tænker os igen at vi har et datasæt med 20 observationer. Vi deler da intervallet fra 0 til 100% i 20 lige store dele, der altså hver omfatter 5% (se opdelingen af den lodrette akse i figuren). I hvert af de 20 intervaller knytter vi da midtpunkterne til de 20 observationer, dvs. den mindste observation knyttes til 2½%, den næstmindste til 7½% osv. Vi siger derfor at 2½%-fraktilen for datasættet er den mindste observation x (1), 7½%-fraktilen er den næstmindste observation x (2) osv. 5 Der findes forskellige definitioner af fraktiler. Fx benytter Excel en anden definition end DataMeter, ligesom der findes forskellige varianter i undervisningslitteraturen. Det er noget man må være opmærksom på, når man sammenligner resultater opnået med forskellige programmer eller stammende fra forskellige kilder. 24

1.3 Beskrivende statistik: Fraktiler Fraktiler tildeles nu enten en observation eller gennemsnittet af to naboobservationer i det ordnede datasæt efter følgende regel: Hvis brøkdelen (omregnet til procent) ligger inde i et af de 20 delintervaller knyttes den til den observation, der hører til delintervallet. Hvis brøkdelen (omregnet til procent) netop ligger på grænsen mellem to delintervaller knyttes den til gennemsnittet af de to tilhørende observationer. Fx ligger 4% i det første delinterval og derfor er 4%-fraktilen netop knyttet til den mindste observation x (1). Tilsvarende ligger 10% på grænsen mellem det andet delinterval (fra 5% til 10%) og det tredje delinterval (fra 10% til 15%) og derfor er 10% fraktilen netop gennemsnittet mellem den anden og den tredje observation ordnet efter størrelse, dvs. ( x (2) + x (3) )/ 2. På den måde bevarer vi både symmetrien og det grundlæggende princip at en fraktil så vidt muligt skal svare til én bestemt observation (på samme måde som ved median og kvartil). De fraktiler, der kommer til at spille den største rolle for os i den videregående bekræftende statistik er 2½%-fraktilen og 97½%- fraktilen. De udregnes for datasæt der typisk består af 1000 målinger, dvs. 2½%-fraktilen skiller de første 25 målinger fra de resterende 975 målinger, ligesom 97½%-fraktilen skiller de sidste 25 målinger fra de 975 første målinger. Når først datasættet er ordnet er det altså ikke svært at aflæse 2½%-fraktilen og 97.5%-fraktilen i en tabel. Her ses et eksempel på fordelingen af 1000 simulerede målinger af forskellen mellem kondital for piger og drenge i 1g: Simuleret YO-YO test Prikdiagram -10-8 -6-4 -2 0 2 4 6 8 10 middelforskel fraktil ( 2.5; middelforskel) = -6.70769 fraktil ( 97.5; middelforskel) = 6.43357 25

1.3 Beskrivende statistik: Fraktiler 2.5%- fraktilen Simuleret YO-YO test middelforskel 1-9.23357 2-8.94825 3-8.62937 4-8.39441 5-8.29371 6-8.02517 7-7.85734 8-7.73986 9-7.60559 10-7.55524 11-7.47133 12-7.42098 13-7.33706 14-7.25315 15-7.25315 16-7.21958 17-7.2028 18-7.16923 19-7.11888 20-7.1021 21-7.06853 22-6.88392 23-6.83357 24-6.83357 25-6.74965 26-6.66573 27-6.61538 28-6.46434 29-6.34685 30-6.34685 Simuleret YO-YO test middelforskel 971 6.19021 972 6.22378 973 6.32448 974 6.34126 975 6.40839 976 6.45874 977 6.47552 978 6.49231 979 6.52587 980 6.55944 981 6.57622 982 6.59301 983 6.71049 984 6.77762 985 6.79441 986 6.79441 987 6.81119 988 6.86154 989 7.02937 990 7.11329 991 7.46573 992 7.53287 993 7.71748 994 7.8014 995 8.1035 996 8.12028 997 8.25455 998 8.52308 999 9.41259 1000 9.93287 97.5%- fraktilen Simuleret YO-YO test Simuleret YO-YO test -6.7076923 6.4335664 R1 = middel ( middelforskel; ( ( indeks = 25) eller ( indeks = 26) ) ) R2 = middel ( middelforskel; ( ( indeks = 975) eller ( indeks = 976) ) ) -6.7076923 6.4335664 R1 = fraktil ( 2.5; middelforskel) R2 = fraktil ( 97.5; middelforskel) I praksis er det selvfølgelig lidt kluntet selv at skulle beregne fraktiler, så heldigvis findes der som vist en kommando, fraktil(), der kan finde dem for os helt automatisk: fraktil(procenttal; variabel) Skal vi finde 2½%-fraktilen benytter vi derfor som vist kommandoen fraktil(2.5; variabel). Bemærkning: Da 2.5% går 40 gange op i 100% svarer 2.5% og 97.5%-fraktilen til at vi opdeler datasættet i 40 lige store dele (dvs. i det ovennævnte tilfælde med n = 1000 opdeles datasættet i klumper af 25) og de to yderste dele afgrænses da netop af 2.5%-fraktilen og 97.5%-fraktilen. De udgør i en vis forstand de yderste 'sjældne' observationer, der ligger 'langt' fra den centrale klump. 26

1.3 Beskrivende statistik: Fraktiler Fraktilplot Som vi har set er der til enhver observation knyttet en fraktilværdi, nemlig den procentdel, der svarer til midtpunktet for det til observationen hørende interval. Hvis der er n observationer svarer det til procentallene 1 3 5 2n 1 100, 100, 100,..., 100 2n 2n 2n 2n 2 indeks 1 der kan sammenfattes i formlen 100. 2 tæl( variabel) Vi kan derfor konstruere en graf, det såkaldte fraktilplot, med den ønskede variabel fra datasættet som den uafhængige variabel og fraktilværdien (procenttallet) som den afhængige variabel Vilde bjørne Vægt Fraktil enhed pounds 2 indeks 1 = 100 2 tæl ( Vægt) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 65 lb 2.5 70 lb 7.5 74 lb 12.5 80 lb 17.5 108 lb 22.5 121 lb 27.5 142 lb 32.5 166 lb 37.5 220 lb 42.5 262 lb 47.5 334 lb 52.5 344 lb 57.5 348 lb 62.5 360 lb 67.5 371 lb 72.5 386 lb 77.5 416 lb 82.5 432 lb 87.5 476 lb 92.5 478 lb 97.5 Læg også mærke til hvor meget fraktilplottet ligner linjeplottet for den ordnede variabel vægt, idet det denne gang blot er variablen indeks, der er afsat op af andenaksen. Til alt held er fraktilplottet indbygget som en selvstændig graftype, så vi skal heldigvis ikke selv bygge fraktilværdierne op! Vilde bjørne 100 Men nu ved vi altså hvor fraktilplottet kommer fra. 80 60 40 20 XY-plot 0 0 100 200 300 400 500 Vægt (pounds) Vilde bjørne Fraktilplot 100 80 60 40 20 0 0 100 200 300 400 500 Vægt (pounds) Vilde bjørne Linjeplot 22 20 18 16 14 12 10 8 6 4 2 0 0 50 100 150 200 250 300 350 400 450 500 Vægt (pounds) 27

1.3 Beskrivende statistik: Fraktiler Fraktilplot giver en anden måde at fremstille data på grafisk som supplement til de tidligere plottyper: Prikdiagram, boksplot og histogram. Men informationen er selvfølgelig i en vis forstand den samme. Men ser især efter tre ting i forbindelse med et fraktilplot 1. Vi kan nemt aflæse medianer, kvartiler og andre fraktiler på fraktilplottet, idet vi går vandret ind ved den ønskede fraktilprocent og ser hvilken observation, vi rammer. Hvis vi rammer imellem to observationer vælges den nærmeste med mindre vi rammer lige midt i mellem de to observationer, for så vælger vi gennemsnittet. Her følger fx en aflæsning af median og kvartiler 2. Vi kan se hvor tætheden er størst, idet hældningen er størst, hvor afstanden mellem observationerne er mindst. I den ovenstående fordeling er fx to stejle partier: Lige i starten og lige efter medianen, hvilket i histogrammet viser sig som to toppe. Fordelingen er altså tydeligt to-puklet (bimodal). 3. Vi kan visuelt checke om en fordeling er jævn (ligefordelt), for i så fald følger fraktilplottet netop en ret linje. Det er fx tydeligvis ikke tilfældet i det ovenstående tilfælde, hvor fraktilplottet har to tydelige bugter. 28

1.4 Grupperede observationer Gruppering af data: Hyppigheder og frekvenser Når vi indsamler data, så er de indsamlede data, de rå data, den kilde som vi senere kan udvinde alle informationerne fra. De rå data udgør statistikkens hellige gral (på samme måde som de eksperimentelle data i naturvidenskaberne) og vi bør altid så vidt muligt arbejde direkte med de rå data, fordi de kan vendes og drejes og dermed ses fra alle synsvinkler, hvorved vi i et rigt datasæt kan blive ved med at gå på opdagelse og opdage nye sammenhænge. Men når man præsenterer sine konklusioner vil man ofte forenkle situationen og kun vise de forarbejdede data, der umiddelbart understøtter ens konklusioner. Typisk vil man gruppere data, dvs. slå dem samme i et mindre antal grupper, hvor man så ikke længere skelner mellem de individuelle data. Det kan være i form af et boksplot, hvor datasættet deles i fire lige store grupper efter størrelse, eller det kan være i form af et histogram, hvor man har valgt en passende intervalinddeling for at fremhæve nogle typiske træk ved fordelingen. Når man på denne måde grupperer sine data mister man altså information: De forarbejdede data repræsenterer halvfabrikata. Hvis vi kun har adgang til de grupperede data kan vi derfor ikke længere drage præcise konklusioner, men må nøjes med tilforladelige skøn. Vi kan sammenligne det med tilberedning af mad: Hvis vi har alle råvarerne til rådighed kan vi lave alle mulige varianter af retter, men hvis råvarerne først er hældt sammen i en stor gryde og kogt sammen til en grød er der ikke så meget mere at stille op, selvom der selvfølgelig stadigvæk kan tilføjes forskellige krydderier. Alligevel er det vigtigt at have kendskab til de vigtigste metoder til at trække informationer ud af grupperede data, da det ofte er på den form vi vil møde data i andres undersøgelser, når de fremlægges i fx avisartikler, og kun ved at kende til sådanne teknikker vil vi kunne forholde os kritisk til de påstande, der er knyttet til undersøgelsen. I det følgende afsnit ser vi derfor på i hvor høj grad det stadigvæk i forbindelse med grupperede data er muligt at skønne troværdigt over størrelsen af medianer, kvartiler, middelværdier osv., ligesom vi ser nærmere på hvilke graftyper vi kan tilnærme med grupperede data. Centralt for de grupperede data står hyppighedstabellerne, hvor observationerne er inddelt i passende intervaller, hvorefter man har talt op hvor mange observationer der falder i de enkelte observationsintervaller. Det er på basis af disse hyppighedstabeller vi skal forsøge at uddrage troværdige informationer. Da vi ikke kender de individuelle data i de enkelte intervaller gør vi nu følgende antagelse Grundantagelsen for grupperede data De individuelle data i et givet observationsinterval antages at være tilfældigt fordelt i intervallet og derfor ligge jævnt fordelt indenfor intervallets grænser. 29

1.4 Beskrivende statistik: Grupperede observationer Det behøver selvfølgelig ikke være tilfældet i virkeligheden, men hvis ellers data er udvalgt rimeligt tilfældigt er det ret usandsynligt, hvis de fx systematisk alle ligger i den venstre halvdel af intervallet. I praksis opgiver man typisk frekvenser 6 i stedet for hyppigheder, idet frekvensen angiver hvor stor en procentdel af observationerne der falder indenfor et bestemt observationsinterval Hyppighed Frekvens = 100%. Samlet antal Læg mærke til at når vi arbejder med frekvenstabeller kender vi ikke nødvendigvis det samlede antal observationer. Søjlediagram som erstatning for histogram Eksempel: Danskernes kondital 1995 Følgende tabel viser fordelingen af kondital hos danskerne i 1995: Kondital 0-15 15-20 20-25 25-30 30-35 35-40 40-60 Frekvens 2,5% 8,2% 22,0% 8,9% 23,3% 7,6% 7,5% For at kunne arbejde med de ovenstående oplysninger indtastes de i en tabel. Læg mærke til at når vi indtaster et interval som 0-15 opfattes det som en tekst. Det regnes ikke ud som en differens. Konditallet opfattes altså umiddelbart som en kategoriseret variabel Kondital 1995 Kondital enhed 1 2 3 4 5 6 7 Frekvens procent 0-15 2.5 procent 15-20 8.2 procent 20-25 22.0 procent 25-30 28.9 procent 30-35 23.3 procent 35-40 7.6 procent 40-60 7.5 procent Kondital 1995 Prikdiagram 30 25 20 15 10 5 0 0-15 15-20 20-25 25-30 30-35 35-40 40-60 Kondital Vi forsøger os nu først som vist med en graf, hvor vi afsætter Kondital som den uafhængige variabel og Frekvens som den afhængige variabel. Resultatet er et prikdiagram, der giver en vis fornemmelse for fordelingen, men da den uafhængige variabel Kondital er en kategoriseret variabel er der i virkeligheden tale om en serie af prikdiagrammer: én for hver kategori. Det kan vi se tydeligt, hvis vi forsøger at skifte til graftypen histogram. Vi kan stadigvæk godt få en fornemmelse af fordelingen, men der er tydeligvis kun tale om et interval med hyppigheden 1 svarende til hver kategori 6 På engelsk betyder ordet 'frequency' desværre 'hyppighed', mens ordet 'frekvens' oversættes med 'relative frequency'. 30