IDRÆTSSTATISTIK BIND 1



Relaterede dokumenter
Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Indblik i statistik - for samfundsvidenskab

4 Oversigt over kapitel 4

Kvantitative Metoder 1 - Forår Dagens program

IDRÆTSSTATISTIK BIND 2

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Schweynoch, Se eventuelt

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Deskriptiv statistik for hf-matc

Elementær sandsynlighedsregning

Statistiske modeller

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Deskriptiv statistik for matc i stx og hf

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Preben Blæsild og Jens Ledet Jensen

Løsninger til kapitel 1

Statistik i løb Supplerende opgaver

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Elementær sandsynlighedsregning

Kapitel 12 Variansanalyse

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

for gymnasiet og hf 2017 Karsten Juul

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik og Sandsynlighedsregning 2

for gymnasiet og hf 2016 Karsten Juul

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Kapitel 12 Variansanalyse

Antal timer Køn k m k m m k m k m k k k m k k k

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Konfidensintervaller og Hypotesetest

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Fagplan for statistik, efteråret 2015

Normalfordelingen og Stikprøvefordelinger

statistik statistik viden fra data statistik viden fra data Jens Ledet Jensen Aarhus Universitetsforlag Aarhus Universitetsforlag

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Kapitel 7 Forskelle mellem centraltendenser

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Aarhus Universitet 5. februar Meddelelse 2

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Vektorer og lineær regression

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Vektorer og lineær regression. Peter Harremoës Niels Brock

Modelkontrol i Faktor Modeller

Kvantitative Metoder 1 - Forår 2007

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

Produkt og marked - matematiske og statistiske metoder

Definition. Definitioner

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Introduktion til sandsynlighedsregning

Kvantitative Metoder 1 - Efterår Dagens program

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Undervisningsbeskrivelse

Statistik viden eller tilfældighed

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Kapitel 3 Centraltendens og spredning

brikkerne til regning & matematik statistik preben bernitt

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Kvantitative Metoder 1 - Forår Dagens program

Statistik II 4. Lektion. Logistisk regression

Undervisningsbeskrivelse

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Kvantitative Metoder 1 - Forår Dagens program

Løsning til eksamen d.27 Maj 2010

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Kvantitative Metoder 1 - Forår Dagens program

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Uge 10 Teoretisk Statistik 1. marts 2004

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kvantitative Metoder 1 - Efterår Dagens program

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Transkript:

IDRÆTSSTATISTIK BIND 1

ii Det Naturvidenskabelige Fakultet Aarhus Universitet Reprocenter Preben Blæsild og Jørgen Granfeldt 2001 ISBN 87-87436-05-1 Bd.1

iii Forord Denne bog er skrevet til brug i et statistikkursus for bachelorstuderende ved Center for Idræt, Aarhus Universitet. Bag bogen ligger samme holdninger både til statistisk analyse og til begynderundervisning i statistik, der primært retter sig mod brugere, som i Blæsild og Granfeldt (2000) Statistik for biologer og geologer. Et vigtigt holdepunkt i statistisk analyse er modelbegrebet. Man vælger en statistisk model, som kan belyse den faglige problemstilling. Det vil sige, at parametrene i modellen kan fortolkes i den faglige problemstilling, og at interessante faglige hypoteser svarer til restriktioner på parametrene. En faglig hypotese afprøves ved at undersøge (teste), om man kan acceptere en reduktion af modellen til en ny model, som er enklere ved at have færre parametre. Gør man sig det klart, kan man hurtigt lære at analysere temmelig komplicerede problemstillinger korrekt. Ydermere bliver analysen til at følge også for folk, som hverken er specialister på det faglige område eller er professionelle statistikere. Et tidsvarende brugerkursus i statistik må benytte EDB og en statistisk programpakke. Ved dette kursus er valgt regnearket Excel og den statistik pakke der under navnet Dataanalyse optræder som et tilføjelsesprogram til Excel, men der er ikke benyttet faciliteter, som er specielle for denne statistik pakke, og bogen kan uden vanskelighed anvendes sammen med andre statistiske programpakker. Argumentet for at benytte Excel er, at regnearket er tilgængeligt på de fleste PC-er imodsætning til mere kostbare og specialiserede statistiske programpakker såsom for eksempel SAS, Genstat og BMDP. Disse programpakker er designet specielt til brug i forbindelse med statistisk analyse og kan derfor udføre beregningerne i meget mere avancerede statistiske modeller end regnearket Excel kan. Disse noter demonsterer forhåbenligt at i forbindelse med et elementært kursus i statistik er Excel et brugbart alternativ. Når man bruger statistiske programpakker i undervisningen bliver modellerne, som beskrevet ovenfor, det faste holdepunkt når man skal orientere sig i udskrifterne. Man kan bruge en programpakke til statistisk analyse, når man har lært dels at specificere modeller i programpakken og dels at teste reduktionen fra én model til en simplere ved at hente relevante oplysninger ud fra udskrifterne fra estimationen i de to modeller.

iv Kun få kan lære statistik uden at få metoderne ind gennem fingrene. Vi har derfor valgt både at præsentere, hvordan de enkleste modeller kan regnes på lommeregner, og hvordan de kan regnes ved at orientere sig i udskrifter fra en programpakke. For normalfordelte data vises både for én, to og k observationsrækker, samt én regressionslinje, hvordan modellerne regnes igennem på lommegner, mens en mere kompliceret model som tosidet variansanalyse kun skal kunne klares med henvisning til programudskrifter. Et statistikkursus for studerende, der ikke har et vist kendskab til de mest basale begreber i sandsynlighedsteorien, fremstår for os som en umulighed. I Kapitel 2 introduceres og/eller repeteres disse begreber, der illustreres ved en række eksempler, som er valgt ud fra det princip, at de matematisk skulle være lette at håndtere. Kapitel 3 er at betragte som et katalog vedrørende definition af og egenskaber ved de fordelinger som anvendes i forbindelse med de statistiske modeller i de senere kapitler. Kaptitel 2 gennemgås efter diskussionen i Kapitel 1 af grafiske og numeriske metoder i forbindelse med beskrivende statistik. Herefter fortsættes med modellerne for normalfordelte data i Kapitel 4 idet de hertil relaterede fordelinger fra Kapitel 3 omtales undervejs. Efter adskillige eksempler på statistisk analyse i forbindelse med normalfordelingen i Kapitel 4 diskuteres hovedtrækkene i en analyse af en parametrisk statistisk model i generelle termer i Kapitel 5. Derefter gennemgås Kapitel 6 om multinomialfordelte data og Kapitel 7 om Poissonfordelte data. Bogen slutter med omtale af nogle simple ikke-parametriske test i Kapitel 8. Som nævnt ovenfor foretrækker vi at betragte parametriske statistiske modeller. Formålet med Kapitel 8 er at orientere læserne om at ikke alle deler denne holdning og for at give et kort indblik i de alternative metoder. Det vil være muligt at læse kapitlerne i en anden rækkefølge, men man skal være opmærksom på, at de statistiske grundbegreber som nulhypotese, test, testsandsynlighed, signifikansniveau og så videre gennemgås i forbindelse med Afsnit 4.2. Uden dataeksempler, som udspringer af en faglig problemstilling, bliver en lærebog til et brugerkursus i statistik temmelig uinteressant. En del af eksemplerne er taget fra Andersen (1998) Statistik for Idrætsstuderende med forfatterens tilladelse, hvilket vi er taknemmelige for. Vi vil også gerne takke medarbejdere og studerende ved Center for Idræt, Aarhus Universitet og ved Institut for Idræt, Københavns Universitet, som har stillet data og deres historie til rådighed for bogens eksempler og opgaver. Bogen er blevet brugt ved Idrætsstatistik i efteråret 2000 og bygger på erfaringer fra et lignede kursus i efteråret 1999 og en særlig tak går til Jakob Krabbe Pedersen og Lars Bo Kristensen for deres store indstats som instruktorer på disse to kurser og for deres påvisning af trykfejl. Bogen er skrevet LATEX, og Jacob Goldbach har skrevet de stylefiler i LATEX, som definerer

v udseendet af bogen, men derudover har Jacob Goldbach tålmodigt besvaret utallige spørgsmål om LATEX ligesom Frank Allan Hansen, Niels Væver Hartvig og Michael Kjærgård Sørensen velvilligt har assisteret os. I forhold til versionen af bogen fra maj 2001 er der rettet en del trykfejl og nogle få figurer er blevet tilføjet. Vi vil gerne takke Lars Madsen for meget kompetent bistand med LATEX spørgsmål i forbindelse med revisionen og Michael Kjærgård Sørensen for at have produceret de nye figurer. Århus, august 2005 Preben Blæsild og Jørgen Granfeldt

vi

INDHOLD vii Indhold 1 Data og beskrivende statistik 1.1 1.1 Prik- og pindediagrammer............................ 1.4 1.2 Histogrammer................................... 1.5 1.3 Empiriske størrelser................................ 1.7 1.4 Grupperede data.................................. 1.18 1.5 Kvalitative data.................................. 1.23 1.6 Flerdimensionale data............................... 1.27 Anneks til Kapitel 1................................... 1.31 Opgaver til Kapitel 1.................................. 1.41 2 Begreber fra sandsynlighedsteorien 2.1 2.1 Sandsynlighedsrum................................ 2.1 2.1.1 Definition af sandsynlighedsmål..................... 2.1 2.1.2 Regneregler for sandsynligheder.................... 2.3 2.1.3 Betingede sandsynligheder og uafhængighed.............. 2.6 2.2 Stokastiske variable................................ 2.9 2.2.1 Diskrete stokastiske variable....................... 2.12 2.2.2 Kontinuerte stokastiske variable..................... 2.16 2.3 Stokastiske vektorer................................ 2.19 2.3.1 Diskrete stokastiske vektorer....................... 2.19 2.3.2 Kontinuerte stokastiske vektorer..................... 2.20 2.3.3 Marginale fordelinger.......................... 2.22 2.3.4 Uafhængighed.............................. 2.24 2.3.5 Betingede fordelinger........................... 2.25 2.4 Middelværdi og varians.............................. 2.26 Opgaver til Kapitel 2.................................. 2.32

viii INDHOLD 3 Specielle fordelinger 3.1 3.1 Normalfordelingen og relaterede fordelinger................... 3.1 3.1.1 Normalfordelingen............................ 3.1 3.1.2 Den todimensionale normalfordeling.................. 3.4 3.1.3 χ 2 -fordelingen.............................. 3.5 3.1.4 t-fordelingen............................... 3.8 3.1.5 F-fordelingen............................... 3.10 3.2 Diskrete fordelinger................................ 3.12 3.2.1 Binomialfordelingen........................... 3.12 3.2.2 Multinomialfordelingen......................... 3.15 3.2.3 Poissonfordelingen............................ 3.16 3.2.4 Den hypergeometriske fordeling..................... 3.17 3.2.5 Den negative binomialfordeling..................... 3.19 Opgaver til Kapitel 3.................................. 3.22 4 Normalfordelte data 4.1 4.1 Fraktilsammenligning............................... 4.2 4.1.1 Ugrupperede observationer........................ 4.2 4.1.2 Grupperede data............................. 4.7 4.1.3 Transformation.............................. 4.8 Anneks til Afsnit 4.1.................................. 4.10 4.2 Én observationsrække med kendt varians..................... 4.13 Anneks til Afsnit 4.2.................................. 4.19 Hovedpunkter til Afsnit 4.2............................... 4.20 4.3 Én observationsrække med ukendt varians.................... 4.21 Anneks til Afsnit 4.3.................................. 4.28 Hovedpunkter til Afsnit 4.3............................... 4.30 4.4 To observationsrækker.............................. 4.32 4.4.1 Test for varianshomogenitet....................... 4.35 4.4.2 Ens varians................................ 4.38 4.4.3 Forskellig varians............................. 4.42 4.4.4 Parrede observationer........................... 4.45 Anneks til Afsnit 4.4.................................. 4.50 Hovedpunkter til Afsnit 4.4............................... 4.55 4.5 k observationsrækker............................... 4.59 4.5.1 Test for varianshomogenitet....................... 4.61

INDHOLD ix 4.5.2 Test for ens middelværdier........................ 4.64 4.5.3 Forskelle og ligheder i behandlingen af to og k observationsrækker... 4.68 4.5.4 Notation og test i forbindelse med en følge af modeller......... 4.69 Anneks til Afsnit 4.5.................................. 4.70 Hovedpunkter til Afsnit 4.5............................... 4.73 4.6 Lineær regression................................. 4.76 4.6.1 Lineær regression uden gentagelser................... 4.76 4.6.2 Lineær regression med gentagelser.................... 4.83 4.6.3 Hypoteser om regressionsparametrene.................. 4.90 4.6.4 Korrelation og/eller regression...................... 4.94 Anneks til Afsnit 4.6.................................. 4.101 Hovedpunkter til Afsnit 4.6............................... 4.106 4.7 Tosidet variansanalyse.............................. 4.111 Anneks til Afsnit 4.7.................................. 4.135 Hovedpunkter til Afsnit 4.7............................... 4.137 Opgaver til Kapitel 4.................................. 4.142 Indeks I.1 5 Statistisk analyse 5.1 5.1 Data........................................ 5.2 5.2 Modelopstilling.................................. 5.2 5.3 Modelkontrol................................... 5.4 5.4 Statistisk inferens................................. 5.5 5.5 Likelihood inferens................................ 5.7 5.6 Begreber fra generel testteori........................... 5.14 5.7 Approksimativ likelihood teori.......................... 5.17 5.8 Afsluttende bemærkninger............................ 5.22 Opgaver til Kapitel 5.................................. 5.23 6 Multinomialfordelte data 6.1 6.1 Eksempler..................................... 6.2 6.2 Inferens i én multinomialfordeling......................... 6.4 6.2.1 Test af simpel hypotese.......................... 6.10 6.2.2 Uafhængighed af inddelingskriterier................... 6.11 6.3 Inferens i flere multinomialfordelinger...................... 6.15

x INDHOLD 6.3.1 Homogenitet af flere multinomialfordelinger.............. 6.15 6.4 Fishers eksakte test................................ 6.19 6.5 Test for goodness of fit.............................. 6.24 Anneks til Kapitel 6................................... 6.28 Hovedpunkter til Kapitel 6............................... 6.31 Opgaver til Kapitel 6.................................. 6.35 7 Poissonfordelte data 7.1 7.1 Eksempler..................................... 7.2 7.2 Sandsynlighedsteoretiske resultater vedrørende Poissonfordelingen....... 7.3 7.3 Én observationsrække............................... 7.7 7.4 Inferens i flere fordelinger............................ 7.11 7.4.1 Poissonmodellen med proportionale parametre............. 7.12 7.4.2 Den multiplikative Poissonmodel.................... 7.18 Anneks til Kapitel 7................................... 7.29 Hovedpunkter til Kapitel 7............................... 7.33 Opgaver til Kapitel 7.................................. 7.39 8 Ikke-parametriske test 8.1 8.1 Fortegnstestet................................... 8.2 8.2 Rangtest...................................... 8.4 8.2.1 Wilcoxons test for én observationsrække................ 8.5 8.2.2 Wilcoxons test for to observationsrækker................ 8.7 8.2.3 Kruskal-Wallis test............................ 8.11 Anneks til Kapitel 8................................... 8.15 Hovedpunkter til Kapitel 8............................... 8.18 Opgaver til Kapitel 8.................................. 8.21 A Forskellige matematiske begreber A.1 A.1 Notation fra mængdelæren............................ A.1 A.2 Rækker...................................... A.3 A.3 Dobbeltintegraler og partiel differentiation.................... A.4 A.3.1 Dobbeltintegraler............................. A.5 A.3.2 Partiel differentiation........................... A.5 B Simulerede fraktildiagrammer B.1

INDHOLD xi C Matematiske symboler C.1 D Det græske alfabet D.1 Indeks I.1

xii INDHOLD

1 Data og beskrivende statistik 1.1 1 Data og beskrivende statistik Udgangspunktet for en statistisk analyse er et datasæt x, der er resultatet af et eksperiment, udført med det formål at få indblik i en speciel faglig sammenhæng. Betegnelsen eksperiment skal her forstås i en bred forstand. Data fra idræt kan eksempelvis være bestemmelser af kondital, hæmaglobinindhold, hæmatokritværdier eller andre fysiologiske størrelser hos en gruppe af personer. Ofte foretages disse målinger på den samme gruppe personer til forskellige tidspunkter for at vurdere effekten på disse størrelser af træning, konkurrence eller andre påvirkninger. Data kan også være resultater af konkurrencer eller turneringer indsamlet med henblik på at sammenligne personers eller holds præstationer. Karakteristisk for et datasæt x i et eksperiment er, at det er stokastisk; det vil sige, at hvis man gentager eksperimentet eller målingerne under lignende omstændigheder, bliver resultatet ikke nødvendigvis x. Dette er i modsætning til en deterministisk situation, hvor udfald på forhånd kan bestemmes med sikkerhed. Men selv om udfaldene af eksperimentet ikke kan angives på forhånd er der ofte en regelmæssighed på et højere niveau, som man netop kan erkende, hvis forsøget gentages mange gange. En byggesten i beskrivelsen af et eksperiment er derfor en sandsynlighedsteoretisk model. De relevante begreber fra sandsynlighedsteorien er resumeret i Kapitel 2. Her nævner vi blot, at en sandsynlighedsteoretisk model består af tre komponenter: 1) udfaldsrummet, X, som er samtlige værdier (udfald), som eksperimentet kan få; 2) hændelsessystemet, F, som omfatter alle de hændelser vi vil betragte; og 3) sandsynlighedsmålet, P, som angiver sandsynligheden af alle hændelser i F. Det stokastiske element i et eksperiment beskrives af hændelsessystemet og sandsynlighedsmålet, som beskriver alle hændelser vi er interesserede i og deres sandsynligheder. Vi beskriver ofte det stokastiske ved et datasæt ved at opfatte data x som en udfald af en stokastisk vektor X hvis fordeling er bestemt af sandsynlighedsmålet P. Det første punkt i en statistisk analyse er at opstille en brugbar statistisk model for det aktuelle datasæt, hvilket undertiden kan være en besværlig opgave. Dette punkt er ofte det vanskeligste i en statistisk analyse. Mange faktorer spiller ind, når en model for data skal opstilles, for eksempel måden data er indsamlet på, information om den faglige problemstilling data skal

1.2 belyse, erfaringer - personlige eller erhvervet ved litteraturstudier - fra analyser af lignende problemer. Statistikeren benytter sig ved modelformuleringen af information, som stammer fra forskellige sammenfatninger af data, såsom tabelleringer og/eller grafiske repræsentationer af data. Ved modelopstillingen skal man tage højde for, at den statistiske model skal være tilstrækkelig simpel fra et matematisk synspunkt, således at den er til at håndtere, og samtidig tilstrækkelig struktureret til at give relevant information om den faglige problemstilling, som undersøges. Endelig skal modellen naturligvis give en rimelig god beskrivelse af data for at kunne anvendes i den videre analyse. Som det vil fremgå af de kommende kapitler, er grafiske undersøgelser relevante på så at sige alle stadier af en statistisk analyse. I dette kapitel diskuterer vi forskellige numeriske og grafiske procedurer, der er relevante i den indledende fase af en statistisk analyse, hvor man skaffer sig overblik over data. Disse procedurer er en del af det, der omtales som beskrivende eller deskriptiv statistik. Vi vil udelukkende betragte data, som enten er kvalitative eller kvantitative, det vil sige data, der fremkommer enten ved at tælle eller ved at måle. For sådanne datasæt består de relevante fordelingsklasser af henholdsvis diskrete fordelinger og kontinuerte fordelinger, se Kapitel 2. Vi skelner desuden mellem grupperede data og ugrupperede data. Hvis et datasæt består af n observationer, og hvis værdierne x 1,x 2,...,x n af alle n observationer kendes, siges datasættet at være ugrupperet. Undertiden er udfaldsrummet X for observationerne opdelt i m disjunkte mængder A 1,...,A m og i stedet for at angive de n observationer x 1,x 2,...,x n angiver man kun a 1,a 2,...,a m, hvor a j betegner antallet af observationer der tilhører A j, j = 1,2,...,m. I så tilfælde omtales a 1,a 2,...,a m som et grupperet datasæt. Delmængderne A j, j = 1,2,...,m, vælges sædvanligvis som intervaller på den reelle akse. En stor del af kapitlet beskæftiger sig med modeller for én observationsrække. Ved én observationsrække på n observationer forstår vi n uafhængige observationer x 1,x 2,...,x n fra den samme fordeling. Undertiden bruger man i stedet for sprogbrugen en stikprøve af størrelse n. Vi giver nogle simple numeriske og grafiske metoder, som opsummerer data og som giver nogle indikationer vedrørende formen af den fælles fordeling af observationerne. I Afsnit 1.1 betragter vi prikdiagrammer og pindediagrammer og Afsnit 1.2 og Afsnit 1.3 vedrører ugrupperede kvantitative data. I Afsnit 1.2 diskuteres histogrammer og i Afsnit 1.3 indføres forskellige numeriske størrelser, der bruges til at beskrive den observerede fordeling. Afsnit 1.4 vedrører grupperede kvantitative data mens kvalitative data omtales i Afsnit 1.5. Endelig indeholder Afsnit 1.6 nogle få bemærkninger om flerdimensionale data. I et anneks til kapitlet gøres der rede for hvorledes udvalgte beregninger og tegninger kan laves ved hjælp af Excel. Til sidst i kapitlet er der en lille samling af opgaver.

1 Data og beskrivende statistik 1.3 I kapitlet betragter vi blandt andet de 3 nedenstående eksempler. Eksempel 1.1 De følgende data stammer fra en undersøgelse fra Odense amt af børn, der lider af astma. Undersøgelsen er foretaget af professor Bent Juhl, Aarhus Kommunehospital, i perioden 1. december 1968 til 3. marts 1969. Der blev foretaget 14 forskellige målinger på hvert barn og blandt disse var målinger af højden. Blandt børnene var der 247 piger, der på undersøgelsestidspunktet var mellem 10 og 12 år. Målingerne af højden (i cm) af disse piger er angivet i Tabel 1.1. Højden er en kvantitativ - kontinuert - variabel og datasættet er ugrupperet, fordi højden blev målt og angivet i cm. Bemærk imidlertid, at hvis højderne oprindeligt var blevet målt i mm og - som her - angivet i cm ville datasættet være grupperet. 139 128 139 125 132 137 146 129 146 150 141 161 143 131 128 134 132 136 137 137 129 140 140 143 148 148 149 132 144 147 137 142 127 127 126 135 136 144 130 132 141 126 135 129 132 130 139 139 134 132 134 127 138 134 127 133 134 126 140 133 142 130 143 140 140 143 150 144 144 128 135 131 135 138 131 135 148 134 132 137 113 150 155 155 155 161 142 142 146 140 141 146 140 139 137 146 142 130 145 149 156 149 155 152 144 139 157 144 149 161 150 144 141 138 140 141 141 147 142 146 156 140 144 145 137 126 134 144 159 134 134 144 130 126 131 130 133 125 122 145 140 132 139 139 128 146 137 139 138 145 133 139 133 139 151 150 138 142 151 140 142 144 136 139 135 141 132 139 140 144 142 127 147 151 141 138 142 147 153 148 144 138 139 124 127 122 123 133 133 136 134 140 137 132 133 132 128 128 136 122 122 123 123 128 145 152 152 156 149 160 148 149 159 145 156 149 153 154 144 153 144 134 140 135 149 136 145 143 139 143 138 137 140 137 144 147 151 166 147 144 159 156 147 154 150 162 159 Tabel 1.1 Højden (i cm) af 247 astmaplagede piger i alderen 10-12 år. Eksempel 1.2 Tabel 1.2 viser konditallene for 20 eliteidrætsudøvere. Tallene er fra Andersen (1998). Datasæt-

1.4 1.1 Prik- og pindediagrammer tet er ugrupperet og konditallet er en kvantitativ - kontinuert - variabel. 68.9 75.2 74.3 72.9 72.0 63.9 76.3 76.3 75.4 66.0 68.4 64.1 73.1 64.9 73.4 76.2 79.4 69.4 79.8 72.1 Tabel 1.2 Kondital for 20 eliteidrætsudøvere. Eksempel 1.3 I Tabel 1.3 er vist resultatet af Faxe Kondi Ligaen 1999-2000. For hvert af 12 hold er vist antal kampe (k), antal vundne kampe (v), antal uafgjorte kampe (u), antal tabte kampe (t), antal mål for, antal mål imod og antal point (p) for henholdsvis hjemmebanekampe, udebanekampe og totalt. Samtlige variable er kvalitative. Tabel 1.3 Resultatet af Faxe Kondi Ligaen 1999-2000. 1.1 Prik- og pindediagrammer Prikdiagrammet er en grafisk procedure, der opsummerer data og som kan give et første indtryk af den underliggende fordeling af data. Prikdiagrammet konstrueres ved at indtegne data i et koordinatsystem på følgende måde. For hver observation afsættes en prik over det punkt på førsteaksen, som svarer til værdien af observationen. (Af typografiske årsager bruger vi i stedet for til at repræsentere observationerne med.) Prikdiagrammet kan også benyttes til at ordne observationerne efter størrelse, hvis data ikke foreligger på elektronisk form.

1.5 Figur 1.1 Prikdiagrammet for højderne i Tabel 1.1. Eksempel 1.1 (Fortsat) Prikdiagrammet for data i Tabel 1.1 er vist i Figur 1.1. Pindediagrammet eller søjlediagrammet bruges til at repræsentere data, der er grupperede i intervaller. For hvert interval anbringes over midtpunktet af intervallet en pind, hvis højde er antallet (eller det relative antal) af observationer i intervallet. Eksempel 1.1 (Fortsat) Tabel 1.4 nedenfor viser resultatet af en gruppering af data i Tabel 1.1 svarende til en intervallængde på 4 cm. Det tilsvarende pindediagram er vist i Figur 1.2. 1.2 Histogrammer Hvis data er kontinuerte, laver man ofte et histogram for at få et indtryk af, hvorledes tæthedsfunktionen, se Kapitel 2, for den underliggende fordeling ser ud. Histogrammer kan derfor være af stor hjælp, når klassen af fordelinger i den statistiske model skal vælges. Et histogram konstrueres på følgende måde. De n observationer x 1, x 2,...,x n grupperes i

1.6 1.2 Histogrammer interval midtpunkt antal observationer ]112,116] 114 1 ]116,120] 118 0 ]120,124] 122 8 ]124,128] 126 20 ]128,132] 130 24 ]132,136] 134 32 ]136,140] 138 49 ]140,144] 142 41 ]144,148] 146 26 ]148,152] 150 21 ]152,156] 154 14 ]156,160] 158 6 ]160,164] 162 4 ]164,168] 166 1 Tabel 1.4 Observationerne i Tabel 1.1 grupperet i intervaller af længden 4 cm. Figur 1.2 Pindediagrammet for højderne i Tabel 1.4.

1.7 et antal intervaller. Lad m betegne dette antal og lad t 1,t 2,...,t m og t 1, t 2,..., t m betegne henholdsvis midtpunkterne og længderne af disse intervaller. Hvis a j betegner antallet af observationer i det j te interval og h j = a j /n den relative hyppighed af observationer i det j te interval, j = 1, 2,..., m, er histogrammet den trappefunktion h, der er givet ved h(t) = h j t j, hvis t ] t j t j 2, t j + t j 2 ]. (1.1) Bemærk, at i et histogram repræsenteres den relative hyppighed h j som arealet af et rektangel, som har sidelængderne t j og h j / t j. Derfor er det totale areal under trappefunktionen h lig med 1, summen af de relative hyppigheder. Hvis de m intervaller har samme længde t, det vil sige hvis t 1 = t 2 = = t m = t, betragter man, for at lette beregningerne, ofte funktionen h(t) = n th(t) = a j, hvis t ] t j t 2, t j + t 2 ] (1.2) i stedet for h. En tegning af denne funktion kaldes også et histogram. Bemærk, at arealet under h er n t, og bemærk desuden lighedspunkterne mellem denne form for et histogram og pindediagrammet, som blev omtalt i Afsnit 1.1. Figurerne 1.2-1.2 nedenfor viser forskellige histogrammer for tallene i Tabel 1.1. I hver af disse figurer betragter vi den samme intervallængde, som varierer fra figur til figur. Det ses af figurerne, at det er vigtigt at vælge et passende antal intervaller for at få et indtryk af tæthedsfunktionen for den underliggende fordeling. For mange intervaller giver et irregulært indtryk af tæthedsfunktionen og for få intervaller giver for groft et indtryk. De fleste statistiske programpakker kan tegne histogrammer og i disse er default værdien af antallet m af intervaller ofte n. For tallene i Tabel 1.1 er n 16, og antallet af intervaller i Figur 1.2 og 1.6 er henholdsvis 19 og 14. Disse figurer antyder, at tæthedsfunktionen for den underliggende fordeling for tallene i Tabel 1.1 har det samme klokkeformede udseende som tæthedsfunktionen for normalfordelingen - se Figur 3.1, det vil sige figurerne antyder en statistisk model baseret på normalfordelingen for højderne i Tabel 1.1. 1.3 Empiriske størrelser I dette afsnit definerer vi nogle numeriske størrelser knyttet til en observationsrække x 1, x 2,..., x n af størrelsen n af en kvantitativ variabel. Formålet med disse størrelser er at beskrive variationen af observationerne på forskellig måde. Først introduceres lidt notation vedrørende reference til observationerne og værdierne af observationerne.

1.8 1.3 Empiriske størrelser Figur 1.3 Histogram for højden i cm for 247 piger. Intervallængde 1 cm. Figur 1.4 Histogram for højden i cm for 247 piger. Intervallængde 2 cm.

1.9 Figur 1.5 Histogram for højden i cm for 247 piger. Intervallængde 3 cm. Figur 1.6 Histogram for højden i cm for 247 piger. Intervallængde 4 cm.

1.10 1.3 Empiriske størrelser Figur 1.7 Histogram for højden i cm for 247 piger. Intervallængde 6 cm. Figur 1.8 Histogram for højden i cm for 247 piger. Intervallængde 12 cm.

1.11 Definition 1.1 Lad x 1,x 2,...,x n være en observationsrække af størrelsen n af en kvantitativ variabel. Den ordnede stikprøve x (1),x (2),...,x (i),...,x (n) er en opstilling af observationerne i stigende rækkefølge således at x (1) x (2) x (i) x (n). Rangen af observationerne defineres således: rang(x (i) ) = i, hvis x (i 1) < x (i) < x (i+1) rang(x (i) ) = = rang(x (i+k 1) ) = i+(k 1)/2, hvis x (i) = = x (i+k 1) (1.3) Rangen af observationen x (i) er altså i, hvis x (i) er den eneste observation med denne værdi, det vil sige hvis x (i 1) < x (i) < x (i+1). Hvis k observationer x (i),x (i+1),...,x (i+k 1) er lige store, det vil sige hvis x (i) = x (i+1) = = x (i+k 1), tildeles de alle rangen i + (k 1)/2, som er gennemsnittet af de k tal i,i+1,...,i+k 1. De ordnede værdier i stikprøven er de forskellige værdier y 1,y 2,...,y m, som observationerne i stikprøven antager, ordnet efter størrelse, det vil sige y 1 < y 2 < < y m. (1.4) For j = 1,...,m betegnes antallet af observationer med værdien y j med a j og det kumulerede antal med k j, det vil sige at k j = a 1 + +a j. Bemærkning I den ordnede stikprøve er det observationerne, der ordnes efter størrelse, mens det ved de ordnede værdier er værdierne, der ordnes efter størrelse. Hvis der er to eller flere observationer, der antager samme værdi, er antallet m af forskellige værdier i stikprøven mindre end antallet n af observationer i stikprøven. Eksempel 1.4 De forskellige størrelser i Definition 1.1 er illustreret i nedenstående tabel for 10 hypotetiske

1.12 1.3 Empiriske størrelser kondital. i x i x (i) rang(x (i) ) y i a i k i 1 65.0 62.9 1 62.9 1 1 2 68.4 64.1 2 64.1 1 2 3 67.9 65.0 4 65.0 3 5 4 65.0 65.0 4 67.9 1 6 5 69.8 65.0 4 68.4 1 7 6 70.9 67.9 6 69.8 2 9 7 62.9 68.4 7 70.9 1 10 8 69.8 69.8 8.5 9 65.0 69.8 8.5 10 64.1 70.9 10 Definition 1.2 Den empiriske fordelingsfunktion F n svarende til observationerne x 1,x 2,...,x n er defineret ved F n (x) = #{i : x i x}, x R. (1.5) n Den empiriske fordelingsfunktion F n er altså en trappefunktion, hvis spring er multipla af 1/n og for ethvert x R er tallet F n (x) blot den relative hyppighed af observationer i datasættet som er mindre end eller lig med x. Helt præcist har F n spring i de m ordnede værdier y 1,y 2,...,y m og springet i y i er a i /n, i = 1,...,m, se Figur 1.9. Den empiriske fordelingsfunktion F n er fuldstændigt bestemt af sine fraktiler, der defineres således: Definition 1.3 For ethvert p [0,1] er p-fraktilen for den empiriske fordelingsfunktion F n mængden x p givet ved x p = {x R : F n (x ) p F n (x)}, hvor F n (x ) betegner grænseværdien fra venstre af F n i punktet x. Specielt kaldes x 0.50 ofte for den empiriske median, mens x 0.25 og x 0.75 kaldes henholdsvis nedre og øvre empiriske kvartil. Hvis vi supplerer notationen i Definition 1.1 med at sætte k 0 = 0 gælder der, at y j er p-fraktil for alle værdier af p i intervallet [ k j 1 /n,k j /n ]. I anvendelser er vi kun interesseret i at udpege

1.13 Figur 1.9 Den empiriske fordelingsfunktion F n for data i Eksempel 1.4. I den øverste figur er de valgte p-værdier antydet med og i den nederste figur er fraktilerne x p antydet med.

1.14 1.3 Empiriske størrelser nummer observation antal kumulerede antal sandsynlighed i % j y a k p i % 1 y 1 a 1 k 1 = a 1 p 1 = 100 k 1 /(2n) 2 y 2 a 2 k 2 = a 1 + a 2 p 2 = 100 (k 1 + k 2 )/(2n) 3 y 3 a 3 k 3 = a 1 + a 2 + a 3 p 3 = 100 (k 2 + k 3 )/(2n)............ j y j a j k j = a 1 + +a j p j = 100 (k j 1 + k j )/(2n)............ m y m a m k m = a 1 + +a m p m = 100 (k m 1 + k m )/(2n) Tabel 1.5 Beregningsskema for fraktiler for et ugrupperet datasæt. én værdi p j af p for hvilken y j er p-fraktil og vi vælger derfor p j som midtpunkt af intervallet [ k j 1 /n,k j /n ], det vil sige p j = (k j 1 + k j )/(2n). Beregningerne kan foretages ved hjælp af skemaet i Tabel 1.5. Hvis p = k j /n, j = 1,...,m 1 er p-fraktilen et interval, nemlig x p = [ y j,y j+1 ], og vil vi blot udpege en enkelt værdi x p af x svarende til p forekommer det naturligt at vælge midtpunktet af dette interval, det vil sige x p = (y j + y j+1 )/2. Hvis k j /n < p < k j+1 /n, j = 0,...,m 1, er p-fraktilen x p blot punktet y j+1 og vi sætter x p = x p = y j+1. Beregningen af størrelserne x p kan foretages ved hjælp beregningsskemaet i Tabel 1.5. Givet en værdi af p beregnes np. Hvis np = k j er x p = (y j + y j+1 )/2. og hvis k j < np < k j+1 er x p = y j+1. Eksempel 1.4 (Fortsat) For de 10 hypotetiske kondital i dette eksempel er den empiriske fordelingsfunktion vist i Figur

1.15 1.9 og beregningsskemaet i Tabel 1.5 er nummer observation antal kumulerede antal sandsynlighed i % j y a k p i % 1 62.9 1 1 5 2 64.1 1 2 15 3 65.0 3 5 35 4 67.9 1 6 55 5 68.4 1 7 65 6 69.8 2 9 80 7 70.9 1 10 95 Vi viser nu beregningen af x p for udvalgte p-værdier: p = 0.10 np = 1 np = k 1 x 0.1 = (y 1 + y 2 )/2 = (62.9+64.1)/2 = 63.5 p = 0.25 np = 2.5 k 2 < np < k 3 x 0.25 = y 3 = 65.0 p = 0.50 np = 5 np = k 3 x 0.50 = (y 3 + y 4 )/2 = (65.0+67.9)/2 = 66.45 p = 0.75 np = 7.5 k 5 < np < k 6 x 0.75 = y 6 = 69.8 p = 0.90 np = 9 np = k 6 x 0.90 = (y 6 + y 7 )/2 = (69.8+70.9)/2 = 70.35 Definition 1.4 Fempunktsopsummeringen for en observationsrække x 1, x 2,..., x n af størrelsen n er angivelse af de fem fraktiler x p svarende til p-værdierne 0.10, 0.25, 0.50, 0.75, 0.90, det vil sige talsættet (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ). Kvartilafstanden er afstanden mellem den øvre og nedre kvartil, det vil sige størrelsen d = x 0.75 x 0.25. Medianen x 0.50 angiver observationsrækkens centrale punkt og de to kvartiler, x 0.25 og x 0.75 afgrænser den centrale del. Kvartilafstanden er et mål for fordelingens spredning. Hvis vi kalder gruppen af de 10% mindste observationer fordelingens venstre hale og gruppen af de 10% største observationer for fordelingens højre hale, angiver x 0.10 og x 0.90 hvor langt fordelingens haler ligger fra den centrale del. En stikprøve kaldes symmetrisk hvis dens fordeling har samme form til højre og til venstre for medianen, det vil sige hvis x 0.50 x p x 1 p x 0.50 for alle p ]0,0.5].

1.16 1.3 Empiriske størrelser I en symmetrisk stikprøve har højre og venstre hale samme form. En stikprøve kaldes højreskæv hvis den højre hale ligger længere væk fra medianen end den venstre hale. Tilsvarende, er skikprøven venstreskæv, hvis den venstre hale ligger længst væk. Ofte illustreres fempunktsopsummeringen grafisk ved hjælp af et kassediagram, som fremkommer ved at tegne lodrette linjer gennem medianen og de to kvartiler og forbinde stregerne gennem kvartilerne med vandrette linjer. Herved fremkommer en kasse, der illustrerer den centrale del af fordelingen. For at vise længden af fordelingens haler tegnes undertiden linjer ud til x 0.10 og x 0.90 og endelig markeres observationer mindre end x 0.10 og eller større end x 0.90 med et. Eksempel 1.4 (Fortsat) For de 10 hypotetiske kondital er fempunktsopsummeringen (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (63.5,65.0,66.45,69.8,70.35) og kvartil afstanden er d = 69.8 65.0 = 4.8. Kassediagrammet i Figur 1.10 viser, at fordelingen højreskæv og dermed ikke er symmetrisk. Figur 1.10 Kassediagrammet for data i Eksempel 1.4. Den empiriske median og kvartilafstanden er mål for henholdsvis fordelingens position og bredde eller spredning. Alternative - og mere benyttede - mål for disse størrelser er: Definition 1.5 Den empiriske middelværdi x, den empiriske varians s 2 og den empiriske spredning s for en observationsrække x 1, x 2,..., x n af størrelsen n er: x = 1 n n i=1 x i, (1.6)

1.17 og s 2 = 1 n 1 s = s 2 = n i=1 1 n 1 (x i x ) 2 (1.7) n i=1 (x i x ) 2. (1.8) Bemærkning Som det ses er den empiriske middelværdi x blot gennemsnittet af observationerne. Den empiriske varians s 2 er et mål for variationen af observationerne. Det fremkommer ved at beregne en normeret sum af den kvadratiske afstand (x i x ) 2 mellem observationerne x i og gennemsnittet x, som et mål for hvor meget observationerne varierer omkring gennemsnittet. Hvis for eksempel målingerne x i er foretaget i enheden cm, er enheden for s 2, den empiriske varians, cm 2. Ved at betragte den empiriske spredning s fremkommer et mål for variationen der har samme enhed - i eksemplet cm - som de enkelte observationer. Den empiriske middelværdi x og den empiriske varians s 2 beregnes lettest ud fra S = n i=1 x i og SK = n i=1 Summen af observationerne og Summen af Kvadraterne af observationerne, idet x 2 i, x = S n (1.9) og n i=1 (x i x ) 2 = = n i=1 n i=1 (x 2 i + x2 2x i x ) x 2 i + n x 2 2 x = SK + n S2 n 2 2S n S = SK S2 n. n x i i=1 Idet størrelsen n i=1 (x i x ) 2 ofte betegnes med SAK - Summen af Afvigelsernes Kvadrater - fås at s 2 = 1 n 1 SAK = 1 S2 (SK ). (1.10) n 1 n

1.18 1.4 Grupperede data Bemærk, at i denne formel optræder både S, som er summen af observationerne, og s, som er den empiriske spredning eller kvadratroden af den empiriske varians. Forveksles disse størrelser bliver resultatet oftest katastrofalt forkert. Eksempel 1.4 (Fortsat) For de 10 hypotetiske kondital er S = 668.8 og SK = 44800.08, så ved hjælp af (1.9), (1.10) og (1.8) finder vi - med 5 decimalers nøjagtighed - x = 668.8 10 = 66.88, og s 2 = 1 668.82 (44800.08 9 10 ) = 7.85956 s = 7.85956 = 2.80349. 1.4 Grupperede data Med nogen modvilje giver vi dette afsnit med en kort diskussion af empiriske størrelser for kontinuerte og grupperede data. Modviljen skyldes den kendsgerning, at kontinuerte og grupperede data sjældent forekommer i virkeligheden. Som oftest stammer data af denne type fra en gruppering af et ugrupperet datasæt. Motivationen for denne gruppering er næsten altid af praktisk art, såsom at spare plads i tidsskrifter, bøger mm., og yderst sjældent videnskabelig. Proceduren med at gruppere data kan illustreres ved data i Tabel 1.1 og 1.4. Data i Tabel 1.4 repræsenterer en opsummering af de oprindelige data i Tabel 1.1, som oplagt ikke indeholder den samme information som de oprindelige data. Statistiske procedurer bør benytte al information i data og ikke kun en del heraf. Imidlertid er datasæt i litteraturen, specielt ældre litteratur, ofte grupperede, hvilket er grunden til, at empiriske størrelser for grupperede data også bliver omtalt her. Antag, at antallet af observationer i de m intervaller ]y 0,y 1 ],]y 1,y 2 ],...,]y m 1,y m ] er a 1, a 2,..., a m. For j = 1, 2,...,m lader vi k j = a 1 + a 2 + + a j betegne det kumulerede antal observationer. Bemærk, at k m = n, det totale antal observationer. Desuden lader vi t j = (y j + y j 1 )/2 betegne midtpunket af det j te interval, j = 1,...,m.

1.19 nummer højre endepunkt midtpunkt antal kumulerede antal sandsynlighed i % j y t a k p i % 1 y 1 t 1 a 1 k 1 = a 1 p 1 = 100 k 1 /n 2 y 2 t 2 a 2 k 2 = a 1 + a 2 p 2 = 100 k 2 /n 3 y 3 t 3 a 3 k 3 = a 1 + a 2 + a 3 p 3 = 100 k 3 /n.................. j y j t j a j k j = a 1 + +a j p j = 100 k j /n.................. m 1 y m 1 t m 1 a m 1 k m 1 = a 1 + +a m 1 p m 1 = 100 k m 1 /n m y m t m a m k m = n p m = 100 Tabel 1.6 Skema til beregning af empiriske størrelser for grupperede data. For et grupperet datasæt kendes den empiriske fordelingsfunktion F n kun i de højre intervalendepunkter y 1,y 2,...,y m. Vi lader derfor p j = F n (y j ) = k j /n, j = 1,...,m, og for p = k j /n sætter vi x p = y j. Beregningen af p-værdierne kan foretages ved hjælp af skemaet i Tabel 1.6. Beregningerne af andre empiriske størrelser foretages ofte på grundlag af en ugrupperet version af de grupperede data, som fremkommer ved at antage at midtpunktet t j af det j te interval er en værdi, som er blevet observeret a j gange, j = 1,...,m. Den empiriske fordelingsfunktion for det grupperede datasæt approksimeres ved den empiriske fordelingsfunktion for den ugrupperede version, se Figur 1.11. For k j /n < p < k j+1 /n sætter vi x p = t j+1. Størrelserne x p bestemmes let ud fra Tabel 1.6. Givet en værdi af p beregnes np. Hvis np = k j er x p = y j og hvis k j < np < k j+1 er x p = t j+1. Summen S og kvadratsummen SK for de grupperede data beregnes som de tilsvarende

1.20 1.4 Grupperede data størrelser for den ugrupperede version, det vil sige, at S = m m a j t j og SK = a j t 2 j, (1.11) j=1 j=1 hvorefter beregningsformlerne for middelværdi og varians i (1.9) og (1.10) benyttes, det vil sige, at x = S n (1.12) og s 2 = 1 S2 (SK ). (1.13) n 1 n Eksempel 1.1 (Fortsat) Antag, at vi kun kendte den grupperede version af data i Tabel 1.4 og ikke de oprindelige data i Tabel 1.1. Hvilken forskel giver dette med hensyn til den beskrivende statistik? I Figur 1.11 ses øverst den empiriske fordelingsfunktion for de oprindelige data og nederst den empiriske fordelingsfunktion for de grupperede data og den ugrupperede version af disse. Tabel 1.6 for de grupperede data i Tabel 1.4 ser således ud: nummer højre endepunkt midtpunkt antal kumulerede antal sandsynlighed i % j y t a k p i % 1 116 114 1 1 0.4 2 120 118 0 1 0.4 3 124 122 8 9 3.6 4 128 126 20 29 11.7 5 132 130 24 53 21.5 6 136 134 32 85 34.4 7 140 138 49 134 54.3 8 144 142 41 175 70.9 9 148 146 26 201 81.4 10 152 150 21 222 89.9 11 156 154 14 236 95.5 12 160 158 6 242 98.0 13 164 162 4 246 99.6 14 168 166 1 247 100.0 Fempunktsopsummeringen er (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (126,134,138,146,154).

1.21 Figur 1.11 Øverst ses den empiriske fordelingsfunktion for data i Tabel 1.1 og nederst den empiriske fordelingsfunktion for data i Tabel 1.4 og for den ugrupperede version (- - -) af disse data. De valgte p-værdier antydet med.

1.22 1.4 Grupperede data Hvis for eksempel p = 0.75 er np = 247 0.75= 185.25, det vil sige at j = 8 og x 0.75 = t 9 = 146. Da bliver S = 14 14 a j t j = 34466 og SK = a j t 2 j = 4830716 j=1 j=1 x = 34466 247 = 139.54 og s2 = 1 344662 (4830716 246 247 ) = 86.9243. For de oprindelige data i 1.1 ser en del af skemaet i Tabel 1.5 således ud: nummer observation antal kumulerede antal sandsynlighed i % j y a k p i %............... 7 127 6 22 7.7 8 128 7 29 10.3............... 13 133 8 61 23.1 14 134 11 72 26.9............... 19 139 15 119 45.1 20 140 15 134 51.2............... 25 145 7 182 72.3 26 146 7 189 75.1............... 32 152 3 222 89.3 33 153 3 225 90.5............... Fempunktsopsummeringen for de oprindelige data i Tabel 1.1 ses at være (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (128,134,140,146,153). I tabellerne nedenfor resumeres vi de beregnede størrelser for de oprindelige data og de grupperede data: data S SK x s 2 oprindelige (Tabel 1.1) 34613 4871559 140.13 85.8317 grupperede (Tabel 1.4) 34466 4830716 139.54 86.9242

1.23 data x 0.10 x 0.25 x 0.50 x 0.75 x 0.90 oprindelige (Tabel 1.1) 128 134 140 146 153 grupperede (Tabel 1.4) 126 134 138 146 154 Det ses, at der er nogen forskel mellem resultaterne for de to datasæt. Med hensyn til den beskrivende statistik er denne forskel dog næppe af større betydning. Med hensyn til de mere eksakte beregninger i de kommende kapitler kan forskellen dog være vigtig. Det skal understreges igen, at når man som her har de oprindelige data til rådighed skal disse benyttes. Grunden til her at betragte de grupperede data er primært at illustrere beregningerne for grupperede datasæt og - sekundært - at sammenligne med resultaterne med de oprindelige data, som vi har til rådighed i denne situation. Det er - som nævnt indledningsvis - desværre ikke altid tilfældet. 1.5 Kvalitative data I dette afsnit betragter vi kvalitative eller diskrete data. Situationen er typisk, at der foreligger data, der er fremkommet ved optælling af antallet af observationer i forskellige navngivne kategorier. Kategorierne kan være numeriske, det vil sige navngivet ved hjælp af en numerisk variabel. Hvis dette er tilfældet kan situationen sammenlignes med grupperede data for en kvantitativ - kontinuert - variabel idet navnene på kategorierne da svarer til de forskellige intervaller, som data er grupperet i. Hvis kategorierne ikke er numeriske, kan observationer ikke naturligt ordnes efter størrelse. Fordelingen af en stikprøve af størrelse n af en diskret variabel kan beskrives ved hyppigheden - eller den relative hyppighed - af antallet af observationer i de forskellige kategorier. Hvis der er m kategorier og antallet af observationer i den j te kategori er a j, j = 1,...,m, er den relative hyppighed for den j te kategori h j = a j /n. Tabeller over de observerede antal a - eller de relative hyppigheder h - i de m kategorier suppleres ofte med grafiske repræsentationer af data. I Excel er der forskellige muligheder for at præsentere data, herunder søjlediagrammer, blokdiagrammer og lagkagediagrammer. I et søjlediagram illustreres antallet af observationer a j i den j te kategori som søjler, der har en højde der typisk er antallet a j eller det relative antal h j af observationer i kategorien. I et blokdiagram tegnes en blok med sektioner, der udgør samme andel af blokken som hyppighederne for de enkelte kategorier. I et lagkagediagram repræsenteres hyppighederne for kategorierne ved stykker af lagkagen, der udgør samme andel af lagkagen som hyppighederne for kategorierne. Eksempel 1.3 (Fortsat)

1.24 1.5 Kvalitative data Tabellen nedenfor viser antallet af mål som de 12 superligaklubber har scoret på henholdsvis hjemme- og udebane. klub hjemme ude HB 35 17 BIF 39 17 AB 30 22 VFF 30 26 AAB 36 21 SIF 26 23 LCF 33 18 FCK 23 21 OB 20 22 AGF 24 12 VB 21 17 EFB 15 25 Her er der ialt 24 kategorier med navne (HB, hjemme), (HB, ude),..., (EFB, ude). Søjlediagrammet for data er vist i Figur 1.12. Det mest bemærkelsesværdige er at de 5 svagest placerede klubber - pånær AGF - scorer relativt godt på udebane i modsætning til de to højest placerede klubber. For den enkelte klub har det måske større interesse at se påholdets præstationer på hjemmeog udebane. For AGF s vedkommende kan resultaterne i kampene resumeres således: AGF sejr uafgjort nederlag hjemme 7 4 5 ude 2 5 10 Her er der 6 kategorier med navne (hjemme, sejr),..., (ude, nederlag). Det tilsvarende søjlediagram i Figur 1.13 viser, at klubben er relativ stærk på hjemmebane men svag på udebane. Figur 1.14 viser blokdiagrammet, hvoraf det fremgår at små 80% (præcist 77.78%) af AGF s sejre er vundet hjemme. I eksemplerne ovenfor var kategorierne ikke navngivet med en numeriske variabel og det har derfor ingen mening at regne empiriske størrelser såsom fraktiler, middelværdi og varians. Vi giver nu et eksempel hvor kategorierne er navngivet ved hjælp af en numerisk variabel og hvor beregning af numeriske størrelser er relevant.

!!" # $ % &'())( *+( 1.25,-. Figur 1.12 Antal mål scoret hjemme og ude af de 12 klubber i Superligaen 1999-2000. 4/ 40 /0123 5678 B76CC6D 9:;<7=8> 9@6D?6@68A:< Figur 1.13 Resultaterne af AGF s kampe på hjemme- og udebane i sæsonen 1999-2000.

1.26 1.5 Kvalitative data Figur 1.14 Resultaterne af AGF s kampe på hjemme- og udebane i sæsonen 1999-2000 i et blokdiagram. Eksempel 1.3 (Fortsat) Anden og tredje søjle i tabellen nedenfor viser fordelingen af mål i de 198 superligakampe i sæsonen 1999-2000. Kategorierne 0, 1,..., 10 er numeriske. nummer antal antal kumulerede p mål kampe antal i % j x a k p 1 0 10 10 5.05 2 1 27 37 11.87 3 2 60 97 33.84 4 3 36 133 58.08 5 4 34 167 75.06 6 5 19 186 89.14 7 6 6 192 95.45 8 7 1 193 97.22 9 8 2 195 97.98 10 9 2 197 98.99 11 10 1 198 99.75 Søjlediagrammet er vist i Figur 1.15. De resterende søjler i tabellen er udfyldt som i beregningsskemaet for et ugrupperet datasæt i Tabel 1.5, idet vi her kender værdierne af alle 198 observationer. Ud fra skemaet kan

! "#$%& 1.27 Figur 1.15 Fordelingen af antal mål i de 198 kampe i superligaen 1999-2000. fempunktsopsummeringen beregnes til (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (1,2,3,4,5). Da summen og kvadratsummen af antal scorede mål er S = 11 11 a j x j = 573 og SK = a j x 2 j = 2265 j=1 j=1 er den empiriske middelværdi og empiriske varians for antal scorede mål henholdsvis x = 573 198 = 2.89 og s 2 = 1 5732 (2265 197 198 ) = 3.0801. 1.6 Flerdimensionale data Indtil nu har vi udelukkende betragtet endimensionale data, det vil sige data hvor observationerne betår af et enkelt tal. Ofte registreres mere end et tal for hver observation og vi taler da om at data er flerdimensionale. I dette afsnit indføres notationen for todimensionale data.

1.28 1.6 Flerdimensionale data Eksempel 1.5 Data er fra Andersen (1998) og i tabellen nedenfor er vist muskelglycogen (i mmol/kg tørvægt) for 8 forsøgspersoners venstre og højre ben. Forsøgsperson nummer venstre ben højre ben 1 534 575 2 593 496 3 370 413 4 507 642 5 450 422 6 619 668 7 422 382 8 578 652 For hver af de 8 forsøgspersoner har vi to sammenhørende målinger af muskelglycogen i henholdsvis venstre og højre ben, så data er to-dimensionale. Lad (x 11,x 21 ),...,(x 1 j,x 2 j ),...,(x 1n,x 2n ) betegne en stikprøve af størrelse n af en to-dimensional variabel. Foruden at få et indtryk af de to stikprøver x 11,...,x 1 j,...,x 1n og x 21,...,x 2 j,..., x 2n bestående af henholdsvis første og anden komponenterne, er det også vigtigt at få et indtryk samvariationen af de to komponenter. Denne kan belyses ved at indtegne observationerne (x 1 j,x 2 j ), j = 1,...,n, i et koordinatsystem. En numeriske størrelse, der angiver et mål for samvariationen af komponenterne i et todimensionalt datasæt, er den empiriske korrelationskoefficient. For at indføre denne behøver vi noget notation. For i = 1,2 lader vi S i, SK i, SAK i, x i og s 2 i betegne henholdsvis Summen af observationerne, Summen af Kvadraterne af observationer, Summen af Afvigelserne Kvadrater, den empiske middelværdi og den empiriske varians for den i te komponent af observationerne, det vil sige SAK i = S i = n j=1 n n x i j, SK i = x 2 i j, j=1 j=1 x i = S i n, (1.14) (x i j x i ) 2 = SK i S2 i n, s2 i = 1 n 1 SAK i. (1.15) Desuden lader vi SP og SAP betegne Summen af Produkter og Summen af Afvigelsernes Produkter, det vil sige SP = n x 1 j x 2 j, SAP = j=1 n j=1 (x 1 j x 1 )(x 2 j x 2 ) = SP S 1S 2 n. (1.16)

1.29 Det kan vises, at den empiriske korrelationskoefficient r, der er defineret som r = n n j=1 (x 1 j x 1 )(x 2 j x 2 ) = (x 1 j x 1 ) 2 n (x 2 j x 2 ) 2 j=1 j=1 SAP SAK1 SAK 2, (1.17) antager værdier i intervallet [ 1, 1]. Fortolkningen af r er, at for store værdier af r optræder store(små) værdier af første komponenten sammen med store(små) værdier af anden komponenten og i det ekstreme tilfælde hvor r = 1 ligger punkterne (x 1 j,x 2 j ), j = 1,...,n, på en ret linje med positiv hældning. Hvis omvendt r er lille optræder store(små) værdier af første komponenten sammen med små(store) værdier af anden komponenten og i det ekstreme tilfælde hvor r = 1 ligger punkterne (x 1 j,x 2 j ), j = 1,...,n, på en ret linje med negativ hældning. Hvis r er tæt på 0 er der ingen sammenhæng mellem første og anden komponenten. Eksempel 1.5 (Fortsat) Tegningen af data i Figur 1.16, antyder en positiv korrelation. For data her er venstre ben n 8 højre ben S 4073 4250 SK 2128583 2354710 SP 2220934 Ved hjælp af formlerne (1.14) - (1.17) finder vi, x 1 = 4073 8 SAK 1 = 2128583 40732 8 s 2 1 = 54916.875 7 = 509.125, x 2 = 4250 8 = 531.250, = 54916.875, SAK 2 = 2354710 42502 8 = 7845.2679, s 2 2 = 96897.500 7 = 96897.500, = 13842.5000, og SAP = 2220934 r = 4073 4250 8 = 57152.750 57152.750 54916.875 96897.500 = 0.7835

1.30 1.6 Flerdimensionale data Figur 1.16 Muskelglycogen indholdet i venstre og højre ben tegnet op mod hinanden.