IDRÆTSSTATISTIK BIND 1



Relaterede dokumenter
Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Indblik i statistik - for samfundsvidenskab

Kvantitative Metoder 1 - Forår Dagens program

IDRÆTSSTATISTIK BIND 2

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Deskriptiv statistik for hf-matc

Elementær sandsynlighedsregning

Statistiske modeller

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Deskriptiv statistik for matc i stx og hf

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Preben Blæsild og Jens Ledet Jensen

Løsninger til kapitel 1

Statistik i løb Supplerende opgaver

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Elementær sandsynlighedsregning

Kapitel 12 Variansanalyse

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

for gymnasiet og hf 2017 Karsten Juul

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik og Sandsynlighedsregning 2

for gymnasiet og hf 2016 Karsten Juul

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Kapitel 12 Variansanalyse

Antal timer Køn k m k m m k m k m k k k m k k k

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Konfidensintervaller og Hypotesetest

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Fagplan for statistik, efteråret 2015

Normalfordelingen og Stikprøvefordelinger

statistik statistik viden fra data statistik viden fra data Jens Ledet Jensen Aarhus Universitetsforlag Aarhus Universitetsforlag

Kapitel 7 Forskelle mellem centraltendenser

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Vektorer og lineær regression

Vektorer og lineær regression. Peter Harremoës Niels Brock

Modelkontrol i Faktor Modeller

Kvantitative Metoder 1 - Forår 2007

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

Produkt og marked - matematiske og statistiske metoder

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Introduktion til sandsynlighedsregning

Kvantitative Metoder 1 - Efterår Dagens program

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Undervisningsbeskrivelse

Statistik viden eller tilfældighed

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Kapitel 3 Centraltendens og spredning

brikkerne til regning & matematik statistik preben bernitt

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Kvantitative Metoder 1 - Forår Dagens program

Statistik II 4. Lektion. Logistisk regression

Undervisningsbeskrivelse

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Løsning til eksamen d.27 Maj 2010

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul

Uge 10 Teoretisk Statistik 1. marts 2004

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kvantitative Metoder 1 - Efterår Dagens program

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Transkript:

IDRÆTSSTATISTIK BIND 1

ii Det Naturvidenskabelige Fakultet Aarhus Universitet Reprocenter Preben Blæsild og Jørgen Granfeldt 2001 ISBN 87-87436-05-1 Bd.1

iii Forord Denne bog er skrevet til brug i et statistikkursus for bachelorstuderende ved Center for Idræt, Aarhus Universitet. Bag bogen ligger samme holdninger både til statistisk analyse og til begynderundervisning i statistik, der primært retter sig mod brugere, som i Blæsild og Granfeldt (2000) Statistik for biologer og geologer. Et vigtigt holdepunkt i statistisk analyse er modelbegrebet. Man vælger en statistisk model, som kan belyse den faglige problemstilling. Det vil sige, at parametrene i modellen kan fortolkes i den faglige problemstilling, og at interessante faglige hypoteser svarer til restriktioner på parametrene. En faglig hypotese afprøves ved at undersøge (teste), om man kan acceptere en reduktion af modellen til en ny model, som er enklere ved at have færre parametre. Gør man sig det klart, kan man hurtigt lære at analysere temmelig komplicerede problemstillinger korrekt. Ydermere bliver analysen til at følge også for folk, som hverken er specialister på det faglige område eller er professionelle statistikere. Et tidsvarende brugerkursus i statistik må benytte EDB og en statistisk programpakke. Ved dette kursus er valgt regnearket Excel og den statistik pakke der under navnet Dataanalyse optræder som et tilføjelsesprogram til Excel, men der er ikke benyttet faciliteter, som er specielle for denne statistik pakke, og bogen kan uden vanskelighed anvendes sammen med andre statistiske programpakker. Argumentet for at benytte Excel er, at regnearket er tilgængeligt på de fleste PC-er imodsætning til mere kostbare og specialiserede statistiske programpakker såsom for eksempel SAS, Genstat og BMDP. Disse programpakker er designet specielt til brug i forbindelse med statistisk analyse og kan derfor udføre beregningerne i meget mere avancerede statistiske modeller end regnearket Excel kan. Disse noter demonsterer forhåbenligt at i forbindelse med et elementært kursus i statistik er Excel et brugbart alternativ. Når man bruger statistiske programpakker i undervisningen bliver modellerne, som beskrevet ovenfor, det faste holdepunkt når man skal orientere sig i udskrifterne. Man kan bruge en programpakke til statistisk analyse, når man har lært dels at specificere modeller i programpakken og dels at teste reduktionen fra én model til en simplere ved at hente relevante oplysninger ud fra udskrifterne fra estimationen i de to modeller.

iv Kun få kan lære statistik uden at få metoderne ind gennem fingrene. Vi har derfor valgt både at præsentere, hvordan de enkleste modeller kan regnes på lommeregner, og hvordan de kan regnes ved at orientere sig i udskrifter fra en programpakke. For normalfordelte data vises både for én, to og k observationsrækker, samt én regressionslinje, hvordan modellerne regnes igennem på lommegner, mens en mere kompliceret model som tosidet variansanalyse kun skal kunne klares med henvisning til programudskrifter. Et statistikkursus for studerende, der ikke har et vist kendskab til de mest basale begreber i sandsynlighedsteorien, fremstår for os som en umulighed. I Kapitel 2 introduceres og/eller repeteres disse begreber, der illustreres ved en række eksempler, som er valgt ud fra det princip, at de matematisk skulle være lette at håndtere. Kapitel 3 er at betragte som et katalog vedrørende definition af og egenskaber ved de fordelinger som anvendes i forbindelse med de statistiske modeller i de senere kapitler. Kaptitel 2 gennemgås efter diskussionen i Kapitel 1 af grafiske og numeriske metoder i forbindelse med beskrivende statistik. Herefter fortsættes med modellerne for normalfordelte data i Kapitel 4 idet de hertil relaterede fordelinger fra Kapitel 3 omtales undervejs. Efter adskillige eksempler på statistisk analyse i forbindelse med normalfordelingen i Kapitel 4 diskuteres hovedtrækkene i en analyse af en parametrisk statistisk model i generelle termer i Kapitel 5. Derefter gennemgås Kapitel 6 om multinomialfordelte data og Kapitel 7 om Poissonfordelte data. Bogen slutter med omtale af nogle simple ikke-parametriske test i Kapitel 8. Som nævnt ovenfor foretrækker vi at betragte parametriske statistiske modeller. Formålet med Kapitel 8 er at orientere læserne om at ikke alle deler denne holdning og for at give et kort indblik i de alternative metoder. Det vil være muligt at læse kapitlerne i en anden rækkefølge, men man skal være opmærksom på, at de statistiske grundbegreber som nulhypotese, test, testsandsynlighed, signifikansniveau og så videre gennemgås i forbindelse med Afsnit 4.2. Uden dataeksempler, som udspringer af en faglig problemstilling, bliver en lærebog til et brugerkursus i statistik temmelig uinteressant. En del af eksemplerne er taget fra Andersen (1998) Statistik for Idrætsstuderende med forfatterens tilladelse, hvilket vi er taknemmelige for. Vi vil også gerne takke medarbejdere og studerende ved Center for Idræt, Aarhus Universitet og ved Institut for Idræt, Københavns Universitet, som har stillet data og deres historie til rådighed for bogens eksempler og opgaver. Bogen er blevet brugt ved Idrætsstatistik i efteråret 2000 og bygger på erfaringer fra et lignede kursus i efteråret 1999 og en særlig tak går til Jakob Krabbe Pedersen og Lars Bo Kristensen for deres store indstats som instruktorer på disse to kurser og for deres påvisning af trykfejl. Bogen er skrevet LATEX, og Jacob Goldbach har skrevet de stylefiler i LATEX, som definerer

v udseendet af bogen, men derudover har Jacob Goldbach tålmodigt besvaret utallige spørgsmål om LATEX ligesom Frank Allan Hansen, Niels Væver Hartvig og Michael Kjærgård Sørensen velvilligt har assisteret os. I forhold til versionen af bogen fra maj 2001 er der rettet en del trykfejl og nogle få figurer er blevet tilføjet. Vi vil gerne takke Lars Madsen for meget kompetent bistand med LATEX spørgsmål i forbindelse med revisionen og Michael Kjærgård Sørensen for at have produceret de nye figurer. Århus, august 2005 Preben Blæsild og Jørgen Granfeldt

vi

INDHOLD vii Indhold 1 Data og beskrivende statistik 1.1 1.1 Prik- og pindediagrammer............................ 1.4 1.2 Histogrammer................................... 1.5 1.3 Empiriske størrelser................................ 1.7 1.4 Grupperede data.................................. 1.18 1.5 Kvalitative data.................................. 1.23 1.6 Flerdimensionale data............................... 1.27 Anneks til Kapitel 1................................... 1.31 Opgaver til Kapitel 1.................................. 1.41 2 Begreber fra sandsynlighedsteorien 2.1 2.1 Sandsynlighedsrum................................ 2.1 2.1.1 Definition af sandsynlighedsmål..................... 2.1 2.1.2 Regneregler for sandsynligheder.................... 2.3 2.1.3 Betingede sandsynligheder og uafhængighed.............. 2.6 2.2 Stokastiske variable................................ 2.9 2.2.1 Diskrete stokastiske variable....................... 2.12 2.2.2 Kontinuerte stokastiske variable..................... 2.16 2.3 Stokastiske vektorer................................ 2.19 2.3.1 Diskrete stokastiske vektorer....................... 2.19 2.3.2 Kontinuerte stokastiske vektorer..................... 2.20 2.3.3 Marginale fordelinger.......................... 2.22 2.3.4 Uafhængighed.............................. 2.24 2.3.5 Betingede fordelinger........................... 2.25 2.4 Middelværdi og varians.............................. 2.26 Opgaver til Kapitel 2.................................. 2.32

viii INDHOLD 3 Specielle fordelinger 3.1 3.1 Normalfordelingen og relaterede fordelinger................... 3.1 3.1.1 Normalfordelingen............................ 3.1 3.1.2 Den todimensionale normalfordeling.................. 3.4 3.1.3 χ 2 -fordelingen.............................. 3.5 3.1.4 t-fordelingen............................... 3.8 3.1.5 F-fordelingen............................... 3.10 3.2 Diskrete fordelinger................................ 3.12 3.2.1 Binomialfordelingen........................... 3.12 3.2.2 Multinomialfordelingen......................... 3.15 3.2.3 Poissonfordelingen............................ 3.16 3.2.4 Den hypergeometriske fordeling..................... 3.17 3.2.5 Den negative binomialfordeling..................... 3.19 Opgaver til Kapitel 3.................................. 3.22 4 Normalfordelte data 4.1 4.1 Fraktilsammenligning............................... 4.2 4.1.1 Ugrupperede observationer........................ 4.2 4.1.2 Grupperede data............................. 4.7 4.1.3 Transformation.............................. 4.8 Anneks til Afsnit 4.1.................................. 4.10 4.2 Én observationsrække med kendt varians..................... 4.13 Anneks til Afsnit 4.2.................................. 4.19 Hovedpunkter til Afsnit 4.2............................... 4.20 4.3 Én observationsrække med ukendt varians.................... 4.21 Anneks til Afsnit 4.3.................................. 4.28 Hovedpunkter til Afsnit 4.3............................... 4.30 4.4 To observationsrækker.............................. 4.32 4.4.1 Test for varianshomogenitet....................... 4.35 4.4.2 Ens varians................................ 4.38 4.4.3 Forskellig varians............................. 4.42 4.4.4 Parrede observationer........................... 4.45 Anneks til Afsnit 4.4.................................. 4.50 Hovedpunkter til Afsnit 4.4............................... 4.55 4.5 k observationsrækker............................... 4.59 4.5.1 Test for varianshomogenitet....................... 4.61

INDHOLD ix 4.5.2 Test for ens middelværdier........................ 4.64 4.5.3 Forskelle og ligheder i behandlingen af to og k observationsrækker... 4.68 4.5.4 Notation og test i forbindelse med en følge af modeller......... 4.69 Anneks til Afsnit 4.5.................................. 4.70 Hovedpunkter til Afsnit 4.5............................... 4.73 4.6 Lineær regression................................. 4.76 4.6.1 Lineær regression uden gentagelser................... 4.76 4.6.2 Lineær regression med gentagelser.................... 4.83 4.6.3 Hypoteser om regressionsparametrene.................. 4.90 4.6.4 Korrelation og/eller regression...................... 4.94 Anneks til Afsnit 4.6.................................. 4.101 Hovedpunkter til Afsnit 4.6............................... 4.106 4.7 Tosidet variansanalyse.............................. 4.111 Anneks til Afsnit 4.7.................................. 4.135 Hovedpunkter til Afsnit 4.7............................... 4.137 Opgaver til Kapitel 4.................................. 4.142 Indeks I.1 5 Statistisk analyse 5.1 5.1 Data........................................ 5.2 5.2 Modelopstilling.................................. 5.2 5.3 Modelkontrol................................... 5.4 5.4 Statistisk inferens................................. 5.5 5.5 Likelihood inferens................................ 5.7 5.6 Begreber fra generel testteori........................... 5.14 5.7 Approksimativ likelihood teori.......................... 5.17 5.8 Afsluttende bemærkninger............................ 5.22 Opgaver til Kapitel 5.................................. 5.23 6 Multinomialfordelte data 6.1 6.1 Eksempler..................................... 6.2 6.2 Inferens i én multinomialfordeling......................... 6.4 6.2.1 Test af simpel hypotese.......................... 6.10 6.2.2 Uafhængighed af inddelingskriterier................... 6.11 6.3 Inferens i flere multinomialfordelinger...................... 6.15

x INDHOLD 6.3.1 Homogenitet af flere multinomialfordelinger.............. 6.15 6.4 Fishers eksakte test................................ 6.19 6.5 Test for goodness of fit.............................. 6.24 Anneks til Kapitel 6................................... 6.28 Hovedpunkter til Kapitel 6............................... 6.31 Opgaver til Kapitel 6.................................. 6.35 7 Poissonfordelte data 7.1 7.1 Eksempler..................................... 7.2 7.2 Sandsynlighedsteoretiske resultater vedrørende Poissonfordelingen....... 7.3 7.3 Én observationsrække............................... 7.7 7.4 Inferens i flere fordelinger............................ 7.11 7.4.1 Poissonmodellen med proportionale parametre............. 7.12 7.4.2 Den multiplikative Poissonmodel.................... 7.18 Anneks til Kapitel 7................................... 7.29 Hovedpunkter til Kapitel 7............................... 7.33 Opgaver til Kapitel 7.................................. 7.39 8 Ikke-parametriske test 8.1 8.1 Fortegnstestet................................... 8.2 8.2 Rangtest...................................... 8.4 8.2.1 Wilcoxons test for én observationsrække................ 8.5 8.2.2 Wilcoxons test for to observationsrækker................ 8.7 8.2.3 Kruskal-Wallis test............................ 8.11 Anneks til Kapitel 8................................... 8.15 Hovedpunkter til Kapitel 8............................... 8.18 Opgaver til Kapitel 8.................................. 8.21 A Forskellige matematiske begreber A.1 A.1 Notation fra mængdelæren............................ A.1 A.2 Rækker...................................... A.3 A.3 Dobbeltintegraler og partiel differentiation.................... A.4 A.3.1 Dobbeltintegraler............................. A.5 A.3.2 Partiel differentiation........................... A.5 B Simulerede fraktildiagrammer B.1

INDHOLD xi C Matematiske symboler C.1 D Det græske alfabet D.1 Indeks I.1

xii INDHOLD

1 Data og beskrivende statistik 1.1 1 Data og beskrivende statistik Udgangspunktet for en statistisk analyse er et datasæt x, der er resultatet af et eksperiment, udført med det formål at få indblik i en speciel faglig sammenhæng. Betegnelsen eksperiment skal her forstås i en bred forstand. Data fra idræt kan eksempelvis være bestemmelser af kondital, hæmaglobinindhold, hæmatokritværdier eller andre fysiologiske størrelser hos en gruppe af personer. Ofte foretages disse målinger på den samme gruppe personer til forskellige tidspunkter for at vurdere effekten på disse størrelser af træning, konkurrence eller andre påvirkninger. Data kan også være resultater af konkurrencer eller turneringer indsamlet med henblik på at sammenligne personers eller holds præstationer. Karakteristisk for et datasæt x i et eksperiment er, at det er stokastisk; det vil sige, at hvis man gentager eksperimentet eller målingerne under lignende omstændigheder, bliver resultatet ikke nødvendigvis x. Dette er i modsætning til en deterministisk situation, hvor udfald på forhånd kan bestemmes med sikkerhed. Men selv om udfaldene af eksperimentet ikke kan angives på forhånd er der ofte en regelmæssighed på et højere niveau, som man netop kan erkende, hvis forsøget gentages mange gange. En byggesten i beskrivelsen af et eksperiment er derfor en sandsynlighedsteoretisk model. De relevante begreber fra sandsynlighedsteorien er resumeret i Kapitel 2. Her nævner vi blot, at en sandsynlighedsteoretisk model består af tre komponenter: 1) udfaldsrummet, X, som er samtlige værdier (udfald), som eksperimentet kan få; 2) hændelsessystemet, F, som omfatter alle de hændelser vi vil betragte; og 3) sandsynlighedsmålet, P, som angiver sandsynligheden af alle hændelser i F. Det stokastiske element i et eksperiment beskrives af hændelsessystemet og sandsynlighedsmålet, som beskriver alle hændelser vi er interesserede i og deres sandsynligheder. Vi beskriver ofte det stokastiske ved et datasæt ved at opfatte data x som en udfald af en stokastisk vektor X hvis fordeling er bestemt af sandsynlighedsmålet P. Det første punkt i en statistisk analyse er at opstille en brugbar statistisk model for det aktuelle datasæt, hvilket undertiden kan være en besværlig opgave. Dette punkt er ofte det vanskeligste i en statistisk analyse. Mange faktorer spiller ind, når en model for data skal opstilles, for eksempel måden data er indsamlet på, information om den faglige problemstilling data skal

1.2 belyse, erfaringer - personlige eller erhvervet ved litteraturstudier - fra analyser af lignende problemer. Statistikeren benytter sig ved modelformuleringen af information, som stammer fra forskellige sammenfatninger af data, såsom tabelleringer og/eller grafiske repræsentationer af data. Ved modelopstillingen skal man tage højde for, at den statistiske model skal være tilstrækkelig simpel fra et matematisk synspunkt, således at den er til at håndtere, og samtidig tilstrækkelig struktureret til at give relevant information om den faglige problemstilling, som undersøges. Endelig skal modellen naturligvis give en rimelig god beskrivelse af data for at kunne anvendes i den videre analyse. Som det vil fremgå af de kommende kapitler, er grafiske undersøgelser relevante på så at sige alle stadier af en statistisk analyse. I dette kapitel diskuterer vi forskellige numeriske og grafiske procedurer, der er relevante i den indledende fase af en statistisk analyse, hvor man skaffer sig overblik over data. Disse procedurer er en del af det, der omtales som beskrivende eller deskriptiv statistik. Vi vil udelukkende betragte data, som enten er kvalitative eller kvantitative, det vil sige data, der fremkommer enten ved at tælle eller ved at måle. For sådanne datasæt består de relevante fordelingsklasser af henholdsvis diskrete fordelinger og kontinuerte fordelinger, se Kapitel 2. Vi skelner desuden mellem grupperede data og ugrupperede data. Hvis et datasæt består af n observationer, og hvis værdierne x 1,x 2,...,x n af alle n observationer kendes, siges datasættet at være ugrupperet. Undertiden er udfaldsrummet X for observationerne opdelt i m disjunkte mængder A 1,...,A m og i stedet for at angive de n observationer x 1,x 2,...,x n angiver man kun a 1,a 2,...,a m, hvor a j betegner antallet af observationer der tilhører A j, j = 1,2,...,m. I så tilfælde omtales a 1,a 2,...,a m som et grupperet datasæt. Delmængderne A j, j = 1,2,...,m, vælges sædvanligvis som intervaller på den reelle akse. En stor del af kapitlet beskæftiger sig med modeller for én observationsrække. Ved én observationsrække på n observationer forstår vi n uafhængige observationer x 1,x 2,...,x n fra den samme fordeling. Undertiden bruger man i stedet for sprogbrugen en stikprøve af størrelse n. Vi giver nogle simple numeriske og grafiske metoder, som opsummerer data og som giver nogle indikationer vedrørende formen af den fælles fordeling af observationerne. I Afsnit 1.1 betragter vi prikdiagrammer og pindediagrammer og Afsnit 1.2 og Afsnit 1.3 vedrører ugrupperede kvantitative data. I Afsnit 1.2 diskuteres histogrammer og i Afsnit 1.3 indføres forskellige numeriske størrelser, der bruges til at beskrive den observerede fordeling. Afsnit 1.4 vedrører grupperede kvantitative data mens kvalitative data omtales i Afsnit 1.5. Endelig indeholder Afsnit 1.6 nogle få bemærkninger om flerdimensionale data. I et anneks til kapitlet gøres der rede for hvorledes udvalgte beregninger og tegninger kan laves ved hjælp af Excel. Til sidst i kapitlet er der en lille samling af opgaver.

1 Data og beskrivende statistik 1.3 I kapitlet betragter vi blandt andet de 3 nedenstående eksempler. Eksempel 1.1 De følgende data stammer fra en undersøgelse fra Odense amt af børn, der lider af astma. Undersøgelsen er foretaget af professor Bent Juhl, Aarhus Kommunehospital, i perioden 1. december 1968 til 3. marts 1969. Der blev foretaget 14 forskellige målinger på hvert barn og blandt disse var målinger af højden. Blandt børnene var der 247 piger, der på undersøgelsestidspunktet var mellem 10 og 12 år. Målingerne af højden (i cm) af disse piger er angivet i Tabel 1.1. Højden er en kvantitativ - kontinuert - variabel og datasættet er ugrupperet, fordi højden blev målt og angivet i cm. Bemærk imidlertid, at hvis højderne oprindeligt var blevet målt i mm og - som her - angivet i cm ville datasættet være grupperet. 139 128 139 125 132 137 146 129 146 150 141 161 143 131 128 134 132 136 137 137 129 140 140 143 148 148 149 132 144 147 137 142 127 127 126 135 136 144 130 132 141 126 135 129 132 130 139 139 134 132 134 127 138 134 127 133 134 126 140 133 142 130 143 140 140 143 150 144 144 128 135 131 135 138 131 135 148 134 132 137 113 150 155 155 155 161 142 142 146 140 141 146 140 139 137 146 142 130 145 149 156 149 155 152 144 139 157 144 149 161 150 144 141 138 140 141 141 147 142 146 156 140 144 145 137 126 134 144 159 134 134 144 130 126 131 130 133 125 122 145 140 132 139 139 128 146 137 139 138 145 133 139 133 139 151 150 138 142 151 140 142 144 136 139 135 141 132 139 140 144 142 127 147 151 141 138 142 147 153 148 144 138 139 124 127 122 123 133 133 136 134 140 137 132 133 132 128 128 136 122 122 123 123 128 145 152 152 156 149 160 148 149 159 145 156 149 153 154 144 153 144 134 140 135 149 136 145 143 139 143 138 137 140 137 144 147 151 166 147 144 159 156 147 154 150 162 159 Tabel 1.1 Højden (i cm) af 247 astmaplagede piger i alderen 10-12 år. Eksempel 1.2 Tabel 1.2 viser konditallene for 20 eliteidrætsudøvere. Tallene er fra Andersen (1998). Datasæt-

1.4 1.1 Prik- og pindediagrammer tet er ugrupperet og konditallet er en kvantitativ - kontinuert - variabel. 68.9 75.2 74.3 72.9 72.0 63.9 76.3 76.3 75.4 66.0 68.4 64.1 73.1 64.9 73.4 76.2 79.4 69.4 79.8 72.1 Tabel 1.2 Kondital for 20 eliteidrætsudøvere. Eksempel 1.3 I Tabel 1.3 er vist resultatet af Faxe Kondi Ligaen 1999-2000. For hvert af 12 hold er vist antal kampe (k), antal vundne kampe (v), antal uafgjorte kampe (u), antal tabte kampe (t), antal mål for, antal mål imod og antal point (p) for henholdsvis hjemmebanekampe, udebanekampe og totalt. Samtlige variable er kvalitative. Tabel 1.3 Resultatet af Faxe Kondi Ligaen 1999-2000. 1.1 Prik- og pindediagrammer Prikdiagrammet er en grafisk procedure, der opsummerer data og som kan give et første indtryk af den underliggende fordeling af data. Prikdiagrammet konstrueres ved at indtegne data i et koordinatsystem på følgende måde. For hver observation afsættes en prik over det punkt på førsteaksen, som svarer til værdien af observationen. (Af typografiske årsager bruger vi i stedet for til at repræsentere observationerne med.) Prikdiagrammet kan også benyttes til at ordne observationerne efter størrelse, hvis data ikke foreligger på elektronisk form.

1.5 Figur 1.1 Prikdiagrammet for højderne i Tabel 1.1. Eksempel 1.1 (Fortsat) Prikdiagrammet for data i Tabel 1.1 er vist i Figur 1.1. Pindediagrammet eller søjlediagrammet bruges til at repræsentere data, der er grupperede i intervaller. For hvert interval anbringes over midtpunktet af intervallet en pind, hvis højde er antallet (eller det relative antal) af observationer i intervallet. Eksempel 1.1 (Fortsat) Tabel 1.4 nedenfor viser resultatet af en gruppering af data i Tabel 1.1 svarende til en intervallængde på 4 cm. Det tilsvarende pindediagram er vist i Figur 1.2. 1.2 Histogrammer Hvis data er kontinuerte, laver man ofte et histogram for at få et indtryk af, hvorledes tæthedsfunktionen, se Kapitel 2, for den underliggende fordeling ser ud. Histogrammer kan derfor være af stor hjælp, når klassen af fordelinger i den statistiske model skal vælges. Et histogram konstrueres på følgende måde. De n observationer x 1, x 2,...,x n grupperes i

1.6 1.2 Histogrammer interval midtpunkt antal observationer ]112,116] 114 1 ]116,120] 118 0 ]120,124] 122 8 ]124,128] 126 20 ]128,132] 130 24 ]132,136] 134 32 ]136,140] 138 49 ]140,144] 142 41 ]144,148] 146 26 ]148,152] 150 21 ]152,156] 154 14 ]156,160] 158 6 ]160,164] 162 4 ]164,168] 166 1 Tabel 1.4 Observationerne i Tabel 1.1 grupperet i intervaller af længden 4 cm. Figur 1.2 Pindediagrammet for højderne i Tabel 1.4.

1.7 et antal intervaller. Lad m betegne dette antal og lad t 1,t 2,...,t m og t 1, t 2,..., t m betegne henholdsvis midtpunkterne og længderne af disse intervaller. Hvis a j betegner antallet af observationer i det j te interval og h j = a j /n den relative hyppighed af observationer i det j te interval, j = 1, 2,..., m, er histogrammet den trappefunktion h, der er givet ved h(t) = h j t j, hvis t ] t j t j 2, t j + t j 2 ]. (1.1) Bemærk, at i et histogram repræsenteres den relative hyppighed h j som arealet af et rektangel, som har sidelængderne t j og h j / t j. Derfor er det totale areal under trappefunktionen h lig med 1, summen af de relative hyppigheder. Hvis de m intervaller har samme længde t, det vil sige hvis t 1 = t 2 = = t m = t, betragter man, for at lette beregningerne, ofte funktionen h(t) = n th(t) = a j, hvis t ] t j t 2, t j + t 2 ] (1.2) i stedet for h. En tegning af denne funktion kaldes også et histogram. Bemærk, at arealet under h er n t, og bemærk desuden lighedspunkterne mellem denne form for et histogram og pindediagrammet, som blev omtalt i Afsnit 1.1. Figurerne 1.2-1.2 nedenfor viser forskellige histogrammer for tallene i Tabel 1.1. I hver af disse figurer betragter vi den samme intervallængde, som varierer fra figur til figur. Det ses af figurerne, at det er vigtigt at vælge et passende antal intervaller for at få et indtryk af tæthedsfunktionen for den underliggende fordeling. For mange intervaller giver et irregulært indtryk af tæthedsfunktionen og for få intervaller giver for groft et indtryk. De fleste statistiske programpakker kan tegne histogrammer og i disse er default værdien af antallet m af intervaller ofte n. For tallene i Tabel 1.1 er n 16, og antallet af intervaller i Figur 1.2 og 1.6 er henholdsvis 19 og 14. Disse figurer antyder, at tæthedsfunktionen for den underliggende fordeling for tallene i Tabel 1.1 har det samme klokkeformede udseende som tæthedsfunktionen for normalfordelingen - se Figur 3.1, det vil sige figurerne antyder en statistisk model baseret på normalfordelingen for højderne i Tabel 1.1. 1.3 Empiriske størrelser I dette afsnit definerer vi nogle numeriske størrelser knyttet til en observationsrække x 1, x 2,..., x n af størrelsen n af en kvantitativ variabel. Formålet med disse størrelser er at beskrive variationen af observationerne på forskellig måde. Først introduceres lidt notation vedrørende reference til observationerne og værdierne af observationerne.

1.8 1.3 Empiriske størrelser Figur 1.3 Histogram for højden i cm for 247 piger. Intervallængde 1 cm. Figur 1.4 Histogram for højden i cm for 247 piger. Intervallængde 2 cm.

1.9 Figur 1.5 Histogram for højden i cm for 247 piger. Intervallængde 3 cm. Figur 1.6 Histogram for højden i cm for 247 piger. Intervallængde 4 cm.

1.10 1.3 Empiriske størrelser Figur 1.7 Histogram for højden i cm for 247 piger. Intervallængde 6 cm. Figur 1.8 Histogram for højden i cm for 247 piger. Intervallængde 12 cm.

1.11 Definition 1.1 Lad x 1,x 2,...,x n være en observationsrække af størrelsen n af en kvantitativ variabel. Den ordnede stikprøve x (1),x (2),...,x (i),...,x (n) er en opstilling af observationerne i stigende rækkefølge således at x (1) x (2) x (i) x (n). Rangen af observationerne defineres således: rang(x (i) ) = i, hvis x (i 1) < x (i) < x (i+1) rang(x (i) ) = = rang(x (i+k 1) ) = i+(k 1)/2, hvis x (i) = = x (i+k 1) (1.3) Rangen af observationen x (i) er altså i, hvis x (i) er den eneste observation med denne værdi, det vil sige hvis x (i 1) < x (i) < x (i+1). Hvis k observationer x (i),x (i+1),...,x (i+k 1) er lige store, det vil sige hvis x (i) = x (i+1) = = x (i+k 1), tildeles de alle rangen i + (k 1)/2, som er gennemsnittet af de k tal i,i+1,...,i+k 1. De ordnede værdier i stikprøven er de forskellige værdier y 1,y 2,...,y m, som observationerne i stikprøven antager, ordnet efter størrelse, det vil sige y 1 < y 2 < < y m. (1.4) For j = 1,...,m betegnes antallet af observationer med værdien y j med a j og det kumulerede antal med k j, det vil sige at k j = a 1 + +a j. Bemærkning I den ordnede stikprøve er det observationerne, der ordnes efter størrelse, mens det ved de ordnede værdier er værdierne, der ordnes efter størrelse. Hvis der er to eller flere observationer, der antager samme værdi, er antallet m af forskellige værdier i stikprøven mindre end antallet n af observationer i stikprøven. Eksempel 1.4 De forskellige størrelser i Definition 1.1 er illustreret i nedenstående tabel for 10 hypotetiske

1.12 1.3 Empiriske størrelser kondital. i x i x (i) rang(x (i) ) y i a i k i 1 65.0 62.9 1 62.9 1 1 2 68.4 64.1 2 64.1 1 2 3 67.9 65.0 4 65.0 3 5 4 65.0 65.0 4 67.9 1 6 5 69.8 65.0 4 68.4 1 7 6 70.9 67.9 6 69.8 2 9 7 62.9 68.4 7 70.9 1 10 8 69.8 69.8 8.5 9 65.0 69.8 8.5 10 64.1 70.9 10 Definition 1.2 Den empiriske fordelingsfunktion F n svarende til observationerne x 1,x 2,...,x n er defineret ved F n (x) = #{i : x i x}, x R. (1.5) n Den empiriske fordelingsfunktion F n er altså en trappefunktion, hvis spring er multipla af 1/n og for ethvert x R er tallet F n (x) blot den relative hyppighed af observationer i datasættet som er mindre end eller lig med x. Helt præcist har F n spring i de m ordnede værdier y 1,y 2,...,y m og springet i y i er a i /n, i = 1,...,m, se Figur 1.9. Den empiriske fordelingsfunktion F n er fuldstændigt bestemt af sine fraktiler, der defineres således: Definition 1.3 For ethvert p [0,1] er p-fraktilen for den empiriske fordelingsfunktion F n mængden x p givet ved x p = {x R : F n (x ) p F n (x)}, hvor F n (x ) betegner grænseværdien fra venstre af F n i punktet x. Specielt kaldes x 0.50 ofte for den empiriske median, mens x 0.25 og x 0.75 kaldes henholdsvis nedre og øvre empiriske kvartil. Hvis vi supplerer notationen i Definition 1.1 med at sætte k 0 = 0 gælder der, at y j er p-fraktil for alle værdier af p i intervallet [ k j 1 /n,k j /n ]. I anvendelser er vi kun interesseret i at udpege

1.13 Figur 1.9 Den empiriske fordelingsfunktion F n for data i Eksempel 1.4. I den øverste figur er de valgte p-værdier antydet med og i den nederste figur er fraktilerne x p antydet med.

1.14 1.3 Empiriske størrelser nummer observation antal kumulerede antal sandsynlighed i % j y a k p i % 1 y 1 a 1 k 1 = a 1 p 1 = 100 k 1 /(2n) 2 y 2 a 2 k 2 = a 1 + a 2 p 2 = 100 (k 1 + k 2 )/(2n) 3 y 3 a 3 k 3 = a 1 + a 2 + a 3 p 3 = 100 (k 2 + k 3 )/(2n)............ j y j a j k j = a 1 + +a j p j = 100 (k j 1 + k j )/(2n)............ m y m a m k m = a 1 + +a m p m = 100 (k m 1 + k m )/(2n) Tabel 1.5 Beregningsskema for fraktiler for et ugrupperet datasæt. én værdi p j af p for hvilken y j er p-fraktil og vi vælger derfor p j som midtpunkt af intervallet [ k j 1 /n,k j /n ], det vil sige p j = (k j 1 + k j )/(2n). Beregningerne kan foretages ved hjælp af skemaet i Tabel 1.5. Hvis p = k j /n, j = 1,...,m 1 er p-fraktilen et interval, nemlig x p = [ y j,y j+1 ], og vil vi blot udpege en enkelt værdi x p af x svarende til p forekommer det naturligt at vælge midtpunktet af dette interval, det vil sige x p = (y j + y j+1 )/2. Hvis k j /n < p < k j+1 /n, j = 0,...,m 1, er p-fraktilen x p blot punktet y j+1 og vi sætter x p = x p = y j+1. Beregningen af størrelserne x p kan foretages ved hjælp beregningsskemaet i Tabel 1.5. Givet en værdi af p beregnes np. Hvis np = k j er x p = (y j + y j+1 )/2. og hvis k j < np < k j+1 er x p = y j+1. Eksempel 1.4 (Fortsat) For de 10 hypotetiske kondital i dette eksempel er den empiriske fordelingsfunktion vist i Figur

1.15 1.9 og beregningsskemaet i Tabel 1.5 er nummer observation antal kumulerede antal sandsynlighed i % j y a k p i % 1 62.9 1 1 5 2 64.1 1 2 15 3 65.0 3 5 35 4 67.9 1 6 55 5 68.4 1 7 65 6 69.8 2 9 80 7 70.9 1 10 95 Vi viser nu beregningen af x p for udvalgte p-værdier: p = 0.10 np = 1 np = k 1 x 0.1 = (y 1 + y 2 )/2 = (62.9+64.1)/2 = 63.5 p = 0.25 np = 2.5 k 2 < np < k 3 x 0.25 = y 3 = 65.0 p = 0.50 np = 5 np = k 3 x 0.50 = (y 3 + y 4 )/2 = (65.0+67.9)/2 = 66.45 p = 0.75 np = 7.5 k 5 < np < k 6 x 0.75 = y 6 = 69.8 p = 0.90 np = 9 np = k 6 x 0.90 = (y 6 + y 7 )/2 = (69.8+70.9)/2 = 70.35 Definition 1.4 Fempunktsopsummeringen for en observationsrække x 1, x 2,..., x n af størrelsen n er angivelse af de fem fraktiler x p svarende til p-værdierne 0.10, 0.25, 0.50, 0.75, 0.90, det vil sige talsættet (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ). Kvartilafstanden er afstanden mellem den øvre og nedre kvartil, det vil sige størrelsen d = x 0.75 x 0.25. Medianen x 0.50 angiver observationsrækkens centrale punkt og de to kvartiler, x 0.25 og x 0.75 afgrænser den centrale del. Kvartilafstanden er et mål for fordelingens spredning. Hvis vi kalder gruppen af de 10% mindste observationer fordelingens venstre hale og gruppen af de 10% største observationer for fordelingens højre hale, angiver x 0.10 og x 0.90 hvor langt fordelingens haler ligger fra den centrale del. En stikprøve kaldes symmetrisk hvis dens fordeling har samme form til højre og til venstre for medianen, det vil sige hvis x 0.50 x p x 1 p x 0.50 for alle p ]0,0.5].

1.16 1.3 Empiriske størrelser I en symmetrisk stikprøve har højre og venstre hale samme form. En stikprøve kaldes højreskæv hvis den højre hale ligger længere væk fra medianen end den venstre hale. Tilsvarende, er skikprøven venstreskæv, hvis den venstre hale ligger længst væk. Ofte illustreres fempunktsopsummeringen grafisk ved hjælp af et kassediagram, som fremkommer ved at tegne lodrette linjer gennem medianen og de to kvartiler og forbinde stregerne gennem kvartilerne med vandrette linjer. Herved fremkommer en kasse, der illustrerer den centrale del af fordelingen. For at vise længden af fordelingens haler tegnes undertiden linjer ud til x 0.10 og x 0.90 og endelig markeres observationer mindre end x 0.10 og eller større end x 0.90 med et. Eksempel 1.4 (Fortsat) For de 10 hypotetiske kondital er fempunktsopsummeringen (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (63.5,65.0,66.45,69.8,70.35) og kvartil afstanden er d = 69.8 65.0 = 4.8. Kassediagrammet i Figur 1.10 viser, at fordelingen højreskæv og dermed ikke er symmetrisk. Figur 1.10 Kassediagrammet for data i Eksempel 1.4. Den empiriske median og kvartilafstanden er mål for henholdsvis fordelingens position og bredde eller spredning. Alternative - og mere benyttede - mål for disse størrelser er: Definition 1.5 Den empiriske middelværdi x, den empiriske varians s 2 og den empiriske spredning s for en observationsrække x 1, x 2,..., x n af størrelsen n er: x = 1 n n i=1 x i, (1.6)

1.17 og s 2 = 1 n 1 s = s 2 = n i=1 1 n 1 (x i x ) 2 (1.7) n i=1 (x i x ) 2. (1.8) Bemærkning Som det ses er den empiriske middelværdi x blot gennemsnittet af observationerne. Den empiriske varians s 2 er et mål for variationen af observationerne. Det fremkommer ved at beregne en normeret sum af den kvadratiske afstand (x i x ) 2 mellem observationerne x i og gennemsnittet x, som et mål for hvor meget observationerne varierer omkring gennemsnittet. Hvis for eksempel målingerne x i er foretaget i enheden cm, er enheden for s 2, den empiriske varians, cm 2. Ved at betragte den empiriske spredning s fremkommer et mål for variationen der har samme enhed - i eksemplet cm - som de enkelte observationer. Den empiriske middelværdi x og den empiriske varians s 2 beregnes lettest ud fra S = n i=1 x i og SK = n i=1 Summen af observationerne og Summen af Kvadraterne af observationerne, idet x 2 i, x = S n (1.9) og n i=1 (x i x ) 2 = = n i=1 n i=1 (x 2 i + x2 2x i x ) x 2 i + n x 2 2 x = SK + n S2 n 2 2S n S = SK S2 n. n x i i=1 Idet størrelsen n i=1 (x i x ) 2 ofte betegnes med SAK - Summen af Afvigelsernes Kvadrater - fås at s 2 = 1 n 1 SAK = 1 S2 (SK ). (1.10) n 1 n

1.18 1.4 Grupperede data Bemærk, at i denne formel optræder både S, som er summen af observationerne, og s, som er den empiriske spredning eller kvadratroden af den empiriske varians. Forveksles disse størrelser bliver resultatet oftest katastrofalt forkert. Eksempel 1.4 (Fortsat) For de 10 hypotetiske kondital er S = 668.8 og SK = 44800.08, så ved hjælp af (1.9), (1.10) og (1.8) finder vi - med 5 decimalers nøjagtighed - x = 668.8 10 = 66.88, og s 2 = 1 668.82 (44800.08 9 10 ) = 7.85956 s = 7.85956 = 2.80349. 1.4 Grupperede data Med nogen modvilje giver vi dette afsnit med en kort diskussion af empiriske størrelser for kontinuerte og grupperede data. Modviljen skyldes den kendsgerning, at kontinuerte og grupperede data sjældent forekommer i virkeligheden. Som oftest stammer data af denne type fra en gruppering af et ugrupperet datasæt. Motivationen for denne gruppering er næsten altid af praktisk art, såsom at spare plads i tidsskrifter, bøger mm., og yderst sjældent videnskabelig. Proceduren med at gruppere data kan illustreres ved data i Tabel 1.1 og 1.4. Data i Tabel 1.4 repræsenterer en opsummering af de oprindelige data i Tabel 1.1, som oplagt ikke indeholder den samme information som de oprindelige data. Statistiske procedurer bør benytte al information i data og ikke kun en del heraf. Imidlertid er datasæt i litteraturen, specielt ældre litteratur, ofte grupperede, hvilket er grunden til, at empiriske størrelser for grupperede data også bliver omtalt her. Antag, at antallet af observationer i de m intervaller ]y 0,y 1 ],]y 1,y 2 ],...,]y m 1,y m ] er a 1, a 2,..., a m. For j = 1, 2,...,m lader vi k j = a 1 + a 2 + + a j betegne det kumulerede antal observationer. Bemærk, at k m = n, det totale antal observationer. Desuden lader vi t j = (y j + y j 1 )/2 betegne midtpunket af det j te interval, j = 1,...,m.

1.19 nummer højre endepunkt midtpunkt antal kumulerede antal sandsynlighed i % j y t a k p i % 1 y 1 t 1 a 1 k 1 = a 1 p 1 = 100 k 1 /n 2 y 2 t 2 a 2 k 2 = a 1 + a 2 p 2 = 100 k 2 /n 3 y 3 t 3 a 3 k 3 = a 1 + a 2 + a 3 p 3 = 100 k 3 /n.................. j y j t j a j k j = a 1 + +a j p j = 100 k j /n.................. m 1 y m 1 t m 1 a m 1 k m 1 = a 1 + +a m 1 p m 1 = 100 k m 1 /n m y m t m a m k m = n p m = 100 Tabel 1.6 Skema til beregning af empiriske størrelser for grupperede data. For et grupperet datasæt kendes den empiriske fordelingsfunktion F n kun i de højre intervalendepunkter y 1,y 2,...,y m. Vi lader derfor p j = F n (y j ) = k j /n, j = 1,...,m, og for p = k j /n sætter vi x p = y j. Beregningen af p-værdierne kan foretages ved hjælp af skemaet i Tabel 1.6. Beregningerne af andre empiriske størrelser foretages ofte på grundlag af en ugrupperet version af de grupperede data, som fremkommer ved at antage at midtpunktet t j af det j te interval er en værdi, som er blevet observeret a j gange, j = 1,...,m. Den empiriske fordelingsfunktion for det grupperede datasæt approksimeres ved den empiriske fordelingsfunktion for den ugrupperede version, se Figur 1.11. For k j /n < p < k j+1 /n sætter vi x p = t j+1. Størrelserne x p bestemmes let ud fra Tabel 1.6. Givet en værdi af p beregnes np. Hvis np = k j er x p = y j og hvis k j < np < k j+1 er x p = t j+1. Summen S og kvadratsummen SK for de grupperede data beregnes som de tilsvarende

1.20 1.4 Grupperede data størrelser for den ugrupperede version, det vil sige, at S = m m a j t j og SK = a j t 2 j, (1.11) j=1 j=1 hvorefter beregningsformlerne for middelværdi og varians i (1.9) og (1.10) benyttes, det vil sige, at x = S n (1.12) og s 2 = 1 S2 (SK ). (1.13) n 1 n Eksempel 1.1 (Fortsat) Antag, at vi kun kendte den grupperede version af data i Tabel 1.4 og ikke de oprindelige data i Tabel 1.1. Hvilken forskel giver dette med hensyn til den beskrivende statistik? I Figur 1.11 ses øverst den empiriske fordelingsfunktion for de oprindelige data og nederst den empiriske fordelingsfunktion for de grupperede data og den ugrupperede version af disse. Tabel 1.6 for de grupperede data i Tabel 1.4 ser således ud: nummer højre endepunkt midtpunkt antal kumulerede antal sandsynlighed i % j y t a k p i % 1 116 114 1 1 0.4 2 120 118 0 1 0.4 3 124 122 8 9 3.6 4 128 126 20 29 11.7 5 132 130 24 53 21.5 6 136 134 32 85 34.4 7 140 138 49 134 54.3 8 144 142 41 175 70.9 9 148 146 26 201 81.4 10 152 150 21 222 89.9 11 156 154 14 236 95.5 12 160 158 6 242 98.0 13 164 162 4 246 99.6 14 168 166 1 247 100.0 Fempunktsopsummeringen er (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (126,134,138,146,154).

1.21 Figur 1.11 Øverst ses den empiriske fordelingsfunktion for data i Tabel 1.1 og nederst den empiriske fordelingsfunktion for data i Tabel 1.4 og for den ugrupperede version (- - -) af disse data. De valgte p-værdier antydet med.

1.22 1.4 Grupperede data Hvis for eksempel p = 0.75 er np = 247 0.75= 185.25, det vil sige at j = 8 og x 0.75 = t 9 = 146. Da bliver S = 14 14 a j t j = 34466 og SK = a j t 2 j = 4830716 j=1 j=1 x = 34466 247 = 139.54 og s2 = 1 344662 (4830716 246 247 ) = 86.9243. For de oprindelige data i 1.1 ser en del af skemaet i Tabel 1.5 således ud: nummer observation antal kumulerede antal sandsynlighed i % j y a k p i %............... 7 127 6 22 7.7 8 128 7 29 10.3............... 13 133 8 61 23.1 14 134 11 72 26.9............... 19 139 15 119 45.1 20 140 15 134 51.2............... 25 145 7 182 72.3 26 146 7 189 75.1............... 32 152 3 222 89.3 33 153 3 225 90.5............... Fempunktsopsummeringen for de oprindelige data i Tabel 1.1 ses at være (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (128,134,140,146,153). I tabellerne nedenfor resumeres vi de beregnede størrelser for de oprindelige data og de grupperede data: data S SK x s 2 oprindelige (Tabel 1.1) 34613 4871559 140.13 85.8317 grupperede (Tabel 1.4) 34466 4830716 139.54 86.9242

1.23 data x 0.10 x 0.25 x 0.50 x 0.75 x 0.90 oprindelige (Tabel 1.1) 128 134 140 146 153 grupperede (Tabel 1.4) 126 134 138 146 154 Det ses, at der er nogen forskel mellem resultaterne for de to datasæt. Med hensyn til den beskrivende statistik er denne forskel dog næppe af større betydning. Med hensyn til de mere eksakte beregninger i de kommende kapitler kan forskellen dog være vigtig. Det skal understreges igen, at når man som her har de oprindelige data til rådighed skal disse benyttes. Grunden til her at betragte de grupperede data er primært at illustrere beregningerne for grupperede datasæt og - sekundært - at sammenligne med resultaterne med de oprindelige data, som vi har til rådighed i denne situation. Det er - som nævnt indledningsvis - desværre ikke altid tilfældet. 1.5 Kvalitative data I dette afsnit betragter vi kvalitative eller diskrete data. Situationen er typisk, at der foreligger data, der er fremkommet ved optælling af antallet af observationer i forskellige navngivne kategorier. Kategorierne kan være numeriske, det vil sige navngivet ved hjælp af en numerisk variabel. Hvis dette er tilfældet kan situationen sammenlignes med grupperede data for en kvantitativ - kontinuert - variabel idet navnene på kategorierne da svarer til de forskellige intervaller, som data er grupperet i. Hvis kategorierne ikke er numeriske, kan observationer ikke naturligt ordnes efter størrelse. Fordelingen af en stikprøve af størrelse n af en diskret variabel kan beskrives ved hyppigheden - eller den relative hyppighed - af antallet af observationer i de forskellige kategorier. Hvis der er m kategorier og antallet af observationer i den j te kategori er a j, j = 1,...,m, er den relative hyppighed for den j te kategori h j = a j /n. Tabeller over de observerede antal a - eller de relative hyppigheder h - i de m kategorier suppleres ofte med grafiske repræsentationer af data. I Excel er der forskellige muligheder for at præsentere data, herunder søjlediagrammer, blokdiagrammer og lagkagediagrammer. I et søjlediagram illustreres antallet af observationer a j i den j te kategori som søjler, der har en højde der typisk er antallet a j eller det relative antal h j af observationer i kategorien. I et blokdiagram tegnes en blok med sektioner, der udgør samme andel af blokken som hyppighederne for de enkelte kategorier. I et lagkagediagram repræsenteres hyppighederne for kategorierne ved stykker af lagkagen, der udgør samme andel af lagkagen som hyppighederne for kategorierne. Eksempel 1.3 (Fortsat)

1.24 1.5 Kvalitative data Tabellen nedenfor viser antallet af mål som de 12 superligaklubber har scoret på henholdsvis hjemme- og udebane. klub hjemme ude HB 35 17 BIF 39 17 AB 30 22 VFF 30 26 AAB 36 21 SIF 26 23 LCF 33 18 FCK 23 21 OB 20 22 AGF 24 12 VB 21 17 EFB 15 25 Her er der ialt 24 kategorier med navne (HB, hjemme), (HB, ude),..., (EFB, ude). Søjlediagrammet for data er vist i Figur 1.12. Det mest bemærkelsesværdige er at de 5 svagest placerede klubber - pånær AGF - scorer relativt godt på udebane i modsætning til de to højest placerede klubber. For den enkelte klub har det måske større interesse at se påholdets præstationer på hjemmeog udebane. For AGF s vedkommende kan resultaterne i kampene resumeres således: AGF sejr uafgjort nederlag hjemme 7 4 5 ude 2 5 10 Her er der 6 kategorier med navne (hjemme, sejr),..., (ude, nederlag). Det tilsvarende søjlediagram i Figur 1.13 viser, at klubben er relativ stærk på hjemmebane men svag på udebane. Figur 1.14 viser blokdiagrammet, hvoraf det fremgår at små 80% (præcist 77.78%) af AGF s sejre er vundet hjemme. I eksemplerne ovenfor var kategorierne ikke navngivet med en numeriske variabel og det har derfor ingen mening at regne empiriske størrelser såsom fraktiler, middelværdi og varians. Vi giver nu et eksempel hvor kategorierne er navngivet ved hjælp af en numerisk variabel og hvor beregning af numeriske størrelser er relevant.

!!" # $ % &'())( *+( 1.25,-. Figur 1.12 Antal mål scoret hjemme og ude af de 12 klubber i Superligaen 1999-2000. 4/ 40 /0123 5678 B76CC6D 9:;<7=8> 9@6D?6@68A:< Figur 1.13 Resultaterne af AGF s kampe på hjemme- og udebane i sæsonen 1999-2000.

1.26 1.5 Kvalitative data Figur 1.14 Resultaterne af AGF s kampe på hjemme- og udebane i sæsonen 1999-2000 i et blokdiagram. Eksempel 1.3 (Fortsat) Anden og tredje søjle i tabellen nedenfor viser fordelingen af mål i de 198 superligakampe i sæsonen 1999-2000. Kategorierne 0, 1,..., 10 er numeriske. nummer antal antal kumulerede p mål kampe antal i % j x a k p 1 0 10 10 5.05 2 1 27 37 11.87 3 2 60 97 33.84 4 3 36 133 58.08 5 4 34 167 75.06 6 5 19 186 89.14 7 6 6 192 95.45 8 7 1 193 97.22 9 8 2 195 97.98 10 9 2 197 98.99 11 10 1 198 99.75 Søjlediagrammet er vist i Figur 1.15. De resterende søjler i tabellen er udfyldt som i beregningsskemaet for et ugrupperet datasæt i Tabel 1.5, idet vi her kender værdierne af alle 198 observationer. Ud fra skemaet kan

! "#$%& 1.27 Figur 1.15 Fordelingen af antal mål i de 198 kampe i superligaen 1999-2000. fempunktsopsummeringen beregnes til (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (1,2,3,4,5). Da summen og kvadratsummen af antal scorede mål er S = 11 11 a j x j = 573 og SK = a j x 2 j = 2265 j=1 j=1 er den empiriske middelværdi og empiriske varians for antal scorede mål henholdsvis x = 573 198 = 2.89 og s 2 = 1 5732 (2265 197 198 ) = 3.0801. 1.6 Flerdimensionale data Indtil nu har vi udelukkende betragtet endimensionale data, det vil sige data hvor observationerne betår af et enkelt tal. Ofte registreres mere end et tal for hver observation og vi taler da om at data er flerdimensionale. I dette afsnit indføres notationen for todimensionale data.

1.28 1.6 Flerdimensionale data Eksempel 1.5 Data er fra Andersen (1998) og i tabellen nedenfor er vist muskelglycogen (i mmol/kg tørvægt) for 8 forsøgspersoners venstre og højre ben. Forsøgsperson nummer venstre ben højre ben 1 534 575 2 593 496 3 370 413 4 507 642 5 450 422 6 619 668 7 422 382 8 578 652 For hver af de 8 forsøgspersoner har vi to sammenhørende målinger af muskelglycogen i henholdsvis venstre og højre ben, så data er to-dimensionale. Lad (x 11,x 21 ),...,(x 1 j,x 2 j ),...,(x 1n,x 2n ) betegne en stikprøve af størrelse n af en to-dimensional variabel. Foruden at få et indtryk af de to stikprøver x 11,...,x 1 j,...,x 1n og x 21,...,x 2 j,..., x 2n bestående af henholdsvis første og anden komponenterne, er det også vigtigt at få et indtryk samvariationen af de to komponenter. Denne kan belyses ved at indtegne observationerne (x 1 j,x 2 j ), j = 1,...,n, i et koordinatsystem. En numeriske størrelse, der angiver et mål for samvariationen af komponenterne i et todimensionalt datasæt, er den empiriske korrelationskoefficient. For at indføre denne behøver vi noget notation. For i = 1,2 lader vi S i, SK i, SAK i, x i og s 2 i betegne henholdsvis Summen af observationerne, Summen af Kvadraterne af observationer, Summen af Afvigelserne Kvadrater, den empiske middelværdi og den empiriske varians for den i te komponent af observationerne, det vil sige SAK i = S i = n j=1 n n x i j, SK i = x 2 i j, j=1 j=1 x i = S i n, (1.14) (x i j x i ) 2 = SK i S2 i n, s2 i = 1 n 1 SAK i. (1.15) Desuden lader vi SP og SAP betegne Summen af Produkter og Summen af Afvigelsernes Produkter, det vil sige SP = n x 1 j x 2 j, SAP = j=1 n j=1 (x 1 j x 1 )(x 2 j x 2 ) = SP S 1S 2 n. (1.16)

1.29 Det kan vises, at den empiriske korrelationskoefficient r, der er defineret som r = n n j=1 (x 1 j x 1 )(x 2 j x 2 ) = (x 1 j x 1 ) 2 n (x 2 j x 2 ) 2 j=1 j=1 SAP SAK1 SAK 2, (1.17) antager værdier i intervallet [ 1, 1]. Fortolkningen af r er, at for store værdier af r optræder store(små) værdier af første komponenten sammen med store(små) værdier af anden komponenten og i det ekstreme tilfælde hvor r = 1 ligger punkterne (x 1 j,x 2 j ), j = 1,...,n, på en ret linje med positiv hældning. Hvis omvendt r er lille optræder store(små) værdier af første komponenten sammen med små(store) værdier af anden komponenten og i det ekstreme tilfælde hvor r = 1 ligger punkterne (x 1 j,x 2 j ), j = 1,...,n, på en ret linje med negativ hældning. Hvis r er tæt på 0 er der ingen sammenhæng mellem første og anden komponenten. Eksempel 1.5 (Fortsat) Tegningen af data i Figur 1.16, antyder en positiv korrelation. For data her er venstre ben n 8 højre ben S 4073 4250 SK 2128583 2354710 SP 2220934 Ved hjælp af formlerne (1.14) - (1.17) finder vi, x 1 = 4073 8 SAK 1 = 2128583 40732 8 s 2 1 = 54916.875 7 = 509.125, x 2 = 4250 8 = 531.250, = 54916.875, SAK 2 = 2354710 42502 8 = 7845.2679, s 2 2 = 96897.500 7 = 96897.500, = 13842.5000, og SAP = 2220934 r = 4073 4250 8 = 57152.750 57152.750 54916.875 96897.500 = 0.7835

1.30 1.6 Flerdimensionale data Figur 1.16 Muskelglycogen indholdet i venstre og højre ben tegnet op mod hinanden.

1.31 Anneks til Kapitel 1 Beregninger i Excel I dette afsnit vises, hvordan en del af beregningerne og figurerne i kapitlet kan laves ved hjælp af Excel. Ordrer til programmet skrives i en speciel fond, som ser således ud. I selve regnearket benyttes skrifttypen Ariel med en skriftstørrelse på 10, som er default værdier i Excel. Det er ikke muligt at kopier udklip fra Excel direkte ind i Scientific WorkPlace, som noterne her er skrevet i. Det sker via forskellige omveje, hvilket undertiden bevirker, at udklip fra Excel her bliver gengivet i en størrelse, der ikke helt stemmer overens med størrelsen i selve regnearket. Man skal desuden være opmærksom på, at i danske versioner af Excel benyttes kommaer som skilletegn mellem heltalsdelen og decimalerne i reelle tal. Eksempel 1.4 (Fortsat) Indtast kondital i cellen A1 i regnearket og indtast derefter de 10 hypotetiske kondital (med kommaer i stedet for punktummer) i den anden søjle i tabellen side 1.12 i cellerne A2:A11. Resultatet således ud: Man får altså ikke altid samme antal decimaler som det der indtastes, idet for eksempel 65,0 bliver til 65. Ønskes samme antal decimaler i cellerne A2:A11 markeres disse (anbring musen i A2, tryk venstre museknap ned og træk samtidig musen ned over cellerne). Et tryk på ikonen

1.32 Beregninger i Excel og cellerne bliver til:!"#$%& ' ' Ønsker vi at sortere observationerne i stigende rækkefølge som i den tredje søjle i tabellen side 1.12 anbringes musen i cellena2 og der trykkes på ikonen Å A med følgende resultat: ' ' ' ' ',0,00 Følgende rute, der starter i den øverste bjælke over regnearket: Funktioner Dataanalyse Beskrivende statistik giver efter et klik på OK en dialogboks med overskriften Beskrivende statistik. Angiv i ruden efter Inputområde cellerne A2:A11 (dette gøres lettest ved at klikke i ruden, markere cellerne A2:A11 med venstre museknap for dernæst at slippe venstre museknap). Angiv på samme måde efter Outputområde et område bestående af mindst ()*+,-./0 245657789 3 15 rækker og 2 kolonner i regnearket (som default vælger ExcelNy regnearksfane). Et klik i feltet før Resumestatistik efterfulgt af et klik på OK producerer følgende output (hvor bredden af kolonnerne kan justeres ved hjælp af Formater Kolonner Autotilpas) (1 (( CDEF<EA<EG?;K=>J=)B/1*+/0//0 :;<<=>?@A<; --B// () CD;LMAN?=?EA;EFJ CDEF<EA<G=H> :=<;EF 1B//-,+(*+, --B+, (* (+ CL@?S=< OPADQJ;J R(B-,1(.//,+.B/,0,,,,,- 1B10*.(0,)- (, CPU :;F;UPU :ELJ;UPU --/B/ -)B0.1B0 I;>JDEF< -, 2FDE> TUAV<= (1 /

som indeholder nogle af de empiriske størrelser vi tidligere i eksemplet har beregnet, idet 1.33 Middelværdi = x s 2 Standardfejl = n Median = x 0.50 Standardafvigelse = s Stikprøvevarians = s 2 Minimum = x (1) Maximum = x (n) Sum = S Antal = n Beregninger i Tabel 1.5 kan for datasættet her foretages på følgende måde: Kopier indholdet af cellerne A2:A11 til cellerne C2:C11 (marker A2:A11 og følg ruten Rediger Kopier, anbring curseren i cellenc2 og følg rutenrediger Sæt ind) Slet celler i C2:C11 så de observerede værdier kun optræder én gang (her markeres to celler med værdien 65 og en celle med værdien 69,8 hvorefter de slettes ved Rediger Slet) Indholdet af cellernea1:a11 ogc2:c11 er herefter Herefter følges ruten Funktioner Dataanalyse Histogram. I dialogboksen, der fremkommer, angives cellerne A2:A11 i ruden efter Inputområde, cellerne C2:C8 i ruden efter Intervalområde og cellerne E2:G11 i ruden efter Outputområde. Herefter klikkes der i feltet forankumulativ frekvens og dernæst påok.

1.34 Beregninger i Excel CellerneE2:G10 har derefter følgende indhold: "#$#!! I cellen H2 indtastes p i %. De ønskede p-værdier beregnes ved i cellen H3 at indtaste formlen=100*g3/2 og i cellenh4 at indtaste formlen=100*(g3+g4)/2. Herefter oprettes analoge formler i cellerne H5:H9 ved at anbringe musen i det nedre højre hjørne af cellen H4, således at curseren kommer til at ligne tegnet +, holde kontroltasten nede og markere cellerneh5:h9. 3456789:;<==>?@6ABCDC:95>8EFGH / 0 1 2 Cellerne E2:H10 har derefter følgende indhold, som svarer til indholdet af tabellen side *)I. *+I- *&I- *(I% ' *.I..H &.I..H ).I..H %.I..H ') %)) %. JKLK *-I, +.I- *,I(.&% %..I..H +.I..H -.I..H -) *),. 1.15. %&'()*+,- Bemærk, at vi ikke i formlerne ovenfor - vedrørende beregning af p - dividerer med n i modsætning til i Tabel 1.5. Det skyldes at her er de kumulerede antal angivet i %, mens de i Tabel 1.5 ikke er divideret med n. Der findes adskillige andre måder at beregne fraktiler på end den beskrevet på side 1.14. Trods en hel del overvejelser har vi endnu ikke fundet frem til, hvordan Excel funktionen Fraktil beregner fraktilerne for et ugrupperet datasæt x 1,...,x n. Lad x p betegne den fraktil som Fraktil beregner svarende til værdien p. For nogle datasæt stemmer fraktilerne x p overens med fraktilerne x p fra side 1.14, for andre er der ikke overensstemmelse. Igen skal vi huske på, at vi her blot er interesseret i at få et første indtryk af den observerede fordeling og i denne forbindelse er forskellen mellem x p og x p ikke så afgørende. I anvendelser - for eksempel

1.35 i forbindelse med regning af opgaver - kan man derfor frit vælge mellem dem, når blot man angiver hvilken slags fraktiler der benyttes. Eksempel 1.4 (Fortsat) Følgende klip fra Excel er fremkommet ved at indtaste indholdet af cellerne C1:C6 og D1, placere musen i cellen D2, følge ruten Indsæt Funktion Statistik Fraktil og angive cellerne A2:A11 i ruden efter Vektor og cellen C2 i ruden efter k for derefter at klikke i OK, hvorved resultatet 63,98 dukker op i cellend2. Herefter oprettes analoge formler i cellerne D3:D6 ved at anbringe musen i det nedre højre hjørne af cellen H2, således at curseren kommer til at ligne tegnet +, holde kontroltasten nede og markere cellerned3:d6. Ifølge Excel bliver fempunktopsummeringen for de ti hypotesiske kondital: ( x 0.10, x 0.25, x 0.50, x 0.75, x 0.90 ) = (63.98,65.00,66.45,69.80,70.35) og den stemmer ikke helt overens med den vi beregnede på side 1.16. I Excel giver ruten Indsæt Diagram adgang til en række grafiske procedurer, som er rimelig lette at anvende. For at få et første indtryk af disse laver vi nu kassediagrammet i Figur 1.10 ved hjælp af Excel. Eksempel 1.4 (Fortsat) Et kassediagram for disse data - baseret på fraktilerne x p på side 1.16 - lavet i Excel kan se

1.36 Beregninger i Excel således ud: Denne tegning kan laves således: Indtast følgende i regnearket: Følg ruten Indsæt Diagram og vælg i dialogboksen Guiden Diagram, der hverved fremkommer, XY-punkt under Diagramtype. Vælg under Undertype typen nederst til højre (under typerne skriver Excel: Punktdiagram med datapunkter forbundet med kurver uden datamærker.) Klik derpå påudfør. Herved fremkommer følgende tegning på regnearket #$%&$ #$%&$ #$%&$! " " som ikke umiddelbart ligner resultatet ovenfor. Dette fremkommer ved passende redigering, som foretages ved hjælp af højre museknap:

1.37 Fjerne forklarende tekst (til højre på tegningen): Klik på rammen omkring teksten. Hold højre musetast nede og slip den i områdetryd. Fjerne gitterlinjer (de vandrette linjer i figuren): Klik på en af gitterlinjerne. Hold højre musetast nede og slip den i områdetryd. Fjerne andenaksen: Klik på andenaksen. Hold højre musetast nede og slip den i området Ryd. Ændre baggrundsfarven og fjern rammen: Placer musen i området. Hold højre musetast nede og vælg Formater afbildningsområde. I dialogboksen der fremkommer vælges Ingen både under Ramme og Område. Tilpasse farver. Placer musen på en af de farvede kurver. Hold højre musetast nede og vælgformater dataserie. I boksen der fremkommer vælges underkurve, farve farven sort. (Tilsvarende ændres farve på de to andre kurver). Formatere førsteaksen. Placer musen på førsteaksen. Hold højre musetast nede og vælg Formater akse. I dialogboksen der fremkommer vælges Skala og her sættes Minimum til 62,Maksimum til 72 ogoverordnet enhed til 1. Vi afslutter dette anneks ved kort at beskrive, hvorledes figurerne i Eksempel 1.3 kan laves. Eksempel 1.3 (Fortsat) Figur 1.12 Figuren er lavet ud fra Marker disse celler og vælg ruten Indsæt Diagram. I dialogboksen, der fremkommer vælges Søjle under Diagramtype og under Undertype vælges typen øverst til venstre

1.38 Beregninger i Excel (undertyperne skriver Excel: Grupperet søjle. Sammenligner værdier på tværs af kategorier) Et klik på OK giver resultatet: Som det ses er tegningen ikke bred nok, idet ikke alle klubbers navne står på førsteaksen. Dette ordnes således: Placer musen i det nedeste højre hjørne af rammen således at curseren bliver til en pil sammensat af symbolerne ց og տ. Træk derefter musen til højre og nedad indtil tegningen bliver stor nok. Herefter redigeres tegningen i følgende trin: Ændre placering af forklaring: Klik på rammen omkring teksten. Hold højre museknap ned og vælgformater forklaring. I dialogboksen vælgesplacering Nederst og derefterok. Rammen omkring forklaringen fjernes ved i dialogboksen at vælgemønstre Ramme Ingen. Rotere teksten på førsteaksen: Klik på teksten. Hold højre museknap ned og vælg Formater akse. I dialogboksen vælges Justering Retning og i ruden foran grader skrives 90. Ændre baggrundsfarve og fjerne ramme: Klik på baggrunden. Hold højre museknap ned og vælgformater afbildningsområde. VælgIngen i båderamme ogområde. Tilføje titel: Klik på rammen så tekstendiagramområde fremkommer. Hold højre museknap nede og vælgdiagramindstillinger. I dialogboksen skrives derefter den ønskede titel i ruden under Titler Diagramtitel. Herved fremkommer titlen på tegningen og denne kan eventuelt redigeres ved at placere musen på titlen, holde højre museknap nede og så videre.

Figur 1.13 og Figur 1.14 Figurene laves ud fra 1.39 Figur 1.13 er bortset fra lidt redigering fremkommet ved: Marker cellerne og vælg ruten Indsæt Diagram. I dialogboksen, der fremkommer vælges Søjle under Diagramtype og under Undertype vælges typen øverst til venstre (undertyperne skriver Excel: Grupperet søjle. Sammenligner værdier på tværs af kategorier) Figur 1.14 er bortset fra lidt redigering fremkommet ved: Marker cellerne og vælg ruten Indsæt Diagram. I dialogboksen, der fremkommer vælges Søjle under Diagramtype og under Undertype vælges typen øverst til højre (undertyperne skriver Excel: 100% stablet søjlediagram. Sammenligner den procentdel, de enkelte værdier bidrager til totalen med, på tværs af kategorier.)!"# *+,*-./-*+,*-0*.12 % & ' *+,*-./-*+,*-0*.12 ( ) Figur 1.15 Figuren laves ud fra cellerne $ $! $ $ $! $ # # $ $!#"!#" $ Bemærk, at der er forskel på cellerne i kolonnernea ogd. IAstår tallene til højre hvilket betyder, at Excel opfatter dem som numeriske variable, mens de idstår til venstre og derfor opfattes som tekst variable. I Excel s søjlediagrammer afbildes der kategorier på førsteaksen, så tegningen

1.40 Beregninger i Excel skal derfor laves ud fra kolonnernedoge. Konvertering af numeriske variable til tekst variable kan foretages ved hjælp af funktionen FAST. I D2 er skrevet formlen =FAST(A2;0), hvilket transformerer den numeriske værdi 0 i cellen A2 til teksten 0 i D2. Analoge formler er derefter oprettet i de øvrige celler id. Vedrørende redigeringen af tegningen kan nævnes: at titlen og navnene på akserne laves i dialogboksen der fremkommer ved ruten Diagramområde Diagramindstillinger Titler. at tallene, der angiver antallet af observationer i de enkelte kategorier, fremkommer ved Formater dataserie Dataetiketter Vis værdi.

1.41 Opgaver til Kapitel 1 Opgave 1.1 (Andersen 1998) Jættemilen afslutter orienteringssæsonen den anden søndag i november. Der løbes her på baner på ca. 25 km for eliten, ca. 18 km for deltagere mellem 35 og 55 år og på ca. 12 km for deltagere over 55. Løbstiderne i minutter for 18 deltagere i klassen H65, det vil sige herrer der er fyldt 65 år, i 1994 er vist nedenfor 92.17 96.65 97.75 97.78 101.43 102.03 107.40 110.12 113.45 118.12 120.42 131.23 136.45 142.87 142.95 148.00 149.45 164.75 a) Udfyld skemaet i Tabel 1.5. b) Tegn kassediagrammet. c) Beregn empirisk middelværdi og varians. Opgave 1.2 (Andersen 1998) I 1993 var løbstiderne for de 23, der gennemførte Jættemilen i klassen H65, opgjort i minutter: 85.08 85.67 87.02 97.65 100.98 109.96 110.18 111.00 111.27 113.53 123.77 128.58 129.10 133.03 133.63 141.45 162.33 166.53 189.00 190.00 114.85 116.88 118.72 Beskriv fordelingen ved passende grafiske metoder. Opgave 1.3 (Andersen 1998) Tabellen viser kondital for en række idrætsudøvere. 72.8 73.4 68.6 71.5 69.3 75.4 66.8 71.3 73.0 75.1 69.1 75.4 76.6 71.8 73.9 75.1 75.0 67.7 73.7 74.3 174.4 71.4 72.1 75.5 a) Opstil den ordnede stikprøve og bestem de empiriske fraktiler svarende til observationerne. b) Beskriv fordelingen ved passende grafiske metoder. c) Vurder fordelingens eventuelle skævhed og undersøg om der er ekstreme observationer. Opgave 1.4 (Andersen 1998) Kondital for 17 ikke-aktive idrætsudøvere (ordnet efter størrelse). 56.0 61.8 64.1 64.9 65.2 66.3 66.9 68.9 70.6 70.8 72.4 73.1 73.9 74.1 74.1 75.3 78.7

1.42 Opgaver a) Udfyld skemaet i Tabel 1.5. b) Tegn kassediagrammet. c) Beregn empirisk middelværdi og varians. Opgave 1.5 (Andersen 1998) Følgende vægte i kg blev målt for 30 unge idrætsudøvere. 75.39 77.68 83.58 69.46 87.47 76.79 75.42 83.57 80.18 72.90 74.58 73.99 64.52 71.19 81.71 85.32 61.12 73.54 84.30 74.81 77.46 74.22 74.06 76.80 73.87 69.48 88.35 79.91 73.95 59.74 a) Opstil den ordnede stikprøve. b) Beregn de fem fraktiler i fempunktsopsummeringen, samt 45% og 70% fraktilerne. c) Vurder om fordelingen er skæv og om der er ekstreme observationer. Opgave 1.6 (Andersen 1998) Måltider i orienteringsløb. Tallene stammer fra enkeltstartsløbet Classic under Spring Cup, som arrangeres af FIF Hillerød. Tallene i tabllen nedenfor viser antallet x af løbere, der passerer mål for hvert halve minut i de 100 halvminutsintervaller fra 10.45-11.35 og tilsvarende for de 100 halvminutsintervaller fra 10.35-11.25. For eksempel er der 10 intervaller i tidsrummet 10.45-11.35 hvor der er 3 løbere, der har passeret mål 10.45-11.35 11.35-12.25 antal antal x intervaller x intervaller 0 47 0 10 1 18 1 12 2 6 2 16 3 10 3 10 4 4 4 3 5 2 5 0 6 2 6 2 7 3 7 5 8 2 8 4 9 2 9 3 10 1 10 4 11 0 11 6 12 3 12 25 Sum 100 Sum 100

1.43 Sammenlign de to observerede fordelinger ved hjælp af: a) søjlediagrammer b) fempunktsopsummeringer Opgave 1.7 Tabellen nedenfor viser antallet af mål scoret i samtlige kampe i henholdsvis Jyllandsseriens sydkreds i 1995 og Jyllandsseriens nordkreds i 1996. Der er altså scoret j mål i a j kampe. Sydkreds 1995 Nordkreds 1996 antal( j) observeret (a j ) observeret (a j ) 0 7 7 1 17 16 2 28 36 3 29 35 4 30 34 5 27 19 6 19 15 7 12 14 8 5 4 9 4 1 10 2 0 11 2 1 ialt 182 182 Sammenlign de to fordelinger ved hjælp af passende numeriske og grafiske metoder. Opgave 1.8 (Andersen 1998) Tabellen nedenfor viser tidsdifferenser mellem to på hinanden følgende løbere på resultatlisten i eliteklassenklassen H21E1 ved Spring Cup 1996 fordelt på en antal intervaller. Det er for eksempel sket 91 gange at to løbere er kommet ind med en

1.44 Opgaver tidsforskel på mindre end 5 sek tidsinterval observeret (sek) antal løbere 0-5 91 5-10 41 10-15 11 15-20 6 20-25 2 25-30 4 30-40 4 40-50 3 50-6 Sum 168 a) Lav et histogram for den observerede fordeling. Bemærk, at tidsintervallerne ikke er lige lange. (Sæt den øvre grænse for intervallet 50- til 70.) b) Beregn empirisk middelværdi og varians. Opgave 1.9 (Andersen 1998) Tabellen viser vægtfordelingen for 555 drenge og 723 piger i 1983, og for 327 drenge og 413 piger i 1985, der deltog i forskningsprojektet: Ungdom og Idræt. 1983 1985 Vægt (kg) Drenge Piger Drenge Piger -40 2 4 0 3 41-45 1 31 0 16 46-50 7 106 3 44 51-55 27 189 26 97 56-60 82 200 47 122 61-65 153 117 77 76 66-70 123 52 77 32 71-75 88 11 47 17 76-80 46 7 30 3 81-85 14 3 12 2 86-90 8 1 7 0 91-4 2 1 1

1.45 a) Lav histogrammer og kassediagrammer for alle fire fordelinger (Sæt minimumsvægten til 30 kg og maksimumsvægten til 110 kg). b) Benyt disse til at beskrive forskellene mellem drenge og piger, og mellem tilstanden i 1983 og tilstanden i 1985. Opgave 1.10 (Andersen 1998) Højdefordelingen, svarende til vægtfordelingen i Opgave 1.9 er vist nedenfor 1983 1985 Højde (cm) Drenge Piger Drenge Piger -150 0 1 0 2 151-155 2 11 0 4 156-160 1 64 1 37 161-165 4 179 7 82 166-170 44 240 24 146 171-175 99 153 56 95 176-180 166 58 81 39 181-185 146 15 93 8 186-190 71 1 48 0 191-22 1 17 0 a) Benyt kassediagrammer til at vurdere om fordelingerne er skæve (Sæt den minimale højde til 141 cm og den maksimale til 210 cm.) b) Benyt desuden kassediagrammerne til at sammenligne højdeforskellene både mellem køn og mellem år. Opgave 1.11 (Andersen 1998) For 3869 unge fra forskningsprojektet Idræt og Ungdom opgjorde man idrætsaktiviteterne pr. uge for rygere og ikke-rygere. De observerede tal var: Idrætsaktiv Antal Timer pr. uge Rygere Ikke rygere 0-0.5 181 603 0.5-2 158 591 2-4 162 713 4-7 150 697 7-83 531 Ialt 734 3135

1.46 Opgaver Sammenlign fordelingerne af rygere og ikke-rygeres idrætsmæssige aktivitetsniveau ved hjælp af passende grafiske metoder. Opgave 1.12 I en undersøgelse fra 1991 undersøgte man en række forhold omkring de 290 personer i live i 1991 (populationen), der havde spillet, eller spillede, professionel fodbold i udlandet. Det lykkedes at finde frem til adresser på 214 (adresselisten) af disse personer. Tabellerne viser dels fordelingen på oprindeligt hjemsted, det vil sige hvor spilleren havde spillet i børne- og ungdomsårene, og på udrejseår. Udrejseår Populationen Adresselisten 1946-67 58 42 1968-72 65 48 1973-76 53 38 1977-82 60 41 1983-90 54 45 Ialt 290 214 Hjemsted Populationen Adresselisten København 133 98 Sjælland (-Kbh.) 44 32 Fyn 29 22 Jylland 84 62 Ialt 290 214 a) Beskriv hver af de fire fordelinger ved hjælp af passende grafiske metoder. b) Hvad fortæller graferne om det kritiske spørgsmål: Er adresselisten repræsentativ for populationen? Opgave 1.13 (Andersen 1998) Fra den samme undersøgelse som i Opgave 1.12 stammer nedenstående tabel, der viser hvor mange af dem, der besvarede spørgsmålet (en del spillede stadig i udlandet, og følte måske, at spørgsmålet ikke var relevant), der angav om de havde haft fast

1.47 plads på 1-holdet hele tiden i udlandet, en del af tiden, halvdelen af tiden, i perioder eller aldrig. Udrejse før Udrejse efter Fast plads på 1-holdet 1976 1976 Hele tiden 55 14 Det meste af tiden 9 9 Halvdelen af tiden 2 6 I perioder 4 2 Aldrig 0 3 Ialt 70 34 a) Beskriv fordelingen på de fem svarkategorier både for dem, der rejste ud før 1976, og for dem, der rejste ud efter 1976, ved hjælp af passende grafiske metoder. b) Er der forskel på svarfordelingerne for dem, der rejste ud før 1976, og for dem, der rejste ud efter 1976? c) Beskriv eventuelle forskelle ved velvalgte grafer. Opgave 1.14 (Andersen 1998) Glycogen indholdet (i mmol/kg tørvægt) i benmusklerne før og efter en træningsperiode på 3 uger hos 8 forsøgspersoner er vist nedenfor. forsøgsperson før efter nr. træning træning 1 534 813 2 593 767 3 370 551 4 507 716 5 450 814 6 619 1168 7 422 749 8 578 714 a) Indtegn observationerne i et koordinatsystem (det vil sige tegn (før,efter) ). b) Beregn empiriske middelværdi og varians for de to observationsrækker. c) Beregn den empiriske korrelation mellem de to observationsrækker.

1.48 Opgaver

2 Begreber fra sandsynlighedsteorien 2.1 2 Begreber fra sandsynlighedsteorien Som det vil fremgå af de følgende kapitler er sandsynlighedsteorien det vigtigste hjælpemiddel ved formuleringen og analysen af statistiske modeller til beskrivelse af udfald - data - fra eksperimenter, der er underkastet tilfældige variationer. Sandsynlighedsteorien er netop den matematiske disciplin, der beskæftiger sig med at modellere tilfældig variation. Dette kapitel er at betragte som en kortfattet summarisk oversigt over de begreber og resultater fra sandsynlighedsteorien, som benyttes i det følgende. Kapitlet indeholder ingen matematiske beviser, idet hensigten blot er at definere og illustrere brugen af de relevante begreber og altså ikke at udvikle en præcis matematisk teori. Eksemplerne i kapitlet er valgt ud fra det princip, at de skal belyse begreberne uden at matematikken bliver alt for vanskelig. Kapitlet skal også ses som en forberedelse til Kapitel 3, der resumerer egnskaber ved en række fordelinger, der benyttes i de senere kapitler. Nogle få og måske ikke så velkendte matematiske begreber, der benyttes i kapitlet, er omtalt i Appendiks A. 2.1 Sandsynlighedsrum Definitionen af sandsynlighedsrum involverer matematiske begreber, som er omtalt i Appendiks A. I Afsnit A.1 repeteres notationen fra mængdelæren og i Afsnit A.2 defineres begrebet en uendelig række, som indgår i Definition 2.1 nedenfor. 2.1.1 Definition af sandsynlighedsmål Et sandsynlighedsmål P på et udfaldsrum E er en funktion, der til en delmængde A af mængden E tilordner et tal P(A), som ligger i intervallet [0,1]. Funktionen skal opfylde to betingelser som angivet i Definition 2.1 Et sandsynlighedsmål P på udfaldsrummet E er en funktion P : E A P(A) [0,1],

2.2 2.1 Sandsynlighedsrum der opfylder de to betingelser: 1) P(E) = 1. 2) Hvis A 1,A 2,... er en tællelig mængde af parvis disjunkte mængder, A i A j = /0, i j, så er P( A i ) = i=1 i=1 P(A i ). (2.1) Bemærkinger I (2.1) er i=1 P(A i) en uendelige række, der beregnes som grænseværdien af n i=1 P(A i) = P(A 1 )+ +P(A n ) for n, se Afsnit A.2. Hvis E er et interval (åbent, halvåbent eller lukket) fra a( ) til b( ), indeholder E mange mystiske delmængder, som man sædvanligvis ikke er interesseret i at beregne sandsynligheden for. Man indskrænker sig derfor til at beregne sandsynligheder for en mængde af delmængder, F = {A : A E}, hvor F opfylder de to betingelser: a) A F A C F b) A n F, n = 1,2,..., A n F n=1 og A n F. n=1 Hvis P kun er defineret for mængder i F omtales P som et sandsynlighedsmål på(e,f). Elementerne i F omtales da som målelige mængder og triplet (E,F,P) kaldes et sandsynlighedsrum. Elementer i E omtales som udfald og delmængder i F som hændelser. En hændelse A indtræffer, hvis e A, det vil sige hvis udfaldet e er i mængden A. Sædvanligvis vælges F som den mindste mængde af delmængder af intervallet fra a til b, som opfylder betingelserne a) og b) og som indeholder alle intervaller, der er indeholdt i intervallet fra a til b. Disse delmængder er karakteriseret ved, at hvis A F kan man beregne længden A af A.

2.3 2.1.2 Regneregler for sandsynligheder Ud fra Definition 2.1 kan man vise en række af regneregler for sandsynlighedsmål. I sætningen nedenfor gengives de regneregler, vi har brug for. Sætning 2.1 Hvis P er et sandsynlighedsmål påe og A,B,A 1,...,A n er delmænger af E gælder der: P(/0) = 0. (2.2) P(A\B) = P(A) P(B), hvis A B. (2.3) P(A C ) = 1 P(A). (2.4) P(A B) = P(A)+P(B) P(A B). (2.5) Hvis A 1,...,A n er parvis disjunkte er P(A 1 A n ) = P(A 1 )+ +P(A n ). (2.6) A B A A\B P(A\B)=P(A) P(B) A C C P(A )= 1 P(A) A B A A B B P(A B)=P(A)+P(B) P(A B) P(A B)=P(A)+P(B) hvis A B= Figur 2.1 Illustration af nogle af egenskaberne ved et sandsynlighedsmål P.

2.4 2.1 Sandsynlighedsrum Eksempel 2.1 Hvis udfaldsrummet E er en endelig mængde med #E elementer kan det vises, at antallet af delmængder af E er 2 #E. Sandsynlighedsmålet påe givet ved at en delmængde A har sandsynligheden P(A) = #A (2.7) #E kaldes det uniforme sandsynlighedsmål på E. Sandsynligheden for en delmængde A er altså blot antallet af elementer i A divideret med antallet af elementer i E, specielt gælder der, at alle elementer e i E har samme sandsylighed, nemlig P({e}) = 1 #E, e E. Eksempel 2.2 Betragt to kampe på tipskuponen. Udfaldsrummet E svarende hertil er 2.kamp 1 X 2 1 (1,1) (1,X) (1,2) 1.kamp X (X,1) (X,X) (X,2) 2 (2,1) (2,X) (2,2) Da #E = 9 har samtlige udfald af de to kampe sandsynligheden 1 9 under det uniforme sandsynlighedsmål på E. er Vi illustrerer nu nogle af regnereglerne i Sætning 2.1 i dette simple eksempel. Lad A være hændelsen at de to kampe giver samme tegn. Da A = { (1,1) (X,X) (2,2) } P(A) = #A #E = 3 9 = 1 3. Hvis B er hændelsen at de to kampe giver forskelligt tegn, er B den komplementære hændelse til A, det vil sige at B = A C, og af (2.4) fås at hvilket stemmer overens med at P(B) = P(A C ) = 1 P(A) = 1 1 3 = 2 3, B = { (1,X) (1,2) (X,1) (X,2) (2,1) (2,X) }.

2.5 Lad C 1 og C 2 betegne hændelserne at vi får et 2-tal i første henholdsvis anden kamp, det vil sige at C 1 = { (2,1) (2,X) (2,2) } og P(C 1 ) = 1 3 samt at C 2 = { (1,2) (X,2) (2,2) } og P(C 2 ) = 1 3. Lad C betegne hændelsen at de to kampe giver mindst et 2-tal, det vil sige at C = { (1,2) (X,2) (2,2) (2,1) (2,X) } og P(C) = 5 9. Denne sandsynlighed kunne vi også have beregnet ved hjælp af formel (2.5), idet C = C 1 C 2. Da C 1 C 2 = { (2,2) } fås af (2.5), at P(C) = P(C 1 C 2 ) = P(C 1 )+P(C 2 ) P(C 1 C 2 ) = 1 3 + 1 3 1 9 = 5 9. Lad D betegne hændelsen at præcis én af de to kampe giver et 2-tal, det vil sige at D = { (1,2) (X,2) (2,1) (2,X) } og P(D) = 4 9. Da D = C \(C 1 C 2 ) kunne denne sandsynlighed - ved hjælp af formel (2.3) - beregnes som P(D) = P(C) P(C 1 C 2 ) = 5 9 1 9 = 4 9. Eksempel 2.3 Lad E = ]a,b[ være et endeligt interval på den relle akse. Lad A være en målelig delmængde af E og lad A betegne længden af A. Det uniforme sandsynlighedsmål på E tilordner til A sandsynligheden P(A) = A E = A b a. (2.8) Hvis specielt E = ]0,1[ og P er det uniforme sandsynlighedsmål på E, omtales et udfald e E ofte som et tilfældigt tal mellem 0 og 1. Tilfældige tal kan man for eksempel benytte, når man ønsker frembringe udfald af tilfældige størrelser, hvis sandsynligheder er specificeret. Antag for eksempel at en tipsekspert har opgivet

2.6 2.1 Sandsynlighedsrum procenterne 60, 30 og 10 for henholdvis hjemmesejr, uafgjort og udesejr i en bestemt kamp på tipskuponen. Lad e betegne et tilfældigt tal mellem 0 og 1. Tipper vi 1, hvis 0.0 < e < 0.6, X, hvis 0.6 < e < 0.9, 2, hvis 0.9 < e < 1.0, har vi lavet et tilfældigt tipstegn i overensstemmelse med ekspertens procenter, idet P(tippe 1) = ]0.0,0.6[ ]0, 1[ = 0.6 1 = 0.6, og P(tippe X) = ]0.6,0.9[ ]0, 1[ P(tippe 2) = ]0.9,1.0[ ]0, 1[ = 0.3 1 = 0.3 = 0.1 1 = 0.1. 2.1.3 Betingede sandsynligheder og uafhængighed Definition 2.2 Hvis A og B er to hændelser, således at P(B) > 0, kaldes størrelsen P(A B) = P(A B) P(B) (2.9) den betingede sandsynlighed af A givet B. Hvis P(B) = 0 er den betingede sandsynlighed ikke defineret. Definition 2.3 Hændelserne A 1,...,A n er indbyrdes uafhængige hvis P(A i1 A i j ) = P(A i1 ) P(A i j ), (2.10) hvor {i 1,...,i j } {1,2,...,n}, j = 2,...,n. Med andre ord er de n hændelser indbyrdes uafhængige, hvis der gælder, at sandsynligheden for fællesmængden af j af hændelserne er lig med produktet af de tilsvarende j sandsynligheder. Specielt er hændelserne A og B uafhængige, hvis P(A B) = P(A)P(B). (2.11)

2.7 A B A B P(A B)=P(A B)/P(B) Figur 2.2 Illustration af definitionen af den betingede sandsynlighed P(A B) af A givet B. Bemærkning Af (2.9) og (2.11) ses, at A og B er uafhængige P(A B) = P(A), det vil sige, at A og B er uafhængige, hvis og kun hvis sandsynligheden for A er den samme uanset om vi ved, at B er indtruffet eller ej. For betingede sandsynligheder har vi følgende regneregler: Sætning 2.2 (Omvendt betinget sandsynlighed) Hvis de tre størrelser P(A) > 0, P(B) > 0 og P(A B) alle er kendte, er P(B A) = P(A B)P(B). (2.12) P(A) (Loven om total sandsynlighed) Hvis B 1,...,B n er en disjunkt opdeling af E, det vil sige, at ni=1 B i = E, og B i B j = /0, i j, og P(B i ) > 0 og P(A B i ), i = 1,...,n, alle er kendte, er og P(A) = n i=1 n i=1 Formel (2.14) omtales ofte som Bayes formel. P(A B i )P(B i ) (2.13) P(B k A) = P(A B k)p(b k ). (2.14) P(A B i )P(B i )

2.8 2.1 Sandsynlighedsrum E A B B B 1 2 3 n B Figur 2.3 Illustration af antagelserne i Sætning 2.2. Eksempel 2.4 Som bekendt har et superligahold forskellige chancer for henholdsvis sejr, uafgjort og nederlag alt efter om holdet spiller på hjemmebane eller på udebane. Antag, at disse chancer for et bestemt hold er specificeret ved følgende betingede sandsynligheder sejr uafgjort nederlag P( hjemme ) p 1 q 1 r 1 P( ude ) p 2 q 2 r 2 hvor p 1 + q 1 + r 1 = 1 og p 2 + q 2 + r 2 = 1. Antag desuden, at holdet hører til de heldige, der spiller 17 af turneringens 33 kampe på hjemmebane, det vil sige, at P( hjemme ) = 17 33 og P( ude ) = 16 33. Ved hjælp af (2.13) finder vi, at sandsynligheden for sejr i en tilfældig kamp er P( sejr ) = P( sejr hjemme )P( hjemme )+P( sejr ude )P( ude ) 17 = p 1 33 + p 16 2 33 = 17p 1 + 16p 2. 33 Tilsvarende bliver sandsynligheden for henholdsvis uafgjort og nederlag i en tilfældig kamp P( uafgjort ) = 17q 1 + 16q 2 33

og P( nederlag ) = 17r 1 + 16r 2. 33 Ved hjælp af (2.12) kan vi beregne sandsynligheden for at holdet har spillet på hjemmebane givet det har vundet, nemlig som P( sejr hjemme )P( hjemme ) P( hjemme sejr ) = P( sejr ) 17 p 1 = 33 17p 1 + 16p 2 33 17p 1 =. 17p 1 + 16p 2 2.9 Eksempel 2.5 Antag, at udfaldene af hjemmekampene, som et hold spiller, er uafhængige og at holdet i alle hjemmekampene har samme sandsynlighed henholdsvis p, q og r for sejr, uafgjort og nederlag, hvor p+q+r = 1. Hvis S i, U i og N i betegner betegner hændelserne henholdsvis sejr, uafgjort og nederlag i den i te hjemmekamp har vi altså P(S i ) = p, P(U i ) = q og P(N i ) = r. Da resultaterne i de forskellige hjemmekampe er uafhængige har vi for eksempel, at sandsynligheden for sejr i første hjemmekamp, nederlag i anden og sejr i tredje er P(S 1 N 2 S 3 ) = P(S 1 )P(N 2 )P(S 3 ) = prp og mere generelt, for eksempel, P(S 1 N 2 S 3 U j 1 N j U j+1 S n ) = prp...qrq... p. 2.2 Stokastiske variable Det helt centrale begreb i sandsynlighedsregningen er stokastiske variable og vektorer. Hvis (E,F,P) er et sandsynlighedsrum er en stokastisk variabel en funktion X defineret på udfaldsrummet E med værdier i R, den reele akse. Hvis udfaldet e E indtræffer antager den stokastiske variabel X værdien X(e). Ved at lægge en simpel betingelse på X kan man ved hjælp af

2.10 2.2 Stokastiske variable sandsynlighedsudsagn beskrive variationen af X - eller fordelingen af X - inden udfaldet e er kendt. Vi indskrænker os til at omtale to typer af stokastiske variable, nemlig diskrete stokastiske variable, som bruges til at modellere tælledata med, og kontinuerte stokastiske variable, der benyttes i forbindelse med kontinuerte data. Ved valget af eksempler i dette afsnit er der igen lagt vægt på at eksemplerne skal være nemme at håndtere matematisk. Kapitel 3 giver en oversigt over nogle af de mest anvendte fordelinger i statistik. Definition 2.4 Lad (E, F, P) være et sandsynlighedsrum. En afbildning X fra E ind i R, X : E R e X(e) kaldes en stokastisk variabel hvis {e E : X(e) x} F, for alle x R. Vi bruger {X x} som forkortelse for {e E : X(e) x}. For en stokastisk variabel X gælder der altså for alle x R at {e E : X(e) x} F. Vi kan derfor beregne sandsynligheden P({e E : X(e) x}) og beskrive variationen af X ved hjælp af sandsynlighedsudsagn, hvilket begrunder følgende definition: Definition 2.5 Funktionen F fra R ind i [0,1] givet ved F : R [0,1] x F(x) = P(X x) kaldes fordelingsfunktionen for X. Helt præcist er F(x) = P({e E : X(e) x}). Sætning 2.3 En fordelingsfunktion F for en stokastisk variabel X har følgende egenskaber : a) F(x) [0,1], x R b) F er voksende: x 1 < x 2 F(x 1 ) F(x 2 ) c) F(x) x 0 og F(x) x 1 d) F er højrekontinuert, det vil sige F(x) = F(x+). Endvidere gælder der P(X ]a,b]) = F(b) F(a) (2.15) P(X = x) = F(x) F(x ). (2.16) I statistikken benytter vi ofte begrebet p-fraktil, som defineret i Definition 2.6 nedenfor, samt resultatet i Sætning 2.4.

2.11 Figur 2.4 Fordelingsfunktionen F for en stokastisk variabel X. Springet af F i x = 1 er P(X = 1). Endvidere er vist udvalgte fraktiler for F: x 0.05 = 2.5, x 0.3 = x 0.4 = 1.0 og x 0.9214 = [1,2]. Definition 2.6 For p [0, 1] defineres p-fraktilen for F som mængden x p = {x R : F(x ) p F(x)} (2.17) Fraktilerne x 0.25 og x 0.75 omtales som henholdsvis nedre og øvre kvartil, mens x 0.5 kaldes medianen. For fraktiler gælder der følgende resultat: Sætning 2.4 Antag, at Y har fordelingsfunktionen F Y samt af X = α +βy (β > 0). Fordelingsfunktionen F X for X er og sammenhængen mellem fraktilerne x p og y p for X og Y er y p = x p α β F X (x) = F Y ( x α β ) (2.18) = { x α β : x x p }. (2.19)

2.12 2.2 Stokastiske variable Eksempel 2.6 Lad P betegne det uniforme sandsynlighedsmål på E = ]0,1[, se Eksempel 2.3, og lad X være defineret ved at X(e) = e, e E = ]0,1[. Da /0, hvis x 0 {e ]0,1[ : X(e) x} = ]0,x], hvis 0 < x < 1 ]0,1[, hvis x 1, og da vi kan finde længderne af intervallerne på højre side i ligningen ovenfor, er X en stokastisk variabel. Ved hjælp af (2.8) ses, at fordelingsfunktionen F for X er 0, hvis x 0 F(x) = P({e E : X(e) x}) = x, hvis 0 < x < 1 1, hvis x 1.. (2.20) Da denne funktion er kontinuert og strengt voksende fås, at i dette tilfælde er x p = p for p ]0,1[. Den stokastiske variabel X siges at være uniformt fordelt på intervallet ]0, 1[, hvilket ofte kort skrives X R(0, 1). Vi skal udelukkende beskæftige os med to typer af stokastiske variable, nemlig diskrete stokastiske variable, der er karakteriseret ved at deres fordelingsfunktioner er trappefunktioner, og kontinuerte stokastiske variable, hvis fordelingsfunktioner er kontinuerte. 2.2.1 Diskrete stokastiske variable Definition 2.7 En stokastisk variabel X siges at være diskret hvis dens fordelingsfunktion F er en trappefunktion med endeligt eller tælleligt mange spring, se Figur 2.5. En trappefunktion kan karakteriseres ved to ting, nemlig ved placeringen og højden af trappetrinnene. Dette er baggrunden for Definition 2.8 Sandsynlighedsfunktionen (tæthedsfunktionen) f for diskret stokastisk variabel X, hvis fordelingsfunktion F har spring i punkterne {x i : i I} hvor I er en endelig eller tællelig mængde, er defineret ved f : R [0,1] x f(x),

2.13 Figur 2.5 Fordelingsfunktionen F og sandsynlighedsfunktionen f for en diskret stokastisk variabel.

2.14 2.2 Stokastiske variable hvor P(X = x i ), hvis x = x i f(x) = 0, ellers. Mængden {x i : i I} omtales som støtten for den diskrete stokastiske variabel X. Sætning 2.5 Sandsynlighedsfunktionen f for en diskret stokastisk variabel X har de følgende tre egenskaber: som a) f(x) 0, x R b) f(x) 0 x {x i : i I}, hvor I er en endelig eller tællelig mængde c) i I f(x i ) = 1 Endvidere kan sandsynligheden P(X A) for hændelsen { X A}, hvor A R, beregnes P(X A) = f(x i ) (2.21) {i I;x i A} Endelig gælder der, at givet en funktion f, der opfylder de tre betingelser, findes der en diskret stokastisk variabel X, så f er sandsynlighedsfunktionen for X. Sætning 2.6 Hvis støtten {x i : i I} for en diskret stokastisk variabel X er indeholdt i mængden {0,1,2,...,} er der følgende sammenhæng mellem fordelingsfunktionen F og sandsynhedsfunktionen f : f(0) = F(0) og Eksempel 2.7 F(x) = x f(i), x = 0,1,2,..., (2.22) i=0 f(x) = F(x) F(x 1), x = 1,2,.... (2.23) Betragt de to kampe på tipskuponen i Eksempel 2.2. Lad X betegne det totale antal point for hjemmeholdene i de to kampe, idet sejr, uafgjort og nederlag - som sædvanlig - giver henholdsvis 3, 1 og 0 point. Vi har da at 0, hvis e = (2,2), 1, hvis e { (X,2),(2,X) }, 2, hvis e = (X,X), X(e) = 3, hvis e { (1,2),(2,1) }, 4, hvis e { (1,X),X,1) }, 6, hvis e = (1,1).

2.15 Under det uniforme sandsynlighedsmål påe, det vil sige hvis de 9 udfald af de to kampe er lige sandsynlige, bliver sandsynlighedsfunktionen for X lig med 1/9, hvis x = 0, 2/9, hvis x = 1, 1/9, hvis x = 2, f(x) = 2/9, hvis x = 3, 2/9, hvis x = 4, 1/9, hvis x = 6, se Figur 2.5. Eksempel 2.8 Betragt Eksempel 2.5 og lad X betegne antallet af hjemmekampe holdet spiller inden første sejr. Da hændelsen S C i = U i N i svarer til uafgjort eller nederlag i det i te hjemmekamp har vi {X = 0} = S 1 {X = 1} = S C 1 S 2. {X = i} = S C 1 SC 2 SC i 1 SC i S i+1. og da P(S C i ) = 1 P(S i) = 1 p ses, idet resulaterne af hjemmekampene er uafhængige, at P(X = i) = (1 p) i p, i = 0,1,.... Det faktum, at vi i forbindelse med definitionen af sandsynlighedsmål er nødt til at introducere uendelige rækker, kan let illustreres i dette eksempel. Antag nemlig, at vi er interesseret i at beregne sandsynligheden for at holdet skal spille et lige antal hjemmekampe inden første hjemmesejr, det vil sige sandsynligheden for hændelsen X {0,2,4,...}. Da hændelsen er en tællig foreningsmængde af de disjunkte mængder {X = 2i}, i = 0,1,..., fås af (2.1), at P(X {0,2,4,...}) = = = p i=0 i=0 P(X = 2i) (1 p) 2i p i=0 ((1 p) 2 ) i.

2.16 2.2 Stokastiske variable Benytter vi nu (A.3) med q = (1 p) 2 fås 1 P(X {0,2,4,...}) = p 1 (1 p) 2 = p 1 p(2 p) = 1 2 p. 2.2.2 Kontinuerte stokastiske variable Definition 2.9 En stokastisk variabel X siges at være kontinuert hvis der findes en integrabel funktion f : R [0, [ x f(x), så fordelingsfunktionen F for X er givet ved F(x) = x f(z)dz, x R. (2.24) Funktionen f kaldes tæthedsfunktionen (sandsynlighedsfunktionen) for X. (Sammenhængen mellem F og f er illustreret i Figur 2.6). Mængden {x R : f(x) > 0} omtales som støtten for X. Sætning 2.7 Tæthedsfunktionen f for en kontinuert stokastisk variabel X har de følgende to egenskaber: a) f(x) 0, x R b) f(x)dx = 1. Endvidere kan sandsynligheden P(X A) for hændelsen {X A}, hvor A R er en målelig mængde, beregnes som P(X A) = A f(x)dx. (2.25) Endelig gælder der, at givet en funktion f, der opfylder de to betingelser, findes der en kontinuert stokastisk variabel X, så f er tæthedsfunktionen for X. Sætning 2.8 Hvis X er en kontinuert stokastisk variabel med tæthedsfunktion f og fordelingsfunktion F gælder der: a) F er kontinuert b) P(X = x) = 0, for alle x R c) Hvis f er kontinuert i x, gælder der at f(x) = F (x)

2.17 Figur 2.6 Fordelingsfunktionen F og tæthedsfunktionen f for en kontinuert stokastisk variabel. Værdien F(1) af F i punktet x = 1 er lig med arealet af det skraverede område i tegningen af f.

2.18 2.2 Stokastiske variable d) Hvis I x er et lille interval af længde x omkring x er P(X I x ) f(x) x, (2.26) se Figur 2.7. Figur 2.7 Illustration af formel (2.26). Arealet af det skraverede område er næsten lig med arealet af firkanten afgrænset af de fuldt optrukne linjer. Eksempel 2.9 Lad f være funktionen givet ved { 1, hvis 0 < x < 1 f(x) = 0, ellers. Da x 0, hvis x 0 f(z)dz = x, hvis 0 < x < 1 1, hvis x 1, ses af (2.20), at f er tæthedsfunktionen for den uniforme fordeling på intervallet ]0,1[.

2.19 2.3 Stokastiske vektorer Definition 2.10 Lad (E,F,P) være et sandsynlighedsrum. En afbildning X fra E ind i R k, X : E R k e X(e) = (X 1 (e),...,x j (e),...,x k (e)) kaldes en stokastisk vektor, hvis komponenterne X j, j = 1,...,k, er stokastiske variable, se Definition 2.4. Definition 2.11 Hvis X = (X 1,...,X k ) er en stokastisk vektor kaldes funktionen F X : R k [0,1] x = (x 1,...,x k ) F X (x), givet ved F X (x) = P(X x) = P(X 1 x 1,...,X k x k ), for fordelingsfunktionen for X. 2.3.1 Diskrete stokastiske vektorer Definition 2.12 Lad X = (X 1,...,X k ) være en stokastisk vektor. Hvis der findes en delmængde {x i : i I} af R k, hvor I er en endelig eller tællelig mængde, således at funktionen opfylder de to betingelser f : R k [0,1] a) f(x) 0 hvis og kun hvis x {x i : i I} b) i I f(x i ) = 1 x f(x) = P(X = x), siges X at være en diskret k-dimensional stokastisk vektor med sandsynlighedsfunktion (eller tæthedsfunktion) f og med støtte {x i : i I}. Hvis A er en delmængde af R k beregnes sandsynligheden for hændelsen {X A} som Eksempel 2.10 P(X A) = f(x i ). {i I:x i A} Betragt igen Eksempel 2.2 vedrørende udfaldet af to kampe på tipskuponen. Lad X 1 og X 2

2.20 2.3 Stokastiske vektorer betegne antallet af point hjemmeholdet får i henholdsvis første og anden kamp. Værdierne som vektoren (X 1,X 2 ) antager på udfaldsrummet E 2.kamp 1 X 2 1 (1,1) (1,X) (1,2) 1.kamp X (X,1) (X,X) (X,2) 2 (2,1) (2,X) (2,2) er (X 1,X 2 ) 2.kamp 1 X 2 1 (3, 3) (3, 1) (3, 0) 1.kamp X (1, 3) (1, 1) (1, 0) 2 (0, 3) (0, 1) (0, 0) Hvis samtlige udfald af de to kampe er lige sandsynlige er (X 1,X 2 ) en diskret stokastisk vektor hvis sandsynlighedsfunktion er konstant - med værdien 1/9 - på støtten {(0,0), (0,1), (0,3), (1,0), (1,1), (1,3), (3,0), (3,1), (3,3)}. 2.3.2 Kontinuerte stokastiske vektorer Definition 2.13 En stokastisk vektor X = (X 1,...,X k ) siges at være kontinuert hvis der findes en integrabel funktion f : R k [0, [ x f(x), så fordelingsfunktionen F for X er givet ved at for alle x = (x 1,...,x k ) R k er F(x) = F(x 1,...,x k ) = x x 1 f(z)dz z =... x k f(z 1,...,z k )dz k...dz 1,. Funktionen f kaldes tæthedsfunktionen (sandsynlighedsfunktionen) for X og mængden {x R k : f(x) > 0} omtales som støtten for X. Hvis A er en målelig delmængde af R k beregnes sandsynligheden for hændelsen {X A} som P(X A) = f(x)dx. A

2.21 Sætning 2.9 Hvis X = (X 1,...,X k ) er en kontinuert stokastisk vektor gælder der at P(X = x) = 0, x R k, og hvis f er kontinuert i x kan tæthedsfunktionen f findes fra F ved partiel differentation, se Afsnit A.3.2, idet f(x) = f(x 1,...,x k ) = k F x 1... x k (x). Eksempel 2.11 Lad E være en delmængde af R 2 hvis areal E = E 1dx 2 dx 1 er endeligt. Den kontinuerte stokastiske vektor (X 1,X 2 ) hvis tæthedsfunktion er 1 f (X1,X 2 )(x 1,x 2 ) = E, hvis (x 1,x 2 ) E 0, ellers, (2.27) kaldes den uniforme fordeling på E. Hvis A er en delmængde af E med areal A har vi P((X 1,X 2 ) A) = f (X1,X 2 )(x 1,x 2 )dx 2 dx 1 A 1 = A E dx 2dx 1 = 1 1dx 2 dx 1 = A E E, sammenlign med (2.8). Lad for eksempel E = ]0,1[ 2 = {(x 1,x 2 ) : 0 < x 1 < 1, 0 < x 2 < 1}. Da E = 1 har den uniforme fordeling på denne mængde tæthedsfunktion { 1, hvis 0 < x1 < 1 og 0 < x 2 < 1 f (X1,X 2 )(x 1,x 2 ) = 0, ellers. Den tilsvarende fordelingsfunktion er F (X1,X 2 )(x 1,x 2 ) = x1 x2 A 0, hvis x 1 0 eller x 2 0 x 1 x 2, hvis 0 < x 1 < 1 og 0 < x 2 < 1 f (X1,X 2 )(z 1,z 2 )dz 2 dz 1 = x 1, hvis 0 < x 1 < 1 og x 2 1 x 2, hvis x 1 1 og 0 < x 2 < 1 1, hvis x 1 1 og x 2 1.

2.22 2.3 Stokastiske vektorer 2.3.3 Marginale fordelinger Fordelingen af X = (X 1,...,X j,...,x k ) omtales som den simultane fordeling, mens fordelingen af X j kaldes den marginale fordeling af X j, j = 1,...,k. En generel sætning siger, at tæthedsfunktionen f X j for den marginale fordeling af X j bestemmes ved at summere eller integrere de øvrige variable, det vil sige x 1,..., x j 1, x j+1,..., x k, ud i den simultane tæthedsfunktion f (X1,...,X k )(x 1,...,x k ). For overskuelighedens skyld formuleres denne sætning blot i tilfældet k = 2 i Sætning 2.10 Lad X = (X 1,X 2 ) være en todimensional stokastisk vektor. i) Hvis X kontinuert er X 1 og X 2 kontinuerte med tæthedsfunktioner f X1 (x 1 ) = f X2 (x 2 ) = f (X1,X 2 )(x 1,x 2 )dx 2 f (X1,X 2 )(x 1,x 2 )dx 1. (2.28) ii) Hvis X diskret med støtte {x i = (x i1,x i2 ) : i I} er X 1 og X 2 diskrete med sandsynlighedsfunktioner f X1 (x 1 ) = f X2 (x 2 ) = f (X1,X 2 )(x i1,x i2 ) {i I : x i1 =x 1 } f (X1,X 2 )(x i1,x i2 ). {i I : x i2 =x 2 } (2.29) Eksempel 2.10 (Fortsat) Ved hjælp af (2.29) finder vi, at marginal fordelingen for X 1 - hjemmeholdets point i den første kamp - har sandsynlighedsfunktion f X1 (0) = f (X1,X 2 )(0,0)+ f (X1,X 2 )(0,1)+ f (X1,X 2 )(0,3) = 1 9 + 1 9 + 1 9 = 1 3 f X1 (1) = f (X1,X 2 )(1,0)+ f (X1,X 2 )(1,1)+ f (X1,X 2 )(1,3) = 1 9 + 1 9 + 1 9 = 1 3 f X1 (3) = f (X1,X 2 )(3,0)+ f (X1,X 2 )(3,1)+ f (X1,X 2 )(3,3) = 1 9 + 1 9 + 1 9 = 1 3, svarende til, at de tre udfald i den første kamp er lige sandsynlige. Af symmetri grunde har X 2 samme sandsynlighedsfuktion som X 1.

2.23 Eksempel 2.11 (Fortsat) Ved hjælp af (2.28) finder vi, at den marginale fordeling for X 1 svarende til den uniforme fordeling på ]0,1[ 2 har tæthedsfunktion f X1 (x 1 ) = f (X1,X 2 )(x 1,x 2 )dx 2 = 1 0 1dx 2 = 1, hvis 0 < x 1 < 1 0dx 2 = 0, ellers, det vil sige, at X 1 er uniformt fordelt på ]0,1[, kort X 1 R(0,1), se Eksempel 2.9. Af symmetri grunde har vi også at X 2 R(0,1). Eksempel 2.12 Lad E være det indre af trekanten med vinklelspidser (0,0), (1,0) og (1,1), det vil sige, at E = {(x 1,x 2 ) R 2 : 0 < x 2 < x 1 < 1}. Da E = 1/2, er tæthedsfunktionen - ifølge (2.27) - for en uniformt fordelt stokastisk vektor (X 1,X 2 ) på E { 2, hvis 0 < x2 < x 1 < 1 f (X1,X 2 )(x 1,x 2 ) = 0, ellers. For fast x 1 ]0,1[ har vi at (x 1,x 2 ) E hvis og kun hvis 0 < x 2 < x 1, så ved hjælp af (2.28) finder vi, at marginal fordelingen for X 1 har tæthedsfunktion f X1 (x 1 ) = f (X1,X 2 )(x 1,x 2 )dx 2 = x 1 0 2dx 2 = 2x 1, hvis 0 < x 1 < 1 0dx 2 = 0, ellers. Tilsvarende, for fast x 2 ]0,1[ har vi at (x 1,x 2 ) E hvis og kun hvis x 2 < x 1 < 1, så den marginale fordeling for X 2 har tæthedsfunktion f X2 (x 2 ) = 1 2dx 1 = 2(1 x 2 ), hvis 0 < x 2 < 1 f (X1,X 2 )(x 1,x 2 )dx 1 = x 2 0dx 1 = 0, ellers.

2.24 2.3 Stokastiske vektorer 2.3.4 Uafhængighed Definition 2.14 De stokastiske variable X 1,...,X j,...,x k er uafhængige hvis og kun hvis hændelserne {X 1 x 1 },...,{X j x j },...,{X k x k } er indbyrdes uafhængige for alle x = (x 1,...,x j,...,x k ) R k, se Definition 2.3. Kriterier for uafhængighed af stokastiske variable kan formuleres ved hjælp af enten fordelingsfunktioner eller tæthedsfunktioner som i Sætning 2.11 De stokastiske variable X 1,...,X j,...,x k er uafhængige hvis og kun hvis en af de følgende betingelser er opfyldt: i) (udtrykt ved fordelingsfunktioner) F (X1,...,X j,...,x k )(x 1,...,x j,...,x k ) = F X1 (x 1 ) F X j (x j ) F Xk (x k ) (2.30) for alle x = (x 1,...,x j,...,x k ) R k. ii) (udtrykt ved tæthedsfunktioner) f (X1,...,X j,...,x k )(x 1,...,x j,...,x k ) = f X1 (x 1 ) f X j (x j ) f Xk (x k ) (2.31) alle x = (x 1,...,x j,...,x k ) R k. Eksempel 2.10 (Fortsat) På side 2.22 fandt vi, at de marginale fordelinger for X 1 og X 2 - antallet af point i henholdsvis første og anden kamp - var identiske, nemlig den uniforme fordeling på mængden {0, 1, 3}. Da f X1 (x 1 ) f X2 (x 2 ) = 1 3 1 3 = 1 9 = f (X 1,X 2 )(x 1,x 2 ), x 1,x 2 {0,1,3}, er X 1 og X 2 stokastisk uafhængige ifølge (2.31). Eksempel 2.11 (Fortsat) På side 2.23 så vi, at hvis(x 1,X 2 ) er uniformt fordelt på ]0,1[ 2, så er den marginale fordeling for både X 1 og X 2 den uniforme fordeling på ]0,1[. Af (2.31) ses, at X 1 og X 2 er stokastisk uafhængige, idet f X1 (x 1 ) f X2 (x 2 ) = 1 1 = 1 = f (X1,X 2 )(x 1,x 2 ), (x 1,x 2 ) ]0,1[ 2.

2.25 Eksempel 2.12 (Fortsat) Af resultaterne - på side 2.23 - vedrørende de marginale fordelinger for en stokastisk vektor (X 1,X 2 ), der uniformt fordelt på E = {(x 1,x 2 ) R 2 : 0 < x 2 < x 1 < 1}, fås, at f X1 (x 1 ) f X2 (x 2 ) = 2x 1 2(1 x 2 ) 2 = f (X1,X 2 )(x 1,x 2 ), (x 1,x 2 ) E, så X 1 og X 2 er ikke stokastisk uafhængige. 2.3.5 Betingede fordelinger Definition 2.15 Hvis X og Y er stokastiske vektorer med simultan tæthedsfunktion f (X,Y) (x,y) og marginale tæthedsfunktioner f X (x) og f Y (y) har den betingede fordeling af Y givet X = x tæthedsfunktionen hvis f X (x) > 0, ellers er den udefineret. f (Y X) (y x) = f (X,Y) X,Y)(x,y), (2.32) f X (x) Bemærkning Hvis X og Y er uafhængige stokastiske vektorer fås at (2.31) og (2.32), at f (Y X) (y x) = f Y (y), det vil sige, at tæthedsfunktionen for Y er uafhængig af om vi har observeret x eller ej. Eksempel 2.12 (Fortsat) Af resultaterne - på side 2.23 - vedrørende en stokastisk vektor (X 1,X 2 ), der uniformt fordelt på E = {(x 1,x 2 ) R 2 : 0 < x 2 < x 1 < 1}, ses, at hvis x 1 ]0,1[, så er f (X2 X 1 )(x 2 x 1 ) = f (X 1,X 2 )(x 1,x 2 ) f X1 (x 1 ) = 2 2x 1 = 1 x 1, hvis 0 < x 2 < x 1, det vil sige, at den betingede fordeling af X 2 givet X 1 = x 1 er den uniforme fordeling på intervallet ]0,x 1 [. Tilsvarende, hvis x 2 ]0,1[ er f (X1 X 2 )(x 1 x 2 ) = f (X 1,X 2 )(x 1,x 2 ) f X2 (x 2 ) = 2 2(1 x 2 ) = 1, hvis x 2 < x 1 < 1, 1 x 2 så den betingede fordeling af X 1 givet X 2 = x 2 er den uniforme fordeling på intervallet]x 2,1[.

2.26 2.4 Middelværdi og varians 2.4 Middelværdi og varians I det foregående afsnit har vi set, at variationen af en stokastisk variabel eller en stokastisk vektor kan beskrives fuldstændigt ved hjælp af dens fordelingsfunktion eller ved hjælp af dens sandsynligheds- eller tæthedsfunktion. Imidlertid er det ofte i sandsynlighedsregning og statistik bekvemt at kunne beskrive vigtige træk ved en fordeling, såsom position og variabilitet, ved hjælp af nogle få numeriske størrelser. De vigtigste af disse størrelser er middelværdi, varians og kovarians, som alle omtales nedenfor. Definition 2.16 Lad X være en stokastisk variable og lad g : R R være en funktion, således at Y = g(x) er en stokastisk variabel. Hvis X er en diskret stokastisk variabel med støtte i {x i : i I}, defineres middelværdien af Y = g(x) som forudsat at summen i I g(x i ) f(x i ) er endelig. Specielt er forudsat at summen i I x i f(x i ) er endelig. EY = Eg(X) = g(x i ) f(x i ), (2.33) i I EX = x i f(x i ), (2.34) i I Hvis X er en kontinuert stokastisk variabel, defineres middelværdien af Y = g(x) som EY = Eg(X) = forudsat at integralet g(x) f(x)dx er endeligt. Specielt er EX = g(x) f(x)dx, (2.35) x f(x)dx, (2.36) forudsat at integralet x f(x)dx er endeligt. Lad X = (X 1,...,X k ) være en stokastisk vektor. Hvis de k komponenter i X alle har middelværdi, kaldes vektoren EX = (EX 1,...,EX k ) bestående af middelværdierne for middelværdivektoren for X. Hvis h : R k R være en funktion, således at Y = h(x) er en stokastisk variabel har vi i analogi med (2.33) og (2.35) følgende definitioner: Hvis X er en diskret stokastisk vektor med støtte i {x i : i I}, defineres middelværdien af Y = h(x) som EY = Eh(X) = h(x i ) f(x i ), i I

forudsat at summen i I h(x i ) f(x i ) er endelig. Hvis X er en kontinuert stokastisk vektor, defineres middelværdien af Y = h(x) som forudsat at integralet Rk h(x) f(x)dx er endeligt. 2.27 EY = Eh(X) = h(x) f(x)dx, Rk (2.37) Bemærkning Da f(x i ) = 1, ses det af formel (2.34), at EX kan skrives som i I EX = x i f(x i ) i I f(x i ), i I det vil sige, at middelværdien af en diskret stokastisk X er et vægtet gennemsnit af de værdier x i, som X kan antage, med vægte f(x i ), som er sandsynligheden for at X antager værdien x i, og EX er en central værdi i fordelingen for X. En lignende fortolkning af middelværdien EX for en kontinuert stokastisk variabel X baserer sig på formel (2.36), idet f(x)dx = 1. Sætning 2.12 Hvis X og Y er stokastiske variable med middelværdi er E(X +Y) = EX + EY (2.38) og E(a+bX) = a+bex, hvor a,b R er konstanter. (2.39) Hvis X og Y er uafhængige stokastiske variable og g og h er funktioner, er E{g(X)h(Y)} = Eg(X)Eh(Y), forudsat at middelværdierne eksisterer. Hvis specielt g(x) = x og h(y) = y er E{X Y } = EX EY. Definition 2.17 Lad X og Y være stokastiske variable og X = (X 1,...,X k ) en stokastisk vektor. Variansen og standardafvigelsen (spredningen) af X defineres som henholdsvis Var X = E{(X EX) 2 }

2.28 2.4 Middelværdi og varians og σ(x) = Var X. Størrelserne Cov(X,Y) = E{(X EX)(Y EY)} og Cor(X,Y) = Cov(X,Y) Var X VarY ( [ 1,1]) omtales som henholdsvis kovariansen og korrelationen mellem X og Y mens (k k) matricen med elementer { Cov(Xi,X j ) hvis i j (CovX) i j = Var X i hvis i = j kaldes kovariansmatricen for X. Bemærkning Som bemærket ovenfor kan middelværdien EX af en stokastisk variable betragtes som en slags gennemsnit af de mulige værdier af X. For at beskrive hvorledes X varierer omkring EX synes det naturligt at betragte den stokastiske variabel (X EX) 2. Variansen Var X ses blot at være middelværdien af denne stokastiske variabel. På samme måde varierer den stokastiske vektor(x,y) omkring (EX,EY). Middelværdien af den stokastiske variabel (X EX)(Y EY), kovariansen Cov(X,Y) mellem X og Y, er et mål for sammenhængen mellem værdierne af X og Y og korrelationen Cor(X,Y) mellem X og Y måler denne sammenhæng relativt til variationen af X og Y. Af definitionen fremgår, at korrelationen varierer i intervallet [ 1, 1]. Hvis korrelationen er tæt på 1 optræder store (små) værdier af X sammen med store (små) værdier afy, og hvis korrelationen er tæt på 1 optræder store (små) værdier af X sammen med små (store) værdier af Y. Sætning 2.13 Hvis variansen for den stokastiske variabel X eksisterer gælder der: Var X = EX 2 (EX) 2, (2.40) Var(a+bX) = b 2 Var X, hvor a,b R er konstanter. (2.41) Hvis X og Y er stokastiske variable med varians, gælder der: Var(X +Y) = Var X +VarY + 2Cov(X,Y), Cov(X,Y) = E (X Y) EX EY, (2.42)

2.29 Hvis desuden X og Y er uafhængige, gælder der, at Cor(X,Y) = Cov(X,Y) = 0, og X og Y siges at være ukorrelerede. Hvis X og Y er ukorrelerede - specielt hvis X og Y er uafhængige - gælder der, at Var(X +Y) = Var X +VarY. (2.43) Sætning 2.14 Antag, at X 1,...,X n er uafhængige og identisk fordelte stokastiske variable med middelværdi µ og varians σ 2. Hvis X betegner gennemsnittet (X 1 + +X n )/n er E X = µ og Var X = σ 2 n. Eksempel 2.7 (Fortsat) Ved hjælp af sandsynlighedsfunktionen - side 2.15 - for antallet af point X for hjemmeholdene i de to kampe og formel (2.34) fås, at middelværdien af X er Da EX = 0 1 9 + 1 2 9 + 2 1 9 + 3 2 9 + 4 2 9 + 6 1 9 = 24 9 = 8 3. EX 2 = 0 2 1 9 + 12 2 9 + 22 1 9 + 32 2 9 + 42 2 9 + 62 1 9 = 92 9, fås at (2.40), at variansen af X er Var X = EX 2 (EX) 2 = 92 ( ) 8 2 9 92 64 = = 28 3 9 9 og at spredningen af X er σ(x) = 28 9. Eksempel 2.10 (Fortsat) Af sandsynlighedsfunktionen på side 2.22 for X 1 - hjemmeholdets point i den første kamp - og formel (2.34) ses, at middelværdien for X 1 er EX 1 = 0 1 3 + 1 1 3 + 3 1 3 = 4 3.

2.30 2.4 Middelværdi og varians Da EX 2 1 = 0 2 1 3 + 12 1 3 + 32 1 3 = 10 3, fås af (2.40), at variansen for X 1 er Var X 1 = EX1 2 (EX 1 ) 2 = 10 ( ) 4 2 3 30 16 = = 14 3 9 9 samt at spredningen for X 1 er 14 σ(x 1 ) = 9. Da X 2 - hjemmeholdets point i den anden kamp - har samme fordeling som X 1, er EX 2 = 4 3 og Var X 2 = 14 9. Disse resultater kunne vi have benyttet til af finde middelværdi og varians for hjemmeholdenes point X i de to kampe, idet X = X 1 + X 2. Af (2.38) fås EX = EX 1 + EX 2 = 4 3 + 4 3 = 8 3 og idet X 1 og X 2 er uafhængige, fås af (2.43), at Var X = Var X 1 +Var X 2 = 14 9 + 14 9 = 28 9, hvilket vi også fandt ovenfor i fortsættelsen af Eksempel 2.7. Eksempel 2.9 (Fortsat) Middelværdien for en stokastisk variable X, der er uniformt fordelt på]0, 1[, finder vi ved hjælp af formel (2.36) og tæthedsfunktionen på side 2.18 til Da fås af (2.40), at variansen af X er EX = EX 2 = 1 0 1 0 x 1dx = x 2 1dx = VarX = EX 2 (EX) 2 = 1 3 ( 1 2 [ ] 1 1 2 x2 = 1 0 2. [ ] 1 1 3 x3 = 1 0 3 ) 2 = 4 3 12 = 1 12 og dermed at spredningen af X er σ(x) = 1 12.

Eksempel 2.12 (Fortsat) 2.31 De marginale tæthedsfunktioner for en stokastisk vektor (X 1,X 2 ) der er uniformt fordelt på mængden E = {(x 1,x 2 ) R 2 : 0 < x 2 < x 1 < 1} findes på side 2.12. Ved hjælp af disse og formel (2.40) fås, at og Da endvidere og EX 2 2 = fås ved hjælp af (2.40), at og EX 2 = EX 1 = 1 0 1 0 x 1 2x 1 dx 1 = x 2 2(1 x 2 )dx 2 = 1 EX1 2 = x 2 1 2x 1dx 1 = 1 0 0 x 2 22(1 x 2 )dx 2 = Var X 1 = EX 2 1 (EX 1) 2 = 1 2 ( 2 3 [ ] 2 1 3 x3 1 = 2 0 3 [ x 2 2 2 ] 1 3 x3 2 = 1 0 3. [ ] 2 1 4 x4 1 = 2 0 4 = 1 2 [ 2 3 x3 2 2 ] 1 4 x4 2 = 2 0 3 2 4 = 1 6, ) 2 = 9 8 18 = 1 18 Var X 2 = EX2 2 (EX 2 ) 2 = 1 ( ) 1 2 6 = 3 2 3 18 = 1 18. For at finde kovariansen mellem X 1 og X 2 benytter vi (2.42) og starter derfor med at finde E(X 1 X 2 ). Af (2.37) fås, at E(X 1 X 2 ) = = = 1 0 1 0 x 1 x 2 f (X1,X 2 )(x 1,x 2 )dx 2 dx 1 = x 1 x 1 ( 2x 2 dx 2 )dx 1 = 0 x 3 1 dx 1 = 1 0 [ ] 1 1 4 x4 1 = 1 0 4. Af (2.42) fås herefter, at kovariansen mellem X 1 og X 2 er 1 x 1 0 x 1 [ x 2 2 ] x1 0 dx 1 0 x 1 x 2 2dx 2 dx 1 Cov(X 1,X 2 ) = E(X 1 X 2 ) EX 1 EX 2 = 1 4 2 3 1 3 = 9 8 36 = 1 36, og dermed at korrelationen mellem X 1 og X 2 er 1 Cor(X 1,X 2 ) = Cov(X 1,X 2 ) = 36 Var X1 Var X 2 1 1 18 18 = 1 2.

2.32 Opgaver Opgaver til Kapitel 2 Opgave 2.1 Lad A og B være hændelser således, at P(A) = 0.6,P(B) = 0.5 og P(A B) = 0.8. Find sandsynlighederne for følgende hændelser: A B, A c, B c,a c B c og A c B c. Vink: A c B c =(A B) c og A c B c =(A B) c. Opgave 2.2 Hvor mange udfald har spillet kast med 3 mønter? Betragt den uniforme sandsynlighedsmål på udfaldsrummet, det vil sige antag at alle udfald er lige sandsynlige og beregn: a) sandsynligheden for at alle mønter viser plat, b) sandsynligheden for at mindst en mønt viser krone, c) sandsynligheden for at netop en mønt viser krone. Besvar samme spørgsmål for spillet kast med n mønter. Hvor stor skal n være, for at sandsynligheden for at få mindst en krone er større end 95%? Opgave 2.3 Betragt spillet kast med 3 terninger. Betragt det uniforme sandsynlighedsmål på udfaldsrummet og beregn følgende: a) sandsynligheden for at alle terninger viser 6 øjne, b) sandsynligheden for at mindst en terning viser 6 øjne, c) sandsynligheden for at netop en terning viser 6 øjne. Beregn de samme sandsynligheder for spillet kast med n terninger og bestem det mindste n således, at sandsynligheden for at mindst en terning viser 6 øjne er større end 95%. Opgave 2.4 Betragt det uniforme sandsynlighedsmål påe =[0, 10] og hændelserne A =[0, 5], B = [1,7] og C = [4,9]. Undersøg om A og B er uafhængige, om A og C er uafhængige, og om B og C er uafhængige. Opgave 2.5 I en håndboldklub er der i aldersklassen 12-14 år 30% piger og 70% drenge og 10% af pigerne er venstrehåndede mens den tilsvarende procent for drengene er 20. a) Hvad er sandsynligheden for at en venstrehåndet spiller er en pige? b) Hvad er sandsynligheden for at en højrehåndet spiller er en dreng? Opgave 2.6 En af de klassiske illustrationer af Bayes formel vedrører 3 kommoder, der hver har to skuffer. I den første kommode er der en guldmønt i hver af de to skuffer, i den anden kommode er der en guldmønt i den ene skuffe og en sølvmønt i den anden og endelig er der en

2.33 sølvmønt i hver af skufferne i den tredje kommode. En af kommoderne vælges tilfældigt og en skuffe åbnes og viser sig at indeholde en guldmønt. Hvad er sandsynligheden for at den anden skuffe også indeholder en guldmønt? Gæt først på hvad sandsynligheden er og beregn den dernæst ved hjælp af Bayes formel. Opgave 2.7 Der kastes to terninger samtidigt. Lad Y være den stokastiske variabel Y = X 1 +X 2, hvor X 1 er antal øjne på terning 1 og X 2 er antal øjne på terning 2. a) Tegn udfaldsrummet E for kastet med de to terninger og udfaldsrummet for Y i samme diagram. b) Bestem sandsynlighedsfunktionen for Y, det vil sige punktsandsynlighederne f(y) = P(Y = y) for alle mulige observerbare værdier y af Y. c) Hvad er sansynligheden for, at summen af øjne på de to terninger er 7, og at summen er større end 7? d) Hvad er forskellen på sandsynligheden for 2 3 ere, og sandsynligheden for Y = 6? Opgave 2.8 Antag, at X R(0,1). Find sandsynligheden for følgende hændelser: a) 0.2 X 0.8 b) X 0.7 c) 0.2 X 0.8 og X 0.7 d) 0.2 X 0.8 eller X 0.7. Opgave 2.9 Et jokertal er et syvcifret tal, hvor hvert ciffer er et af tallene 0,1,...,9. Spiller man JOKER er antallet af rigtige lig med antallet af cifre fra højre mod venstre, der stemmer overens med jokertallet. Er jokertallet for eksempel 1234567 og man har tallet 6494567 er der fire rigtige. Har man derimod tallet 1234569 har man ingen rigtige. a) Find sandsynligheden for at have henholdsvis 1, 2, 3, 4, 5, 6, 7 og 0 rigtige. b) Hvad er sandsynligheden for at have mindst 4 rigtige? Antag, at man spiller JOKER i tre på hinanden følgende uger. c) Hvad er sandsynligheden for at have mindst 4 rigtige i præcis én gang i løbet af de tre uger? d) Hvad er sandsynligheden for at have mindst 4 rigtige i mindst én gang i løbet af de tre uger? e) Beregn sandsynlighederne i spørgsmål a) og b) ved hjælp af funktion POTENS i Excel, idet x n =POTENS(x;n).

2.34 Opgaver I Excel kan binomialkoefficenten, der for ikke-negative tal n og x med n x er ( ) n n! = x x!(n x)!, hvor x! = 1 2 x, hvis x > 0 og hvor 0! = 1, beregnes ved hjælp af funktionenkombin som ( ) n =KOMBIN(n;x). x ( ) n Binomialkoefficienten angiver - som bekendt - antallet af måder hvorpå man kan udtage x en delmængde bestående af x elementer fra en mængde bestående af n elementer. Opgave 2.10 Betragt en tipskupon bestående af 13 kampe. a) Gør rede for, at antallet af forskellige tegnfordelinger er 3 13. b) Lad x være et af tallene 0,1,...,13. Gør rede for, at antallet af tegnfordelinger med x rigtige er ( ) 13 1 x 2 13 x. x c) Lad X angive antallet af rigtige tegn, hvis tipskuponen udfyldes tilfældigt. Vis, at P(X = x) = ( 13 x )( 1 3 og beregn disse sandsynligheder ved hjælp af Excel. ) x ( ) 2 13 x, x = 0,1,...,13, 3 Opgave 2.11 Lav de samme beregninger som i Opgave 2.10 for en tipskupon bestående af 12 kampe. Opgave 2.12 På ODDSET kan man spille systemet 3 ud af 4 på DEN LANGE, det vil sige, at man får udbetalt gevinst, hvis man tipper mindst 3 ud af 4 kampe rigtige. Hvad er sandsynligheden for gevinst, hvis tegnene i de 4 kampe vælges tilfældigt? Opgave 2.13 En række i LOTTO består af 7 af de første 36 hele positive tal. a) Gør rede for, at antallet af mulige rækker er ( ) 36. 7

b) Lad x være et af tallene 0,1,...,7. Gør rede for, at antallet af rækker med x rigtige er ( )( ) 7 29. x 7 x 2.35 c) Lad X betegne antallet af rigtige på en enkelt række på lottokuponen hvis de 7 numre vælges tilfældigt. Vis, at P(X = x) = og beregn disse sandsynligheder ved hjælp af Excel. ( )( 7 29 ) x 7 x ( ) 36, x = 0,1,...,7, 7 Opgave 2.14 Antag, at en tipsekspert angiver følgende procenter for tegnfordelingen i de 13 kampe på tipskuponen: kamp 1 X 2 1 70 20 10 2 65 20 15 3 40 20 40 4 50 10 40 5 50 30 20 6 10 30 60 7 75 20 5 8 70 15 15 9 60 20 20 10 55 30 15 11 30 50 20 12 45 30 25 13 40 35 25 Lav ved hjælp af Excel funktionen SLUMP, der frembringer tilfældige tal, en tipskupon ud fra tipsekspertens procentfordeling. Opgave 2.15 A er en hændelse med sandsynlighed p. X er en stokastisk variabel, defineret ved { 1, hvis e A X(e) = 1, hvis e A c. Tegn fordelingsfunktionen for X. Vis, at EX = 2p 1 og at VarX = 4p(1 p).

2.36 Opgaver Opgave 2.16 I mange hasardspil vædder man om, at en hændelse A indtræffer. Gevinsten ved indsatsen 1 er X(e) = 1 p p, hvis e A 1 hvis e A c, hvor p = P(A). Vis, at EX = 0. Vis desuden, at VarX = (1 p)/p samt at variansen vokser, når p aftager. Opgave 2.17 En todimensionel diskret stokastisk vektor (X,Y) har sandsynlighedsfunktion som anført i nedenstående skema X\Y 0 1 2 0 0.10 0.05 0.10 1 0.10 0.10 0.10 2 0.07 0.08 0.05 3 0.05 0.12 0.08 a) Find sandsynlighedsfunktionen for X og beregn EX [1.45] og Var X [1.2475]. b) Find sandsynlighedsfunktionen for Y og beregn EY [1.01] og Var Y [0.6499]. c) Find E(XY) [1.50] og Cov (X,Y) [0.0355]. d) Er X og Y uafhængige? Opgave 2.18 Lad den simultane tæthedsfunktion for X 1 og X 2, begge med udfaldsrum (0,+ ), være givet ved f (X1,X 2 )(x 1,x 2 ) = λ 1 λ 2 e (λ 1x 1 +λ 2 x 2 ). a) Vis at både X 1 s og X 2 s marginale fordeling er en eksponentialfordeling. b) Hvad er parameterne i X 1 s og X 2 s marginale fordelinger? c) Er X 1 og X 2 uafhængige? Opgave 2.19 Lad den simultane tæthedsfunktion for X 1 og X 2, med udfaldsrum {0 X 1 1}og {0 X 2 1}, være givet ved f (X1,X 2 )(x 1,x 2 ) = x 1 + x 2. a) Bestem de marginale fordelinger af X 1 og X 2. b) Er X 1 og X 2 uafhængige? c) Beregn middelværdi og varians af X 1 og X 2 samt korrelationen mellem X 1 og X 2.

3 Specielle fordelinger 3.1 3 Specielle fordelinger I Kapitel 2 blev begreberne diskrete og kontinuerte fordelinger, middelværdi og varians introduceret. Som nævnt i kapitlet blev eksemplerne til illustration af disse begreber ikke valgt ud fra et anvendelsessynspunkt men derimod således at de fra et matematisk synpunkt var simple. I dette kapitel introduceres de fordelinger som oftest anvendes i statistik. Kapitlet skal ses som et lille katalog over definitionen af og egenskaber ved fordelingerne, hvorimod anvendelsen af nogle af fordelingerne omtales i senere kapitler. De kontinuerte fordelinger, der omtales i Afsnit 3.1 er alle relateret til den vigtigste fordeling i statistikken, nemlig normalfordelingen. Enkelte af de relatere fordelinger er dog også af selvstændig interesse. Foruden definitionen af fordelingerne omtales deres middelværdi og varians, deres relation til normalfordelingen, tabelopslag i Statistical Tables samt beregninger i Excel. For de diskrete fordelinger i Afsnit 3.2 omtales foruden definitionen også beregningsformler for sandsynlighedsfunktionen, middelværdi og varians samt beregninger i Excel. 3.1 Normalfordelingen og relaterede fordelinger 3.1.1 Normalfordelingen Definition En kontinuert stokastisk variabel X er normalfordelt med middelværdi µ ( R) og varians σ 2 (> 0), hvis tæthedsfunktionen for X er f X (x) = µ)2 1 e (x2σ 2, x R. (3.1) 2πσ 2 Fordelingen betegnes N(µ,σ 2 ), og hvis X har tæthedsfunktionen (3.1) skriver vi X N(µ,σ 2 ). Fordelingen N(0,1) refereres til som standard normalfordelingen eller u-fordelingen. Dens tæthedsfunktion betegnes traditionelt med ϕ og fordelingsfunktionen med Φ, det vil sige ϕ(x) = 1 2π e x2 2, x R (3.2)

3.2 3.1 Normalfordelingen og relaterede fordelinger og Φ(x) = x 1 2π e z2 2 dz, x R. (3.3) Tætheden for standard normalfordelingen er symmetrisk omkring 0: ϕ( x) = ϕ(x), x R og det afspejler sig i fordelingsfunktionen ved at Φ( x) = 1 Φ(x), x R. (3.4) Hvis X N(µ,σ 2 ) kan tæthedsfunktionen og fordelingsfunktionen for X udtrykkes ved de tilsvarende størrelser for standard normalfordelingen, nemlig som henholdsvis f X (x) = 1 σ ϕ(x µ σ ) (3.5) og F X (x) = Φ( x µ ). (3.6) σ Figur 3.1 Tæthedsfunktionen for N ( 0,σ 2) for henholdsvis σ 2 = 0.5, 1.0 og 2.0. Middelværdi og varians

3.3 Hvis X N(µ,σ 2 ) gælder der EX = µ (3.7) og VarX = σ 2. (3.8) Fordelingsresultater Lad X 1,...,X n være uafhængige stokastiske variable så X i N(µ i,σi 2 ), i = 1,...,n. Hvis Y er en affin funktion af X-erne, det vil sige at Y er af formen hvor c 0,...,c n er konstanter, har vi Y = c 0 + c 1 X 1 + +c n X n, Y N(c 0 + c 1 µ 1 + +c n µ n,c 2 1σ1 2 + +c2 nσn 2 ). (3.9) Hvis yderligere X-erne er identisk fordelte, det vil sige X i N(µ,σ 2 ), har vi specielt, at X = Bemærk endelig, at (3.9) medfører, at Tabeller n i=1x i N(nµ,nσ 2 ) og X = 1 n X N(µ,σ 2 ) X µ σ n i=1 X i N(µ, σ 2 ). (3.10) n N(0,1). (3.11) Hvis u p og x p betegner p-fraktilen for henholdsvis N(0,1) fordelingen og N(µ,σ 2 ) fordelingen er u p = x p µ σ. (3.12) Fraktilerne u p for standard normalfordelingen har følgende sammenhæng med de såkaldte probits Da u p = Φ 1 (p) er (3.13) ækvivalent med probit(p) = u p + 5, p [0,1]. (3.13) Φ 1 (p) = probit(p) 5. (3.14) Med andre ord kan man fra en tabel over probits finde værdien af funktionen Φ og dens inverse Φ 1 ved hjælp af formlerne (3.13) og (3.14). I mange ældre bøger om sandsynlighedsteori og statistik var det standard måden at tabellere funktionerne Φ og Φ 1. I Statistical Tables findes der imidlertid direkte tabeller for Φ(side 1) og Φ 1 (siderne 2-4). Ved hjælp af tabellen over Φ ses det for eksempel, at Φ(2.57) = 0.9949

3.4 3.1 Normalfordelingen og relaterede fordelinger og Φ( 1.96) = 1 Φ(1.96) = 1 0.9750 = 0.0250. Som en illustration af brugen af tabellen over Φ 1 har vi for eksempel at Φ 1 (0.005) = 2.576 og Φ 1 (0.975) = 1.960. Excel Hvis X N(µ,σ 2 ) kan tæthedsfunktionen og fordelingsfunktionen for X beregnes ved hjælp af funktionennormfordeling, idet f X (x) =NORMFORDELING(x; µ;σ;falsk) og F X (x) =NORMFORDELING(x; µ;σ;sand). Bemærk, at i kaldet af funktionen angives spredningen σ og altså ikke variansen σ 2. Specielt har vi ϕ(x) = NORMFORDELING(x; 0; 1; FALSK) og Φ(x) = NORMFORDELING(x; 0; 1; SAND). Fraktilen x p = F 1 (p) beregnes ved hjælp af funktionennorminv, idet x p =NORMINV(p; µ;σ) specielt u p =NORMINV(p;0;1). 3.1.2 Den todimensionale normalfordeling Definition En kontinuert stokastisk vektor X = (X 1,X 2 ) er todimensionalt normalfordelt med middelværdi vektor µ = (µ 1, µ 2 ) og kovariansmatriks { } σ 2 1 ρσ 1 σ 2 Σ = ρσ 1 σ 2 σ 2 2

hvis tætheden for X er f X (x) = 1 2π (1 ρ 2 )σ1 2σ 2 2 Middelværdi, varians og korrelation 3.5 { ( )} exp 1 (x1 µ 1 ) 2 2ρ(x 1 µ 1 )(x 2 µ 2 ) 2(1 ρ 2 ) σ1 2 σ 1 σ 2 + (x 2 µ 2 ) 2, x R 2. σ2 2 Hvis X N 2 (µ,σ) er middelværdivektoren og kovariansmatricen for X Desuden er korrelationen mellem X 1 og X 2 Marginale og betingede fordelinger (3.15) EX = µ, (3.16) CovX = Σ. (3.17) Cor(X 1,X 2 ) = ρ. (3.18) Hvis X = (X 1,X 2 ) N 2 (µ,σ) er de marginale fordelinger igen normalfordelinger, idet Ligeledes er de betingede fordelinger normalfordelinger, idet X i N(µ i,σi 2 ), i = 1,2. (3.19) og X 1 X 2 = x 2 N(µ 1 +(x 2 µ 2 ) ρσ 1 σ 2,σ 2 1(1 ρ 2 )) (3.20) X 2 X 1 = x 1 N(µ 2 +(x 1 µ 1 ) ρσ 2 σ 1,σ 2 2 (1 ρ2 )). (3.21) 3.1.3 χ 2 -fordelingen Definition χ 2 -fordelingen med f frihedsgrader, betegnet χ 2 ( f), er et specialtilfælde af gamma fordelingen Γ(α,λ), som er en kontinuert fordeling på ]0, [ med tæthedsfunktion γ(x;α,λ) = λ α Γ(α) xα 1 e λx, x ]0, [. (3.22) Her er α > 0, λ > 0 og Γ betegner gamma funktionen Γ(α) = 0 x α 1 e x dx, α > 0. Mere præcist er χ 2 ( f) = Γ( f/2,1/2). I anvendelser af χ 2 -fordelingen i statistik i modeller baseret på normalfordelingen er tæthedsfunktionen for fordelingen kun af sekundær interesse, idet den primære interesse vedrører fordelingens fraktiler.

3.6 3.1 Normalfordelingen og relaterede fordelinger Figur 3.2 Tæthedsfunktionen for χ 2 ( f) for henholdsvis f = 2, 4, 6 og 8. Hvis Y er en stokastisk variabel således, aty/σ 2 χ 2 ( f), siger vi ofte, at Y er σ 2 χ 2 ( f) fordelt og hvis Z er en stokastisk variabel så f Z/σ 2 χ 2 ( f), siger vi, at Z er σ 2 χ 2 ( f)/ f fordelt. Middelværdi og varians og Hvis X χ 2 ( f) gælder der, at EX = f (3.23) VarX = 2 f. (3.24) Fordelingsresultater Hvis X 1 og X 2 er uafhængige stokastiske variable gælder der, at X i χ 2 ( f i ), i = 1,2 X 1 + X 2 χ 2 ( f 1 + f 2 ). (3.25) Den fundamentale sammenhæng mellem normalfordelingen og χ 2 -fordelingen er resultatet: U N(0,1) U 2 χ 2 (1). (3.26) Ved at kombinere resultaterne (3.11), (3.25) og (3.26) ses det, at hvis X 1,...,X n er uafhængige og N(µ,σ 2 ) fordelte, da er n (X i µ) 2 i=1 σ 2 χ 2 (n),

eller ækvivalent hermed n i=1 3.7 (X i µ) 2 σ 2 χ 2 (n). (3.27) Erstattes middelværdien µ med gennemsnittet X = (X 1 + + X n )/n af X-erne kan det vises, at n i=1 (X i X ) 2 σ 2 χ 2 (n 1) (3.28) og, yderligere, at de stokastiske variable X og n (X i X ) 2 er stokastisk uafhængige. Det følger fra (3.28), at s 2 (X) = 1 n 1 n i=1 i=1 (X i X ) 2 σ 2 χ 2 (n 1)/(n 1) (3.29) samt at de to stokastiske variable X og s 2 (X), der i statistik benyttes som estimatorer for henholdsvis middelværdien µ og variansen σ 2, er stokastisk uafhængige. Tabeller Fordelingerne χ 2 ( f) og χ 2 ( f)/ f er tabelleret i Statistical Tables på siderne 6-9 og siderne 10-13. Som illustrationer har vi - med indlysende notation - at og Excel F χ 2 (3)(7.81) = 0.95, F 1 (0.60) = 8.35, χ 2 (8) F χ 2 (5)/5(0.1662) = 0.025 F 1 (0.95) = 1.7522. χ 2 (12)/12 Fordelingsfunktionen og fraktiler i fordelingerne χ 2 ( f) og χ 2 ( f)/ f kan beregnes ved hjælp af funktionernechifordeling ogchiinv, idet og F χ 2 ( f) (x) =1 CHIFORDELING(x;f), F χ 2 ( f)/ f (x) =1 CHIFORDELING(f x;f), F 1 (p) =CHIINV(1 p;f) χ 2 ( f) F 1 (p) =CHIINV(1 p;f)/f. χ 2 ( f)/ f Bemærk, at begge funktioner beregner halesandsynligheder og der justeres for dette i de fire formler ovenfor.

3.8 3.1 Normalfordelingen og relaterede fordelinger 3.1.4 t-fordelingen Definition Hvis U og Z er to uafhængige stokastiske variable således at U N(0,1) og Z χ 2 ( f)/ f, er størrelsen t = U Z (3.30) t-fordelt med f frihedsgrader og vi skriver t t( f). Symbolsk kan definitionen af t-fordelingen gengives som t( f) = N(0,1) χ 2 ( f)/ f, hvis vi husker på at nævner og tæller symboliserer uafhængige stokastiske variable. Fordelingen kaldes undertiden Student fordelingen eller Student s t-fordeling. Som for χ 2 -fordelingen er det fraktilerne for t( f)-fordelingen, der er af primær interesse i forbindelse med inferens i modeller baseret på normalfordelingen, og ikke selve tæthedfunktionen, som er f t( f) (x) = hvor B betegner beta funktionen B(α 1,α 2 ) = 1 f B(1/2, f/2) (1+ f 1 x 2 ) ( f+1)/2, x R, 1 0 x α 1 1 (1 x) α 2 1 dx = Γ(α 1)Γ(α 2 ) Γ(α 1 + α 2 ). (3.31) t( f)-fordelingen konvergerer i fordeling mod N(0, 1) fordelingen for f. Fordelingsresultater Antag, at X 1,...,X n er uafhængige og identisk N(µ,σ 2 ) fordelte og lad X og s 2 (X) betegne henholdsvis den empiriske middelværdi og varians. Det følger da af (3.10), (3.29) og (3.30) samt af uafhængigheden af X og s 2 (X), at t = X µ t(n 1). (3.32) s 2 (X)/n Tabeller Tætheden for t( f)-fordelingen er symmetrisk omkring 0,og det medfører, at F t( f) ( x) = 1 F t( f) (x), x R, (3.33) hvor F t( f) betegner fordelingsfunktionen for t( f)-fordelingen. Hvis t p ( f) betegner p-fraktilen for t( f)-fordelingen medfører formel (3.33), at t 1 p ( f) = t p ( f), p ]0,1[. (3.34)

3.9 Figur 3.3 Tæthedsfunktionen for t ( f) for henholdsvis f = 1, 2, 4 og 8. På grund af (3.34) er det nok at tabellere p-fraktilerne for t( f)-fordelingen for p 0.5. En sådan tabel findes på side 5 i Statistical Tables. For eksempel har vi hvilket ved hjælp af (3.33) giver Desuden har vi for eksempel at og derfor - ved hjælp af (3.34) - at F t(6) (1.440) = 0.90, F t(6) ( 1.440) = 0.10. t 0.975 (17) = F 1 t(17) (0.975) = 2.110 t 0.025 (17) = F 1 t(17) (0.025) = 2.110. Endelig bør man være opmærksom på, at den sidste række i tabellen giver mulighed for at finde sandsynligheder af formen P( t( f) x), hvor t( f) symboliserer en t( f) fordelt stokastisk variabel. Som illustration har vi P( t(10) 1.372) = 0.20.

3.10 3.1 Normalfordelingen og relaterede fordelinger Excel Funktionen TFORDELING beregner to forskellige sandsynligheder afhængig af det tredje argument i kaldet af funktionen. Da beregnes fordelingsfunktionen som og - ved hjælp af (3.33) - som Benyttes2som tredje argument beregnes TFORDELING(x;f;1) = P(t( f) x), x 0, F t( f) (x) =1 TFORDELING(x;f;1), hvis x 0 F t( f) (x) =TFORDELING( x;f;1), hvis x < 0. TFORDELING(x;f;2) = P( t( f) x), x 0. Værdien af funktionentinv er bestemt ved ligningen så fraktilerne kan beregnes som t p ( f) = F 1 t( f) (p) = p = P( t( f) TINV(p;f)), { TINV(2 (1 p);f), hvis p 0.5 TINV(2 p;f), hvis p < 0.5. 3.1.5 F-fordelingen Definition Lad Z 1 og Z 2 være to uafhængige stokastiske variable så Z i χ 2 ( f i )/ f i, i = 1,2. Da er den stokastiske variabel F = Z 1 Z 2 (3.35) F-fordelt med ( f 1, f 2 ) frihedsgrader, eller med f 1 frihedsgrader i tælleren og f 2 frihedgrader i nævneren. (I dansk litteratur betegnes fordelingen undertiden som v 2 -fordelingen med ( f 1, f 2 ) frihedsgrader eller kort v 2 ( f 1, f 2 ).) Symbolsk er definitionen F( f 1, f 2 ) = χ2 ( f 1 )/ f 1 χ 2 ( f 2 )/ f 2, hvor tæller og nævner symboliserer uafhængige stokastiske variable.

3.11 Figur 3.4 Tæthedsfunktionen for F (10, f 2 ) for henholdsvis f 2 = 2, 4, 8 og 16. Igen er det fordelingens fraktiler, der er af størst interesse i statistisk inferens. Tætheden for F( f 1, f 2 ) fordelingen er f F( f1, f 2 )(x) = f f 1/2 1 f f 2/2 2 B( f 1 /2, f 2 /2) x f1/2 1 ( f 2 + f 1 x) ( f 1+ f 2 )/2, x > 0, hvor B er beta funktionen givet i formel (3.31). Fordelingsresultater I statistik dukker fordelingen op i variansanalyse samt hvor man ønsker at sammenligne to empiriske varianser i en model baseret på normalfordelingen. Antag for eksempel, at X 1,...,X n og Y 1,...,Y m er uafhængige stokastiske variable, således at X i N(µ X,σ 2 ), i = 1,...,n og Y j N(µ Y,σ 2 ), j = 1,...,m. Bemærk, at variansen er antaget ens for samtlige stokastiske variable. Af (3.29) fås for de empiriske varianser s 2 (X) og s 2 (Y) at s 2 (X) = 1 n 1 n i=1 (X i X ) 2 σ 2 χ 2 (n 1)/(n 1) og s 2 (Y) = 1 m 1 m j=1 (Y j Ȳ ) 2 σ 2 χ 2 (m 1)/(m 1).

3.12 3.2 Diskrete fordelinger Da s 2 (X) og s 2 (Y) er stokastiske uafhængige fås af formel (3.35), at F = s2 (X) s 2 F(n 1,m 1). (Y) Endelig medfører formlerne (3.26), (3.30) og (3.35), at t t( f) t 2 F(1, f). (3.36) Tabeller Af (3.35) ses, at Y F( f 1, f 2 ) 1 Y F( f 2, f 1 ), der bevirker følgende relation mellem p-fraktilen F p ( f 1, f 2 ) for F( f 1, f 2 ) fordelingen og (1 p)- fraktilen for F fordelingen hvor der er byttet om på frihedsgraderne i tæller og nævner: F p ( f 1, f 2 ) = 1 F 1 p ( f 2, f 1 ). (3.37) Det er derfor tilstrækkeligt at tabellere fraktilerne for F-fordelingen for værdier af p 0.5. Siderne 14-49 i Statistical Tables indeholder p-fraktiler for F-fordelingen for forskellige værdier af p. Med indlysende notation har vi for eksempel F 1 F(9,15) (0.95) = 2.59 og F F(13,6) (7.66) = 0.99. Excel Fordelingfunktion og fraktiler for F-fordelingen beregnes ved hjælp af funktionerne FFORDELING ogfinv, idet F F( f1, f 2 )(x) =1 FFORDELING(x;f 1 ;f 2 ) og F p ( f 1, f 2 ) = F 1 F( f 1, f 2 ) (p) =FINV(1 p;f 1 ;f 2) 3.2 Diskrete fordelinger 3.2.1 Binomialfordelingen Definition

3.13 Binomialfordelingen med antalsparameter n (helt positivt tal) og sandsynlighedsparameter p betegnes ofte b(n, p). Idet x! (udtales: x falkultet) er defineret som x! = 1 2 x hvis x > 0 og som 0! = 1, hvis x = 0, er punktsandsynlighederne for binomialfordelingen ( ) n b(x;n, p) = p x (1 p) n x, x = 0,1,...,n, (3.38) x hvor ( ) n n! = x x!(n x)!. Hvis X er en stokastisk variabel, som er binomialfordelt, skriver vi ofte X b(n, p). Beregning af punktsandsynligheder eller Af (3.38) ses, at b(x+1;n, p) b(x;n, p) = n x p, x = 0,1,...,n 1, x+1 1 p b(x+1;n, p) = n x p b(x;n, p), x = 0,1,...,n 1. (3.39) x+1 1 p Ved hjælp af (3.39) kan punktsandsynlighederne beregnes rekursivt i hånden, idet b(0;n, p) = (1 p) n. (3.40) Middelværdi og varians og Hvis X b(n, p) gælder der EX = np (3.41) VarX = np(1 p). (3.42) Excel I Excel kan punktsandsynlighederne og fordelingsfunktionen for b(n, p) beregnes ved hjælp af funktionenbinomialfordeling på følgende måde: Eksempel 3.1 F b(n,p) (x) = b(x; n, p) = BINOMIALFORDELING(x; n; p; FALSK) x b(y; n, p) = BINOMIALFORDELING(x; n; p; SAND). y=0 Figur 3.5 viser sandsynlighedsfunktionen for b(12, p) for p = 0.05, 0.2 og 0.5. Ved hjælp af

3.14 3.2 Diskrete fordelinger (3.39) og (3.40) finder vi følgende punktsandsynligheder - med tre decimalers nøjagtighed - for b(12,0.2), idet p/(1 p) = 0.2/0.8 = 0.25, b(0;12,0.2) = 0.8 12 = 0.069 b(1;12,0.2) = 12 1 0.25 b(0;12,0.2) = 0.206 b(2;12,0.2) = 11 2 0.25 b(1;12,0.2) = 0.283 b(3;12,0.2) = 10 3 0.25 b(2;12,0.2) = 0.236 b(4;12,0.2) = 9 4 0.25 b(3;12,0.2) = 0.133 b(5;12,0.2) = 5 8 0.25 b(4;12,0.2) = 0.053 b(6;12,0.2) = 6 7 0.25 b(5;12,0.2) = 0.016 b(7;12,0.2) = 7 6 0.25 b(6;12,0.2) = 0.003 b(8;12,0.2) = 8 5 0.25 b(7;12,0.2) = 0.001 b(9;12,0.2) = 9 4 0.25 b(8;12,0.2) = 0.000 b(10;12,0.2) = 10 3 0.25 b(9;12,0.2) = 0.000 b(11;12,0.2) = 11 2 0.25 b(10;12,0.2) = 0.000 b(12;12,0.2) = 12 1 0.25 b(11;12,0.2) = 0.000 Figur 3.5 Sandsynlighedsfuktionen for binomialfordelingen b(12, p) med p = 0.05, 0.20 og 0.50.

3.15 3.2.2 Multinomialfordelingen Definition En k-dimensional diskret stokastisk vektor X = (X 1,...,X k ) er multinomialfordelt med antalsparameter n og sandsynlighedsvektor π = (π 1,..., π k ), kort X m(n,π), hvis sandsynlighedsfunktionen for X er ( ) n P(X = x) = π x 1 x 1 x 1 πx k k, for x = (x 1,...,x k ) Mk n, (3.43) k hvor M n k er mængden af vektorer i Rk, således at komponenterne er ikke-negative hele tal hvis sum er n, det vil sige at M n k = {x Rk : x j {0,1,...,n} og I (3.43) er multinomialkoefficienten ( ) n n! = x 1 x k x 1! x k! k x j = n} j=1 og vektoren π tilhører mængden Π k af k-dimensionale sandsynlighedsvektorer, det vil sige at komponenterne af π er positive tal hvis sum er 1, eller Middelværdi, varians og korrelation π Π k = {π : π j > 0 og k j=1 π j = 1}. Hvis X m(n,π) er middelværdivektoren og kovariansmatricen for X = (X 1,...,X k ) EX = nπ = (nπ 1,...,nπ k ), (3.44) nπ 1 (1 π 1 ) nπ 1 π 2 nπ 1 π j nπ 1 π k nπ 1 π 2 nπ 2 (1 π 2 ) nπ 2 π j nπ 2 π k.......... CovX = nπ 1 π j nπ 2 π j nπ j (1 π j ) nπ j π k.......... nπ 1 π k nπ 2 π k nπ j π k nπ k (1 π k ) Desuden er korrelationen mellem X i og X j for i j. (3.45) Cor(X i,x j ) = Marginale fordelinger idet nπ i π j nπ j (1 π j )nπ j (1 π j ) = π i π j π j (1 π j )π j (1 π j ). (3.46) Hvis X m(n, π) er de marginale fordelinger for komponenterne af X binomialfordelinger, X j b(n,π j ), j = 1,...,k. (3.47)

3.16 3.2 Diskrete fordelinger 3.2.3 Poissonfordelingen Definition Poissonfordelingen med parameter λ (> 0) betegnes undertiden po(λ). Punktsandsynlighederne er Beregning af punktsandsynlighederne Af 3.48 fås, at po(x;λ) = e λ λ x, x = 0,1,... (3.48) x! po(x+1;λ) po(x;λ) = λ x+1, x = 0,1,..., eller po(x+1;λ) = λ po(x;λ), x = 0,1,... (3.49) x+1 Da endvidere kan punktsandsynlighederne beregnes rekursivt i hånden. Middelværdi og varians og Excel og Hvis X po(λ) gælder der, at I Excel kan funktionenpoisson benyttes, idet F po(λ) (x) = po(0;λ) = e λ (3.50) EX = λ (3.51) VarX = λ. (3.52) x po(x;λ) =POISSON(x;λ;SAND), x = 0,1,..., y=0 po(x;λ) =POISSON(x;λ;FALSK) x = 0,1,.... Eksempel 3.2 Bruger vi (3.49) og (3.50) i forbindelse med Poissonfordelingen med λ = 2 finder vi med fire decimalers nøjagtighed:

3.17 po(0;2) = e 2 = 0.1353 po(1;2) = 2 1 0.1353 = 0.2707 po(2;2) = 2 2 0.2707 = 0.2707 po(3;2) = 3 2 0.2707 = 0.1804 po(4;2) = 4 2 0.1804 = 0.0904 po(5;2) = 5 2 0.0904 = 0.0361 po(6;2) = 6 2 0.0361 = 0.0120 po(7;2) = 7 2 0.0120 = 0.0034 po(8;2) = 8 2 0.0034 = 0.0009 po(9;2) = 9 2 0.0009 = 0.0002 I princippet skulle vi fortsætte på samme måde forx = 10,11,..., men alle disse sandsynligheder bliver mindre end 0.0001. Figur 3.6 Sandsynlighedsfuktionen for Poissonfordelingen po(λ) med λ = 0.5, 1.0 og 2.0. Sandsynlighederne for x = 0, 1,..., 9 er vist på figuren. 3.2.4 Den hypergeometriske fordeling Den hypergeometriske fordeling Den hypergeometriske fordeling med parametre M,N og n betegner vi med h(m,n,n). Her er M, N og n hele positive tal så M N og n N. Hvis K 0 = max{0,n + M N} og K 1 =

3.18 3.2 Diskrete fordelinger min{m,n} er punktsandsynlighederne ( )( ) M N M h(x;m,n,n) = x n x ( ) N, x = K 0,...,K 1. (3.53) n Beregning af punktsandsynligheder Idet h(x+1;m,n,n) h(x;m,n,n) = M x x+1 n x N M n+x+1, x = K 0,...,K 1 1, kan punktsandsynlighederne beregnes rekursivt i hånden som idet og h(x+1;m,n,n) = M x x+1 h(k 0,M,N,n) = h(0;m,n,n) = h(k 0,M,N,n) = h(n+m N;M,N,n) = Eksempel 3.3 n x N M n+x+1 h(x;m,n,n), x = K 0,...,K 1 1, (3.54) (N M)!(N n)! N!(N M n)!, hvis K 0 = 0, (3.55) M!n! N!(n+M N)!, hvis K 0 = n+m n. (3.56) Figur 3.7 viser sandsynlighedsfunktionen for h(m,n,n) med M = 8,N = 15 og n = 2,4 og 8. Ved hjælp af (3.54) og (3.55) finder vi - med tre decimalers nøjagtighed - for h(8,15,4), at 7! 11! h(0;8,15,4) = 15! 3! = 0.026 h(1;8,15,4) = 1 8 4 4 0.026 = 0.205 h(2;8,15,4) = 7 2 5 3 0.205 = 0.431 h(3;8,15,4) = 6 3 6 2 0.431 = 0.287 h(4;8,15,4) = 5 4 7 1 0.287 = 0.051 Middelværdi og varians Hvis X h(m,n,n), gælder der EX = n M N og VarX = (N n) (N 1) nm N (1 M N ).

3.19 Figur 3.7 Sandsynlighedsfuktionen for den hypergeometriske fordeling h(8, 15, n)) med n = 2, 4 og 8. Excel FunktionenHYPGEOFORDELING beregner sandsynlighedsfunktionen for den hypergeometriske fordeling, idet (bemærk rækkefølgen af parametrene) h(x;m,n,n) =HYPGEOFORDELING(x;n;M;N), x = 1,...,M 0. 3.2.5 Den negative binomialfordeling Definition For κ > 0 defineres den generaliserede binomialkoefficient som ( ) x+κ 1 (x+κ 1)(x+κ 2) k = x x! og den negative binomialfordeling b (κ, p) med parameter κ (> 0) og p ( ]0,1[) som den diskrete fordeling med sandsynlighedsfunktion ( ) x+κ 1 b (x;κ, p) = p x (1 p) κ, x x = 0,1,.... (3.57) Beregning af punktsandsynligheder

3.20 3.2 Diskrete fordelinger Af (3.57) fås, at b (x+1;κ, p) b (x;κ, p) = κ + x x+1 p, x = 0,1,.... Punktsandsynlighederne for b (κ, p) kan derfor beregnes rekursivt i hånden, idet og Eksempel 3.4 b (x+1;κ, p) = κ + x x+1 p b (x;κ, p), x = 0,1,... (3.58) b (0;κ, p) = (1 p) κ. (3.59) Bruges (3.58) og (3.58), finder vi for b (7.5,0.1)-fordelingen med fire decimalers nøjagtighed: b (0;7.5,0.1) = 0.9 7.5 = 0.4538 b (1;7.5,0.1) = 7.5 1 0.1 0.4538 = 0.3403 b (2;7.5,0.1) = 7.5+1 2 0.1 0.3403 = 0.1446 b (3;7.5,0.1) = 7.5+2 3 0.1 0.1446 = 0.0458 b (4;7.5,0.1) = 7.5+3 4 0.1 0.0458 = 0.0120 b (5;7.5,0.1) = 7.5+4 5 0.1 0.0120 = 0.0028 b (6;7.5,0.1) = 7.5+5 6 0.1 0.0028 = 0.0006 b (7;7.5,0.1) = 7.5+6 7 0.1 0.0006 = 0.0001 De øvrige punktsandsynligheder b (x;7.5,0.1), x = 8,9,..., er alle mindre end 0.0001. Figur 3.8 viser sandsynlighedsfunktionen for b (4, p) for p = 0.1, 0.3 og 0.5. Middelværdi og varians og Hvis X b (κ, p) gælder der, at EX = κ p 1 p VarX = κ p (1 p) 2. Excel Punktsandsynlighederne for X b (κ, p) kan for heltallige værdier af κ beregnes ved hjælp af funktionennegbinomfordeling, idet (bemærk, at det tredje argument er1-p) b (x;κ, p) =NEGBINOMFORDELING(x;κ;1 p), x = 0,1,2,...

3.21 Figur 3.8 Sandsynlighedsfuktionen for den negative binomialfordeling b (4, p) med p = 0.1, 0.3 og 0.5

3.22 Opgaver Opgaver til Kapitel 3 Opgave 3.1 Lad X være normalfordelt med middelværdi 1.7 og varians 0.49, X N(1.7, 0.49). a) Beregn sandsynligheden P(1 X 2). b) Beregn sandsynligheden for at X > 1.2 og sandsynligheden for at X < 1.5. c) Hvilke værdier afgrænser 10% i hver hale af fordelingen. (Det vil sige hvilke to værdier x 1 og x 2 opfylder P(X x 1 ) = 0.1 og P(X x 2 ) = 0.1.) d) Hvilke værdier afgrænser 5% i hver hale af fordelingen. Opgave 3.2 (Andersen 1998) For en række 15 årige drenge målte man den maksimale iltoptagelse pr. minut ved normal belastning på en kondicykel. Resultaterne var: 2.57 2.68 2.80 2.84 2.86 3.01 3.02 3.12 3.15 3.16 3.24 3.25 3.33 3.34 3.47 3.67 3.80 a) Beregn gennemsnit x og empirisk varians s 2 for disse observationer (n = 17,S = 53.31, SK = 168.9499.) Antag at observationerne er normalfordelte og benyt værdierne i a) som middelværdien og variansen i de følgende to spørgsmål. b) Hvad er sandsynligheden for, at iltoptagelsen for en tilfældig 15-årig ligger mellem 2.7 og 3.1. c) Find 90%-fraktilen i fordelingen. Opgave 3.3 Lav en figur i Excel med normalfordelingens tæthed som i Figur 3.1. De næste to opgaver vedrører eksponentialfordelingen, som er et specialtilfælde af gamma fordelingen. Eksponentialfordelingen e(λ) med parameter λ > 0 er gamma fordelingen Γ(1, λ). Hvis X e(λ) kan det vises, at middelværdien og variansen er EX = 1 λ (3.60)

og 3.23 Var X = 1 λ 2. (3.61) Excel funktionen EKSPFORDELING kan beregne tæthedsfunktionen og fordelingsfunktionen for eksponentialfordelingen. Opgave 3.4 Antag, at X e(λ). a) Vis ved hjælp af formel (3.22) - idet Γ(1) = 1 - at tæthedsfunktionen for X er f(x) = λe λx, x ]0, [. (3.62) b) Vis, at fordelingsfunktionen for X er F(x) = 1 e λx, x ]0, [. c) Vis, at p-fraktilen for X er Opgave 3.5 Antag, at X e(1.5). a) Hvad er middelværdien af X? b) Hvad er variansen af X? x p = F 1 (p) = c) Hvad er sandsynligheden for, at X er større end 1? d) Hvad er sandsynligheden for, at 0 X 1 2? ln(1 p), p ]0,1[. λ Opgave 3.6 (Andersen 1998) 8 mænd beslutter sig til at lave en fællestræning til byens årlige motionsløb på ca. 11 km. Deres mål er at løbe på under 50 minutter. En statistiker blandt dem vurderer, at hver enkelts chance for at nå målet 50 minutter er 80%? a) Med hvilken fordeling kan man beskrive det antal x af de 8 mænd, der på selve dagen løber under 50 minutter? b) Beregn middelværdi og varians i denne fordeling. c) Hvad er sandsynligheden for, at halvdelen (4) klarer 50 minutters grænsen? d) Hvad er sandsynligheden for, at alle de 8 mænd klarer 50 minutters grænsen?

3.24 Opgaver Opgave 3.7 (Andersen 1998) En intelligensprøve består af 10 lige svære opgaver, hver med 5 svarmuligheder, hvoraf én er rigtig. Antal rigtigt løste opgaver kaldes scoren. a) Hvad er fordelingen af scoren x hvis en person beslutter sig for at gætte tilfældigt mellem de fem svarmuligheder, idet han ikke bedømmer at kunne løse opgaverne. b) Hvad er fordelingen af scoren x, hvis en ret intelligent person har sandsynlighed 0.7 for rigtig løsning for hver af de 10 opgaver. c) Beregn EX for både person a) og person b). d) Beregn P(scoren 5) for både person a) og person b). Opgave 3.8 Gør rede for, at antallet af rigtige tegn X på tipskuponen i Opgave 2.10 er binomialfordelt med antalsparameter n = 13 og sandsynlighedparameter p = 1/3. Find middelværdi, varians og spredning for X ved hjælp af formlerne i Afsnit 3.1.1. Opgave 3.9 Lav Figur 3.5 i Excel. Opgave 3.10 Lav Figur 3.6 i Excel. Opgave 3.11 Gør rede for at fordelingen af antallet af rigtige X på lottokuponen i Opgave 2.13 er den hypergeometriske fordeling h(7, 36, 7). Find middelværdi, varians og spredning for X ved hjælp af formlerne i Afsnit 3.1.4. Opgave 3.12 (Andersen 1998) I undersøgelsen af de professionelle fodboldspillere i udlandet i Opgave 1.12 var populationen på 290 fodboldspillere, hvoraf 131 (stikprøven) besvarede et udsendt spørgeskema. Af disse svarede 86, at de var gift eller levede i et fast parforhold, før de rejste til udlandet. For at skønne over, hvor mange M i hele populationen, der var gift eller levede i et fast parforhold, før de rejste til udlandet, skal vi bruge en fordeling, hvori M indgår sammen med de øvrige tre tal. a) Hvis X er den stokastiske variabel, der svarer til de x = 86 observerede gifte i stikprøven, gør da rede for at for en fast værdi af M er fordelingen af X den hypergeometriske fordeling h(m, 290, 131). b) Lav ved hjælp af Excel en tabel over sandsynlighederne h(x;m,n,n) med x = 86, N = 290, n = 131 og M {86,87,...,245} og find den værdi af M, der tillægger den observerede værdi x = 86 den største sandsynlighed.

4 Normalfordelte data 4.1 4 Normalfordelte data I dette kapitel behandles en række modeller, som har det til fælles, at observationerne er normalfordelt. Forskellen mellem modellerne består i, hvor kompliceret middelværdistrukturen og variansstrukturen er. I Afsnit 4.2 omtales én observationsrække med kendt varians mens variansen antages at være ukendt i Afsnit 4.3. Afsnit 4.4 og Afsnit 4.5 vedrører henholdsvis to og k observationsrækker. Endelig omtales lineær regression i Afsnit 4.6 og tosidet variansanalyse i Afsnit 4.7. Den simpleste model er én observationsrække med kendt varians, og derfor behandles den først. Endvidere bruges den til at introducere en række statistiske grundbegreber som estimation, test, signifikansniveau, testsandsynlighed og konfidensinterval. De bliver ganske vist også omtalt i Kapitel 5, men i Afsnit 4.2 behandles de i nøje tilknytning til et eksempel. De ovennævnte modeller er forholdsvis enkle, men de er fleksible nok til at finde anvendelse i en lang række praktiske problemstillinger, som spænder fra industriel produktion over alle naturvidenskaberne, herunder geologi, biologi og idræt til lægevidenskab og samfundsvidenskab. På den anden side udtømmer de ikke alle de modeller for normalfordelte data, som man kan få brug for i sin profession. Men det begrebsapparat og de adfærdsmønstre, som man udvikler ved håndteringen af de enkle modeller, gør det muligt at håndtere mere komplicerede modeller. I Afsnit 4.1 omtales en grafisk metode til at kontrollere om en observationsrække kan betragtes som normalfordelt. Til trods for at metoden er meget simpel, er den særdeles vigtig, idet den giver os mulighed for at vurdere gyldigheden af en statistiske model baseret på normalfordelingen. Alle følgende beregninger og konklusioner er bestemt af den statistiske model. Hvis modellen er forkert, vil konklusioner, der er draget på grundlag af den, sandsynligvis også være forkerte. Alle fordelingsresultater, der er relateret til analyse af de statistiske modeller i dette kapitel, er omtalt i Afsnit 3.1.1.

4.2 4.1 Fraktilsammenligning 4.1 Fraktilsammenligning Lad x 1,x 2,...,x n være en observationsrække bestående af n observationer af en kontinuert variabel. Antag, at metoderne i Kapitel 1 antyder, at vi som model for observationerne kan antage, at disse er udfald af uafhængige og identisk fordelte stokastiske variable X 1,X 2,...,X n og lad F betegne den fælles fordelingsfunktion for X erne. For at vurdere om modellen er rimelig kunne man sammenligne den empiriske fordelingsfunktion F n med fordelingsfunktionen F ved for eksempel for udvalgte værdier af x at indtegne (x,f n (x)) og (x,f(x)) på samme tegning, idet modellen da forekommer rimelig hvis de to grafer ligner hinanden. Sædvanligvis er grafen for F er S-formet og sammenligningen består derfor i at vurdere om to S-formede grafer ligner hinanden. Øjet har lettere ved at afgøre om punkter varierer omkring en ret linje, så i stedet for vælger man at sammenligne p-fraktilerne x p (F n ) og x p (F) for F n og F. Hvis punkterne (x p (F n ), x p (F)) for udvalgte værdier af p ligger omkring identitetslinjen uden systematiske afvigelser anses modellen for rimelig. Dette var en generel beskrivelse af fraktilsammenligning. For normalfordelingen gælder der, at hvis u p og x p er p-fraktilen for henholdsvis N(0,1) fordelingen og N(µ,σ 2 ) fordelingen da er u p = x p µ σ, (4.1) så for denne fordeling indtegnes (x p (F n ), u p ) for udvalgte værdier af p. En model baseret på normalfordelingen er da rimelig, hvis punkterne ligger omkring en ret linje uden systematiske afvigelser. I Afsnit 4.1.1 og Afsnit 4.1.2 diskuteres fraktildiagrammer for henholdsvis ugrupperede og grupperede observationer. 4.1.1 Ugrupperede observationer Først repeterer vi notationen fra Kapitel 1. Antag, at der er m forskellige værdier i observationrækken x 1,x 2,...,x n og lad y 1,y 2,...,y m betegne de ordnede værdier, det vil sige y 1 < y 2 <... < y m. For j = 1,2,...,m lader vi a j betegne antallet af observationer i rækken x 1, x 2,...,x n med værdien y j og desuden lader vi k j betegne det kumulerede antal, det vil sige k j = a 1 + +a j, og endelig sættes k 0 = 0. Den p-værdi, for hvilken y j er p-fraktil, bestemmes som p j = (k j 1 + k j )/(2n),

4.3 det vil sige y j = x p j (F n ). I fraktildiagrammet indtegnes punkterne (y j,u p j ) = (y j,φ 1 (p j )), j = 1,2,...,m. Beregningerne, der ligger til grund for et fraktildiagram, er vist i Tabel 4.1, der fremkommer ved i Tabel 1.5 at tilføje en søjle med værdierne af u p (og fjerne den første søjle). observation antal kumulerede antal sandsynlighed i % u fraktil y a k p i % u p y 1 a 1 k 1 = a 1 p 1 = 100 k 1 /(2n) Φ 1 (p 1 ) y 2 a 2 k 2 = a 1 + a 2 p 2 = 100 (k 1 + k 2 )/(2n) Φ 1 (p 2 ) y 3 a 3 k 3 = a 1 + a 2 + a 3 p 3 = 100 (k 2 + k 3 )/(2n) Φ 1 (p 3 )............... y j a j k j = a 1 + +a j p j = 100 (k j 1 + k j )/(2n) Φ 1 (p j )............... y m a m k m = a 1 + +a m p m = 100 (k m 1 + k m )/(2n) Φ 1 (p m ) Tabel 4.1 Beregningsskema for fraktildiagrammet for et ugrupperet datasæt. Eksempel 1.2 (Fortsat) Disse tal har vi ikke betragtet i Kapitel 1 men erfaringen viser, at kondital sædvanligvis er normalfordelte. Beregningerne i Tabel 4.1 i er gengivet nedenfor og Figur 4.1 viser det tilsvarende fraktildiagram. Da der ikke i figuren er systematiske afvigelser fra en ret linje, kan observationsrækken betragtes som normalfordelt.

4.4 4.1 Fraktilsammenligning Figur 4.1 Fraktildiagrammet for data i Eksempel 1.2. observation antal kumulerede antal sandsynlighed i % u fraktil y a k p i % u p 63.9 1 1 2.5 1.960 64.1 1 2 7.5 1.440 64.9 1 3 12.5 1.150 66.0 1 4 17.5 0.935 68.4 1 5 22.5 0.755 68.9 1 6 27.5 0.598 69.4 1 7 32.5 0.454 72.0 1 8 37.5 0.319 72.1 1 9 42.5 0.189 72.9 1 10 47.5 0.063 73.1 1 11 52.5 0.063 73.4 1 12 57.5 0.189 74.3 1 13 62.5 0.319 75.2 1 14 67.5 0.454 75.4 1 15 72.5 0.598 76.2 1 16 77.5 0.755 76.3 2 18 85.0 1.036 79.4 1 19 92.5 1.440 79.8 1 20 97.5 1.960

4.5 Når data ikke foreligger på elektronisk form kan fraktildiagrammet tegnes på sandsynlighedspapir, se Figur 4.2. Sandsynlighedspapir findes i mange forskellige fabrikater. Fælles for dem alle er, at de har en lineær førsteakse til afsættelse af data, og to andenakser. Den ene andenakse er lineær og bruges til at afsætte fraktiler, mens den anden andenakse er en procentakse. Procentaksen er ikke-lineær, idet procenten 100p afsættes ud for u p. Hele pointen med de to andenakser er nemlig, at tabelopslaget for at finde u p er indbygget i sammenhængen mellem de to akser, så fraktildiagrammet kan laves ved at indtegne punkterne (y j,100p j ), j = 1,2,...,m, idet procentaksen benyttes. Visse typer af sandsynlighedspapir benytter en parallelforskudt lineær andenakse, idet de såkaldte probits benyttes. Probit prob(p) svarende til en p-værdi er defineret som prob(p) = u p + 5. Et fraktildiagram indtegnet på den type sandsynlighedspapir kaldes ofte et probitdiagram. Et eksempel på et probitdiagram er gengivet i Figur 4.2. Eksempel 1.2 (Fortsat) Probitdiagrammet for data er vist i Figur 4.2. Ved vurderingen af om punkterne i et fraktildiagram udviser et passende lineært forløb, således at det er rimeligt at antage, at observationerne kan betragtes som én observationsrække fra normalfordelingen, skal de følgende tre punkter tages i betragtning: 1) Jo større n er jo mindre variation omkring en ret linje vil man forvente. 2) Punkterne i et fraktildiagram er korrellerede og har derfor en tendens til at sno sig omkring linjen. 3) Variationen af punkterne omkring linjen er størst i enderne af diagrammet og man skal derfor lægge mest vægt på punkterne i midten af diagrammet. En statistisk model baseret på normalfordelingen afvises først og fremmest, hvis punkterne i diagrammet udviser en systematisk afvigelse fra en ret linje. Vurdering af fraktildiagrammer er et spørgsmål om erfaring, der for eksempel kan opnås ved at betragte diagrammer for normalfordelte datasæt, der er fremkommet ved numerisk simulation. Figurerne i Appendiks B viser fraktildiagrammer for forskellige datasæt af denne type med varierende n. Figurerne antyder, at for små værdier af n kan punkterne variere temmelig meget omkring linjen. Hvis fraktildiagrammet ikke giver anledning til at afvise en statistisk model baseret på normalfordelingen, kan man få grove estimater for middelværdien µ og variansen σ 2 i normalfordelingen N(µ,σ 2 ) ved at tegne en linje gennem punkterne i diagrammet. Af (4.1) ses det, at µ

4.6 4.1 Fraktilsammenligning Figur 4.2 Probitdiagrammet for data i Eksempel 1.2.

4.7 kan estimeres som værdien på førsteaksen svarende til værdien 0 på andenaksen i et fraktildiagram. Det ses ligeledes af (4.1), at et estimat for σ er den reciprokke værdi af hældningen af linjen i diagrammet. Hvis data kun består af én observationsrække og hvis antallet af observationer n i denne række er lille, n < 10, ses det af figurerne i Appendiks B, at fraktildiagrammet er af begrænset værdi, når normalfordelingsantagelsen skal vurderes. Hvis data består af flere observationsrækker, kan diagrammerne være nyttige selv for stikprøvestørrelser mindre end 10 ved at afsløre afvigelser fra et lineært forløb, der går igen fra stikprøve til stikprøve. 4.1.2 Grupperede data Antag, at antallet af observationer i de m intervaller ]y 0,y 1 ],]y 1,y 2 ],...,]y m 1,y m ] er a 1, a 2,..., a m. For j = 1, 2,...,m lader vi k j = a 1 +a 2 + +a j betegne det kumulerede antal observationer. Bemærk, at k m = n, det totale antal observationer. højre endepunkt antal kumulerede antal sandsynlighed i % u fraktil y a k p i % u p y 1 a 1 k 1 = a 1 p 1 = 100 k 1 /n Φ 1 (p 1 ) y 2 a 2 k 2 = a 1 + a 2 p 2 = 100 k 2 /n Φ 1 (p 2 ) y 3 a 3 k 3 = a 1 + a 2 + a 3 p 3 = 100 k 3 /n Φ 1 (p 3 )............... y j a j k j = a 1 + +a j p j = 100 k j /n Φ 1 (p j )............... y m 1 a m 1 k m 1 = a 1 + +a m 1 p m 1 = 100 k m 1 /n Φ 1 (p m 1 ) Tabel 4.2 Skema til beregning af punkterne i fraktildiagrammet for grupperede data. Lader vi p j = k j /n, j = 1,2,...,m, har vi specielt at p m = 1. Da den tilsvarende u fraktil u 1 =, indtegner vi kun følgende m 1 punkter i fraktildiagrammet : (y j,u p j ) = (y j,φ 1 (p j )), j = 1,2,...,m 1. Beregningerne, der er nødvendige for at finde punkterne i fraktildiagrammet for et grupperet datasæt, er vist i Tabel 4.2, som fremkommer fra Tabel 1.6 ved at tilføje en søjle med værdierne af u p (og fjerne første og tredje søjle samt sidste række). Eksempel 1.1 (Fortsat) Histogrammerne for disse data i Afsnit 1.3 har tilnærmelsesvis samme udseende som tæthedsfunktionen for normalfordelingen, se Figur 3.1. Dette antyder, at data kan betragtes som en

4.8 4.1 Fraktilsammenligning normalfordelt observationsrække. For den grupperede version af data i Tabel 1.4 er beregningerne i Tabel 4.2 gengivet nedenfor og fraktildiagrammet er vist i Figur 4.3. Da punkterne i probitdiagrammet ikke afviger systematisk fra en ret linje kan data betragtes som en normalfordelt observationsrække. højre endepunkt antal kumulerede antal sandsynlighed i % u fraktil y a k p i % u p 116 1 1 0.4 2.648 120 0 1 0.4 2.648 124 8 9 3.6 1.794 128 20 29 11.7 1.188 132 24 53 21.5 0.791 136 32 85 34.4 0.401 140 49 134 54.3 0.106 144 41 175 70.9 0.549 148 26 201 81.4 0.892 152 21 222 89.9 1.274 156 14 236 95.5 1.700 160 6 242 98.0 2.049 164 4 246 99.6 2.647 4.1.3 Transformation Undertiden afslører fraktildiagrammet, at det ikke er rimeligt at betragte de oprindelige data x 1,x 2,...,x n som én normalfordelt observationsrække. Da modeller baseret på normalfordelingen er lette at håndtere, forsøger man ofte at opnå en sådan model for en transformeret version af data, det vil sige for y 1,y 2,...,y n, hvor y i = h(x i ),i = 1, 2,...,n, og hvor h er en kendt funktion, som er 1-1 (injektiv). Ikke sjældent har fagmanden specielle grunde til at betragte en bestemt transformation. De mest brugte transformationer er h(x) = ln(x), h(x) = x og h(x) = 1/x. Når man leder efter en transformation, skal man være opmærksom på at alle hyppigt anvendte transformationer er lokalt lineære, så hvis observationerne ligger i et snævert interval, vil vurderingen af fraktildiagrammet være den samme både for de transformerede og de utransformerede data. En tommelfingerregel for logaritmetransformationen er, at data mindst skal strække sig over én dekade og gerne to, hvis der skal være nogen synlig effekt ved en transformation. Det vil sige at der skal være mindst en faktor 10 og gerne en faktor 100 i forskel mellem den største og den mindste observation.

4.9 Figur 4.3 Fraktildiagram for de grupperede data i Tabel 1.4. Selvom en indledende undersøgelse ved hjælp af et fraktildiagram er faldet negativ ud i den forstand, at en statistisk model baseret på normalfordelingen ikke er rimelig for de oprindelige observationer x 1,x 2,..., x n, kan diagrammet give information om, hvorledes man skal transformere data for at opnå en model baseret på normalfordelingen.

4.10 Beregninger i Excel Anneks til Afsnit 4.1 Vi viser her, hvordan fraktildiagrammet i Figur 4.1 kan laves i Excel. Nedenstående viser ind- Beregninger i Excel Eksempel 1.2 (Fortsat) 6 holdet af cellernea1:i23 i regnearket. 6 6 6 6 6 6 6 6 6 6 6 76 6 6 6 6 3 7 6 6 6 6 6 3 6 7 6 6 6 6 3 6 7 6 6 6 6 6 3 6 7 6 6 6 6 3 6 7 6 6 6 3 6 6 6 6 6 3 6 3 6 6 7 6 6 6 6 6 6 6 6 6 6 3 6 3 6 3 6 6 6 6 6 6 6 6 6 6 6 3 6 3 6 6 6 6 6 6 6 6 6 6 6 6 6 3 6 3 6 3 6 6 6 6 6 6!"#$%&'()**+,-#./010'&"+%23 45 6 89 6 3 Det er fremkommet ved følgende trin: Data indtastes i cellerne A4:A23 og sorteres efter størrelsesorden. Disse celler kopieres til cellerne C4:C22, der indeholder de ordnede værdier, idet observationen76.3, der optræder to gange, er fjernet. Indholdet af cellerne i kolonne E, F og G fremkommer dernæst via ruten Funktioner Dataanalyse Histogram, som giver en dialogboks hvor A4:A23 angives i Inputområde, C4:C22 i Intervalområde og E3:G24 i Outputområde. Endvidere markeres ruden forankumulativ frekvens, hvorefter der klikkes påok.

4.11 Indholdet af cellenh4 beregnes som=100*g4/2. Indholdet af H5 beregnes som=100 *(G4+G5)/2, hvorefter der oprettes analoge formler i H6:H23. (Musen anbringes i det nedre højre hjørne af H5, således at curseren bliver til et +. Derefter trækkes musen ned over cellerne H6:H23, idet venstre museknap holdes nede) Indeholdet af cellen I4 beregnes via ruten Indsæt Funktion Statistik NORMINV. I dialogboksen, der fremkommer, skrives H4/100 i ruden ved Sandsynlighed, og 0 og 1 i ruderne ved henholdsvis Middelværdi og Standardafv. Derefter oprettes analoge formler i cellernei5:i22. Vi er nu klar til at lave fraktildiagrammet. Det gøres således: Marker cellernee4:e22 ogi4:i22 Følg ruten Indsæt Diagram XY-plot. Vælg i dialogboksen, der fremkommer, undertypen øverst til venstre( Excel betegner denne som XY-punktdiagram. Sammenligner værdipar.) Tryk påudfør. Resultatet ser således ud: Altså ikke helt som i Figur 4.1. Dette kan opnås ved lidt redigering. Blandt andet: Ændre navn på den forklarende variabel: Anbring musen på rammen af figuren. Hold højre museknap nede og følg rutenkildedata Navn. Ændre placeringen af forklaringen: Anbring musen på rammen om forklaringen. Hold højre museknap nede og vælgformater forklaring Placering Nederst.

4.12 Beregninger i Excel Ændre udseendet af området: Anbring musen i området. Hold højre museknap nede og vælgformater afbildningsområde og dernæstingen irammer ogområde. Ændre førsteaksen: Peg på den med musen og hold højre museknap nede. Følg ruten Formater akse Skala. Angiv63 i ruden vedminimum, 80 i ruden vedmaksimum og 2 i ruden vedoverordnet enhed. Ændre andenaksen: Peg på den med musen og hold højre museknap nede. Følg ruten Formater akse Skala. Angiv -3 i ruden ved Minimum, 3 i ruden ved Maksimum og 1 i ruden vedoverordnet enhed. Skriv desuden-3 i rudenkrydser ved. Resultater af disse anstrengelser giver følgende resultat:

4.13 4.2 Én observationsrække med kendt varians I praksis er det forholdsvis sjældent, at variansen for en observationsrække kan antages at være kendt, men fra et pædagogisk synspunkt er modellen for én observationsrække med kendt varians bekvem i forbindelse med introduktion af en række statistiske grundbegreber som estimation, test, signifikansniveau, testsandsynlighed og konfidensinterval. Disse omtales generelt i Kapitel 5, men behandles her i nøje tilknytning til et eksempel. Eksempel 4.1 Som en øvelse i fysiologi bliver 15 studerende bedt om - uafhængigt af hinanden - at bestemme koncentrationen af laktat i den samme blodprøve med en kendt koncentration. De studerendes målinger er i mg/l 86.5 81.0 79.4 90.9 73.8 80.2 79.9 80.3 71.9 78.6 83.1 79.6 80.0 87.0 92.7 og den kendte koncentration er 80.0 mg/l. Erfaringsmæssigt er der ved bestemmelser af en laktatkoncentration af denne størrelsesorden en spredning på 5.0 mg/l. For at undersøge om de studerendes målinger afviger signifikant fra den kendte koncentration, undersøger vi først om de 15 målinger x 1,..., x 15 kan betragtes som en normalfordelt observationsrække. Fraktildiagrammet i Figur 4.4 afslører ikke systematiske afvigelser fra en ret linje og vi betragter derfor modellen M 0 : X i N(µ,σ0 2 ), i = 1,...,15, (4.2) hvor vi betragter spredningen σ 0 som kendt og lig med den værdi, man har erfaring for, det vil sige σ 0 = 5. Estimation Først ser vi på, hvad man kan sige om middelværdien µ ud fra observationerne. Vi skønner over µ, eller estimerer µ. Traditionelt benytter man gennensnittet af observationerne x = 1 n n i=1 x i = 1224.9 15 idet summen S af de 15 observationer er 1224.9. = 81.66, (4.3) Bemærk, at x er en realisation af den normalfordelte stokastiske variabel X = 1 n n i=1 X i N(µ, σ 2 0 n ), (4.4)

4.14 4.2 Én observationsrække med kendt varians Figur 4.4 Fraktildiagram for lakatkoncentrationerne i Eksempel 4.1. som har den rigtige middelværdi µ og en varians σ0 2 /n, som aftager med antallet af observationer. Det er disse to egenskaber, der er begrundelsen for at bruge gennemsnittet som skøn over middelværdien µ. Det er vigtigt at bevare distinktionen mellem den teoretiske, men ukendte middelværdi µ og skønnet x for µ. Vi benytter notationen x µ eller µ x, som læses x estimerer µ eller µ estimeres af x. I det konkrete tilfælde har vi 81.66 µ. Vi skriver ofte de to formler i (4.3) og (4.4) kort på følgende måde x = 81.66 N(µ, σ 2 0 n ), som læses x = 81.66 er en realisation af en stokastisk variabel X, som er fordelt N(µ,σ 2 0 /n). Det første minder altså om, at estimatet er en realisation af en stokastisk variabel, og det andet har den sædvanlige betydning fordelt som. Notationen er ikke standard i litteraturen. Test I modellen M 0 kan spørgsmålet om de studerendes målinger stemmer overens den kendte koncentration formuleres som spørgsmålet om middelværdien µ er lig med 80. I M 0 opstiller vi og tester hypotesen H 0 : µ = µ 0 = 80. Som udgangspunkt kan man betragte forskellen mellem skønnet over middelværdien og middelværdien under nulhypotesen x 80 = 1.66. Jo større denne forskel er - numerisk set

4.15 - desto mere kritisk er det for nulhypotesen. Men om 1.66 er stor afhænger af variansen på målingerne. Vi beregner derfor teststørrelsen u(x) = u(x 1,...,x n ) = x µ 0 81.66 80 = = 1.286, (4.5) σ0 2/n 25/15 som er differensen normeret med spredningen på gennemsnittet. Teststørrelsen u(x) er en realisation af den stokastiske variabel u(x) = u(x 1,...,X n ) = X µ 0 X 80 =, (4.6) σ0 2/n 25/15 som er N(0, 1)-fordelt under nulhypotesen. De værdier af teststørrelsen u(x), som ville have været mere kritiske for H 0, er værdier mindre end 1.286 og større end 1.286. Man kan ikke umiddelbart sige om 1.286 er så stor en værdi, at man vil tvivle på nulhypotesen. Man udfører derfor endnu en transformation, idet man beregner testsandsynligheden ε(x), som er sandsynligheden under nulhypotesen for en mere kritisk værdi af teststørrelsen end den observerede. Det vil sige ε(x) =Φ( 1.286) +(1 Φ(1.286)) =2(1 Φ(1.286)) (4.7) =0.199. Testsandsynligheden er illustreret i Figur 4.5 og fortolkningen af denne testsandsynlighed er, at hvis nulhypotesen er sand, vil man cirka to ud af ti gange, man udfører forsøget, få en teststørrelse, som er mere kritisk for nulhypotesen, end den værdi som forsøget gav. Det får os ikke til at tvivle på nulhypotesen. Man forkaster nulhypotesen, hvis testsandsynligheden kommer under en værdi, som kaldes signifikansniveauet, og som betegnes med α. Sædvanligvis er α lig med 0.05 eller 0.01, og i dette kursus benyttes værdien 0.05 medmindre andet udtrykkeligt nævnes. Vi ser senere i dette afsnit på håndteringen af testsandsynligheder under overskriften statistikkens slutningsregel. Konfidensinterval Da u(x) = X µ 0 σ 2 0 /n

4.16 4.2 Én observationsrække med kendt varians Figur 4.5 Illustration af testsandsynligheden for u-testet i Eksempel 4.1. Testsandsynligheden er arealet af den skraverede område. er N(0, 1)-fordelt, er 1 α = P u α/2 X µ u 1 α/2 (4.8) σ0 2/n = P X u 1 α/2 σ 2 0 n µ X + u 1 α/2 Her er u α/2 og u 1 α/2 henholdsvis α/2 og 1 α/2 fraktiler for N(0,1)-fordelingen, og i omskrivningen er det benyttet, at u α/2 = u 1 α/2. Det vil sige, at uligheden σ0 2 x u 1 α/2 n µ σ x 0 2 + u 1 α/2 n holder med sandsynlighed 1 α. Intervallet x u 1 α/2 σ 2 0 n, x + u 1 α/2 σ 2 0 n σ 2 0 n. (4.9) (4.10) er et (1 α) konfidensinterval for middelværdien µ. Bruges u.975 = 1.960 fås et 0.95 eller et 95% konfidensinterval. 1 α kaldes konfidenskoefficienten. Fortolkningen af konfidensintervallet og konfidenskoefficienten 1 α er, at enten ligger µ i intervallet, eller der er indtruffet en

4.17 hændelse med en sandsynlighed mindre end α. Hvis α er lille, har man stor tiltro til, at µ ligger i konfidensintervallet. Det er samme argumentation, der ligger bag forkastelse af nulhypotesen når testsandsynligheden er lille, jævnfør afsnittet om statistikkens slutningsregel nedenfor. Det understreges, at det er x, der er stokastisk, og ikke µ. Der er ikke tale om, at µ ligger mellem faste grænser med sandsynligheden 1 α. Det er variationen i x fra forsøg til forsøg, der giver anledning til sandsynlighedsudsagnet. Betegnelsen konfidens er valgt for at understrege, at µ ikke pludselig er blevet en stokastisk variabel med tilhørende fordeling. Det (1 α) konfidensinterval, vi har valgt her, er baseret på testsstørrelsen u(x), og det har yderligere den fortolkning, at det består af de værdier af µ, som ville blive accepteret som nulhypotese med signifikansniveau α. Af formel (4.10) finder vi, at 95% konfidensintervallet for middelværdien µ her er [ ] 25 25 81.66 1.96 15,81.66+1.96 = [79.130, 84.190]. 15 Statistikkens slutningsregel Den regel, som ligger bag de konklusioner, man drager i statistikken, er i al sin enkelthed: En hændelse med en lille sandsynlighed indtræffer ikke. Signifikansniveauet α er grænsen for, hvor små sandsynligheder skal være, for at hændelserne ikke indtræffer, eller mere præcist grænsen for at man vælger at se bort fra muligheden, at hændelsen indtræffer. Risikoen for, at en person kommer til skade ved en flyveulykke, er mindre end 10 6 per flyvetime, og de fleste anser den risiko for negligeabel. Det er sandsynligheder af samme størrelsesorden, man anser for acceptable, når man vurderer risikoen for uheld på atomkraftværker eller andre store industrianlæg. Her arbejder man altså med signifikansniveauer, som er af størrelsesordenen højst 10 6. I statistik arbejder man med signifikansniveauer af størrelsesordenen 10 2. Som tidligere bemærket er α = 5 10 2 overalt i dette kursus. Når man rapporterer testsandsynligheden sammen med konklusionen, giver man andre mulighed for at drage deres egne konklusioner, hvis de skulle foretrække et andet signifikansniveau. Argumentationen, der ligger bag forkastelsen af en nulhypotese, fordi man har fået en lille testsandsynlighed, lyder: Enten er nulhypotesen forkert, eller der er indtruffet en hændelse med en lille sandsynlighed. Hændelser med en lille sandsynlighed indtræffer ikke, ergo er nulhypotesen forkert. Det er altså en helt klassisk logisk argumentation:

4.18 4.2 Én observationsrække med kendt varians Enten A eller B. B er falsk ergo A. Det nye og tankevækkende er propositionen: Hændelser med en lille sandsynlighed indtræffer ikke.

4.19 Anneks til Afsnit 4.2 Beregninger i Excel Eksempel 4.1 (Fortsat) Excel har ikke en dialogboks, der udfører beregningerne i én normalfordelt observationsrække med kendt varians. Det gøres dog let som nedenstående viser. Observationerne er indtastet i cellernea4:a18, hvorefter deres sum S ia19 er beregnet.!"# CellerneC3:E5 indeholder oplysninger vedrørende u-testet. Indholdet afc5:e5 er beregnet ved hjælp af de følgende tre formler: og =A19/15, ( x = S/n) = (C5 80)/KVROD(25/15) (u(x) = ( x 80)/ σ0 2/n) =2 (1 NORMFORDELING(D5;0;1;SAND)) (ε(x) = 2 (1 Φ( u(x) ))). Den nedre grænse i C9 for konfidensintervallet for middelværdien µ er beregnet som =C5 1,96 KVROD(25/15) (µ nedre = x 1.96 σ0 2/n) og den øvre grænse beregnes tilsvarende.

4.20 Hovedpunkter til Afsnit 4.2 Hovedpunkter til Afsnit 4.2 Modellen for én normalfordelt observationsrække x 1,...,x n med kendt varians σ 2 0 er M 0 : X i N(µ,σ 2 0 ), i = 1,...,n. Modelkontrol Fraktilsammenligning Estimation Middelværdien µ estimeres ved gennemsnittet af observationerne µ x = S n N(µ, σ 2 0 n ). Test af hypotesen H 0 : µ = µ 0. Hypotesen testes ved hjælp af u-teststørrelsen u(x) = u(x 1,...,x n ) = x µ 0 σ 2 0 /n N(0,1) og testsandsynligheden er ε(x) = 2(1 Φ( u(x) )). (Ved test på niveau 5% forkastes H 0, hvis ε(x) < 0.05.) Konfidensinterval 95% konfidensintervallet for middelværdien µ er σ 0 2 x 1.96 n, σ x 0 2 + 1.96 n

4.21 4.3 Én observationsrække med ukendt varians Teorien for én normalfordelt observationsrække med ukendt varians bliver også gennemgået i forbindelse med et eksempel. Vi betragter igen data i Eksempel 4.1 men benytter nu ikke den oplysning at spredningen på målinger af laktatkoncentrationen erfaringsmæssigt er 5. Ja faktisk undersøger vi i løbet af fortsættelsen af eksemplet om spredningen på de studerendes målinger er 5. Dette er helt i overensstemmelse med, at man altid skal være skeptisk overfor oplysninger, der tilskrives erfaringen. Det kunne jo være at de ikke var korrekte i relation til ens data. Eksempel 4.1 (Fortsat) Som netop nævnt ser vi nu bort fra oplysningen om at spredningen på målingerne erfaringsmæssigt er 5. Vi betragter derfor modellen M 0 : X i N(µ,σ 2 ), i = 1,...,15, hvor begge parametre µ og σ 2 er ukendte. Estimation Som estimater for middelværdien µ og variansen σ 2 benytter vi den empiriske middelværdi og den empiriske varians x = 1 n s 2 = 1 n 1 n i=1 n i=1 x i (4.11) (x i x ) 2. (4.12) Da S = 1224.9 og SK = 100472.63 finder vi ved hjælp af beregningsformlerne (1.9) og (1.10), at og µ x = 1224.9 15 = 81.66 N(µ, σ 2 15 ) σ 2 s 2 = 1 1224.92 (100472.63 ) = 31.9497. 14 15 Vi skal senere se, hvordan man kommer frem til at benytte s 2 som estimat for σ 2. Her nævner vi blot, at s 2 er en realisation af den stokastiske variabel s 2 (X) = 1 n 1 n i=1 (X i X ) 2, (4.13) som er σ 2 χ 2 (n 1)/(n 1) fordelt, jævnfør (3.29). Specielt er middelværdien Es 2 (X) = σ 2,

4.22 4.3 Én observationsrække med ukendt varians og variansen, Var s 2 (X) = 2σ 4 (n 1), så s 2 er et godt estimat for σ 2. Det har den rigtige middelværdi, og variansen aftager med stikprøvens størrelse. Test af hypotesen H 0µ : µ = µ 0 Hvis variansen er ukendt, kan man alligevel teste H 0µ : µ = µ 0 = 80. Udgangspunktet er som før differensen x µ 0 = 81.66 80 = 1.66 mellem skønnet over middelværdien, x, og middelværdien, µ 0, under nulhypotesen. Denne differens ville vi gerne se i forhold til spredningen på gennemsnittet, σ 2 /n, men σ 2 er nu ukendt. Det forekommer oplagt, at når σ 2 er ukendt, må man i stedet bruge et skøn over σ 2. Når man bruger s 2 i stedet for den ukendte varians σ 2, fås teststørrelsen t(x) = t(x 1,...,x n ) = x µ 0 81.66 80.0 = = 1.137. s 2 /n 31.9497/15 Teststørrelsen t(x) er en realisation af den stokastiske variabel t(x) = t(x 1,...,X n ) = X µ 0 s 2 (X)/n. (4.14) t(x) har en t-fordeling med n 1 frihedsgrader, i dette eksempel altså 14 frihedsgrader, jævnfør (3.32). t-fordelingen er tabellagt og findes desuden på visse lommeregnere, så man kan som før beregne testsandsynligheden ε(x). De værdier af teststørrelsen, som ville være mere kritiske end den observerede 1.137, er værdier mindre end 1.137 og større end 1.137. Testsandsynligheden, som er illustreret i Figur 4.6, bliver derfor ε(x) =F t(14) ( 1.137)+(1 F t(14) (1.137)) =2(1 F t(14) (1.137)) =0.275. Her betegner F t( f) fordelingsfunktionen for t-fordelingen med f frihedsgrader. I beregningen af testsandsynligheden er det benyttet, at t-fordelingerne i lighed med standard normalfordelingen N(0,1) er symmetriske omkring 0, så F t( f) ( t) = 1 F t( f) (t), for alle t. Da testsandsynligheden er større end 0.05, giver det ikke anledning til at forkaste nulhypotesen. Konklusionen er derfor den samme som i tilfældet med kendt varians.

4.23 Figur 4.6 Illustration af testsandsynligheden for t-testet i Eksempel 4.1. Testsandsynligheden er arealet af den skraverede område. Konfidensinterval for µ Lad som sædvanlig µ være den ukendte værdi af middelværdien. Da t(x) = X µ s 2 (X)/n er t-fordelt med f = n 1 frihedsgrader, er [ ] 1 α =P t α/2 ( f) X µ s 2 (X)/n t 1 α/2( f) [ ] s =P X t 1 α/2 ( f) 2 (X) s µ X +t n 1 α/2 ( f) 2 (X). n (4.15) Her er t α/2 ( f) og t 1 α/2 ( f) henholdsvis α/2 og 1 α/2 fraktiler for t-fordelingen med f frihedsgrader, og i omskrivningen er det benyttet, at t α/2 ( f) = t 1 α/2 ( f). Det vil sige, at uligheden s 2 s x t 1 α/2 ( f) n µ 2 x +t 1 α/2 ( f) n holder med sandsynlighed 1 α. Intervallet [ ] s 2 s x t 1 α/2 ( f) n, 2 x +t 1 α/2 ( f) n (4.16) (4.17)

4.24 4.3 Én observationsrække med ukendt varians er et (1 α) konfidensinterval for middelværdien µ. I det konkrete tilfælde bliver 95% konfidensintervallet for middelværdien µ, idet 97.5% fraktilen t 0.975 (14) i t-fordelingen med 14 frihedsgrader er 2.145 - [ ] 31.9497 31.9497 81.66 2.145,81.66+2.145 = [78.529, 84.791], 15 15 Test af hypotesen H 0σ 2 : σ 2 = σ 2 0 Vi fortsætter eksemplet med at undersøge om studenterne måler med samme præcision som man sædvanligvis har på bestemmelser af laktatkoncentrationer. Det er altid klogt at kontrollere sine antagelser, hvis det er muligt. Undertiden har antagelser karakter af ufunderet ønsketænkning. Vi opstiller derfor nulhypotesen H 0σ 2 : σ 2 = 5 2 = 25. Testet for H 0 tager udgangspunkt i skønnet for variansen s 2 = 31.9497, og som teststørrelse benytter man forholdet mellem skønnet over variansen og σ 2 0 s 2 σ0 2 = 31.9497 25 = 1.280. Teststørrelsen er en realisation af den stokastiske variabel s 2 (X) σ0 2. (4.18) s 2 (X) er σ 2 χ 2 (n 1)/(n 1) fordelt, så under nulhypotesen er teststørrelsen χ 2 (n 1)/(n 1)- fordelt. Disse fordelinger er tabellagt for alle i praksis forekommende frihedsgrader. Hvis teststørrelsen er tæt ved 1, svarer det til god overensstemmelse mellem skønnet s 2 og σ 2 0. Omvendt er meget små værdier af teststørrelsen kritiske for H 0, for det svarer til at skønnet over variansen er meget mindre end σ 2 0, og det tyder på, at variansen er mindre end σ 2 0. Tilsvarende er meget store værdier af teststørrelsen kritiske for H 0, for det betyder, at skønnet over variansen er meget større end σ0 2, og det tyder på, at variansen er større end σ 0 2. Som ved de tidligere test lader man testsandsynligheden være grundlaget for beslutningen. I det konkrete tilfælde er værdier af teststørrelsen større end den observerede 1.280 mere kritisk for hypotesen. Sandsynligheden for, at en χ 2 (14)/14-fordelt stokastisk variabel er større end 1.280, er 1 F χ 2 (14)/14(1.280) = 0.21045. χ 2 ( f)/ f -fordelingen har ikke den samme symmetri som normalfordelingen og t-fordelingen, så man kan ikke umiddelbart sige, hvor grænsen går for de små værdier af teststørrelsen, som er mindst lige så kritiske for H 0 som 1.280. Man vælger at definere testsandsynligheden til ε(x) = 2(1 F χ 2 (14)/14(1.280)) = 0.42090.

4.25 Det svarer så til, at man har fastsat, at værdierne mindre end 0.21405 fraktilen for χ 2 (14)/14- fordelingen er mindst lige så kritiske for H 0, som den observerede 1.280. Iøvrigt er 0.21405 fraktilen for χ 2 (14)/14-fordelingen lig med 0.687, se Figur 4.7. Figur 4.7 Illustration af testsandsynligheden for H 0σ 2 i Eksempel 4.1. Testsandsynligheden er arealet af den skraverede område. Testsandsynligheden er større end 0.05, så nulhypotesen accepteres. Det vil sige, at de studerende måler med samme præcision som den man har erfaring for. Hvis teststørrelsen s 2 (X)/σ0 2 havde været mindre end 1, for eksempel lig med 0.687, skulle testsandsynligheden være beregnet som ] ε(x) = 2 [F χ 2 (14)/14 (0.687) = 0.42090. Begrundelsen er, at hvis s 2 (X)/σ0 2 havde været mindre end 1, ville det være mindre værdier af teststørrelsen, som umiddelbart ville være mere kritiske end den observerede værdi. Udføres testet på 5% niveau, accepteres H 0σ 2 hvis s 2 /σ0 2 ligger mellem 2.5% og 97.5% fraktilen i χ 2 (n 1)/(n 1) fordelingen, det vil sige, hvis χ0.025 2 (n 1)/(n 1) < s2 /σ0 2 < χ0.975 2 (n 1)/(n 1). Vi bemærker, at man som teststørrelse for H 0σ 2 : σ 2 = σ 2 0 ofte bruger (n 1)s 2, (4.19) σ 2 0

4.26 4.3 Én observationsrække med ukendt varians som under nulhypotesen har en χ 2 (n 1)-fordeling. Det er store og små værdier af teststørrelsen, der er kritiske for H 0. Begrundelsen for at bruge (n 1)s 2 /σ0 2 i stedet for s2 /σ0 2 er, at tabellerne over χ 2 -fordelingen er mere udførlige end tabellerne over χ 2 ( f)/ f -fordelingen, idet de indeholder flere fraktiler. Det er samme test man udfører, idet testsandsynligheden er den samme, uanset hvilken af de to teststørrelser, man bruger. Konfidensinterval for σ 2 Lad σ 2 være den ukendte værdi af variansen. Da s 2 (X)/σ 2 er χ 2 ( f)/ f -fordelt, er med f = n 1 [ ] 1 α =P χα/2 2 ( f)/ f s2 (X) σ 2 χ1 α/2 2 ( f)/ f (4.20) [ ] s 2 (X) =P χ1 α/2 2 ( f)/ f σ 2 f s2 (X) χα/2 2 ( f)/ f. Det vil sige, at uligheden s 2 χ 2 1 α/2 ( f)/ f σ 2 holder med sandsynlighed 1 α. Intervallet [ s 2 χ 2 1 α/2 ( f)/ f, s 2 kaldes (1 α) konfidensintervallet for σ 2. s 2 χ 2 α/2 ( f)/ f (4.21) χ 2 α/2 ( f)/ f ] (4.22) Tager vi kvadratrod i (4.22) fås (1 α) konfidensintervallet for σ [ ] s 2 s χ1 α/2 2 ( f)/ f, 2 χα/2 2 ( f)/ f. (4.23) Idet χ0.025 2 (14)/14 = 0.4021 og χ2 0.975 (14)/14 = 1.8656 fås af (4.22) at 95% konfidensintervallet for variansen σ 2 i eksemplet her er [ 31.9497 1.8656, 31.9497 ] = [17.126, 79.457] 0.4021 og fra (4.23) at 95% konfidensintervallet for spredningen σ er [ 17.126, 79.457 ] = [4.138,8.914]. Hermed slutter Eksempel 4.1. Eksempel 1.1 (Fortsat) Eksemplet drejer sig om højdefordelingen af 247 astmaplagede piger i alderen 10-12 år. Modellen er X i N(µ,σ 2 ), i = 1,...,247,

4.27 hvor både middelværdien µ og variansen σ 2 er ukendte. Der er ikke nogen rimelige hypoteser at teste, hverken om middelværdien eller variansen, så vi nøjes med at angive estimater og konfidensintervaller for parametrene. Da n = 247, S = 34613 og SK = 4871559 fås, at µ x = 140.13 og σ 2 s 2 = 85.8317. 95% konfidensintervallerne for middelværdi µ, varians σ 2 og spredning σ er henholdsvis [138.97, 141.29], [72.4741, 103.2751] og [8.51, 10.16]. Eksempel 1.2 (Fortsat) For de 20 kondital er modellen X i N(µ,σ 2 ), i = 1,...,20, hvor både middelværdien µ og variansen σ 2 er ukendte. Der er ikke nogen rimelige hypoteser at teste, hverken om middelværdien eller variansen, så vi nøjes med at angive estimater og konfidensintervaller for parametrene. Da n = 20, S = 1442.0 og SK = 104413.06 fås, at µ x = 72.10 og σ 2 s 2 = 23.4137. 95% konfidensintervallerne for middelværdi µ, varians σ 2 og spredning σ er henholdsvis [69.835, 74.365], [13.541, 49.944] og [3.680, 7.067].

4.28 Beregninger i Excel Anneks til Afsnit 4.3 Beregninger i Excel Vi viser her, hvorledes beregningerne for én observationsrække med ukendt middelværdi og varians kan laves ved hjælp af Excel. Eksempel 4.1 (Fortsat) I det følgende refererer vi til udskriften fra Excel på side 4.19. Følg ruten Funktioner Dataanalyse Beskrivende Statistik. Angiv i dialogboksen, der fremkommer, celler A4:A18 i Inputområde. Marker Ny regnearksfane under Outputindstillinger %&''()"!"#! og $ $ $ $ klik i ruderne foran Resumestatistik og Konfidensniveau. Resultatet af dette er angivet i cellernea1:b16 nedenfor. %&!34'!'+!' $ $ &*&+&(,- &+&(,+!.'- 89 %3#7 56&,+!+ $ '3+!6 $ $ '!'+ '!'+ 5,(!+!'6: $ ;< $ /!"+&' %&'''(!."+ $ 012/ $ & &+&++ $ &+&+&"+ $ $ &+&++ &'" %6!!6 $ +4!.+4!. $ $ $ $ Vi genkender umiddelbart estimaterne x og s 2 for middelværdien µ og variansen σ 2 i cellerneb3 ogb8. Cellerne D2:E3 giver 95% konfidensintervallet for middelværdien µ. Idet indholdet af cellen B16 er t 0.975 (14) s 2 /n beregnesd3 som =B3 B16 (µ nedre = x t 0.975 (14) s 2 /n) ogd4 beregnes tilsvarende. Cellerne D5:E7 indeholder oplysningerne om t-testet for hypotesen H 0µ : µ = 80. Da indholdet af cellenb4 er s 2 /n beregnes cellerned7 oge7 som = (B3 80)/B4 (t(x) = ( x 80)/ s 2 /n )

4.29 og = TFORDELING(D7; 14; 2) (ε(x) = 2(1 P(t(14) t(x) )). CellerneF5:G7 indeholder oplysningerne om testet for hypotesen H 0σ 2 : σ 2 = 25. Cellerne F7 ogg7 beregnes som =B8/25 (s 2 /σ0 2 ) og, idet s 2 /σ0 2 1, =2 (CHIFORDELING(14 F7;14)) (ε(x) = 2F χ 2 (14)/14 (s2 /σ0 2 )). 95% konfidensintervallerne for variansen σ 2 og spredningen σ er beregnet i D11:E12 og D14:E15. Eksempelvis er D12 =B8/CHIINV(0,025;14) 14 (σnedre 2 = s2 /χ0.975 2 (14)/14) ogd15 =KVROD(D12) (σ nedre = s 2 /χ 2 0.975 (14)/14).

4.30 Hovedpunkter til Afsnit 4.3 Hovedpunkter til Afsnit 4.3 Modellen for én normalfordelt observationsrække x 1,...,x n med ukendt varians σ 2 er M 0 : X i N(µ,σ 2 ), i = 1,...,n. Modelkontrol Fraktilsammenligning Estimation Middelværdien µ estimeres ved gennemsnittet af observationerne µ x = S n og variansen σ 2 ved den empriske varians σ 2 s 2 = 1 n 1 n i=1 (x i x ) 2 = 1 n 1 N(µ, σ 2 n ) (SK S2 n ) σ 2 χ 2 (n 1)/(n 1). Test Hypotesen H 0µ : µ = µ 0 testes ved hjælp af t-teststørrelsen t(x) = t(x 1,...,x n ) = x µ 0 t(n 1) s 2 /n og testsandsynligheden er ε(x) = 2(1 F t(n 1) ( t(x) )). Hypotesen H 0σ 2 : σ 2 = σ 2 0 testes ved hjælp af teststørrelsen s 2 σ0 2 χ 2 (n 1)/(n 1) og testsandsynligheden er ε(x) = 2(1 F χ 2 (n 1)/(n 1) ( s2 σ0 2 )) hvis s2 σ0 2 2F χ 2 (n 1)/(n 1) ( s2 σ0 2 ) hvis s2 σ0 2 1 < 1.

4.31 Ved test på niveau 5% forkastes H 0σ 2 : σ 2 = σ 2 0 ikke, hvis χ0.025 2 s2 (n 1)/(n 1) σ0 2 χ0.975 2 (n 1)/(n 1) Konfidensinterval (1 α) konfidensintervallet for middelværdien µ er [ ] s 2 s x t 1 α/2 ( f) n, 2 x +t 1 α/2 ( f), n (1 α) konfidensintervallet for variansen σ 2 er [ s 2 χ 2 1 α/2 (n 1)/(n 1), s 2 χ 2 α/2 og (1 α) konfidensintervallet for spredningen σ er [ s 2 χ1 α/2 2 (n 1)/(n 1), (n 1)/(n 1) s 2 ] χα/2 2 (n 1)/(n 1) ].

4.32 4.4 To observationsrækker 4.4 To observationsrækker Selvom afsnittet har overskriften to observationsrækker begynder vi med at indføre notation for k observationsrækker allerede her. Det skyldes, at notationen og nogle de basale regninger i tilfældet k = 2 naturligvis blot er et specialtilfælde. Modellen for k normalfordelte observationsrækker er, at data x 11,...,x 1 j,...,x 1n1 x i1,...,x i j,...,x ini x k1,...,x k j,...,x knk er realisationer af uafhængige, normalfordelte stokastiske variable, det vil sige M 0 : X i j N(µ i,σ 2 i ). Denne model vil kort blive omtalt som modellen for k normalfordelte observationsrækker. Som det fremgår, bruger vi i til at indicere observationsrækkerne og j til at indicere observationerne inden for rækkerne. Antallet af observationer i den i te række betegnes n i, og der er ikke noget krav om, at der skal være det samme antal observationer i hver række. I hver observationsrække beregnes skøn over middelværdien og variansen. Skønnet over middelværdien i den i te række er gennemsnittet i den i te række, og det betegnes x i. Skønnet over variansen i i te række er den empiriske varians s 2 beregnet i den i te række, og det betegnes s 2 (i). Den tilsyneladende overflødige parentes om rækkeindekset på variansskønnene s 2 (i) er indført for at skelne dem fra størrelserne s 2 1 og s2 2, som indføres senere i dette kapitel i forbindelse med en følge af gradvist mere restriktive hypoteser om middelværdierne. For frihedsgraderne bruges den tilsvarende notation. Således betegner f (i) = n i 1 frihedsgraderne for s 2 (i), og s2 (i) = SAK (i)/ f (i), hvor SAK (i) er SAK fra den i te række. Vi har i dette afsnit benyttet notationen x i for gennemsnittet i den i te observationsrække. Vi benytter her den meget almindelige konvention, at når man har indicerede variable, kan man angive summen af variablen over alle værdier af et indeks ved at erstatte indekset med. For eksempel betegner x i summen i den i te observationsrække, x betegner summen af alle observationer og n betegner det totale antal observationer. Med over variabelnavnet angiver man, at der er taget gennemsnit over alle de observationer, der er summeret over. Således betegner netop x i gennemsnittet af de n i observationer i den i te observationsrække, og x betegner gennemsnittet over alle n observationer. Beregningen af gennemsnittene og de empiriske varianser foretages bekvemt ved hjælp af beregningsskemaet på side 4.33.

4.33 Beregningsskema til k observationsrækker 1 2 3 4 5 6 7 8 9 Række antal Sum af Friheds- Varians- Gennemnr. obs Sum kvadrater grader estimat snit i n i S i SK i S 2 i n i SAK (i) f (i) s 2 (i) x i 1 n 1 S 1 SK 1 S 2 1 n 1 SAK (1) f (1) s 2 (1) x 1......... i n i S i SK i S 2 i n i SAK (i) f (i) s 2 (i) x i......... k n k S k SK k S 2 k n k SAK (k) f (k) s 2 (k) x k Ialt n S SK k Si 2 i=1 n i SAK 01 f 01 s 2 01 x Her er SAK (i) = SK i S2 i n i, f (i) = n i 1, s 2 (i) = SAK (i) f (i), x i = S i n i, mens tallene i kolonnerne 2-7 i den sidste række er summen af tallene i den tilsvarende kolonne. Endelig er og s 2 01 = SAK 01 f 01 x = S. n

4.34 4.4 To observationsrækker Vi vender nu tilbage til modellen for to observationsrækker, det vil sige M 0 : X i j N(µ i,σ 2 i ), j = 1,...,n i, i = 1,2. Behandlingen af to normalfordelte observationsrækker består i at undersøge om varianserne kan antages at være ens, det vil sige teste hypotesen H 01 : σ1 2 = σ 2 2, svarende til reduktionen M 0 M 1, hvor M 1 : X i j N(µ i,σ 2 ), og derefter at undersøge om middelværdierne kan antages at være ens, det vil sige teste hypotesen H 02 : µ 1 = µ 2 svarende til reduktionen M 1 M 2, hvor M 2 : X i j N(µ,σ 2 ). Behandlingen afsluttes med beregning af relevante konfidensintervaller. Undertiden testes hypotesen om ens middelværdier selvom hypotesen om ens varianser ikke kan accepteres. For at skelne mellem de to situatoner betegner vi da hypotesen om ens middelværdier med H 02, det vil sige H 02 : µ 1 = µ 2, idet den svarer til reduktionen M 0 M 2, hvor M 2 : X i j N(µ,σ 2 i ). Der er forskel, både på hvordan man kan teste hypotesen om ens middelværdier og på hvordan man beregner konfidensintervaller, når der er varianshomogenitet, det vil sige at man har accepteret H 01 : σ1 2 = σ 2 2, og når der ikke er varianshomogenitet. De to tilfælde behandles hver for sig i underafsnit. Gennemgangen af to observationsrækker med ens varians baseres på Eksempel 4.2. Eksempel 4.2 Vi betragter konditallene for de ikke-aktive og de aktive idrætsudøvere i henholdsvis Opgave 1.4 og Eksempel 1.2, som er gengivet nedenfor. kondital ikke-aktive 56.0 61.8 64.1 64.9 65.2 66.3 66.9 68.9 70.6 70.8 72.4 73.1 73.9 74.1 74.1 75.3 78.7 aktive 68.9 75.2 74.3 72.9 72.0 63.9 76.3 76.3 75.4 66.0 68.4 64.1 73.1 64.9 73.4 76.2 79.4 69.4 79.8 72.1 Figur 4.8 viser fraktildiagrammet for de to observationsrækker. Det ses, at punkterne i diagrammet forekommer at variere - uden systematiske afvigelser - omkring to linjer med samme hældning. Vi betragter derfor modellen M 0 og har i denne et håb om, at hypotesen H 01 om varianshomogenitet kan accepteres, idet hældningen af linjerne i fraktildiagrammet jo svarer til den reciprokke varians.

4.35 Figur 4.8 Fraktildiagrammet for data i Eksempel 4.1. Ikke-aktive svarer til gruppe 0. Esimaterne for de fire parametre i modellen M 0 : X i j N(µ i,σi 2 ), j = 1,...,n i, i = 1,2. fremgår at de to sidste kolonner i beregningsskemaet: 4.4.1 Test for varianshomogenitet Eksempel 4.2 (Fortsat) Vi tester nu hypotesen om ens varians i de to observationsrækker, det vil sige H 01 : σ 2 1 = σ 2 2.

4.36 4.4 To observationsrækker Udgangspunktet er variansskønnene i de to observationsrækker. s 2 (1) = 33.17507 σ 2 1 s 2 (2) = 23.41368 σ 2 2, og som teststørrelse bruges forholdet mellem variansskønnene F(x) = s2 (1) s 2 = 33.17507 23.41368 = 1.417. (2) Store og små værdier af teststørrelsen er kritiske for H 01, for de afspejler store forskelle i variansskønnene og dermed sandsynligvis store forskelle i varianserne. Derimod er værdier omkring 1 ikke kritiske. I dette eksempel er P[F(X) > 1.417] = 1 F F( f(1), f (2) )(1.417) = 0.232, hvor F( f (1), f (2) ) er F-fordelingen med f (1) = n 1 1 frihedsgrader i tælleren og f (2) = n 2 1 frihedsgrader i nævneren. Da små værdier også er kritiske forh 01 vælger man at sætte testsandsynligheden til ε(x) = 2P[F(X) > 1.417] = 0.464. Det strider ikke mod H 01, som således accepteres. Modellen M 0 kan altså reduceres til M 1 : X i j N(µ i,σ 2 ). Testsandsynligheden, der er illustreret i Figur 4.9, er her regnet ud i F-fordelingen. F- fordelingen med f (1) frihedsgrader i tælleren og f (2) frihedsgrader i nævneren er netop fordelingen til forholdet mellem en χ 2 ( f (1) )/ f (1) -fordelt stokastisk variabel og en χ 2 ( f (2) )/ f (2) -fordelt stokastisk variabel, som er uafhængige, jævnfør Afsnit 3.1.5. Nu er s 2 (1) og s2 (2) realisationer af henholdsvis en σ 2 1 χ2 ( f (1) )/ f (1) - og en σ 2 2 χ2 ( f (2) )/ f (2) - fordelt stokastisk variabel, og netop under H 01 : σ1 2 = σ 2 2 er σ 1 2/σ 2 2 = 1, så forholdet F(x) = s 2 (1) /s2 (2) bliver en realisation af en F( f (1), f (2) )-fordelt stokastisk variabel. Det kan være instruktivt at se, hvor store forskelle i de to variansskøn man kunne komme ud for uden at forkaste hypotesen om ens varianser. 97.5% fraktilen i F(16, 19)-fordelingen er 2.59, så man kunne have observeret en forskel i de to variansskøn på omkring en faktor 2.5 og alligevel have accepteret H 01 : σ 2 1 = σ 2 2.

4.37 Figur 4.9 Illustration af testsandsynligheden for F-testet i Eksempel 4.2. Testsandsynligheden er arealet af den skraverede område. F-testet og Statistical Tables Tabellerne over F-fordelingen i Statistical Tables indeholder kun fraktiler over 0.5, så testsandsynligheden for F-testet kan ikke slås op i tabellen, hvis den observerede værdi af F(x) = s 2 (1) / s 2 (2) er lille. Dette afhjælpes på følgende måde: Sæt s 2 tæller = max{s2 (1),s2 (2) }, lad f tæller være frihedsgraderne for s 2 tæller, s 2 nævner = min{s2 (1),s2 (2) } og lad f nævner være frihedsgraderne for s 2 nævner. F-teststørrelsen er Testsandsynligheden beregnes som F(x) = s2 tæller s 2. nævner ε(x) = 2 [ 1 F F( ftæller, f nævner )(F(x)) ], hvor F( f tæller, f nævner ) betegner F-fordelingen med f tæller frihedsgrader i tælleren og f nævner frihedsgrader i nævneren. Ved test på 5% niveau accepteres H 01 : σ1 2 = σ 2 2 hvis F(x) < F 0.975 ( f tæller, f nævner ), 97.5% fraktilen i F-fordelingen med ( f tæller, f nævner ) frihedsgrader.

4.38 4.4 To observationsrækker 4.4.2 Ens varians Igen diskuteres den generelle teori med udgangspunkt i Eksempel 4.2. Eksempel 4.2 (Fortsat) Efter accept af hypotesen H 01 : σ 2 1 = σ 2 2 er modellen M 1 : X i j N(µ i,σ 2 ). Estimation Ved estimation af modellens tre parametre µ 1, µ 2 og σ 2 benyttes en generel estimations metode, maksimum likehood estimation, som omtales i Kapitel 5. Traditionelt antyder man brug af denne metode ved benytte symbolet ˆ(udtales hat ) over parametrene. Således betegner ˆµ 1, ˆµ 2 og ˆσ 2 maksimum likehood estimaterne for µ 1, µ 2 og σ 2. Vi skal ikke i detaljer komme ind på, hvordan man finder estimaterne for parametrene, men kun nævne, at maksimum likelihood estimaterne for µ 1 og µ 2 er gennemsnittene i de to observationsrækker, altså ˆµ 1 = x 1 og ˆµ 2 = x 2, mens maksimum likelihood estimatet for σ 2 er ˆσ 2 = SAK 01 n = SAK (1) + SAK (2) n 1 + n 2. Da SAK (1) σ 2 χ 2 ( f (1) ) og SAK (2) σ 2 χ 2 ( f (2) ) og SAK (1) og SAK (2) er uafhængige, er SAK 01 σ 2 χ 2 ( f (1) + f (2) ), jævnfør (3.25) i Afsnit 3.1.3. For at få et skøn med middelværdi σ 2 bruges skønnet s 2 01 = SAK 01 f (1) + f (2) = SAK 01 f 01, (4.24) idet vi benytter betegnelsen f 01 = f (1) + f (2) for frihedsgraderne for s 2 01. Estimaterne for parametrene i M 1 og deres fordeling kan resumeres på følgende måde: og µ 1 x 1 N(µ 1, σ 2 n 1 ), µ 2 x 2 N(µ 2, σ 2 n 2 ), σ 2 s 2 01 = f (1)s 2 (1) + f (2)s 2 (2) f (1) + f (2) = SAK (1) + SAK (2) f (1) + f (2) σ 2 χ 2 ( f (1) + f (2) )/( f (1) + f (2) ). Vi gør igen opmærksom på at her skal for eksempel notationen x 1 N(µ 1, σ 2 n 1 )

4.39 læses x 1 er en realisation af en stokastisk variabel X 1, som er fordelt N(µ 1,σ 2 /n 1 ). Det første minder altså om, at skønnet er en realisation af en stokastisk variabel, og det andet har sin sædvanlige betydning fordelt som. Vi har hermed beskrevet de marginale fordelinger for skønnene, og da de marginale fordelinger er uafhængige, er skønnenes simultane fordeling beskrevet. Det falder uden for rammerne af kurset at bevise uafhængigheden af estimaternes fordeling. Bemærk, at formlen s 2 01 = ( f (1)s 2 (1) + f (2)s 2 (2) )/( f (1) + f (2) ) viser, at s 2 01 er et vægtet gennemsnit med vægte f (1) og f (2). Derfor får det af de to variansskøn s 2 (1) og s2 (2) med flest frihedsgrader den største indflydelse på s 2 01. Tilbage til de konkrete tal i eksemplet. Estimaterne, der fremgår af beregningsskemaet på side 4.35 resumeres i nedenstående tabel. middelværdi µ varians σ 2 ikke-aktive 69.241 27.87603 aktive 72.100 Test af hypotesen om ens middelværdier Vi tester nu hypotesen om ens middelværdi i de to observationsrækker: H 02 : µ 1 = µ 2. Testet er baseret på en sammenligning af estimaterne for middelværdierne. Da og fordelingerne er uafhængige, er x 1 N(µ 1, σ 2 x 1 x 2 N n 1 ) og x 2 N(µ 2, σ 2 n 2 ), (µ 1 µ 2,σ 2 ( 1n1 + 1n2 )), og under nulhypotesen, er Derfor er ( )) x 1 x 2 N (0,σ 2 + 1n1 1n2. x 1 x 2 ( ) N(0,1). (4.25) σ 1n1 2 + 1n2 Da σ 2 er ukendt, indsættes i stedet skønnet s 2 01, og man får teststørrelsen t(x), hvor t(x) = x 1 x 2 ( 1 ) t( f 01). (4.26) s 2 01 n 1 + 1 n 2

4.40 4.4 To observationsrækker Det fremgår af Afsnit 3.1.4, att(x) er t-fordelt med f 01 frihedsgrader, da s 2 01 σ 2 χ 2 ( f 01 )/ f 01 og uafhængig af fordelingen til (4.25). Den observerede værdi af teststørrelsen t(x) er t(x) = 69.241 72.100 ( 1 27.87603 17 + 1 20 ) = 2.859 1.74171 = 1.6414. De værdier af t(x), som er mere kritiske for nulhypotesen end den observerede værdi 1.6414, er t < 1.6414 og t > 1.6414. Testsandsynligheden bliver ε(x) = 2 [ 1 F t(35) (1.6414) ] = 0.110, hvor F t(35) betegner fordelingsfunktionen for t-fordelingen med 35 frihedsgrader. Da ε(x) > 0.05, strider det ikke mod H 02, som accepteres. Faglig set betyder dette, at vi ikke kan påvise forskel på konditallene for de ikke-aktive og de aktive, hvilket er lidt overraskende. Det fremgår ikke klart af Andersen (1998), hvordan de to grupper er defineret. Konklusionen er altså, at selvom estimatet x 2 = 72.100 for middelværdien af de aktives kondital er større end estimatet x 1 = 69.241 for de ikke-aktive, er forskellen ikke statistisk signifikant. Modellen er herefter M 2 : X i j N(µ,σ 2 ), i = 1,2, j = 1,...,n i. Det er den velkendte model for én observationsrække, som ganske vist her har en lidt mere indviklet indicering af de enkelte observationer, end det var nødvendigt i Afsnit 4.3. Ved hjælp af formlerne (4.11) og (4.12) finder vi, at estimaterne for parametrene er hvor n = n 1 + n 2. µ x = 70.786 N(µ, σ 2 ), σ 2 s 2 02 = 29.18787 σ 2 χ 2 (n 1)/(n 1), Bemærk, at når man har udført standardberegningerne for hver af de to observationsrækker, det vil sige, at man har beregnet S 1, S 2, SK 1 og SK 2, får man S og SK for samtlige observationer som S = S 1 + S 2 og SK = SK 1 + SK 2. Standardberegningerne for de to observationsrækker er givet i tabellen øverst side 4.35, så man finder n = 37, S = 2619.1, SK = 186447.65, som er brugt til at beregne estimaterne for µ og σ 2 ovenfor. n

Konfidensintervaller 4.41 95% konfidensintervaller for µ og σ 2 - beregnet ved hjælp af formlerne (4.17) og (4.20) - er vist i tabellen nedenfor. 95% konfidensintervaller middelværdi µ varians σ 2 ikke-aktive og aktive [68.985, 72.587] [19.30387, 49.24560] I eksemplet her var konklusionen at t-testet ikke stred mod H 02 : µ 1 = µ 2, og analysen sluttede med et 95% konfidensinterval for den fælles middelværdi µ og for den fælles varians σ 2. Hvis H 02 var blevet forkastet ville slutmodellen være M 1, to observationsrækker med forskellig middelværdi og fælles varians. I det tilfælde kunnne man være interesseret i konfidensintervallerne for middelværdierne µ 1 og µ 2, og de vil være {µ 1 x 1 t 1 α/2 ( f 01 ) {µ 2 x 2 t 1 α/2 ( f 01 ) s 2 01 n 1 µ 1 x 1 +t 1 α/2 ( f 01 ) s 2 01 n 2 µ 2 x 2 +t 1 α/2 ( f 01 ) s 2 01 n 1 }, s 2 01 n 2 }, hvor man lægger mærke til, at man i overensstemmelse med at slutmodellen er M 1 benytter det fælles variansskøn s 2 01 med tilhørende frihedsgrader f 01. Men det vil ofte være meget mere interessant at beregne konfidensintervallet for forskellen i middelværdi i de to observationsrækker, det vil sige for µ 1 µ 2. Meget ofte planlægges et forsøg med to observationsrækker for at påvise en forskel på middelværdierne, og bredden af konfidensintervallet for µ 1 µ 2 viser hvor præcist denne forskel er bestemt. Konfidensintervallet er baseret på t-testet i (4.26), og (1 α) konfidensintervallet er { x 1 x 2 t 1 α/2 ( f 01 ) s 2 01 ( 1 n 1 + 1 n 2 ) µ 1 µ 2 x 1 x 2 + t 1 α/2 ( f 01 ) s 2 01 ( 1 n 1 + 1 n 2 ) } (4.27) Selv når testet for H 02 ikke forkaster hypotesen, og man derfor må konkludere, at data ikke strider mod H 02, at de to observationsrækker har samme middelværdi, er det interessant at beregne konfidensintervallet for µ 1 µ 2, som også i det tilfælde er givet ved formlen ovenfor. Man skal nemlig være opmærksom på, at når et statistisk test ikke er signifikant, har man ikke bevist at der ingen forskel er. Man har kun vist, at data ikke strider mod en antagelse om ingen forskel, og det kunne jo skyldes at man havde lavet et dårligt forsøg med enten for stor varians, for små stikprøver eller begge dele. Bredden af konfidensintervallet for µ 1 µ 2 kan bruges til at vurdere kvaliteten af forsøget. Et forsøg med et smalt konfidensinterval vil virke mere overbevisende.

4.42 4.4 To observationsrækker end et forsøg med et bredt konfidensinterval, og her skal bredden af konfidensintervallet altid vurderes ud fra den faglige problemstilling. 95% konfidensintervallet for µ 1 µ 2 er i det konkrete tilfælde x 1 x 2 ±t 0.975 (35) s 2 01 ( 1 17 + 1 ) = 2.859 ± 2.030 1.74171 = [ 6.395,0.677]. 20 Konfidensinterval for σ 2 i modellen M 1 beregnes som beskrevet for én observationsrække. Det er baseret på at s 2 01 σ 2 χ 2 ( f 01 )/ f 01 og (1 α) konfidensintervallet er { σ 2 s 2 01 χ 2 1 α/2 ( f 01)/ f 01 σ 2 s 2 01 χ 2 α/2 ( f 01)/ f 01 og det kan transformeres til et (1 α) konfidensinterval for σ σ s 2 01 χ1 α/2 2 ( f σ s 2 01 01)/ f 01 χα/2 2 ( f 01)/ f 01. }, 4.4.3 Forskellig varians Den generelle teori diskuteres i forbindelse med datasættet i Eksempel 4.3. Eksempel 4.3 Tabellen nedenfor indeholder tiderne for de to semifinaler i kvindernes 100 m løb ved de olympiske lege i Sydney 2000. semifinale 1 11.22 11.31 11.32 11.34 11.37 11.40 11.42 11.45 semifinale 2 11.01 11.10 11.12 11.16 11.23 11.31 11.33 11.56 Fraktildiagrammet i Figur 4.10 antyder, at var de to observationsrækker kan antages at være normalfordelte men med hver sin varians, idet punkterne varierer omkring to rette linjer med forskellig hældning. Da S 1 = 90.83, S 2 = 89.82, SK 1 = 1031.2983 og SK 2 = 1008.6616 bliver estimaterne i modellen M 0 : X i j N(µ i,σ 2 i ), j = 1,...,8, i = 1,2 semifinale middelværdi µ varians σ 2 1 11.35375 0.005313 2 11.22750 0.029650

4.43 Figur 4.10 Fraktildiagrammet for data i Eksempel 4.3. Som altid betragter vi først hypotesen om varianshomogenitet H 01 : σ 2 1 = σ 2 2. F-testet bliver F(x) = s2 (2) s 2 = 0.029650 0.005313 = 5.5812. (1) Teststørrelsen skal vurderes i en F-fordeling med 7 frihedsgrader i tælleren og 7 frihedsgrader i nævneren. Her er P[F(X) > 5.5812] = 1 F F(7,7) (5.5812) = 1 0.9814 = 0.0186, så testsandsynligheden bliver ε(x) = 2P[F(X) > 5.5812] = 0.0372. Testsandsynligheden er under 0.05, så H 01 forkastes. De to observationsrækker har ikke den samme varians. Variansskønnet er størst for tiderne i den anden semifinale. Modellen er stadig M 0 ovenfor. Test af hypotesen om ens middelværdier Vi tester nu hypotesen om ens middelværdier i de to observationsrækker: H 02 : µ 1 = µ 2

4.44 4.4 To observationsrækker selvom de to rækker har forskellig varians. H 0µ er Udgangspunktet er som før at vurdere forskellen i skønnene over middelværdierne. Under x 1 x 2 N(0, 1) (4.28) σ1 2/n 1 + σ2 2/n 2 og da varianserne er ukendte, kan man forsøge sig med at erstatte dem med skønnene i formlen (4.28). Det giver teststørrelsen t(x) = x 1 x 2. s 2 (1) /n 1 + s 2 (2) /n 2 Denne er ikke eksakt t-fordelt, men man kan vise, at dens fordeling kan approksimeres med en t-fordeling med et antal frihedsgrader, f, der beregnes ud fra variansskønnene og antal observationer i hver af de to observationsrækker. Formlen til beregning af f er ( ) s 2 2 (1) n 1 + s2 (2) n 2 f =. (4.29) og det kan vises, at ( ) s 2 2 (1) n 1 f + (1) ( ) s 2 2 (2) n 2 f (2) min { f (1), f (2) } f f (1) + f (2). Tilbage til det konkrete eksempel finder man, at t(x) = 11.35375 11.22750 = 0.126250 = 1.9097. (4.30) 0.005313/8+0.029650/8 0.066108 For at kunne beregne testsandsynligheden findes f ved hjælp af formel (4.29) til f = 9.43, som rundes ned til 9. Testsandsynligheden kan derpå beregnes ved hjælp af t-fordelingen med 9 frihedsgrader til ε(x) = 2 [ 1 F t(9) (1.9097) ] = 0.0885. Da testsandsynligheden er større end 0.05 accepteres H02. De to observationsrækker kan altså antages at have samme middelværdi med de har forskellige varianser. Konfidensintervaller Konfidensintervaller for varianserne i hver af de to observationsrækker beregnes som beskrevet for én observationsrække. Vi nøjes her med at angive et approksimativt konfidensinterval for µ 1 µ 2 som baseres på den approksimative t-fordeling af t(x) = x 1 x 2, s 2 (1) /n 1 + s 2 (2) /n 2

og et (1 α) konfidensinterval bliver x 1 x 2 t 1 α/2 ( f) s 2 (1) + s2 (2) n 1 n 2 µ 1 µ 2 x 1 x 2 +t 1 α/2 ( f) s 2 (1) n 1 + s2 (2) n 2. 4.45 (4.31) Grænserne for 95% konfidensintervallet for µ 1 µ 2 er, idet vi benytter f = 9 i stedet for f = 9.43, x 1 x 2 ±t 0.975 (9) s 2 (1) n 1 + s2 (2) n 2 = 0.12625 ± 2.262 0.066108 = [ 0.023287,0.275787]. 4.4.4 Parrede observationer Antag, at vi betragter følgende generelle situation. Vi ønsker at undersøge, om en bestemt behandling (for eksempel en træningsmetode eller et medicinsk præparat) har en virkning. Vi udfører derfor et eksperiment, der består i at vi på n forsøgspersoner før og efter behandlingen måler en størrelse (for eksempel kondital eller glycogen indhold i muskler) ved hjælp af hvilken behandlingens effekt kan belyses. Lad x i1 og x i2 betegne målingerne før og efter for den i person, i = 1,...,n. Vi har altså ialt 2n målinger, x i j, i = 1,...,n og j = 1,2, men de er parrede, idet x i1 og x i2 er sammenhørende observationer for den i te person. Lad X i j betegne de tilsvarende stokastiske variable. Typisk varierer middelværdien af den første måling fra person til person. Det vil sige, at EX i1 = α i, i = 1,...,n, hvor α i er udtryk for den i te persons niveau af den målte størrelse. Antager vi nu, at behandlingen har en virkning som uafhængigt af personernes niveau forøger eller formindsker middelværdierne med en størrelse δ har vi EX i2 = α i + δ, i = 1,...,n. Ingen virkning af behandlingen kan derfor formuleres som hypotesen H 0 : δ = 0. Lad D i betegne differensen mellem målingen efter og før behandlingen for den i te person, det vil sige D i = X i2 X i1, i = 1,...,n.

4.46 4.4 To observationsrækker Da ED i = E(X i2 X i1 ) = EX i2 EX i1 = (α i + δ) α i = δ, ses det, at middelværdien af differenserne er uafhængig af personernes niveauer samt at H 0 svarer til at ED i = 0, i = 1,...,n. Hypotesen H 0 kan testes på flere måder. Vi tager her udgangspunkt i antagelsen om at de observerede differenser d 1,...,d n kan opfattes som en normalfordelt observationsrække, det vil sige, vi antager at D 1,...,D n er stokastisk uafhængige og betragter modellen M 0 : D i N(δ,σD). 2 Modellen M 0 kontrolleres ved fraktilsammenligning baseret på differenserne d 1,...,d n samt ved at indtegne punkterne (x i1,x i2 ), i = 1,...,n. Punkterne i denne tegning skal variere omkring en ret linje med hældning 1 og afskæringen på andenaksen giver et estimat for δ. I M 0 er testet for H 0 : δ = 0 altså blot testet for at middelværdien for en normalfordelt observationsrække d 1,...,d n kan antages at være 0. Dette test - t-testet - er omtalt i Afsnit 4.3. I denne situation omtales testet som det parrede t-test. Hvis d t(d) = n, s 2 d hvor og bliver testsandsynligheden for H 0 d = 1 n s 2 d = 1 n 1 n i=1 n i=1 d i (d i d) 2 ε(d) = 2(1 P(t(n 1) t(d) )), hvor t(n 1) er en t-fordelt stokastisk variabel med n 1 frihedsgrader, og ved test på niveau 5% forkastes H 0 : δ = 0, hvis t(d) > t 0.975 (n 1). Bemærkning Modellen M 0 involverer ikke antagelser om de stokastiske variable X i j, i = 1,...,n, j = 1,2, men kun om differenserne D i, i = 1,...,n. Hvis imidlertid X i j -erne er stokastisk uafhængige og X i1 N(α i,σ1 2) og X i2 N(α i + δ,σ2 2) er forudsætningerne i M 0 opfyldt, idet vi da har D i N(δ,σD 2), hvor σ D 2 = σ 1 2 + σ 2 2. Eksempel 4.4 (Andersen 1998) Tallene i tabellen nedenfor er indsamlet for at undersøge om træning har indflydelse på glycogen indholdet i benmuskler. Der er foretaget målinger på 8 personer, som i en

4.47 periode på 3 uger træner det ene ben men ikke det andet. For hver af de to ben er glycogen indholdet målt før og efter træningen. Trænet ben Utrænet ben Forsøgs- Før Efter Før Efter person nr. træning træning Differens træning træning Differens 1 534 813 +279 575 616 +41 2 593 767 +174 496 465-31 3 370 551 +181 413 439 +26 4 507 716 +209 642 536-106 5 450 814 +364 422 566 +144 6 619 1168 +549 668 501-167 7 422 749 +327 382 621 +239 8 578 714 +136 652 513-139 Vi vil vurdere om træningen har effekt og betragter derfor primært tallene for det trænede ben. Tallene for det utrænede ben fungerer som en slags kontrol af forsøget, idet en effekt her vil antyde, at andre ting end træning har indflydelse på glycogen indholdet i musklerne. Figur 4.11 viser kontroltegningerne for såvel det trænede ben (+) og det utrænede ben ( ). Af fraktildiagrammet ses, at i begge tilfælde kan vi med rimelighed antage, at observationerne kan opfattes som en normalfordelt observationsrække, det vil sige at vi i begge tilfælde kan betragte modellen M 0 : D i N(δ,σD 2 ), i = 1,...,8. Endvidere antyder diagrammet, at middelværdien for det utrænede ben ligger tæt på 0, mens den for det trænede ben er af størrelsesordenen 275. (Dette ses af figuren ved at finde de punkter på førsteaksen der svarer til værdien 0 på andenaksen.) I den nederste tegning varierer punkterne pænt omkring rette linjer med hældning 1. Eneste afvigelse forekommer at være observationen for det trænede ben for person nr. 6, som måske er en ekstrem observation. Vi fastholder dog modellen M 0 i begge tilfælde og ser senere på hvilken indflydelse observationerne for person nr. 6 har på resultatet af analysen. Da summen og kvadratsummen af differenserne i de to tilfælde er differenser S SK utrænet ben 7 139621 trænet ben 2219 743881 finder vi for det trænede ben: d = 2219 = 227.375 8

4.48 4.4 To observationsrækker Figur 4.11 Kontroltegninger for det parrede t-test for data i Eksempel 4.4.

4.49 og og dermed s 2 d = 1 7 22192 (743881 ) = 18340.84 8 t(d) = 227.375 8 18340.84 = 5.793. I tabellen over t-fordelingen finder vi, at testsandsynligheden for H 0 : δ = 0 er ε(d) = 2(1 P(t(7) 5.793)) = 0.0007. Hypotesen H 0 forkastes. Vi har derfor påvist en signifikant virkning af træning på glycogen indholdet. Da d > 0, kan vi konkludere, at træning øger glycogen indholdet. På samme måde finder vi for detutrænede ben: d = 7 8 = 0.875 og og dermed s 2 d = 1 72 (139612 7 8 ) = 19944.98 t(d) = 0.875 8 19944.98 = 0.018. Testsandsynligheden for H 0 : δ = 0 er derfor ε(d) = 2(1 P(t(7) 0.018)) = 0.9865, så H 0 kan ikke forkastes. Vi kan derfor ikke konstatere nogen signifikant forskel i middelværdien af indholdet af glycogen i det utrænede ben før og efter de 3 uger. Gentages analysen, idet målingerne for person nr. 6 udelades, finder vi for det trænede ben t(d) = 7.365 ε(d) = 2(1 P(t(6) 7.365)) = 0.0002 og for det utrænede ben t(d) = 0.492 ε(d) = 2(1 P(t(6) 0.492)) = 0.6405, og altså præcis de samme konklusioner som ovenfor.

4.50 Beregninger i Excel Anneks til Afsnit 4.4 Beregninger i Excel Excel har fire dialogbokse der let udfører beregninger for to observationsrækker, nemlig F-test: Dobbelt-stikprøve for ens varians t-test: To stikprøver med ens varians t-test: To stikprøver med forskellig varians t-test: Parvis dobbelt stikprøve for middelværdi Den sidste af disse laver beregningerne for det parrede t-test i Afsnit 4.4.4 og det er oplagt hvad de tre første dialogbokse laver. Vi illustrerer nu brugen af disse dialogbokse i forbindelse med eksemplerne i afsnittet. Eksempel 4.2 (Fortsat) Antag af cellernea1:b23 har indholdet vist nedenfor For at beregne F-testet for hypotesen H 01 : σ1 2 = σ 2 2 følger vi ruten:funktioner Dataanalyse F-test: Dobbelt-stikprøve for ens varians. I dialogboksen, der fremkommer, angives cellerne A4:A20 i ruden efter Område for variabel 1 og cellerne B4:B23

4.51!"#!$%&'!"#!$%&( i ruden efterområde for variabel 2. På et nyt regneark kommer der følgende udskrift: 5, / -. )**+*,,,, 012345,, Udskriften indeholder tal vi genkender fra side 4.35 og side 4.36. I linjen Middelværdi er angivet gennemsnittene x 1 og x 2 og i Varians findes de empiriske varianser s 2 (1) og s2 (2). Derefter følger i linjerne Observationer og fg henholdsvis antallet af observationer, n 1 og n 2, og antallet af frihedsgrader, f (1) og f (2), for de to observationsrækker. I linjen F er angivet værdien af F-teststørrelsen, 1.416909583. Teksten i den næste linje, P(F<=f) en-halet, er misvisende i dette tilfælde, fordi tallet der er angivet, 0.232246085, er sandsynligheden for at en F(16, 19)-fordelt stokastisk variabel er større end den observerede værdi af F. Testsandsynligheden for F-testet fås ved at gange den angivne sandsynlighed med 2. Den sidste linje har vi ikke noget at bruge til for her angives 95% fraktilen, F 0.95 (16,19) i en F(16,19)-fordelingen. Det ville have været bedre at angive 97.5% fraktilen, da vi tester på niveau 5% og både store og små værdier af F er kritiske. Da hypotesen H 01 om varianshomogenitet accepteres, er vi klar til at teste hypotesen om ens middelværdier H 02 : µ 1 = µ 2. Dette gøres ved at følge rutenfunktioner Dataanalyse t-test: To stikprøver 6789:;<=> CDCEFCGHIFCJKLMNOEMPEQERFOSMJSRFTUVWUXYZ[TUVWUXYZ\ @ A B med ens varians. I dialogboksen, der fremkommer, angives igen cellerne A4:A20 i ruden efter Område for variabel 1 og cellerne B4:B23 i ruden efter Område for variabel 2. På et nyt regneark kommer der følgende udskrift: asmjsrf 88`6<:?<78`968;= 6? 66 67 68CDFCSC de^feosmjsrf ghlicefeiimiimfke^jpjqqe^o_mqj D6`;968=: 7<`=<;?8? 69CDKMJCJFKERDoS^EC CDKMJCJFKCIDoS^EC dkhlmcnerdos^ec dkhlmcncidos^ec?`?:9=8<?`6?>;<: 6`;=>:<8 7`?8?66 bcfemoscjirem ]JQQE^O_MQJ ;>`7966= 6< <7`6 ij 8: 7?

4.52 Beregninger i Excel Udskriften indeholder resultater vi kender fra side 4.40. I de tre første linjer gengives estimaterne for parametrene i M 0 samt antallet af observationer i de to observationsrækker. I linjen Puljevarians ses estimatet s 2 01 for den fælles varians. I linjen Hypotesen for forskel i middelværdien står der 0, hvilket svarer til at hypotesen om ens middelværdier også kan formuleres H 02 : µ 1 µ 2 = 0. (Værdien 0 er default, men kan ændres ved i dialogboksen at udfylde ruden efter Hypotese for forskel i middelværdi.) De to næste linjer fg og t-stat giver antallet af frihedsgrader i t-testet samt teststørrelsen t(x). De næste to linjer bruger vi ikke, men i linjen P(T<=t) to-halet genfinder vi testsandsynligheden for t-testet. Den sidste linje indeholder 97.5% fraktilen, t 0.975 (35), for t(35)-fordelingen. Eksempel 4.3 (Fortsat) Udskriften nedenfor indeholder F-testet for hypotesen om varianshomogenitet for data i dette eksempel. Sammenlignes med side 4.43 ses, at F=0,179173693= (5.5812) 1. (Excel sætter altså ikke den største af de to empiriske varianser i tælleren.) Testsandsynligheden beregnes ud fra række 9 som 2*0,018632007= - 0.037264, hvilket vi også,!"#!$%&'!"#!$%&( fandt tidligere.,, /. )**+*,, 012345 5,, er:6789:;<=> Da hypotesen H 01 om varianshomogenitet ikke accepteres, tester hypotesen om ens middelværdier H02 : µ 1 = µ 2 CDCEFCGHIFCJKLMNOEMPEQRIMFKESSJTOUMJUVF @ A B. Dette gøres ved at følge rutenfunktioner Dataanalyse t-test: To stikprøver med forskellig varians. Dialogboksen udfyldes som i eksemplet ovenfor. Udskriften bumjuvf _JQQESO`MQJ WXYZX[\]^?a??:867: 66a8:8<: WXYZX[\]?a?7>;: 66a77<: 6? 66 67CDFCUC 6a>?><98>9 68CDKMJCJFKCIDlUSEC CDKMJCJFKEVDlUSEC ghhijckevdlusec ghhijckcidlusec 7a7;76:===< 6a=88668=:;?a?9979=>8?a?==9><=; RT cdfemoucjivem efliceferimrimfkesjpjqqeso`mqj =? > =

4.53 Sammenlign med resultaterne på side 4.44. Eksempel 4.4 (Fortsat) I cellerne A1:G11 nedenfor er data indtastet! og differenserne beregnet for såvel det trænede! ben og det utrænede ben. " " -. / CS P5741;:0<>341 QRA>0474C>1C>17@4?<D<==4?;21=< ),* * 0670:0 'N)+$+*+,% Det parrede test for den trænede ben fås via ruten Funktioner Dataanalyse t-test: #$%&'()*+ 012340543 Parvis dobbelt 06047089:1;<7=>554?070<@A1B;4C>1D<==4?;21=< stikprøve for middelværdi. I dialogboksen angives cellerne B4:B11 i ruden efter Område for variabel 1 og cellerne A4:A11 i ruden efter Område for variabel 2. Udskriften herfra er: O:1<:37 M<==4?;21=< EFGHFIJK EFGHFIJKL #, ## 94:17>36@>114?:0<>3,N(&+($)%$& %,(%+N#&$*()*&'N$()*') )*(N' ',+N#$' #$ #% #& #' 06@1<0<7@436Y:?40 06@1<0<7@0>6Y:?40 9TUVW0X436Y:?40 9TUVW0X0>6Y:?40,N,,,%%&#'(,N,,,((*%## #N*+&'))',* $N%(&($$'( De tre første linjer i udskriften giver empirisk middelværdi, empirisk varians og antal observationer i de to observationsrækker. I linjen Pearson-korrelation angives den empiriske korrelationskoefficient for de to rækker. 0 et i linjen Hypotese for forskel i middelværdi bevirker at vi tester hypotesen H 0 : δ = 0. In linjen fg angives frihedsgraderne for det parrede t-test og teststørrelsen t(d) er i linjen t-stat. Testsandsynligheden 0.000668311 aflæses i linjen P(T<=t) to-halet og i t-kritisk to-halet angivet 97.5% fraktilen t 0.975 (n 1) i en t(n 1)-fordeling.

4.54 Beregninger i Excel!" Resultaterne stemmer overens med vores på side 4.49. #$%&$'() #$%&$'()* For det utrænede ben fås på tilsvarende måde ved hjælp af cellerne E4:F11 udskriften 234567, -. +,,,,!1 /0!!", 7 234567,,, 7,

4.55 Hovedpunkter til Afsnit 4.4 Her resumeres hovedpunkterne om k = 2 observationsrækker. Model Modellen for 2 normalfordelte observationsrækker er, at data x 11,...,x 1 j,...,x 1n1 x 21,...,x 2 j,...,x 2n2 er realisationer af uafhængige, normalfordelte stokastiske variable M 0 : X i j N(µ i,σ 2 i ), j = 1,...,n i, i = 1,2. Modelkontrol Probitanalyse, hvis der er observationer nok, men mindst prikdiagrammer på samme ark papir, så man kan vurdere forskelle og ligheder. Estimation i M 0 Man kan med fordel bruge beregningsskemaet for k observationsrækker side 4.33. Med notationen herfra har man Det videre forløb afhænger af udfaldet af µ i x i N(µ i, σ i 2 ), i = 1,2, n i σ 2 i s 2 (i) σ 2 i χ 2 ( f (i) )/ f (i), i = 1,2. Test af H 01 : σ 2 1 = σ 2 2 Sæt s 2 tæller = max{s2 (1),s2 (2) }, lad f tæller være frihedsgraderne for s 2 tæller, s 2 nævner = min{s2 (1),s2 (2) } og lad f nævner være frihedsgraderne for s 2 nævner. Teststørrelse Testsandsynlighed F(x) = s2 tæller s 2. nævner ε(x) = 2 [ 1 F F( ftæller, f nævner )(F(x)) ], hvor F( f tæller, f nævner ) betegner F-fordelingen med f tæller frihedsgrader i tælleren og f nævner frihedsgrader i nævneren.

4.56 Hovedpunkter til Afsnit 4.4 Ved test på niveau 5% accepteres H 01 : σ 2 1 = σ 2 2, hvis F(x) < F 0.975 ( f tæller, f nævner ). Accepteres hypotesen H 01 : σ 2 1 = σ 2 2 er modellen Model M 1 M 1 : X i j N(µ i,σ 2 ). Estimation i M 1 µ 1 x 1 N(µ 1, σ 2 n 1 ), µ 2 x 2 N(µ 2, σ 2 n 2 ), σ 2 s 2 01 = f (1)s 2 (1) + f (2)s 2 (2) f (1) + f (2) = SAK (1) + SAK (2) f (1) + f (2) σ 2 χ 2 ( f 01 )/ f 01, med f 01 = f (1) + f (2) = n 2. Test H 02 : µ 1 = µ 2 i M 1 Teststørrelse t(x) = x 1 x 2 ( 1 ) t( f 01). Testsandsynlighed s 2 01 n 1 + 1 n 2 ε(x) = 2 [ 1 F t( f01 )( t(x) ) ]. (1 α) konfidensinterval for forskellen i middelværdi µ 1 µ 2 { x 1 x 2 t 1 α/2 ( f 01 ) s 2 01 ( 1 + 1 } ) µ 1 µ 2 x 1 x 2 + t n 1 n 1 α/2 ( f 01 ) s 2 01 ( 1 + 1 ), 2 n 1 n 2 hvor t 1 α/2 ( f 01 ) er 1 α/2 fraktilen i t( f 01 )-fordelingen med f 01 = n 1 + n 2 2. Accepteres hypotesen H 02 kan modelen M 1 reduceres til M 2 : X i j N(µ,σ 2 ), det vil sige, at de to observationsrækker kan opfattes som én stor observationsrække. Forkastes hypotesen H 01 : σ 2 1 = σ 2 2 er modellen stadig M 0 : X i j N(µ i,σ 2 i ). Test H 02 : µ 1 = µ 2 i M 0

4.57 Teststørrelse Testsandsynlighed t(x) = x 1 x 2 t( f). s 2 (1) /n 1 + s 2 (2) /n 2 [ ] ε(x) = 2 1 F t( f) ( t(x) ). (1 α) konfidensinterval for forskel i middelværdi µ 1 µ 2 x s 2 (1) 1 x 2 + s2 s (2) 2 (1) t n 1 n 1 α/2 ( f) µ 1 µ 2 x 1 x 2 + + s2 (2) 2 n 1 n 2 t 1 α/2 ( f), hvor t 1 α/2 ( f) er 1 α/2 fraktilen i t-fordelingen med f frihedsgrader, og f beregnes efter formlen f = ( s 2 (1) n 1 + s2 (2) n 2 ) 2 ( ) s 2 2 (1) n 1 f + (1) ( ) s 2 2 (2) n 2 Accepteres hypotesen H 02 kan modellen M 0 reduceres til M 2 : X i j N(µ,σ 2 i ). f (2). Parrede observationer Data består af n parrede observationer, (x i1,x i2 ), i = 1,...,n. Model Differenserne d i = x i2 x i1, i = 1,...,n, det vil sige d 1,...,d i,...,d n er realisationer af uafhængige, normalfordelte stokastiske variable M 0 : D i N(δ,σD 2 ). Modelkontrol Fraktilsammenligning baseret på differenserne d 1,...,d n samt indtegning punkterne (x i1,x i2 ), i = 1,...,n, i et koordinatsysten. Punkterne i denne tegning skal variere omkring en ret linje med hældning 1. Estimation δ d = 1 n n i=1 d i N(δ, σ 2 D n )

4.58 Hovedpunkter til Afsnit 4.4 σ 2 D s2 d = 1 n 1 n i=1 (d i d) 2 σ 2 Dχ 2 (n 1)/(n 1) Test af H 0 : δ = 0 Det parrede t-test. Teststørrelse d t(d) = n t(n 1). s 2 d Testsandsynlighed ε(d) = 2(1 P(t(n 1) t(d) )), hvor t(n 1) er en t-fordelt stokastisk variabel med n 1 frihedsgrader. Ved test på niveau 5% forkastes H 0 : δ = 0 hvis t(d) > t 0.975 (n 1).

4.59 4.5 k observationsrækker Notationen vedrørende k observationsrækker har vi allerede indført på side 4.32. Som udgangspunkt for analysen betragter vi modellen M 0 : X i j N(µ i,σ 2 i ), j = 1,...,n i, i = 1,...,k, ifølge hvilken de k observationsrækker er normalfordelte hver med sin middelværdi og varians. Vi antager at k > 2, og modsætning til situationen i Afsnit 4.4, hvor k = 2, tester vi her kun hypotesen om ens middelværdier under forudsætning af varianshomogenitet. Med andre ord, vi tester først hypotesen om varianshomogenitet H 01 : σ 2 1 = = σ 2 k svarende til reduktionen M 0 M 1 : X i j N(µ i,σ 2 ) og kun hvis denne hypotese accepteres, tester vi hypotesen om ens middelværdier H 02 : µ 1 = = µ k svarende reduktionen M 1 M 2 : X i j N(µ,σ 2 ). Gennemgangen af teorien for k observationsrækker er baseret på Eksempel 4.5. Eksempel 4.5 Institut for Idræt ved Københavns Universitet arrangerer hvert år et atletikstævne for de 1. års studerende. Atletiklærer Mikkel Sørensen har stillet nogle af resultaterne for årene 1998, 1999 og 2000 til rådighed. Det er af interesse at vide om resultaterne for de tre år er forskellige eller ej. Resultaterne af pigernes længdespring er vist i tabellen nedenfor. år længde i m 1998 3.72 3.65 3.90 3.74 3.32 4.22 3.58 4.56 3.65 2.99 3.91 3.65 3.65 3.88 3.65 4.20 1999 4.32 3.79 3.53 3.54 4.27 3.75 4.21 3.66 4.58 3.73 5.18 3.00 3.91 3.52 2000 3.96 3.43 4.30 4.22 3.56 3.70 3.70 3.56 Data er tegnet op i Figur 4.12 og Figur 4.13 viser fraktildiagrammet for de tre observationsrækker. Punkterne i fraktildiagrammet varierer - uden systematiske afvigelser - omkring tre rette linjer og giver ikke anledning til at betvivle modellen M 0. Linjerne i fraktildiagrammet ser stort set ud til at være sammenfaldende, hvilket antyder, at såvel middelværdier som varianser for de tre år er identiske. Dette indtryk bekræftes af Figur 4.12.

4.60 4.5 k observationsrækker Figur 4.12 Data i Eksempel 4.5. Figur 4.13 Fraktildiagrammet for data i Eksempel 4.5.

4.61 Estimater for de seks parametre i M 0 : X i j N(µ i,σi 2 ), j = 1,...,n i, i = 1,2,3, ses i de to sidste kolonner i beregningsskemaet nedenfor. 4.5.1 Test for varianshomogenitet Hypotesen om varianshomogenitet H 01 : σ 2 1 = = σ 2 k testes hypotesen ved et Bartlett test. Teststørrelsen beregnes ved hjælp af de empiriske varianser, s 2 (1),...,s2 (k), i de k observationsrækker samt estimatet s2 01 for variansen σ 2 i den model M 1 : X i j N(µ i,σ 2 ), der fremkommer hvis H 01 accepteres. Estimatet s 2 01 er det vægtede gennemsnit af s 2 (1),...,s2 (k) med vægte f (1),..., f (k). Med betegnelserne i beregningsskemaet side 4.33 har vi Teststørrelsen i Bartlett testet er hvor og s 2 01 = f (1)s 2 (1) + + f (k)s 2 (k) f (1) + + f (k) = SAK 01 f 01. (4.32) Ba(x) = 2lnQ(x), (4.33) C 2lnQ(x) = f 01 ln(s 2 k 01 ) f (i) lns 2 (i), (4.34) i=1 C = 1+ [( 1 k 3(k 1) i=1 1 f (i) ) ] 1. (4.35) f 01 Fra den generelle teori i Kapitel 5 fås, at store værdier af 2lnQ(X), som er approksimativt χ 2 -fordelt med k 1 frihedsgrader, er kritiske for H 01. Approksimationen gælder, hvis antallene af observationer n i, i = 1,...,k, i de k observationsrækker er store. Teststørrelsen i (4.33) er udledt af Bartlett, som viste, at ved at dividere 2lnQ(X) med faktoren C fås en teststørrelse Ba(X) som også er approksimativt er χ 2 -fordelt med k 1 frihedsgrader og det kan vises, at approksimationen er tilfredsstillende, hvis blot n i 3, i = 1,...,k, altså hvis der er mindst tre

4.62 4.5 k observationsrækker observationer i hver observationsrække. Testtørrelsen Ba(x) kan beregnes ud fra kolonnerne 7 og 8 i beregningsskemaet side 4.33. Da store værdier af Ba(x) er kritiske for H 01, beregnes testsandsynligheden som se Figur 4.14. Ved test på 5% niveau forkastes H 01 hvis ε(x) = 1 F χ 2 (k 1)(Ba(x)), (4.36) Ba(x) > χ0.95 2 (k 1). Figur 4.14 Illustration af testsandsynligheden for Bartlett testet i Eksempel 4.5. Testsandsynligheden er arealet af den skraverede område. Accept af H 01 reducerer modellen M 0 til modellen M 1 : X i j N(µ i,σ 2 ), j = 1,...,n i, i = 1,...,k. Eksempel 4.5 (Fortsat) For data vedrørende pigernes længdespring fås ved hjælp af beregningsskemaet side 4.61, at 2lnQ(x) = 3.4193, C = 1.0430

og dermed at 4.63 Ba(x) = 3.4193 1.0430 = 3.2783. Da antallet af observationer i de k = 3 rækker alle er større end 3 beregnes testsandsynligheden ifølge (4.36) som ε(x) = 1 F χ 2 (2)(3.2783) = 0.1941 og hypotesen om varianshomogenitet H 01 accepteres - som forventet. Der er med andre ikke forskel på variansen på længden af længdespringene for pigerne i de tre år. Testsandsynligheden ovenfor er udregnet ved hjælp af Excel. Benyttes Statistical Tables til at beregne testsandsynligheden finder vi, idet χ0.80 2 (2) = 3.22 <3.2783 <4.61 = χ2 0.90 (2), at ε(x) 1 (0.80,0.90) = (0.10,0.20). Accept af hypotesen om varianshomogenitet H 01 : σ 2 1 = = σ 2 k bevirker, at modellen M 0 reduceres til modellen M 1 : X i j N(µ i,σ 2 ), j = 1,...,n i, i = 1,...,k. Estimaterne for parametrene i denne model er µ i x i N(µ i, σ 2 n i ), i = 1,...,k σ 2 s 2 01 σ 2 χ 2 ( f 01 )/ f 01 og desuden er varians estimatet stokastisk uafhængigt af middelværdi estimaterne. I M 1 er (1 α) konfidensintervallet for middelværdien µ i s 2 01 s 2 01 x i t 1 α/2 ( f 01 ), x i +t n 1 α/2 ( f 01 ). i n i og (1 α) konfidensintervallerne for variansen σ 2 og spredningen σ er [ ] s 2 01 s 2 01 χ1 α/2 2 ( f, 01)/ f 01 χα/2 2 ( f 01)/ f 01 og s 2 01 χ1 α/2 2 ( f, s 2 01 01)/ f 01 χα/2 2 ( f. 01)/ f 01

4.64 4.5 k observationsrækker 4.5.2 Test for ens middelværdier Accepteres hypotesen om ens middelværdier H 02 : µ 1 = = µ k ved et test i modellen M 1, kan M 1 reduceres til M 2 : X i j N(µ,σ 2 ), j = 1,...,n i, i = 1,...,k, som bortset fra en lidt anderledes indicering af de variable er modellen for én normalfordelt observationsrække med ukendt varians. Fra Afsnit 4.3 har vi følgende estimater for parametrene i M 2 : og hvor µ x = 1 n k n i i=1 j=1 x i j N(µ, σ 2 ), (4.37) σ 2 1 n 1 SAK 02 σ 2 χ 2 (n 1)/(n 1), (4.38) SAK 02 = k n i i=1 j=1 (x i j x ) 2. Estimaterne beregnes let ud fra sidste række i beregningsskemaet side 4.33, idet x = S n n og SAK 02 = SK S2. n Testet i M 1 for hypotesen H 02 om ens middelværdier er baseret på følgende opspaltning af kvadratsumafvigelsen SAK 02 i M 2 : hvor og SAK 02 = SAK 01 + SAK 2, SAK 01 = SAK 2 = k n i i=1 j=1 k i=1 (x i j x i ) 2 n i ( x i x ) 2. Det ses, er SAK 2 et udtryk for hvor meget estimaterne x i for middelværdierne µ i i de k rækker varierer omkring estimatet x for den fælles middelværdi µ, det vil sige et udtryk for variationen mellem observationsrækkerne, mens SAK 01 er et udtryk for hvor meget observationerne x i j i de k observationsrækker varierer omkring x i, det vil sige et udtryk for variationen inden for observationsrækkerne. Teststørrelsen for hypotesen H 02 om ens middelværdier F(x) = s2 2 s 2 = SAK 2/(k 1) 01 SAK 01 /(n k) (4.39)

4.65 forkaster for store værdier af F(x), svarende til at variationen mellem observationsrækkerne er for stor i forhold til variationen inden for rækkerne, se Figur 4.15. Figur 4.15 Data i Eksempel 4.5. Observationerne er angivet med, gennemsnittene x i i de tre rækker med og den fuldt optrukne linje angiver det totale gennemsnit x. De til SAK 2 og SAK 01 svarende stokastiske variable SAK 2 (X) og SAK 01 (X) kan vises at være stokastisk uafhængige under H 02 og endvidere er SAK 2 (X) σ 2 χ 2 (k 1) og SAK 01 (X) σ 2 χ 2 (n k) under H 02. Det følger derfor af definitionen af F-fordelingen i Afsnit 3.1.5, at F(x) er udfald af en stokastisk variabel F(X) som er F(k 1,n k)-fordelt. Da store værdier af F(x) er kritiske for H 02 beregnes testsandsynligheden derfor som ε(x) = 1 F F(k 1,n k)(f(x)), (4.40) se Figur 4.16, og ved test på 5% niveau forkastes H 02, hvis F(x) > F 0.95 (k 1,n k). Hvis H 0 accepteres reduceres modellen M 1 til modellen M 2 : X i j N(µ,σ 2 ), i = 1,...,n j, j = 1,...,k.

4.66 4.5 k observationsrækker Figur 4.16 Illustration af testsandsynligheden for F-testet for ens middelværdier i Eksempel 4.5. Testsandsynligheden er arealet af den skraverede område. Beregninger Beregningen af teststørrelsen i (4.39) foretages let ved hjælp af beregningsskemaet side 4.33, idet s 2 01 som findes i kolonne 8 i skemaets nederste række. Desuden er s 2 2 = 1 k 1 SAK 2 = 1 (( k k 1 S 2 i i=1 n i som let beregnes ud fra kolonne 2, 3 og 5 i skemaets nederste række. ) ) S2, (4.41) n Konfidensintervaller Hvis H 02 accepteres, findes estimaterne i M 2 ved hjælp af formlerne (4.37) og (4.38) ovenfor, og (1 α) konfidensintervaller for µ, σ 2 og σ findes ved hjælp af formlerne i Afsnit 4.3: µ x t 1 α/2 (n 1) σ 2 [ s 2 02 n, x +t 1 α/2 (n 1) s 2 02 χ 2 1 α/2 (n 1)/(n 1), s 2 02 χ 2 α/2 (n 1)/(n 1) s 2 02 n ], (4.42), (4.43)

4.67 σ s 2 02 χ1 α/2 2 (n 1)/(n 1), s 2 02. χα/2 2 (4.44) (n 1)/(n 1) Variansanalysetabellen I litteraturen omtales modellen for k observationsrækker ofte som ensidet variansanalyse og resultaterne af analysen præsenteres ved variansanalysetabellen, som også Excel benytter. Navnet variansanalyse skal ses i lys af at F-teststørrelsen i (4.39) jo netop fremkommer ved at sammenligne varianser eller variationer. I variansanalysetabellen gengives beregningerne således Variationskilde SAK f g s 2 F ε mellem grupper SAK 2 k 1 s 2 2 inden for grupper SAK 01 n k s 2 01 I alt SAK 02 n 1 s 2 2 s 2 01 1 F F(k 1,n k)(f) Tabel 4.3 Variansanalysetabellen for ensidet variansanalyse. Eksempel 4.5 (Fortsat) Ved hjælp af sidste række i beregningsskemaet side 4.61 og formel (4.41) fås, at SAK 2 = 558.7705 145.692 38 = 0.2027 og dermed s 2 2 = SAK 2 3 1 = 0.1014. Værdien af s 2 01 findes i beregningsskemaet i kolonne 8 i nederste række. Vi kan derfor beregne F-teststørrelsen i (4.39) for hypotesen H 02 : µ 1 = µ 2 = µ 3. Vi finder F(x) = s2 2 s 2 = 0.5420 F(2,35) 01 og af (4.40) fås, at testsandsynligheden for H 02 er ε(x) = 1 F F(2,35) (0.5420) = 0.5865, så hypotesen om ens middelværdier accepteres. Vi kan altså ikke påvise forskel på middelværdien af længden af pigernes længdespring i de tre år. Igen er Excel brugt til at beregne testsandsynligheden. Benyttes Statistical Tables har vi et lille problem, idet fraktilerne for F(2, 35)-fordelingen ikke findes i tabellen. Benytter vi i stedet

4.68 4.5 k observationsrækker for F(2,36)-fordelingen til at beregne testsandsynligheden, finder vi, idet F 0.50 (2,36) = 0.71 >0.5420, at ε(x) >1 0.50 = 0.50. Ved test på 5% niveau accepteres H 02, da 0.5420 < F 0.95 (2,36) = 3.26. Beregningerne kan resumeres i variansanalyse tabellen som her bliver Variationskilde SAK f g s 2 F ε mellem grupper 0.2027 2 0.1014 0.5420 0.5865 inden for grupper 6.5478 35 0.1871 I alt 6.7505 37 Slutmodellen for analysen er M 2 : X i j N(µ,σ 2 ), i = 1,...,n j, j = 1,2,3 og estimaterne i M 2 bliver - ved hjælp af (4.37) og (4.38) - og µ x = S n = 145.69 38 = 3.8339 N(µ, σ 2 38 ) σ 2 s 2 02 = SAK 02 n 1 = 6.7505 = 0.1824 σ 2 χ 2 (37)/37. 37 Endelig bliver 95% konfidensintervallerne for µ,σ 2 og σ - ifølge formlerne (4.42) - (4.44) - [ ] 0.1824 0.1824 µ 3.8339 2.0262 38,3.8339+2.0262 = [3.694,3.974], 38 [ 0.1824 σ 2 1.5201, 0.1824 ] = [0.1200, 0.3104], 0.5877 [ ] 0.1824 0.1824 σ 1.5201, = [0.3464, 0.5571]. 0.5877 Tilsvarende data for drengene er analyseret i Excel på side 4.70. 4.5.3 Forskelle og ligheder i behandlingen af to og k observationsrækker Som test for H 02 har vi anvendt et t-test, når k = 2, og et F-test, når k > 2. Det er imidlertid samme test. Man kan vise, at t 2 = F, og testsandsynligheden er den samme uanset hvilket af de to tests, man anvender. Når man alligevel behandler specialtilfældet k = 2, skyldes det, at man dér kan angive konfidensintervaller for forskellen µ 1 µ 2 i middelværdier, og det kan være interessant, når H 02 forkastes.

4.69 Vi har også angivet forskellige tests for H 01 i de to tilfælde. Bartletts test kan rent teknisk også beregnes når k = 2, men det kan ikke anbefales. F-testet baseret på forholdet mellem de to variansskøn er langt hurtigst at beregne, og det er ydermere et eksakt test, det vil sige, at testsandsynligheden kan beregnes nøjagtigt. Ved beregning af testsandsynligheden for Bartletts test benytter man som bekendt en approksimation. 4.5.4 Notation og test i forbindelse med en følge af modeller I dette afsnit har vi - uden at nævne det - indført en notation i forbindelse med en følge af modeller, som også vil blive brugt i de følgende afsnit. Vi betragter en følge af modeller M 1 M 2 M i 1 M i, som består af gradvist enklere beskrivelse af observationernes middelværdi. Det forudsættes, at alle observationerne har den samme varians. Hypotesen, som beskriver reduktionen M i 1 M i betegnes H 0i. Variansskønnet i modellen M i betegnes s 2 0i, og det er på formen s 2 0i = 1 SAK 0i, f 0i hvor f 0i betegner frihedsgraderne for s 2 0i. Endvidere benytter vi betegnelserne og SAK i = SAK 0i SAK 0i 1, f i = f 0i f 0i 1, s 2 i = SAK i f i. Som vi har set i dette afsnit og som vi skal se flere eksempler på i de kommende afsnit i dette kapitel, er teststørrelsen for H 0i, svarende til reduktionen M i 1 M i, SAK 0i SAK 0i 1 SAK i f F(x) = 0i f 0i 1 f s 2 = i 0i 1 s 2 = s2 i 0i 1 s 2, 0i 1 og testsandsynligheden beregnes ved opslag i F-fordelingen med f i frihedsgrader i tælleren og f 0i 1 frihedsgrader i nævneren som ε(x) = 1 F F( fi, f 0i 1 )(F(x)). Fortolkningen af frihedsgraderne for tælleren er iøvrigt, at det er forskellen i antallet af parametre i middelværdien i de to modeller M i 1 og M i. Frihedsgraderne for nævneren er antallet af observationer minus antallet af parametre i middelværdien i modellen M i 1.

4.70 Beregninger i Excel Anneks til Afsnit 4.5 Beregninger i Excel F-testet for hypotesen H 02 om ens middelværdier i en ensidet variansanalyse foretages i Excel ved hjælp af dialogboksen Anava: Enkelt faktor. Beregningerne vedrørende Bartlett testet for hypotesen H 01 om varianshomogenitet må man derimod selv programmere. Det gøres dog forholdsvis let ved hjælp af udskriften fra dialogboksenanava: Enkelt faktor, som vist i fortsættelsen af Eksempel 4.5 nedenfor. Eksempel 4.5 (Fortsat) I regnearket nedenfor indeholder cellerne A4:C22 resultaterne af drengenes længdespring i de tre år. F-testet for hypotesen H 02 om ens middelværdier fås via rutenfunktioner Dataanalyse Anava: Enkelt faktor. I dialogboksen, der fremkommer, angives cellerne A4:C22 i Input område: og i Grupperet efter: angives Kolonner. På et nyt regneark fås de to

4.71!"##$! %&'() *"+ $&&$+,&-'.(!-(&, øverste tabeller på udskriften: 12?@ABB CD@ABB.(!-('-3&,4-) 0 0 *5 67 0 0 85 0 0 0 9 :;<=!>- 94!-' D E@F@GH G 0 0 G 0 IFHJ KD G 0 0 0 L M HHDHNF@OD 0 0 0 / / 0 0 0 0 0 0 0 0 0 C 0 0 I tabellen med overskriften RESUME findes størrelserne n i, S i, x i og s 2 (i) for de tre observationsrækker. Variansanalysentabellen er gengivet under overskriftenanava, idetsk svarer til SAK,MK til s 2 ogp-værdi til ε. IF-krit er angivet 95% faktilen i den relevante F-fordeling, her fraktilen F 0.95 (2,47). (Bemærk, at Excel noget uheldigt benytter SK og ikke SAK som betegnelse for SAK.) Beregningerne, der giver resultaterne for Bartlett testet i cellerne A18:C28, laves på følgende måde: Først skrives overskriften beregning af Bartlett-testet i cellen A18. Antallet af frihedsgrader f (1) i den første række beregnes i cellena21 som =B5 1 ( f (1) = n 1 1) og analoge formler oprettes ia22:a23. I cellenb21 beregnes =LN(E5) (= ln(s 2 (1) )) og ic21 beregnes =1/A21 (= 1 f (1) )

4.72 Beregninger i Excel og analoge formler oprettes ib22:c23. Herefter beregnes værdien af konstanten C i cellenb25 som k 1 =1+1/3/(3 1) (SUM(C21 :C23) 1/C13) (= 1+ 3(k 1) (( i=1 og 2lnQ i cellenb26 som =C13 LN(D13) SUMPRODUKT(A21 :A23;B21 :B23) (= f 01 lns 2 01 Endelig beregnes Ba i cellenb27 som og testsandsynligheden ε i cellenb28 som =B26/B25 (= 2lnQ C ) 1 ) 1 )) f (i) f 01 k i=1 f (i) lns 2 (i) ). =CHIFORDELING(B27;2) (= 1 F χ 2 (2) (Ba)). Det ses af resultaterne ovenfor, at konklusionen for drengene er den samme som for pigerne, nemlig at det kan antages, at middelværdier og varianser for længden af længdespringene ikke afhænger af år.

4.73 Hovedpunkter til Afsnit 4.5 Her resumeres hovedpunkterne om k observationsrækker. Modellen for k normalfordelte observationsrækker er, at data x 11,...,x 1 j,...,x 1n1 x i1,...,x i j,...,x ini x k1,...,x k j,...,x knk er realisationer af uafhængige, normalfordelte stokastiske variable M 0 : X i j N(µ i,σ 2 i ), j = 1,...,n i, i = 1,...,k. Modelkontrol Fraktilsammenligning, hvis der er observationer nok, men mindst prikdiagrammer på samme ark papir, så man kan vurdere forskelle og ligheder. Estimation i M 0 Man kan med fordel bruge beregningsskemaet for k observationsrækker side 4.33. Med notationen herfra har man µ i x i N(µ i, σ i 2 ), n i i = 1,...,k, σ 2 i s 2 (i) σ 2 i χ 2 ( f (i) )/ f (i), i = 1,...,k. Test af hypotesen om varianshomogenitet H 01 : σ 2 1 = = σ 2 k Bartlett test. Teststørrelse hvor og Ba(x) = 2lnQ(x), C 2lnQ(x) = f 01 lns 2 01 k f (i) lns 2 (i), i=1 C = 1+ [( 1 3(k 1) k i=1 1 f (i) ) ] 1. f 01

4.74 Hovedpunkter til Afsnit 4.5 Her er og s 2 01 = k i=1 f (i) s 2 (i) = k f (i) i=1 SAK 01 = k SAK (i) i=1 Testsandsynlighed, forudsat n i 3, i = 1,...,k, k i=1 SAK (i) = k f (i) i=1 SAK 01 f 01, f 01 = k f (i) = n k. i=1 ε(x) = 1 F χ 2 (k 1) (Ba(x)), hvor F χ 2 (k 1) er fordelingsfunktionen for χ2 -fordelingen med k 1 frihedsgrader. Hvis H 01 accepteres reduceres modellen til M 1 : X i j N(µ i,σ 2 ). Estimation i M 1 µ i x i N(µ i, σ 2 n i ), i = 1,...,k, σ 2 s 2 01 = SAK 01 f 01 σ 2 χ 2 ( f 01 )/ f 01. Konfidensintervaller i M 1 (1 α) konfidensintervallerne for middelværdien µ i, variansen σ 2 og spredningen σ er: s µ i 2 01 s 2 01 x i t 1 α/2 ( f 01 ), x i +t n 1 α/2 ( f 01 ), i n i [ ] σ 2 s 2 01 s 2 01 χ1 α/2 2 ( f, 01)/ f 01 χα/2 2 ( f, 01)/ f 01 σ s 2 01 χ1 α/2 2 ( f, s 2 01 01)/ f 01 χα/2 2 ( f. 01)/ f 01 Test af hypotesen om ens middelværdier H 02 : µ 1 = = µ k Teststørrelse F(x) = s2 2 s 2 01

4.75 Testsandsynlighed ε(x) = 1 F F(k 1,n k)(f(x)), hvor F F(k 1,n k)er fordelingsfunktionen for F-fordelingen med k 1 frihedsgrader i tælleren og n k frihedsgrader i nævneren. Her er og beregningsformlen for SAK 2 er s 2 2 = SAK 2 k 1, SAK 2 = ( k S 2 i i=1 n i ) S2. n De størrelser, der indgår i beregningen findes i nederste række i kolonne 5, 2 og 3 i beregningsskemaet side 4.33. Accepteres H 02 reduceres modellen M 1 til M 2 : X i j N(µ,σ 2 ) som er modellen for én observationsrække blot med en anden indicering af de variable. Estimation i M 2 µ x N(µ, σ 2 ), σ 2 s 2 02 = SAK 02 n 1 = 1 n 1 (SK S2 ) σ 2 χ 2 (n 1)/n 1, n n Konfidensintervaller i M 2 (1 α) konfidensintervallerne for middelværdien µ, variansen σ 2 og spredningen σ er: µ x t 1 α/2 (n 1) σ 2 [ s 2 02 n, x +t 1 α/2 (n 1) s 2 02 χ 2 1 α/2 (n 1)/(n 1), s 2 02 χ 2 α/2 (n 1)/(n 1) σ s 2 02 χ1 α/2 2 (n 1)/(n 1), s 2 02. χα/2 2 (n 1)/(n 1) s 2 02 n ],,

4.76 4.6 Lineær regression 4.6 Lineær regression Omtalen af den lineære regressionsmodel kan naturligt opdeles i to dele. I Afsnit 4.6.1 omtales regression uden gentagelser og i Afsnit 4.6.2 omtales modellen, når der forekommer gentagelser. Hypoteser vedrørende parameterne i en lineær regression er omtalt i Afsnit 4.6.3 og i Afsnit 4.6.4 omtales et emne, der er relateret til regressionsmodellen, under overskriften Korrelation og/eller regression. 4.6.1 Lineær regression uden gentagelser Gennemgangen af lineær regression uden gentagelser er knyttet til Eksempel 4.6. Eksempel 4.6 I forbindelse med fortræningen til et 100 km løb blev der foretaget et test med en af løberne. Testet blev foretaget ved hjælp af et løbebånd, hvor belastningen blev sat op hver 1 1 2 minut ved at hastigheden eller vinklen på båndet blev sat op. Foruden at registrere tiden på båndet målte Tue Lindstrøm, Institut for Idræt, blandt andet iltoptagelse, CO 2 udskillelse, ventilation og puls. Da der går et stykke tid fra løbet begynder, indtil hjertet registrerer belastningen, betragter vi kun målingerne fra 120 sekunder og fremefter. Sammenhørende målinger af tid og puls for hvert 1 2 minut ses i tabellen nedenfor. tid(sek) puls tid(sek) puls 120 162 390 178 150 164 420 181 180 165 450 182 210 168 480 185 240 171 510 187 270 174 540 188 300 172 570 188 330 176 600 192 360 177 Det er ikke overraskende, at pulsen stiger med tiden, og vi indfører nu en model, den lineære regressionsmodel, som beskriver pulsens stigning med tiden. Vi opfatter tiden som en kendt eller deterministisk størrelse, som betegnes med t. I modsætning hertil opfattes pulsen som en realisation af en stokastisk variabel. Vi fastholder traditionen med at betegne data, som er realisationer af stokastiske variable med x. Data, hvor den lineære regressionsmodel kan komme på tale, består altså af talpar (t i,x i ),i = 1,...,n.

4.77 I Figur 4.17 er der en tegning af de sammenhørende værdier af tid og puls, og der er indtegnet en ret linje midt igennem punktsværmen. Figur 4.17 Tegning af sammemhørende værdier af tid og puls. Punkterne i Figur 4.17 ligger tæt og ensartet omkring en ret linje, og på baggrund af tegningen i Figur 4.17 beslutter man sig for den lineære regressionsmodel: x i N(α + βt i,σ 2 ), i = 1,...,n. Der er to karakteristiske træk ved modellen, for det første er middelværdien for x erne en lineær funktion af t, og for det andet er variansen på x i den samme for alle i. Den lineære middelværdi kontrollerer man på tegningen ved at se efter, om punkterne ligger omkring en ret linje. Hvis punktsværmen krummer, for eksempel som en banan, tyder det på, at middelværdien af x erne ikke er en lineær funktion af t. Hvis observationerne har konstant varians, vil punkterne ligge i et bånd omkring linjen af nogenlunde konstant bredde. En typisk afvigelse fra hypotesen om konstant varians er, at variansen afhænger af t, så observationerne spreder sig mere for store eller små værdier af t. Vi skal senere i Afsnit 4.6.2 se, at man under specielle omstændigheder kan teste både hypotesen om, at middelværdien er en lineær funktion af t og hypotesen om konstant varians, men oftest er en tegning den eneste kontrol af modellen, inden man begynder at regne. Vi forlader nu Eksempel 4.6 for at se, hvordan man estimerer i regressionsmodellen.

4.78 4.6 Lineær regression Model Modellen for lineær regression svarende til talparrene (t i,x i ), i = 1,...,n, er M 2 : X i N(α + βt i,σ 2 ), i = 1,...,n, (4.45) og X i erne er uafhængige. Modellen omtales som lineær regression af x på t. Den rette linje x(t) = α + βt kaldes regressionslinjen. Parameteren α er afskæringen af andenaksen og β er hældningskoefficienten. Parameteren α kaldes afskæringen eller undertiden positionen, og β kaldes hældningen eller regressionskoefficienten. De to variable x og t betegnes som henholdsvis den afhængige variabel og den uafhængige variabel. Denne sprogbrug er inspireret af, at x opfattes som funktion af t. Undertiden kaldes x for responsen og t for den forklarende variabel. Hvis alle t erne er forskellige taler vi om en lineær regression uden gentagelser. Det er naturligvis overflødigt at tale om en regressionslinje, før man har mindst to punkter, den skal gå igennem, så derfor betragter man ikke regressionsmodellen med mindre man har mindst to forskellige værdier af den forklarende variabel. Estimation Estimaterne ˆα og ˆβ for parametrene α og β i regressionsmodellen M 2 findes som de værdier af α og β som miminerer kvadratsumsafvigelsen n i=1 (x i (α + βt i )) 2, som er et mål for afstanden mellem observationerne x og linjen α + βt. Metoden omtales som mindste kvadraters metode. Det kan vises, at i M 2 er ˆα og ˆβ maksimum likelihood estimaterne for α og β. Hvis n, t og x betegner henholdsvis det totale antal observationer, gennemsnittet af t-erne og gennemsnittet af x-erne, det vil sige t = 1 n bestemmes estimaterne for α og β som n i=1t i, x = 1 n n i=1 x i, og ˆβ = n (x i x )(t i t ) i=1 n (4.46) (t i t ) 2 i=1 ˆα = x ˆβ t. (4.47)

4.79 I dansk litteratur bruges betegnelserne SAP xt = for summen af afvigelsernes produkt og n i=1 SAK t = (x i x )(t i t ) n i=1 (t i t ) 2 for summen af afvigelsernes kvadrater. Formel (4.46) bliver da ˆβ = SAP xt SAK t. Variansen σ 2 estimeres i regressionsmodellen M 2 ved hvor SAK 02 er residualkvadratsummen SAK 02 = s 2 02 = 1 n 2 SAK 02, (4.48) n i=1 (x i ( ˆα + ˆβt i )) 2. Navnet på denne kvadratsum skyldes, at størrelserne r i = x i ( ˆα + ˆβt i ), i = 1,...,n kaldes (de observerede) residualer i regressionsmodellen M 2. Ifølge (4.45) er X i (α + βt i ) N(0,σ 2 ), i = 1,...,n, og erstatter vi her α og β med estimaterne ˆα og ˆβ får vi residualerne R i som approksimativt er normalfordelt med middelværdi 0 og varians σ 2, det vil sige R i = X i ( ˆα + ˆβt i ) N(0,σ 2 ), i = 1,...,n. Antagelsen, om at observationerne i en regressionsanalyse er normalfordelte, kan derfor undersøges ved at lave en fraktilsammenligning på grundlag af residualerne r i, i = 1,...,n. I en regression uden gentagelser er det den eneste mulighed for at undersøge antagelsen om normalitet.

4.80 4.6 Lineær regression Beregningsformler Af beregningsskemaet nedenfor ses, at estimaterne i M 2 kan beregnes ud fra de 6 størrelser: og n S t = SK t = n i=1 n i=1 n t i, S x = t 2 i, SK x = SP xt = x n i=1 n x i, i=1 n i=1 x i t i. n x 2 i, t S S x S t SK SK x SK t SP SP xt SAK SAP SK x S2 x n SP xt S xs t n SK t S2 t n ˆβ ˆα SAP xt SAK t 1 [S x n ˆβS ] t SAK 02 s 2 02 SAK x SAP2 xt SAK t 1 n 2 SAK 02 Fordelingen til estimaterne i modellen M 2 er anført nedenfor. ( ( )) 1 ˆα N α,σ 2 t 2 + n SAK t ( σ ˆβ 2 ) N β, SAK t ( ˆα + ˆβt 1n N (α + βt,σ 2 + (t t ) 2 )) SAK t

4.81 s 2 02 σ 2 χ 2 ( f 02 )/ f 02, hvor f 02 = n 2. Desuden har man brug for at vide, at fordelingen til ( ˆα, ˆβ) er uafhængig af fordelingen til s 2 02, samt at ˆβ og x er uafhængige. Varianserne på estimaterne er interessante. Variansen på ˆβ er σ 2 /SAK t, så jo større SAK t, desto mindre varians, og desto bedre er β estimeret. SAK t er et mål for den uafhængige variabels variationsområde. Jo større variationsområde den uafhængige variabel har, desto større er SAK t, og desto bedre er β estimeret. Dette bør man have for øje, hvis man udfører et førsøg, hvor man selv kan vælge værdierne af t. Variansen på ˆα viser, at α kan være meningsløs at fortolke, hvis de uafhængige variable ligger langt væk fra 0. I de situationer gør faktoren t 2 estimatet for α upræcist, idet variansen på ˆα bliver stor. Variansen på ˆα + ˆβt afhænger af den uafhængige variabel t gennem (t t ) 2. Variansen er mindst for t = t, og da er variansen σ 2 /n, hvilket passer smukt med, at ˆα + ˆβ t = x. ˆα + ˆβt er altså bedst bestemt for værdier af t midt i variationsområdet for den uafhængige variabel. Konfidensintervaller for parametrene i regressionsmodellen (1 α) konfidensinterval for α [ ( ) ( ) 1 ˆα t 1 α/2 ( f 02 ) s 2 t 2 1 02 +, ˆα +t n SAK 1 α/2 ( f 02 ) s 2 t ] 2 02 +. (4.49) t n SAK t Ved konkrete beregninger på lommeregner af konfidensintervallet for α, er det nyttigt at bemærke, at 1 t 2 + = SK t, n SAK t nsak t og n, SK t og SAK t findes let i beregningsskemaet til lineær regression. (1 α) konfidensinterval for β s ˆβ 02 s t1 α/2 ( f 02 ), ˆβ + 02 t1 α/2 ( f 02 ). SAK t SAK t (4.50) (1 α) konfidensinterval for α + βt [ ˆα + ˆβt t 1 α/2 ( f 02 ) s 2 02 ( 1 n + (t t ) 2 ) (, ˆα + SAK ˆβt 1 +t 1 α/2 ( f 02 ) s 2 02 t n + (t t ) 2 SAK t ) ]. (4.51)

4.82 4.6 Lineær regression α + βt er middelværdien af observationer, som svarer til værdien t af den uafhængige variabel. Undertiden er formålet med en lineær regressionsmodel at kunne forudsige middelværdien af observationerne til forskellige værdier af t. I de tilfælde bliver (1 α) konfidensintervallet for α + βt interessant. (1 α) konfidensinterval for σ 2 [ s 2 02 χ 2 1 α/2 ( f 02)/ f 02, s 2 02 χ 2 α/2 ( f 02)/ f 02 ], (4.52) hvor χ 2 1 α/2 ( f 02)/ f 02 og χ 2 α/2 ( f 02)/ f 02 er henholdsvis 1 α/2 og α/2 fraktil for χ 2 ( f 02 )/ f 02 - fordelingen med f 02 = n 2 frihedsgrader. Eksempel 4.6 (Fortsat) For data i dette eksempel bliver beregningsskemaet på side 4.80. x(puls) n 17 t(tid) S 3010 6120 SK 534310 2570400 SP 1105830 SAK 1362.941 367200 SAP 22230 ˆβ 0.0605 ˆα 155.2647 SAK 02 17.15441 s 2 02 1.14363 Den estimerede regressionslinje, som er indtegnet i Figur 4.17, har altså ligningen x(t) = 155.2647 + 0.0605t. Som kontrol af normalfordelingsantagelsen i regressionsmodellen M 2 laver vi et fraktildiagram for residualerne r i = x i (155.2647+0.0605t i ), i = 1,...,17. Fraktildiagrammet, som er vist i Figur 4.18, giver ikke anledning til at betvivle antagelsen om normalitet, idet punkterne varierer omkring en ret linje uden systematiske afvigelser. Desuden ser det ud til at residualerne har middelværdi 0.

4.83 Figur 4.18 Fraktildiagram for residualerne i Eksempel 4.6. Ved hjælp af formlerne (4.49), (4.50) og (4.52) finder vi følgende 95% konfidensintervaller for α, β og σ 2 : α [155.2647 2.131 0.68622,155.2647+2.131 0.68622]= [153.8024,156.7270], β [0.0605 2.131 0.001765,0.0605+2.131 0.001765]= [0.0567,0.0643], [ 1.14363 σ 2 1.8326, 1.14363 ] = [0.62048, 2.84414]. 0.4175 4.6.2 Lineær regression med gentagelser Teorien bliver gennemgået i forbindelse med Eksempel 4.7. Eksempel 4.7 Data i dette eksempel er tiderne i finalerne for kvinder på løbedistancerne 200 m, 400 m og 800 m ved olympiaden i Sydney i år 2000. Det er oplagt, at variansen på tiderne for de 8 kvinder i finalen vokser med distancen. Vi betragter derfor tiderne per 100 m og ønsker at undersøge, hvordan disse afhænger af distancen. Tiderne angivet i sekunder med tre decimalers nøjagtighed

4.84 4.6 Lineær regression findes i tabellen nedenfor og indtegnet i Figur 4.19. tider per 100 m distance 200 m 400 m 800 m 10.920 12.278 14.519 11.135 12.395 14.580 11.140 12.430 14.600 11.175 12.448 14.814 11.185 12.490 14.820 11.210 12.513 14.833 11.265 12.530 14.844 11.330 12.760 14.909 Bedømt ud fra Figur 4.19, ser det ud til, at variansen for de tre observationsrækker på hver 8 observationer svarende til de tre distancer kan antages, at være ens. Desuden ser, det ud til at middelværdien vokser lineært med distancen. Figur 4.19 Tider per 100 m for kvindernes finaler på distancerne 200 m, 400 m og 800 m ved olympiaden i Sydney år 2000.

4.85 Modeller og test Vi annoncerede side 4.77, at man under specielle omstændigheder kunne teste hypotesen om konstant varians og hypotesen om lineær regression. Det kan man, hvis flere observationspar har den samme værdi af den uafhængige variabel, så en sortering af data efter værdierne af den uafhængige variabel viser, at data kan opdeles i k observationsrækker: Afhængig variabel: Uafhængige variabel: x 11,...,x 1 j,...,x 1n1 t 1 j = t 1, j = 1,...,n 1 x i1,...,x i j,...,x ini t i j = t i, j = 1,...,n i x k1,...,x k j,...x knk t k j = t k, j = 1,...,n k De n i observationer i gruppe i har samme værdi af den uafhængige variabel, og den fælles værdi betegnes med t i. Når data har denne struktur, begynder man med at antage grundmodellen M 0 : X i j N(µ i,σ 2 i ), i = 1,...,k, j = 1,...,n i, som måske kan kontrolleres med fraktildiagrammer i de k observationsrækker, hvis der er observationer nok. Derefter kan man teste reduktionen til modellen M 1 : X i j N(µ i,σ 2 ), i = 1,...,k, j = 1,...,n i, ved at teste hypotesen H 01 : σ 2 1 = =σ 2 k = σ 2 med Bartletts test, som blev introduceret i Afsnit 4.5. Hvis reduktionen til M 1 accepteres, kan man teste reduktionen til regressionsmodellen M 2 : X i j N(α + βt i,σ 2 ), i = 1,...,k, j = 1,...,n i, ved at teste hypotesen H 02 : µ i = α +βt i. Dette test er et typisk variansanalyse test, som baserer sig på at vurdere, hvor meget variansskønnet ændrer sig, mellem de to modeller M 1 og M 2, set i forhold til variansskønnet under den sidst accepterede model M 1. Variansskønnet i modellen M 1 er s 2 01 = 1 f 01 SAK 01, og det er velkendt, at f 01 = n k. Det er ligeledes velkendt, at man finder f 01, SAK 01 og s 2 01, i sidste række i det manuelle beregningsskema, side 4.33. Tilsvarende er variansskønnet i regressionsmodellen M 2 s 2 02 = 1 f 02 SAK 02,

σ 2 2 = σ 2 3 let. Idet C = 1.06349 og 2lnQ(x) = 0.31229, 4.86 4.6 Lineær regression og SAK 02 og s 2 02 findes i det manuelle beregningsskema side 4.80. Når man har disse størrelser, kan testet for reduktionen fra M 1 til M 2 beregnes som F(x) = SAK 02 SAK 01 f 02 f 01 s 2 01 = s2 2 s 2. (4.53) 01 Teststørrelsen skal vurderes i en F-fordeling med f 2 = f 02 f 01 = (n 2) (n k) = k 2 frihedsgrader i tælleren og f 01 = n k frihedsgrader i nævneren. Kun store værdier af teststørrelsen er kritiske for H 02, så testsandsynligheden beregnes som ε(x) = 1 F F(k 2,n k) (F(x)), hvor F F(k 2,n k) er fordelingsfunktionen for F-fordelingen med f 2 = k 2 frihedsgrader i tælleren og f 01 = n k frihedsgrader i nævneren. Det bemærkes, at n her betegner det totale antal af observationer. Dette antal er tidligere i forbindelse med modellen for k observationsrækker blevet betegnet med n. Det kan vises, at SAK 2 = SAK 02 SAK 01 = k i=1 n i ( x i ( ˆα + ˆβt i )) 2 som er et mål for hvor meget gennemsnittene x i varierer omkring det estimerede regressionslinje ˆα + ˆβt. Idet SAK 01 = k i=1 n i j=1 (x i j x i ) 2 er mål for variationen inden for grupperne ses det, at F-testet i (4.53) forkaster, hvis variationen omkring regressionslinjen er for stor i forhold til variationen inden for grupper, se Figur 4.21. Eksempel 4.7 (Fortsat) I Figur 4.20 ses fraktildiagrammet for de tre observationsrækker svarende til de tre distancer. Figuren giver ikke anledning til at betvivle modellen M 0. Udskriften fra Excel nedenfor viser beregningsskemaet side 4.33 for disse data: Ud fra dette beregnes Bartlett testet for hypotesen om varianshomogenitet H 01 : σ 2 1 = bliver teststørrelsen Ba(x) = 0.31229 1.06349 = 0.29365

4.87 Figur 4.20 Fraktildiagram for tiderne per 100m i Eksempel 4.7. og testsandsynligheden ε(x) = 1 F χ 2 (2)(0.29365) = 0.863, så H 01 accepteres. For disse data er beregningsskemaet side 4.80 x(tid) n 24 t(distance) S 307.123 11200 SK 3982.754245 6720000 SP 152144.8 SAK 52.565198 1493333.3333 SAP 8820.7333 ˆβ 0.00591 ˆα 10.04031 SAK 02 0.46341 s 2 02 0.02106 Ved hjælp af de to beregningsskemaer finder vi, at SAK 2 = SAK 02 SAK 01 = 0.46341 0.38868 = 0.07473,

4.88 4.6 Lineær regression Figur 4.21 Tider per 100 m for kvindernes finaler på distancerne 200 m, 400 m og 800 m ved olympiaden i Sydney år 2000 samt den estimerede regressionslinje. Gennemsnittene for de tre distance er markeret med. så F-teststørrelse i (4.53) bliver F(x) = 0.07473/1 = 4.038 F(1,21). 0.38868/21 Da ε(x) = 1 F F(1,21) (4.038) = 0.058. accepteres hypotesen om lineær regression H 02 : µ i = α + βt i lige netop ved test på niveau 5%. (Benyttes Statistical Tables får vi samme konklusion, idet F(x) = 4.038 < F 0.95 (1,21) = 4.32.) Af det beregningsskemaet oven for ses, at det estimerede regressionslinje for sammenhængen mellem tid per 100 m og distancen har ligningen x(t) = 10.04031 + 0.00591t. (4.54) til Ved hjælp af formlerne (4.49), (4.50) og (4.52) findes konfidensintervallerne for α, β og σ 2 α [10.04031 2.074 0.06284,10.04031+2.074 0.06284]= [9.90998,10.17064], β [0.00591 2.074 0.0001187,0.00591+2.074 0.0001187]= [0.00566,0.00616],

σ 2 [ 0.02106 1.6719, 0.02106 ] = [0.01260, 0.04219]. 0.4992 4.89 Ønsker vi at angive et skøn over tiden per 100 m for en distance på 600 m indsætter vi t = 600 i formel (4.54) og finder x(600) = 10.04031+0.00591 600 = 13.586. Ifølge (4.51) er 95% konfidensintervallet for dette skøn [13.586 2.074 0.03359,13.586+2.074 0.03359]= [13.516,13.656]. Figur 4.22 Tider per 100 m for kvindernes finaler i samtlige løbedistancer, 100 m, 200 m, 400 m, 800 m, 1500 m, 5000 m, 10000 m og marathon, ved olympiaden i Sydney år 2000. Man skal som regel altid være meget forsigtig med at anvende formlen for den estimerede regressionslinje x(t) = ˆα + ˆβt til angive skøn for den afhængige variabel x svarende til værdier af den uafhængige variable t, der ligger udenfor det område af t-værdier, der er benyttet til at bestemme linjen. Således også i dette eksempel. Figur 4.22 viser tiden per 100 m for de 8 bedst placerede i samtlige løbedistancer for kvinder ved olympiaden i Sydney 2000, det vil sige for distancerne 100 m, 200 m, 400 m, 800 m, 1500 m, 3000 m, 5000 m, 10000 m og 42195 m(marathon). Det fremgår tydeligt af figuren, at den lineære sammenhæng mellem tid per 100

4.90 4.6 Lineær regression m og distancen, som vi fandt for distancerne 200 m, 400 m og 800 m, ikke gælder for de længste distancer. 4.6.3 Hypoteser om regressionsparametrene Vi betragter hypoteserne med kendt hældning eller kendt afskæring og de modeller det leder til. Sammenhængen mellem modellerne og hypoteserne, der forbinder dem, kan fremstilles grafisk: M 3 : X i N(α + β 0 t i,σ 2 ) H 03 : β = β 0 ր ց H 04 : α = α 0 M 2 : X i N(α + βt i,σ 2 ) M 4 : X i N(α 0 + β 0 t i,σ 2 ) H 03 : α = α 0 ց ր H 04 : β = β 0 M 3 : X i N(α 0 + βt i,σ 2 ) Vi giver alle test for hypoteserne og estimaterne for parametrene i modellerne. Man skal bemærke, at både H 03 og H 04 er test for α = α 0, men dermed hører enhver lighed op. Der er tale om reduktion fra to forskellige modeller til to forskellige modeller og testene er derfor forskellige. Når man tester H 04, har man accepteret, at β er kendt og dermed modellen M 3, og i den model har estimatet for α - som det ses nedenfor - en mindre varians end estimatet for α i M 2. Tilsvarende kommentarer gælder om hypoteserne H 03 og H 04, om at β = β 0. Test af H 03 : β = β 0. Teststørrelse t(x) = ˆβ β 0 s 2 02 /SAK t (4.55) Testsandsynlighed ε(x) = 2 [ 1 F t(n 2) ( t(x) ) ] Estimater for parametrene i M 3 : α ˆα M3 = x β 0 t N(α, σ 2 n ) σ 2 s 2 03 = 1 n {x i ( ˆα M3 + β 0 t i )} 2 n 1 i=1 = 1 [SAK 02 +( n 1 ˆβ ] β 0 ) 2 SAK t σ 2 χ 2 (n 1)/(n 1)

4.91 Test af H 03 : α = α 0. Teststørrelse Testsandsynlighed t(x) = s 2 02 ˆα α 0 ( ) 1 t 2 + n SAK t ε(x) = 2 [ 1 F t(n 2) ( t(x) ) ] Estimater for parametrene i M 3 : β ˆβ M 3 = n t i (x i α 0 ) i=1 n ti 2 i=1 = SP xt α 0 S t SK t N(β, σ 2 SK t ) Test af H 04 : β = β 0 : Teststørrelse σ 2 s 2 03 = 1 n 1 = 1 n 1 n i=1 {x i (α 0 + ˆβ M 3 t i )} 2 [ SK x + nα 2 0 2α 0S x ˆβ 2 M 3 SK t σ 2 χ 2 (n 1)/(n 1) t(x) = ˆβ M 3 β 0 s 2 03 /SK t = SP xt α 0 S t β 0 SK t s 2 03 SK t t(n 1) ] Testsandsynlighed ε(x) = 2 [ 1 F t(n 1) ( t(x) ) ] Estimat for parameteren i M 4 : n σ 2 s 2 04 = 1 {x i (α 0 + β 0 t i )} 2 n i=1 = 1 [ SKx + nα0 2 n + β 0 2 SK ] t 2α 0 S x 2β 0 SP xt + 2α 0 β 0 S t σ 2 χ 2 (n)/(n)

4.92 4.6 Lineær regression Test af H 04 : α = α 0 : Teststørrelse t(x) = ˆα M 3 α 0 s 2 03 /n = S x β 0 S t α 0 n s 2 03 n t(n 1) Testsandsynlighed ε(x) = 2 [ 1 F t(n 1) ( t(x) ) ] Estimat for parameteren i M 4 : n σ 2 s 2 04 = 1 {x i (α 0 + β 0 t i )} 2 n i=1 = 1 [ SKx + nα0 2 n + β 0 2 SK ] t 2α 0 S x 2β 0 SP xt + 2α 0 β 0 S t σ 2 χ 2 (n)/(n). Variansanalysetabellen For en regressionsanalysen med gentagelser kan beregningerne resumeres i variansanalysetabellen: Variationskilde SAK f g s 2 F ε regression SAK 3 1 s 2 3 s 2 3 /s2 02 1 F F(1,n 2) (F) omkring linjen SAK 2 k 2 s 2 2 s 2 2 /s2 01 1 F F(k 2,n k) (F) inden for grupper SAK 01 n k s 2 01 I alt SAK 03 n 1 I linjen regression svarer kvadratsummen SAK 3 til testet for hypotesen H 03 : β = 0, svarende til at alle observationerne har middelværdi α. F-teststørrelsen i denne linje er F(x) = s2 3 s 2 = ˆβ 2 SAK t 02 s 2 02 = ˆβ 0 s 2 02 /SAK t 2 = (t(x)) 2, hvor t(x) er t-teststørrelsen i (4.55) for hypotesen H 03. Desuden er SAK 03 = SAK x.

4.93 For en regressionsanalyse uden gentagelser er variationen inden for grupper, SAK 01, lig med 0, så linjen inden for grupper fjernes fra tabellen som får udseendet: Eksempel 4.6 (Fortsat) Variationskilde SAK f g s 2 F ε regression SAK 3 1 s 2 3 s 2 3 /s2 02 1 F F(1,n 2) (F) omkring linjen SAK 02 n 2 s 2 02 I alt SAK 03 n 1 I dette eksempel svarer hypotesen H 03 : β = 0 til at pulsen ikke afhænger af tiden på løbebåndet, idet regressionslinjen under H 03 får ligningen x(t) = α. Fra beregningsskemaet på side 4.82 finder man de størrelser, der benyttes i t-testet for H 03, som bliver t(x) = 0.0605 1.14363/367200 = 34.2818 t(15). Testsandsynligheden er 1.11 10 15, så H 03 forkastes som forventet. Pulsen afhænger altså af tiden på løbebåndet. Ifølge udskriften fra Excel på side 4.102 er variansanalysetabellen for data i dette eksempel som vist nedenfor. (Resultaterne i tabellen vedrørende testet for H 03 adskiller sig lidt fra den ovenfor, fordi vi her har brugt afrundede størrelser i beregningerne.) Variationskilde SAK f g s 2 F ε regression 1345.787 1 1345.787 1176.387 1.14 10 15 omkring linjen 17.154 15 1.144 I alt 1362.941 16 Eksempel 4.7 (Fortsat) Variansanalysetabellen for disse data er: Variationskilde SAK f g s 2 F ε regression 52.10178 1 52.10178 2473.488 4.22 10 24 omkring linjen 0.07473 1 0.07473 4.038 0.058 inden for grupper 0.38868 21 0.01851 I alt 52.56519 23

4.94 4.6 Lineær regression 4.6.4 Korrelation og/eller regression Teorien gennemgås i forbindelse med Eksempel 4.8. Eksempel 4.8 Vi betragter igen eksperimentet i Eksempel 4.6 udført af Tue Lindstrøm, Institut for Idræt, hvor der foruden tiden på løbebåndet blev målt forskellige fysiologiske størrelser, blandt andre puls og iltoptagelse. I Eksempel 4.6 så vi, at pulsens afhængighed af tiden kunne beskrives ved hjælp af en lineær regressionsmodel. Her betragter vi sammenhørende målinger af pulsen og iltoptagelsen(i l/min) foretaget første gang efter 2 minutter og derefter hvert 2 1 minut. Resultaterne er vist i tabellen nedenfor. puls iltoptagelse puls iltoptagelse 162 3.130 178 3.832 164 3.137 181 3.111 165 3.060 182 4.054 168 3.873 185 3.762 171 3.322 187 4.102 174 3.716 188 4.289 172 3.413 188 4.171 176 3.488 192 4.237 177 3.630 Vi er her interesserede i at undersøge, om der er en sammenhæng mellem pulsen og iltoptagelsen. Situationen her er forskellig fra den i Eksempel 4.6 hvor vi studerede sammenhørende af tiden og pulsen, idet vi da antog, at tiden var deterministisk (kendt) mens pulsen var udfald en realisation af en stokastisk variabel. Her er både pulsen og iltoptagelsen realisationer af stokastiske variable. Vi kan for eksempel ikke før forsøgets start med sikkerhed sige, hvad pulsen og iltoptaget er efter 4 1 2 minuts løb på båndet. Lader vi (x 1i,x 2i ), i = 1,...,17, betegne det i te sæt af sammenhørende værdier af puls og iltoptagelse er (x 1i,x 2i ) en realisation af en todimensional stokastisk vektor og vil betragte (x 11,x 21 ),...,(x 1n,x 2n ) som én observationsrække af længde n = 17 fra den todimensionale normalfordeling, som er omtalt i Afsnit 3.1.2. Én observationsrække fra den todimensionale normalfordeling Vi betragter modellen M 0 : X i = (X 1i,X 2i ) N 2 ((µ 1, µ 2 ),Σ),

4.95 Figur 4.23 Data i Eksempel 4.8. Sammenhørende værdier af puls og iltoptagelse. hvor Σ = { σ 2 1 ρσ 1 σ 2 ρσ 1 σ 2 σ 2 2 }. Her betegner µ i og σi 2 middelværdien og variansen for X i, i = 1,2, og ρ er korrelationen mellem de to komponenter af X i. Modelkontrol Af formel (3.19) fås, at i modellen M 0 er observationsrækken bestående af førstekomponenterne x 11,...,x 1i,...,x 1n normalfordelt med middelværdi µ 1 og varians σ1 2 og tilsvarende er observationsrækken bestående af andenkomponenterne x 21,...,x 2i,...,x 2n normalfordelt med middelværdi µ 2 og varians σ 2 2. En del af kontrollen af M 0 består derfor af to fraktilsammenligninger for henholdsvis første- og andenkomponenterne. eller Formel (3.21) medfører, at X 2i X 1i = x 1i N(µ 2 +(x 1i µ 1 ) ρσ 2 σ 1,σ 2 2 (1 ρ2 )) X 2i X 1i = x 1i N(α + βx 1i,σ 2 ), (4.56)

4.96 4.6 Lineær regression hvor og α = µ 2 µ 1 ρσ 2 σ 1, (4.57) β = ρσ 2 σ 1 (4.58) σ 2 = σ 2 2 (1 ρ2 ). (4.59) Hvis førstekomponenterne x 11,...,x 1i,...,x 1n betragtes som faste, siger formel (4.56), at vi har en lineær regression med førstekomponenterne som uafhængige variable og andenkomponenterne som afhængige variable. Af symmetrigrunde har vi også en lineær regression med andenkomponenterne som uafhængige variable og førstekomponenterne som afhængige variable. Modellen M 0 kan altså også evalueres ved hjælp af kontroltegninger fra lineær regressionsanalyse. Estimation Maksimum likelihood estimaterne for de fem parametre i M 0 beregnet på grundlag af observationerne (x 11,x 21 ),...,(x 1n,x 2n ) er: µ 1 S 1 n = 1 n µ 2 S 2 n = 1 n σ1 2 1 n 1 SAK 1 = 1 n 1 σ2 2 1 n 1 SAK 2 = 1 n 1 ρ r = n i=1 n i=1 n i=1 n i=1 SAP SAK1 SAK 2 = x 1i = x 1 N(µ 1, σ 2 1 n ), x 2i = x 2 N(µ 2, σ 2 2 n ), (x 1i x 1 ) 2 σ 2 1 χ 2 (n 1)/(n 1), (x 2i x 2 ) 2 σ 2 2 χ 2 (n 1)/(n 1), n i=1 (x 1i x 1 )(x 2i x 2 ) n (x 1i x 1 ) 2 n. (x 2i x 2 ) 2 i=1 Den simultane fordeling af de fem estimater er vanskelig at beskrive, men foruden de nævnte fordelingsresultater gælder der, følgende approksimation i=1 z = 1 2 ln(1+r 1 r ) N(1 2 ln(1+ρ 1 ρ ), 1 n 3 ).

4.97 Beregningerne af estimaterne foretages let ved hjælp af følgende beregningsskema n x 1 x 2 n S SK S 1 = n x i1 i=1 SK 1 = n x 2 i1 i=1 S 2 = n x i2 i=1 SK 2 = n x 2 i2 i=1 SP SP = n x i1 x i2 i=1 SAK SAK 1 = SK 1 S2 1 n SAK 2 = SK 2 S2 2 n SAP SAP = SP S 1S 2 n s 2 s 2 1 = 1 n 1 SAK 1 s 2 2 = 1 n 1 SAK 2 r r = SAP SAK1 SAK 2 Test af hypotesen H 0 : ρ = 0 Hypotesen H 0 om uafhængighed af de to komponenter i en todimensional normalfordeling testes ved hjælp af teststørrelsen t(x) = r t(n 2). (4.60) (1 r 2 )/(n 2) Idet både store og små værdier af teststørrelsen er kritiske er testsandsynligheden for H 0 ε(x) = 2(1 F t(n 2) ( t(x) ). (4.61) Relation til regressionsanalyse Indsættes estimaterne ovenfor på højresiden i (4.57) og (4.58) fås, og ˆβ = r s 2 SAP SAK2 /(n 1) = s 1 SAK1 SAK 2 SAK1 /(n 1) = SAP SAK 1 ˆα = x 2 x 1 r s 2 s 1 = x 2 x 1 ˆβ, det vil sige præcis de samme størrelser som i regressionsanalysen af x 2 på x 1.

4.98 4.6 Lineær regression Ved at indsætte formlen for r i (4.60) finder vi t(x) = ( 1 ( = 1 n 2 ˆβ =, s 2 02 /SAK 1 SAP SAK1 SAK 2 SAP SAK1 SAK 2 ) 2 )/(n 2) SAP SAK 1 (SAK 2 SAP2 SAK 1 ) /SAK 1 hvor s 2 02 betegner variansestimatet i modellen for lineær regression af x 2 på x 1. Det ses, at t-testet for H 0 : ρ = 0 i (4.60) er præcis det samme som t-testet for H 03 : β = 0 i (4.55). Som konklusion på overvejelserne ovenfor har vi, at der med hensyn til de betragtede a- spekter beregningsmæssigt ikke er forskel på regressionsmodellen og modellen for én observationsrække fra den todimensionale normalfordeling, skønt disse to modeller er principielt forskellige. Endvidere gælder, lidt løst formuleret, at den todimensionale normalfordelingsmodel indeholder to regressionsanalyser, nemlig regressionen af x 2 på x 1, hvis x 1 betragtes som fast, og tilsvarende af x 1 på x 2. Eksempel 4.8 (Fortsat) Af Figur 4.23 ses, at de sammenhørende værdier af puls og iltoptag ligger pænt og ensartet omkring en ret linje. Figur 4.24 viser fraktildiagrammerne for målingerne af pulsen og iltoptaget. Diagrammerne strider ikke mod at målingerne kan betragtes som to normalfordelte observationsrækker. Alt i alt strider Figur 4.23 og Figur 4.24 ikke mod at antage at de sammenhørende målinger kan betragtes som én todimensional normalfordelt observationsrække. For disse data bliver beregningsskemaet på side 4.97: x 1 (puls) n 17 x 2 (iltoptag) S 3010 62.327 SK 534310 231.358791 SP 11085.215 SAK 1362.9412 2.8497 SAP 49.6697 s 2 85.1838 0.1781 r 0.7970

Figur 4.24 Fraktildiagrammer for målinger af puls og iltoptag i Eksempel 4.8. 4.99

4.100 4.6 Lineær regression Teststørrelsen i (4.58) for hypotesen H 0 om ingen sammenhæng mellem puls og iltoptag er t(x) = 0.7970 = 5.11 t(15). (1 0.7970 2 )/15 Da testsandsynligheden er 0.00013 for kastes H 0. Linjen i regressionen for iltoptag på puls, der fremkommer ved at betragte værdierne af pulsmålingerne som deterministiske, har ligningen x 2 = ( x 2 x 1 r s 2 s 1 )+r s 2 s 1 x 1 = 2.78627+0.03644x 1.

4.101 Anneks til Afsnit 4.6 Beregninger i Excel Beregningerne i regressionsmodellen M 2 : X i j N(α + βt i,σ 2 ) udføres let i Excel ved hjælp af dialogboksen Regression Det er derimod noget besværligt at teste reduktionen for modellen for k observationsrækker M 1 : X i j N(µ i,σ 2 ) til M 2, som beskrevet i fortsættelsen af Eksempel 4.7 nedenfor. Eksempel 4.6 (Fortsat) Antag, at cellernea1:b20 har indholdet som vist nedenfor Via ruten Funktioner Dataanalyse Regression fremkommer der en dialogboks. I vores gennemgang af regressionanlysen har vi betegnet den afhængige variabel med x og den uafhængige variabel med t. Mange stedet betegnes den afhængige variable med y og den uafhængige med x, således også i Excel. Da vi vil lave regressionen af puls på tid angiver vi cellerneb4:b20 efterinput for Y-område og cellerne A4:A20 efterinput for X-område.

4.102 Beregninger i Excel Efter et klik påok får vi følgende udskrift på et nyt regneark: 0#1%(/(%*+,-./(/(% ) %-2.-/.3(4$ #$%&'($! ) ) ) " 78 51(/,-%&62(/ 9 :; <; = :9"!= N*,-/&-5($ +M/&2> ;99@ ) ) ) ) : )!A!A9BC ) D! ) ) EDFGA * * ) HAIJK ) ) LFIJK ) (1&.#-$?-$% (>/(11&62 ) ) ) ) ) ) ) * I tabellen med overskriften Regressionsstatistik angives den empiriske korrelation r for de to variable i linjen Multipel R og r 2 i linjen R-kvadreret. I linjen Standardfejl angives den estimerede spredning s 02 (= s 2 02 )i regressionsmodellen. I den øverste tabel under overskriftenanava finder vi i linjenresidual under henholdsvis fg, SK og MK størrelserne f 02, SAK 02 og s 2 02, sammenlign med beregningsskemaet side 4.82. I linjenregression finder vi undersk ogmk størrelserne SAK 3 og s 2 3, som benyttes i forbindelse med test af hypotesen H 03 : β = 0. Størrelserne er ens, idet antallet af frihedsgrader f 3 = f 03 f 02 = (n 1) (n 2) = 1. F-teststørrelsen og den tilsvarende testsandsynlighed for H 03 findes i samme linje underfogsignifikans F. Endelig findes i linjeni alt størrelserne f 03 = n 1 og SAK 03 = SAK 02 + SAK 3. I den nederste tabel under overskriften ANAVA finder vi i linjen Skæring finder vi estimatet ˆα (Koefficienter), den estimerede spredning på ˆα (Standardfejl), t-teststørrelsen for hypotesen H03 : α = 0 (t-stat) og den tilsvarende testsandsynlighed (P-værdi). De to sidste tal i rækken angiver 95% konfidensintervallet for α, som vi genkender fra side 4.83. I linjen X-variabel 1 findes tilsvarende estimatet ˆβ for hældningen, den estimerede spredning på ˆβ, t-teststørrelsen for hypotesen H 03 : β = 0, den tilsvarende testsandsynlighed, og 95% konfidensintervallet for β. Resultaterne vedrørende testet svarer til dem på side 4.93 og konfidensintervallet blev beregnet på side 4.83. (Af en ukendt grund bliver konfidensintervallerne angivet to gange på udskriften. Så tungnemme er vi da ikke at det er nødvendigt.) En tegning af observationerne med den estimerede regressionslinje kan fås ved at klikke i

4.103 ruden foranlinjetilpasningsplot i dialogboksenregression. Tegningen ser således ud:! " #$%&'()*+,# 1// Ikke særligt informativ, men efter lidt redigering bliver den til :; 89-0/ -./ -// 1// 2// 567 3// 4//.// som ligner tegningen i Figur 4.17. Eksempel 4.7 (Fortsat) I forbindelse med test af reduktionen fra M 1 : X i j N(µ i,σ 2 ) til M 2 : X i j N(α + βt i,σ 2 )

4.104 Beregninger i Excel er Excel lidt tung at danse med. Det skyldes, at man i forbindelse med M 1, modellen for k observationsrækker, skal angive x-erne som k kolonner (eller rækker), mens man i forbindelse med M 2 skal angive x-erne som en kolonne (eller række). Det kan gøres således: Først indtastet data som tre observationsrækker som vist nedenfor og dialogboksenanava: Enkelt faktor benyttes til at producere udskriften +,-.!"!# $%&'(!$')* % % /012230 45678? 91:?/3553:;5<6???? =70<75; @A >)&) %??? =70<76<B5;C<8D3 9E FG HE I JKLM0D< IC0<6.%&&%NO*PQQ%* S!&' S T% ()*O*PQQ%*???????R? hvor de størrelser fra M 1, der skal bruges i F-teststørrelsen i (4.53) for hypotesen H 02 : µ i = α + βt i, nemlig SAK 01, f 01 og s 2 01, findes i linjen Inden for grupper i ANAVA-tabellen. Herefter

4.105 omorganiseres data, så de kommer til at se således ud:! " # $ % og med @2A47?748:;<=>?7?749 123456738 &'()'**+,-**./.+*.+0 9 9 disse data som input produceres ved hjælp af dialogboksenregression udskriften IJ FGA7?<=45HC7? B4=C>=?>D7E3 9 87P?7AA5HC 87A5>2=3 K( 99 999 LM NM O L+(-+K+0/-*O 9#: `:<=?5=G73 B;_?5CP M,'KK+R+'-.')L./-S/)SK'TU 9999#: 9 999#:.V*./. WVXY)S+ 99 Z'S)'[\] 99 ^X)'[\] Q=34 9 hvor de størrelser fra M 2, der skal bruges i F-testet af H 02, nemlig SAK 02 og f 02, findes i linjen Residual ianava-tabellen undersk ogfg. Sammenlign estimater og konfidensintervaller i udskriften med resultaterne på siderne 4.87 og 4.88.

4.106 Hovedpunkter til Afsnit 4.6 Hovedpunkter til Afsnit 4.6 Data består af sammenhørende værdier af t og x, (t i,x i ), i = 1,...,n. Model: Modellen M 2 for lineær regression er, at x i, i = 1,...,n, er realisationer af uafhængige stokastiske variable X i N(α + βt i,σ 2 ), 1,...,n. Dette forkortes til M 2 : X i N(α + βt i,σ 2 ), i = 1,...,n. Modelkontrol: Mindst en tegning af (t i,x i ), i = 1,...,n. Hvis der er flere observationspar med samme værdi af t i, kan probitdiagrammer, test for varianshomogenitet og test af den lineære regression komme på tale. Test for lineær regression: Teststørrelse F(x) = SAK 02 SAK 01 f 02 f 01 s 2 01 = s2 2 s 2 F(k 2,n k). 01 Se side 4.86 for angivelse af, hvordan de størrelser, der indgår i testet, beregnes. Testsandsynlighed Estimation: ε(x) = 1 F F(k 2,n k) (F(x)). Formler for estimaterne fremgår af beregningsskemaet side 4.80. ( ( )) 1 ˆα N α,σ 2 t 2 + n SAK t ( σ ˆβ 2 ) N β, SAK t ( ˆα + ˆβt 1n N (α + βt,σ 2 + (t t ) 2 )) SAK t s 2 02 σ 2 χ 2 ( f 02 )/ f 02 hvor f 02 = n 2 (antal observationer minus antal ukendte parametre i middelværdien). Konfidensintervaller:

4.107 (1 α) konfidensinterval for α [ ˆα t 1 α/2 ( f 02 ) s 2 02 ( ) ( ) 1 t 2 1 +, ˆα +t n SAK 1 α/2 ( f 02 ) s 2 t ] 2 02 + t n SAK t (1 α) konfidensinterval for β s ˆβ 02 s t1 α/2 ( f 02 ), ˆβ + 02 t1 α/2 ( f 02 ) SAK t SAK t (1 α) konfidensinterval for regressionslinjen α + β t : [ ( ˆα + ˆβt 1 t 1 α/2 ( f 02 ) s 2 02 n + (t t ) 2 ) (, ˆα + SAK ˆβt 1 +t 1 α/2 ( f 02 ) s 2 02 t n + (t t ) 2 ) ] SAK t (1 α) konfidensinterval for σ 2 [ s 2 02 χ 2 1 α/2 ( f 02)/ f 02, s 2 02 χ 2 α/2 ( f 02)/ f 02 hvor χ 2 1 α/2 ( f 02) og χ 2 α/2 ( f 02) er henholdsvis 1 α/2 og α/2 fraktil for χ 2 -fordelingen med f 02 = n 2 frihedsgrader. ], Undermodeller af regressionsmodellen eller hypoteser om regressionsparametrene Vi betragter modellerne med kendt hældning og/eller kendt afskæring. Sammenhængen mellem modellerne og hypoteserne, der forbinder dem, kan fremstilles grafisk: M 3 : X i N(α + β 0 t i,σ 2 ) H 03 : β = β 0 ր ց H 04 : α = α 0 M 2 : X i N(α + βt i,σ 2 ) M 4 : X i N(α 0 + β 0 t i,σ 2 ) H03 : α = α 0 ց ր H04 : β = β 0 M3 : X i N(α 0 + βt i,σ 2 ) Test af H 03 : β = β 0. Teststørrelse Testsandsynlighed t(x) = ˆβ β 0 s 2 02 /SAK t ε(x) = 2 [ 1 F t(n 2) ( t(x) ) ]

4.108 Hovedpunkter til Afsnit 4.6 Estimater for parametrene i M 3 : α ˆα M3 = x β 0 t N(α, σ 2 n ) σ 2 s 2 03 = 1 n {x i ( ˆα M3 + β 0 t i )} 2 n 1 i=1 = 1 [SAK 02 +( n 1 ˆβ ] β 0 ) 2 SAK t σ 2 χ 2 (n 1)/(n 1) Test af H 03 : α = α 0. Teststørrelse Testsandsynlighed t(x) = s 2 02 ˆα α 0 ( ) 1 t 2 + n SAK t ε(x) = 2 [ 1 F t(n 2) ( t(x) ) ] Estimater for parametrene i M 3 : β ˆβ M 3 = n t i (x i α 0 ) i=1 n ti 2 i=1 = SP xt α 0 S t SK t N(β, σ 2 SK t ) Test af H 04 : β = β 0 : Teststørrelse σ 2 s 2 03 = 1 n 1 = 1 n 1 n i=1 {x i (α 0 + ˆβ M 3 t i )} 2 [ SK x + nα 2 0 2α 0 S x ˆβ 2 M 3 SK t σ 2 χ 2 (n 1)/(n 1) t(x) = ˆβ M 3 β 0 s 2 03 /SK t = SP xt α 0 S t β 0 SK t s 2 03 SK t t(n 1) ]

4.109 Testsandsynlighed ε(x) = 2 [ 1 F t(n 1) ( t(x) ) ] Estimat for parameteren i M 4 : Test af H 04 : α = α 0 : Teststørrelse n σ 2 s 2 04 =1 {x i (α 0 + β 0 t i )} 2 n i=1 = 1 [ SKx + nα0 2 n + β 0 2 SK ] t 2α 0 S x 2β 0 SP xt + 2α 0 β 0 S t σ 2 χ 2 (n)/(n) t(x) = ˆα M 3 α 0 s 2 03 /n = S x β 0 S t α 0 n s 2 03 n t(n 1) Testsandsynlighed ε(x) = 2 [ 1 F t(n 1) ( t(x) ) ] Estimat for parameteren i M 4 : n σ 2 s 2 04 =1 {x i (α 0 + β 0 t i )} 2 n i=1 = 1 [ SKx + nα0 2 n + β 0 2 SK ] t 2α 0 S x 2β 0 SP xt + 2α 0 β 0 S t σ 2 χ 2 (n)/(n). Én observationsrække fra en todimensional normalfordeling Modellen for data (x 11,x 21 ),..., (x 1i,x 2i ),..., (x 1n,x 2n ) er M 0 : X i = (X 1i,X 2i ) N 2 ((µ 1, µ 2 ),Σ), hvor Σ = { σ 2 1 ρσ 1 σ 2 ρσ 1 σ 2 σ 2 2 }.

4.110 Hovedpunkter til Afsnit 4.6 Modelkontrol Fraktilsammenligning for førstekomponenterne x 11,..., x 1i,...,x 1n og andenkomponenterne x 21,..., x 2i,...,x 2n. Desuden skal en tegning af observationer (x 11,x 21 ),..., (x 1i,x 2i ),..., (x 1n,x 2n ) vise samme træk som kontroltegningen for en lineær regression af x 2 på x 1. Estimation Parametrene i M 0 estimeres ved de tilsvarende empiriske størrelser, det vil sige µ 1 x 1, µ 2 x 2, σ 2 1 s2 1, σ 2 2 s2 2 side 4.97. Test af hypotesen H 0 : ρ = 0 Teststørrelse t(x) = og ρ r, som kan beregnes ved hjælp af beregningsskemaet r t(n 2). (1 r 2 )/(n 2) Testsandsynligheden for H 0 ε(x) = 2(1 F t(n 2)( t(x) ).

4.111 4.7 Tosidet variansanalyse I dette afsnit slækker vi på kravet om, at beregningerne skal kunne foretages i hånden og baserer gennemgangen på beregninger udført i Excel ved hjælp af to dialogbokse, nemlig Anava: To-faktor uden gentagelse oganava: To-faktor med gentagelse. Teorien bliver gennemgået i tilknytning til Eksempel 4.9 og Eksempel 4.10. Eksempel 4.9 I forbindelse med klubbens 100 års fødselsdag arrangerede atletikafdelingen i Århus 1900 et 100 km løb i juli måned i år 2000. For at undersøge hvorledeset så langt løb påvirker deltagernes fysiologi, foretog man på Institut for Idræt en lang række målinger på nogle af deltagerne. Der blev blandt andet taget blodprøver på deltagerne forud for løbet (dag -1), umiddelbart efter løbet (dag 0), samt 1, 2, 3, 5 og 12 dage efter løbet (dag 1, dag 2, dag 3, dag 5 og dag 12). Tallene i tabellen nedenfor, som Tue Lindstrøm har stillet tilrådighed, viser indholdet (målt i mmol/l) af Calcium i blodprøverne for 11 af deltagerne. person\dag -1 0 1 2 3 5 12 1 2.24 2.57 2.09 2.27 2.28 2.25 2.29 2 2.38 2.62 2.38 2.39 2.29 2.47 2.49 3 2.50 2.91 2.29 2.40 2.32 2.37 2.45 4 2.48 2.91 2.32 2.47 2.51 2.57 5 2.47 2.92 2.25 2.42 2.36 2.29 6 2.21 2.45 2.26 2.27 2.36 2.39 7 2.38 2.88 2.24 2.22 2.23 2.32 2.32 8 2.42 2.83 2.37 2.41 2.44 2.35 9 2.41 2.84 2.32 2.29 2.44 2.44 2.36 10 2.38 2.78 2.34 2.39 2.36 2.43 2.35 11 2.56 2.81 2.43 2.53 2.41 2.62 Der er af interesse at undersøge dels om der er forskel på indholdet af calcium på de forskellige tidpunkter og dels om der er forskel på indholdet af calcium i deltagernes blodprøver. Eksempel 4.10 I forbindelse med atletikstævnet for 1. årsstuderende - omtalt i Eksempel 4.5 - har Mikkel Sørensen, Institut for Idræt, Københavns universitet registreret følgende resultater i kuglestød (i

4.112 4.7 Tosidet variansanalyse m) for drenge og piger i årene 1998, 1999 og 2000: køn/år 1998 1999 2000 drenge 11.17 8.80 9.30 12.57 11.57 11.60 9.33 12.48 11.80 12.53 9.83 12.20 11.25 12.91 12.50 7.54 11.50 10.50 9.69 11.90 9.70 10.70 11.52 11.90 9.33 9.90 9.20 piger 7.16 9.49 8.59 10.45 6.69 8.80 8.47 8.01 11.61 9.40 11.01 10.65 7.22 8.11 8.21 8.51 8.72 9.18 9.62 7.94 8.65 6.27 8.03 8.45 9.18 9.12 7.79 Vi vil her undersøge dels om der er forskel på resultaterne i de tre år og dels om der er forskel på drengenes og pigernes resultater. Modeller og hypoteser Fælles for de to datasæt er at de er opskrevet i et tosidet skema med r rækker og s søjler og altså i alt rs celler. I Eksempel 4.9 har vi indledningsvis r = 11 rækker og s = 7 søjler, mens der i Eksempel 4.10 er r = 2 rækker og s = 3 søjler. De to dialogbokse i Excel kræver, at der er lige mange observationer i de rs celler. Hvis t betegner dette antal, er dette tilfældet i Eksempel 4.10, hvor antallet af observationer i de seks celler i skemaet er t = 9. Uheldigvis er det ikke lykkedes medarbejderne ved Institut for Idræt at få blodprøver på de 11 personer til samtlige 7 tidspunkter, så derfor betragter vi i det følgende kun personerne 1, 2, 3, 7, 9 og 10. Med denne modification har vi for data i Eksempel 4.9, at r = 6, s = 7 og t = 1. Lad x i jk betegne det k te måling i den i te række og den j te søjle. Vi bruger altså i = 1,...,r til at indicere de r rækker, j = 1,...,s, til at indicere de s søjler og k = 1...,t til at indicere

gentagelserne med. Det totale antal af observationer betegnes n, det vil sige n = rst. 4.113 Idet vi som sædvanlig forudsætter, at alle observationerne x i jk, i = 1,...,r, j = 1,...,s, k = 1,...,t, er udfald af uafhængige stokastiske variable X i jk, kan de modeller, vi vil betragte, skrives på følgende måde: Modellen for rs observationsrækker hver med sin middelværdi og sin varians M 0 : X i jk N(µ i j,σ 2 i j). Modellen for rs observationsrækker hver med sin middelværdi og fælles varians M 1 : X i jk N(µ i j,σ 2 ). Additivitetsmodellen M 2 : X i jk N(α i + β j,σ 2 ). skema. M 3 Modellen med kun rækkevirkning Modellen med kun søjlevirkning M 3 : X i jk N(α i,σ 2 ), M 3 : X i jk N(β j,σ 2 ). Modellen for én observationsrække eller homogenitet M 4 : X i jk N(µ,σ 2 ). Det indbyrdes forhold mellem modellerne M 2, M 3, M 3 og M 4 er angivet i nedenstående ր M 3 : X i jk N(α i,σ 2 ) M 2 : X i jk N(α i + β j,σ 2 ) M 4 : X i jk N(µ,σ 2 ) ց M 3 : X i jk N(β j,σ 2 ) Vi kender alle disse modeller fra tidligere med undtagelse af M 2. Modellerne M 1, M 3 og er alle eksempler på en model for flere observationsrækker hver med sin middelværdi men med fælles varians, omtalt i Afsnit 4.5. I M 1 har vi rs observationsrækker (cellerne) hver med t observationer. I M 3 har r observationsrækker (rækkerne) hver med st observationer og i M 3 har vi s observationsrækker (søjlerne) hver med rt observationer. Endelig er M 4 modellen for én observationsrække med n = rst observationer. ց ր

4.114 4.7 Tosidet variansanalyse De hypoteser vi skal betragte er følgende: Hypotesen om additivitet: H 02 : µ i j = α i + β j svarende til reduktionen M 1 M 2. Hypotesen omtales også undertiden som hypotesen om ingen vekselvirkning eller som hypotesen om ingen interaktion. I en tosidet variansanalyse betragter man endvidere følgende hypoteser: Hypotesen om ingen rækkevirkning H 0R : α 1 = = α r, og hypotesen om ingen søjlevirkning H 0S : β 1 = = β s, Det ses af skemaet ovenfor, at accept af H 0R i modellen M 2 giver reduktionen til M3, idet det accepteres at EX i j = α + β j = β j, hvor α betegner den fælles værdi af α-erne. Accept af H 0R i M 3 bevirker reduktion til M 4, idet vi da har EX i j = α, det vil sige at alle observationerne har samme middelværdi. Hypotesen om ingen rækkevirkning kan altså testes i to forskellige modeller og testene er - som vi skal se nedenfor - forskellige. (Bemærk, at notationen her er ændret i forhold til tidligere, hvor hypoteserne svarende til reduktionerne M 2 M3 og M 3 M 4 blev betegnet med henholdsvis H03 og H 04.) Tilsvarende giver accept af hypotesen om ingen søjlevirkning H 0S anledning til reduktionerne M 2 M 3 og M3 M 4 og igen afhænger testet af hvilken model hypotesen testes i. (Hypoteserne svarende til reduktionerne M 2 M 3 og M3 M 4 er tidligere betegnet med henholdsvis H 03 og H04.) Hvis t = 1, det vil sige hvis der kun er én observation i hver celle, taler vi om en tosidet variansanalyse uden gentagelser og hvis t 2 om en tosidet variansanalyse med gentagelser. Estimation Som nævnt ovenfor er modellerne M 1, M 3 og M3 er alle eksempler på en model med flere observationsrækker med hver sin middelværdi men med fælles varians, omtalt i Afsnit 4.5. Fra det afsnit har vi derfor umiddelbart de følgende resultater: Estimation i M 1 : X i jk N(µ i j,σ 2 ) (rs observationsrækker hver med t observationer): µ i j X i j = 1 t s 2 01 = 1 f 01 SAK 01 = 1 f 01 r i=1 s j=1 t k=1 t k=1 X i jk N(µ i j, σ 2 ), t (X i jk X i j ) 2 σ 2 χ 2 ( f 01 )/ f 01,

hvor f 01 = n rs = rst rs = rs(t 1). 4.115 Estimation i M 3 : X i jk N(α i,σ 2 ) (r observationsrækker - rækkerne - hver med st observationer): α i X i = 1 st s 2 03 = 1 f 03 SAK 03 = 1 f 03 hvor f 03 = n r = rst r = r(st 1). r i=1 s j=1 s j=1 t k=1 t k=1 X i jk N(α i, σ 2 st ), (X i jk X i ) 2 σ 2 χ 2 ( f 03 )/ f 03, Estimation i M 3 : X i jk N(β j,σ 2 ) (s observationsrækker - søjlerne - hver med rt observationer): β j X j = 1 rt s 2 03 = 1 f03 SAK03 = 1 f03 r i=1 r t i=1 k=1 s j=1 t k=1 X i jk N(β j, σ 2 rt ), (X i jk X j ) 2 σ 2 χ 2 ( f 03 )/ f 03, hvor f03 = n s = rst s = s(rt 1). Estimation i M 4 : X i jk N(µ,σ 2 ) (én observationsrække hver med rst observationer): µ X = 1 rst s 2 04 = 1 f 04 SAK 04 = 1 f 04 hvor f 04 = n 1 = rst 1. r i=1 r i=1 s j=1 s j=1 t k=1 t k=1 X i jk N(µ, σ 2 rst ), (X i jk X ) 2 σ 2 χ 2 ( f 04 )/ f 04, Vi mangler nu kun at diskutere estimation i additivitetsmodellen M 2 : X i jk N(α i +β j,σ 2 ). Da vi kan skrive α i +β j som (α i +c)+(β j c), hvor c er en konstant, parametriserer de r α-er og de s β-er ikke modellen M 2. Det kan vises, at antallet af frie parametre, der skal bruges til at parametrisere M 2, er r + s 1. Idet antallet af observationer er rst, er antallet af frihedsgrader for varians estimatet i M 2 derfor f 02 = rst (r+ s 1). I M 2 benyttes følgende estimater s 2 02 = 1 f 02 SAK 02 = 1 f 02 Modelkontrol α i + β j X i + X j X N(α i + β j, r+ s 1 σ 2 ) (4.62) rst r i=1 s j=1 t k=1 (X i jk X i X j + X ) 2 σ 2 χ 2 ( f 02 )/ f 02. (4.63) I en tosidet variansanalyse er det additivitetsmodellen M 2 der sædvanligvis er i centrum, da det er i denne (eller i delmodeller af denne) hypoteserne om ingen rækkevirkning H 0R og ingen søjlevirkning H 0S testes. Vi diskuterer derfor nu kontrol af additivitetsmodellen M 2.

4.116 4.7 Tosidet variansanalyse Hvis vi har en tosidet variansanalyse med gentagelser er udgangspunktet M 0 : X i jk N(µ i j,σ 2 i j ) som kan kontrolleres med rs fraktildiagrammer (ét for hver af de rs celler), hvis antallet t af observationer i cellerne er tilpas stort. Hvis t 3 kan hypotesen om varianshomogenitet H 01 : σ 2 11 = = σ 2 i j = = σ 2 rs, svarende til reduktionen M 0 M 1 : X i jk N(µ i j,σ 2 ), testes ved Bartletts test som omtalt i Afsnit 4.5. Hypotesen om additivitet H 02 : µ i j = α i +β j - svarende til reduktionen M 1 M 2 - kan testet ved hjælp af et F-test, hvis t 2, det vil sige hvis vi har gentagelser. Lad s 2 2 = SAK 2 f 2, hvor og SAK 2 = SAK 02 SAK 01 = t r s i=1 j=1 ( X i j X i X j + X ) 2 f 2 = f 02 f 01 = (rst (r+ s 1)) rs(t 1) = rs (r+ s 1) = (r 1)(s 1). Under hypotesen H 02 er SAK 2 σ 2 χ 2 ( f 2 ) og uafhængig af SAK 01 σ 2 χ 2 ( f 01 ) og som teststørrelse for H 02 benyttes F(X) = s2 2 s 2, (4.64) 01 som - ifølge formel (3.35) - er F-fordelt med ( f 2, f 01 ) frihedsgrader, hvor f 01 = rs(t 1). Hvis F(x) er den observerede værdi af F(X) er testsandsynligheden for H 02 - idet store værdier af F(x) er kritiske - ε(x) = P(F(X) > F(x)) = 1 F F( f2, f 01 )(F(x)), hvor F F( f2, f 01 ) er fordelingsfunktionen for F-fordelingen med ( f 2, f 01 ) frihedsgrader. Ved test på 5% niveau forkastes H 02, hvis F(x) > F 0.95 ( f 2, f 01 ). Accept af H 02 medfører modelreduktionen M 1 M 2. Under M 2 afhænger forskellen i middelværdi mellem to forskellige rækker g og h ikke af, i hvilken søjle man måler forskellen, da EX g jk EX h jk = (α g + β j ) (α h + β j ) = α g α h. (4.65) Tilsvarende afhænger forskellen i middelværdi mellem to forskellige søjler l og m ikke af, i hvilken række man måler forskellen, da EX ilk EX imk = (α i + β l ) (α i + β m ) = β l β m. (4.66)

4.117 Nu er x i j et estimat for middelværdien EX i jk, så hvis man for hver række i afsætter og forbinder punkterne ( j, x i j ), j = 1,...,s, skal man på grund af (4.65) have r kurver, som bortset fra tilfældige udsving har konstant lodret afstand. Hvis man tilsvarende for hver fast søjle j afsætter og forbinder punkterne (i, x i j ), i = 1,...,r, skal man på grund af (4.66) have s kurver, som bortset fra tilfældige udsving har konstant lodret afstand. De netop omtalte figurer kaldes profildiagrammer. Hvis t = 1, det vil sige hvis vi ikke har gentagelser, kan vi ikke foretage testet i (4.64), idet s 2 01 ikke er defineret, og rimeligheden af additivitetsmodellen M 2 vurderes udelukkende ved hjælp af profildiagrammer. I M 2 betegnes størrelserne R i jk = X i jk X i X j + X som residualerne. Det kan vises, at residualerne approksimativt er identisk normalfordelt med middelværdi 0. Antagelsen om normalitet i M 2 kan derfor vurderes ved at lave et fraktildiagram baseret på de observerede residualer r i jk = x i jk x i x j + x, i = 1,...,r, j = 1...,s, k = 1...,t. Hvis vi ikke har gentagelser er et fraktildiagram for residualerne den eneste kontrol af normalfordelingsantagelsen i M 2. Eksempel 4.9 (Fortsat) Profildiagrammerne for data for personerne 1, 2, 3, 7, 9 og 10 er vist i Figur 4.25. Bortset fra tilfældige udsving ser kurverne i hver af de to tegninger ud til at have konstant lodret afstand og tegningerne giver ikke anledning til at betvivle additivitetsmodellen M 2. Eksempel 4.10 (Fortsat) Tallene i dette eksempel har vi betragtet før, nemlig i Opgave 4.12, hvor der ikke var lige mange observationer i hver af de seks grupper. Der var færrest observationer for pigerne i år 2000, nemlig 9. For at kunne imødekomme kravet om, at antallet af observationer skal være det samme i hver af de seks grupper, betragter vi her de 9 første observationer i grupperne. Data ses i Figur 4.26 og i Figur 4.27 ses fraktildiagrammerne for de seks observationsrækker. Fraktildiagrammerne afslører ikke systematiske afvigelser fra rette linjer, så de seks observationsrækker kan betragtes som normalfordelte. Begge figurer antyder, at variansen i de seks rækker kan antages at være ens. Endvidere antyder figurerne, at der ikke er forskel på resultaterne i de tre år hverken for drengene eller pigerne, men at der er forskel på resultaterne for drenge og piger. Beregningsskemaet side 4.33 ser således ud:

4.118 4.7 Tosidet variansanalyse Figur 4.25 Profildiagrammer for personerne 1, 2, 3, 7, 9 og 10 i Eksempel 4.9.

4.119 Figur 4.26 Resultater for drenge og piger i kuglestød ved atletikstævnet for 1. års studerende i årene 1998, 1999 og 2000. Figur 4.27 Fraktildiagrammer for resultaterne for drenge og piger i kuglestød ved atletikstævnet for 1. års studerende i årene 1998, 1999 og 2000.

4.120 4.7 Tosidet variansanalyse Med udgangspunkt i dette skema tester vi hypotesen om varianshomogenitet H 01 : σ 2 11 = = σ23 2 i M 0 : X i jk N(µ i j,σi 2 j ),i = 1,2, j = 1,2,3,k = 1,...,9, ved hjælp af Bartlett testet. Da og finder vi C = 1.04861, 2lnQ(x) = 1.00214, Ba(x) = 0.95569 χ 2 (5). Idet n i 3 er den tilsvarende testsandsynlighed ε(x) = 1 F χ 2 (5)(0.95569) = 0.9661, det vil sige, at vi accepterer, at variansen kan antages at være ens for de seks observationsrækker af længden af kuglestød og dermed reduktion af M 0 til M 1 : X i jk N(µ i j,σ 2 ). Test i M 2 Teststørrelserne for testene i M 2 baserer sig på følgende opspaltning af den totale variation: SAK 04 = r s t i=1 j=1 k=1 r s t i=1 j=1 k=1 = (X i jk X ) 2 (X i jk X i X j + X ) 2 + st = SAK 02 + SAK R + SAK S. r i=1 ( X i X ) 2 + rt s j=1 ( X j X ) 2

Her er SAK R = st r i=1 ( X i X ) 2 et udtryk for variationen mellem rækkegennemsnittene - kort variationen mellem rækker - og SAK S = rt s j=1 ( X j X ) 2 er et udtryk for variationen mellem søjlegennemsnittene - variationen mellem søjler - mens SAK 02 = r s t i=1 j=1 k=1 (X i jk X i X j + X ) 2 4.121 betegnes som residualvariationen, idet størrelserne R i jk = X i jk X i X j + X som nævnt ovenfor betegnes som residualerne i M 2. Det kan vises, at i M 2 er SAK 02, SAK R og SAK S stokastisk uafhængige og som nævnt ovenfor er SAK 02 σ 2 χ 2 ( f 02 ), hvor f 02 = rst (r+ s 1). Test af H 0R i M 2 I M 2 svarer hypotesen H 0R om ingen rækkevirkning til reduktionen M 2 M 3. Idet SAK 3 = SAK 03 SAK 02 = SAK R sætter vi f R = f 3 = f 03 f 02 = s(rt 1) (rst (r+ s 1)) = r 1 og s 2 R = s 2 3 = SAK 3 f 3 = SAK R f R. I forhold til den generelle notation i Afsnit 4.5.4 erstatter vi altså indiceringen 3 med indiceringen R, idet denne forekommer mere naturlig i forbindelse med testet af hypotesen H 0R. Af resultaterne i Afsnit 4.5.4 fås, at vi som teststørrelse for H 0R i M 2 benytter F R (X) = s2 R s 2, (4.67) 02 som - ifølge formel (3.35) - er F-fordelt med (r 1, f 02 ) frihedsgrader, idet SAK R σ 2 χ 2 (r 1) under H 0R. Hvis F R (x) er den observerede værdi af F R (X) er store værdier af F R (x) kritiske, svarende til at variationen mellem rækker er for stor i forhold til residualvariationen i M 2. Testsandsynligheden for H 0R bliver derfor ε(x) = P(F R (X) > F R (x)) = 1 F F(r 1, f02 )(F R (x)),

4.122 4.7 Tosidet variansanalyse hvor F F(r 1, f02 ) er fordelingsfunktionen for F-fordelingen med (r 1, f 02 ) frihedsgrader og f 02 = rst (r+ s 1). Ved test på 5% niveau forkastes H 0R, hvis F R (x) > F 0.95 (r 1, f 02 ). Accept af H 0R medfører modelreduktionen M 2 M3. Test af H 0S i M 2 I M 2 svarer hypotesen H 0S om ingen søjlevirkning til reduktionen M 2 M 3 og hypotesen forkastes, hvis variationen SAK S = SAK 03 SAK 02 mellem søjlegennemsnittene er for stor i forhold til residualvariationen SAK 02. Lad s 2 S = SAK S s 1. Under hypotesen H 0S er SAK S σ 2 χ 2 (s 1) og som teststørrelse for H 0S benyttes F S (X) = s2 S s 2, (4.68) 02 som - ifølge formel (3.35) - er F-fordelt med (s 1, f 02 ) frihedsgrader. Hvis F S (x) er den observerede værdi af F S (X) er testsandsynligheden for H 0S - idet store værdier af F S (x) er kritiske - ε(x) = P(F S (X) > F S (x)) = 1 F F(s 1, f02 )(F S (x)), hvor F F(s 1, f02 ) er fordelingsfunktionen for F-fordelingen med (s 1, f 02 ) frihedsgrader og f 02 = rst (r+ s 1). Ved test på 5% niveau forkastes H 0S, hvis F S (x) > F 0.95 (s 1, f 02 ). Accept af H 0S medfører modelreduktionen M 2 M 3. Test i M 3 Test af H 0R i M 3 Idet M 3 er en model for r observationsrækker - rækkerne - med hver st observationer ved vi

4.123 fra Afsnit 4.5, at i M 3 testes hypotesen H 0R - svarende til modelreduktionen M 3 M 4 - ved at sammenligne variationen SAK R = st r i=1 ( X i X ) 2 = SAK 04 SAK 03 mellem rækker med variationen SAK 03 indenfor rækker. Der gælder SAK 03 σ 2 χ 2 ( f 03 ), hvor f 03 = r(st 1) og det kan vises, at SAK 03 = r s t i=1 j=1 k=1 Teststørrelsen for testet af H 0R i M 3 er (X i jk X i ) 2 = SAK 02 + SAK S. F R (X) = s2 R s 2 = SAK R/(r 1), (4.69) 03 SAK 03 / f 03 som er F-fordelt med (r 1, f 03 ) frihedsgrader. (Bemærk, at vi sætter en over F R for ikke at forveksle testet her med testet i (4.67).) Hvis F R (x) er den observerede værdi af F R (X), er testsandsynligheden for test af H 0R i M 3 ε(x) = P( F R (X) > F R (x)) = 1 F F(r 1, f03 )( F R (x)), idet store værdier er kritiske. Ved test på niveau 5% forkastes, hvis Accept af H 0R medfører reduktionen M 3 M 4. F R (x) > F 0.95 (r 1, f 03 ). Test i M 3 Test af H 0S i M 3 Idet M3 er en model for s observationsrækker - søjlerne - med hver rt observationer ved vi fra Afsnit 4.5, at i M3 testes hypotesen H 0S - svarende til modelreduktionen M3 M 4 - ved at sammenligne variationen SAK S = rt s j=1 ( X j X ) 2 = SAK 04 SAK 03 mellem søjler med variationen SAK03 indenfor søjler. Der gælder SAK 03 σ 2 χ 2 ( f03 ), hvor f 03 = s(rt 1) og det kan vises, at SAK 03 = r i=1 s j=1 t k=1 (X i jk X j ) 2 = SAK 02 + SAK R. (4.70)

4.124 4.7 Tosidet variansanalyse Teststørrelsen for testet af H 0S i M 3 er F S (X) = s2 S = SAK S/(s 1) s 2 03 SAK03 / f 03, (4.71) som er F-fordelt med (s 1, f 03 ) frihedsgrader. (Bemærk, at vi sætter en over F S for ikke at forveksle testet her med testet i (4.68).) Hvis F S (x) er den observerede værdi af F S (X), er testsandsynligheden for test af H 0S i M 3 ε(x) = P( F S (X) > F S (x)) = 1 F F(s 1, f 03 )( F S (x)), idet store værdier er kritiske. Ved test på niveau 5% forkastes, hvis Accept af H S medfører reduktionen M 3 M 4. F S (x) > F 0.95 (s 1, f 03 ). Variansanalysetabellen En oversigt over beregningerne i en tosidet variansanalyse resumeres bekvemt i en variansanlysetabel. For en tosidet variansanalyse med gentagelser ser en del af Excel s variansanlysetabel således ud: Variationskilde SAK f g s 2 F ε Rækker SAK R r 1 s 2 R (s 2 R /s2 01 ) (1 F F(r 1,rs(t 1))(s 2 R /s2 01 )) Søjler SAK S s 1 s 2 S (s 2 S /s2 01 ) (1 F F(s 1,rs(t 1))(s 2 S /s2 01 )) Interaktion SAK 2 (r 1)(s 1) s 2 2 s 2 2 /s2 01 1 F F((r 1)(s 1),rs(t 1)) (s 2 2 /s2 01 ) Indenfor SAK 01 rs(t 1) s 2 01 I alt SAK 04 rst 1 Excel benytter dog navnenesk,mk ogp-værdi for kolonnerne som her hedder SAK, s 2 og ε og navnenestikprøve ogkolonner for rækkerne som her hedder Rækker og Søjler. Bemærk, at der er sat parenteser om F- og ε-størrelserne i Rækker og Søjler. Det skyldes, at Excel tester hypoteserne H 0R og H 0S om henholdsvis ingen rækkevirkning og ingen søjlevirkning i modellen M 1. Dette ses af at tælleren og antal frihedsgrader for tælleren i alle F størrelserne er henholdsvis s 2 01 og f 01 = rs(t 1). Det er ikke den fremgangsmåde vi benytter. Vi tester først hypotesen H 02 om additivitet i M 1. Hvis vi forkaster kan vi ikke komme videre med analysen. Hvis vi accepterer H 02 er model M 1 reduceret til additivitetsmodellen M 2, som nu danner grundlag for den videre analyse. Rækkefølgen hvori hypoteserne H 0R og H 0S testes afhænger af den faglige problemstilling. Hvis vi først vælger af teste H 0R er F-teststørrelsen

4.125 s 2 R /s2 02, idet s2 02 er varians estimatet i M 2. Accepteres H 0R reduceres M 2 til M3 og i denne model kan hypotesen H 0S testes ved hjælp af F-teststørrelsen s 2 S /s 2 03, idet s 2 03 er varians estimatet i M 3. Hvis H 0R forkastes ved test i M 2 er modellen stadig M 2 og hypotesen H 0S kan testes ved hjælp af F-teststørrelsen s 2 S /s2 02. Fremgangsmåden er altså ikke den samme som den Excel lægger op til, men variansanalyseskemaet indeholder alle de relevante størrelser, idet SAK 02 = SAK 01 + SAK 2, f 02 = f 01 + f 2 = rst (r+ s 1), s 2 02 = SAK 02 f 02 SAK 03 = SAK 01 + SAK 2 + SAK S, f 03 = f 01 + f 2 + f S = r(st 1), s 2 03 = SAK 03 f 03 SAK03 = SAK 01 + SAK 2 + SAK R, f03 = f 01 + f 2 + f R = s(rt 1), s 2 03 = SAK 03. For en tosidet variansanalyse uden gentagelser ser en del af Excel s variansanalysetabel således ud: Variationskilde SAK f g s 2 F ε Rækker SAK R r 1 s 2 R s 2 R /s2 02 1 F F(r 1,(r 1)(s 1)) (s 2 R /s2 02 ) Søjler SAK S s 1 s 2 S s 2 S /s2 02 1 F F(s 1,(r 1)(s 1)) (s 2 S /s2 02 ) Interaktion SAK 02 (r 1)(s 1) s 2 02 I alt SAK 04 rs 1 Igen benyter Excel navnene SK, MK og P-værdi for kolonnerne som her hedder SAK, s 2 og ε. Desuden benyttes navnene Rækker, Kolonner og Fejl for rækkerne som her hedder Rækker, Søjler og Interaktion. Bemærk, at Excel angiver tester begge hypoteserne H 0R og H 0S i additivitetsmodellen M 2, hvilket vi ikke altid gør. Tabellen indeholder dog den relevante information også til vores fremgangsmåde idet SAK 03 = SAK 02 + SAK S, f 03 = f 02 + f S = r(s 1), s 2 03 = SAK 03 f 03 SAK03 = SAK 02 + SAK R, f03 = f 02 + f R = s(r 1), s 2 03 = SAK 03. f 03 f 03 Konfidensintervaller i M 2 Da modellerne M 1, M 3 og M 3 alle er modeller for flere observationsrækker kan konfidensintervallerne for parametrene i disse modeller findes ved hjælp af resultaterne i Afsnit 4.5. M 4 er modellen for én normalfordelt observationsrække med ukendt middelværdi og varians, så

4.126 4.7 Tosidet variansanalyse konfidensintervallerne i denne model fremgår af Afsnit 4.3. Vi indskrænker os derfor her til at diskutere konfidensintervaller i additivitetsmodellen M 2. Af formlerne (4.62) og (4.63) fås, at (1 α) konfidensintervallerne for middelværdien α i + β j i den (i, j) te celle er [ x i + x j x t 1 α/2 ( f 02 ) s 2 02 hvor f 02 = rst (r+ s 1), og for variansen σ 2 r+ s 1, x i + x j x +t rst 1 α/2 ( f 02 ) s 2 r+ s 1 02 ], (4.72) rst s 2 02 s 2 02 [ χ1 α/2 2 ( f, 02)/ f 02 χα/2 2 ( f ]. (4.73) 02)/ f 02 Størrelsen α g α h omtales kontrasten mellem den g te og den h te række. Tilsvarende er β l β m kontrasten mellem den l te og den m te søjle. I M 2 estimeres kontrasterne således: α g α h x g x h N(α g α h, 2 st σ 2 ) og β l β m x l x m N(β l β m, 2 rt σ 2 ), hvilket giver anledning til følgende (1 α) konfidensintervaller. For kontrasten α g α h [ x g x h t 1 α/2 ( f 02 ) s 2 2 02 st, x g x h +t 1 α/2 ( f 02 ) s 2 2 02 st ] (4.74) og for kontrasten β l β m [ x l x m t 1 α/2 ( f 02 ) Diskussion af de to test for H 0S s 2 02 2 rt, x l x m +t 1 α/2 ( f 02 ) s 2 02 2 ]. (4.75) rt Af det ovenstående ses, at hypotesen om ingen søjlevirkning H 0S kan testes i to forskellige modeller, nemlig M 2 og M3. Testene er forskellige og kan føre til forskellige resultater - som vist nedenfor - hvis der er en signifikant rækkevirkning. For nemheds skyld antager vi at t = 1, det vil sige at vi ingen gentagelser har. Af (4.68) og (4.71), ses at i additivitetsmodellen M 2 testes H 0S ved hjælp af F S (X) = s2 S s 2 F(s 1,(r 1)(s 1)) 02 og i M 3 ved hjælp af FS(X) = s2 S s 2 F(s 1,(r 1)s). 03

4.127 Formlerne (4.67) og (4.70) medfører, at F S (X) F S (X) = s 2 S s 2 02 s 2 S s 2 03 = s 1 s = s 2 03 s 2 = 02 1 (r 1)s SAK 03 1 (r 1)(s 1) SAK 02 SAK 02 + SAK R = s 1 SAK 02 s = s 1 (1+ 1 s s 1 F R(X)) = s 1 s + F R(X). s = s 1 SAK03 s SAK 02 (1+ SAK R SAK 02 ) Hypotesen H 0R om ingen rækkevirkning forkastes for store værdier af F R (X)(>> 1), og det ses at i så tilfælde er F S (X) F S (X) >> 1 eller F S (X) << F S (X). Af tabellerne over F-fordelingen ses, at fraktilerne for F(s 1, f) aftager når f vokser. I praksis kan vi derfor komme ud for følgende situation F S (x) < F 0.95 (s 1,(r 1)s) < F 0.95 (s 1,(r 1)(s 1)) < F S (x), det vil sige, at testes hypotesen om ingen søjlevirkning H 0S i M 2 forkaster vi idet F S (x) > F 0.95 (s 1,(r 1)(s 1)), mens hypotesen accepteres i M3 idet F S (x) < F 0.95 (s 1,(r 1)s). Forklaringen er, at hypotesen ikke skal testes i M3, da reduktionen M 2 M3 - svarende til hypotesen om ingen rækkevirkning - forkastes, fordi F R (x) er stor. Med andre ord kan hypotesen om ingen søjlevirkning ukorrekt blive accepteret, hvis en signifikant rækkevirkning negliceres. Eksempel 4.9 (Fortsat) Udskriften fra Excel s dialogboks Anava: To-faktor uden gentagelse ser for disse data

4.128 4.7 Tosidet variansanalyse således 45 "#$%&#! '()*+ ud: $,- 6 6 6 6./((/-0(1) 6 2*31*(0 6 6 6 6 6 6 6 6 6 892*31*)1:(0;1+ 7 6 6 6 6 6 6 $< => &<? @ABC3D1?;31) 45 E 6 6 6 6 6 6 6 45 45 45 45 6 6 6 6 6 6 6 6 6 6 6 7 6 6 6 6 6 6 F 7 6 6 6 6 6 6 Den øverste tabel indeholder informationer om tretten observationsrækker (seks svarende til rækkerne og syv svarende til søjlerne). For hver observationsrække angives antallet af observationer, summen af observationerne samt empirisk middelværdi og varians. at Under overskriften ANAVA ses variansanalysetabellen. Det fremgår af rækken Fejl fremgår, I rækkenkolonner ses, at samt at SAK 02 =0.153290476, f 02 =30 og s 2 02 =0.005109683. SAK S =0.975595238, f S =6 og s 2 S =0.162599206 og at den tilsvarende testsandsynlighed er F S (x) = s2 S s 2 = 31.82178249 02 ε(x) = 1 F F(6,30) (F S (x)) =1.01925 10 11 og endvidere er angiver 95% fraktilen F 0.95 (6,30) =2.420520673. Vi forkaster derfor hypotesen H 0S om ingen søjlevirkning, hvilket her betyder at der er forskel på den målte mængde af calcium på de syv forskellige tidspunkter.

4.129 På tilsvarende måde ses i rækkenrækker, at SAK R =0.15432619, f R =5 og s 2 R =0.030865238 samt og F R (x) = s2 R s 2 = 6.040539281 02 ε(x) = 1 F F(5,30) (F R (x)) =0.000556493. Hypotesen H 0R om ingen rækkevirkning forkastes altså også. Det vil sige, at der er forskel på mængden af calcium hos de seks personer. Figur 4.28 Fraktildiagrammer for residualerne i M 2 i Eksempel 4.9. Figur 4.28 viser fraktildiagrammet for residualerne i M 2 og figuren giver ikke anledning til at betvivle normalfordelingsantagelsen i modellen. Ved hjælp af udskriften fra Excel på side 4.128 og formel (4.73) finder vi følgende 95% konfidensinterval for variansen σ 2 : [ 0.00511 1.5660, 0.00511 0.5597 ] = [0.00326,0.00913] Konfidensintervallet for middelværdien α i + β j i den (i, j) te celle er givet i formel (4.72). For, for eksempel, at beregne intervallet for person nr. 10 (i = 6) på den 12 te dag (j = 7) finder vi

4.130 4.7 Tosidet variansanalyse først ved hjælp af tabellenresume på side 4.128, at α 6 + β 7 x 6 + x 7 x = 17.03 7 + 14.26 6 100.97 42 = 2.4055, idet summen af de 42 observationer er 100.97. Da t 0.975 (30) = 2.042, bliver 95% konfidensintervallet for α 6 + β 7 [2.4055 2.042 0.00511 12 42,2.4055+2.042 0.00511 12 42 ] = [2.327,2.484]. Ved hjælp af (4.74) findes 95% konfidensintervallet for kontrasten α 5 α 6 (for person nr. 9 og person nr. 10), idet til [0.0100 2.042 α 5 α 6 x 5 x 6 = 17.10 7 0.00511 27,0.0100+2.042 17.03 7 = 0.0100, 0.00511 2 7 ] = [ 0.068,0.088]. Der er altså ikke forskel på indholdet af calcium i blodprøverne for disse to personer. 95% konfidensintervallet for kontrasten β 2 β 7 (for dag 0 og dag 12) bliver ved hjælp af formel (4.75), idet [0.3900 2.042 β 2 β 7 x 2 x 7 = 16.60 14.26 = 0.3900, 6 6 0.00511 26,0.3900+2.042 0.00511 2 6 ] = [0.306,0.474]. Vi ser, at 0 ikke tilhører 95% konfidensintervallet for β 2 β 7. Ved et t-test på 5% niveau forkaster vi altså hypotesen β 2 β 7 = 0, eller β 2 = β 7. Der er altså signifikant forskel på indeholdet af calcium i blodprøverne fra dag 0, lige efter løbet, og indholdet af calcuim i blodprøverne på dag 12 efter løbet. Fysiologerne mener, at denne forskel skyldes væsketabet under løbet.

4.131 Eksempel! 4.10 (Fortsat) Udskriften fra Excel s dialogboks Anava: To-faktor med gentagelser bliver i dette eksempel /.! #, '()*+) - - - - - - - -!. 01+)( 2345 - - - - 6/789:8;:<=>?:@AB /.! - - - #.MN - CD EF - - - GD H IJKL9A: - H?9:; O - - - - -!. "#$% - - - & - /.! #, - - - - - - - - #,!. - - - - - - & &. & - - - - - - - - I tabellen RESUME er angivet antal observationer, sum af observationer samt empirisk middelværdi og varians for observationsrækkerne bestående af henholdsvis observationer indenfor de enkelte celler, observationer indenfor de enkelte rækker og observationer indenfor de enkelte søjler. Variansanalysetabellen findes under overskriftenanava. I rækkenindenfor ses at SAK 01 =88.64471111, f 01 =48 og s 2 01 =1.846764815, hvilket også fremgår at beregningsskemaet side 4.117. RækkenInteraktion indeholder størrelserne SAK 2 =1.360103704, f 2 =2 og s 2 2 =0.680051852 samt F-teststørrelsen for hypotesen om additivitet H 02 : µ i j = α i + β j F(x) = s2 2 s 2 = 0.368239554 01

4.132 4.7 Tosidet variansanalyse og den tilsvarende testsandsynlighed ε(x) = 1 F F(2,48) (F(x)) =0.69388911. Det vil sige, at hypotensen H 02 om additivitet accepteres. Modellen M 1 reduceres derfor til I M 2 er varians estimatet M 2 : X i jk N(α i + β j,σ 2 ). s 2 02 = SAK 02 = 90.00481481 = 1.80009630, f 02 50 idet og SAK 02 = SAK 01 + SAK 2 =88.64471111+1.360103704 = 90.00481481 f 02 = f 01 + f 2 =48+2 = 50. Da der ikke er nogen særlig grund til at der er forskel på resultaterne de forskellige år (søjler), tester vi først hypotesen om ingen søjlevirkning H 0S. I linjenkolonner ses, at SAK S =3.063837037, f S =2 og s 2 S =1.531918519. Af (4.68) ses, at F-teststørrelsen for H 0S er F S (x) = s2 S s 2 = 1.531918519 = 0.85102032 F(2,50). 02 1.80009630 Da ε(x) = 1 F F(2,50) (F S (x)) = 0.4331 (eller blot F S (x) < F 0.95 (2,50) = 3.18) accepteres H 0S, det vil sige der er ikke forskel på resultaterne i de tre år. Modellen M 2 reduceres til M 3 : X i jk N(α i,σ 2 ). Da og SAK 03 = SAK 02 + SAK S = 90.00481481+3.063837037 = 93.06865185 f 03 = f 02 + f S = 50+2 = 52, bliver estimatet for variansen i M 3 s 2 03 = SAK 03 f 03 = 1.78978177.

4.133 Vi tester til sidst hypotesen H 0R om ingen rækkevirkning - her ingen forskel på længden af drengenes og pigernes kuglestød - i M 3. I linjenstikprøve ses, at SAK R =62.06022407, f R =1, s 2 R =62.06022407, så F-teststørrelsen for test af H 0R i M 3 i formel (4.69) bliver Da F R (x) = s2 R s 2 = 62.06022407 = 34.67587047 F(1,52). 03 1.78978177 ε(x) = 1 F F(1,52) ( F R (x)) = 0.000000289 (eller blot F R (x) > F 0.95 (1,50) = 4.03 (da F 0.95 (1,52) ikke findes i Statistical Tables)) forkastes H 0R. Der er altså forskel på længden af drengenes og pigernes kuglestød. Slutmodellen for disse data er dermed M 3 : X i jk N(α i,σ 2 ), i = 1,2, j = 1,2,3,k = 1,...,9, det vil sige to normalfordelte observationsrækker hver med 27 observationer. Af tabellen RESUME ses, at og af det ovenstående fås α 1 x 1 =10.86 N(α 1, σ 2 27 ), α 2 x 2 =8.72 N(α 2, σ 2 27 ), σ 2 s 2 03 = 1.7898 σ 2 χ 2 (52)/52. Relation til andre modeller Antag, at s = 2 og t = 1, det vil sige at vi betragter en tosidet variansanalyse uden gentagelser og med kun to søjler. Det kan da vises, at F-testet i (4.68) for hypotesen H 0S om ingen søjlevirkning er ækvivalent med det parrede t-test i Afsnit 4.4.4, idet F S (x) = (t(d)) 2. På grund af formel (3.36) er de to testsandsynligheder ε(x) = 1 F F(1,r 1) (F S (x))

4.134 4.7 Tosidet variansanalyse og ε(d) = 2(1 P(t(r 1) t(d) )) identiske. Eksempel 4.11 Hvis vi betragter data for samtlige 11 personer før løbet (dag -1) og efter løbet (dag 0) i tabellen side 4.111 bliver teststørrelsen for hypotesen H 0S om ingen søjlevirkning i additivitetsmodellen M 2 F S (x) = 180.2597 F(1,10) mens teststørrelsen for det parrede t-test er t(d) = 13.4261. I begge tilfælde er testsandsynligheden 1.01 10 7, hvilket betyder, at vi har konstateret en signifikant forskel på indholdet af calcium i deltagernes blodprøver før og efter løbet. Af tallene ses, at indholdet er størst efter løbet, hvilket - som nævnt ovenfor - ifølge fysiologerne skyldes væsketab under løbet.

4.135 Anneks til Afsnit 4.7 Beregninger i Excel Excel har to dialogbokse der udfører beregninger i en tosidet variansanalyse, nemlig Anava: To-faktor uden gentagelse Anava: To-faktor med gentagelse Vi viser her hvorledes beregningerne udføres. Udskrifterene fra de to dialogbokse er kommenteret i teksten ovenfor. Eksempel 4.9 (Fortsat) Antag, at indholdet af cellerne A1:H9 i regnearket er: Ruten Funktioner Dataanalyse Anava:To-faktor uden gentagelse giver en dialogboks, hvor cellerne B4:H9 angives i Inputområde. Bemærk, at kun celler, der indeholder tal, angives. Et klik påok bevirker en udskrift på et nyt regneark. Udskriften er her vist på side 4.128.

4.136 Beregninger i Excel Eksempel 4.10 (Fortsat) Antag, at indholdet af cellerne A1:D21 i regnearket er: Ruten Funktioner Dataanalyse Anava:To-faktor med gentagelse giver en dialogboks, hvor cellernea3:d21 angives iinputområde. Bemærk, at ikke kun celler, der indeholder tal, angives. Cellerne, der indeholder navne på rækker og søjler, angives også. Desuden angives i Rækker pr. stikprøve tallet 9. Et klik på OK bevirker en udskrift på et nyt regneark. Udskriften er her vist på side 4.131. (Linjerne i regnearket er strengt taget ikke nødvendige men er medtaget for overskuelighedens skyld.)

4.137 Hovedpunkter til Afsnit 4.7 Her resumeres hovedpunkterne vedrørende tosidet variansanalyse. Data er organiseret i et tosidet skema med r rækker og s søjler. I den (i, j) celle er der t observationer. Den k-te observation i den (i, j) celle x i jk antages at være et udfald af en stokastisk variabel X i jk, i = 1,...,r, j = 1,...,s og k = 1,...,t. Idet X-erne antages at være uafhængige betragtes følgende modeller: ր M 0 : X i jk N(µ i j,σ 2 i j ), M 1 : X i jk N(µ i j,σ 2 ), M 3 : X i jk N(α i,σ 2 ) M 2 : X i jk N(α i + β j,σ 2 ) M 4 : X i jk N(µ,σ 2 ) ց M 3 : X i jk N(β j,σ 2 ) Her er M 0 modellen for rs observationsrækker hver med sin middelværdi og sin varians. Modellerne M 1, M 3 og M3 er alle eksempler på modellen med flere observationsrækker hver med sin middelværdi men med fælles varians, omtalt i Afsnit 4.5. I M 1 er der rs observationsrækker (cellerne) hver med t observationer, i M 3 er der r observationsrækker (rækkerne) hver med st observationer og i M3 er der s observationsrækker (søjlerne) hver med rt observationer. M 4 er modellen for én observationsrække med n = rst observationer med ukendt middelværdi og varians, omtalt i Afsnit 4.3. Estimation, herunder konfidensintervaller, i disse modeller er kendt fra Afsnit 4.3 og Afsnit 4.5 og resumeres derfor ikke her. De centrale hypoteser er hypotesen om ingen rækkevirkning ց ր og hypotesen om ingen søjlevirkning H 0R : α 1 = = α r H 0S : β 1 = = β s H 0R kan testes i M 2 og i M 3. Testene i de to modeller er forskellige og accept af hypotesen medfører henholdsvis modelreduktionen M 2 M3 og M 3 M 4. Tilsvarende kan H 0S kan testes i M 2 og i M3 og igen er testene, svarende til henholdsvis reduktionen M 2 M 3 og M3 M 4, forskellige.

4.138 Hovedpunkter til Afsnit 4.7 Modelkontrol Hvis antallet af observationer t i hver celle er tilpas stort kan M 0 kontrolleres ved hjælp af rs fraktilsammenligninger. Hvis t 3 kan hypotesen om varianshomogenitet, svarende til reduktionen M 0 M 1, vurderes ved hjælp af et Bartlett test, omtalt i Afsnit 4.5. Hvis vi har gentagelser, t 2, kan hypotesen om additivitet H 02 : µ i j = α i + β j testet ved hjælp af teststørrelsen hvor og s 2 2 = SAK 2 f 2 = F(x) = s2 2 s 2 F( f 2, f 01 ), 01 t r i=1 s 2 01 = SAK 01 f 01 = s ( x i j x i x j + x ) 2 j=1, (r 1)(s 1) r i=1 s j=1 t k=1 (x i jk x i j ) 2 rs(t 1) Store værdier af F(x) er kritiske og testsandsynligheden for H 02 er ε(x) = 1 F F( f2, f 01 )(F(x)), hvor F F( f2, f 01 ) er fordelingsfunktionen for F-fordelingen med ( f 2, f 01 ) frihedsgrader. Ved test på 5% niveau forkastes H 02, hvis F(x) > F 0.95 ( f 2, f 01 ). Testet beregnes ved hjælp af Excel s dialogboksanava: To-faktor med gentagelse. Modellen M 2 kan endvidere kontrolles ved hjælp af profildiagrammer, omtalt på side 4.117. Hvis vi ikke har gentagelser, t = 1, er profildiagrammer den eneste måde at vurdere rimeligheden af M 2 på.. Estimation i M 2 Vi har følgende estimater for EX i jk = α i + β j og variansen σ 2 i M 2 : α i + β j x i + x j x N(α i + β j, r+ s 1 σ 2 ), rst s 2 02 = 1 f 02 SAK 02 = 1 f 02 r i=1 s j=1 t k=1 (x i jk x i x j + x ) 2 σ 2 χ 2 ( f 02 )/ f 02. hvor f 02 = rst (r+ s 1). Endvidere estimeres kontrasterne således: α g α h x g x h N(α g α h, 2 st σ 2 ),

4.139 β l β m x l x m N(β l β m, 2 rt σ 2 ). Konfidensintervaller i M 2 Med f 02 = rst (r+ s 1) har vi følgende (1 α) konfidensintervaller: middelværdien α i + β j i den (i, j) te celle: [ x i + x j x t 1 α/2 ( f 02 ) s 2 r+ s 1 02, x i + x j x +t rst 1 α/2 ( f 02 ) variansen σ 2 : kontrasten α g α h : kontrasten β l β m [ x g x h t 1 α/2 ( f 02 ) [ x l x m t 1 α/2 ( f 02 ) s 2 02 s 2 02 [ χ1 α/2 2 ( f, 02)/ f 02 χα/2 2 ( f ] 02)/ f 02 s 2 02 s 2 02 2 st, x g x h +t 1 α/2 ( f 02 ) 2 rt, x l x m +t 1 α/2 ( f 02 ) s 2 02 s 2 02 s 2 02 2 st ] 2 rt ]. r+ s 1 ] rst Test i M 2 Test af H 0R i M 2 Teststørrelse: hvor og s 2 02 = SAK 02 f 02 = F R (x) = s2 R s 2 F( f R, f 02 ), 02 s 2 R = SAK R f R = r i=1 s j=1 st t k=1 r i=1 ( x i x ) 2 r 1 (x i jk x i x j + x ) 2 rst (r+ s 1) SAK R og SAK 02 fremgår af udskriften fra Excel, idet dog SAK 02 beregnes som SAK 02 = SAK 01 + SAK 2 hvis t 2. Testsandsynlighed for H 0R : ε(x) = 1 F F(r 1, f02 )(F R (x)), hvor F F(r 1, f02 ) er fordelingsfunktionen for F-fordelingen med (r 1, f 02 ) frihedsgrader..

4.140 Hovedpunkter til Afsnit 4.7 Ved test på 5% niveau forkastes H 0R, hvis F R (x) > F 0.95 (r 1, f 02 ). Accept af H 0R medfører modelreduktionen M 2 M3. Test af H 0S i M 2 Teststørrelse hvor og s 2 02 = SAK 02 f 02 = F S (x) = s2 S s 2 F( f S, f 02 ), 02 s s 2 S = SAK rt ( x j x ) 2 S j=1 = f S s 1 r i=1 s j=1 t k=1 (x i jk x i x j + x ) 2 rst (r+ s 1) SAK S og SAK 02 fremgår af udskriften fra Excel, idet dog SAK 02 beregnes som SAK 02 = SAK 01 + SAK 2 hvis t 2. Testsandsynligheden for H 0S ε(x) = 1 F F(s 1, f02 )(F S (x)), hvor F F(s 1, f02 ) er fordelingsfunktionen for F-fordelingen med (s 1, f 02 ) frihedsgrader. Ved test på 5% niveau forkastes H 0S, hvis F S (x) > F 0.95 (s 1, f 02 ). Accept af H 0S medfører modelreduktionen M 2 M 3.. Test i M 3 Test af H 0R i M 3 Teststørrelse hvor F R (x) = s2 R s 2 F( f R, f 03 ), 03 s 2 R = SAK R f R = st r i=1 ( x i x ) 2 r 1

4.141 og s 2 03 = SAK 03 f 03 = r i=1 s j=1 t k=1 (x i jk x i ) 2 r(st 1) SAK R fremgår af udskriften fra Excel, mens SAK 03 beregnes som SAK 03 = SAK 02 + SAK S. Testsandsynlighed: ε(x) = 1 F F(r 1, f03 )( F R (x)), Ved test på niveau 5% forkastes, hvis F R (x) > F 0.95 (r 1, f 03 ). Accept af H 0R medfører modelreduktionen M 3 M 4. Test i M 3 Test af H 0S i M 3 Teststørrelse hvor og F S (x) = s2 S s 2 F( f S, f03 ), 03 s s 2 S = SAK rt ( x j x ) 2 S j=1 = f S s 1 s 2 03 = SAK 03 f03 = r i=1 s j=1 t k=1 (x i jk x j ) 2 s(rt 1) SAK S fremgår af udskriften fra Excel, mens SAK03 beregnes som SAK 03 = SAK 02 + SAK R. Testsandsynlighed: ε(x) = 1 F F(s 1, f 03 )( F S (x)), Ved test på niveau 5% forkastes, hvis F S (x) > F 0.95 (s 1, f03 ). Accept af H 0S medfører modelreduktionen M 3 M 4.

4.142 Opgaver Opgaver til Kapitel 4 Opgave 4.1 Betragt igen tallene i Opgave 3.2. a) Gør rede for at data kan betragtes som en normalfordelt observationsrække. b) Angiv estimaterne for middelværdi og varians og angiv estimaternes fordeling (n = 17, S = 53.31, SK = 168.9499). c) Beregn 95% konfidensintervallet for middelværdien, variansen og spredningen. Opgave 4.2 Betragt konditallene i Opgave 1.3. Observationen med værdien 174.4 er oplagt urimelig og skyldes måske en skrivefejl. Her erstatter vi den med en observation med værdien 74.4. (Efter denne korrektion er n = 24, S = 1743.2 og SK = 126784.64.) a) Gør rede for, at konditallene kan antages at være normalfordelte. Antag først, at variansen σ 2 er kendt og lig med 5, det vil sige σ0 2 = 5. b) Test hypotesen om middelværdien µ kan antages at være 71.5, det vil sige hypotesen H 0 : µ = 71.5. c) Angiv 95% konfidensintervallet for middelværdien µ. Antag nu, at både middelværdien µ og variansen σ 2 er ukendte. d) Test hypotesen H 0µ : µ = 71.5. e) Angiv 95% konfidensintervallet for middelværdien µ. f) Test hypotesen H 0σ 2 : σ 2 = 5. h) Angiv 95% konfidensintervallet for variansen σ 2 og spredningen σ. Opgave 4.3 Betragt konditallene i Opgave 1.4. a) Gør rede for, at konditallene kan antages at være normalfordelte. b) Angiv 95% konfidensintervallet for middelværdien, variansen og spredningen (n = 17, S = 1177.1, SK = 82034.59).

4.143 Opgave 4.4 Betragt vægtene i Opgave 1.5. a) Gør rede for, at vægtene kan antages at være normalfordelte. b) Angiv 95% konfidensintervallet for middelværdien, variansen og spredningen (n = 30, S = 2275.36, SK = 173966.4244). Opgave 4.5 Betragt højdefordelingen for pigerne i Opgave 1.10. a) Gør rede for, at højderne for pigerne i 1983 og højden for pigerne i 1985 kan antages at være normalfordelte. (Lav fraktildiagrammerne for de to år i samme figur.) b) Angiv for hvert af de to år 95% konfidensintervallet for middelværdien, variansen og spredningen. (Benyt de beregnede størrelser for højderne i tabellen nedenfor) år n S SK 1983 723 122820.0 20892850.00 1985 413 70315.0 11986925.00 Opgave 4.6 I afsnittet her har vi i forbindelse med t-testet for hypotesen H 0µ : µ = µ 0 betragtet et dobbeltsidet test, det vil sige beregnet testsandsynligheden for t-testet som ε(x) = P(t(n 1) t(x) ), hvor t(x) = x µ 0 s 2 /n. Hvis man af en faglig grund kun er interesseret i at afsløre afvigelser fra H 0µ i én bestemt retning for eksempel µ > µ 0 betragtes ofte et ensidet test for hypotesen, det vil sige, at testsandsynligheden beregnes som ε(x) = P(t(n 1) t(x)). Det kunne for eksempel være tilfældet i følgende situation: Som bekendt er promillegrænsen for spirituskørsel 0.5 promille. Antag, at der foretages fire uafhængige målinger er promillen, nemlig 0.58, 0.57, 0.57 og 0.49, som antages at være normalfordelte. Test hypotesen H 0µ : µ = 0.5 ved såvel et ensidet som et dobbeltsidet test (n = 4, S = 2.21, SK = 1.2263) og diskuter resultaterne.

4.144 Opgaver Opgave 4.7 Betragt de fire vægtfordelinger i Opgave 1.9. De følgende summer og kvadratsummer er beregnet ved hjælp af intervalmidtpunkterne: vægt n S SK drenge 1983 555 36642.5 2459031.25 piger 1983 723 40612.5 2324131.25 drenge 1985 327 21655.0 1457937.50 piger 1985 413 23622.5 1376231.25 Fraktildiagrammer alslører, at det kan antages, at de fire observationsrækker er normalfordelte. (Det er ikke nødvendigt at foretage denne kontrol.) Vi betragter først drengene. a) Vis, at det antages, variansen på vægtmålingerne er densamme i 1983 og 1985. b) Vis, at det kan antages, at middelværdien er den samme for de to vægtfordelinger og angiv et 95% konfidensinterval for forskellen i middelværdien for fordelingen i 1983 og fordelingen i 1985. Nu til pigerne. c) Vis, at det antages, variansen på vægtmålingerne er densamme i 1983 og 1985. d) Vis at det ikke kan antages, at middelværdien er den samme for de to vægtfordelinger og angiv et 95% konfidensinterval for forskellen i middelværdien for fordelingen i 1983 og fordelingen i 1985. Opgave 4.8 Betragt de fire højdefordelinger i Opgave 1.10. De følgende summer og kvadratsummer er beregnet ved hjælp af intervalmidtpunkterne: højde n S SK drenge 83 555 99382.5 17826131.25 piger 83 723 121002.5 20279481.25 drenge 85 327 58725.0 10566337.50 piger 85 413 69277.5 11636468.75 Fraktildiagrammer alslører, at det kan antages, at de fire observationsrækker er normalfordelte. (Det er ikke nødvendigt at foretage denne kontrol.) a) Vis, for såvel drenge som piger, at de to observationsrækker for årene 1983 og 1985 kan beskrives ved hjælp af én fordeling.

4.145 Slå nu de to observationsrækker for drengene sammen til én observationsrække og tilsvarende for pigerne. b) Vis, at det ikke kan antages at observationsrækken for drengene har samme varians som observationsrækken for pigerne. c) Beregn et 95% konfidensområde for forskellen mellem middelværdien af højden for drengene og middelværdien af højden for pigerne og påvis ved hjælp af dette den ikke overraskende kendsgerning, at drengene er signifikant højere end pigerne. Opgave 4.9 Betragt tallene i Opgave 1.14. Er der signifikant forskel på glycogen indholdet i benmusklerne før og efter træningsperioden på 3 uger? Opgave 4.10 Betragt tallene i Eksempel 1.5. Er der signifikant forskel på indholdet af glycogen i venstre og højre ben? Opgave 4.11 Et helsecenter tilbyder et fitness program og lover et gennemsnitligt vægttab på 6.5 kg de første 30 dage. For at undersøge om centret lever op til dette løfte, blev programmet afprøvet på 12 personer. Resultatet ses i Tabel 4.4. person før efter differens i f i e i d i = f i e i 1 73.1 70.9 2.2 2 69.5 65.9 3.6 3 60.0 56.2 3.8 4 55.2 50.8 4.4 5 62.2 57.3 4.9 6 68.5 62.6 5.9 7 71.0 64.1 6.9 8 76.2 68.7 7.5 9 62.8 55.3 7.5 10 64.3 56.6 7.7 11 83.3 74.4 8.9 12 66.0 56.3 9.7 Tabel 4.4 Vægten (i kg) før og efter hos 12 personer, der deltog i et fitness program. Desuden er differensen mellem vægtene angivet.

4.146 Opgaver a) Undersøg, om vægttabet er normalfordelt. b) Undersøg, om middelværdien af vægttabet er 6.5 kg. c) Angiv estimat og 95%-konfidensinterval for middelværdien og variansen af vægttabet. Standardberegninger for vægttabene. Antal S SK 12 73.0 503.12 Opgave 4.12 Ved atletikstævnerne for de 1. årsstuderende ved Institut for Idræt, Københavns Universitet, blev resultaterne i pigernes kuglestød i årene 1998-2000: Beregnede størrelser år n S SK 1998 15 127.56 1103.6480 1999 11 96.70 864.5862 2000 9 81.93 758.0283 a) Vis, at det kan antages, at de tre observationsrækker for pigerne har samme varians. b) Undersøg, om det kan antages, at de tre observationsrækker for pigerne har samme middelværdi.

Resultaterne for drengene blev: 4.147 Beregnede størrelser år n S SK 1998 14 143.78 1510.9406 1999 14 155.19 1739.7157 2000 10 108.50 1192.0100 c) Vis, at det kan antages, at de tre observationsrækker for drengene har samme varians. d) Undersøg, om det kan antages, at de tre observationsrækker for drengene har samme middelværdi. Opgave 4.13 Ved atletikstævnerne for de 1. årsstuderende ved Institut for Idræt, Københavns Universitet, blev resultaterne i pigernes $%$! $%!!!" 100 m løb $%'$ &%$$!!! # i årene $%! &%" 1998-2000: $%' $%'" &%( &%&( $%( &%)( $%!( $%!) $%!" $%)# $%'( (%! $%) &% $%# $%!) &%&) $%& $%! &%! &%

4.148 Opgaver Beregnede størrelser år n S SK 1998 11 163.82 2441.8978 1999 8 120.44 1814.1520 2000 8 117.80 1737.0800 a) Vis, at det kan antages, at de tre observationsrækker for pigerne har samme varians. blev: b) Undersøg, om det kan antages, at de tre observationsrækker for pigerne har samme middelværdi. Resultaterne for drengene Beregnede størrelser år n S SK 1998 19 237.94 2981.5790 1999 15 184.81 2283.2303 2000 9 107.60 1288.4000 c) Vis, at det ikke kan antages, at de tre observationsrækker for drengene har samme varians og overvej, hvorfor dette er tilfældet.

4.149 Opgave 4.14 (Andersen 1998) Tallene i tabellen nedenfor viser verdensrekorderne på en engelsk mile fra 1911 til 1993. Materialet stammer oprindeligt fra 1975, så frem til 1993 er blot den sidste rekord medtaget. Tiderne er rekordtiderne i sekunder fratrukket 180 sekunder. Ved angivelsen er året er der fratrukket 1900. år rekord år rekord 11 75.4 54 59.4 13 74.6 54 58.0 15 72.6 57 57.2 23 70.4 58 54.5 31 69.2 62 54.4 33 67.6 64 54.1 34 66.8 65 53.6 37 66.4 66 51.3 42 66.2 67 51.1 42 64.6 75 51.0 43 62.6 75 49.4 44 61.6 93 43.5 45 61.4 a) Gør rede for at data kan beskrives ved en lineær regression rekord som afhængig variabel og år som uafhængig variabel b) Beregn estimater for parametrene i regressionmodellen, idet følgende beregnede størrelser kan benyttes x(rekord) t(år) n 25 S 1516.9 1203 SK 93815.81 68311 SP 68735.4 c) Angiv 95% konfidensinterval for parametrene i regressionsmodellen. Data til Opgave 4.15 og Opgave 4.16 nedenfor stammer fra samme undersøgelse, hvis formål og resultater var: Efter fødslen falder hæmoglobinindholdet i blodet hos for tidligt fødte børn ofte voldsomt. Tidligere fik disse børn derfor blodtransfusioner. For at undersøge om indsprøjtning af erythro-

4.150 Opgaver poietin (det fra professionel cykelsport kendte dopingmiddel epo ) kunne erstatte blodtransfusioner, udførtes to forsø g, hvor for tidligt fødte børn blev behandlet med erythropoietin. I det første deltog 29 børn, hvoraf 14 (gruppe 3) fik en erythropoietin-dosis på 100 U pr. kg legemsvægt (her er U en enhed for det anvendte præparat), mens de resterende 15 var en kontrolgruppe (gruppe 0), der ikke fik nogen behandling. I det andet deltog 31 børn, hvoraf 16 (gruppe 2) fik en erythropoietin-dosis på 100 U pr. kg legemsvægt og 15 (gruppe 1) fik en erythropoietin-dosis på 50 U pr. kg legemsvægt. Børnenes hæmoglobinprocent blev blandt andet må lt 3 og 6 uger efter fødslen. Tabel 4.5 viser æ ndringen i hæmoglobinprocenten fra uge 3 til uge 6 for de fire grupper. Epo-gruppe Ændring i hæ moglobinprocent n 0 (0 U/kg) -4.0-5.8-0.5 1.0-1.4-3.3 0.2-3.6 15-2.8-0.4-0.7-3.9-3.2-2.7-1.6 1 (50 U/kg) -1.9-1.9-1.0-0.7 2.0 2.2-2.6-3.1 15-2.5-1.9 3.0-2.2-2.5 0.4-4.3 2 (100 U/kg) -0.4-1.8-2.6 0.1-1.3 0.0-1.4-3.5 16-1.1 2.7-1.1-0.9 0.0 0.0 0.8-0.5 3 (100 U/kg) -0.3-1.0 0.3 0.0 0.4 1.3-1.8-0.6 14-1.5-3.0-1.1 0.5 0.8-0.9 Tabel 4.5 Ændring i hæmoglobinprocenten fra uge 3 til uge 6 for 60 præmature børn. I det følgende antages, at ændringen i hæmoglobinprocenten i hver af de 4 grupper er en normalfordelt observationsrække. Opgave 4.15 I denne opgave betragter vi kun grupperne 2 og 3, der begge har få et en epo-dosis på 100 U/kg. a) Vis, at det kan antages, at variansen på ændringen i hæmoglobinprocenten er den samme i de to grupper. b) Vis, at det kan antages, at gruppe 2 og 3 har samme ændring i hæmoglobinprocent. c) Estimer den fælles middelværdi og den fælles varians for ændringen i hæmoglobinprocent i gruppe 2 og 3.

4.151 Ved besvarelsen kan følgende beregnede størrelser benyttes: n S SK gruppe 2 16 11.0 37.48 gruppe 3 14 6.9 20.79 Σ 30 17.9 58.27 Opgave 4.16 Opgave 4.15 viste, at grupperne 2 og 3 kunne slås sammen til en gruppe. I denne opgave betragter vi derfor 3 observationsrækker svarende til forskellige værdier af epo-dosen: 0 (gruppe 0), 50 (gruppe 1) og 100 (gruppe 2 og 3). For disse data ser beregningsskemaet side 4.33 således ud Beregningsskema: i ni Si SKi Si2/ni SAKi fi Var Mean 0 15-32.7000 120.5300 71.2860 49.2440 14 3.517428571-2.1800 50 15-17.0000 82.5200 19.2667 63.2533 14 4.518095238-1.1333 100 30-17.9000 58.2700 10.6803 47.5897 29 1.641022988-0.5967 -------------------------------------------------------===================== 60-67.6000 261.3200 101.2330 160.0870 57 2.8085438596 a) Gør rede for, at det kan antages, at de 3 observationsrækker svarende til de tre værdier af epo-dosen har samme varians. Figur 4.29 viser ændringen i hæmoglobinprocenten (dif) tegnet op mod epo-dosen (dosis). b) Kommenter Figur 4.29 med henblik på en lineær regressionsmodel med ændringen i hæmoglobinprocenten som responsvariabel og epo-dosen som forklarende variabel. c) Estimer parametrene i regressionsmodellen. Ved beregningerne kan følgende størrelser benyttes ændring i hæmoglobinprocent epo-dosis n 60 S 67.60 3750 SK 261.32 337500 SP 2640.00 d) Vis, at det kan antages, at middelværdien af ændringen i hæmoglobinprocent afhænger lineært af epo-dosis.

4.152 Opgaver Figur 4.29 Ændringen i hæmoglobinprocenten tegnet op mod epo-dosen. e) Vis, at materialet giver grundlag for at antage, at epo-behandling har en virkning på hæmoglobinprocenten. Opgave 4.17 Vis, at data i Opgave 1.14, som vi også har regnet på i Opgave 4.9, kan betragtes som én observationsrække fra den todimensionale normalfordeling og test hypotesen om uafhængighed af glycogen indholdet før og efter træningsperioden på 3 uger. Opgave 4.18 Vis, at data i Eksempel 1.5, som vi også har betragtet i Opgave 4.10, kan opfattes som én observationsrække fra den todimensionale normalfordeling og test hypotesen om uafhængighed af glycogen indholdet i venstre og højre ben. Opgave 4.19 Det eneste kvinde blandt personerne i tabellen på side 4.111 er person nr. 1. Lav en tosidet variansanalyse for de fem mænd, der fik foretaget blodprøver på samtlige syv tidpunkter. Er der forskel på indholdet af calcium i blodprøverne hos disse mænd? Opgave 4.20 Som det ses af tabellen på side 4.111 har samtlige 11 personer fået foretaget blodprøver på de tre første tidspunkter. a) Hvad kan der siges indholdet af calcium i blodprøverne hvis betragter alle personer med kun tre tidspunkter?

4.153 b) Hvad er konklusionen, hvis vi som i Opgave 4.19 udelader målingerne for den eneste kvinde, person nr.1? Opgave 4.21 Data nedenfor stammer fra langdistanceløbene ved olympiaden i Sydney år 2000. Data består af tiden per 100 m for de syv bedst placerede i finalerne på 1500 m, 10000 m og marathon for mænd og kvinder. Det kan ved hjælp af fraktildiagrammer vises, at det kan antages, at de seks observationsrækker er normalfordelte. a) Vis, at det kan antages, at den seks observationsrækker har samme varians. (De tilsvarende tal for mændenes 5000 m har en meget mindre varians på grund af et meget tæt opløb, hvilket er grunden til at distancen ikke betragtes her.) b) Vis, at data kan beskrives ved additivitesmodellen i en tosidet variansanalyse. c) Vis, at der er forskel på tiderne per 100 m for såvel de tre distancer som for mænd og kvinder. d) Angiv et 95% konfidensinterval for forskellen mellem mænd og kvinder. Opgave 4.22 Kontroller ved hjælp af Excel beregningerne i Eksempel 4.11.

4.154 Opgaver

Indeks I.1 Indeks A acceptområde..................... 5.6 additivitetsmodellen tosidet variansanalyse............ 4.113 afhængig variabel lineær regression................ 4.78 afskæring lineær regression................ 4.78 B Bartlett test 2lnQ....................... 4.61 for identitet af k > 2 varianser....... 4.61 hovedpunkter.................. 4.73 konstanten C................... 4.61 testsandsynlighed................ 4.62 Bayes formel..................... 2.7 beregninger s 2........................... 7.8 x........................... 7.8 beregninger i Excel............. 1.31, 4.10, 4.19, 4.28, 4.50, 4.70, 4.135, 6.28, 7.29, 8.15 beta funktion..................... 3.8 betinget fordeling................. 2.25 betinget sandsynlighed............... 2.6 binomialfordeling beregning af punktsandsynligheder.... 3.13 definition..................... 3.12 Excel........................ 3.13 middelværdi og varians............ 3.13 binomialrækken................... A.3 C χ 2 -fordeling..................... 5.21 definition...................... 3.5 Excel fordelingsresultater................ 3.6 middelværdi og varians............. 3.6 tabel......................... 3.7 D data flerdimensionale................ 1.27 grafisk repræsentation.............. 1.2 grupperede..................... 1.2 grupperede, ugrupperet version....... 1.19 gruppering..................... 1.5 idræt...................... 1.1, 5.2 kvalitative...................... 1.2 kvantitative..................... 1.2 sæt....................... 1.1, 5.2 tabelform...................... 7.1 tabellering..................... 1.2 todimensionale................. 1.27 ugrupperede.................... 1.2 delmængde...................... A.1 område........................ 5.3 sammenhængende................ 5.3 åben......................... 5.3

I.2 Indeks diagram blok......................... 1.23 fraktil........................ 4.2 kasse........................ 1.16 lagkage...................... 1.23 pinde......................... 1.5 prik.......................... 1.4 probit......................... 4.5 profil....................... 4.117 søjle..................... 1.5, 1.23 disjunkte mængder................. A.2 parvis........................ A.2 diskret stokastisk variabel............ 2.12 diskret stokastisk vektor.......... 2.19, 5.2 dobbeltintegral.................... A.5 E Eksempel 1.1........ 1.3, 1.5, 4.7, 4.26, 6.26 højde af piger................... 1.3 Eksempel 1.2........ 1.3, 4.3, 4.5, 4.10, 4.27 kondital for eliteidrætsudøvere........ 1.3 Eksempel 1.3............. 1.4, 1.24, 1.26 Excel........................ 1.37 resultatet af Faxe Kondi Ligaen........ 1.4 Eksempel 1.4......... 1.11, 1.16, 1.31, 1.35 hypotetiske kondital.............. 1.11 Eksempel 1.5.................... 1.28 glycogen indhold i muskler......... 1.28 Eksempel 2.1..................... 2.4 uniforme sandsynlighedsmål på endelig mængde...................... 2.4 Eksempel 2.2................. 2.4, 2.19 to kampe på tipskuponen............ 2.4 Eksempel 2.3..................... 2.5 uniforme sandsynlighedsmål på interval.. 2.5 Eksempel 2.4..................... 2.8 superligaholds chancer på hjemme- og udebane......................... 2.8 Eksempel 2.5..................... 2.9 superligaholds hjemmekampe......... 2.9 Eksempel 2.6.................... 2.12 uniform fordeling................ 2.12 Eksempel 2.7................ 2.14, 2.29 to kampe på tipskuponen, point fordeling 2.14 Eksempel 2.8.................... 2.15 antal hjemmekampe inden første sejr... 2.15 Eksempel 2.9................ 2.18, 2.30 tæthedsfunktion for uniform fordeling.. 2.18 Eksempel 2.10........ 2.19, 2.22, 2.24, 2.29 to kampe på tipskuponen........... 2.19 Eksempel 2.11............ 2.21, 2.23, 2.24 uniform fordeling på delmængde af R 2.. 2.21 Eksempel 2.12............ 2.23, 2.25, 2.31 uniform fordeling på trekant......... 2.23 Eksempel 3.1.................... 3.13 sandsynlighedsfunktion for binomialfordeling......................... 3.13 Eksempel 3.2.................... 3.16 sandsynlighedsfunktion for poissonfordeling............................. 3.16 Eksempel 3.3.................... 3.18 sandsynlighedsfunktion for hypergeometrisk fordeling...................... 3.18 Eksempel 3.4.................... 3.20 sandsynlighedsfunktion for negativ binomialfordeling...................... 3.20 Eksempel 4.1.......................... 4.13, 4.19, 4.21, 5.4, 5.10, 5.13, 5.16, 5.21 bestemmelse af laktatkoncentration.... 4.13 Eksempel 4.2............. 4.34, 4.35, 4.38 Excel........................ 4.50 kondital for ikke-aktive og aktive..... 4.34 Eksempel 4.3.................... 4.42 Excel........................ 4.52 tider i semifinalerne i kvindernes 100 m løb 4.42 Eksempel 4.4.................... 4.46

Indeks I.3 Excel........................ 4.53 muskelglucogen før og efter træning... 4.46 Eksempel 4.5............. 4.59, 4.62, 4.67 Excel........................ 4.70 længdespring................... 4.59 Eksempel 4.6............. 4.76, 4.82, 4.93 Excel....................... 4.101 lineær regression af puls på tid....... 4.76 Eksempel 4.7................ 4.83, 4.93 Excel....................... 4.103 finaletider i kvindernes 200 m, 400 m og 800 m løb..................... 4.83 Eksempel 4.8.................... 4.94 puls og iltoptagelse............... 4.94 Eksempel 4.9.......... 4.111, 4.117, 4.127 Excel....................... 4.135 tosidet variansanalyse uden gentagelser 4.111 Eksempel 4.10......... 4.111, 4.117, 4.131 Excel....................... 4.136 tosidet variansanalyse med gentagelser. 4.111 Eksempel 4.11.................. 4.134 tosidet variansanalyse og det parrede t-test 4.134 Eksempel 6.1..................... 6.1 multinomialfordelte data............ 6.1 Eksempel 6.2................. 6.3, 6.10 AB s kampe på hjemme- og udebane.... 6.3 Excel........................ 6.28 Eksempel 6.3................. 6.3, 6.13 Excel........................ 6.29 idrætaktivitet og rygning............ 6.3 Eksempel 6.4.................... 6.17 Excel........................ 6.30 opdeling af resultater i Faxe Kondi Ligaen 6.4 Eksempel 6.5................ 6.20, 6.22 undersøgelse af sammenhæng mellem kræft og magnetfelter.................. 6.20 Eksempel 6.6.................... 6.26 test for goodness of fit............. 6.26 Eksempel 7.1.......... 7.2, 7.8, 7.11, 7.17 antal mål i Faxe Kondi Ligaen........ 7.2 Excel........................ 7.29 Eksempel 7.2................. 7.2, 7.15 de nordiske landes medaljehøst ved OL i Sydney.......................... 7.2 Excel........................ 7.31 Eksempel 7.3................. 7.2, 7.26 Excel........................ 7.32 medaljefordeling ved OL i Sydney..... 7.2 Eksempel 8.1............... 8.2, 8.3, 8.6 Excel........................ 8.15 kondital før og efter træning.......... 8.2 Eksempel 8.2............. 8.7, 8.10, 8.14 kondital for ikke-aktive og aktive...... 8.7 Eksempel 8.3................ 8.11, 8.13 længdespring................... 8.11 eksperiment datasæt..................... 1.1, 5.2 eksponentialfordeling definition..................... 3.22 Excel........................ 3.23 middelværdi og varians............ 3.22 eksponentialrækken................. A.4 empirisk fordelingsfunktion.......... 1.12 empirisk korrelationskoefficient........ 1.28 empirisk middelværdi.............. 1.16 empirisk spredning................ 1.16 empirisk varians.................. 1.16 én observationsrække Poissonfordelingen................ 7.7 tabelform...................... 7.1 endelig række..................... A.3 eksempler...................... A.3 estimat......................... 5.5 interval....................... 5.16 maksimum likelihood.............. 5.9 notation....................... 5.5

I.4 Indeks estimation én observationsrække, Poissonfordelingen 7.7 lineær regression................ 4.78 maksimum likelihood.............. 5.9 middelværdien i én observationsrække.. 4.13 multiplikativ Poissonmodel......... 7.21 proportionale parametre i Poissonmodel. 7.13 teori.......................... 5.5 todimensional normalfordeling....... 4.96 tosidet variansanalyse............ 4.114 variansen i én observationsrække..... 4.21 estimator........................ 5.5 maksimum likelihood........... 5.6, 5.9 Excel analoge formler................. 1.35 Beskrivende statistik......... 1.32 binomialfordeling................ 3.13 χ 2 -fordeling.................... 3.7 Diagram..................... 1.35 100 (procent) stablet søjlediagram........................... 1.39 Grupperet søjle......... 1.38, 1.39 Punktdiagram................ 1.36 dialogboksen Anava: Enkelt faktor............... 4.70 To-faktor med gentagelse.... 4.135 To-faktor uden gentagelse... 4.135 dialogboksen F-test: Dobbelt stikprøve for ens varians........................... 4.50 dialogboksen Regression......... 4.101 dialogboksen t-test: Parvis dobbelt stikprøve for middelværdi................ 4.50 To stikprøver med ens varians. 4.50 To stikprøver med forskellig varians.................... 4.50 eksponentialfordelingen........... 3.23 F-fordeling.................... 3.12 fraktildiagram.................. 4.10 funktionen BINOMIALFORDELING..... 3.13 funktionen CHIFORDELING.......... 3.7 funktionen CHIINV............ 3.7, 6.30 funktionen CHITEST.......... 6.28, 6.30 funktionen EKSPFORDELING......... 3.23 funktionen FAST................ 1.40 funktionen FFORDELING........... 3.12 funktionen FINV................ 3.12 funktionen FRAKTIL.............. 1.34 funktionen HYPGEOFORDELING....... 3.19 funktionen KOMBIN............... 2.34 funktionen NEGBINOMFORDELING..... 3.20 funktionen NORMFORDELING.......... 3.4 funktionen NORMINV............... 3.4 funktionen PLADS................ 8.15 funktionen POISSON.............. 3.16 funktionen POTENS............... 2.33 funktionen SLUMP................ 2.35 funktionen SUMPRODUKT........... 6.28 funktionen TFORDELING........... 3.10 funktionen TINV................ 3.10 Histogram.................... 1.33 hypergeometrisk fordeling.......... 3.19 negativ binomialfordeling.......... 3.20 normalfordeling.................. 3.4 numeriske variable............... 1.39 Poissonfordeling................ 3.16 t-fordeling.................... 3.10 t-test for kendt middelværdi......... 4.28 tekst variable................... 1.39 test for kendt varians.............. 4.28 u-test........................ 4.19 F F-fordeling definition..................... 3.10

Indeks I.5 Excel........................ 3.12 fordelingsresultater............... 3.11 tabel........................ 3.12 F-test for identitet af to varianser...... 4.37, 4.55 t 2 = F....................... 4.68 faglig problem....................... 5.3 sammenhæng............. 1.1, 5.2, 5.4 fejl type I........................ 5.14 type II....................... 5.14 fempunktsopsummeringen........... 1.15 f (i) k observationsrækker............. 4.32 Fishers dispersionsindeks............. 7.7 eksempel...................... 7.9 Fishers eksakte test................ 6.21 eksempel..................... 6.22 i 2 2 tableller.................. 6.21 i r s tabeller.................. 6.23 fordeling approksimativ, likelihood ratio testoren. 5.21 diskret........................ 1.2 funktion....................... 5.2 klasse af....................... 5.3 kontinuert...................... 1.2 fordelingsfunktion egenskaber ved................. 2.10 empirisk...................... 1.12 stokastisk variabel............... 2.10 stokastisk vektor................ 2.19 foreningsmængde.................. A.2 endelig........................ A.2 tællelig........................ A.2 forkastelsesområde................. 5.6 forklarende variabel lineær regression................ 4.78 forsøgsplanlægning................ 5.22 fraktildiagram Excel........................ 4.10 grupperede data.................. 4.7 simuleret...................... B.1 ugrupperede data................. 4.3 vurdering af.................... 4.5 frie parametre.................... 5.21 funktion fordeling...................... 5.2 likelihood...................... 5.6 log likelihood................... 5.9 log likelihood, normeret........... 5.18 model..................... 5.3, 5.7 styrke........................ 5.14 tæthed........................ 5.2 fællesmængde.................... A.2 endelig........................ A.2 tællelig........................ A.2 følge af modeller notation...................... 4.69 G gamma fordeling................... 3.5 gamma funktion................... 3.5 goodness of fit 2lnQ-testet.................. 6.25 2lnQ-testet, testsandsynlighed...... 6.25 eksempel.................. 6.26, 7.9 Poissonmodel................... 7.7 test......................... 6.24 X 2 -testet...................... 6.25 X 2 -testet, testsandsynlighed......... 6.25 grafisk undersøgelse................. 1.2, 5.4 grupperede data empiriske størrelser.............. 1.18 ugrupperet version af............. 1.19

I.6 Indeks græsk alfabet..................... D.1 H histogram....................... 1.5 homogenitet tosidet variansanalyse............ 4.113 homogenitet af flere multinomialfordelinger 6.15 2lnQ-testet, testsandsynlighed...... 6.16 beregningsformel for 2 ln Q-testet.... 6.16 eksempel..................... 6.20 fordelingsresultat................ 6.17 maksimum likelihood estimat........ 6.16 hovedpunkter én observationsrække med kendt varians. 4.20 én observationsrække med ukendt varians 4.30 ikke-parametriske test............. 8.18 k observationsrækker............. 4.73 lineær regression............... 4.106 multinomialmodel............... 6.31 Poissonfordelte data.............. 7.33 to observationsrækker............. 4.55 tosidet variansanalyse............ 4.137 hypergeometrisk fordeling........... 6.22 beregning af punktsandsynligheder.... 3.18 definition..................... 3.17 Excel........................ 3.19 middelværdi og varians............ 3.18 hypotese kritisk observation............... 5.11 multinomialmodel................ 6.6 punkt......................... 5.6 sammensat..................... 5.6 simpel........................ 5.6 test af......................... 5.6 hyppighed relativ........................ 1.7 hældning lineær regression................ 4.78 hændelser....................... 2.2 hændelsessystem................ 1.1, 5.2 højreskæv...................... 1.16 I inferens likelihood...................... 5.7 statistisk....................... 5.5 information Fisher....................... 5.18 forventet...................... 5.18 observeret..................... 5.18 intervalestimat................... 5.16 K k observationsrækker............... 4.59 estimation..................... 4.63 notation...................... 4.32 statistisk model................. 4.32 kassediagram.................... 1.16 kategori........................ 1.23 numerisk..................... 1.23 komplementærmængde.............. A.1 konfidens interval....................... 5.16 område....................... 5.16 konfidensinterval binomialmodel.................. 6.9 for afskæringen i lineær regression... 4.107 for forskel mellem to middelværdier; ens varianser........................ 4.56 for forskel mellem to middelværdier; forskellige varianser................... 4.57 for hældningen i lineær regression.... 4.107 for middelværdien; kendt varians..... 4.16 for middelværdien; ukendt varians..... 4.23 for regressionslinjen............. 4.107 for spredningen i en normalfordeling... 4.26 for variansen i en normalfordeling..... 4.26

Indeks I.7 for variansen i lineær regression..... 4.107 multinomialmodel................ 6.9 Poissonmodel.................. 7.10 middelværdien λ baseret på én Poissonfordelt variabel.................. 7.11 middelværdien λ i én Poissonfordelt observationsrække................. 7.11 parameteren i modellen med proportionale parametre................... 7.13 kontinuert stokastisk variabel.......... 2.16 kontinuert stokastisk vektor........ 2.20, 5.2 kontrast....................... 4.126 korrelation...................... 2.28 empirisk...................... 1.28 kovarians....................... 2.28 regneregler.................... 2.28 kumulerede antal.................. 1.18 kvartil afstand, empirisk................ 1.15 nedre........................ 2.11 nedre, empirisk................. 1.12 øvre, empirisk.................. 1.12 øvre......................... 2.11 kvotientrække endelig........................ A.4 uendelig....................... A.4 L likelihood....................... 5.1 approksimativ teori............... 5.17 estimat, maksimum................ 5.9 estimation, maksimum............. 5.9 estimator, maksimum.............. 5.9 funktion....................... 5.6 inferens....................... 5.7 ligninger....................... 5.9 maksimum, estimator.............. 5.6 ratio test...................... 5.11 ratio test, approksimativ testsandsynlighed 5.20 ratio testor, approksimativ fordeling.... 5.21 lineær regression estimaternes fordeling............ 4.106 hypoteser om regressionsparametrene........................... 4.90, 4.107 konfidensintervaller for parametrene.. 4.106 med gentagelser................. 4.83 modelkontrol.................. 4.106 test af hypotesen om lineær regression........................... 4.86, 4.106 uden gentagelser................ 4.78 log likelihood funktion....................... 5.9 funktion, normeret............... 5.18 logaritmisk række.................. A.4 loven om total sandsynlighed........... 2.7 M maksimum likelihood estimat........................ 5.9 estimation...................... 5.9 estimator................... 5.6, 5.9 marginal fordeling................. 2.22 median........................ 2.11 empirisk...................... 1.12 middelværdi af funktion af diskret stokastisk vektor.. 2.26 af funktion af kontinuert stokastisk vektor 2.27 af gennemsnit.................. 2.29 diskret stokastisk variabel.......... 2.26 empirisk...................... 1.16 kontinuert stokastisk variabel........ 2.26 regneregler.................... 2.27 middelværdivektor................ 2.26 mindste kvadraters metode........... 4.78 model funktion.................... 5.3, 5.7

I.8 Indeks inferens....................... 5.1 kontrol..................... 5.1, 5.4 opstilling................ 1.1, 5.1, 5.2 parametrisk..................... 5.3 sandsynlighedsteoretisk.......... 1.1, 5.2 statistisk....................... 5.2 multinomialfordeling betingelser for................... 6.1 definition..................... 3.15 egenskaber ved.................. 6.4 marginale fordelinger............. 3.15 middelværdivektor og kovariansmatriks. 3.15 multinomialmodel 2lnQ-testor................... 6.8 2lnQ-testor, testsandsynlighed....... 6.8 X 2 -testoren..................... 6.9 X 2 -testoren, testsandsynlighed........ 6.9 estimation...................... 6.6 estimation under hypotese........... 6.7 flere multinomialfordelinger......... 6.15 forventede antal under hypotese....... 6.8 frie parametre................... 6.6 homogenitet af flere multinomialfordelinger............................. 6.15 hovedpunkter.................. 6.31 hypotese....................... 6.6 hypotese, frie parametre............ 6.6 konfidensinterval................. 6.9 statistisk inferens................. 6.5 test af simpel hypotese, eksempel..... 6.10 uafhængighed af inddelingskriterier.... 6.11 mængdedifferens................... A.2 mængdelære................... 2.1, A.1 måle........................... 1.2 målelig mængde................... 2.2 N negativ binomialfordeling beregning af punktsandsynligheder.... 3.19 definition..................... 3.19 Excel........................ 3.20 middelværdi og varians............ 3.20 normalfordeling................ 1.7, 4.1 definition...................... 3.1 Excel......................... 3.4 fordelingsresultater................ 3.3 middelværdi og varians............. 3.2 standard....................... 3.1 tabeller........................ 3.3 todimensional................... 3.4 normalfordelte data................. 4.1 notation følge af modeller................ 4.69 numerisk undersøgelse.................... 5.4 O observation kritisk....................... 5.11 observationer sammenfaldende................. 8.5 observationsrække............... 1.2, 5.9 én; normalfordeling............... 4.1 én; Poissonfordelingen............. 7.7 én; todimensional normalfordeling.... 4.94 område......................... 5.3 accept........................ 5.6 kritisk........................ 5.6 omvendt betinget sandsynlighed......... 2.7 opgaver............................ 1.41, 2.32, 3.22, 4.142, 5.23, 6.35, 7.39, 8.21 ordnede stikprøve................. 1.11 ordnede værdier............... 1.11, 8.4

Indeks I.9 P p-fraktil....................... 2.10 empirisk fordeling............... 1.12 p-værdi........................ 5.12 parameter....................... 5.3 fri.......................... 5.21 mængde....................... 5.3 rum.......................... 5.3 parrede t-test.................... 4.46 partiel differentiation................ A.5 pindediagram..................... 1.5 Poisson processen............... 7.1, 7.5 intensitet...................... 7.6 Poissonfordeling approksimeret med normalfordeling.... 7.5 beregning af punktsandsynligheder.... 3.16 definition..................... 3.16 egenskaber ved.................. 7.3 Excel........................ 3.16 grænsefordeling for binomialfordeling... 7.5 middelværdi og varians............ 3.16 relation til multinomialfordeling ved betingning......................... 7.5 Poissonmodel én observationsrække, 2 ln Q-test.... 7.14 én observationsrække, estimation...... 7.7 én observationsrække, Fishers dispersionsindeks......................... 7.7 én observationsrække, modelkontrol.... 7.7 én observationsrække, test for goodness of fit 7.7 én observationsrække, X 2 -test........ 7.14 konfidensinterval................ 7.10 konfidensinterval for middelværdien λ i Poissonfordeling................... 7.11 konfidensinterval for middelværdien λ i Poissonfordelt observationsrække....... 7.11 konfidensinterval for parameteren i Poissonmodellen med proportionale parametre.. 7.13 multiplikativ................... 7.18 multiplikativ, estimation........... 7.21 multiplikativ, homogenitet.......... 7.19 multiplikativ, ingen vekselvirkning.... 7.19 multiplikativ, kun rækkevirkning...... 7.19 multiplikativ, kun søjlevirkning....... 7.19 multiplikativ, parametrisering........ 7.20 multiplikativ, relation til multinomialmodel 7.25 multiplikativ, test af hypoteser....... 7.23 proportionale parametre............ 7.12 proportionale parametre, 2 ln Q-test... 7.13 proportionale parametre, 2 ln Q-test, testsandsynlighed................... 7.13 proportionale parametre, estimation.... 7.13 proportionale parametre, fordeling af estimator.......................... 7.13 proportionale parametre, relation til multinomial model..................... 7.15 proportionale parametre, X 2 -test...... 7.13 proportionale parametre, X 2 -test, testsandsynlighed...................... 7.13 position lineær regression................ 4.78 prikdiagram...................... 1.4 probit.......................... 4.5 profildiagram................... 4.117 programpakker.................... 1.7 R rang af observationer.............. 1.11, 8.4 rangtest......................... 8.4 reduktion statistisk model.................. 5.6 regneregler betinget sandsynlighed............. 2.7 middelværdi................... 2.27 sandsynligheder.................. 2.3

I.10 Indeks uendelige rækker................. A.4 varians og kovarians.............. 2.28 regressionskoefficient lineær regression................ 4.78 regressionslinje lineær regression................ 4.78 relativ hyppighed........... 1.7, 6.6, 6.12 residual kvadratsum.................... 4.79 tosidet variansanalyse............ 4.117 respons lineær regression................ 4.78 rækkevirkning.................. 4.113 S S sum af observationer........... 1.17, 7.8 s 2 beregningsformel................. 7.8 s 2 (i) k observationsrækker............. 4.32 SAK sum af afvigelsernes kvadrater....... 1.17 SAK (i) k observationsrækker............. 4.32 sammenfaldende observationer......... 8.5 sandsynlighed test......................... 5.12 sandsynlighedsfunktion diskret stokastisk variabel.......... 2.12 diskret stokastisk variabel, egenskaber ved 2.14 diskret stokastisk vektor........... 2.19 marginal fordeling............... 2.22 sandsynlighedsmål.............. 1.1, 5.2 sandsynlighedsmål................. 2.1 sandsynlighedspapir................ 4.5 sandsynlighedsrum................. 2.2 sandsynlighedsteori.............. 1.1, 5.2 SAP sum af afvigelsernes produkter....... 1.28 signifikansniveau............. 5.12, 5.14 observeret..................... 5.12 simultan fordeling................. 2.22 SK sum af kvadrater............. 1.17, 7.8 SP sum af produkter................ 1.28 spredning....................... 2.27 empirisk...................... 1.16 standardafvigelse................. 2.27 statistik beskrivende..................... 1.2 deskriptiv...................... 1.2 ikke-parametrisk................ 5.22 inferens....................... 5.5 parametrisk model................ 5.3 statistikkens slutningsregel........... 4.17 statistisk analyse.................. 1.1, 5.1, 5.2 approksimativ metode.............. 5.1 metode........................ 5.1 stikprøve........................ 1.2 ordnet....................... 1.11 størrelse....................... 1.2 stokastisk variation.................... 1.1, 5.2 vektor, multinomialfordelt........... 6.1 stokastisk variabel................. 2.10 diskret....................... 2.12 kontinuert..................... 2.16 stokastisk vektor.................. 2.19 diskret.................... 2.19, 5.2 kontinuert.................. 2.20, 5.2 styrkefunktion................... 5.14 støtte diskret stokastisk variabel.......... 2.14

Indeks I.11 diskret stokastisk vektor........... 2.19 kontinuert stokastisk variabel........ 2.16 stokastisk vektor................ 2.20 søjlediagram..................... 1.5 søjlevirkning................... 4.113 T t-fordeling definition...................... 3.8 Excel........................ 3.10 fordelingsresultater................ 3.8 tabel......................... 3.8 t-test parrede.................. 4.46, 4.133 t-test for kendt middelværdi.......... 4.22 Excel........................ 4.28 tabel χ 2 -fordeling.................... 3.7 F-fordeling.................... 3.12 normalfordeling.................. 3.3 t-fordeling..................... 3.8 u-fordeling..................... 3.3 tabelform data.......................... 7.1 Taylor polynomium................... 5.18 udvikling..................... 5.18 teori estimation...................... 5.5 likelihood, approksimativ.......... 5.17 test.......................... 5.5 test, generel.................... 5.14 test af hypoteser om regressionsparametrene.......................... 4.90, 4.107 Bartlett....................... 4.61 dobbeltsidet.................. 4.143 ensidet...................... 4.143 F-test for hypotesen om lineær regression......................... 4.86, 4.106 F-test for identitet af middelværdier... 4.64 F-test for identitet af to varianser. 4.37, 4.55 for kendt varians............ 4.24, 4.28 goodness of fit.................. 6.24 ikke-parametrisk................. 8.2 fortegnstest................... 8.3 Kruskal-Wallis s for flere observationsrækker........................ 8.11 Wilcoxons for én observationsrække... 8.5 Wilcoxons for to observationsrækker.. 8.8 likelihood ratio.............. 5.6, 5.11 p-værdi...................... 5.12 på niveau α.................... 5.14 signifikansniveau............ 5.12, 5.14 størrelse....................... 5.6 styrkefunktion.................. 5.14 t 2 = F....................... 4.68 t-test for kendt middelværdi......... 4.23 t-test for uafhængighed i N 2......... 4.97 teori....................... 5.1, 5.5 teori, generel................... 5.14 u-test for kendt middelværdi......... 4.15 testor.......................... 5.6 testsandsynlighed................. 5.12 approksimativ, likelihood ratio test.... 5.20 teststørrelse...................... 5.6 likelihood ratio................. 5.11 tilfældigt tal...................... 2.5 to observationsrækker.............. 4.34 skøn over fælles varians............ 4.38 test af ens middelværdier; varianser ens........................... 4.39, 4.56 test af ens middelværdier; varianser forskellige....................... 4.44, 4.57 test af ens varianser.............. 4.55

I.12 Indeks todimensional normalfordeling definition...................... 3.4 én observationsrække fra........... 4.94 estimation..................... 4.96 korrelation..................... 3.5 marginale og betingede fordelinger..... 3.5 middelværdivektor og kovariansmatriks.. 3.5 modelkontrol................... 4.95 test af hypotesen om uafhængighed.... 4.97 tomme mængde................... A.2 tosidet variansanalyse............. 4.111 additivitet.................... 4.113 estimation.................... 4.114 estimation af rækkevirkningsforskel i additivitesmodellen.................. 4.126 estimation af søjlevirkningsforskel i additivitesmodellen................... 4.126 homogenitet.................. 4.113 hypotesen om additivitet.......... 4.114 hypotesen om ingen rækkevirkning... 4.114 hypotesen om ingen søjlevirkning.... 4.114 konfidensintervaller i additivitetsmodellen 4.125 kontrast..................... 4.126 kun rækkevirkning.............. 4.113 kun søjlevirkning............... 4.113 med gentagelser................ 4.114 med gentagelser, variansanalysetabel.. 4.124 modelkontrol.................. 4.115 profildiagram................. 4.117 relation til det parrede t-test........ 4.133 residualer.................... 4.117 test i additivitetsmodellen......... 4.120 test i modellen for kun rækkevirkning. 4.122 test i modellen for kun søjlevirkning.. 4.123 uden gentagelser............... 4.114 uden gentagelser, variansanalysetabel.. 4.125 transformation.................... 4.8 tælle........................... 1.2 tæthedsfunktion................... 5.2 kontinuert stokastisk variabel........ 2.16 kontinuert stokastisk variabel, egenskaber ved.......................... 2.16 kontinuert stokastisk vektor......... 2.20 marginal fordeling............... 2.22 U u-fordeling....................... 3.1 tabel......................... 3.3 u-test for kendt middelværdi.......... 4.15 Excel........................ 4.19 uafhængig variabel lineær regression................ 4.78 uafhængighed flere hændelser.................. 2.6 stokastiske variable............... 2.24 stokastiske variable, betingelser for.... 2.24 to hændelser.................... 2.6 uafhængighed af inddelingskriterier..... 6.11 2lnQ-testet, testsandsynlighed...... 6.13 beregningsformel for 2 ln Q-testet.... 6.12 eksempel..................... 6.13 fordelingsresultat................ 6.13 forventede antal................. 6.12 hypotese...................... 6.11 maksimum likelihood estimater...... 6.12 udfald.......................... 2.2 udfaldsrum................. 1.1, 2.1, 5.2 uendelig række.............. 2.1, 2.2, A.3 absolut konvergent................ A.3 afsnitssum..................... A.3 divergent...................... A.3 eksempler...................... A.4 konvergent..................... A.3 led........................... A.3 regneregler..................... A.4

Indeks I.13 undersøgelse grafisk........................ 5.4 numerisk...................... 5.4 uniform fordeling................. 2.12 tæthedsfunktion................. 2.18 uniforme sandsynlighedsmål på endelig mængde................ 2.4 på interval...................... 2.5 V varians........................ 2.27 af gennemsnit.................. 2.29 empirisk...................... 1.16 regneregler.................... 2.28 variansanalyse................... 4.67 variansanalysetabel................ 4.67 ensidet variansanalyse............. 4.67 tosidet variansanalyse med gentagelser. 4.124 tosidet variansanalyse uden gentagelser 4.125 venstreskæv..................... 1.16

I.14 Indeks