IDRÆTSSTATISTIK BIND 1

Transkript

1 IDRÆTSSTATISTIK BIND 1

2 ii Det Naturvidenskabelige Fakultet Aarhus Universitet Reprocenter Preben Blæsild og Jørgen Granfeldt 2001 ISBN Bd.1

3 iii Forord Denne bog er skrevet til brug i et statistikkursus for bachelorstuderende ved Center for Idræt, Aarhus Universitet. Bag bogen ligger samme holdninger både til statistisk analyse og til begynderundervisning i statistik, der primært retter sig mod brugere, som i Blæsild og Granfeldt (2000) Statistik for biologer og geologer. Et vigtigt holdepunkt i statistisk analyse er modelbegrebet. Man vælger en statistisk model, som kan belyse den faglige problemstilling. Det vil sige, at parametrene i modellen kan fortolkes i den faglige problemstilling, og at interessante faglige hypoteser svarer til restriktioner på parametrene. En faglig hypotese afprøves ved at undersøge (teste), om man kan acceptere en reduktion af modellen til en ny model, som er enklere ved at have færre parametre. Gør man sig det klart, kan man hurtigt lære at analysere temmelig komplicerede problemstillinger korrekt. Ydermere bliver analysen til at følge også for folk, som hverken er specialister på det faglige område eller er professionelle statistikere. Et tidsvarende brugerkursus i statistik må benytte EDB og en statistisk programpakke. Ved dette kursus er valgt regnearket Excel og den statistik pakke der under navnet Dataanalyse optræder som et tilføjelsesprogram til Excel, men der er ikke benyttet faciliteter, som er specielle for denne statistik pakke, og bogen kan uden vanskelighed anvendes sammen med andre statistiske programpakker. Argumentet for at benytte Excel er, at regnearket er tilgængeligt på de fleste PC-er imodsætning til mere kostbare og specialiserede statistiske programpakker såsom for eksempel SAS, Genstat og BMDP. Disse programpakker er designet specielt til brug i forbindelse med statistisk analyse og kan derfor udføre beregningerne i meget mere avancerede statistiske modeller end regnearket Excel kan. Disse noter demonsterer forhåbenligt at i forbindelse med et elementært kursus i statistik er Excel et brugbart alternativ. Når man bruger statistiske programpakker i undervisningen bliver modellerne, som beskrevet ovenfor, det faste holdepunkt når man skal orientere sig i udskrifterne. Man kan bruge en programpakke til statistisk analyse, når man har lært dels at specificere modeller i programpakken og dels at teste reduktionen fra én model til en simplere ved at hente relevante oplysninger ud fra udskrifterne fra estimationen i de to modeller.

4 iv Kun få kan lære statistik uden at få metoderne ind gennem fingrene. Vi har derfor valgt både at præsentere, hvordan de enkleste modeller kan regnes på lommeregner, og hvordan de kan regnes ved at orientere sig i udskrifter fra en programpakke. For normalfordelte data vises både for én, to og k observationsrækker, samt én regressionslinje, hvordan modellerne regnes igennem på lommegner, mens en mere kompliceret model som tosidet variansanalyse kun skal kunne klares med henvisning til programudskrifter. Et statistikkursus for studerende, der ikke har et vist kendskab til de mest basale begreber i sandsynlighedsteorien, fremstår for os som en umulighed. I Kapitel 2 introduceres og/eller repeteres disse begreber, der illustreres ved en række eksempler, som er valgt ud fra det princip, at de matematisk skulle være lette at håndtere. Kapitel 3 er at betragte som et katalog vedrørende definition af og egenskaber ved de fordelinger som anvendes i forbindelse med de statistiske modeller i de senere kapitler. Kaptitel 2 gennemgås efter diskussionen i Kapitel 1 af grafiske og numeriske metoder i forbindelse med beskrivende statistik. Herefter fortsættes med modellerne for normalfordelte data i Kapitel 4 idet de hertil relaterede fordelinger fra Kapitel 3 omtales undervejs. Efter adskillige eksempler på statistisk analyse i forbindelse med normalfordelingen i Kapitel 4 diskuteres hovedtrækkene i en analyse af en parametrisk statistisk model i generelle termer i Kapitel 5. Derefter gennemgås Kapitel 6 om multinomialfordelte data og Kapitel 7 om Poissonfordelte data. Bogen slutter med omtale af nogle simple ikke-parametriske test i Kapitel 8. Som nævnt ovenfor foretrækker vi at betragte parametriske statistiske modeller. Formålet med Kapitel 8 er at orientere læserne om at ikke alle deler denne holdning og for at give et kort indblik i de alternative metoder. Det vil være muligt at læse kapitlerne i en anden rækkefølge, men man skal være opmærksom på, at de statistiske grundbegreber som nulhypotese, test, testsandsynlighed, signifikansniveau og så videre gennemgås i forbindelse med Afsnit 4.2. Uden dataeksempler, som udspringer af en faglig problemstilling, bliver en lærebog til et brugerkursus i statistik temmelig uinteressant. En del af eksemplerne er taget fra Andersen (1998) Statistik for Idrætsstuderende med forfatterens tilladelse, hvilket vi er taknemmelige for. Vi vil også gerne takke medarbejdere og studerende ved Center for Idræt, Aarhus Universitet og ved Institut for Idræt, Københavns Universitet, som har stillet data og deres historie til rådighed for bogens eksempler og opgaver. Bogen er blevet brugt ved Idrætsstatistik i efteråret 2000 og bygger på erfaringer fra et lignede kursus i efteråret 1999 og en særlig tak går til Jakob Krabbe Pedersen og Lars Bo Kristensen for deres store indstats som instruktorer på disse to kurser og for deres påvisning af trykfejl. Bogen er skrevet LATEX, og Jacob Goldbach har skrevet de stylefiler i LATEX, som definerer

5 v udseendet af bogen, men derudover har Jacob Goldbach tålmodigt besvaret utallige spørgsmål om LATEX ligesom Frank Allan Hansen, Niels Væver Hartvig og Michael Kjærgård Sørensen velvilligt har assisteret os. I forhold til versionen af bogen fra maj 2001 er der rettet en del trykfejl og nogle få figurer er blevet tilføjet. Vi vil gerne takke Lars Madsen for meget kompetent bistand med LATEX spørgsmål i forbindelse med revisionen og Michael Kjærgård Sørensen for at have produceret de nye figurer. Århus, august 2005 Preben Blæsild og Jørgen Granfeldt

6 vi

7 INDHOLD vii Indhold 1 Data og beskrivende statistik Prik- og pindediagrammer Histogrammer Empiriske størrelser Grupperede data Kvalitative data Flerdimensionale data Anneks til Kapitel Opgaver til Kapitel Begreber fra sandsynlighedsteorien Sandsynlighedsrum Definition af sandsynlighedsmål Regneregler for sandsynligheder Betingede sandsynligheder og uafhængighed Stokastiske variable Diskrete stokastiske variable Kontinuerte stokastiske variable Stokastiske vektorer Diskrete stokastiske vektorer Kontinuerte stokastiske vektorer Marginale fordelinger Uafhængighed Betingede fordelinger Middelværdi og varians Opgaver til Kapitel

8 viii INDHOLD 3 Specielle fordelinger Normalfordelingen og relaterede fordelinger Normalfordelingen Den todimensionale normalfordeling χ 2 -fordelingen t-fordelingen F-fordelingen Diskrete fordelinger Binomialfordelingen Multinomialfordelingen Poissonfordelingen Den hypergeometriske fordeling Den negative binomialfordeling Opgaver til Kapitel Normalfordelte data Fraktilsammenligning Ugrupperede observationer Grupperede data Transformation Anneks til Afsnit Én observationsrække med kendt varians Anneks til Afsnit Hovedpunkter til Afsnit Én observationsrække med ukendt varians Anneks til Afsnit Hovedpunkter til Afsnit To observationsrækker Test for varianshomogenitet Ens varians Forskellig varians Parrede observationer Anneks til Afsnit Hovedpunkter til Afsnit k observationsrækker Test for varianshomogenitet

9 INDHOLD ix Test for ens middelværdier Forskelle og ligheder i behandlingen af to og k observationsrækker Notation og test i forbindelse med en følge af modeller Anneks til Afsnit Hovedpunkter til Afsnit Lineær regression Lineær regression uden gentagelser Lineær regression med gentagelser Hypoteser om regressionsparametrene Korrelation og/eller regression Anneks til Afsnit Hovedpunkter til Afsnit Tosidet variansanalyse Anneks til Afsnit Hovedpunkter til Afsnit Opgaver til Kapitel Indeks I.1 5 Statistisk analyse Data Modelopstilling Modelkontrol Statistisk inferens Likelihood inferens Begreber fra generel testteori Approksimativ likelihood teori Afsluttende bemærkninger Opgaver til Kapitel Multinomialfordelte data Eksempler Inferens i én multinomialfordeling Test af simpel hypotese Uafhængighed af inddelingskriterier Inferens i flere multinomialfordelinger

10 x INDHOLD Homogenitet af flere multinomialfordelinger Fishers eksakte test Test for goodness of fit Anneks til Kapitel Hovedpunkter til Kapitel Opgaver til Kapitel Poissonfordelte data Eksempler Sandsynlighedsteoretiske resultater vedrørende Poissonfordelingen Én observationsrække Inferens i flere fordelinger Poissonmodellen med proportionale parametre Den multiplikative Poissonmodel Anneks til Kapitel Hovedpunkter til Kapitel Opgaver til Kapitel Ikke-parametriske test Fortegnstestet Rangtest Wilcoxons test for én observationsrække Wilcoxons test for to observationsrækker Kruskal-Wallis test Anneks til Kapitel Hovedpunkter til Kapitel Opgaver til Kapitel A Forskellige matematiske begreber A.1 A.1 Notation fra mængdelæren A.1 A.2 Rækker A.3 A.3 Dobbeltintegraler og partiel differentiation A.4 A.3.1 Dobbeltintegraler A.5 A.3.2 Partiel differentiation A.5 B Simulerede fraktildiagrammer B.1

11 INDHOLD xi C Matematiske symboler C.1 D Det græske alfabet D.1 Indeks I.1

12 xii INDHOLD

13 1 Data og beskrivende statistik Data og beskrivende statistik Udgangspunktet for en statistisk analyse er et datasæt x, der er resultatet af et eksperiment, udført med det formål at få indblik i en speciel faglig sammenhæng. Betegnelsen eksperiment skal her forstås i en bred forstand. Data fra idræt kan eksempelvis være bestemmelser af kondital, hæmaglobinindhold, hæmatokritværdier eller andre fysiologiske størrelser hos en gruppe af personer. Ofte foretages disse målinger på den samme gruppe personer til forskellige tidspunkter for at vurdere effekten på disse størrelser af træning, konkurrence eller andre påvirkninger. Data kan også være resultater af konkurrencer eller turneringer indsamlet med henblik på at sammenligne personers eller holds præstationer. Karakteristisk for et datasæt x i et eksperiment er, at det er stokastisk; det vil sige, at hvis man gentager eksperimentet eller målingerne under lignende omstændigheder, bliver resultatet ikke nødvendigvis x. Dette er i modsætning til en deterministisk situation, hvor udfald på forhånd kan bestemmes med sikkerhed. Men selv om udfaldene af eksperimentet ikke kan angives på forhånd er der ofte en regelmæssighed på et højere niveau, som man netop kan erkende, hvis forsøget gentages mange gange. En byggesten i beskrivelsen af et eksperiment er derfor en sandsynlighedsteoretisk model. De relevante begreber fra sandsynlighedsteorien er resumeret i Kapitel 2. Her nævner vi blot, at en sandsynlighedsteoretisk model består af tre komponenter: 1) udfaldsrummet, X, som er samtlige værdier (udfald), som eksperimentet kan få; 2) hændelsessystemet, F, som omfatter alle de hændelser vi vil betragte; og 3) sandsynlighedsmålet, P, som angiver sandsynligheden af alle hændelser i F. Det stokastiske element i et eksperiment beskrives af hændelsessystemet og sandsynlighedsmålet, som beskriver alle hændelser vi er interesserede i og deres sandsynligheder. Vi beskriver ofte det stokastiske ved et datasæt ved at opfatte data x som en udfald af en stokastisk vektor X hvis fordeling er bestemt af sandsynlighedsmålet P. Det første punkt i en statistisk analyse er at opstille en brugbar statistisk model for det aktuelle datasæt, hvilket undertiden kan være en besværlig opgave. Dette punkt er ofte det vanskeligste i en statistisk analyse. Mange faktorer spiller ind, når en model for data skal opstilles, for eksempel måden data er indsamlet på, information om den faglige problemstilling data skal

14 1.2 belyse, erfaringer - personlige eller erhvervet ved litteraturstudier - fra analyser af lignende problemer. Statistikeren benytter sig ved modelformuleringen af information, som stammer fra forskellige sammenfatninger af data, såsom tabelleringer og/eller grafiske repræsentationer af data. Ved modelopstillingen skal man tage højde for, at den statistiske model skal være tilstrækkelig simpel fra et matematisk synspunkt, således at den er til at håndtere, og samtidig tilstrækkelig struktureret til at give relevant information om den faglige problemstilling, som undersøges. Endelig skal modellen naturligvis give en rimelig god beskrivelse af data for at kunne anvendes i den videre analyse. Som det vil fremgå af de kommende kapitler, er grafiske undersøgelser relevante på så at sige alle stadier af en statistisk analyse. I dette kapitel diskuterer vi forskellige numeriske og grafiske procedurer, der er relevante i den indledende fase af en statistisk analyse, hvor man skaffer sig overblik over data. Disse procedurer er en del af det, der omtales som beskrivende eller deskriptiv statistik. Vi vil udelukkende betragte data, som enten er kvalitative eller kvantitative, det vil sige data, der fremkommer enten ved at tælle eller ved at måle. For sådanne datasæt består de relevante fordelingsklasser af henholdsvis diskrete fordelinger og kontinuerte fordelinger, se Kapitel 2. Vi skelner desuden mellem grupperede data og ugrupperede data. Hvis et datasæt består af n observationer, og hvis værdierne x 1,x 2,...,x n af alle n observationer kendes, siges datasættet at være ugrupperet. Undertiden er udfaldsrummet X for observationerne opdelt i m disjunkte mængder A 1,...,A m og i stedet for at angive de n observationer x 1,x 2,...,x n angiver man kun a 1,a 2,...,a m, hvor a j betegner antallet af observationer der tilhører A j, j = 1,2,...,m. I så tilfælde omtales a 1,a 2,...,a m som et grupperet datasæt. Delmængderne A j, j = 1,2,...,m, vælges sædvanligvis som intervaller på den reelle akse. En stor del af kapitlet beskæftiger sig med modeller for én observationsrække. Ved én observationsrække på n observationer forstår vi n uafhængige observationer x 1,x 2,...,x n fra den samme fordeling. Undertiden bruger man i stedet for sprogbrugen en stikprøve af størrelse n. Vi giver nogle simple numeriske og grafiske metoder, som opsummerer data og som giver nogle indikationer vedrørende formen af den fælles fordeling af observationerne. I Afsnit 1.1 betragter vi prikdiagrammer og pindediagrammer og Afsnit 1.2 og Afsnit 1.3 vedrører ugrupperede kvantitative data. I Afsnit 1.2 diskuteres histogrammer og i Afsnit 1.3 indføres forskellige numeriske størrelser, der bruges til at beskrive den observerede fordeling. Afsnit 1.4 vedrører grupperede kvantitative data mens kvalitative data omtales i Afsnit 1.5. Endelig indeholder Afsnit 1.6 nogle få bemærkninger om flerdimensionale data. I et anneks til kapitlet gøres der rede for hvorledes udvalgte beregninger og tegninger kan laves ved hjælp af Excel. Til sidst i kapitlet er der en lille samling af opgaver.

15 1 Data og beskrivende statistik 1.3 I kapitlet betragter vi blandt andet de 3 nedenstående eksempler. Eksempel 1.1 De følgende data stammer fra en undersøgelse fra Odense amt af børn, der lider af astma. Undersøgelsen er foretaget af professor Bent Juhl, Aarhus Kommunehospital, i perioden 1. december 1968 til 3. marts Der blev foretaget 14 forskellige målinger på hvert barn og blandt disse var målinger af højden. Blandt børnene var der 247 piger, der på undersøgelsestidspunktet var mellem 10 og 12 år. Målingerne af højden (i cm) af disse piger er angivet i Tabel 1.1. Højden er en kvantitativ - kontinuert - variabel og datasættet er ugrupperet, fordi højden blev målt og angivet i cm. Bemærk imidlertid, at hvis højderne oprindeligt var blevet målt i mm og - som her - angivet i cm ville datasættet være grupperet Tabel 1.1 Højden (i cm) af 247 astmaplagede piger i alderen år. Eksempel 1.2 Tabel 1.2 viser konditallene for 20 eliteidrætsudøvere. Tallene er fra Andersen (1998). Datasæt-

16 Prik- og pindediagrammer tet er ugrupperet og konditallet er en kvantitativ - kontinuert - variabel Tabel 1.2 Kondital for 20 eliteidrætsudøvere. Eksempel 1.3 I Tabel 1.3 er vist resultatet af Faxe Kondi Ligaen For hvert af 12 hold er vist antal kampe (k), antal vundne kampe (v), antal uafgjorte kampe (u), antal tabte kampe (t), antal mål for, antal mål imod og antal point (p) for henholdsvis hjemmebanekampe, udebanekampe og totalt. Samtlige variable er kvalitative. Tabel 1.3 Resultatet af Faxe Kondi Ligaen Prik- og pindediagrammer Prikdiagrammet er en grafisk procedure, der opsummerer data og som kan give et første indtryk af den underliggende fordeling af data. Prikdiagrammet konstrueres ved at indtegne data i et koordinatsystem på følgende måde. For hver observation afsættes en prik over det punkt på førsteaksen, som svarer til værdien af observationen. (Af typografiske årsager bruger vi i stedet for til at repræsentere observationerne med.) Prikdiagrammet kan også benyttes til at ordne observationerne efter størrelse, hvis data ikke foreligger på elektronisk form.

17 1.5 Figur 1.1 Prikdiagrammet for højderne i Tabel 1.1. Eksempel 1.1 (Fortsat) Prikdiagrammet for data i Tabel 1.1 er vist i Figur 1.1. Pindediagrammet eller søjlediagrammet bruges til at repræsentere data, der er grupperede i intervaller. For hvert interval anbringes over midtpunktet af intervallet en pind, hvis højde er antallet (eller det relative antal) af observationer i intervallet. Eksempel 1.1 (Fortsat) Tabel 1.4 nedenfor viser resultatet af en gruppering af data i Tabel 1.1 svarende til en intervallængde på 4 cm. Det tilsvarende pindediagram er vist i Figur Histogrammer Hvis data er kontinuerte, laver man ofte et histogram for at få et indtryk af, hvorledes tæthedsfunktionen, se Kapitel 2, for den underliggende fordeling ser ud. Histogrammer kan derfor være af stor hjælp, når klassen af fordelinger i den statistiske model skal vælges. Et histogram konstrueres på følgende måde. De n observationer x 1, x 2,...,x n grupperes i

18 Histogrammer interval midtpunkt antal observationer ]112,116] ]116,120] ]120,124] ]124,128] ]128,132] ]132,136] ]136,140] ]140,144] ]144,148] ]148,152] ]152,156] ]156,160] ]160,164] ]164,168] Tabel 1.4 Observationerne i Tabel 1.1 grupperet i intervaller af længden 4 cm. Figur 1.2 Pindediagrammet for højderne i Tabel 1.4.

19 1.7 et antal intervaller. Lad m betegne dette antal og lad t 1,t 2,...,t m og t 1, t 2,..., t m betegne henholdsvis midtpunkterne og længderne af disse intervaller. Hvis a j betegner antallet af observationer i det j te interval og h j = a j /n den relative hyppighed af observationer i det j te interval, j = 1, 2,..., m, er histogrammet den trappefunktion h, der er givet ved h(t) = h j t j, hvis t ] t j t j 2, t j + t j 2 ]. (1.1) Bemærk, at i et histogram repræsenteres den relative hyppighed h j som arealet af et rektangel, som har sidelængderne t j og h j / t j. Derfor er det totale areal under trappefunktionen h lig med 1, summen af de relative hyppigheder. Hvis de m intervaller har samme længde t, det vil sige hvis t 1 = t 2 = = t m = t, betragter man, for at lette beregningerne, ofte funktionen h(t) = n th(t) = a j, hvis t ] t j t 2, t j + t 2 ] (1.2) i stedet for h. En tegning af denne funktion kaldes også et histogram. Bemærk, at arealet under h er n t, og bemærk desuden lighedspunkterne mellem denne form for et histogram og pindediagrammet, som blev omtalt i Afsnit 1.1. Figurerne nedenfor viser forskellige histogrammer for tallene i Tabel 1.1. I hver af disse figurer betragter vi den samme intervallængde, som varierer fra figur til figur. Det ses af figurerne, at det er vigtigt at vælge et passende antal intervaller for at få et indtryk af tæthedsfunktionen for den underliggende fordeling. For mange intervaller giver et irregulært indtryk af tæthedsfunktionen og for få intervaller giver for groft et indtryk. De fleste statistiske programpakker kan tegne histogrammer og i disse er default værdien af antallet m af intervaller ofte n. For tallene i Tabel 1.1 er n 16, og antallet af intervaller i Figur 1.2 og 1.6 er henholdsvis 19 og 14. Disse figurer antyder, at tæthedsfunktionen for den underliggende fordeling for tallene i Tabel 1.1 har det samme klokkeformede udseende som tæthedsfunktionen for normalfordelingen - se Figur 3.1, det vil sige figurerne antyder en statistisk model baseret på normalfordelingen for højderne i Tabel Empiriske størrelser I dette afsnit definerer vi nogle numeriske størrelser knyttet til en observationsrække x 1, x 2,..., x n af størrelsen n af en kvantitativ variabel. Formålet med disse størrelser er at beskrive variationen af observationerne på forskellig måde. Først introduceres lidt notation vedrørende reference til observationerne og værdierne af observationerne.

20 Empiriske størrelser Figur 1.3 Histogram for højden i cm for 247 piger. Intervallængde 1 cm. Figur 1.4 Histogram for højden i cm for 247 piger. Intervallængde 2 cm.

21 1.9 Figur 1.5 Histogram for højden i cm for 247 piger. Intervallængde 3 cm. Figur 1.6 Histogram for højden i cm for 247 piger. Intervallængde 4 cm.

22 Empiriske størrelser Figur 1.7 Histogram for højden i cm for 247 piger. Intervallængde 6 cm. Figur 1.8 Histogram for højden i cm for 247 piger. Intervallængde 12 cm.

23 1.11 Definition 1.1 Lad x 1,x 2,...,x n være en observationsrække af størrelsen n af en kvantitativ variabel. Den ordnede stikprøve x (1),x (2),...,x (i),...,x (n) er en opstilling af observationerne i stigende rækkefølge således at x (1) x (2) x (i) x (n). Rangen af observationerne defineres således: rang(x (i) ) = i, hvis x (i 1) < x (i) < x (i+1) rang(x (i) ) = = rang(x (i+k 1) ) = i+(k 1)/2, hvis x (i) = = x (i+k 1) (1.3) Rangen af observationen x (i) er altså i, hvis x (i) er den eneste observation med denne værdi, det vil sige hvis x (i 1) < x (i) < x (i+1). Hvis k observationer x (i),x (i+1),...,x (i+k 1) er lige store, det vil sige hvis x (i) = x (i+1) = = x (i+k 1), tildeles de alle rangen i + (k 1)/2, som er gennemsnittet af de k tal i,i+1,...,i+k 1. De ordnede værdier i stikprøven er de forskellige værdier y 1,y 2,...,y m, som observationerne i stikprøven antager, ordnet efter størrelse, det vil sige y 1 < y 2 < < y m. (1.4) For j = 1,...,m betegnes antallet af observationer med værdien y j med a j og det kumulerede antal med k j, det vil sige at k j = a 1 + +a j. Bemærkning I den ordnede stikprøve er det observationerne, der ordnes efter størrelse, mens det ved de ordnede værdier er værdierne, der ordnes efter størrelse. Hvis der er to eller flere observationer, der antager samme værdi, er antallet m af forskellige værdier i stikprøven mindre end antallet n af observationer i stikprøven. Eksempel 1.4 De forskellige størrelser i Definition 1.1 er illustreret i nedenstående tabel for 10 hypotetiske

24 Empiriske størrelser kondital. i x i x (i) rang(x (i) ) y i a i k i Definition 1.2 Den empiriske fordelingsfunktion F n svarende til observationerne x 1,x 2,...,x n er defineret ved F n (x) = #{i : x i x}, x R. (1.5) n Den empiriske fordelingsfunktion F n er altså en trappefunktion, hvis spring er multipla af 1/n og for ethvert x R er tallet F n (x) blot den relative hyppighed af observationer i datasættet som er mindre end eller lig med x. Helt præcist har F n spring i de m ordnede værdier y 1,y 2,...,y m og springet i y i er a i /n, i = 1,...,m, se Figur 1.9. Den empiriske fordelingsfunktion F n er fuldstændigt bestemt af sine fraktiler, der defineres således: Definition 1.3 For ethvert p [0,1] er p-fraktilen for den empiriske fordelingsfunktion F n mængden x p givet ved x p = {x R : F n (x ) p F n (x)}, hvor F n (x ) betegner grænseværdien fra venstre af F n i punktet x. Specielt kaldes x 0.50 ofte for den empiriske median, mens x 0.25 og x 0.75 kaldes henholdsvis nedre og øvre empiriske kvartil. Hvis vi supplerer notationen i Definition 1.1 med at sætte k 0 = 0 gælder der, at y j er p-fraktil for alle værdier af p i intervallet [ k j 1 /n,k j /n ]. I anvendelser er vi kun interesseret i at udpege

25 1.13 Figur 1.9 Den empiriske fordelingsfunktion F n for data i Eksempel 1.4. I den øverste figur er de valgte p-værdier antydet med og i den nederste figur er fraktilerne x p antydet med.

26 Empiriske størrelser nummer observation antal kumulerede antal sandsynlighed i % j y a k p i % 1 y 1 a 1 k 1 = a 1 p 1 = 100 k 1 /(2n) 2 y 2 a 2 k 2 = a 1 + a 2 p 2 = 100 (k 1 + k 2 )/(2n) 3 y 3 a 3 k 3 = a 1 + a 2 + a 3 p 3 = 100 (k 2 + k 3 )/(2n) j y j a j k j = a 1 + +a j p j = 100 (k j 1 + k j )/(2n) m y m a m k m = a 1 + +a m p m = 100 (k m 1 + k m )/(2n) Tabel 1.5 Beregningsskema for fraktiler for et ugrupperet datasæt. én værdi p j af p for hvilken y j er p-fraktil og vi vælger derfor p j som midtpunkt af intervallet [ k j 1 /n,k j /n ], det vil sige p j = (k j 1 + k j )/(2n). Beregningerne kan foretages ved hjælp af skemaet i Tabel 1.5. Hvis p = k j /n, j = 1,...,m 1 er p-fraktilen et interval, nemlig x p = [ y j,y j+1 ], og vil vi blot udpege en enkelt værdi x p af x svarende til p forekommer det naturligt at vælge midtpunktet af dette interval, det vil sige x p = (y j + y j+1 )/2. Hvis k j /n < p < k j+1 /n, j = 0,...,m 1, er p-fraktilen x p blot punktet y j+1 og vi sætter x p = x p = y j+1. Beregningen af størrelserne x p kan foretages ved hjælp beregningsskemaet i Tabel 1.5. Givet en værdi af p beregnes np. Hvis np = k j er x p = (y j + y j+1 )/2. og hvis k j < np < k j+1 er x p = y j+1. Eksempel 1.4 (Fortsat) For de 10 hypotetiske kondital i dette eksempel er den empiriske fordelingsfunktion vist i Figur

27 og beregningsskemaet i Tabel 1.5 er nummer observation antal kumulerede antal sandsynlighed i % j y a k p i % Vi viser nu beregningen af x p for udvalgte p-værdier: p = 0.10 np = 1 np = k 1 x 0.1 = (y 1 + y 2 )/2 = ( )/2 = 63.5 p = 0.25 np = 2.5 k 2 < np < k 3 x 0.25 = y 3 = 65.0 p = 0.50 np = 5 np = k 3 x 0.50 = (y 3 + y 4 )/2 = ( )/2 = p = 0.75 np = 7.5 k 5 < np < k 6 x 0.75 = y 6 = 69.8 p = 0.90 np = 9 np = k 6 x 0.90 = (y 6 + y 7 )/2 = ( )/2 = Definition 1.4 Fempunktsopsummeringen for en observationsrække x 1, x 2,..., x n af størrelsen n er angivelse af de fem fraktiler x p svarende til p-værdierne 0.10, 0.25, 0.50, 0.75, 0.90, det vil sige talsættet (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ). Kvartilafstanden er afstanden mellem den øvre og nedre kvartil, det vil sige størrelsen d = x 0.75 x Medianen x 0.50 angiver observationsrækkens centrale punkt og de to kvartiler, x 0.25 og x 0.75 afgrænser den centrale del. Kvartilafstanden er et mål for fordelingens spredning. Hvis vi kalder gruppen af de 10% mindste observationer fordelingens venstre hale og gruppen af de 10% største observationer for fordelingens højre hale, angiver x 0.10 og x 0.90 hvor langt fordelingens haler ligger fra den centrale del. En stikprøve kaldes symmetrisk hvis dens fordeling har samme form til højre og til venstre for medianen, det vil sige hvis x 0.50 x p x 1 p x 0.50 for alle p ]0,0.5].

28 Empiriske størrelser I en symmetrisk stikprøve har højre og venstre hale samme form. En stikprøve kaldes højreskæv hvis den højre hale ligger længere væk fra medianen end den venstre hale. Tilsvarende, er skikprøven venstreskæv, hvis den venstre hale ligger længst væk. Ofte illustreres fempunktsopsummeringen grafisk ved hjælp af et kassediagram, som fremkommer ved at tegne lodrette linjer gennem medianen og de to kvartiler og forbinde stregerne gennem kvartilerne med vandrette linjer. Herved fremkommer en kasse, der illustrerer den centrale del af fordelingen. For at vise længden af fordelingens haler tegnes undertiden linjer ud til x 0.10 og x 0.90 og endelig markeres observationer mindre end x 0.10 og eller større end x 0.90 med et. Eksempel 1.4 (Fortsat) For de 10 hypotetiske kondital er fempunktsopsummeringen (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (63.5,65.0,66.45,69.8,70.35) og kvartil afstanden er d = = 4.8. Kassediagrammet i Figur 1.10 viser, at fordelingen højreskæv og dermed ikke er symmetrisk. Figur 1.10 Kassediagrammet for data i Eksempel 1.4. Den empiriske median og kvartilafstanden er mål for henholdsvis fordelingens position og bredde eller spredning. Alternative - og mere benyttede - mål for disse størrelser er: Definition 1.5 Den empiriske middelværdi x, den empiriske varians s 2 og den empiriske spredning s for en observationsrække x 1, x 2,..., x n af størrelsen n er: x = 1 n n i=1 x i, (1.6)

29 1.17 og s 2 = 1 n 1 s = s 2 = n i=1 1 n 1 (x i x ) 2 (1.7) n i=1 (x i x ) 2. (1.8) Bemærkning Som det ses er den empiriske middelværdi x blot gennemsnittet af observationerne. Den empiriske varians s 2 er et mål for variationen af observationerne. Det fremkommer ved at beregne en normeret sum af den kvadratiske afstand (x i x ) 2 mellem observationerne x i og gennemsnittet x, som et mål for hvor meget observationerne varierer omkring gennemsnittet. Hvis for eksempel målingerne x i er foretaget i enheden cm, er enheden for s 2, den empiriske varians, cm 2. Ved at betragte den empiriske spredning s fremkommer et mål for variationen der har samme enhed - i eksemplet cm - som de enkelte observationer. Den empiriske middelværdi x og den empiriske varians s 2 beregnes lettest ud fra S = n i=1 x i og SK = n i=1 Summen af observationerne og Summen af Kvadraterne af observationerne, idet x 2 i, x = S n (1.9) og n i=1 (x i x ) 2 = = n i=1 n i=1 (x 2 i + x2 2x i x ) x 2 i + n x 2 2 x = SK + n S2 n 2 2S n S = SK S2 n. n x i i=1 Idet størrelsen n i=1 (x i x ) 2 ofte betegnes med SAK - Summen af Afvigelsernes Kvadrater - fås at s 2 = 1 n 1 SAK = 1 S2 (SK ). (1.10) n 1 n

30 Grupperede data Bemærk, at i denne formel optræder både S, som er summen af observationerne, og s, som er den empiriske spredning eller kvadratroden af den empiriske varians. Forveksles disse størrelser bliver resultatet oftest katastrofalt forkert. Eksempel 1.4 (Fortsat) For de 10 hypotetiske kondital er S = og SK = , så ved hjælp af (1.9), (1.10) og (1.8) finder vi - med 5 decimalers nøjagtighed - x = = 66.88, og s 2 = ( ) = s = = Grupperede data Med nogen modvilje giver vi dette afsnit med en kort diskussion af empiriske størrelser for kontinuerte og grupperede data. Modviljen skyldes den kendsgerning, at kontinuerte og grupperede data sjældent forekommer i virkeligheden. Som oftest stammer data af denne type fra en gruppering af et ugrupperet datasæt. Motivationen for denne gruppering er næsten altid af praktisk art, såsom at spare plads i tidsskrifter, bøger mm., og yderst sjældent videnskabelig. Proceduren med at gruppere data kan illustreres ved data i Tabel 1.1 og 1.4. Data i Tabel 1.4 repræsenterer en opsummering af de oprindelige data i Tabel 1.1, som oplagt ikke indeholder den samme information som de oprindelige data. Statistiske procedurer bør benytte al information i data og ikke kun en del heraf. Imidlertid er datasæt i litteraturen, specielt ældre litteratur, ofte grupperede, hvilket er grunden til, at empiriske størrelser for grupperede data også bliver omtalt her. Antag, at antallet af observationer i de m intervaller ]y 0,y 1 ],]y 1,y 2 ],...,]y m 1,y m ] er a 1, a 2,..., a m. For j = 1, 2,...,m lader vi k j = a 1 + a a j betegne det kumulerede antal observationer. Bemærk, at k m = n, det totale antal observationer. Desuden lader vi t j = (y j + y j 1 )/2 betegne midtpunket af det j te interval, j = 1,...,m.

31 1.19 nummer højre endepunkt midtpunkt antal kumulerede antal sandsynlighed i % j y t a k p i % 1 y 1 t 1 a 1 k 1 = a 1 p 1 = 100 k 1 /n 2 y 2 t 2 a 2 k 2 = a 1 + a 2 p 2 = 100 k 2 /n 3 y 3 t 3 a 3 k 3 = a 1 + a 2 + a 3 p 3 = 100 k 3 /n j y j t j a j k j = a 1 + +a j p j = 100 k j /n m 1 y m 1 t m 1 a m 1 k m 1 = a 1 + +a m 1 p m 1 = 100 k m 1 /n m y m t m a m k m = n p m = 100 Tabel 1.6 Skema til beregning af empiriske størrelser for grupperede data. For et grupperet datasæt kendes den empiriske fordelingsfunktion F n kun i de højre intervalendepunkter y 1,y 2,...,y m. Vi lader derfor p j = F n (y j ) = k j /n, j = 1,...,m, og for p = k j /n sætter vi x p = y j. Beregningen af p-værdierne kan foretages ved hjælp af skemaet i Tabel 1.6. Beregningerne af andre empiriske størrelser foretages ofte på grundlag af en ugrupperet version af de grupperede data, som fremkommer ved at antage at midtpunktet t j af det j te interval er en værdi, som er blevet observeret a j gange, j = 1,...,m. Den empiriske fordelingsfunktion for det grupperede datasæt approksimeres ved den empiriske fordelingsfunktion for den ugrupperede version, se Figur For k j /n < p < k j+1 /n sætter vi x p = t j+1. Størrelserne x p bestemmes let ud fra Tabel 1.6. Givet en værdi af p beregnes np. Hvis np = k j er x p = y j og hvis k j < np < k j+1 er x p = t j+1. Summen S og kvadratsummen SK for de grupperede data beregnes som de tilsvarende

32 Grupperede data størrelser for den ugrupperede version, det vil sige, at S = m m a j t j og SK = a j t 2 j, (1.11) j=1 j=1 hvorefter beregningsformlerne for middelværdi og varians i (1.9) og (1.10) benyttes, det vil sige, at x = S n (1.12) og s 2 = 1 S2 (SK ). (1.13) n 1 n Eksempel 1.1 (Fortsat) Antag, at vi kun kendte den grupperede version af data i Tabel 1.4 og ikke de oprindelige data i Tabel 1.1. Hvilken forskel giver dette med hensyn til den beskrivende statistik? I Figur 1.11 ses øverst den empiriske fordelingsfunktion for de oprindelige data og nederst den empiriske fordelingsfunktion for de grupperede data og den ugrupperede version af disse. Tabel 1.6 for de grupperede data i Tabel 1.4 ser således ud: nummer højre endepunkt midtpunkt antal kumulerede antal sandsynlighed i % j y t a k p i % Fempunktsopsummeringen er (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (126,134,138,146,154).

33 1.21 Figur 1.11 Øverst ses den empiriske fordelingsfunktion for data i Tabel 1.1 og nederst den empiriske fordelingsfunktion for data i Tabel 1.4 og for den ugrupperede version (- - -) af disse data. De valgte p-værdier antydet med.

34 Grupperede data Hvis for eksempel p = 0.75 er np = = , det vil sige at j = 8 og x 0.75 = t 9 = 146. Da bliver S = a j t j = og SK = a j t 2 j = j=1 j=1 x = = og s2 = ( ) = For de oprindelige data i 1.1 ser en del af skemaet i Tabel 1.5 således ud: nummer observation antal kumulerede antal sandsynlighed i % j y a k p i % Fempunktsopsummeringen for de oprindelige data i Tabel 1.1 ses at være (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (128,134,140,146,153). I tabellerne nedenfor resumeres vi de beregnede størrelser for de oprindelige data og de grupperede data: data S SK x s 2 oprindelige (Tabel 1.1) grupperede (Tabel 1.4)

35 1.23 data x 0.10 x 0.25 x 0.50 x 0.75 x 0.90 oprindelige (Tabel 1.1) grupperede (Tabel 1.4) Det ses, at der er nogen forskel mellem resultaterne for de to datasæt. Med hensyn til den beskrivende statistik er denne forskel dog næppe af større betydning. Med hensyn til de mere eksakte beregninger i de kommende kapitler kan forskellen dog være vigtig. Det skal understreges igen, at når man som her har de oprindelige data til rådighed skal disse benyttes. Grunden til her at betragte de grupperede data er primært at illustrere beregningerne for grupperede datasæt og - sekundært - at sammenligne med resultaterne med de oprindelige data, som vi har til rådighed i denne situation. Det er - som nævnt indledningsvis - desværre ikke altid tilfældet. 1.5 Kvalitative data I dette afsnit betragter vi kvalitative eller diskrete data. Situationen er typisk, at der foreligger data, der er fremkommet ved optælling af antallet af observationer i forskellige navngivne kategorier. Kategorierne kan være numeriske, det vil sige navngivet ved hjælp af en numerisk variabel. Hvis dette er tilfældet kan situationen sammenlignes med grupperede data for en kvantitativ - kontinuert - variabel idet navnene på kategorierne da svarer til de forskellige intervaller, som data er grupperet i. Hvis kategorierne ikke er numeriske, kan observationer ikke naturligt ordnes efter størrelse. Fordelingen af en stikprøve af størrelse n af en diskret variabel kan beskrives ved hyppigheden - eller den relative hyppighed - af antallet af observationer i de forskellige kategorier. Hvis der er m kategorier og antallet af observationer i den j te kategori er a j, j = 1,...,m, er den relative hyppighed for den j te kategori h j = a j /n. Tabeller over de observerede antal a - eller de relative hyppigheder h - i de m kategorier suppleres ofte med grafiske repræsentationer af data. I Excel er der forskellige muligheder for at præsentere data, herunder søjlediagrammer, blokdiagrammer og lagkagediagrammer. I et søjlediagram illustreres antallet af observationer a j i den j te kategori som søjler, der har en højde der typisk er antallet a j eller det relative antal h j af observationer i kategorien. I et blokdiagram tegnes en blok med sektioner, der udgør samme andel af blokken som hyppighederne for de enkelte kategorier. I et lagkagediagram repræsenteres hyppighederne for kategorierne ved stykker af lagkagen, der udgør samme andel af lagkagen som hyppighederne for kategorierne. Eksempel 1.3 (Fortsat)

36 Kvalitative data Tabellen nedenfor viser antallet af mål som de 12 superligaklubber har scoret på henholdsvis hjemmeog udebane. klub hjemme ude HB BIF AB VFF AAB SIF LCF FCK OB AGF VB EFB Her er der ialt 24 kategorier med navne (HB, hjemme), (HB, ude),..., (EFB, ude). Søjlediagrammet for data er vist i Figur Det mest bemærkelsesværdige er at de 5 svagest placerede klubber - pånær AGF - scorer relativt godt på udebane i modsætning til de to højest placerede klubber. For den enkelte klub har det måske større interesse at se påholdets præstationer på hjemmeog udebane. For AGF s vedkommende kan resultaterne i kampene resumeres således: AGF sejr uafgjort nederlag hjemme ude Her er der 6 kategorier med navne (hjemme, sejr),..., (ude, nederlag). Det tilsvarende søjlediagram i Figur 1.13 viser, at klubben er relativ stærk på hjemmebane men svag på udebane. Figur 1.14 viser blokdiagrammet, hvoraf det fremgår at små 80% (præcist 77.78%) af AGF s sejre er vundet hjemme. I eksemplerne ovenfor var kategorierne ikke navngivet med en numeriske variabel og det har derfor ingen mening at regne empiriske størrelser såsom fraktiler, middelværdi og varians. Vi giver nu et eksempel hvor kategorierne er navngivet ved hjælp af en numerisk variabel og hvor beregning af numeriske størrelser er relevant.

37 !!" # $ % &'())( *+( 1.25,-. Figur 1.12 Antal mål scoret hjemme og ude af de 12 klubber i Superligaen / 40 / B76CC6D 9:;<7=8> 9@6D?6@68A:< Figur 1.13 Resultaterne af AGF s kampe på hjemmeog udebane i sæsonen

38 Kvalitative data Figur 1.14 Resultaterne af AGF s kampe på hjemmeog udebane i sæsonen i et blokdiagram. Eksempel 1.3 (Fortsat) Anden og tredje søjle i tabellen nedenfor viser fordelingen af mål i de 198 superligakampe i sæsonen Kategorierne 0, 1,..., 10 er numeriske. nummer antal antal kumulerede p mål kampe antal i % j x a k p Søjlediagrammet er vist i Figur De resterende søjler i tabellen er udfyldt som i beregningsskemaet for et ugrupperet datasæt i Tabel 1.5, idet vi her kender værdierne af alle 198 observationer. Ud fra skemaet kan

39 ! "#$%& 1.27 Figur 1.15 Fordelingen af antal mål i de 198 kampe i superligaen fempunktsopsummeringen beregnes til (x 0.10,x 0.25,x 0.50,x 0.75,x 0.90 ) = (1,2,3,4,5). Da summen og kvadratsummen af antal scorede mål er S = a j x j = 573 og SK = a j x 2 j = 2265 j=1 j=1 er den empiriske middelværdi og empiriske varians for antal scorede mål henholdsvis x = = 2.89 og s 2 = ( ) = Flerdimensionale data Indtil nu har vi udelukkende betragtet endimensionale data, det vil sige data hvor observationerne betår af et enkelt tal. Ofte registreres mere end et tal for hver observation og vi taler da om at data er flerdimensionale. I dette afsnit indføres notationen for todimensionale data.

40 Flerdimensionale data Eksempel 1.5 Data er fra Andersen (1998) og i tabellen nedenfor er vist muskelglycogen (i mmol/kg tørvægt) for 8 forsøgspersoners venstre og højre ben. Forsøgsperson nummer venstre ben højre ben For hver af de 8 forsøgspersoner har vi to sammenhørende målinger af muskelglycogen i henholdsvis venstre og højre ben, så data er to-dimensionale. Lad (x 11,x 21 ),...,(x 1 j,x 2 j ),...,(x 1n,x 2n ) betegne en stikprøve af størrelse n af en to-dimensional variabel. Foruden at få et indtryk af de to stikprøver x 11,...,x 1 j,...,x 1n og x 21,...,x 2 j,..., x 2n bestående af henholdsvis første og anden komponenterne, er det også vigtigt at få et indtryk samvariationen af de to komponenter. Denne kan belyses ved at indtegne observationerne (x 1 j,x 2 j ), j = 1,...,n, i et koordinatsystem. En numeriske størrelse, der angiver et mål for samvariationen af komponenterne i et todimensionalt datasæt, er den empiriske korrelationskoefficient. For at indføre denne behøver vi noget notation. For i = 1,2 lader vi S i, SK i, SAK i, x i og s 2 i betegne henholdsvis Summen af observationerne, Summen af Kvadraterne af observationer, Summen af Afvigelserne Kvadrater, den empiske middelværdi og den empiriske varians for den i te komponent af observationerne, det vil sige SAK i = S i = n j=1 n n x i j, SK i = x 2 i j, j=1 j=1 x i = S i n, (1.14) (x i j x i ) 2 = SK i S2 i n, s2 i = 1 n 1 SAK i. (1.15) Desuden lader vi SP og SAP betegne Summen af Produkter og Summen af Afvigelsernes Produkter, det vil sige SP = n x 1 j x 2 j, SAP = j=1 n j=1 (x 1 j x 1 )(x 2 j x 2 ) = SP S 1S 2 n. (1.16)

41 1.29 Det kan vises, at den empiriske korrelationskoefficient r, der er defineret som r = n n j=1 (x 1 j x 1 )(x 2 j x 2 ) = (x 1 j x 1 ) 2 n (x 2 j x 2 ) 2 j=1 j=1 SAP SAK1 SAK 2, (1.17) antager værdier i intervallet [ 1, 1]. Fortolkningen af r er, at for store værdier af r optræder store(små) værdier af første komponenten sammen med store(små) værdier af anden komponenten og i det ekstreme tilfælde hvor r = 1 ligger punkterne (x 1 j,x 2 j ), j = 1,...,n, på en ret linje med positiv hældning. Hvis omvendt r er lille optræder store(små) værdier af første komponenten sammen med små(store) værdier af anden komponenten og i det ekstreme tilfælde hvor r = 1 ligger punkterne (x 1 j,x 2 j ), j = 1,...,n, på en ret linje med negativ hældning. Hvis r er tæt på 0 er der ingen sammenhæng mellem første og anden komponenten. Eksempel 1.5 (Fortsat) Tegningen af data i Figur 1.16, antyder en positiv korrelation. For data her er venstre ben n 8 højre ben S SK SP Ved hjælp af formlerne (1.14) - (1.17) finder vi, x 1 = SAK 1 = s 2 1 = = , x 2 = = , = , SAK 2 = = , s 2 2 = = , = , og SAP = r = = =

42 Flerdimensionale data Figur 1.16 Muskelglycogen indholdet i venstre og højre ben tegnet op mod hinanden.

43 1.31 Anneks til Kapitel 1 Beregninger i Excel I dette afsnit vises, hvordan en del af beregningerne og figurerne i kapitlet kan laves ved hjælp af Excel. Ordrer til programmet skrives i en speciel fond, som ser således ud. I selve regnearket benyttes skrifttypen Ariel med en skriftstørrelse på 10, som er default værdier i Excel. Det er ikke muligt at kopier udklip fra Excel direkte ind i Scientific WorkPlace, som noterne her er skrevet i. Det sker via forskellige omveje, hvilket undertiden bevirker, at udklip fra Excel her bliver gengivet i en størrelse, der ikke helt stemmer overens med størrelsen i selve regnearket. Man skal desuden være opmærksom på, at i danske versioner af Excel benyttes kommaer som skilletegn mellem heltalsdelen og decimalerne i reelle tal. Eksempel 1.4 (Fortsat) Indtast kondital i cellen A1 i regnearket og indtast derefter de 10 hypotetiske kondital (med kommaer i stedet for punktummer) i den anden søjle i tabellen side 1.12 i cellerne A2:A11. Resultatet således ud: Man får altså ikke altid samme antal decimaler som det der indtastes, idet for eksempel 65,0 bliver til 65. Ønskes samme antal decimaler i cellerne A2:A11 markeres disse (anbring musen i A2, tryk venstre museknap ned og træk samtidig musen ned over cellerne). Et tryk på ikonen

44 1.32 Beregninger i Excel og cellerne bliver til:!"#$%& ' ' Ønsker vi at sortere observationerne i stigende rækkefølge som i den tredje søjle i tabellen side 1.12 anbringes musen i cellena2 og der trykkes på ikonen Å A med følgende resultat: ' ' ' ' ',0,00 Følgende rute, der starter i den øverste bjælke over regnearket: Funktioner Dataanalyse Beskrivende statistik giver efter et klik på OK en dialogboks med overskriften Beskrivende statistik. Angiv i ruden efter Inputområde cellerne A2:A11 (dette gøres lettest ved at klikke i ruden, markere cellerne A2:A11 med venstre museknap for dernæst at slippe venstre museknap). Angiv på samme måde efter Outputområde et område bestående af mindst ()*+,-./ rækker og 2 kolonner i regnearket (som default vælger ExcelNy regnearksfane). Et klik i feltet før Resumestatistik efterfulgt af et klik på OK producerer følgende output (hvor bredden af kolonnerne kan justeres ved hjælp af Formater Kolonner Autotilpas) (1 (( CDEF<EA<EG?;K=>J=)B/1*+/0//0 :;<<=>?@A<; --B// () CD;LMAN?=?EA;EFJ CDEF<EA<G=H> :=<;EF 1B//-,+(*+, --B+, (* (+ CL@?S=< OPADQJ;J R(B-,1(.//,+.B/,0,,,,,- 1B10*.(0,)- (, CPU :;F;UPU :ELJ;UPU --/B/ -)B0.1B0 I;>JDEF< -, 2FDE> TUAV<= (1 /

45 som indeholder nogle af de empiriske størrelser vi tidligere i eksemplet har beregnet, idet 1.33 Middelværdi = x s 2 Standardfejl = n Median = x 0.50 Standardafvigelse = s Stikprøvevarians = s 2 Minimum = x (1) Maximum = x (n) Sum = S Antal = n Beregninger i Tabel 1.5 kan for datasættet her foretages på følgende måde: Kopier indholdet af cellerne A2:A11 til cellerne C2:C11 (marker A2:A11 og følg ruten Rediger Kopier, anbring curseren i cellenc2 og følg rutenrediger Sæt ind) Slet celler i C2:C11 så de observerede værdier kun optræder én gang (her markeres to celler med værdien 65 og en celle med værdien 69,8 hvorefter de slettes ved Rediger Slet) Indholdet af cellernea1:a11 ogc2:c11 er herefter Herefter følges ruten Funktioner Dataanalyse Histogram. I dialogboksen, der fremkommer, angives cellerne A2:A11 i ruden efter Inputområde, cellerne C2:C8 i ruden efter Intervalområde og cellerne E2:G11 i ruden efter Outputområde. Herefter klikkes der i feltet forankumulativ frekvens og dernæst påok.

46 1.34 Beregninger i Excel CellerneE2:G10 har derefter følgende indhold: "#$#!! I cellen H2 indtastes p i %. De ønskede p-værdier beregnes ved i cellen H3 at indtaste formlen=100*g3/2 og i cellenh4 at indtaste formlen=100*(g3+g4)/2. Herefter oprettes analoge formler i cellerne H5:H9 ved at anbringe musen i det nedre højre hjørne af cellen H4, således at curseren kommer til at ligne tegnet +, holde kontroltasten nede og markere cellerneh5:h :;<==>?@6ABCDC:95>8EFGH / Cellerne E2:H10 har derefter følgende indhold, som svarer til indholdet af tabellen side *)I. *+I- *&I- *(I% ' *.I..H &.I..H ).I..H %.I..H ') %)) %. JKLK *-I, +.I- *,I(.&% %..I..H +.I..H -.I..H -) *), %&'()*+,- Bemærk, at vi ikke i formlerne ovenfor - vedrørende beregning af p - dividerer med n i modsætning til i Tabel 1.5. Det skyldes at her er de kumulerede antal angivet i %, mens de i Tabel 1.5 ikke er divideret med n. Der findes adskillige andre måder at beregne fraktiler på end den beskrevet på side Trods en hel del overvejelser har vi endnu ikke fundet frem til, hvordan Excel funktionen Fraktil beregner fraktilerne for et ugrupperet datasæt x 1,...,x n. Lad x p betegne den fraktil som Fraktil beregner svarende til værdien p. For nogle datasæt stemmer fraktilerne x p overens med fraktilerne x p fra side 1.14, for andre er der ikke overensstemmelse. Igen skal vi huske på, at vi her blot er interesseret i at få et første indtryk af den observerede fordeling og i denne forbindelse er forskellen mellem x p og x p ikke så afgørende. I anvendelser - for eksempel

47 1.35 i forbindelse med regning af opgaver - kan man derfor frit vælge mellem dem, når blot man angiver hvilken slags fraktiler der benyttes. Eksempel 1.4 (Fortsat) Følgende klip fra Excel er fremkommet ved at indtaste indholdet af cellerne C1:C6 og D1, placere musen i cellen D2, følge ruten Indsæt Funktion Statistik Fraktil og angive cellerne A2:A11 i ruden efter Vektor og cellen C2 i ruden efter k for derefter at klikke i OK, hvorved resultatet 63,98 dukker op i cellend2. Herefter oprettes analoge formler i cellerne D3:D6 ved at anbringe musen i det nedre højre hjørne af cellen H2, således at curseren kommer til at ligne tegnet +, holde kontroltasten nede og markere cellerned3:d6. Ifølge Excel bliver fempunktopsummeringen for de ti hypotesiske kondital: ( x 0.10, x 0.25, x 0.50, x 0.75, x 0.90 ) = (63.98,65.00,66.45,69.80,70.35) og den stemmer ikke helt overens med den vi beregnede på side I Excel giver ruten Indsæt Diagram adgang til en række grafiske procedurer, som er rimelig lette at anvende. For at få et første indtryk af disse laver vi nu kassediagrammet i Figur 1.10 ved hjælp af Excel. Eksempel 1.4 (Fortsat) Et kassediagram for disse data - baseret på fraktilerne x p på side lavet i Excel kan se

48 1.36 Beregninger i Excel således ud: Denne tegning kan laves således: Indtast følgende i regnearket: Følg ruten Indsæt Diagram og vælg i dialogboksen Guiden Diagram, der hverved fremkommer, XY-punkt under Diagramtype. Vælg under Undertype typen nederst til højre (under typerne skriver Excel: Punktdiagram med datapunkter forbundet med kurver uden datamærker.) Klik derpå påudfør. Herved fremkommer følgende tegning på regnearket #$%&$ #$%&$ #$%&$! " " som ikke umiddelbart ligner resultatet ovenfor. Dette fremkommer ved passende redigering, som foretages ved hjælp af højre museknap:

49 1.37 Fjerne forklarende tekst (til højre på tegningen): Klik på rammen omkring teksten. Hold højre musetast nede og slip den i områdetryd. Fjerne gitterlinjer (de vandrette linjer i figuren): Klik på en af gitterlinjerne. Hold højre musetast nede og slip den i områdetryd. Fjerne andenaksen: Klik på andenaksen. Hold højre musetast nede og slip den i området Ryd. Ændre baggrundsfarven og fjern rammen: Placer musen i området. Hold højre musetast nede og vælg Formater afbildningsområde. I dialogboksen der fremkommer vælges Ingen både under Ramme og Område. Tilpasse farver. Placer musen på en af de farvede kurver. Hold højre musetast nede og vælgformater dataserie. I boksen der fremkommer vælges underkurve, farve farven sort. (Tilsvarende ændres farve på de to andre kurver). Formatere førsteaksen. Placer musen på førsteaksen. Hold højre musetast nede og vælg Formater akse. I dialogboksen der fremkommer vælges Skala og her sættes Minimum til 62,Maksimum til 72 ogoverordnet enhed til 1. Vi afslutter dette anneks ved kort at beskrive, hvorledes figurerne i Eksempel 1.3 kan laves. Eksempel 1.3 (Fortsat) Figur 1.12 Figuren er lavet ud fra Marker disse celler og vælg ruten Indsæt Diagram. I dialogboksen, der fremkommer vælges Søjle under Diagramtype og under Undertype vælges typen øverst til venstre

50 1.38 Beregninger i Excel (undertyperne skriver Excel: Grupperet søjle. Sammenligner værdier på tværs af kategorier) Et klik på OK giver resultatet: Som det ses er tegningen ikke bred nok, idet ikke alle klubbers navne står på førsteaksen. Dette ordnes således: Placer musen i det nedeste højre hjørne af rammen således at curseren bliver til en pil sammensat af symbolerne ց og տ. Træk derefter musen til højre og nedad indtil tegningen bliver stor nok. Herefter redigeres tegningen i følgende trin: Ændre placering af forklaring: Klik på rammen omkring teksten. Hold højre museknap ned og vælgformater forklaring. I dialogboksen vælgesplacering Nederst og derefterok. Rammen omkring forklaringen fjernes ved i dialogboksen at vælgemønstre Ramme Ingen. Rotere teksten på førsteaksen: Klik på teksten. Hold højre museknap ned og vælg Formater akse. I dialogboksen vælges Justering Retning og i ruden foran grader skrives 90. Ændre baggrundsfarve og fjerne ramme: Klik på baggrunden. Hold højre museknap ned og vælgformater afbildningsområde. VælgIngen i båderamme ogområde. Tilføje titel: Klik på rammen så tekstendiagramområde fremkommer. Hold højre museknap nede og vælgdiagramindstillinger. I dialogboksen skrives derefter den ønskede titel i ruden under Titler Diagramtitel. Herved fremkommer titlen på tegningen og denne kan eventuelt redigeres ved at placere musen på titlen, holde højre museknap nede og så videre.

51 Figur 1.13 og Figur 1.14 Figurene laves ud fra 1.39 Figur 1.13 er bortset fra lidt redigering fremkommet ved: Marker cellerne og vælg ruten Indsæt Diagram. I dialogboksen, der fremkommer vælges Søjle under Diagramtype og under Undertype vælges typen øverst til venstre (undertyperne skriver Excel: Grupperet søjle. Sammenligner værdier på tværs af kategorier) Figur 1.14 er bortset fra lidt redigering fremkommet ved: Marker cellerne og vælg ruten Indsæt Diagram. I dialogboksen, der fremkommer vælges Søjle under Diagramtype og under Undertype vælges typen øverst til højre (undertyperne skriver Excel: 100% stablet søjlediagram. Sammenligner den procentdel, de enkelte værdier bidrager til totalen med, på tværs af kategorier.)!"# *+,*-./-*+,*-0*.12 % & ' *+,*-./-*+,*-0*.12 ( ) Figur 1.15 Figuren laves ud fra cellerne $ $! $ $ $! $ # # $ $!#"!#" $ Bemærk, at der er forskel på cellerne i kolonnernea ogd. IAstår tallene til højre hvilket betyder, at Excel opfatter dem som numeriske variable, mens de idstår til venstre og derfor opfattes som tekst variable. I Excel s søjlediagrammer afbildes der kategorier på førsteaksen, så tegningen

52 1.40 Beregninger i Excel skal derfor laves ud fra kolonnernedoge. Konvertering af numeriske variable til tekst variable kan foretages ved hjælp af funktionen FAST. I D2 er skrevet formlen =FAST(A2;0), hvilket transformerer den numeriske værdi 0 i cellen A2 til teksten 0 i D2. Analoge formler er derefter oprettet i de øvrige celler id. Vedrørende redigeringen af tegningen kan nævnes: at titlen og navnene på akserne laves i dialogboksen der fremkommer ved ruten Diagramområde Diagramindstillinger Titler. at tallene, der angiver antallet af observationer i de enkelte kategorier, fremkommer ved Formater dataserie Dataetiketter Vis værdi.

53 1.41 Opgaver til Kapitel 1 Opgave 1.1 (Andersen 1998) Jættemilen afslutter orienteringssæsonen den anden søndag i november. Der løbes her på baner på ca. 25 km for eliten, ca. 18 km for deltagere mellem 35 og 55 år og på ca. 12 km for deltagere over 55. Løbstiderne i minutter for 18 deltagere i klassen H65, det vil sige herrer der er fyldt 65 år, i 1994 er vist nedenfor a) Udfyld skemaet i Tabel 1.5. b) Tegn kassediagrammet. c) Beregn empirisk middelværdi og varians. Opgave 1.2 (Andersen 1998) I 1993 var løbstiderne for de 23, der gennemførte Jættemilen i klassen H65, opgjort i minutter: Beskriv fordelingen ved passende grafiske metoder. Opgave 1.3 (Andersen 1998) Tabellen viser kondital for en række idrætsudøvere a) Opstil den ordnede stikprøve og bestem de empiriske fraktiler svarende til observationerne. b) Beskriv fordelingen ved passende grafiske metoder. c) Vurder fordelingens eventuelle skævhed og undersøg om der er ekstreme observationer. Opgave 1.4 (Andersen 1998) Kondital for 17 ikke-aktive idrætsudøvere (ordnet efter størrelse)

54 1.42 Opgaver a) Udfyld skemaet i Tabel 1.5. b) Tegn kassediagrammet. c) Beregn empirisk middelværdi og varians. Opgave 1.5 (Andersen 1998) Følgende vægte i kg blev målt for 30 unge idrætsudøvere a) Opstil den ordnede stikprøve. b) Beregn de fem fraktiler i fempunktsopsummeringen, samt 45% og 70% fraktilerne. c) Vurder om fordelingen er skæv og om der er ekstreme observationer. Opgave 1.6 (Andersen 1998) Måltider i orienteringsløb. Tallene stammer fra enkeltstartsløbet Classic under Spring Cup, som arrangeres af FIF Hillerød. Tallene i tabllen nedenfor viser antallet x af løbere, der passerer mål for hvert halve minut i de 100 halvminutsintervaller fra og tilsvarende for de 100 halvminutsintervaller fra For eksempel er der 10 intervaller i tidsrummet hvor der er 3 løbere, der har passeret mål antal antal x intervaller x intervaller Sum 100 Sum 100

55 1.43 Sammenlign de to observerede fordelinger ved hjælp af: a) søjlediagrammer b) fempunktsopsummeringer Opgave 1.7 Tabellen nedenfor viser antallet af mål scoret i samtlige kampe i henholdsvis Jyllandsseriens sydkreds i 1995 og Jyllandsseriens nordkreds i Der er altså scoret j mål i a j kampe. Sydkreds 1995 Nordkreds 1996 antal( j) observeret (a j ) observeret (a j ) ialt Sammenlign de to fordelinger ved hjælp af passende numeriske og grafiske metoder. Opgave 1.8 (Andersen 1998) Tabellen nedenfor viser tidsdifferenser mellem to på hinanden følgende løbere på resultatlisten i eliteklassenklassen H21E1 ved Spring Cup 1996 fordelt på en antal intervaller. Det er for eksempel sket 91 gange at to løbere er kommet ind med en

56 1.44 Opgaver tidsforskel på mindre end 5 sek tidsinterval observeret (sek) antal løbere Sum 168 a) Lav et histogram for den observerede fordeling. Bemærk, at tidsintervallerne ikke er lige lange. (Sæt den øvre grænse for intervallet 50- til 70.) b) Beregn empirisk middelværdi og varians. Opgave 1.9 (Andersen 1998) Tabellen viser vægtfordelingen for 555 drenge og 723 piger i 1983, og for 327 drenge og 413 piger i 1985, der deltog i forskningsprojektet: Ungdom og Idræt Vægt (kg) Drenge Piger Drenge Piger

57 1.45 a) Lav histogrammer og kassediagrammer for alle fire fordelinger (Sæt minimumsvægten til 30 kg og maksimumsvægten til 110 kg). b) Benyt disse til at beskrive forskellene mellem drenge og piger, og mellem tilstanden i 1983 og tilstanden i Opgave 1.10 (Andersen 1998) Højdefordelingen, svarende til vægtfordelingen i Opgave 1.9 er vist nedenfor Højde (cm) Drenge Piger Drenge Piger a) Benyt kassediagrammer til at vurdere om fordelingerne er skæve (Sæt den minimale højde til 141 cm og den maksimale til 210 cm.) b) Benyt desuden kassediagrammerne til at sammenligne højdeforskellene både mellem køn og mellem år. Opgave 1.11 (Andersen 1998) For 3869 unge fra forskningsprojektet Idræt og Ungdom opgjorde man idrætsaktiviteterne pr. uge for rygere og ikke-rygere. De observerede tal var: Idrætsaktiv Antal Timer pr. uge Rygere Ikke rygere Ialt

58 1.46 Opgaver Sammenlign fordelingerne af rygere og ikke-rygeres idrætsmæssige aktivitetsniveau ved hjælp af passende grafiske metoder. Opgave 1.12 I en undersøgelse fra 1991 undersøgte man en række forhold omkring de 290 personer i live i 1991 (populationen), der havde spillet, eller spillede, professionel fodbold i udlandet. Det lykkedes at finde frem til adresser på 214 (adresselisten) af disse personer. Tabellerne viser dels fordelingen på oprindeligt hjemsted, det vil sige hvor spilleren havde spillet i børne- og ungdomsårene, og på udrejseår. Udrejseår Populationen Adresselisten Ialt Hjemsted Populationen Adresselisten København Sjælland (-Kbh.) Fyn Jylland Ialt a) Beskriv hver af de fire fordelinger ved hjælp af passende grafiske metoder. b) Hvad fortæller graferne om det kritiske spørgsmål: Er adresselisten repræsentativ for populationen? Opgave 1.13 (Andersen 1998) Fra den samme undersøgelse som i Opgave 1.12 stammer nedenstående tabel, der viser hvor mange af dem, der besvarede spørgsmålet (en del spillede stadig i udlandet, og følte måske, at spørgsmålet ikke var relevant), der angav om de havde haft fast

59 1.47 plads på 1-holdet hele tiden i udlandet, en del af tiden, halvdelen af tiden, i perioder eller aldrig. Udrejse før Udrejse efter Fast plads på 1-holdet Hele tiden Det meste af tiden 9 9 Halvdelen af tiden 2 6 I perioder 4 2 Aldrig 0 3 Ialt a) Beskriv fordelingen på de fem svarkategorier både for dem, der rejste ud før 1976, og for dem, der rejste ud efter 1976, ved hjælp af passende grafiske metoder. b) Er der forskel på svarfordelingerne for dem, der rejste ud før 1976, og for dem, der rejste ud efter 1976? c) Beskriv eventuelle forskelle ved velvalgte grafer. Opgave 1.14 (Andersen 1998) Glycogen indholdet (i mmol/kg tørvægt) i benmusklerne før og efter en træningsperiode på 3 uger hos 8 forsøgspersoner er vist nedenfor. forsøgsperson før efter nr. træning træning a) Indtegn observationerne i et koordinatsystem (det vil sige tegn (før,efter) ). b) Beregn empiriske middelværdi og varians for de to observationsrækker. c) Beregn den empiriske korrelation mellem de to observationsrækker.

60 1.48 Opgaver

61 2 Begreber fra sandsynlighedsteorien Begreber fra sandsynlighedsteorien Som det vil fremgå af de følgende kapitler er sandsynlighedsteorien det vigtigste hjælpemiddel ved formuleringen og analysen af statistiske modeller til beskrivelse af udfald - data - fra eksperimenter, der er underkastet tilfældige variationer. Sandsynlighedsteorien er netop den matematiske disciplin, der beskæftiger sig med at modellere tilfældig variation. Dette kapitel er at betragte som en kortfattet summarisk oversigt over de begreber og resultater fra sandsynlighedsteorien, som benyttes i det følgende. Kapitlet indeholder ingen matematiske beviser, idet hensigten blot er at definere og illustrere brugen af de relevante begreber og altså ikke at udvikle en præcis matematisk teori. Eksemplerne i kapitlet er valgt ud fra det princip, at de skal belyse begreberne uden at matematikken bliver alt for vanskelig. Kapitlet skal også ses som en forberedelse til Kapitel 3, der resumerer egnskaber ved en række fordelinger, der benyttes i de senere kapitler. Nogle få og måske ikke så velkendte matematiske begreber, der benyttes i kapitlet, er omtalt i Appendiks A. 2.1 Sandsynlighedsrum Definitionen af sandsynlighedsrum involverer matematiske begreber, som er omtalt i Appendiks A. I Afsnit A.1 repeteres notationen fra mængdelæren og i Afsnit A.2 defineres begrebet en uendelig række, som indgår i Definition 2.1 nedenfor Definition af sandsynlighedsmål Et sandsynlighedsmål P på et udfaldsrum E er en funktion, der til en delmængde A af mængden E tilordner et tal P(A), som ligger i intervallet [0,1]. Funktionen skal opfylde to betingelser som angivet i Definition 2.1 Et sandsynlighedsmål P på udfaldsrummet E er en funktion P : E A P(A) [0,1],

62 Sandsynlighedsrum der opfylder de to betingelser: 1) P(E) = 1. 2) Hvis A 1,A 2,... er en tællelig mængde af parvis disjunkte mængder, A i A j = /0, i j, så er P( A i ) = i=1 i=1 P(A i ). (2.1) Bemærkinger I (2.1) er i=1 P(A i) en uendelige række, der beregnes som grænseværdien af n i=1 P(A i) = P(A 1 )+ +P(A n ) for n, se Afsnit A.2. Hvis E er et interval (åbent, halvåbent eller lukket) fra a( ) til b( ), indeholder E mange mystiske delmængder, som man sædvanligvis ikke er interesseret i at beregne sandsynligheden for. Man indskrænker sig derfor til at beregne sandsynligheder for en mængde af delmængder, F = {A : A E}, hvor F opfylder de to betingelser: a) A F A C F b) A n F, n = 1,2,..., A n F n=1 og A n F. n=1 Hvis P kun er defineret for mængder i F omtales P som et sandsynlighedsmål på(e,f). Elementerne i F omtales da som målelige mængder og triplet (E,F,P) kaldes et sandsynlighedsrum. Elementer i E omtales som udfald og delmængder i F som hændelser. En hændelse A indtræffer, hvis e A, det vil sige hvis udfaldet e er i mængden A. Sædvanligvis vælges F som den mindste mængde af delmængder af intervallet fra a til b, som opfylder betingelserne a) og b) og som indeholder alle intervaller, der er indeholdt i intervallet fra a til b. Disse delmængder er karakteriseret ved, at hvis A F kan man beregne længden A af A.

63 Regneregler for sandsynligheder Ud fra Definition 2.1 kan man vise en række af regneregler for sandsynlighedsmål. I sætningen nedenfor gengives de regneregler, vi har brug for. Sætning 2.1 Hvis P er et sandsynlighedsmål påe og A,B,A 1,...,A n er delmænger af E gælder der: P(/0) = 0. (2.2) P(A\B) = P(A) P(B), hvis A B. (2.3) P(A C ) = 1 P(A). (2.4) P(A B) = P(A)+P(B) P(A B). (2.5) Hvis A 1,...,A n er parvis disjunkte er P(A 1 A n ) = P(A 1 )+ +P(A n ). (2.6) A B A A\B P(A\B)=P(A) P(B) A C C P(A )= 1 P(A) A B A A B B P(A B)=P(A)+P(B) P(A B) P(A B)=P(A)+P(B) hvis A B= Figur 2.1 Illustration af nogle af egenskaberne ved et sandsynlighedsmål P.

64 Sandsynlighedsrum Eksempel 2.1 Hvis udfaldsrummet E er en endelig mængde med #E elementer kan det vises, at antallet af delmængder af E er 2 #E. Sandsynlighedsmålet påe givet ved at en delmængde A har sandsynligheden P(A) = #A (2.7) #E kaldes det uniforme sandsynlighedsmål på E. Sandsynligheden for en delmængde A er altså blot antallet af elementer i A divideret med antallet af elementer i E, specielt gælder der, at alle elementer e i E har samme sandsylighed, nemlig P({e}) = 1 #E, e E. Eksempel 2.2 Betragt to kampe på tipskuponen. Udfaldsrummet E svarende hertil er 2.kamp 1 X 2 1 (1,1) (1,X) (1,2) 1.kamp X (X,1) (X,X) (X,2) 2 (2,1) (2,X) (2,2) Da #E = 9 har samtlige udfald af de to kampe sandsynligheden 1 9 under det uniforme sandsynlighedsmål på E. er Vi illustrerer nu nogle af regnereglerne i Sætning 2.1 i dette simple eksempel. Lad A være hændelsen at de to kampe giver samme tegn. Da A = { (1,1) (X,X) (2,2) } P(A) = #A #E = 3 9 = 1 3. Hvis B er hændelsen at de to kampe giver forskelligt tegn, er B den komplementære hændelse til A, det vil sige at B = A C, og af (2.4) fås at hvilket stemmer overens med at P(B) = P(A C ) = 1 P(A) = = 2 3, B = { (1,X) (1,2) (X,1) (X,2) (2,1) (2,X) }.

65 2.5 Lad C 1 og C 2 betegne hændelserne at vi får et 2-tal i første henholdsvis anden kamp, det vil sige at C 1 = { (2,1) (2,X) (2,2) } og P(C 1 ) = 1 3 samt at C 2 = { (1,2) (X,2) (2,2) } og P(C 2 ) = 1 3. Lad C betegne hændelsen at de to kampe giver mindst et 2-tal, det vil sige at C = { (1,2) (X,2) (2,2) (2,1) (2,X) } og P(C) = 5 9. Denne sandsynlighed kunne vi også have beregnet ved hjælp af formel (2.5), idet C = C 1 C 2. Da C 1 C 2 = { (2,2) } fås af (2.5), at P(C) = P(C 1 C 2 ) = P(C 1 )+P(C 2 ) P(C 1 C 2 ) = = 5 9. Lad D betegne hændelsen at præcis én af de to kampe giver et 2-tal, det vil sige at D = { (1,2) (X,2) (2,1) (2,X) } og P(D) = 4 9. Da D = C \(C 1 C 2 ) kunne denne sandsynlighed - ved hjælp af formel (2.3) - beregnes som P(D) = P(C) P(C 1 C 2 ) = = 4 9. Eksempel 2.3 Lad E = ]a,b[ være et endeligt interval på den relle akse. Lad A være en målelig delmængde af E og lad A betegne længden af A. Det uniforme sandsynlighedsmål på E tilordner til A sandsynligheden P(A) = A E = A b a. (2.8) Hvis specielt E = ]0,1[ og P er det uniforme sandsynlighedsmål på E, omtales et udfald e E ofte som et tilfældigt tal mellem 0 og 1. Tilfældige tal kan man for eksempel benytte, når man ønsker frembringe udfald af tilfældige størrelser, hvis sandsynligheder er specificeret. Antag for eksempel at en tipsekspert har opgivet

66 Sandsynlighedsrum procenterne 60, 30 og 10 for henholdvis hjemmesejr, uafgjort og udesejr i en bestemt kamp på tipskuponen. Lad e betegne et tilfældigt tal mellem 0 og 1. Tipper vi 1, hvis 0.0 < e < 0.6, X, hvis 0.6 < e < 0.9, 2, hvis 0.9 < e < 1.0, har vi lavet et tilfældigt tipstegn i overensstemmelse med ekspertens procenter, idet P(tippe 1) = ]0.0,0.6[ ]0, 1[ = = 0.6, og P(tippe X) = ]0.6,0.9[ ]0, 1[ P(tippe 2) = ]0.9,1.0[ ]0, 1[ = = 0.3 = = Betingede sandsynligheder og uafhængighed Definition 2.2 Hvis A og B er to hændelser, således at P(B) > 0, kaldes størrelsen P(A B) = P(A B) P(B) (2.9) den betingede sandsynlighed af A givet B. Hvis P(B) = 0 er den betingede sandsynlighed ikke defineret. Definition 2.3 Hændelserne A 1,...,A n er indbyrdes uafhængige hvis P(A i1 A i j ) = P(A i1 ) P(A i j ), (2.10) hvor {i 1,...,i j } {1,2,...,n}, j = 2,...,n. Med andre ord er de n hændelser indbyrdes uafhængige, hvis der gælder, at sandsynligheden for fællesmængden af j af hændelserne er lig med produktet af de tilsvarende j sandsynligheder. Specielt er hændelserne A og B uafhængige, hvis P(A B) = P(A)P(B). (2.11)

67 2.7 A B A B P(A B)=P(A B)/P(B) Figur 2.2 Illustration af definitionen af den betingede sandsynlighed P(A B) af A givet B. Bemærkning Af (2.9) og (2.11) ses, at A og B er uafhængige P(A B) = P(A), det vil sige, at A og B er uafhængige, hvis og kun hvis sandsynligheden for A er den samme uanset om vi ved, at B er indtruffet eller ej. For betingede sandsynligheder har vi følgende regneregler: Sætning 2.2 (Omvendt betinget sandsynlighed) Hvis de tre størrelser P(A) > 0, P(B) > 0 og P(A B) alle er kendte, er P(B A) = P(A B)P(B). (2.12) P(A) (Loven om total sandsynlighed) Hvis B 1,...,B n er en disjunkt opdeling af E, det vil sige, at ni=1 B i = E, og B i B j = /0, i j, og P(B i ) > 0 og P(A B i ), i = 1,...,n, alle er kendte, er og P(A) = n i=1 n i=1 Formel (2.14) omtales ofte som Bayes formel. P(A B i )P(B i ) (2.13) P(B k A) = P(A B k)p(b k ). (2.14) P(A B i )P(B i )

68 Sandsynlighedsrum E A B B B n B Figur 2.3 Illustration af antagelserne i Sætning 2.2. Eksempel 2.4 Som bekendt har et superligahold forskellige chancer for henholdsvis sejr, uafgjort og nederlag alt efter om holdet spiller på hjemmebane eller på udebane. Antag, at disse chancer for et bestemt hold er specificeret ved følgende betingede sandsynligheder sejr uafgjort nederlag P( hjemme ) p 1 q 1 r 1 P( ude ) p 2 q 2 r 2 hvor p 1 + q 1 + r 1 = 1 og p 2 + q 2 + r 2 = 1. Antag desuden, at holdet hører til de heldige, der spiller 17 af turneringens 33 kampe på hjemmebane, det vil sige, at P( hjemme ) = og P( ude ) = Ved hjælp af (2.13) finder vi, at sandsynligheden for sejr i en tilfældig kamp er P( sejr ) = P( sejr hjemme )P( hjemme )+P( sejr ude )P( ude ) 17 = p p = 17p p Tilsvarende bliver sandsynligheden for henholdsvis uafgjort og nederlag i en tilfældig kamp P( uafgjort ) = 17q q 2 33

69 og P( nederlag ) = 17r r Ved hjælp af (2.12) kan vi beregne sandsynligheden for at holdet har spillet på hjemmebane givet det har vundet, nemlig som P( sejr hjemme )P( hjemme ) P( hjemme sejr ) = P( sejr ) 17 p 1 = 33 17p p p 1 =. 17p p Eksempel 2.5 Antag, at udfaldene af hjemmekampene, som et hold spiller, er uafhængige og at holdet i alle hjemmekampene har samme sandsynlighed henholdsvis p, q og r for sejr, uafgjort og nederlag, hvor p+q+r = 1. Hvis S i, U i og N i betegner betegner hændelserne henholdsvis sejr, uafgjort og nederlag i den i te hjemmekamp har vi altså P(S i ) = p, P(U i ) = q og P(N i ) = r. Da resultaterne i de forskellige hjemmekampe er uafhængige har vi for eksempel, at sandsynligheden for sejr i første hjemmekamp, nederlag i anden og sejr i tredje er P(S 1 N 2 S 3 ) = P(S 1 )P(N 2 )P(S 3 ) = prp og mere generelt, for eksempel, P(S 1 N 2 S 3 U j 1 N j U j+1 S n ) = prp...qrq... p. 2.2 Stokastiske variable Det helt centrale begreb i sandsynlighedsregningen er stokastiske variable og vektorer. Hvis (E,F,P) er et sandsynlighedsrum er en stokastisk variabel en funktion X defineret på udfaldsrummet E med værdier i R, den reele akse. Hvis udfaldet e E indtræffer antager den stokastiske variabel X værdien X(e). Ved at lægge en simpel betingelse på X kan man ved hjælp af

70 Stokastiske variable sandsynlighedsudsagn beskrive variationen af X - eller fordelingen af X - inden udfaldet e er kendt. Vi indskrænker os til at omtale to typer af stokastiske variable, nemlig diskrete stokastiske variable, som bruges til at modellere tælledata med, og kontinuerte stokastiske variable, der benyttes i forbindelse med kontinuerte data. Ved valget af eksempler i dette afsnit er der igen lagt vægt på at eksemplerne skal være nemme at håndtere matematisk. Kapitel 3 giver en oversigt over nogle af de mest anvendte fordelinger i statistik. Definition 2.4 Lad (E, F, P) være et sandsynlighedsrum. En afbildning X fra E ind i R, X : E R e X(e) kaldes en stokastisk variabel hvis {e E : X(e) x} F, for alle x R. Vi bruger {X x} som forkortelse for {e E : X(e) x}. For en stokastisk variabel X gælder der altså for alle x R at {e E : X(e) x} F. Vi kan derfor beregne sandsynligheden P({e E : X(e) x}) og beskrive variationen af X ved hjælp af sandsynlighedsudsagn, hvilket begrunder følgende definition: Definition 2.5 Funktionen F fra R ind i [0,1] givet ved F : R [0,1] x F(x) = P(X x) kaldes fordelingsfunktionen for X. Helt præcist er F(x) = P({e E : X(e) x}). Sætning 2.3 En fordelingsfunktion F for en stokastisk variabel X har følgende egenskaber : a) F(x) [0,1], x R b) F er voksende: x 1 < x 2 F(x 1 ) F(x 2 ) c) F(x) x 0 og F(x) x 1 d) F er højrekontinuert, det vil sige F(x) = F(x+). Endvidere gælder der P(X ]a,b]) = F(b) F(a) (2.15) P(X = x) = F(x) F(x ). (2.16) I statistikken benytter vi ofte begrebet p-fraktil, som defineret i Definition 2.6 nedenfor, samt resultatet i Sætning 2.4.

71 2.11 Figur 2.4 Fordelingsfunktionen F for en stokastisk variabel X. Springet af F i x = 1 er P(X = 1). Endvidere er vist udvalgte fraktiler for F: x 0.05 = 2.5, x 0.3 = x 0.4 = 1.0 og x = [1,2]. Definition 2.6 For p [0, 1] defineres p-fraktilen for F som mængden x p = {x R : F(x ) p F(x)} (2.17) Fraktilerne x 0.25 og x 0.75 omtales som henholdsvis nedre og øvre kvartil, mens x 0.5 kaldes medianen. For fraktiler gælder der følgende resultat: Sætning 2.4 Antag, at Y har fordelingsfunktionen F Y samt af X = α +βy (β > 0). Fordelingsfunktionen F X for X er og sammenhængen mellem fraktilerne x p og y p for X og Y er y p = x p α β F X (x) = F Y ( x α β ) (2.18) = { x α β : x x p }. (2.19)

72 Stokastiske variable Eksempel 2.6 Lad P betegne det uniforme sandsynlighedsmål på E = ]0,1[, se Eksempel 2.3, og lad X være defineret ved at X(e) = e, e E = ]0,1[. Da /0, hvis x 0 {e ]0,1[ : X(e) x} = ]0,x], hvis 0 < x < 1 ]0,1[, hvis x 1, og da vi kan finde længderne af intervallerne på højre side i ligningen ovenfor, er X en stokastisk variabel. Ved hjælp af (2.8) ses, at fordelingsfunktionen F for X er 0, hvis x 0 F(x) = P({e E : X(e) x}) = x, hvis 0 < x < 1 1, hvis x 1.. (2.20) Da denne funktion er kontinuert og strengt voksende fås, at i dette tilfælde er x p = p for p ]0,1[. Den stokastiske variabel X siges at være uniformt fordelt på intervallet ]0, 1[, hvilket ofte kort skrives X R(0, 1). Vi skal udelukkende beskæftige os med to typer af stokastiske variable, nemlig diskrete stokastiske variable, der er karakteriseret ved at deres fordelingsfunktioner er trappefunktioner, og kontinuerte stokastiske variable, hvis fordelingsfunktioner er kontinuerte Diskrete stokastiske variable Definition 2.7 En stokastisk variabel X siges at være diskret hvis dens fordelingsfunktion F er en trappefunktion med endeligt eller tælleligt mange spring, se Figur 2.5. En trappefunktion kan karakteriseres ved to ting, nemlig ved placeringen og højden af trappetrinnene. Dette er baggrunden for Definition 2.8 Sandsynlighedsfunktionen (tæthedsfunktionen) f for diskret stokastisk variabel X, hvis fordelingsfunktion F har spring i punkterne {x i : i I} hvor I er en endelig eller tællelig mængde, er defineret ved f : R [0,1] x f(x),

73 2.13 Figur 2.5 Fordelingsfunktionen F og sandsynlighedsfunktionen f for en diskret stokastisk variabel.

74 Stokastiske variable hvor P(X = x i ), hvis x = x i f(x) = 0, ellers. Mængden {x i : i I} omtales som støtten for den diskrete stokastiske variabel X. Sætning 2.5 Sandsynlighedsfunktionen f for en diskret stokastisk variabel X har de følgende tre egenskaber: som a) f(x) 0, x R b) f(x) 0 x {x i : i I}, hvor I er en endelig eller tællelig mængde c) i I f(x i ) = 1 Endvidere kan sandsynligheden P(X A) for hændelsen { X A}, hvor A R, beregnes P(X A) = f(x i ) (2.21) {i I;x i A} Endelig gælder der, at givet en funktion f, der opfylder de tre betingelser, findes der en diskret stokastisk variabel X, så f er sandsynlighedsfunktionen for X. Sætning 2.6 Hvis støtten {x i : i I} for en diskret stokastisk variabel X er indeholdt i mængden {0,1,2,...,} er der følgende sammenhæng mellem fordelingsfunktionen F og sandsynhedsfunktionen f : f(0) = F(0) og Eksempel 2.7 F(x) = x f(i), x = 0,1,2,..., (2.22) i=0 f(x) = F(x) F(x 1), x = 1,2,.... (2.23) Betragt de to kampe på tipskuponen i Eksempel 2.2. Lad X betegne det totale antal point for hjemmeholdene i de to kampe, idet sejr, uafgjort og nederlag - som sædvanlig - giver henholdsvis 3, 1 og 0 point. Vi har da at 0, hvis e = (2,2), 1, hvis e { (X,2),(2,X) }, 2, hvis e = (X,X), X(e) = 3, hvis e { (1,2),(2,1) }, 4, hvis e { (1,X),X,1) }, 6, hvis e = (1,1).

75 2.15 Under det uniforme sandsynlighedsmål påe, det vil sige hvis de 9 udfald af de to kampe er lige sandsynlige, bliver sandsynlighedsfunktionen for X lig med 1/9, hvis x = 0, 2/9, hvis x = 1, 1/9, hvis x = 2, f(x) = 2/9, hvis x = 3, 2/9, hvis x = 4, 1/9, hvis x = 6, se Figur 2.5. Eksempel 2.8 Betragt Eksempel 2.5 og lad X betegne antallet af hjemmekampe holdet spiller inden første sejr. Da hændelsen S C i = U i N i svarer til uafgjort eller nederlag i det i te hjemmekamp har vi {X = 0} = S 1 {X = 1} = S C 1 S 2. {X = i} = S C 1 SC 2 SC i 1 SC i S i+1. og da P(S C i ) = 1 P(S i) = 1 p ses, idet resulaterne af hjemmekampene er uafhængige, at P(X = i) = (1 p) i p, i = 0,1,.... Det faktum, at vi i forbindelse med definitionen af sandsynlighedsmål er nødt til at introducere uendelige rækker, kan let illustreres i dette eksempel. Antag nemlig, at vi er interesseret i at beregne sandsynligheden for at holdet skal spille et lige antal hjemmekampe inden første hjemmesejr, det vil sige sandsynligheden for hændelsen X {0,2,4,...}. Da hændelsen er en tællig foreningsmængde af de disjunkte mængder {X = 2i}, i = 0,1,..., fås af (2.1), at P(X {0,2,4,...}) = = = p i=0 i=0 P(X = 2i) (1 p) 2i p i=0 ((1 p) 2 ) i.

76 Stokastiske variable Benytter vi nu (A.3) med q = (1 p) 2 fås 1 P(X {0,2,4,...}) = p 1 (1 p) 2 = p 1 p(2 p) = 1 2 p Kontinuerte stokastiske variable Definition 2.9 En stokastisk variabel X siges at være kontinuert hvis der findes en integrabel funktion f : R [0, [ x f(x), så fordelingsfunktionen F for X er givet ved F(x) = x f(z)dz, x R. (2.24) Funktionen f kaldes tæthedsfunktionen (sandsynlighedsfunktionen) for X. (Sammenhængen mellem F og f er illustreret i Figur 2.6). Mængden {x R : f(x) > 0} omtales som støtten for X. Sætning 2.7 Tæthedsfunktionen f for en kontinuert stokastisk variabel X har de følgende to egenskaber: a) f(x) 0, x R b) f(x)dx = 1. Endvidere kan sandsynligheden P(X A) for hændelsen {X A}, hvor A R er en målelig mængde, beregnes som P(X A) = A f(x)dx. (2.25) Endelig gælder der, at givet en funktion f, der opfylder de to betingelser, findes der en kontinuert stokastisk variabel X, så f er tæthedsfunktionen for X. Sætning 2.8 Hvis X er en kontinuert stokastisk variabel med tæthedsfunktion f og fordelingsfunktion F gælder der: a) F er kontinuert b) P(X = x) = 0, for alle x R c) Hvis f er kontinuert i x, gælder der at f(x) = F (x)

77 2.17 Figur 2.6 Fordelingsfunktionen F og tæthedsfunktionen f for en kontinuert stokastisk variabel. Værdien F(1) af F i punktet x = 1 er lig med arealet af det skraverede område i tegningen af f.

78 Stokastiske variable d) Hvis I x er et lille interval af længde x omkring x er P(X I x ) f(x) x, (2.26) se Figur 2.7. Figur 2.7 Illustration af formel (2.26). Arealet af det skraverede område er næsten lig med arealet af firkanten afgrænset af de fuldt optrukne linjer. Eksempel 2.9 Lad f være funktionen givet ved { 1, hvis 0 < x < 1 f(x) = 0, ellers. Da x 0, hvis x 0 f(z)dz = x, hvis 0 < x < 1 1, hvis x 1, ses af (2.20), at f er tæthedsfunktionen for den uniforme fordeling på intervallet ]0,1[.

79 Stokastiske vektorer Definition 2.10 Lad (E,F,P) være et sandsynlighedsrum. En afbildning X fra E ind i R k, X : E R k e X(e) = (X 1 (e),...,x j (e),...,x k (e)) kaldes en stokastisk vektor, hvis komponenterne X j, j = 1,...,k, er stokastiske variable, se Definition 2.4. Definition 2.11 Hvis X = (X 1,...,X k ) er en stokastisk vektor kaldes funktionen F X : R k [0,1] x = (x 1,...,x k ) F X (x), givet ved F X (x) = P(X x) = P(X 1 x 1,...,X k x k ), for fordelingsfunktionen for X Diskrete stokastiske vektorer Definition 2.12 Lad X = (X 1,...,X k ) være en stokastisk vektor. Hvis der findes en delmængde {x i : i I} af R k, hvor I er en endelig eller tællelig mængde, således at funktionen opfylder de to betingelser f : R k [0,1] a) f(x) 0 hvis og kun hvis x {x i : i I} b) i I f(x i ) = 1 x f(x) = P(X = x), siges X at være en diskret k-dimensional stokastisk vektor med sandsynlighedsfunktion (eller tæthedsfunktion) f og med støtte {x i : i I}. Hvis A er en delmængde af R k beregnes sandsynligheden for hændelsen {X A} som Eksempel 2.10 P(X A) = f(x i ). {i I:x i A} Betragt igen Eksempel 2.2 vedrørende udfaldet af to kampe på tipskuponen. Lad X 1 og X 2

80 Stokastiske vektorer betegne antallet af point hjemmeholdet får i henholdsvis første og anden kamp. Værdierne som vektoren (X 1,X 2 ) antager på udfaldsrummet E 2.kamp 1 X 2 1 (1,1) (1,X) (1,2) 1.kamp X (X,1) (X,X) (X,2) 2 (2,1) (2,X) (2,2) er (X 1,X 2 ) 2.kamp 1 X 2 1 (3, 3) (3, 1) (3, 0) 1.kamp X (1, 3) (1, 1) (1, 0) 2 (0, 3) (0, 1) (0, 0) Hvis samtlige udfald af de to kampe er lige sandsynlige er (X 1,X 2 ) en diskret stokastisk vektor hvis sandsynlighedsfunktion er konstant - med værdien 1/9 - på støtten {(0,0), (0,1), (0,3), (1,0), (1,1), (1,3), (3,0), (3,1), (3,3)} Kontinuerte stokastiske vektorer Definition 2.13 En stokastisk vektor X = (X 1,...,X k ) siges at være kontinuert hvis der findes en integrabel funktion f : R k [0, [ x f(x), så fordelingsfunktionen F for X er givet ved at for alle x = (x 1,...,x k ) R k er F(x) = F(x 1,...,x k ) = x x 1 f(z)dz z =... x k f(z 1,...,z k )dz k...dz 1,. Funktionen f kaldes tæthedsfunktionen (sandsynlighedsfunktionen) for X og mængden {x R k : f(x) > 0} omtales som støtten for X. Hvis A er en målelig delmængde af R k beregnes sandsynligheden for hændelsen {X A} som P(X A) = f(x)dx. A

81 2.21 Sætning 2.9 Hvis X = (X 1,...,X k ) er en kontinuert stokastisk vektor gælder der at P(X = x) = 0, x R k, og hvis f er kontinuert i x kan tæthedsfunktionen f findes fra F ved partiel differentation, se Afsnit A.3.2, idet f(x) = f(x 1,...,x k ) = k F x 1... x k (x). Eksempel 2.11 Lad E være en delmængde af R 2 hvis areal E = E 1dx 2 dx 1 er endeligt. Den kontinuerte stokastiske vektor (X 1,X 2 ) hvis tæthedsfunktion er 1 f (X1,X 2 )(x 1,x 2 ) = E, hvis (x 1,x 2 ) E 0, ellers, (2.27) kaldes den uniforme fordeling på E. Hvis A er en delmængde af E med areal A har vi P((X 1,X 2 ) A) = f (X1,X 2 )(x 1,x 2 )dx 2 dx 1 A 1 = A E dx 2dx 1 = 1 1dx 2 dx 1 = A E E, sammenlign med (2.8). Lad for eksempel E = ]0,1[ 2 = {(x 1,x 2 ) : 0 < x 1 < 1, 0 < x 2 < 1}. Da E = 1 har den uniforme fordeling på denne mængde tæthedsfunktion { 1, hvis 0 < x1 < 1 og 0 < x 2 < 1 f (X1,X 2 )(x 1,x 2 ) = 0, ellers. Den tilsvarende fordelingsfunktion er F (X1,X 2 )(x 1,x 2 ) = x1 x2 A 0, hvis x 1 0 eller x 2 0 x 1 x 2, hvis 0 < x 1 < 1 og 0 < x 2 < 1 f (X1,X 2 )(z 1,z 2 )dz 2 dz 1 = x 1, hvis 0 < x 1 < 1 og x 2 1 x 2, hvis x 1 1 og 0 < x 2 < 1 1, hvis x 1 1 og x 2 1.

82 Stokastiske vektorer Marginale fordelinger Fordelingen af X = (X 1,...,X j,...,x k ) omtales som den simultane fordeling, mens fordelingen af X j kaldes den marginale fordeling af X j, j = 1,...,k. En generel sætning siger, at tæthedsfunktionen f X j for den marginale fordeling af X j bestemmes ved at summere eller integrere de øvrige variable, det vil sige x 1,..., x j 1, x j+1,..., x k, ud i den simultane tæthedsfunktion f (X1,...,X k )(x 1,...,x k ). For overskuelighedens skyld formuleres denne sætning blot i tilfældet k = 2 i Sætning 2.10 Lad X = (X 1,X 2 ) være en todimensional stokastisk vektor. i) Hvis X kontinuert er X 1 og X 2 kontinuerte med tæthedsfunktioner f X1 (x 1 ) = f X2 (x 2 ) = f (X1,X 2 )(x 1,x 2 )dx 2 f (X1,X 2 )(x 1,x 2 )dx 1. (2.28) ii) Hvis X diskret med støtte {x i = (x i1,x i2 ) : i I} er X 1 og X 2 diskrete med sandsynlighedsfunktioner f X1 (x 1 ) = f X2 (x 2 ) = f (X1,X 2 )(x i1,x i2 ) {i I : x i1 =x 1 } f (X1,X 2 )(x i1,x i2 ). {i I : x i2 =x 2 } (2.29) Eksempel 2.10 (Fortsat) Ved hjælp af (2.29) finder vi, at marginal fordelingen for X 1 - hjemmeholdets point i den første kamp - har sandsynlighedsfunktion f X1 (0) = f (X1,X 2 )(0,0)+ f (X1,X 2 )(0,1)+ f (X1,X 2 )(0,3) = = 1 3 f X1 (1) = f (X1,X 2 )(1,0)+ f (X1,X 2 )(1,1)+ f (X1,X 2 )(1,3) = = 1 3 f X1 (3) = f (X1,X 2 )(3,0)+ f (X1,X 2 )(3,1)+ f (X1,X 2 )(3,3) = = 1 3, svarende til, at de tre udfald i den første kamp er lige sandsynlige. Af symmetri grunde har X 2 samme sandsynlighedsfuktion som X 1.

83 2.23 Eksempel 2.11 (Fortsat) Ved hjælp af (2.28) finder vi, at den marginale fordeling for X 1 svarende til den uniforme fordeling på ]0,1[ 2 har tæthedsfunktion f X1 (x 1 ) = f (X1,X 2 )(x 1,x 2 )dx 2 = 1 0 1dx 2 = 1, hvis 0 < x 1 < 1 0dx 2 = 0, ellers, det vil sige, at X 1 er uniformt fordelt på ]0,1[, kort X 1 R(0,1), se Eksempel 2.9. Af symmetri grunde har vi også at X 2 R(0,1). Eksempel 2.12 Lad E være det indre af trekanten med vinklelspidser (0,0), (1,0) og (1,1), det vil sige, at E = {(x 1,x 2 ) R 2 : 0 < x 2 < x 1 < 1}. Da E = 1/2, er tæthedsfunktionen - ifølge (2.27) - for en uniformt fordelt stokastisk vektor (X 1,X 2 ) på E { 2, hvis 0 < x2 < x 1 < 1 f (X1,X 2 )(x 1,x 2 ) = 0, ellers. For fast x 1 ]0,1[ har vi at (x 1,x 2 ) E hvis og kun hvis 0 < x 2 < x 1, så ved hjælp af (2.28) finder vi, at marginal fordelingen for X 1 har tæthedsfunktion f X1 (x 1 ) = f (X1,X 2 )(x 1,x 2 )dx 2 = x 1 0 2dx 2 = 2x 1, hvis 0 < x 1 < 1 0dx 2 = 0, ellers. Tilsvarende, for fast x 2 ]0,1[ har vi at (x 1,x 2 ) E hvis og kun hvis x 2 < x 1 < 1, så den marginale fordeling for X 2 har tæthedsfunktion f X2 (x 2 ) = 1 2dx 1 = 2(1 x 2 ), hvis 0 < x 2 < 1 f (X1,X 2 )(x 1,x 2 )dx 1 = x 2 0dx 1 = 0, ellers.

84 Stokastiske vektorer Uafhængighed Definition 2.14 De stokastiske variable X 1,...,X j,...,x k er uafhængige hvis og kun hvis hændelserne {X 1 x 1 },...,{X j x j },...,{X k x k } er indbyrdes uafhængige for alle x = (x 1,...,x j,...,x k ) R k, se Definition 2.3. Kriterier for uafhængighed af stokastiske variable kan formuleres ved hjælp af enten fordelingsfunktioner eller tæthedsfunktioner som i Sætning 2.11 De stokastiske variable X 1,...,X j,...,x k er uafhængige hvis og kun hvis en af de følgende betingelser er opfyldt: i) (udtrykt ved fordelingsfunktioner) F (X1,...,X j,...,x k )(x 1,...,x j,...,x k ) = F X1 (x 1 ) F X j (x j ) F Xk (x k ) (2.30) for alle x = (x 1,...,x j,...,x k ) R k. ii) (udtrykt ved tæthedsfunktioner) f (X1,...,X j,...,x k )(x 1,...,x j,...,x k ) = f X1 (x 1 ) f X j (x j ) f Xk (x k ) (2.31) alle x = (x 1,...,x j,...,x k ) R k. Eksempel 2.10 (Fortsat) På side 2.22 fandt vi, at de marginale fordelinger for X 1 og X 2 - antallet af point i henholdsvis første og anden kamp - var identiske, nemlig den uniforme fordeling på mængden {0, 1, 3}. Da f X1 (x 1 ) f X2 (x 2 ) = = 1 9 = f (X 1,X 2 )(x 1,x 2 ), x 1,x 2 {0,1,3}, er X 1 og X 2 stokastisk uafhængige ifølge (2.31). Eksempel 2.11 (Fortsat) På side 2.23 så vi, at hvis(x 1,X 2 ) er uniformt fordelt på ]0,1[ 2, så er den marginale fordeling for både X 1 og X 2 den uniforme fordeling på ]0,1[. Af (2.31) ses, at X 1 og X 2 er stokastisk uafhængige, idet f X1 (x 1 ) f X2 (x 2 ) = 1 1 = 1 = f (X1,X 2 )(x 1,x 2 ), (x 1,x 2 ) ]0,1[ 2.

85 2.25 Eksempel 2.12 (Fortsat) Af resultaterne - på side vedrørende de marginale fordelinger for en stokastisk vektor (X 1,X 2 ), der uniformt fordelt på E = {(x 1,x 2 ) R 2 : 0 < x 2 < x 1 < 1}, fås, at f X1 (x 1 ) f X2 (x 2 ) = 2x 1 2(1 x 2 ) 2 = f (X1,X 2 )(x 1,x 2 ), (x 1,x 2 ) E, så X 1 og X 2 er ikke stokastisk uafhængige Betingede fordelinger Definition 2.15 Hvis X og Y er stokastiske vektorer med simultan tæthedsfunktion f (X,Y) (x,y) og marginale tæthedsfunktioner f X (x) og f Y (y) har den betingede fordeling af Y givet X = x tæthedsfunktionen hvis f X (x) > 0, ellers er den udefineret. f (Y X) (y x) = f (X,Y) X,Y)(x,y), (2.32) f X (x) Bemærkning Hvis X og Y er uafhængige stokastiske vektorer fås at (2.31) og (2.32), at f (Y X) (y x) = f Y (y), det vil sige, at tæthedsfunktionen for Y er uafhængig af om vi har observeret x eller ej. Eksempel 2.12 (Fortsat) Af resultaterne - på side vedrørende en stokastisk vektor (X 1,X 2 ), der uniformt fordelt på E = {(x 1,x 2 ) R 2 : 0 < x 2 < x 1 < 1}, ses, at hvis x 1 ]0,1[, så er f (X2 X 1 )(x 2 x 1 ) = f (X 1,X 2 )(x 1,x 2 ) f X1 (x 1 ) = 2 2x 1 = 1 x 1, hvis 0 < x 2 < x 1, det vil sige, at den betingede fordeling af X 2 givet X 1 = x 1 er den uniforme fordeling på intervallet ]0,x 1 [. Tilsvarende, hvis x 2 ]0,1[ er f (X1 X 2 )(x 1 x 2 ) = f (X 1,X 2 )(x 1,x 2 ) f X2 (x 2 ) = 2 2(1 x 2 ) = 1, hvis x 2 < x 1 < 1, 1 x 2 så den betingede fordeling af X 1 givet X 2 = x 2 er den uniforme fordeling på intervallet]x 2,1[.

86 Middelværdi og varians 2.4 Middelværdi og varians I det foregående afsnit har vi set, at variationen af en stokastisk variabel eller en stokastisk vektor kan beskrives fuldstændigt ved hjælp af dens fordelingsfunktion eller ved hjælp af dens sandsynligheds- eller tæthedsfunktion. Imidlertid er det ofte i sandsynlighedsregning og statistik bekvemt at kunne beskrive vigtige træk ved en fordeling, såsom position og variabilitet, ved hjælp af nogle få numeriske størrelser. De vigtigste af disse størrelser er middelværdi, varians og kovarians, som alle omtales nedenfor. Definition 2.16 Lad X være en stokastisk variable og lad g : R R være en funktion, således at Y = g(x) er en stokastisk variabel. Hvis X er en diskret stokastisk variabel med støtte i {x i : i I}, defineres middelværdien af Y = g(x) som forudsat at summen i I g(x i ) f(x i ) er endelig. Specielt er forudsat at summen i I x i f(x i ) er endelig. EY = Eg(X) = g(x i ) f(x i ), (2.33) i I EX = x i f(x i ), (2.34) i I Hvis X er en kontinuert stokastisk variabel, defineres middelværdien af Y = g(x) som EY = Eg(X) = forudsat at integralet g(x) f(x)dx er endeligt. Specielt er EX = g(x) f(x)dx, (2.35) x f(x)dx, (2.36) forudsat at integralet x f(x)dx er endeligt. Lad X = (X 1,...,X k ) være en stokastisk vektor. Hvis de k komponenter i X alle har middelværdi, kaldes vektoren EX = (EX 1,...,EX k ) bestående af middelværdierne for middelværdivektoren for X. Hvis h : R k R være en funktion, således at Y = h(x) er en stokastisk variabel har vi i analogi med (2.33) og (2.35) følgende definitioner: Hvis X er en diskret stokastisk vektor med støtte i {x i : i I}, defineres middelværdien af Y = h(x) som EY = Eh(X) = h(x i ) f(x i ), i I

87 forudsat at summen i I h(x i ) f(x i ) er endelig. Hvis X er en kontinuert stokastisk vektor, defineres middelværdien af Y = h(x) som forudsat at integralet Rk h(x) f(x)dx er endeligt EY = Eh(X) = h(x) f(x)dx, Rk (2.37) Bemærkning Da f(x i ) = 1, ses det af formel (2.34), at EX kan skrives som i I EX = x i f(x i ) i I f(x i ), i I det vil sige, at middelværdien af en diskret stokastisk X er et vægtet gennemsnit af de værdier x i, som X kan antage, med vægte f(x i ), som er sandsynligheden for at X antager værdien x i, og EX er en central værdi i fordelingen for X. En lignende fortolkning af middelværdien EX for en kontinuert stokastisk variabel X baserer sig på formel (2.36), idet f(x)dx = 1. Sætning 2.12 Hvis X og Y er stokastiske variable med middelværdi er E(X +Y) = EX + EY (2.38) og E(a+bX) = a+bex, hvor a,b R er konstanter. (2.39) Hvis X og Y er uafhængige stokastiske variable og g og h er funktioner, er E{g(X)h(Y)} = Eg(X)Eh(Y), forudsat at middelværdierne eksisterer. Hvis specielt g(x) = x og h(y) = y er E{X Y } = EX EY. Definition 2.17 Lad X og Y være stokastiske variable og X = (X 1,...,X k ) en stokastisk vektor. Variansen og standardafvigelsen (spredningen) af X defineres som henholdsvis Var X = E{(X EX) 2 }

88 Middelværdi og varians og σ(x) = Var X. Størrelserne Cov(X,Y) = E{(X EX)(Y EY)} og Cor(X,Y) = Cov(X,Y) Var X VarY ( [ 1,1]) omtales som henholdsvis kovariansen og korrelationen mellem X og Y mens (k k) matricen med elementer { Cov(Xi,X j ) hvis i j (CovX) i j = Var X i hvis i = j kaldes kovariansmatricen for X. Bemærkning Som bemærket ovenfor kan middelværdien EX af en stokastisk variable betragtes som en slags gennemsnit af de mulige værdier af X. For at beskrive hvorledes X varierer omkring EX synes det naturligt at betragte den stokastiske variabel (X EX) 2. Variansen Var X ses blot at være middelværdien af denne stokastiske variabel. På samme måde varierer den stokastiske vektor(x,y) omkring (EX,EY). Middelværdien af den stokastiske variabel (X EX)(Y EY), kovariansen Cov(X,Y) mellem X og Y, er et mål for sammenhængen mellem værdierne af X og Y og korrelationen Cor(X,Y) mellem X og Y måler denne sammenhæng relativt til variationen af X og Y. Af definitionen fremgår, at korrelationen varierer i intervallet [ 1, 1]. Hvis korrelationen er tæt på 1 optræder store (små) værdier af X sammen med store (små) værdier afy, og hvis korrelationen er tæt på 1 optræder store (små) værdier af X sammen med små (store) værdier af Y. Sætning 2.13 Hvis variansen for den stokastiske variabel X eksisterer gælder der: Var X = EX 2 (EX) 2, (2.40) Var(a+bX) = b 2 Var X, hvor a,b R er konstanter. (2.41) Hvis X og Y er stokastiske variable med varians, gælder der: Var(X +Y) = Var X +VarY + 2Cov(X,Y), Cov(X,Y) = E (X Y) EX EY, (2.42)

89 2.29 Hvis desuden X og Y er uafhængige, gælder der, at Cor(X,Y) = Cov(X,Y) = 0, og X og Y siges at være ukorrelerede. Hvis X og Y er ukorrelerede - specielt hvis X og Y er uafhængige - gælder der, at Var(X +Y) = Var X +VarY. (2.43) Sætning 2.14 Antag, at X 1,...,X n er uafhængige og identisk fordelte stokastiske variable med middelværdi µ og varians σ 2. Hvis X betegner gennemsnittet (X 1 + +X n )/n er E X = µ og Var X = σ 2 n. Eksempel 2.7 (Fortsat) Ved hjælp af sandsynlighedsfunktionen - side for antallet af point X for hjemmeholdene i de to kampe og formel (2.34) fås, at middelværdien af X er Da EX = = 24 9 = 8 3. EX 2 = = 92 9, fås at (2.40), at variansen af X er Var X = EX 2 (EX) 2 = 92 ( ) = = og at spredningen af X er σ(x) = Eksempel 2.10 (Fortsat) Af sandsynlighedsfunktionen på side 2.22 for X 1 - hjemmeholdets point i den første kamp - og formel (2.34) ses, at middelværdien for X 1 er EX 1 = = 4 3.

90 Middelværdi og varians Da EX 2 1 = = 10 3, fås af (2.40), at variansen for X 1 er Var X 1 = EX1 2 (EX 1 ) 2 = 10 ( ) = = samt at spredningen for X 1 er 14 σ(x 1 ) = 9. Da X 2 - hjemmeholdets point i den anden kamp - har samme fordeling som X 1, er EX 2 = 4 3 og Var X 2 = Disse resultater kunne vi have benyttet til af finde middelværdi og varians for hjemmeholdenes point X i de to kampe, idet X = X 1 + X 2. Af (2.38) fås EX = EX 1 + EX 2 = = 8 3 og idet X 1 og X 2 er uafhængige, fås af (2.43), at Var X = Var X 1 +Var X 2 = = 28 9, hvilket vi også fandt ovenfor i fortsættelsen af Eksempel 2.7. Eksempel 2.9 (Fortsat) Middelværdien for en stokastisk variable X, der er uniformt fordelt på]0, 1[, finder vi ved hjælp af formel (2.36) og tæthedsfunktionen på side 2.18 til Da fås af (2.40), at variansen af X er EX = EX 2 = x 1dx = x 2 1dx = VarX = EX 2 (EX) 2 = 1 3 ( 1 2 [ ] x2 = [ ] x3 = ) 2 = = 1 12 og dermed at spredningen af X er σ(x) = 1 12.

91 Eksempel 2.12 (Fortsat) 2.31 De marginale tæthedsfunktioner for en stokastisk vektor (X 1,X 2 ) der er uniformt fordelt på mængden E = {(x 1,x 2 ) R 2 : 0 < x 2 < x 1 < 1} findes på side Ved hjælp af disse og formel (2.40) fås, at og Da endvidere og EX 2 2 = fås ved hjælp af (2.40), at og EX 2 = EX 1 = x 1 2x 1 dx 1 = x 2 2(1 x 2 )dx 2 = 1 EX1 2 = x 2 1 2x 1dx 1 = x 2 22(1 x 2 )dx 2 = Var X 1 = EX 2 1 (EX 1) 2 = 1 2 ( 2 3 [ ] x3 1 = [ x ] 1 3 x3 2 = [ ] x4 1 = = 1 2 [ 2 3 x3 2 2 ] 1 4 x4 2 = = 1 6, ) 2 = = 1 18 Var X 2 = EX2 2 (EX 2 ) 2 = 1 ( ) = = For at finde kovariansen mellem X 1 og X 2 benytter vi (2.42) og starter derfor med at finde E(X 1 X 2 ). Af (2.37) fås, at E(X 1 X 2 ) = = = x 1 x 2 f (X1,X 2 )(x 1,x 2 )dx 2 dx 1 = x 1 x 1 ( 2x 2 dx 2 )dx 1 = 0 x 3 1 dx 1 = 1 0 [ ] x4 1 = Af (2.42) fås herefter, at kovariansen mellem X 1 og X 2 er 1 x 1 0 x 1 [ x 2 2 ] x1 0 dx 1 0 x 1 x 2 2dx 2 dx 1 Cov(X 1,X 2 ) = E(X 1 X 2 ) EX 1 EX 2 = = = 1 36, og dermed at korrelationen mellem X 1 og X 2 er 1 Cor(X 1,X 2 ) = Cov(X 1,X 2 ) = 36 Var X1 Var X = 1 2.

92 2.32 Opgaver Opgaver til Kapitel 2 Opgave 2.1 Lad A og B være hændelser således, at P(A) = 0.6,P(B) = 0.5 og P(A B) = 0.8. Find sandsynlighederne for følgende hændelser: A B, A c, B c,a c B c og A c B c. Vink: A c B c =(A B) c og A c B c =(A B) c. Opgave 2.2 Hvor mange udfald har spillet kast med 3 mønter? Betragt den uniforme sandsynlighedsmål på udfaldsrummet, det vil sige antag at alle udfald er lige sandsynlige og beregn: a) sandsynligheden for at alle mønter viser plat, b) sandsynligheden for at mindst en mønt viser krone, c) sandsynligheden for at netop en mønt viser krone. Besvar samme spørgsmål for spillet kast med n mønter. Hvor stor skal n være, for at sandsynligheden for at få mindst en krone er større end 95%? Opgave 2.3 Betragt spillet kast med 3 terninger. Betragt det uniforme sandsynlighedsmål på udfaldsrummet og beregn følgende: a) sandsynligheden for at alle terninger viser 6 øjne, b) sandsynligheden for at mindst en terning viser 6 øjne, c) sandsynligheden for at netop en terning viser 6 øjne. Beregn de samme sandsynligheder for spillet kast med n terninger og bestem det mindste n således, at sandsynligheden for at mindst en terning viser 6 øjne er større end 95%. Opgave 2.4 Betragt det uniforme sandsynlighedsmål påe =[0, 10] og hændelserne A =[0, 5], B = [1,7] og C = [4,9]. Undersøg om A og B er uafhængige, om A og C er uafhængige, og om B og C er uafhængige. Opgave 2.5 I en håndboldklub er der i aldersklassen år 30% piger og 70% drenge og 10% af pigerne er venstrehåndede mens den tilsvarende procent for drengene er 20. a) Hvad er sandsynligheden for at en venstrehåndet spiller er en pige? b) Hvad er sandsynligheden for at en højrehåndet spiller er en dreng? Opgave 2.6 En af de klassiske illustrationer af Bayes formel vedrører 3 kommoder, der hver har to skuffer. I den første kommode er der en guldmønt i hver af de to skuffer, i den anden kommode er der en guldmønt i den ene skuffe og en sølvmønt i den anden og endelig er der en

93 2.33 sølvmønt i hver af skufferne i den tredje kommode. En af kommoderne vælges tilfældigt og en skuffe åbnes og viser sig at indeholde en guldmønt. Hvad er sandsynligheden for at den anden skuffe også indeholder en guldmønt? Gæt først på hvad sandsynligheden er og beregn den dernæst ved hjælp af Bayes formel. Opgave 2.7 Der kastes to terninger samtidigt. Lad Y være den stokastiske variabel Y = X 1 +X 2, hvor X 1 er antal øjne på terning 1 og X 2 er antal øjne på terning 2. a) Tegn udfaldsrummet E for kastet med de to terninger og udfaldsrummet for Y i samme diagram. b) Bestem sandsynlighedsfunktionen for Y, det vil sige punktsandsynlighederne f(y) = P(Y = y) for alle mulige observerbare værdier y af Y. c) Hvad er sansynligheden for, at summen af øjne på de to terninger er 7, og at summen er større end 7? d) Hvad er forskellen på sandsynligheden for 2 3 ere, og sandsynligheden for Y = 6? Opgave 2.8 Antag, at X R(0,1). Find sandsynligheden for følgende hændelser: a) 0.2 X 0.8 b) X 0.7 c) 0.2 X 0.8 og X 0.7 d) 0.2 X 0.8 eller X 0.7. Opgave 2.9 Et jokertal er et syvcifret tal, hvor hvert ciffer er et af tallene 0,1,...,9. Spiller man JOKER er antallet af rigtige lig med antallet af cifre fra højre mod venstre, der stemmer overens med jokertallet. Er jokertallet for eksempel og man har tallet er der fire rigtige. Har man derimod tallet har man ingen rigtige. a) Find sandsynligheden for at have henholdsvis 1, 2, 3, 4, 5, 6, 7 og 0 rigtige. b) Hvad er sandsynligheden for at have mindst 4 rigtige? Antag, at man spiller JOKER i tre på hinanden følgende uger. c) Hvad er sandsynligheden for at have mindst 4 rigtige i præcis én gang i løbet af de tre uger? d) Hvad er sandsynligheden for at have mindst 4 rigtige i mindst én gang i løbet af de tre uger? e) Beregn sandsynlighederne i spørgsmål a) og b) ved hjælp af funktion POTENS i Excel, idet x n =POTENS(x;n).

94 2.34 Opgaver I Excel kan binomialkoefficenten, der for ikke-negative tal n og x med n x er ( ) n n! = x x!(n x)!, hvor x! = 1 2 x, hvis x > 0 og hvor 0! = 1, beregnes ved hjælp af funktionenkombin som ( ) n =KOMBIN(n;x). x ( ) n Binomialkoefficienten angiver - som bekendt - antallet af måder hvorpå man kan udtage x en delmængde bestående af x elementer fra en mængde bestående af n elementer. Opgave 2.10 Betragt en tipskupon bestående af 13 kampe. a) Gør rede for, at antallet af forskellige tegnfordelinger er b) Lad x være et af tallene 0,1,...,13. Gør rede for, at antallet af tegnfordelinger med x rigtige er ( ) 13 1 x 2 13 x. x c) Lad X angive antallet af rigtige tegn, hvis tipskuponen udfyldes tilfældigt. Vis, at P(X = x) = ( 13 x )( 1 3 og beregn disse sandsynligheder ved hjælp af Excel. ) x ( ) 2 13 x, x = 0,1,...,13, 3 Opgave 2.11 Lav de samme beregninger som i Opgave 2.10 for en tipskupon bestående af 12 kampe. Opgave 2.12 På ODDSET kan man spille systemet 3 ud af 4 på DEN LANGE, det vil sige, at man får udbetalt gevinst, hvis man tipper mindst 3 ud af 4 kampe rigtige. Hvad er sandsynligheden for gevinst, hvis tegnene i de 4 kampe vælges tilfældigt? Opgave 2.13 En række i LOTTO består af 7 af de første 36 hele positive tal. a) Gør rede for, at antallet af mulige rækker er ( ) 36. 7

95 b) Lad x være et af tallene 0,1,...,7. Gør rede for, at antallet af rækker med x rigtige er ( )( ) x 7 x 2.35 c) Lad X betegne antallet af rigtige på en enkelt række på lottokuponen hvis de 7 numre vælges tilfældigt. Vis, at P(X = x) = og beregn disse sandsynligheder ved hjælp af Excel. ( )( 7 29 ) x 7 x ( ) 36, x = 0,1,...,7, 7 Opgave 2.14 Antag, at en tipsekspert angiver følgende procenter for tegnfordelingen i de 13 kampe på tipskuponen: kamp 1 X Lav ved hjælp af Excel funktionen SLUMP, der frembringer tilfældige tal, en tipskupon ud fra tipsekspertens procentfordeling. Opgave 2.15 A er en hændelse med sandsynlighed p. X er en stokastisk variabel, defineret ved { 1, hvis e A X(e) = 1, hvis e A c. Tegn fordelingsfunktionen for X. Vis, at EX = 2p 1 og at VarX = 4p(1 p).

96 2.36 Opgaver Opgave 2.16 I mange hasardspil vædder man om, at en hændelse A indtræffer. Gevinsten ved indsatsen 1 er X(e) = 1 p p, hvis e A 1 hvis e A c, hvor p = P(A). Vis, at EX = 0. Vis desuden, at VarX = (1 p)/p samt at variansen vokser, når p aftager. Opgave 2.17 En todimensionel diskret stokastisk vektor (X,Y) har sandsynlighedsfunktion som anført i nedenstående skema X\Y a) Find sandsynlighedsfunktionen for X og beregn EX [1.45] og Var X [1.2475]. b) Find sandsynlighedsfunktionen for Y og beregn EY [1.01] og Var Y [0.6499]. c) Find E(XY) [1.50] og Cov (X,Y) [0.0355]. d) Er X og Y uafhængige? Opgave 2.18 Lad den simultane tæthedsfunktion for X 1 og X 2, begge med udfaldsrum (0,+ ), være givet ved f (X1,X 2 )(x 1,x 2 ) = λ 1 λ 2 e (λ 1x 1 +λ 2 x 2 ). a) Vis at både X 1 s og X 2 s marginale fordeling er en eksponentialfordeling. b) Hvad er parameterne i X 1 s og X 2 s marginale fordelinger? c) Er X 1 og X 2 uafhængige? Opgave 2.19 Lad den simultane tæthedsfunktion for X 1 og X 2, med udfaldsrum {0 X 1 1}og {0 X 2 1}, være givet ved f (X1,X 2 )(x 1,x 2 ) = x 1 + x 2. a) Bestem de marginale fordelinger af X 1 og X 2. b) Er X 1 og X 2 uafhængige? c) Beregn middelværdi og varians af X 1 og X 2 samt korrelationen mellem X 1 og X 2.

97 3 Specielle fordelinger Specielle fordelinger I Kapitel 2 blev begreberne diskrete og kontinuerte fordelinger, middelværdi og varians introduceret. Som nævnt i kapitlet blev eksemplerne til illustration af disse begreber ikke valgt ud fra et anvendelsessynspunkt men derimod således at de fra et matematisk synpunkt var simple. I dette kapitel introduceres de fordelinger som oftest anvendes i statistik. Kapitlet skal ses som et lille katalog over definitionen af og egenskaber ved fordelingerne, hvorimod anvendelsen af nogle af fordelingerne omtales i senere kapitler. De kontinuerte fordelinger, der omtales i Afsnit 3.1 er alle relateret til den vigtigste fordeling i statistikken, nemlig normalfordelingen. Enkelte af de relatere fordelinger er dog også af selvstændig interesse. Foruden definitionen af fordelingerne omtales deres middelværdi og varians, deres relation til normalfordelingen, tabelopslag i Statistical Tables samt beregninger i Excel. For de diskrete fordelinger i Afsnit 3.2 omtales foruden definitionen også beregningsformler for sandsynlighedsfunktionen, middelværdi og varians samt beregninger i Excel. 3.1 Normalfordelingen og relaterede fordelinger Normalfordelingen Definition En kontinuert stokastisk variabel X er normalfordelt med middelværdi µ ( R) og varians σ 2 (> 0), hvis tæthedsfunktionen for X er f X (x) = µ)2 1 e (x2σ 2, x R. (3.1) 2πσ 2 Fordelingen betegnes N(µ,σ 2 ), og hvis X har tæthedsfunktionen (3.1) skriver vi X N(µ,σ 2 ). Fordelingen N(0,1) refereres til som standard normalfordelingen eller u-fordelingen. Dens tæthedsfunktion betegnes traditionelt med ϕ og fordelingsfunktionen med Φ, det vil sige ϕ(x) = 1 2π e x2 2, x R (3.2)

98 Normalfordelingen og relaterede fordelinger og Φ(x) = x 1 2π e z2 2 dz, x R. (3.3) Tætheden for standard normalfordelingen er symmetrisk omkring 0: ϕ( x) = ϕ(x), x R og det afspejler sig i fordelingsfunktionen ved at Φ( x) = 1 Φ(x), x R. (3.4) Hvis X N(µ,σ 2 ) kan tæthedsfunktionen og fordelingsfunktionen for X udtrykkes ved de tilsvarende størrelser for standard normalfordelingen, nemlig som henholdsvis f X (x) = 1 σ ϕ(x µ σ ) (3.5) og F X (x) = Φ( x µ ). (3.6) σ Figur 3.1 Tæthedsfunktionen for N ( 0,σ 2) for henholdsvis σ 2 = 0.5, 1.0 og 2.0. Middelværdi og varians

99 3.3 Hvis X N(µ,σ 2 ) gælder der EX = µ (3.7) og VarX = σ 2. (3.8) Fordelingsresultater Lad X 1,...,X n være uafhængige stokastiske variable så X i N(µ i,σi 2 ), i = 1,...,n. Hvis Y er en affin funktion af X-erne, det vil sige at Y er af formen hvor c 0,...,c n er konstanter, har vi Y = c 0 + c 1 X 1 + +c n X n, Y N(c 0 + c 1 µ 1 + +c n µ n,c 2 1σ c2 nσn 2 ). (3.9) Hvis yderligere X-erne er identisk fordelte, det vil sige X i N(µ,σ 2 ), har vi specielt, at X = Bemærk endelig, at (3.9) medfører, at Tabeller n i=1x i N(nµ,nσ 2 ) og X = 1 n X N(µ,σ 2 ) X µ σ n i=1 X i N(µ, σ 2 ). (3.10) n N(0,1). (3.11) Hvis u p og x p betegner p-fraktilen for henholdsvis N(0,1) fordelingen og N(µ,σ 2 ) fordelingen er u p = x p µ σ. (3.12) Fraktilerne u p for standard normalfordelingen har følgende sammenhæng med de såkaldte probits Da u p = Φ 1 (p) er (3.13) ækvivalent med probit(p) = u p + 5, p [0,1]. (3.13) Φ 1 (p) = probit(p) 5. (3.14) Med andre ord kan man fra en tabel over probits finde værdien af funktionen Φ og dens inverse Φ 1 ved hjælp af formlerne (3.13) og (3.14). I mange ældre bøger om sandsynlighedsteori og statistik var det standard måden at tabellere funktionerne Φ og Φ 1. I Statistical Tables findes der imidlertid direkte tabeller for Φ(side 1) og Φ 1 (siderne 2-4). Ved hjælp af tabellen over Φ ses det for eksempel, at Φ(2.57) =

100 Normalfordelingen og relaterede fordelinger og Φ( 1.96) = 1 Φ(1.96) = = Som en illustration af brugen af tabellen over Φ 1 har vi for eksempel at Φ 1 (0.005) = og Φ 1 (0.975) = Excel Hvis X N(µ,σ 2 ) kan tæthedsfunktionen og fordelingsfunktionen for X beregnes ved hjælp af funktionennormfordeling, idet f X (x) =NORMFORDELING(x; µ;σ;falsk) og F X (x) =NORMFORDELING(x; µ;σ;sand). Bemærk, at i kaldet af funktionen angives spredningen σ og altså ikke variansen σ 2. Specielt har vi ϕ(x) = NORMFORDELING(x; 0; 1; FALSK) og Φ(x) = NORMFORDELING(x; 0; 1; SAND). Fraktilen x p = F 1 (p) beregnes ved hjælp af funktionennorminv, idet x p =NORMINV(p; µ;σ) specielt u p =NORMINV(p;0;1) Den todimensionale normalfordeling Definition En kontinuert stokastisk vektor X = (X 1,X 2 ) er todimensionalt normalfordelt med middelværdi vektor µ = (µ 1, µ 2 ) og kovariansmatriks { } σ 2 1 ρσ 1 σ 2 Σ = ρσ 1 σ 2 σ 2 2

101 hvis tætheden for X er f X (x) = 1 2π (1 ρ 2 )σ1 2σ 2 2 Middelværdi, varians og korrelation 3.5 { ( )} exp 1 (x1 µ 1 ) 2 2ρ(x 1 µ 1 )(x 2 µ 2 ) 2(1 ρ 2 ) σ1 2 σ 1 σ 2 + (x 2 µ 2 ) 2, x R 2. σ2 2 Hvis X N 2 (µ,σ) er middelværdivektoren og kovariansmatricen for X Desuden er korrelationen mellem X 1 og X 2 Marginale og betingede fordelinger (3.15) EX = µ, (3.16) CovX = Σ. (3.17) Cor(X 1,X 2 ) = ρ. (3.18) Hvis X = (X 1,X 2 ) N 2 (µ,σ) er de marginale fordelinger igen normalfordelinger, idet Ligeledes er de betingede fordelinger normalfordelinger, idet X i N(µ i,σi 2 ), i = 1,2. (3.19) og X 1 X 2 = x 2 N(µ 1 +(x 2 µ 2 ) ρσ 1 σ 2,σ 2 1(1 ρ 2 )) (3.20) X 2 X 1 = x 1 N(µ 2 +(x 1 µ 1 ) ρσ 2 σ 1,σ 2 2 (1 ρ2 )). (3.21) χ 2 -fordelingen Definition χ 2 -fordelingen med f frihedsgrader, betegnet χ 2 ( f), er et specialtilfælde af gamma fordelingen Γ(α,λ), som er en kontinuert fordeling på ]0, [ med tæthedsfunktion γ(x;α,λ) = λ α Γ(α) xα 1 e λx, x ]0, [. (3.22) Her er α > 0, λ > 0 og Γ betegner gamma funktionen Γ(α) = 0 x α 1 e x dx, α > 0. Mere præcist er χ 2 ( f) = Γ( f/2,1/2). I anvendelser af χ 2 -fordelingen i statistik i modeller baseret på normalfordelingen er tæthedsfunktionen for fordelingen kun af sekundær interesse, idet den primære interesse vedrører fordelingens fraktiler.

102 Normalfordelingen og relaterede fordelinger Figur 3.2 Tæthedsfunktionen for χ 2 ( f) for henholdsvis f = 2, 4, 6 og 8. Hvis Y er en stokastisk variabel således, aty/σ 2 χ 2 ( f), siger vi ofte, at Y er σ 2 χ 2 ( f) fordelt og hvis Z er en stokastisk variabel så f Z/σ 2 χ 2 ( f), siger vi, at Z er σ 2 χ 2 ( f)/ f fordelt. Middelværdi og varians og Hvis X χ 2 ( f) gælder der, at EX = f (3.23) VarX = 2 f. (3.24) Fordelingsresultater Hvis X 1 og X 2 er uafhængige stokastiske variable gælder der, at X i χ 2 ( f i ), i = 1,2 X 1 + X 2 χ 2 ( f 1 + f 2 ). (3.25) Den fundamentale sammenhæng mellem normalfordelingen og χ 2 -fordelingen er resultatet: U N(0,1) U 2 χ 2 (1). (3.26) Ved at kombinere resultaterne (3.11), (3.25) og (3.26) ses det, at hvis X 1,...,X n er uafhængige og N(µ,σ 2 ) fordelte, da er n (X i µ) 2 i=1 σ 2 χ 2 (n),

103 eller ækvivalent hermed n i=1 3.7 (X i µ) 2 σ 2 χ 2 (n). (3.27) Erstattes middelværdien µ med gennemsnittet X = (X X n )/n af X-erne kan det vises, at n i=1 (X i X ) 2 σ 2 χ 2 (n 1) (3.28) og, yderligere, at de stokastiske variable X og n (X i X ) 2 er stokastisk uafhængige. Det følger fra (3.28), at s 2 (X) = 1 n 1 n i=1 i=1 (X i X ) 2 σ 2 χ 2 (n 1)/(n 1) (3.29) samt at de to stokastiske variable X og s 2 (X), der i statistik benyttes som estimatorer for henholdsvis middelværdien µ og variansen σ 2, er stokastisk uafhængige. Tabeller Fordelingerne χ 2 ( f) og χ 2 ( f)/ f er tabelleret i Statistical Tables på siderne 6-9 og siderne Som illustrationer har vi - med indlysende notation - at og Excel F χ 2 (3)(7.81) = 0.95, F 1 (0.60) = 8.35, χ 2 (8) F χ 2 (5)/5(0.1662) = F 1 (0.95) = χ 2 (12)/12 Fordelingsfunktionen og fraktiler i fordelingerne χ 2 ( f) og χ 2 ( f)/ f kan beregnes ved hjælp af funktionernechifordeling ogchiinv, idet og F χ 2 ( f) (x) =1 CHIFORDELING(x;f), F χ 2 ( f)/ f (x) =1 CHIFORDELING(f x;f), F 1 (p) =CHIINV(1 p;f) χ 2 ( f) F 1 (p) =CHIINV(1 p;f)/f. χ 2 ( f)/ f Bemærk, at begge funktioner beregner halesandsynligheder og der justeres for dette i de fire formler ovenfor.

104 Normalfordelingen og relaterede fordelinger t-fordelingen Definition Hvis U og Z er to uafhængige stokastiske variable således at U N(0,1) og Z χ 2 ( f)/ f, er størrelsen t = U Z (3.30) t-fordelt med f frihedsgrader og vi skriver t t( f). Symbolsk kan definitionen af t-fordelingen gengives som t( f) = N(0,1) χ 2 ( f)/ f, hvis vi husker på at nævner og tæller symboliserer uafhængige stokastiske variable. Fordelingen kaldes undertiden Student fordelingen eller Student s t-fordeling. Som for χ 2 -fordelingen er det fraktilerne for t( f)-fordelingen, der er af primær interesse i forbindelse med inferens i modeller baseret på normalfordelingen, og ikke selve tæthedfunktionen, som er f t( f) (x) = hvor B betegner beta funktionen B(α 1,α 2 ) = 1 f B(1/2, f/2) (1+ f 1 x 2 ) ( f+1)/2, x R, 1 0 x α 1 1 (1 x) α 2 1 dx = Γ(α 1)Γ(α 2 ) Γ(α 1 + α 2 ). (3.31) t( f)-fordelingen konvergerer i fordeling mod N(0, 1) fordelingen for f. Fordelingsresultater Antag, at X 1,...,X n er uafhængige og identisk N(µ,σ 2 ) fordelte og lad X og s 2 (X) betegne henholdsvis den empiriske middelværdi og varians. Det følger da af (3.10), (3.29) og (3.30) samt af uafhængigheden af X og s 2 (X), at t = X µ t(n 1). (3.32) s 2 (X)/n Tabeller Tætheden for t( f)-fordelingen er symmetrisk omkring 0,og det medfører, at F t( f) ( x) = 1 F t( f) (x), x R, (3.33) hvor F t( f) betegner fordelingsfunktionen for t( f)-fordelingen. Hvis t p ( f) betegner p-fraktilen for t( f)-fordelingen medfører formel (3.33), at t 1 p ( f) = t p ( f), p ]0,1[. (3.34)

105 3.9 Figur 3.3 Tæthedsfunktionen for t ( f) for henholdsvis f = 1, 2, 4 og 8. På grund af (3.34) er det nok at tabellere p-fraktilerne for t( f)-fordelingen for p 0.5. En sådan tabel findes på side 5 i Statistical Tables. For eksempel har vi hvilket ved hjælp af (3.33) giver Desuden har vi for eksempel at og derfor - ved hjælp af (3.34) - at F t(6) (1.440) = 0.90, F t(6) ( 1.440) = t (17) = F 1 t(17) (0.975) = t (17) = F 1 t(17) (0.025) = Endelig bør man være opmærksom på, at den sidste række i tabellen giver mulighed for at finde sandsynligheder af formen P( t( f) x), hvor t( f) symboliserer en t( f) fordelt stokastisk variabel. Som illustration har vi P( t(10) 1.372) = 0.20.

106 Normalfordelingen og relaterede fordelinger Excel Funktionen TFORDELING beregner to forskellige sandsynligheder afhængig af det tredje argument i kaldet af funktionen. Da beregnes fordelingsfunktionen som og - ved hjælp af (3.33) - som Benyttes2som tredje argument beregnes TFORDELING(x;f;1) = P(t( f) x), x 0, F t( f) (x) =1 TFORDELING(x;f;1), hvis x 0 F t( f) (x) =TFORDELING( x;f;1), hvis x < 0. TFORDELING(x;f;2) = P( t( f) x), x 0. Værdien af funktionentinv er bestemt ved ligningen så fraktilerne kan beregnes som t p ( f) = F 1 t( f) (p) = p = P( t( f) TINV(p;f)), { TINV(2 (1 p);f), hvis p 0.5 TINV(2 p;f), hvis p < F-fordelingen Definition Lad Z 1 og Z 2 være to uafhængige stokastiske variable så Z i χ 2 ( f i )/ f i, i = 1,2. Da er den stokastiske variabel F = Z 1 Z 2 (3.35) F-fordelt med ( f 1, f 2 ) frihedsgrader, eller med f 1 frihedsgrader i tælleren og f 2 frihedgrader i nævneren. (I dansk litteratur betegnes fordelingen undertiden som v 2 -fordelingen med ( f 1, f 2 ) frihedsgrader eller kort v 2 ( f 1, f 2 ).) Symbolsk er definitionen F( f 1, f 2 ) = χ2 ( f 1 )/ f 1 χ 2 ( f 2 )/ f 2, hvor tæller og nævner symboliserer uafhængige stokastiske variable.

107 3.11 Figur 3.4 Tæthedsfunktionen for F (10, f 2 ) for henholdsvis f 2 = 2, 4, 8 og 16. Igen er det fordelingens fraktiler, der er af størst interesse i statistisk inferens. Tætheden for F( f 1, f 2 ) fordelingen er f F( f1, f 2 )(x) = f f 1/2 1 f f 2/2 2 B( f 1 /2, f 2 /2) x f1/2 1 ( f 2 + f 1 x) ( f 1+ f 2 )/2, x > 0, hvor B er beta funktionen givet i formel (3.31). Fordelingsresultater I statistik dukker fordelingen op i variansanalyse samt hvor man ønsker at sammenligne to empiriske varianser i en model baseret på normalfordelingen. Antag for eksempel, at X 1,...,X n og Y 1,...,Y m er uafhængige stokastiske variable, således at X i N(µ X,σ 2 ), i = 1,...,n og Y j N(µ Y,σ 2 ), j = 1,...,m. Bemærk, at variansen er antaget ens for samtlige stokastiske variable. Af (3.29) fås for de empiriske varianser s 2 (X) og s 2 (Y) at s 2 (X) = 1 n 1 n i=1 (X i X ) 2 σ 2 χ 2 (n 1)/(n 1) og s 2 (Y) = 1 m 1 m j=1 (Y j Ȳ ) 2 σ 2 χ 2 (m 1)/(m 1).

108 Diskrete fordelinger Da s 2 (X) og s 2 (Y) er stokastiske uafhængige fås af formel (3.35), at F = s2 (X) s 2 F(n 1,m 1). (Y) Endelig medfører formlerne (3.26), (3.30) og (3.35), at t t( f) t 2 F(1, f). (3.36) Tabeller Af (3.35) ses, at Y F( f 1, f 2 ) 1 Y F( f 2, f 1 ), der bevirker følgende relation mellem p-fraktilen F p ( f 1, f 2 ) for F( f 1, f 2 ) fordelingen og (1 p)- fraktilen for F fordelingen hvor der er byttet om på frihedsgraderne i tæller og nævner: F p ( f 1, f 2 ) = 1 F 1 p ( f 2, f 1 ). (3.37) Det er derfor tilstrækkeligt at tabellere fraktilerne for F-fordelingen for værdier af p 0.5. Siderne i Statistical Tables indeholder p-fraktiler for F-fordelingen for forskellige værdier af p. Med indlysende notation har vi for eksempel F 1 F(9,15) (0.95) = 2.59 og F F(13,6) (7.66) = Excel Fordelingfunktion og fraktiler for F-fordelingen beregnes ved hjælp af funktionerne FFORDELING ogfinv, idet F F( f1, f 2 )(x) =1 FFORDELING(x;f 1 ;f 2 ) og F p ( f 1, f 2 ) = F 1 F( f 1, f 2 ) (p) =FINV(1 p;f 1 ;f 2) 3.2 Diskrete fordelinger Binomialfordelingen Definition

109 3.13 Binomialfordelingen med antalsparameter n (helt positivt tal) og sandsynlighedsparameter p betegnes ofte b(n, p). Idet x! (udtales: x falkultet) er defineret som x! = 1 2 x hvis x > 0 og som 0! = 1, hvis x = 0, er punktsandsynlighederne for binomialfordelingen ( ) n b(x;n, p) = p x (1 p) n x, x = 0,1,...,n, (3.38) x hvor ( ) n n! = x x!(n x)!. Hvis X er en stokastisk variabel, som er binomialfordelt, skriver vi ofte X b(n, p). Beregning af punktsandsynligheder eller Af (3.38) ses, at b(x+1;n, p) b(x;n, p) = n x p, x = 0,1,...,n 1, x+1 1 p b(x+1;n, p) = n x p b(x;n, p), x = 0,1,...,n 1. (3.39) x+1 1 p Ved hjælp af (3.39) kan punktsandsynlighederne beregnes rekursivt i hånden, idet b(0;n, p) = (1 p) n. (3.40) Middelværdi og varians og Hvis X b(n, p) gælder der EX = np (3.41) VarX = np(1 p). (3.42) Excel I Excel kan punktsandsynlighederne og fordelingsfunktionen for b(n, p) beregnes ved hjælp af funktionenbinomialfordeling på følgende måde: Eksempel 3.1 F b(n,p) (x) = b(x; n, p) = BINOMIALFORDELING(x; n; p; FALSK) x b(y; n, p) = BINOMIALFORDELING(x; n; p; SAND). y=0 Figur 3.5 viser sandsynlighedsfunktionen for b(12, p) for p = 0.05, 0.2 og 0.5. Ved hjælp af

110 Diskrete fordelinger (3.39) og (3.40) finder vi følgende punktsandsynligheder - med tre decimalers nøjagtighed - for b(12,0.2), idet p/(1 p) = 0.2/0.8 = 0.25, b(0;12,0.2) = = b(1;12,0.2) = b(0;12,0.2) = b(2;12,0.2) = b(1;12,0.2) = b(3;12,0.2) = b(2;12,0.2) = b(4;12,0.2) = b(3;12,0.2) = b(5;12,0.2) = b(4;12,0.2) = b(6;12,0.2) = b(5;12,0.2) = b(7;12,0.2) = b(6;12,0.2) = b(8;12,0.2) = b(7;12,0.2) = b(9;12,0.2) = b(8;12,0.2) = b(10;12,0.2) = b(9;12,0.2) = b(11;12,0.2) = b(10;12,0.2) = b(12;12,0.2) = b(11;12,0.2) = Figur 3.5 Sandsynlighedsfuktionen for binomialfordelingen b(12, p) med p = 0.05, 0.20 og 0.50.

111 Multinomialfordelingen Definition En k-dimensional diskret stokastisk vektor X = (X 1,...,X k ) er multinomialfordelt med antalsparameter n og sandsynlighedsvektor π = (π 1,..., π k ), kort X m(n,π), hvis sandsynlighedsfunktionen for X er ( ) n P(X = x) = π x 1 x 1 x 1 πx k k, for x = (x 1,...,x k ) Mk n, (3.43) k hvor M n k er mængden af vektorer i Rk, således at komponenterne er ikke-negative hele tal hvis sum er n, det vil sige at M n k = {x Rk : x j {0,1,...,n} og I (3.43) er multinomialkoefficienten ( ) n n! = x 1 x k x 1! x k! k x j = n} j=1 og vektoren π tilhører mængden Π k af k-dimensionale sandsynlighedsvektorer, det vil sige at komponenterne af π er positive tal hvis sum er 1, eller Middelværdi, varians og korrelation π Π k = {π : π j > 0 og k j=1 π j = 1}. Hvis X m(n,π) er middelværdivektoren og kovariansmatricen for X = (X 1,...,X k ) EX = nπ = (nπ 1,...,nπ k ), (3.44) nπ 1 (1 π 1 ) nπ 1 π 2 nπ 1 π j nπ 1 π k nπ 1 π 2 nπ 2 (1 π 2 ) nπ 2 π j nπ 2 π k CovX = nπ 1 π j nπ 2 π j nπ j (1 π j ) nπ j π k nπ 1 π k nπ 2 π k nπ j π k nπ k (1 π k ) Desuden er korrelationen mellem X i og X j for i j. (3.45) Cor(X i,x j ) = Marginale fordelinger idet nπ i π j nπ j (1 π j )nπ j (1 π j ) = π i π j π j (1 π j )π j (1 π j ). (3.46) Hvis X m(n, π) er de marginale fordelinger for komponenterne af X binomialfordelinger, X j b(n,π j ), j = 1,...,k. (3.47)

112 Diskrete fordelinger Poissonfordelingen Definition Poissonfordelingen med parameter λ (> 0) betegnes undertiden po(λ). Punktsandsynlighederne er Beregning af punktsandsynlighederne Af 3.48 fås, at po(x;λ) = e λ λ x, x = 0,1,... (3.48) x! po(x+1;λ) po(x;λ) = λ x+1, x = 0,1,..., eller po(x+1;λ) = λ po(x;λ), x = 0,1,... (3.49) x+1 Da endvidere kan punktsandsynlighederne beregnes rekursivt i hånden. Middelværdi og varians og Excel og Hvis X po(λ) gælder der, at I Excel kan funktionenpoisson benyttes, idet F po(λ) (x) = po(0;λ) = e λ (3.50) EX = λ (3.51) VarX = λ. (3.52) x po(x;λ) =POISSON(x;λ;SAND), x = 0,1,..., y=0 po(x;λ) =POISSON(x;λ;FALSK) x = 0,1,.... Eksempel 3.2 Bruger vi (3.49) og (3.50) i forbindelse med Poissonfordelingen med λ = 2 finder vi med fire decimalers nøjagtighed:

113 3.17 po(0;2) = e 2 = po(1;2) = = po(2;2) = = po(3;2) = = po(4;2) = = po(5;2) = = po(6;2) = = po(7;2) = = po(8;2) = = po(9;2) = = I princippet skulle vi fortsætte på samme måde forx = 10,11,..., men alle disse sandsynligheder bliver mindre end Figur 3.6 Sandsynlighedsfuktionen for Poissonfordelingen po(λ) med λ = 0.5, 1.0 og 2.0. Sandsynlighederne for x = 0, 1,..., 9 er vist på figuren Den hypergeometriske fordeling Den hypergeometriske fordeling Den hypergeometriske fordeling med parametre M,N og n betegner vi med h(m,n,n). Her er M, N og n hele positive tal så M N og n N. Hvis K 0 = max{0,n + M N} og K 1 =

114 Diskrete fordelinger min{m,n} er punktsandsynlighederne ( )( ) M N M h(x;m,n,n) = x n x ( ) N, x = K 0,...,K 1. (3.53) n Beregning af punktsandsynligheder Idet h(x+1;m,n,n) h(x;m,n,n) = M x x+1 n x N M n+x+1, x = K 0,...,K 1 1, kan punktsandsynlighederne beregnes rekursivt i hånden som idet og h(x+1;m,n,n) = M x x+1 h(k 0,M,N,n) = h(0;m,n,n) = h(k 0,M,N,n) = h(n+m N;M,N,n) = Eksempel 3.3 n x N M n+x+1 h(x;m,n,n), x = K 0,...,K 1 1, (3.54) (N M)!(N n)! N!(N M n)!, hvis K 0 = 0, (3.55) M!n! N!(n+M N)!, hvis K 0 = n+m n. (3.56) Figur 3.7 viser sandsynlighedsfunktionen for h(m,n,n) med M = 8,N = 15 og n = 2,4 og 8. Ved hjælp af (3.54) og (3.55) finder vi - med tre decimalers nøjagtighed - for h(8,15,4), at 7! 11! h(0;8,15,4) = 15! 3! = h(1;8,15,4) = = h(2;8,15,4) = = h(3;8,15,4) = = h(4;8,15,4) = = Middelværdi og varians Hvis X h(m,n,n), gælder der EX = n M N og VarX = (N n) (N 1) nm N (1 M N ).

115 3.19 Figur 3.7 Sandsynlighedsfuktionen for den hypergeometriske fordeling h(8, 15, n)) med n = 2, 4 og 8. Excel FunktionenHYPGEOFORDELING beregner sandsynlighedsfunktionen for den hypergeometriske fordeling, idet (bemærk rækkefølgen af parametrene) h(x;m,n,n) =HYPGEOFORDELING(x;n;M;N), x = 1,...,M Den negative binomialfordeling Definition For κ > 0 defineres den generaliserede binomialkoefficient som ( ) x+κ 1 (x+κ 1)(x+κ 2) k = x x! og den negative binomialfordeling b (κ, p) med parameter κ (> 0) og p ( ]0,1[) som den diskrete fordeling med sandsynlighedsfunktion ( ) x+κ 1 b (x;κ, p) = p x (1 p) κ, x x = 0,1,.... (3.57) Beregning af punktsandsynligheder

116 Diskrete fordelinger Af (3.57) fås, at b (x+1;κ, p) b (x;κ, p) = κ + x x+1 p, x = 0,1,.... Punktsandsynlighederne for b (κ, p) kan derfor beregnes rekursivt i hånden, idet og Eksempel 3.4 b (x+1;κ, p) = κ + x x+1 p b (x;κ, p), x = 0,1,... (3.58) b (0;κ, p) = (1 p) κ. (3.59) Bruges (3.58) og (3.58), finder vi for b (7.5,0.1)-fordelingen med fire decimalers nøjagtighed: b (0;7.5,0.1) = = b (1;7.5,0.1) = = b (2;7.5,0.1) = = b (3;7.5,0.1) = = b (4;7.5,0.1) = = b (5;7.5,0.1) = = b (6;7.5,0.1) = = b (7;7.5,0.1) = = De øvrige punktsandsynligheder b (x;7.5,0.1), x = 8,9,..., er alle mindre end Figur 3.8 viser sandsynlighedsfunktionen for b (4, p) for p = 0.1, 0.3 og 0.5. Middelværdi og varians og Hvis X b (κ, p) gælder der, at EX = κ p 1 p VarX = κ p (1 p) 2. Excel Punktsandsynlighederne for X b (κ, p) kan for heltallige værdier af κ beregnes ved hjælp af funktionennegbinomfordeling, idet (bemærk, at det tredje argument er1-p) b (x;κ, p) =NEGBINOMFORDELING(x;κ;1 p), x = 0,1,2,...

117 3.21 Figur 3.8 Sandsynlighedsfuktionen for den negative binomialfordeling b (4, p) med p = 0.1, 0.3 og 0.5

118 3.22 Opgaver Opgaver til Kapitel 3 Opgave 3.1 Lad X være normalfordelt med middelværdi 1.7 og varians 0.49, X N(1.7, 0.49). a) Beregn sandsynligheden P(1 X 2). b) Beregn sandsynligheden for at X > 1.2 og sandsynligheden for at X < 1.5. c) Hvilke værdier afgrænser 10% i hver hale af fordelingen. (Det vil sige hvilke to værdier x 1 og x 2 opfylder P(X x 1 ) = 0.1 og P(X x 2 ) = 0.1.) d) Hvilke værdier afgrænser 5% i hver hale af fordelingen. Opgave 3.2 (Andersen 1998) For en række 15 årige drenge målte man den maksimale iltoptagelse pr. minut ved normal belastning på en kondicykel. Resultaterne var: a) Beregn gennemsnit x og empirisk varians s 2 for disse observationer (n = 17,S = 53.31, SK = ) Antag at observationerne er normalfordelte og benyt værdierne i a) som middelværdien og variansen i de følgende to spørgsmål. b) Hvad er sandsynligheden for, at iltoptagelsen for en tilfældig 15-årig ligger mellem 2.7 og 3.1. c) Find 90%-fraktilen i fordelingen. Opgave 3.3 Lav en figur i Excel med normalfordelingens tæthed som i Figur 3.1. De næste to opgaver vedrører eksponentialfordelingen, som er et specialtilfælde af gamma fordelingen. Eksponentialfordelingen e(λ) med parameter λ > 0 er gamma fordelingen Γ(1, λ). Hvis X e(λ) kan det vises, at middelværdien og variansen er EX = 1 λ (3.60)

119 og 3.23 Var X = 1 λ 2. (3.61) Excel funktionen EKSPFORDELING kan beregne tæthedsfunktionen og fordelingsfunktionen for eksponentialfordelingen. Opgave 3.4 Antag, at X e(λ). a) Vis ved hjælp af formel (3.22) - idet Γ(1) = 1 - at tæthedsfunktionen for X er f(x) = λe λx, x ]0, [. (3.62) b) Vis, at fordelingsfunktionen for X er F(x) = 1 e λx, x ]0, [. c) Vis, at p-fraktilen for X er Opgave 3.5 Antag, at X e(1.5). a) Hvad er middelværdien af X? b) Hvad er variansen af X? x p = F 1 (p) = c) Hvad er sandsynligheden for, at X er større end 1? d) Hvad er sandsynligheden for, at 0 X 1 2? ln(1 p), p ]0,1[. λ Opgave 3.6 (Andersen 1998) 8 mænd beslutter sig til at lave en fællestræning til byens årlige motionsløb på ca. 11 km. Deres mål er at løbe på under 50 minutter. En statistiker blandt dem vurderer, at hver enkelts chance for at nå målet 50 minutter er 80%? a) Med hvilken fordeling kan man beskrive det antal x af de 8 mænd, der på selve dagen løber under 50 minutter? b) Beregn middelværdi og varians i denne fordeling. c) Hvad er sandsynligheden for, at halvdelen (4) klarer 50 minutters grænsen? d) Hvad er sandsynligheden for, at alle de 8 mænd klarer 50 minutters grænsen?

120 3.24 Opgaver Opgave 3.7 (Andersen 1998) En intelligensprøve består af 10 lige svære opgaver, hver med 5 svarmuligheder, hvoraf én er rigtig. Antal rigtigt løste opgaver kaldes scoren. a) Hvad er fordelingen af scoren x hvis en person beslutter sig for at gætte tilfældigt mellem de fem svarmuligheder, idet han ikke bedømmer at kunne løse opgaverne. b) Hvad er fordelingen af scoren x, hvis en ret intelligent person har sandsynlighed 0.7 for rigtig løsning for hver af de 10 opgaver. c) Beregn EX for både person a) og person b). d) Beregn P(scoren 5) for både person a) og person b). Opgave 3.8 Gør rede for, at antallet af rigtige tegn X på tipskuponen i Opgave 2.10 er binomialfordelt med antalsparameter n = 13 og sandsynlighedparameter p = 1/3. Find middelværdi, varians og spredning for X ved hjælp af formlerne i Afsnit Opgave 3.9 Lav Figur 3.5 i Excel. Opgave 3.10 Lav Figur 3.6 i Excel. Opgave 3.11 Gør rede for at fordelingen af antallet af rigtige X på lottokuponen i Opgave 2.13 er den hypergeometriske fordeling h(7, 36, 7). Find middelværdi, varians og spredning for X ved hjælp af formlerne i Afsnit Opgave 3.12 (Andersen 1998) I undersøgelsen af de professionelle fodboldspillere i udlandet i Opgave 1.12 var populationen på 290 fodboldspillere, hvoraf 131 (stikprøven) besvarede et udsendt spørgeskema. Af disse svarede 86, at de var gift eller levede i et fast parforhold, før de rejste til udlandet. For at skønne over, hvor mange M i hele populationen, der var gift eller levede i et fast parforhold, før de rejste til udlandet, skal vi bruge en fordeling, hvori M indgår sammen med de øvrige tre tal. a) Hvis X er den stokastiske variabel, der svarer til de x = 86 observerede gifte i stikprøven, gør da rede for at for en fast værdi af M er fordelingen af X den hypergeometriske fordeling h(m, 290, 131). b) Lav ved hjælp af Excel en tabel over sandsynlighederne h(x;m,n,n) med x = 86, N = 290, n = 131 og M {86,87,...,245} og find den værdi af M, der tillægger den observerede værdi x = 86 den største sandsynlighed.

121 4 Normalfordelte data Normalfordelte data I dette kapitel behandles en række modeller, som har det til fælles, at observationerne er normalfordelt. Forskellen mellem modellerne består i, hvor kompliceret middelværdistrukturen og variansstrukturen er. I Afsnit 4.2 omtales én observationsrække med kendt varians mens variansen antages at være ukendt i Afsnit 4.3. Afsnit 4.4 og Afsnit 4.5 vedrører henholdsvis to og k observationsrækker. Endelig omtales lineær regression i Afsnit 4.6 og tosidet variansanalyse i Afsnit 4.7. Den simpleste model er én observationsrække med kendt varians, og derfor behandles den først. Endvidere bruges den til at introducere en række statistiske grundbegreber som estimation, test, signifikansniveau, testsandsynlighed og konfidensinterval. De bliver ganske vist også omtalt i Kapitel 5, men i Afsnit 4.2 behandles de i nøje tilknytning til et eksempel. De ovennævnte modeller er forholdsvis enkle, men de er fleksible nok til at finde anvendelse i en lang række praktiske problemstillinger, som spænder fra industriel produktion over alle naturvidenskaberne, herunder geologi, biologi og idræt til lægevidenskab og samfundsvidenskab. På den anden side udtømmer de ikke alle de modeller for normalfordelte data, som man kan få brug for i sin profession. Men det begrebsapparat og de adfærdsmønstre, som man udvikler ved håndteringen af de enkle modeller, gør det muligt at håndtere mere komplicerede modeller. I Afsnit 4.1 omtales en grafisk metode til at kontrollere om en observationsrække kan betragtes som normalfordelt. Til trods for at metoden er meget simpel, er den særdeles vigtig, idet den giver os mulighed for at vurdere gyldigheden af en statistiske model baseret på normalfordelingen. Alle følgende beregninger og konklusioner er bestemt af den statistiske model. Hvis modellen er forkert, vil konklusioner, der er draget på grundlag af den, sandsynligvis også være forkerte. Alle fordelingsresultater, der er relateret til analyse af de statistiske modeller i dette kapitel, er omtalt i Afsnit

122 Fraktilsammenligning 4.1 Fraktilsammenligning Lad x 1,x 2,...,x n være en observationsrække bestående af n observationer af en kontinuert variabel. Antag, at metoderne i Kapitel 1 antyder, at vi som model for observationerne kan antage, at disse er udfald af uafhængige og identisk fordelte stokastiske variable X 1,X 2,...,X n og lad F betegne den fælles fordelingsfunktion for X erne. For at vurdere om modellen er rimelig kunne man sammenligne den empiriske fordelingsfunktion F n med fordelingsfunktionen F ved for eksempel for udvalgte værdier af x at indtegne (x,f n (x)) og (x,f(x)) på samme tegning, idet modellen da forekommer rimelig hvis de to grafer ligner hinanden. Sædvanligvis er grafen for F er S-formet og sammenligningen består derfor i at vurdere om to S-formede grafer ligner hinanden. Øjet har lettere ved at afgøre om punkter varierer omkring en ret linje, så i stedet for vælger man at sammenligne p-fraktilerne x p (F n ) og x p (F) for F n og F. Hvis punkterne (x p (F n ), x p (F)) for udvalgte værdier af p ligger omkring identitetslinjen uden systematiske afvigelser anses modellen for rimelig. Dette var en generel beskrivelse af fraktilsammenligning. For normalfordelingen gælder der, at hvis u p og x p er p-fraktilen for henholdsvis N(0,1) fordelingen og N(µ,σ 2 ) fordelingen da er u p = x p µ σ, (4.1) så for denne fordeling indtegnes (x p (F n ), u p ) for udvalgte værdier af p. En model baseret på normalfordelingen er da rimelig, hvis punkterne ligger omkring en ret linje uden systematiske afvigelser. I Afsnit og Afsnit diskuteres fraktildiagrammer for henholdsvis ugrupperede og grupperede observationer Ugrupperede observationer Først repeterer vi notationen fra Kapitel 1. Antag, at der er m forskellige værdier i observationrækken x 1,x 2,...,x n og lad y 1,y 2,...,y m betegne de ordnede værdier, det vil sige y 1 < y 2 <... < y m. For j = 1,2,...,m lader vi a j betegne antallet af observationer i rækken x 1, x 2,...,x n med værdien y j og desuden lader vi k j betegne det kumulerede antal, det vil sige k j = a 1 + +a j, og endelig sættes k 0 = 0. Den p-værdi, for hvilken y j er p-fraktil, bestemmes som p j = (k j 1 + k j )/(2n),

123 4.3 det vil sige y j = x p j (F n ). I fraktildiagrammet indtegnes punkterne (y j,u p j ) = (y j,φ 1 (p j )), j = 1,2,...,m. Beregningerne, der ligger til grund for et fraktildiagram, er vist i Tabel 4.1, der fremkommer ved i Tabel 1.5 at tilføje en søjle med værdierne af u p (og fjerne den første søjle). observation antal kumulerede antal sandsynlighed i % u fraktil y a k p i % u p y 1 a 1 k 1 = a 1 p 1 = 100 k 1 /(2n) Φ 1 (p 1 ) y 2 a 2 k 2 = a 1 + a 2 p 2 = 100 (k 1 + k 2 )/(2n) Φ 1 (p 2 ) y 3 a 3 k 3 = a 1 + a 2 + a 3 p 3 = 100 (k 2 + k 3 )/(2n) Φ 1 (p 3 ) y j a j k j = a 1 + +a j p j = 100 (k j 1 + k j )/(2n) Φ 1 (p j ) y m a m k m = a 1 + +a m p m = 100 (k m 1 + k m )/(2n) Φ 1 (p m ) Tabel 4.1 Beregningsskema for fraktildiagrammet for et ugrupperet datasæt. Eksempel 1.2 (Fortsat) Disse tal har vi ikke betragtet i Kapitel 1 men erfaringen viser, at kondital sædvanligvis er normalfordelte. Beregningerne i Tabel 4.1 i er gengivet nedenfor og Figur 4.1 viser det tilsvarende fraktildiagram. Da der ikke i figuren er systematiske afvigelser fra en ret linje, kan observationsrækken betragtes som normalfordelt.

124 Fraktilsammenligning Figur 4.1 Fraktildiagrammet for data i Eksempel 1.2. observation antal kumulerede antal sandsynlighed i % u fraktil y a k p i % u p

125 4.5 Når data ikke foreligger på elektronisk form kan fraktildiagrammet tegnes på sandsynlighedspapir, se Figur 4.2. Sandsynlighedspapir findes i mange forskellige fabrikater. Fælles for dem alle er, at de har en lineær førsteakse til afsættelse af data, og to andenakser. Den ene andenakse er lineær og bruges til at afsætte fraktiler, mens den anden andenakse er en procentakse. Procentaksen er ikke-lineær, idet procenten 100p afsættes ud for u p. Hele pointen med de to andenakser er nemlig, at tabelopslaget for at finde u p er indbygget i sammenhængen mellem de to akser, så fraktildiagrammet kan laves ved at indtegne punkterne (y j,100p j ), j = 1,2,...,m, idet procentaksen benyttes. Visse typer af sandsynlighedspapir benytter en parallelforskudt lineær andenakse, idet de såkaldte probits benyttes. Probit prob(p) svarende til en p-værdi er defineret som prob(p) = u p + 5. Et fraktildiagram indtegnet på den type sandsynlighedspapir kaldes ofte et probitdiagram. Et eksempel på et probitdiagram er gengivet i Figur 4.2. Eksempel 1.2 (Fortsat) Probitdiagrammet for data er vist i Figur 4.2. Ved vurderingen af om punkterne i et fraktildiagram udviser et passende lineært forløb, således at det er rimeligt at antage, at observationerne kan betragtes som én observationsrække fra normalfordelingen, skal de følgende tre punkter tages i betragtning: 1) Jo større n er jo mindre variation omkring en ret linje vil man forvente. 2) Punkterne i et fraktildiagram er korrellerede og har derfor en tendens til at sno sig omkring linjen. 3) Variationen af punkterne omkring linjen er størst i enderne af diagrammet og man skal derfor lægge mest vægt på punkterne i midten af diagrammet. En statistisk model baseret på normalfordelingen afvises først og fremmest, hvis punkterne i diagrammet udviser en systematisk afvigelse fra en ret linje. Vurdering af fraktildiagrammer er et spørgsmål om erfaring, der for eksempel kan opnås ved at betragte diagrammer for normalfordelte datasæt, der er fremkommet ved numerisk simulation. Figurerne i Appendiks B viser fraktildiagrammer for forskellige datasæt af denne type med varierende n. Figurerne antyder, at for små værdier af n kan punkterne variere temmelig meget omkring linjen. Hvis fraktildiagrammet ikke giver anledning til at afvise en statistisk model baseret på normalfordelingen, kan man få grove estimater for middelværdien µ og variansen σ 2 i normalfordelingen N(µ,σ 2 ) ved at tegne en linje gennem punkterne i diagrammet. Af (4.1) ses det, at µ

126 Fraktilsammenligning Figur 4.2 Probitdiagrammet for data i Eksempel 1.2.

127 4.7 kan estimeres som værdien på førsteaksen svarende til værdien 0 på andenaksen i et fraktildiagram. Det ses ligeledes af (4.1), at et estimat for σ er den reciprokke værdi af hældningen af linjen i diagrammet. Hvis data kun består af én observationsrække og hvis antallet af observationer n i denne række er lille, n < 10, ses det af figurerne i Appendiks B, at fraktildiagrammet er af begrænset værdi, når normalfordelingsantagelsen skal vurderes. Hvis data består af flere observationsrækker, kan diagrammerne være nyttige selv for stikprøvestørrelser mindre end 10 ved at afsløre afvigelser fra et lineært forløb, der går igen fra stikprøve til stikprøve Grupperede data Antag, at antallet af observationer i de m intervaller ]y 0,y 1 ],]y 1,y 2 ],...,]y m 1,y m ] er a 1, a 2,..., a m. For j = 1, 2,...,m lader vi k j = a 1 +a 2 + +a j betegne det kumulerede antal observationer. Bemærk, at k m = n, det totale antal observationer. højre endepunkt antal kumulerede antal sandsynlighed i % u fraktil y a k p i % u p y 1 a 1 k 1 = a 1 p 1 = 100 k 1 /n Φ 1 (p 1 ) y 2 a 2 k 2 = a 1 + a 2 p 2 = 100 k 2 /n Φ 1 (p 2 ) y 3 a 3 k 3 = a 1 + a 2 + a 3 p 3 = 100 k 3 /n Φ 1 (p 3 ) y j a j k j = a 1 + +a j p j = 100 k j /n Φ 1 (p j ) y m 1 a m 1 k m 1 = a 1 + +a m 1 p m 1 = 100 k m 1 /n Φ 1 (p m 1 ) Tabel 4.2 Skema til beregning af punkterne i fraktildiagrammet for grupperede data. Lader vi p j = k j /n, j = 1,2,...,m, har vi specielt at p m = 1. Da den tilsvarende u fraktil u 1 =, indtegner vi kun følgende m 1 punkter i fraktildiagrammet : (y j,u p j ) = (y j,φ 1 (p j )), j = 1,2,...,m 1. Beregningerne, der er nødvendige for at finde punkterne i fraktildiagrammet for et grupperet datasæt, er vist i Tabel 4.2, som fremkommer fra Tabel 1.6 ved at tilføje en søjle med værdierne af u p (og fjerne første og tredje søjle samt sidste række). Eksempel 1.1 (Fortsat) Histogrammerne for disse data i Afsnit 1.3 har tilnærmelsesvis samme udseende som tæthedsfunktionen for normalfordelingen, se Figur 3.1. Dette antyder, at data kan betragtes som en

128 Fraktilsammenligning normalfordelt observationsrække. For den grupperede version af data i Tabel 1.4 er beregningerne i Tabel 4.2 gengivet nedenfor og fraktildiagrammet er vist i Figur 4.3. Da punkterne i probitdiagrammet ikke afviger systematisk fra en ret linje kan data betragtes som en normalfordelt observationsrække. højre endepunkt antal kumulerede antal sandsynlighed i % u fraktil y a k p i % u p Transformation Undertiden afslører fraktildiagrammet, at det ikke er rimeligt at betragte de oprindelige data x 1,x 2,...,x n som én normalfordelt observationsrække. Da modeller baseret på normalfordelingen er lette at håndtere, forsøger man ofte at opnå en sådan model for en transformeret version af data, det vil sige for y 1,y 2,...,y n, hvor y i = h(x i ),i = 1, 2,...,n, og hvor h er en kendt funktion, som er 1-1 (injektiv). Ikke sjældent har fagmanden specielle grunde til at betragte en bestemt transformation. De mest brugte transformationer er h(x) = ln(x), h(x) = x og h(x) = 1/x. Når man leder efter en transformation, skal man være opmærksom på at alle hyppigt anvendte transformationer er lokalt lineære, så hvis observationerne ligger i et snævert interval, vil vurderingen af fraktildiagrammet være den samme både for de transformerede og de utransformerede data. En tommelfingerregel for logaritmetransformationen er, at data mindst skal strække sig over én dekade og gerne to, hvis der skal være nogen synlig effekt ved en transformation. Det vil sige at der skal være mindst en faktor 10 og gerne en faktor 100 i forskel mellem den største og den mindste observation.

129 4.9 Figur 4.3 Fraktildiagram for de grupperede data i Tabel 1.4. Selvom en indledende undersøgelse ved hjælp af et fraktildiagram er faldet negativ ud i den forstand, at en statistisk model baseret på normalfordelingen ikke er rimelig for de oprindelige observationer x 1,x 2,..., x n, kan diagrammet give information om, hvorledes man skal transformere data for at opnå en model baseret på normalfordelingen.

130 4.10 Beregninger i Excel Anneks til Afsnit 4.1 Vi viser her, hvordan fraktildiagrammet i Figur 4.1 kan laves i Excel. Nedenstående viser ind- Beregninger i Excel Eksempel 1.2 (Fortsat) 6 holdet af cellernea1:i23 i regnearket !"#$%&'()**+,-#./010'&"+% Det er fremkommet ved følgende trin: Data indtastes i cellerne A4:A23 og sorteres efter størrelsesorden. Disse celler kopieres til cellerne C4:C22, der indeholder de ordnede værdier, idet observationen76.3, der optræder to gange, er fjernet. Indholdet af cellerne i kolonne E, F og G fremkommer dernæst via ruten Funktioner Dataanalyse Histogram, som giver en dialogboks hvor A4:A23 angives i Inputområde, C4:C22 i Intervalområde og E3:G24 i Outputområde. Endvidere markeres ruden forankumulativ frekvens, hvorefter der klikkes påok.

131 4.11 Indholdet af cellenh4 beregnes som=100*g4/2. Indholdet af H5 beregnes som=100 *(G4+G5)/2, hvorefter der oprettes analoge formler i H6:H23. (Musen anbringes i det nedre højre hjørne af H5, således at curseren bliver til et +. Derefter trækkes musen ned over cellerne H6:H23, idet venstre museknap holdes nede) Indeholdet af cellen I4 beregnes via ruten Indsæt Funktion Statistik NORMINV. I dialogboksen, der fremkommer, skrives H4/100 i ruden ved Sandsynlighed, og 0 og 1 i ruderne ved henholdsvis Middelværdi og Standardafv. Derefter oprettes analoge formler i cellernei5:i22. Vi er nu klar til at lave fraktildiagrammet. Det gøres således: Marker cellernee4:e22 ogi4:i22 Følg ruten Indsæt Diagram XY-plot. Vælg i dialogboksen, der fremkommer, undertypen øverst til venstre( Excel betegner denne som XY-punktdiagram. Sammenligner værdipar.) Tryk påudfør. Resultatet ser således ud: Altså ikke helt som i Figur 4.1. Dette kan opnås ved lidt redigering. Blandt andet: Ændre navn på den forklarende variabel: Anbring musen på rammen af figuren. Hold højre museknap nede og følg rutenkildedata Navn. Ændre placeringen af forklaringen: Anbring musen på rammen om forklaringen. Hold højre museknap nede og vælgformater forklaring Placering Nederst.

132 4.12 Beregninger i Excel Ændre udseendet af området: Anbring musen i området. Hold højre museknap nede og vælgformater afbildningsområde og dernæstingen irammer ogområde. Ændre førsteaksen: Peg på den med musen og hold højre museknap nede. Følg ruten Formater akse Skala. Angiv63 i ruden vedminimum, 80 i ruden vedmaksimum og 2 i ruden vedoverordnet enhed. Ændre andenaksen: Peg på den med musen og hold højre museknap nede. Følg ruten Formater akse Skala. Angiv -3 i ruden ved Minimum, 3 i ruden ved Maksimum og 1 i ruden vedoverordnet enhed. Skriv desuden-3 i rudenkrydser ved. Resultater af disse anstrengelser giver følgende resultat:

133 Én observationsrække med kendt varians I praksis er det forholdsvis sjældent, at variansen for en observationsrække kan antages at være kendt, men fra et pædagogisk synspunkt er modellen for én observationsrække med kendt varians bekvem i forbindelse med introduktion af en række statistiske grundbegreber som estimation, test, signifikansniveau, testsandsynlighed og konfidensinterval. Disse omtales generelt i Kapitel 5, men behandles her i nøje tilknytning til et eksempel. Eksempel 4.1 Som en øvelse i fysiologi bliver 15 studerende bedt om - uafhængigt af hinanden - at bestemme koncentrationen af laktat i den samme blodprøve med en kendt koncentration. De studerendes målinger er i mg/l og den kendte koncentration er 80.0 mg/l. Erfaringsmæssigt er der ved bestemmelser af en laktatkoncentration af denne størrelsesorden en spredning på 5.0 mg/l. For at undersøge om de studerendes målinger afviger signifikant fra den kendte koncentration, undersøger vi først om de 15 målinger x 1,..., x 15 kan betragtes som en normalfordelt observationsrække. Fraktildiagrammet i Figur 4.4 afslører ikke systematiske afvigelser fra en ret linje og vi betragter derfor modellen M 0 : X i N(µ,σ0 2 ), i = 1,...,15, (4.2) hvor vi betragter spredningen σ 0 som kendt og lig med den værdi, man har erfaring for, det vil sige σ 0 = 5. Estimation Først ser vi på, hvad man kan sige om middelværdien µ ud fra observationerne. Vi skønner over µ, eller estimerer µ. Traditionelt benytter man gennensnittet af observationerne x = 1 n n i=1 x i = idet summen S af de 15 observationer er = 81.66, (4.3) Bemærk, at x er en realisation af den normalfordelte stokastiske variabel X = 1 n n i=1 X i N(µ, σ 2 0 n ), (4.4)

134 Én observationsrække med kendt varians Figur 4.4 Fraktildiagram for lakatkoncentrationerne i Eksempel 4.1. som har den rigtige middelværdi µ og en varians σ0 2 /n, som aftager med antallet af observationer. Det er disse to egenskaber, der er begrundelsen for at bruge gennemsnittet som skøn over middelværdien µ. Det er vigtigt at bevare distinktionen mellem den teoretiske, men ukendte middelværdi µ og skønnet x for µ. Vi benytter notationen x µ eller µ x, som læses x estimerer µ eller µ estimeres af x. I det konkrete tilfælde har vi µ. Vi skriver ofte de to formler i (4.3) og (4.4) kort på følgende måde x = N(µ, σ 2 0 n ), som læses x = er en realisation af en stokastisk variabel X, som er fordelt N(µ,σ 2 0 /n). Det første minder altså om, at estimatet er en realisation af en stokastisk variabel, og det andet har den sædvanlige betydning fordelt som. Notationen er ikke standard i litteraturen. Test I modellen M 0 kan spørgsmålet om de studerendes målinger stemmer overens den kendte koncentration formuleres som spørgsmålet om middelværdien µ er lig med 80. I M 0 opstiller vi og tester hypotesen H 0 : µ = µ 0 = 80. Som udgangspunkt kan man betragte forskellen mellem skønnet over middelværdien og middelværdien under nulhypotesen x 80 = Jo større denne forskel er - numerisk set

135 desto mere kritisk er det for nulhypotesen. Men om 1.66 er stor afhænger af variansen på målingerne. Vi beregner derfor teststørrelsen u(x) = u(x 1,...,x n ) = x µ = = 1.286, (4.5) σ0 2/n 25/15 som er differensen normeret med spredningen på gennemsnittet. Teststørrelsen u(x) er en realisation af den stokastiske variabel u(x) = u(x 1,...,X n ) = X µ 0 X 80 =, (4.6) σ0 2/n 25/15 som er N(0, 1)-fordelt under nulhypotesen. De værdier af teststørrelsen u(x), som ville have været mere kritiske for H 0, er værdier mindre end og større end Man kan ikke umiddelbart sige om er så stor en værdi, at man vil tvivle på nulhypotesen. Man udfører derfor endnu en transformation, idet man beregner testsandsynligheden ε(x), som er sandsynligheden under nulhypotesen for en mere kritisk værdi af teststørrelsen end den observerede. Det vil sige ε(x) =Φ( 1.286) +(1 Φ(1.286)) =2(1 Φ(1.286)) (4.7) = Testsandsynligheden er illustreret i Figur 4.5 og fortolkningen af denne testsandsynlighed er, at hvis nulhypotesen er sand, vil man cirka to ud af ti gange, man udfører forsøget, få en teststørrelse, som er mere kritisk for nulhypotesen, end den værdi som forsøget gav. Det får os ikke til at tvivle på nulhypotesen. Man forkaster nulhypotesen, hvis testsandsynligheden kommer under en værdi, som kaldes signifikansniveauet, og som betegnes med α. Sædvanligvis er α lig med 0.05 eller 0.01, og i dette kursus benyttes værdien 0.05 medmindre andet udtrykkeligt nævnes. Vi ser senere i dette afsnit på håndteringen af testsandsynligheder under overskriften statistikkens slutningsregel. Konfidensinterval Da u(x) = X µ 0 σ 2 0 /n

136 Én observationsrække med kendt varians Figur 4.5 Illustration af testsandsynligheden for u-testet i Eksempel 4.1. Testsandsynligheden er arealet af den skraverede område. er N(0, 1)-fordelt, er 1 α = P u α/2 X µ u 1 α/2 (4.8) σ0 2/n = P X u 1 α/2 σ 2 0 n µ X + u 1 α/2 Her er u α/2 og u 1 α/2 henholdsvis α/2 og 1 α/2 fraktiler for N(0,1)-fordelingen, og i omskrivningen er det benyttet, at u α/2 = u 1 α/2. Det vil sige, at uligheden σ0 2 x u 1 α/2 n µ σ x u 1 α/2 n holder med sandsynlighed 1 α. Intervallet x u 1 α/2 σ 2 0 n, x + u 1 α/2 σ 2 0 n σ 2 0 n. (4.9) (4.10) er et (1 α) konfidensinterval for middelværdien µ. Bruges u.975 = fås et 0.95 eller et 95% konfidensinterval. 1 α kaldes konfidenskoefficienten. Fortolkningen af konfidensintervallet og konfidenskoefficienten 1 α er, at enten ligger µ i intervallet, eller der er indtruffet en

137 4.17 hændelse med en sandsynlighed mindre end α. Hvis α er lille, har man stor tiltro til, at µ ligger i konfidensintervallet. Det er samme argumentation, der ligger bag forkastelse af nulhypotesen når testsandsynligheden er lille, jævnfør afsnittet om statistikkens slutningsregel nedenfor. Det understreges, at det er x, der er stokastisk, og ikke µ. Der er ikke tale om, at µ ligger mellem faste grænser med sandsynligheden 1 α. Det er variationen i x fra forsøg til forsøg, der giver anledning til sandsynlighedsudsagnet. Betegnelsen konfidens er valgt for at understrege, at µ ikke pludselig er blevet en stokastisk variabel med tilhørende fordeling. Det (1 α) konfidensinterval, vi har valgt her, er baseret på testsstørrelsen u(x), og det har yderligere den fortolkning, at det består af de værdier af µ, som ville blive accepteret som nulhypotese med signifikansniveau α. Af formel (4.10) finder vi, at 95% konfidensintervallet for middelværdien µ her er [ ] , = [79.130, ]. 15 Statistikkens slutningsregel Den regel, som ligger bag de konklusioner, man drager i statistikken, er i al sin enkelthed: En hændelse med en lille sandsynlighed indtræffer ikke. Signifikansniveauet α er grænsen for, hvor små sandsynligheder skal være, for at hændelserne ikke indtræffer, eller mere præcist grænsen for at man vælger at se bort fra muligheden, at hændelsen indtræffer. Risikoen for, at en person kommer til skade ved en flyveulykke, er mindre end 10 6 per flyvetime, og de fleste anser den risiko for negligeabel. Det er sandsynligheder af samme størrelsesorden, man anser for acceptable, når man vurderer risikoen for uheld på atomkraftværker eller andre store industrianlæg. Her arbejder man altså med signifikansniveauer, som er af størrelsesordenen højst I statistik arbejder man med signifikansniveauer af størrelsesordenen Som tidligere bemærket er α = overalt i dette kursus. Når man rapporterer testsandsynligheden sammen med konklusionen, giver man andre mulighed for at drage deres egne konklusioner, hvis de skulle foretrække et andet signifikansniveau. Argumentationen, der ligger bag forkastelsen af en nulhypotese, fordi man har fået en lille testsandsynlighed, lyder: Enten er nulhypotesen forkert, eller der er indtruffet en hændelse med en lille sandsynlighed. Hændelser med en lille sandsynlighed indtræffer ikke, ergo er nulhypotesen forkert. Det er altså en helt klassisk logisk argumentation:

138 Én observationsrække med kendt varians Enten A eller B. B er falsk ergo A. Det nye og tankevækkende er propositionen: Hændelser med en lille sandsynlighed indtræffer ikke.

139 4.19 Anneks til Afsnit 4.2 Beregninger i Excel Eksempel 4.1 (Fortsat) Excel har ikke en dialogboks, der udfører beregningerne i én normalfordelt observationsrække med kendt varians. Det gøres dog let som nedenstående viser. Observationerne er indtastet i cellernea4:a18, hvorefter deres sum S ia19 er beregnet.!"# CellerneC3:E5 indeholder oplysninger vedrørende u-testet. Indholdet afc5:e5 er beregnet ved hjælp af de følgende tre formler: og =A19/15, ( x = S/n) = (C5 80)/KVROD(25/15) (u(x) = ( x 80)/ σ0 2/n) =2 (1 NORMFORDELING(D5;0;1;SAND)) (ε(x) = 2 (1 Φ( u(x) ))). Den nedre grænse i C9 for konfidensintervallet for middelværdien µ er beregnet som =C5 1,96 KVROD(25/15) (µ nedre = x 1.96 σ0 2/n) og den øvre grænse beregnes tilsvarende.

140 4.20 Hovedpunkter til Afsnit 4.2 Hovedpunkter til Afsnit 4.2 Modellen for én normalfordelt observationsrække x 1,...,x n med kendt varians σ 2 0 er M 0 : X i N(µ,σ 2 0 ), i = 1,...,n. Modelkontrol Fraktilsammenligning Estimation Middelværdien µ estimeres ved gennemsnittet af observationerne µ x = S n N(µ, σ 2 0 n ). Test af hypotesen H 0 : µ = µ 0. Hypotesen testes ved hjælp af u-teststørrelsen u(x) = u(x 1,...,x n ) = x µ 0 σ 2 0 /n N(0,1) og testsandsynligheden er ε(x) = 2(1 Φ( u(x) )). (Ved test på niveau 5% forkastes H 0, hvis ε(x) < 0.05.) Konfidensinterval 95% konfidensintervallet for middelværdien µ er σ 0 2 x 1.96 n, σ x n

141 Én observationsrække med ukendt varians Teorien for én normalfordelt observationsrække med ukendt varians bliver også gennemgået i forbindelse med et eksempel. Vi betragter igen data i Eksempel 4.1 men benytter nu ikke den oplysning at spredningen på målinger af laktatkoncentrationen erfaringsmæssigt er 5. Ja faktisk undersøger vi i løbet af fortsættelsen af eksemplet om spredningen på de studerendes målinger er 5. Dette er helt i overensstemmelse med, at man altid skal være skeptisk overfor oplysninger, der tilskrives erfaringen. Det kunne jo være at de ikke var korrekte i relation til ens data. Eksempel 4.1 (Fortsat) Som netop nævnt ser vi nu bort fra oplysningen om at spredningen på målingerne erfaringsmæssigt er 5. Vi betragter derfor modellen M 0 : X i N(µ,σ 2 ), i = 1,...,15, hvor begge parametre µ og σ 2 er ukendte. Estimation Som estimater for middelværdien µ og variansen σ 2 benytter vi den empiriske middelværdi og den empiriske varians x = 1 n s 2 = 1 n 1 n i=1 n i=1 x i (4.11) (x i x ) 2. (4.12) Da S = og SK = finder vi ved hjælp af beregningsformlerne (1.9) og (1.10), at og µ x = = N(µ, σ 2 15 ) σ 2 s 2 = ( ) = Vi skal senere se, hvordan man kommer frem til at benytte s 2 som estimat for σ 2. Her nævner vi blot, at s 2 er en realisation af den stokastiske variabel s 2 (X) = 1 n 1 n i=1 (X i X ) 2, (4.13) som er σ 2 χ 2 (n 1)/(n 1) fordelt, jævnfør (3.29). Specielt er middelværdien Es 2 (X) = σ 2,

142 Én observationsrække med ukendt varians og variansen, Var s 2 (X) = 2σ 4 (n 1), så s 2 er et godt estimat for σ 2. Det har den rigtige middelværdi, og variansen aftager med stikprøvens størrelse. Test af hypotesen H 0µ : µ = µ 0 Hvis variansen er ukendt, kan man alligevel teste H 0µ : µ = µ 0 = 80. Udgangspunktet er som før differensen x µ 0 = = 1.66 mellem skønnet over middelværdien, x, og middelværdien, µ 0, under nulhypotesen. Denne differens ville vi gerne se i forhold til spredningen på gennemsnittet, σ 2 /n, men σ 2 er nu ukendt. Det forekommer oplagt, at når σ 2 er ukendt, må man i stedet bruge et skøn over σ 2. Når man bruger s 2 i stedet for den ukendte varians σ 2, fås teststørrelsen t(x) = t(x 1,...,x n ) = x µ = = s 2 /n /15 Teststørrelsen t(x) er en realisation af den stokastiske variabel t(x) = t(x 1,...,X n ) = X µ 0 s 2 (X)/n. (4.14) t(x) har en t-fordeling med n 1 frihedsgrader, i dette eksempel altså 14 frihedsgrader, jævnfør (3.32). t-fordelingen er tabellagt og findes desuden på visse lommeregnere, så man kan som før beregne testsandsynligheden ε(x). De værdier af teststørrelsen, som ville være mere kritiske end den observerede 1.137, er værdier mindre end og større end Testsandsynligheden, som er illustreret i Figur 4.6, bliver derfor ε(x) =F t(14) ( 1.137)+(1 F t(14) (1.137)) =2(1 F t(14) (1.137)) = Her betegner F t( f) fordelingsfunktionen for t-fordelingen med f frihedsgrader. I beregningen af testsandsynligheden er det benyttet, at t-fordelingerne i lighed med standard normalfordelingen N(0,1) er symmetriske omkring 0, så F t( f) ( t) = 1 F t( f) (t), for alle t. Da testsandsynligheden er større end 0.05, giver det ikke anledning til at forkaste nulhypotesen. Konklusionen er derfor den samme som i tilfældet med kendt varians.

143 4.23 Figur 4.6 Illustration af testsandsynligheden for t-testet i Eksempel 4.1. Testsandsynligheden er arealet af den skraverede område. Konfidensinterval for µ Lad som sædvanlig µ være den ukendte værdi af middelværdien. Da t(x) = X µ s 2 (X)/n er t-fordelt med f = n 1 frihedsgrader, er [ ] 1 α =P t α/2 ( f) X µ s 2 (X)/n t 1 α/2( f) [ ] s =P X t 1 α/2 ( f) 2 (X) s µ X +t n 1 α/2 ( f) 2 (X). n (4.15) Her er t α/2 ( f) og t 1 α/2 ( f) henholdsvis α/2 og 1 α/2 fraktiler for t-fordelingen med f frihedsgrader, og i omskrivningen er det benyttet, at t α/2 ( f) = t 1 α/2 ( f). Det vil sige, at uligheden s 2 s x t 1 α/2 ( f) n µ 2 x +t 1 α/2 ( f) n holder med sandsynlighed 1 α. Intervallet [ ] s 2 s x t 1 α/2 ( f) n, 2 x +t 1 α/2 ( f) n (4.16) (4.17)

144 Én observationsrække med ukendt varians er et (1 α) konfidensinterval for middelværdien µ. I det konkrete tilfælde bliver 95% konfidensintervallet for middelværdien µ, idet 97.5% fraktilen t (14) i t-fordelingen med 14 frihedsgrader er [ ] , = [78.529, ], Test af hypotesen H 0σ 2 : σ 2 = σ 2 0 Vi fortsætter eksemplet med at undersøge om studenterne måler med samme præcision som man sædvanligvis har på bestemmelser af laktatkoncentrationer. Det er altid klogt at kontrollere sine antagelser, hvis det er muligt. Undertiden har antagelser karakter af ufunderet ønsketænkning. Vi opstiller derfor nulhypotesen H 0σ 2 : σ 2 = 5 2 = 25. Testet for H 0 tager udgangspunkt i skønnet for variansen s 2 = , og som teststørrelse benytter man forholdet mellem skønnet over variansen og σ 2 0 s 2 σ0 2 = = Teststørrelsen er en realisation af den stokastiske variabel s 2 (X) σ0 2. (4.18) s 2 (X) er σ 2 χ 2 (n 1)/(n 1) fordelt, så under nulhypotesen er teststørrelsen χ 2 (n 1)/(n 1)- fordelt. Disse fordelinger er tabellagt for alle i praksis forekommende frihedsgrader. Hvis teststørrelsen er tæt ved 1, svarer det til god overensstemmelse mellem skønnet s 2 og σ 2 0. Omvendt er meget små værdier af teststørrelsen kritiske for H 0, for det svarer til at skønnet over variansen er meget mindre end σ 2 0, og det tyder på, at variansen er mindre end σ 2 0. Tilsvarende er meget store værdier af teststørrelsen kritiske for H 0, for det betyder, at skønnet over variansen er meget større end σ0 2, og det tyder på, at variansen er større end σ 0 2. Som ved de tidligere test lader man testsandsynligheden være grundlaget for beslutningen. I det konkrete tilfælde er værdier af teststørrelsen større end den observerede mere kritisk for hypotesen. Sandsynligheden for, at en χ 2 (14)/14-fordelt stokastisk variabel er større end 1.280, er 1 F χ 2 (14)/14(1.280) = χ 2 ( f)/ f -fordelingen har ikke den samme symmetri som normalfordelingen og t-fordelingen, så man kan ikke umiddelbart sige, hvor grænsen går for de små værdier af teststørrelsen, som er mindst lige så kritiske for H 0 som Man vælger at definere testsandsynligheden til ε(x) = 2(1 F χ 2 (14)/14(1.280)) =

145 4.25 Det svarer så til, at man har fastsat, at værdierne mindre end fraktilen for χ 2 (14)/14- fordelingen er mindst lige så kritiske for H 0, som den observerede Iøvrigt er fraktilen for χ 2 (14)/14-fordelingen lig med 0.687, se Figur 4.7. Figur 4.7 Illustration af testsandsynligheden for H 0σ 2 i Eksempel 4.1. Testsandsynligheden er arealet af den skraverede område. Testsandsynligheden er større end 0.05, så nulhypotesen accepteres. Det vil sige, at de studerende måler med samme præcision som den man har erfaring for. Hvis teststørrelsen s 2 (X)/σ0 2 havde været mindre end 1, for eksempel lig med 0.687, skulle testsandsynligheden være beregnet som ] ε(x) = 2 [F χ 2 (14)/14 (0.687) = Begrundelsen er, at hvis s 2 (X)/σ0 2 havde været mindre end 1, ville det være mindre værdier af teststørrelsen, som umiddelbart ville være mere kritiske end den observerede værdi. Udføres testet på 5% niveau, accepteres H 0σ 2 hvis s 2 /σ0 2 ligger mellem 2.5% og 97.5% fraktilen i χ 2 (n 1)/(n 1) fordelingen, det vil sige, hvis χ (n 1)/(n 1) < s2 /σ0 2 < χ (n 1)/(n 1). Vi bemærker, at man som teststørrelse for H 0σ 2 : σ 2 = σ 2 0 ofte bruger (n 1)s 2, (4.19) σ 2 0

146 Én observationsrække med ukendt varians som under nulhypotesen har en χ 2 (n 1)-fordeling. Det er store og små værdier af teststørrelsen, der er kritiske for H 0. Begrundelsen for at bruge (n 1)s 2 /σ0 2 i stedet for s2 /σ0 2 er, at tabellerne over χ 2 -fordelingen er mere udførlige end tabellerne over χ 2 ( f)/ f -fordelingen, idet de indeholder flere fraktiler. Det er samme test man udfører, idet testsandsynligheden er den samme, uanset hvilken af de to teststørrelser, man bruger. Konfidensinterval for σ 2 Lad σ 2 være den ukendte værdi af variansen. Da s 2 (X)/σ 2 er χ 2 ( f)/ f -fordelt, er med f = n 1 [ ] 1 α =P χα/2 2 ( f)/ f s2 (X) σ 2 χ1 α/2 2 ( f)/ f (4.20) [ ] s 2 (X) =P χ1 α/2 2 ( f)/ f σ 2 f s2 (X) χα/2 2 ( f)/ f. Det vil sige, at uligheden s 2 χ 2 1 α/2 ( f)/ f σ 2 holder med sandsynlighed 1 α. Intervallet [ s 2 χ 2 1 α/2 ( f)/ f, s 2 kaldes (1 α) konfidensintervallet for σ 2. s 2 χ 2 α/2 ( f)/ f (4.21) χ 2 α/2 ( f)/ f ] (4.22) Tager vi kvadratrod i (4.22) fås (1 α) konfidensintervallet for σ [ ] s 2 s χ1 α/2 2 ( f)/ f, 2 χα/2 2 ( f)/ f. (4.23) Idet χ (14)/14 = og χ (14)/14 = fås af (4.22) at 95% konfidensintervallet for variansen σ 2 i eksemplet her er [ , ] = [17.126, ] og fra (4.23) at 95% konfidensintervallet for spredningen σ er [ , ] = [4.138,8.914]. Hermed slutter Eksempel 4.1. Eksempel 1.1 (Fortsat) Eksemplet drejer sig om højdefordelingen af 247 astmaplagede piger i alderen år. Modellen er X i N(µ,σ 2 ), i = 1,...,247,

147 4.27 hvor både middelværdien µ og variansen σ 2 er ukendte. Der er ikke nogen rimelige hypoteser at teste, hverken om middelværdien eller variansen, så vi nøjes med at angive estimater og konfidensintervaller for parametrene. Da n = 247, S = og SK = fås, at µ x = og σ 2 s 2 = % konfidensintervallerne for middelværdi µ, varians σ 2 og spredning σ er henholdsvis [138.97, ], [ , ] og [8.51, 10.16]. Eksempel 1.2 (Fortsat) For de 20 kondital er modellen X i N(µ,σ 2 ), i = 1,...,20, hvor både middelværdien µ og variansen σ 2 er ukendte. Der er ikke nogen rimelige hypoteser at teste, hverken om middelværdien eller variansen, så vi nøjes med at angive estimater og konfidensintervaller for parametrene. Da n = 20, S = og SK = fås, at µ x = og σ 2 s 2 = % konfidensintervallerne for middelværdi µ, varians σ 2 og spredning σ er henholdsvis [69.835, ], [13.541, ] og [3.680, 7.067].

148 4.28 Beregninger i Excel Anneks til Afsnit 4.3 Beregninger i Excel Vi viser her, hvorledes beregningerne for én observationsrække med ukendt middelværdi og varians kan laves ved hjælp af Excel. Eksempel 4.1 (Fortsat) I det følgende refererer vi til udskriften fra Excel på side Følg ruten Funktioner Dataanalyse Beskrivende Statistik. Angiv i dialogboksen, der fremkommer, celler A4:A18 i Inputområde. Marker Ny regnearksfane under Outputindstillinger %&''()"!"#! og $ $ $ $ klik i ruderne foran Resumestatistik og Konfidensniveau. Resultatet af dette er angivet i cellernea1:b16 nedenfor. %&!34'!'+!' $ $ &*&+&(,- &+&(,+!.'- 89 %3#7 56&,+!+ $ '3+!6 $ $ '!'+ '!'+ 5,(!+!'6: $ ;< $ /!"+&' %&'''(!."+ $ 012/ $ & &+&++ $ &+&+&"+ $ $ &+&++ &'" %6!!6 $ +4!.+4!. $ $ $ $ Vi genkender umiddelbart estimaterne x og s 2 for middelværdien µ og variansen σ 2 i cellerneb3 ogb8. Cellerne D2:E3 giver 95% konfidensintervallet for middelværdien µ. Idet indholdet af cellen B16 er t (14) s 2 /n beregnesd3 som =B3 B16 (µ nedre = x t (14) s 2 /n) ogd4 beregnes tilsvarende. Cellerne D5:E7 indeholder oplysningerne om t-testet for hypotesen H 0µ : µ = 80. Da indholdet af cellenb4 er s 2 /n beregnes cellerned7 oge7 som = (B3 80)/B4 (t(x) = ( x 80)/ s 2 /n )

149 4.29 og = TFORDELING(D7; 14; 2) (ε(x) = 2(1 P(t(14) t(x) )). CellerneF5:G7 indeholder oplysningerne om testet for hypotesen H 0σ 2 : σ 2 = 25. Cellerne F7 ogg7 beregnes som =B8/25 (s 2 /σ0 2 ) og, idet s 2 /σ0 2 1, =2 (CHIFORDELING(14 F7;14)) (ε(x) = 2F χ 2 (14)/14 (s2 /σ0 2 )). 95% konfidensintervallerne for variansen σ 2 og spredningen σ er beregnet i D11:E12 og D14:E15. Eksempelvis er D12 =B8/CHIINV(0,025;14) 14 (σnedre 2 = s2 /χ (14)/14) ogd15 =KVROD(D12) (σ nedre = s 2 /χ (14)/14).

150 4.30 Hovedpunkter til Afsnit 4.3 Hovedpunkter til Afsnit 4.3 Modellen for én normalfordelt observationsrække x 1,...,x n med ukendt varians σ 2 er M 0 : X i N(µ,σ 2 ), i = 1,...,n. Modelkontrol Fraktilsammenligning Estimation Middelværdien µ estimeres ved gennemsnittet af observationerne µ x = S n og variansen σ 2 ved den empriske varians σ 2 s 2 = 1 n 1 n i=1 (x i x ) 2 = 1 n 1 N(µ, σ 2 n ) (SK S2 n ) σ 2 χ 2 (n 1)/(n 1). Test Hypotesen H 0µ : µ = µ 0 testes ved hjælp af t-teststørrelsen t(x) = t(x 1,...,x n ) = x µ 0 t(n 1) s 2 /n og testsandsynligheden er ε(x) = 2(1 F t(n 1) ( t(x) )). Hypotesen H 0σ 2 : σ 2 = σ 2 0 testes ved hjælp af teststørrelsen s 2 σ0 2 χ 2 (n 1)/(n 1) og testsandsynligheden er ε(x) = 2(1 F χ 2 (n 1)/(n 1) ( s2 σ0 2 )) hvis s2 σ0 2 2F χ 2 (n 1)/(n 1) ( s2 σ0 2 ) hvis s2 σ0 2 1 < 1.

151 4.31 Ved test på niveau 5% forkastes H 0σ 2 : σ 2 = σ 2 0 ikke, hvis χ s2 (n 1)/(n 1) σ0 2 χ (n 1)/(n 1) Konfidensinterval (1 α) konfidensintervallet for middelværdien µ er [ ] s 2 s x t 1 α/2 ( f) n, 2 x +t 1 α/2 ( f), n (1 α) konfidensintervallet for variansen σ 2 er [ s 2 χ 2 1 α/2 (n 1)/(n 1), s 2 χ 2 α/2 og (1 α) konfidensintervallet for spredningen σ er [ s 2 χ1 α/2 2 (n 1)/(n 1), (n 1)/(n 1) s 2 ] χα/2 2 (n 1)/(n 1) ].

152 To observationsrækker 4.4 To observationsrækker Selvom afsnittet har overskriften to observationsrækker begynder vi med at indføre notation for k observationsrækker allerede her. Det skyldes, at notationen og nogle de basale regninger i tilfældet k = 2 naturligvis blot er et specialtilfælde. Modellen for k normalfordelte observationsrækker er, at data x 11,...,x 1 j,...,x 1n1 x i1,...,x i j,...,x ini x k1,...,x k j,...,x knk er realisationer af uafhængige, normalfordelte stokastiske variable, det vil sige M 0 : X i j N(µ i,σ 2 i ). Denne model vil kort blive omtalt som modellen for k normalfordelte observationsrækker. Som det fremgår, bruger vi i til at indicere observationsrækkerne og j til at indicere observationerne inden for rækkerne. Antallet af observationer i den i te række betegnes n i, og der er ikke noget krav om, at der skal være det samme antal observationer i hver række. I hver observationsrække beregnes skøn over middelværdien og variansen. Skønnet over middelværdien i den i te række er gennemsnittet i den i te række, og det betegnes x i. Skønnet over variansen i i te række er den empiriske varians s 2 beregnet i den i te række, og det betegnes s 2 (i). Den tilsyneladende overflødige parentes om rækkeindekset på variansskønnene s 2 (i) er indført for at skelne dem fra størrelserne s 2 1 og s2 2, som indføres senere i dette kapitel i forbindelse med en følge af gradvist mere restriktive hypoteser om middelværdierne. For frihedsgraderne bruges den tilsvarende notation. Således betegner f (i) = n i 1 frihedsgraderne for s 2 (i), og s2 (i) = SAK (i)/ f (i), hvor SAK (i) er SAK fra den i te række. Vi har i dette afsnit benyttet notationen x i for gennemsnittet i den i te observationsrække. Vi benytter her den meget almindelige konvention, at når man har indicerede variable, kan man angive summen af variablen over alle værdier af et indeks ved at erstatte indekset med. For eksempel betegner x i summen i den i te observationsrække, x betegner summen af alle observationer og n betegner det totale antal observationer. Med over variabelnavnet angiver man, at der er taget gennemsnit over alle de observationer, der er summeret over. Således betegner netop x i gennemsnittet af de n i observationer i den i te observationsrække, og x betegner gennemsnittet over alle n observationer. Beregningen af gennemsnittene og de empiriske varianser foretages bekvemt ved hjælp af beregningsskemaet på side 4.33.

153 4.33 Beregningsskema til k observationsrækker Række antal Sum af Friheds- Varians- Gennemnr. obs Sum kvadrater grader estimat snit i n i S i SK i S 2 i n i SAK (i) f (i) s 2 (i) x i 1 n 1 S 1 SK 1 S 2 1 n 1 SAK (1) f (1) s 2 (1) x i n i S i SK i S 2 i n i SAK (i) f (i) s 2 (i) x i k n k S k SK k S 2 k n k SAK (k) f (k) s 2 (k) x k Ialt n S SK k Si 2 i=1 n i SAK 01 f 01 s 2 01 x Her er SAK (i) = SK i S2 i n i, f (i) = n i 1, s 2 (i) = SAK (i) f (i), x i = S i n i, mens tallene i kolonnerne 2-7 i den sidste række er summen af tallene i den tilsvarende kolonne. Endelig er og s 2 01 = SAK 01 f 01 x = S. n

154 To observationsrækker Vi vender nu tilbage til modellen for to observationsrækker, det vil sige M 0 : X i j N(µ i,σ 2 i ), j = 1,...,n i, i = 1,2. Behandlingen af to normalfordelte observationsrækker består i at undersøge om varianserne kan antages at være ens, det vil sige teste hypotesen H 01 : σ1 2 = σ 2 2, svarende til reduktionen M 0 M 1, hvor M 1 : X i j N(µ i,σ 2 ), og derefter at undersøge om middelværdierne kan antages at være ens, det vil sige teste hypotesen H 02 : µ 1 = µ 2 svarende til reduktionen M 1 M 2, hvor M 2 : X i j N(µ,σ 2 ). Behandlingen afsluttes med beregning af relevante konfidensintervaller. Undertiden testes hypotesen om ens middelværdier selvom hypotesen om ens varianser ikke kan accepteres. For at skelne mellem de to situatoner betegner vi da hypotesen om ens middelværdier med H 02, det vil sige H 02 : µ 1 = µ 2, idet den svarer til reduktionen M 0 M 2, hvor M 2 : X i j N(µ,σ 2 i ). Der er forskel, både på hvordan man kan teste hypotesen om ens middelværdier og på hvordan man beregner konfidensintervaller, når der er varianshomogenitet, det vil sige at man har accepteret H 01 : σ1 2 = σ 2 2, og når der ikke er varianshomogenitet. De to tilfælde behandles hver for sig i underafsnit. Gennemgangen af to observationsrækker med ens varians baseres på Eksempel 4.2. Eksempel 4.2 Vi betragter konditallene for de ikke-aktive og de aktive idrætsudøvere i henholdsvis Opgave 1.4 og Eksempel 1.2, som er gengivet nedenfor. kondital ikke-aktive aktive Figur 4.8 viser fraktildiagrammet for de to observationsrækker. Det ses, at punkterne i diagrammet forekommer at variere - uden systematiske afvigelser - omkring to linjer med samme hældning. Vi betragter derfor modellen M 0 og har i denne et håb om, at hypotesen H 01 om varianshomogenitet kan accepteres, idet hældningen af linjerne i fraktildiagrammet jo svarer til den reciprokke varians.

155 4.35 Figur 4.8 Fraktildiagrammet for data i Eksempel 4.1. Ikke-aktive svarer til gruppe 0. Esimaterne for de fire parametre i modellen M 0 : X i j N(µ i,σi 2 ), j = 1,...,n i, i = 1,2. fremgår at de to sidste kolonner i beregningsskemaet: Test for varianshomogenitet Eksempel 4.2 (Fortsat) Vi tester nu hypotesen om ens varians i de to observationsrækker, det vil sige H 01 : σ 2 1 = σ 2 2.

156 To observationsrækker Udgangspunktet er variansskønnene i de to observationsrækker. s 2 (1) = σ 2 1 s 2 (2) = σ 2 2, og som teststørrelse bruges forholdet mellem variansskønnene F(x) = s2 (1) s 2 = = (2) Store og små værdier af teststørrelsen er kritiske for H 01, for de afspejler store forskelle i variansskønnene og dermed sandsynligvis store forskelle i varianserne. Derimod er værdier omkring 1 ikke kritiske. I dette eksempel er P[F(X) > 1.417] = 1 F F( f(1), f (2) )(1.417) = 0.232, hvor F( f (1), f (2) ) er F-fordelingen med f (1) = n 1 1 frihedsgrader i tælleren og f (2) = n 2 1 frihedsgrader i nævneren. Da små værdier også er kritiske forh 01 vælger man at sætte testsandsynligheden til ε(x) = 2P[F(X) > 1.417] = Det strider ikke mod H 01, som således accepteres. Modellen M 0 kan altså reduceres til M 1 : X i j N(µ i,σ 2 ). Testsandsynligheden, der er illustreret i Figur 4.9, er her regnet ud i F-fordelingen. F- fordelingen med f (1) frihedsgrader i tælleren og f (2) frihedsgrader i nævneren er netop fordelingen til forholdet mellem en χ 2 ( f (1) )/ f (1) -fordelt stokastisk variabel og en χ 2 ( f (2) )/ f (2) -fordelt stokastisk variabel, som er uafhængige, jævnfør Afsnit Nu er s 2 (1) og s2 (2) realisationer af henholdsvis en σ 2 1 χ2 ( f (1) )/ f (1) - og en σ 2 2 χ2 ( f (2) )/ f (2) - fordelt stokastisk variabel, og netop under H 01 : σ1 2 = σ 2 2 er σ 1 2/σ 2 2 = 1, så forholdet F(x) = s 2 (1) /s2 (2) bliver en realisation af en F( f (1), f (2) )-fordelt stokastisk variabel. Det kan være instruktivt at se, hvor store forskelle i de to variansskøn man kunne komme ud for uden at forkaste hypotesen om ens varianser. 97.5% fraktilen i F(16, 19)-fordelingen er 2.59, så man kunne have observeret en forskel i de to variansskøn på omkring en faktor 2.5 og alligevel have accepteret H 01 : σ 2 1 = σ 2 2.

157 4.37 Figur 4.9 Illustration af testsandsynligheden for F-testet i Eksempel 4.2. Testsandsynligheden er arealet af den skraverede område. F-testet og Statistical Tables Tabellerne over F-fordelingen i Statistical Tables indeholder kun fraktiler over 0.5, så testsandsynligheden for F-testet kan ikke slås op i tabellen, hvis den observerede værdi af F(x) = s 2 (1) / s 2 (2) er lille. Dette afhjælpes på følgende måde: Sæt s 2 tæller = max{s2 (1),s2 (2) }, lad f tæller være frihedsgraderne for s 2 tæller, s 2 nævner = min{s2 (1),s2 (2) } og lad f nævner være frihedsgraderne for s 2 nævner. F-teststørrelsen er Testsandsynligheden beregnes som F(x) = s2 tæller s 2. nævner ε(x) = 2 [ 1 F F( ftæller, f nævner )(F(x)) ], hvor F( f tæller, f nævner ) betegner F-fordelingen med f tæller frihedsgrader i tælleren og f nævner frihedsgrader i nævneren. Ved test på 5% niveau accepteres H 01 : σ1 2 = σ 2 2 hvis F(x) < F ( f tæller, f nævner ), 97.5% fraktilen i F-fordelingen med ( f tæller, f nævner ) frihedsgrader.

158 To observationsrækker Ens varians Igen diskuteres den generelle teori med udgangspunkt i Eksempel 4.2. Eksempel 4.2 (Fortsat) Efter accept af hypotesen H 01 : σ 2 1 = σ 2 2 er modellen M 1 : X i j N(µ i,σ 2 ). Estimation Ved estimation af modellens tre parametre µ 1, µ 2 og σ 2 benyttes en generel estimations metode, maksimum likehood estimation, som omtales i Kapitel 5. Traditionelt antyder man brug af denne metode ved benytte symbolet ˆ(udtales hat ) over parametrene. Således betegner ˆµ 1, ˆµ 2 og ˆσ 2 maksimum likehood estimaterne for µ 1, µ 2 og σ 2. Vi skal ikke i detaljer komme ind på, hvordan man finder estimaterne for parametrene, men kun nævne, at maksimum likelihood estimaterne for µ 1 og µ 2 er gennemsnittene i de to observationsrækker, altså ˆµ 1 = x 1 og ˆµ 2 = x 2, mens maksimum likelihood estimatet for σ 2 er ˆσ 2 = SAK 01 n = SAK (1) + SAK (2) n 1 + n 2. Da SAK (1) σ 2 χ 2 ( f (1) ) og SAK (2) σ 2 χ 2 ( f (2) ) og SAK (1) og SAK (2) er uafhængige, er SAK 01 σ 2 χ 2 ( f (1) + f (2) ), jævnfør (3.25) i Afsnit For at få et skøn med middelværdi σ 2 bruges skønnet s 2 01 = SAK 01 f (1) + f (2) = SAK 01 f 01, (4.24) idet vi benytter betegnelsen f 01 = f (1) + f (2) for frihedsgraderne for s Estimaterne for parametrene i M 1 og deres fordeling kan resumeres på følgende måde: og µ 1 x 1 N(µ 1, σ 2 n 1 ), µ 2 x 2 N(µ 2, σ 2 n 2 ), σ 2 s 2 01 = f (1)s 2 (1) + f (2)s 2 (2) f (1) + f (2) = SAK (1) + SAK (2) f (1) + f (2) σ 2 χ 2 ( f (1) + f (2) )/( f (1) + f (2) ). Vi gør igen opmærksom på at her skal for eksempel notationen x 1 N(µ 1, σ 2 n 1 )

159 4.39 læses x 1 er en realisation af en stokastisk variabel X 1, som er fordelt N(µ 1,σ 2 /n 1 ). Det første minder altså om, at skønnet er en realisation af en stokastisk variabel, og det andet har sin sædvanlige betydning fordelt som. Vi har hermed beskrevet de marginale fordelinger for skønnene, og da de marginale fordelinger er uafhængige, er skønnenes simultane fordeling beskrevet. Det falder uden for rammerne af kurset at bevise uafhængigheden af estimaternes fordeling. Bemærk, at formlen s 2 01 = ( f (1)s 2 (1) + f (2)s 2 (2) )/( f (1) + f (2) ) viser, at s 2 01 er et vægtet gennemsnit med vægte f (1) og f (2). Derfor får det af de to variansskøn s 2 (1) og s2 (2) med flest frihedsgrader den største indflydelse på s Tilbage til de konkrete tal i eksemplet. Estimaterne, der fremgår af beregningsskemaet på side 4.35 resumeres i nedenstående tabel. middelværdi µ varians σ 2 ikke-aktive aktive Test af hypotesen om ens middelværdier Vi tester nu hypotesen om ens middelværdi i de to observationsrækker: H 02 : µ 1 = µ 2. Testet er baseret på en sammenligning af estimaterne for middelværdierne. Da og fordelingerne er uafhængige, er x 1 N(µ 1, σ 2 x 1 x 2 N n 1 ) og x 2 N(µ 2, σ 2 n 2 ), (µ 1 µ 2,σ 2 ( 1n1 + 1n2 )), og under nulhypotesen, er Derfor er ( )) x 1 x 2 N (0,σ 2 + 1n1 1n2. x 1 x 2 ( ) N(0,1). (4.25) σ 1n n2 Da σ 2 er ukendt, indsættes i stedet skønnet s 2 01, og man får teststørrelsen t(x), hvor t(x) = x 1 x 2 ( 1 ) t( f 01). (4.26) s 2 01 n n 2

160 To observationsrækker Det fremgår af Afsnit 3.1.4, att(x) er t-fordelt med f 01 frihedsgrader, da s 2 01 σ 2 χ 2 ( f 01 )/ f 01 og uafhængig af fordelingen til (4.25). Den observerede værdi af teststørrelsen t(x) er t(x) = ( ) = = De værdier af t(x), som er mere kritiske for nulhypotesen end den observerede værdi , er t < og t > Testsandsynligheden bliver ε(x) = 2 [ 1 F t(35) (1.6414) ] = 0.110, hvor F t(35) betegner fordelingsfunktionen for t-fordelingen med 35 frihedsgrader. Da ε(x) > 0.05, strider det ikke mod H 02, som accepteres. Faglig set betyder dette, at vi ikke kan påvise forskel på konditallene for de ikke-aktive og de aktive, hvilket er lidt overraskende. Det fremgår ikke klart af Andersen (1998), hvordan de to grupper er defineret. Konklusionen er altså, at selvom estimatet x 2 = for middelværdien af de aktives kondital er større end estimatet x 1 = for de ikke-aktive, er forskellen ikke statistisk signifikant. Modellen er herefter M 2 : X i j N(µ,σ 2 ), i = 1,2, j = 1,...,n i. Det er den velkendte model for én observationsrække, som ganske vist her har en lidt mere indviklet indicering af de enkelte observationer, end det var nødvendigt i Afsnit 4.3. Ved hjælp af formlerne (4.11) og (4.12) finder vi, at estimaterne for parametrene er hvor n = n 1 + n 2. µ x = N(µ, σ 2 ), σ 2 s 2 02 = σ 2 χ 2 (n 1)/(n 1), Bemærk, at når man har udført standardberegningerne for hver af de to observationsrækker, det vil sige, at man har beregnet S 1, S 2, SK 1 og SK 2, får man S og SK for samtlige observationer som S = S 1 + S 2 og SK = SK 1 + SK 2. Standardberegningerne for de to observationsrækker er givet i tabellen øverst side 4.35, så man finder n = 37, S = , SK = , som er brugt til at beregne estimaterne for µ og σ 2 ovenfor. n

161 Konfidensintervaller % konfidensintervaller for µ og σ 2 - beregnet ved hjælp af formlerne (4.17) og (4.20) - er vist i tabellen nedenfor. 95% konfidensintervaller middelværdi µ varians σ 2 ikke-aktive og aktive [68.985, ] [ , ] I eksemplet her var konklusionen at t-testet ikke stred mod H 02 : µ 1 = µ 2, og analysen sluttede med et 95% konfidensinterval for den fælles middelværdi µ og for den fælles varians σ 2. Hvis H 02 var blevet forkastet ville slutmodellen være M 1, to observationsrækker med forskellig middelværdi og fælles varians. I det tilfælde kunnne man være interesseret i konfidensintervallerne for middelværdierne µ 1 og µ 2, og de vil være {µ 1 x 1 t 1 α/2 ( f 01 ) {µ 2 x 2 t 1 α/2 ( f 01 ) s 2 01 n 1 µ 1 x 1 +t 1 α/2 ( f 01 ) s 2 01 n 2 µ 2 x 2 +t 1 α/2 ( f 01 ) s 2 01 n 1 }, s 2 01 n 2 }, hvor man lægger mærke til, at man i overensstemmelse med at slutmodellen er M 1 benytter det fælles variansskøn s 2 01 med tilhørende frihedsgrader f 01. Men det vil ofte være meget mere interessant at beregne konfidensintervallet for forskellen i middelværdi i de to observationsrækker, det vil sige for µ 1 µ 2. Meget ofte planlægges et forsøg med to observationsrækker for at påvise en forskel på middelværdierne, og bredden af konfidensintervallet for µ 1 µ 2 viser hvor præcist denne forskel er bestemt. Konfidensintervallet er baseret på t-testet i (4.26), og (1 α) konfidensintervallet er { x 1 x 2 t 1 α/2 ( f 01 ) s 2 01 ( 1 n n 2 ) µ 1 µ 2 x 1 x 2 + t 1 α/2 ( f 01 ) s 2 01 ( 1 n n 2 ) } (4.27) Selv når testet for H 02 ikke forkaster hypotesen, og man derfor må konkludere, at data ikke strider mod H 02, at de to observationsrækker har samme middelværdi, er det interessant at beregne konfidensintervallet for µ 1 µ 2, som også i det tilfælde er givet ved formlen ovenfor. Man skal nemlig være opmærksom på, at når et statistisk test ikke er signifikant, har man ikke bevist at der ingen forskel er. Man har kun vist, at data ikke strider mod en antagelse om ingen forskel, og det kunne jo skyldes at man havde lavet et dårligt forsøg med enten for stor varians, for små stikprøver eller begge dele. Bredden af konfidensintervallet for µ 1 µ 2 kan bruges til at vurdere kvaliteten af forsøget. Et forsøg med et smalt konfidensinterval vil virke mere overbevisende.

162 To observationsrækker end et forsøg med et bredt konfidensinterval, og her skal bredden af konfidensintervallet altid vurderes ud fra den faglige problemstilling. 95% konfidensintervallet for µ 1 µ 2 er i det konkrete tilfælde x 1 x 2 ±t (35) s 2 01 ( ) = ± = [ 6.395,0.677]. 20 Konfidensinterval for σ 2 i modellen M 1 beregnes som beskrevet for én observationsrække. Det er baseret på at s 2 01 σ 2 χ 2 ( f 01 )/ f 01 og (1 α) konfidensintervallet er { σ 2 s 2 01 χ 2 1 α/2 ( f 01)/ f 01 σ 2 s 2 01 χ 2 α/2 ( f 01)/ f 01 og det kan transformeres til et (1 α) konfidensinterval for σ σ s 2 01 χ1 α/2 2 ( f σ s )/ f 01 χα/2 2 ( f 01)/ f 01. }, Forskellig varians Den generelle teori diskuteres i forbindelse med datasættet i Eksempel 4.3. Eksempel 4.3 Tabellen nedenfor indeholder tiderne for de to semifinaler i kvindernes 100 m løb ved de olympiske lege i Sydney semifinale semifinale Fraktildiagrammet i Figur 4.10 antyder, at var de to observationsrækker kan antages at være normalfordelte men med hver sin varians, idet punkterne varierer omkring to rette linjer med forskellig hældning. Da S 1 = 90.83, S 2 = 89.82, SK 1 = og SK 2 = bliver estimaterne i modellen M 0 : X i j N(µ i,σ 2 i ), j = 1,...,8, i = 1,2 semifinale middelværdi µ varians σ

163 4.43 Figur 4.10 Fraktildiagrammet for data i Eksempel 4.3. Som altid betragter vi først hypotesen om varianshomogenitet H 01 : σ 2 1 = σ 2 2. F-testet bliver F(x) = s2 (2) s 2 = = (1) Teststørrelsen skal vurderes i en F-fordeling med 7 frihedsgrader i tælleren og 7 frihedsgrader i nævneren. Her er P[F(X) > ] = 1 F F(7,7) (5.5812) = = , så testsandsynligheden bliver ε(x) = 2P[F(X) > ] = Testsandsynligheden er under 0.05, så H 01 forkastes. De to observationsrækker har ikke den samme varians. Variansskønnet er størst for tiderne i den anden semifinale. Modellen er stadig M 0 ovenfor. Test af hypotesen om ens middelværdier Vi tester nu hypotesen om ens middelværdier i de to observationsrækker: H 02 : µ 1 = µ 2

164 To observationsrækker selvom de to rækker har forskellig varians. H 0µ er Udgangspunktet er som før at vurdere forskellen i skønnene over middelværdierne. Under x 1 x 2 N(0, 1) (4.28) σ1 2/n 1 + σ2 2/n 2 og da varianserne er ukendte, kan man forsøge sig med at erstatte dem med skønnene i formlen (4.28). Det giver teststørrelsen t(x) = x 1 x 2. s 2 (1) /n 1 + s 2 (2) /n 2 Denne er ikke eksakt t-fordelt, men man kan vise, at dens fordeling kan approksimeres med en t-fordeling med et antal frihedsgrader, f, der beregnes ud fra variansskønnene og antal observationer i hver af de to observationsrækker. Formlen til beregning af f er ( ) s 2 2 (1) n 1 + s2 (2) n 2 f =. (4.29) og det kan vises, at ( ) s 2 2 (1) n 1 f + (1) ( ) s 2 2 (2) n 2 f (2) min { f (1), f (2) } f f (1) + f (2). Tilbage til det konkrete eksempel finder man, at t(x) = = = (4.30) / / For at kunne beregne testsandsynligheden findes f ved hjælp af formel (4.29) til f = 9.43, som rundes ned til 9. Testsandsynligheden kan derpå beregnes ved hjælp af t-fordelingen med 9 frihedsgrader til ε(x) = 2 [ 1 F t(9) (1.9097) ] = Da testsandsynligheden er større end 0.05 accepteres H02. De to observationsrækker kan altså antages at have samme middelværdi med de har forskellige varianser. Konfidensintervaller Konfidensintervaller for varianserne i hver af de to observationsrækker beregnes som beskrevet for én observationsrække. Vi nøjes her med at angive et approksimativt konfidensinterval for µ 1 µ 2 som baseres på den approksimative t-fordeling af t(x) = x 1 x 2, s 2 (1) /n 1 + s 2 (2) /n 2

165 og et (1 α) konfidensinterval bliver x 1 x 2 t 1 α/2 ( f) s 2 (1) + s2 (2) n 1 n 2 µ 1 µ 2 x 1 x 2 +t 1 α/2 ( f) s 2 (1) n 1 + s2 (2) n (4.31) Grænserne for 95% konfidensintervallet for µ 1 µ 2 er, idet vi benytter f = 9 i stedet for f = 9.43, x 1 x 2 ±t (9) s 2 (1) n 1 + s2 (2) n 2 = ± = [ , ] Parrede observationer Antag, at vi betragter følgende generelle situation. Vi ønsker at undersøge, om en bestemt behandling (for eksempel en træningsmetode eller et medicinsk præparat) har en virkning. Vi udfører derfor et eksperiment, der består i at vi på n forsøgspersoner før og efter behandlingen måler en størrelse (for eksempel kondital eller glycogen indhold i muskler) ved hjælp af hvilken behandlingens effekt kan belyses. Lad x i1 og x i2 betegne målingerne før og efter for den i person, i = 1,...,n. Vi har altså ialt 2n målinger, x i j, i = 1,...,n og j = 1,2, men de er parrede, idet x i1 og x i2 er sammenhørende observationer for den i te person. Lad X i j betegne de tilsvarende stokastiske variable. Typisk varierer middelværdien af den første måling fra person til person. Det vil sige, at EX i1 = α i, i = 1,...,n, hvor α i er udtryk for den i te persons niveau af den målte størrelse. Antager vi nu, at behandlingen har en virkning som uafhængigt af personernes niveau forøger eller formindsker middelværdierne med en størrelse δ har vi EX i2 = α i + δ, i = 1,...,n. Ingen virkning af behandlingen kan derfor formuleres som hypotesen H 0 : δ = 0. Lad D i betegne differensen mellem målingen efter og før behandlingen for den i te person, det vil sige D i = X i2 X i1, i = 1,...,n.

166 To observationsrækker Da ED i = E(X i2 X i1 ) = EX i2 EX i1 = (α i + δ) α i = δ, ses det, at middelværdien af differenserne er uafhængig af personernes niveauer samt at H 0 svarer til at ED i = 0, i = 1,...,n. Hypotesen H 0 kan testes på flere måder. Vi tager her udgangspunkt i antagelsen om at de observerede differenser d 1,...,d n kan opfattes som en normalfordelt observationsrække, det vil sige, vi antager at D 1,...,D n er stokastisk uafhængige og betragter modellen M 0 : D i N(δ,σD). 2 Modellen M 0 kontrolleres ved fraktilsammenligning baseret på differenserne d 1,...,d n samt ved at indtegne punkterne (x i1,x i2 ), i = 1,...,n. Punkterne i denne tegning skal variere omkring en ret linje med hældning 1 og afskæringen på andenaksen giver et estimat for δ. I M 0 er testet for H 0 : δ = 0 altså blot testet for at middelværdien for en normalfordelt observationsrække d 1,...,d n kan antages at være 0. Dette test - t-testet - er omtalt i Afsnit 4.3. I denne situation omtales testet som det parrede t-test. Hvis d t(d) = n, s 2 d hvor og bliver testsandsynligheden for H 0 d = 1 n s 2 d = 1 n 1 n i=1 n i=1 d i (d i d) 2 ε(d) = 2(1 P(t(n 1) t(d) )), hvor t(n 1) er en t-fordelt stokastisk variabel med n 1 frihedsgrader, og ved test på niveau 5% forkastes H 0 : δ = 0, hvis t(d) > t (n 1). Bemærkning Modellen M 0 involverer ikke antagelser om de stokastiske variable X i j, i = 1,...,n, j = 1,2, men kun om differenserne D i, i = 1,...,n. Hvis imidlertid X i j -erne er stokastisk uafhængige og X i1 N(α i,σ1 2) og X i2 N(α i + δ,σ2 2) er forudsætningerne i M 0 opfyldt, idet vi da har D i N(δ,σD 2), hvor σ D 2 = σ σ 2 2. Eksempel 4.4 (Andersen 1998) Tallene i tabellen nedenfor er indsamlet for at undersøge om træning har indflydelse på glycogen indholdet i benmuskler. Der er foretaget målinger på 8 personer, som i en

167 4.47 periode på 3 uger træner det ene ben men ikke det andet. For hver af de to ben er glycogen indholdet målt før og efter træningen. Trænet ben Utrænet ben Forsøgs- Før Efter Før Efter person nr. træning træning Differens træning træning Differens Vi vil vurdere om træningen har effekt og betragter derfor primært tallene for det trænede ben. Tallene for det utrænede ben fungerer som en slags kontrol af forsøget, idet en effekt her vil antyde, at andre ting end træning har indflydelse på glycogen indholdet i musklerne. Figur 4.11 viser kontroltegningerne for såvel det trænede ben (+) og det utrænede ben ( ). Af fraktildiagrammet ses, at i begge tilfælde kan vi med rimelighed antage, at observationerne kan opfattes som en normalfordelt observationsrække, det vil sige at vi i begge tilfælde kan betragte modellen M 0 : D i N(δ,σD 2 ), i = 1,...,8. Endvidere antyder diagrammet, at middelværdien for det utrænede ben ligger tæt på 0, mens den for det trænede ben er af størrelsesordenen 275. (Dette ses af figuren ved at finde de punkter på førsteaksen der svarer til værdien 0 på andenaksen.) I den nederste tegning varierer punkterne pænt omkring rette linjer med hældning 1. Eneste afvigelse forekommer at være observationen for det trænede ben for person nr. 6, som måske er en ekstrem observation. Vi fastholder dog modellen M 0 i begge tilfælde og ser senere på hvilken indflydelse observationerne for person nr. 6 har på resultatet af analysen. Da summen og kvadratsummen af differenserne i de to tilfælde er differenser S SK utrænet ben trænet ben finder vi for det trænede ben: d = 2219 =

168 To observationsrækker Figur 4.11 Kontroltegninger for det parrede t-test for data i Eksempel 4.4.

169 4.49 og og dermed s 2 d = ( ) = t(d) = = I tabellen over t-fordelingen finder vi, at testsandsynligheden for H 0 : δ = 0 er ε(d) = 2(1 P(t(7) 5.793)) = Hypotesen H 0 forkastes. Vi har derfor påvist en signifikant virkning af træning på glycogen indholdet. Da d > 0, kan vi konkludere, at træning øger glycogen indholdet. På samme måde finder vi for detutrænede ben: d = 7 8 = og og dermed s 2 d = 1 72 ( ) = t(d) = = Testsandsynligheden for H 0 : δ = 0 er derfor ε(d) = 2(1 P(t(7) 0.018)) = , så H 0 kan ikke forkastes. Vi kan derfor ikke konstatere nogen signifikant forskel i middelværdien af indholdet af glycogen i det utrænede ben før og efter de 3 uger. Gentages analysen, idet målingerne for person nr. 6 udelades, finder vi for det trænede ben t(d) = ε(d) = 2(1 P(t(6) 7.365)) = og for det utrænede ben t(d) = ε(d) = 2(1 P(t(6) 0.492)) = , og altså præcis de samme konklusioner som ovenfor.

170 4.50 Beregninger i Excel Anneks til Afsnit 4.4 Beregninger i Excel Excel har fire dialogbokse der let udfører beregninger for to observationsrækker, nemlig F-test: Dobbelt-stikprøve for ens varians t-test: To stikprøver med ens varians t-test: To stikprøver med forskellig varians t-test: Parvis dobbelt stikprøve for middelværdi Den sidste af disse laver beregningerne for det parrede t-test i Afsnit og det er oplagt hvad de tre første dialogbokse laver. Vi illustrerer nu brugen af disse dialogbokse i forbindelse med eksemplerne i afsnittet. Eksempel 4.2 (Fortsat) Antag af cellernea1:b23 har indholdet vist nedenfor For at beregne F-testet for hypotesen H 01 : σ1 2 = σ 2 2 følger vi ruten:funktioner Dataanalyse F-test: Dobbelt-stikprøve for ens varians. I dialogboksen, der fremkommer, angives cellerne A4:A20 i ruden efter Område for variabel 1 og cellerne B4:B23

171 4.51!"#!$%&'!"#!$%&( i ruden efterområde for variabel 2. På et nyt regneark kommer der følgende udskrift: 5, / -. )**+*,,,, ,, Udskriften indeholder tal vi genkender fra side 4.35 og side I linjen Middelværdi er angivet gennemsnittene x 1 og x 2 og i Varians findes de empiriske varianser s 2 (1) og s2 (2). Derefter følger i linjerne Observationer og fg henholdsvis antallet af observationer, n 1 og n 2, og antallet af frihedsgrader, f (1) og f (2), for de to observationsrækker. I linjen F er angivet værdien af F-teststørrelsen, Teksten i den næste linje, P(F<=f) en-halet, er misvisende i dette tilfælde, fordi tallet der er angivet, , er sandsynligheden for at en F(16, 19)-fordelt stokastisk variabel er større end den observerede værdi af F. Testsandsynligheden for F-testet fås ved at gange den angivne sandsynlighed med 2. Den sidste linje har vi ikke noget at bruge til for her angives 95% fraktilen, F 0.95 (16,19) i en F(16,19)-fordelingen. Det ville have været bedre at angive 97.5% fraktilen, da vi tester på niveau 5% og både store og små værdier af F er kritiske. Da hypotesen H 01 om varianshomogenitet accepteres, er vi klar til at teste hypotesen om ens middelværdier H 02 : µ 1 = µ 2. Dette gøres ved at følge rutenfunktioner Dataanalyse t-test: To stikprøver 6789:;<=> A B med ens varians. I dialogboksen, der fremkommer, angives igen cellerne A4:A20 i ruden efter Område for variabel 1 og cellerne B4:B23 i ruden efter Område for variabel 2. På et nyt regneark kommer der følgende udskrift: asmjsrf 88`6<:?<78`968;= 6? CDFCSC de^feosmjsrf ghlicefeiimiimfke^jpjqqeô_mqj D6`;968=: 7<`=<;?8? 69CDKMJCJFKERDoSÊC CDKMJCJFKCIDoSÊC dkhlmcnerdosêc dkhlmcncidosêc?`?:9=8<?`6?>;<: 6`;=>:<8 7`?8?66 bcfemoscjirem ]JQQEÔ_MQJ ;>`7966= 6< <7`6 ij 8: 7?

172 4.52 Beregninger i Excel Udskriften indeholder resultater vi kender fra side I de tre første linjer gengives estimaterne for parametrene i M 0 samt antallet af observationer i de to observationsrækker. I linjen Puljevarians ses estimatet s 2 01 for den fælles varians. I linjen Hypotesen for forskel i middelværdien står der 0, hvilket svarer til at hypotesen om ens middelværdier også kan formuleres H 02 : µ 1 µ 2 = 0. (Værdien 0 er default, men kan ændres ved i dialogboksen at udfylde ruden efter Hypotese for forskel i middelværdi.) De to næste linjer fg og t-stat giver antallet af frihedsgrader i t-testet samt teststørrelsen t(x). De næste to linjer bruger vi ikke, men i linjen P(T<=t) to-halet genfinder vi testsandsynligheden for t-testet. Den sidste linje indeholder 97.5% fraktilen, t (35), for t(35)-fordelingen. Eksempel 4.3 (Fortsat) Udskriften nedenfor indeholder F-testet for hypotesen om varianshomogenitet for data i dette eksempel. Sammenlignes med side 4.43 ses, at F=0, = (5.5812) 1. (Excel sætter altså ikke den største af de to empiriske varianser i tælleren.) Testsandsynligheden beregnes ud fra række 9 som 2*0, = , hvilket vi også,!"#!$%&'!"#!$%&( fandt tidligere.,, /. )**+*,, ,, er:6789:;<=> Da hypotesen H 01 om varianshomogenitet ikke accepteres, tester hypotesen om ens middelværdier H02 : µ 1 = µ 2 A B. Dette gøres ved at følge rutenfunktioner Dataanalyse t-test: To stikprøver med forskellig varians. Dialogboksen udfyldes som i eksemplet ovenfor. Udskriften bumjuvf _JQQESO`MQJ WXYZX[\]^?a??:867: 66a8:8<: WXYZX[\]?a?7>;: 66a77<: 6? 66 67CDFCUC 6a>?><98>9 68CDKMJCJFKCIDlUSEC CDKMJCJFKEVDlUSEC ghhijckevdlusec ghhijckcidlusec 7a7;76:===< 6a=88668=:;?a?9979=>8?a?==9><=; RT cdfemoucjivem efliceferimrimfkesjpjqqeso`mqj =? > =

173 4.53 Sammenlign med resultaterne på side Eksempel 4.4 (Fortsat) I cellerne A1:G11 nedenfor er data indtastet! og differenserne beregnet for såvel det trænede! ben og det utrænede ben. " " -. / CS P5741;:0<>341 QRA>0474C>1C>17@4?<D<==4?;21=< ),* * 0670:0 'N)+$+*+,% Det parrede test for den trænede ben fås via ruten Funktioner Dataanalyse t-test: #$%&'()* Parvis dobbelt :1;<7=>554?070<@A1B;4C>1D<==4?;21=< stikprøve for middelværdi. I dialogboksen angives cellerne B4:B11 i ruden efter Område for variabel 1 og cellerne A4:A11 i ruden efter Område for variabel 2. Udskriften herfra er: O:1<:37 M<==4?;21=< EFGHFIJK EFGHFIJKL #, ## 94:17>36@>114?:0<>3,N(&+($)%$& %,(%+N#&$*()*&'N$()*') )*(N' ',+N#$' #$ #% #& #' 06@1<0<7@436Y:?40 06@1<0<7@0>6Y:?40 9TUVW0X436Y:?40 9TUVW0X0>6Y:?40,N,,,%%&#'(,N,,,((*%## #N*+&'))',* $N%(&($$'( De tre første linjer i udskriften giver empirisk middelværdi, empirisk varians og antal observationer i de to observationsrækker. I linjen Pearson-korrelation angives den empiriske korrelationskoefficient for de to rækker. 0 et i linjen Hypotese for forskel i middelværdi bevirker at vi tester hypotesen H 0 : δ = 0. In linjen fg angives frihedsgraderne for det parrede t-test og teststørrelsen t(d) er i linjen t-stat. Testsandsynligheden aflæses i linjen P(T<=t) to-halet og i t-kritisk to-halet angivet 97.5% fraktilen t (n 1) i en t(n 1)-fordeling.

174 4.54 Beregninger i Excel!" Resultaterne stemmer overens med vores på side #$%&$'() #$%&$'()* For det utrænede ben fås på tilsvarende måde ved hjælp af cellerne E4:F11 udskriften , -. +,,,,!1 /0!!", ,,, 7,

175 4.55 Hovedpunkter til Afsnit 4.4 Her resumeres hovedpunkterne om k = 2 observationsrækker. Model Modellen for 2 normalfordelte observationsrækker er, at data x 11,...,x 1 j,...,x 1n1 x 21,...,x 2 j,...,x 2n2 er realisationer af uafhængige, normalfordelte stokastiske variable M 0 : X i j N(µ i,σ 2 i ), j = 1,...,n i, i = 1,2. Modelkontrol Probitanalyse, hvis der er observationer nok, men mindst prikdiagrammer på samme ark papir, så man kan vurdere forskelle og ligheder. Estimation i M 0 Man kan med fordel bruge beregningsskemaet for k observationsrækker side Med notationen herfra har man Det videre forløb afhænger af udfaldet af µ i x i N(µ i, σ i 2 ), i = 1,2, n i σ 2 i s 2 (i) σ 2 i χ 2 ( f (i) )/ f (i), i = 1,2. Test af H 01 : σ 2 1 = σ 2 2 Sæt s 2 tæller = max{s2 (1),s2 (2) }, lad f tæller være frihedsgraderne for s 2 tæller, s 2 nævner = min{s2 (1),s2 (2) } og lad f nævner være frihedsgraderne for s 2 nævner. Teststørrelse Testsandsynlighed F(x) = s2 tæller s 2. nævner ε(x) = 2 [ 1 F F( ftæller, f nævner )(F(x)) ], hvor F( f tæller, f nævner ) betegner F-fordelingen med f tæller frihedsgrader i tælleren og f nævner frihedsgrader i nævneren.

176 4.56 Hovedpunkter til Afsnit 4.4 Ved test på niveau 5% accepteres H 01 : σ 2 1 = σ 2 2, hvis F(x) < F ( f tæller, f nævner ). Accepteres hypotesen H 01 : σ 2 1 = σ 2 2 er modellen Model M 1 M 1 : X i j N(µ i,σ 2 ). Estimation i M 1 µ 1 x 1 N(µ 1, σ 2 n 1 ), µ 2 x 2 N(µ 2, σ 2 n 2 ), σ 2 s 2 01 = f (1)s 2 (1) + f (2)s 2 (2) f (1) + f (2) = SAK (1) + SAK (2) f (1) + f (2) σ 2 χ 2 ( f 01 )/ f 01, med f 01 = f (1) + f (2) = n 2. Test H 02 : µ 1 = µ 2 i M 1 Teststørrelse t(x) = x 1 x 2 ( 1 ) t( f 01). Testsandsynlighed s 2 01 n n 2 ε(x) = 2 [ 1 F t( f01 )( t(x) ) ]. (1 α) konfidensinterval for forskellen i middelværdi µ 1 µ 2 { x 1 x 2 t 1 α/2 ( f 01 ) s 2 01 ( } ) µ 1 µ 2 x 1 x 2 + t n 1 n 1 α/2 ( f 01 ) s 2 01 ( ), 2 n 1 n 2 hvor t 1 α/2 ( f 01 ) er 1 α/2 fraktilen i t( f 01 )-fordelingen med f 01 = n 1 + n 2 2. Accepteres hypotesen H 02 kan modelen M 1 reduceres til M 2 : X i j N(µ,σ 2 ), det vil sige, at de to observationsrækker kan opfattes som én stor observationsrække. Forkastes hypotesen H 01 : σ 2 1 = σ 2 2 er modellen stadig M 0 : X i j N(µ i,σ 2 i ). Test H 02 : µ 1 = µ 2 i M 0

177 4.57 Teststørrelse Testsandsynlighed t(x) = x 1 x 2 t( f). s 2 (1) /n 1 + s 2 (2) /n 2 [ ] ε(x) = 2 1 F t( f) ( t(x) ). (1 α) konfidensinterval for forskel i middelværdi µ 1 µ 2 x s 2 (1) 1 x 2 + s2 s (2) 2 (1) t n 1 n 1 α/2 ( f) µ 1 µ 2 x 1 x s2 (2) 2 n 1 n 2 t 1 α/2 ( f), hvor t 1 α/2 ( f) er 1 α/2 fraktilen i t-fordelingen med f frihedsgrader, og f beregnes efter formlen f = ( s 2 (1) n 1 + s2 (2) n 2 ) 2 ( ) s 2 2 (1) n 1 f + (1) ( ) s 2 2 (2) n 2 Accepteres hypotesen H 02 kan modellen M 0 reduceres til M 2 : X i j N(µ,σ 2 i ). f (2). Parrede observationer Data består af n parrede observationer, (x i1,x i2 ), i = 1,...,n. Model Differenserne d i = x i2 x i1, i = 1,...,n, det vil sige d 1,...,d i,...,d n er realisationer af uafhængige, normalfordelte stokastiske variable M 0 : D i N(δ,σD 2 ). Modelkontrol Fraktilsammenligning baseret på differenserne d 1,...,d n samt indtegning punkterne (x i1,x i2 ), i = 1,...,n, i et koordinatsysten. Punkterne i denne tegning skal variere omkring en ret linje med hældning 1. Estimation δ d = 1 n n i=1 d i N(δ, σ 2 D n )

178 4.58 Hovedpunkter til Afsnit 4.4 σ 2 D s2 d = 1 n 1 n i=1 (d i d) 2 σ 2 Dχ 2 (n 1)/(n 1) Test af H 0 : δ = 0 Det parrede t-test. Teststørrelse d t(d) = n t(n 1). s 2 d Testsandsynlighed ε(d) = 2(1 P(t(n 1) t(d) )), hvor t(n 1) er en t-fordelt stokastisk variabel med n 1 frihedsgrader. Ved test på niveau 5% forkastes H 0 : δ = 0 hvis t(d) > t (n 1).

179 k observationsrækker Notationen vedrørende k observationsrækker har vi allerede indført på side Som udgangspunkt for analysen betragter vi modellen M 0 : X i j N(µ i,σ 2 i ), j = 1,...,n i, i = 1,...,k, ifølge hvilken de k observationsrækker er normalfordelte hver med sin middelværdi og varians. Vi antager at k > 2, og modsætning til situationen i Afsnit 4.4, hvor k = 2, tester vi her kun hypotesen om ens middelværdier under forudsætning af varianshomogenitet. Med andre ord, vi tester først hypotesen om varianshomogenitet H 01 : σ 2 1 = = σ 2 k svarende til reduktionen M 0 M 1 : X i j N(µ i,σ 2 ) og kun hvis denne hypotese accepteres, tester vi hypotesen om ens middelværdier H 02 : µ 1 = = µ k svarende reduktionen M 1 M 2 : X i j N(µ,σ 2 ). Gennemgangen af teorien for k observationsrækker er baseret på Eksempel 4.5. Eksempel 4.5 Institut for Idræt ved Københavns Universitet arrangerer hvert år et atletikstævne for de 1. års studerende. Atletiklærer Mikkel Sørensen har stillet nogle af resultaterne for årene 1998, 1999 og 2000 til rådighed. Det er af interesse at vide om resultaterne for de tre år er forskellige eller ej. Resultaterne af pigernes længdespring er vist i tabellen nedenfor. år længde i m Data er tegnet op i Figur 4.12 og Figur 4.13 viser fraktildiagrammet for de tre observationsrækker. Punkterne i fraktildiagrammet varierer - uden systematiske afvigelser - omkring tre rette linjer og giver ikke anledning til at betvivle modellen M 0. Linjerne i fraktildiagrammet ser stort set ud til at være sammenfaldende, hvilket antyder, at såvel middelværdier som varianser for de tre år er identiske. Dette indtryk bekræftes af Figur 4.12.

180 k observationsrækker Figur 4.12 Data i Eksempel 4.5. Figur 4.13 Fraktildiagrammet for data i Eksempel 4.5.

181 4.61 Estimater for de seks parametre i M 0 : X i j N(µ i,σi 2 ), j = 1,...,n i, i = 1,2,3, ses i de to sidste kolonner i beregningsskemaet nedenfor Test for varianshomogenitet Hypotesen om varianshomogenitet H 01 : σ 2 1 = = σ 2 k testes hypotesen ved et Bartlett test. Teststørrelsen beregnes ved hjælp af de empiriske varianser, s 2 (1),...,s2 (k), i de k observationsrækker samt estimatet s2 01 for variansen σ 2 i den model M 1 : X i j N(µ i,σ 2 ), der fremkommer hvis H 01 accepteres. Estimatet s 2 01 er det vægtede gennemsnit af s 2 (1),...,s2 (k) med vægte f (1),..., f (k). Med betegnelserne i beregningsskemaet side 4.33 har vi Teststørrelsen i Bartlett testet er hvor og s 2 01 = f (1)s 2 (1) + + f (k)s 2 (k) f (1) + + f (k) = SAK 01 f 01. (4.32) Ba(x) = 2lnQ(x), (4.33) C 2lnQ(x) = f 01 ln(s 2 k 01 ) f (i) lns 2 (i), (4.34) i=1 C = 1+ [( 1 k 3(k 1) i=1 1 f (i) ) ] 1. (4.35) f 01 Fra den generelle teori i Kapitel 5 fås, at store værdier af 2lnQ(X), som er approksimativt χ 2 -fordelt med k 1 frihedsgrader, er kritiske for H 01. Approksimationen gælder, hvis antallene af observationer n i, i = 1,...,k, i de k observationsrækker er store. Teststørrelsen i (4.33) er udledt af Bartlett, som viste, at ved at dividere 2lnQ(X) med faktoren C fås en teststørrelse Ba(X) som også er approksimativt er χ 2 -fordelt med k 1 frihedsgrader og det kan vises, at approksimationen er tilfredsstillende, hvis blot n i 3, i = 1,...,k, altså hvis der er mindst tre

182 k observationsrækker observationer i hver observationsrække. Testtørrelsen Ba(x) kan beregnes ud fra kolonnerne 7 og 8 i beregningsskemaet side Da store værdier af Ba(x) er kritiske for H 01, beregnes testsandsynligheden som se Figur Ved test på 5% niveau forkastes H 01 hvis ε(x) = 1 F χ 2 (k 1)(Ba(x)), (4.36) Ba(x) > χ (k 1). Figur 4.14 Illustration af testsandsynligheden for Bartlett testet i Eksempel 4.5. Testsandsynligheden er arealet af den skraverede område. Accept af H 01 reducerer modellen M 0 til modellen M 1 : X i j N(µ i,σ 2 ), j = 1,...,n i, i = 1,...,k. Eksempel 4.5 (Fortsat) For data vedrørende pigernes længdespring fås ved hjælp af beregningsskemaet side 4.61, at 2lnQ(x) = , C =

183 og dermed at 4.63 Ba(x) = = Da antallet af observationer i de k = 3 rækker alle er større end 3 beregnes testsandsynligheden ifølge (4.36) som ε(x) = 1 F χ 2 (2)(3.2783) = og hypotesen om varianshomogenitet H 01 accepteres - som forventet. Der er med andre ikke forskel på variansen på længden af længdespringene for pigerne i de tre år. Testsandsynligheden ovenfor er udregnet ved hjælp af Excel. Benyttes Statistical Tables til at beregne testsandsynligheden finder vi, idet χ (2) = 3.22 < <4.61 = χ (2), at ε(x) 1 (0.80,0.90) = (0.10,0.20). Accept af hypotesen om varianshomogenitet H 01 : σ 2 1 = = σ 2 k bevirker, at modellen M 0 reduceres til modellen M 1 : X i j N(µ i,σ 2 ), j = 1,...,n i, i = 1,...,k. Estimaterne for parametrene i denne model er µ i x i N(µ i, σ 2 n i ), i = 1,...,k σ 2 s 2 01 σ 2 χ 2 ( f 01 )/ f 01 og desuden er varians estimatet stokastisk uafhængigt af middelværdi estimaterne. I M 1 er (1 α) konfidensintervallet for middelværdien µ i s 2 01 s 2 01 x i t 1 α/2 ( f 01 ), x i +t n 1 α/2 ( f 01 ). i n i og (1 α) konfidensintervallerne for variansen σ 2 og spredningen σ er [ ] s 2 01 s 2 01 χ1 α/2 2 ( f, 01)/ f 01 χα/2 2 ( f 01)/ f 01 og s 2 01 χ1 α/2 2 ( f, s )/ f 01 χα/2 2 ( f. 01)/ f 01

184 k observationsrækker Test for ens middelværdier Accepteres hypotesen om ens middelværdier H 02 : µ 1 = = µ k ved et test i modellen M 1, kan M 1 reduceres til M 2 : X i j N(µ,σ 2 ), j = 1,...,n i, i = 1,...,k, som bortset fra en lidt anderledes indicering af de variable er modellen for én normalfordelt observationsrække med ukendt varians. Fra Afsnit 4.3 har vi følgende estimater for parametrene i M 2 : og hvor µ x = 1 n k n i i=1 j=1 x i j N(µ, σ 2 ), (4.37) σ 2 1 n 1 SAK 02 σ 2 χ 2 (n 1)/(n 1), (4.38) SAK 02 = k n i i=1 j=1 (x i j x ) 2. Estimaterne beregnes let ud fra sidste række i beregningsskemaet side 4.33, idet x = S n n og SAK 02 = SK S2. n Testet i M 1 for hypotesen H 02 om ens middelværdier er baseret på følgende opspaltning af kvadratsumafvigelsen SAK 02 i M 2 : hvor og SAK 02 = SAK 01 + SAK 2, SAK 01 = SAK 2 = k n i i=1 j=1 k i=1 (x i j x i ) 2 n i ( x i x ) 2. Det ses, er SAK 2 et udtryk for hvor meget estimaterne x i for middelværdierne µ i i de k rækker varierer omkring estimatet x for den fælles middelværdi µ, det vil sige et udtryk for variationen mellem observationsrækkerne, mens SAK 01 er et udtryk for hvor meget observationerne x i j i de k observationsrækker varierer omkring x i, det vil sige et udtryk for variationen inden for observationsrækkerne. Teststørrelsen for hypotesen H 02 om ens middelværdier F(x) = s2 2 s 2 = SAK 2/(k 1) 01 SAK 01 /(n k) (4.39)

185 4.65 forkaster for store værdier af F(x), svarende til at variationen mellem observationsrækkerne er for stor i forhold til variationen inden for rækkerne, se Figur Figur 4.15 Data i Eksempel 4.5. Observationerne er angivet med, gennemsnittene x i i de tre rækker med og den fuldt optrukne linje angiver det totale gennemsnit x. De til SAK 2 og SAK 01 svarende stokastiske variable SAK 2 (X) og SAK 01 (X) kan vises at være stokastisk uafhængige under H 02 og endvidere er SAK 2 (X) σ 2 χ 2 (k 1) og SAK 01 (X) σ 2 χ 2 (n k) under H 02. Det følger derfor af definitionen af F-fordelingen i Afsnit 3.1.5, at F(x) er udfald af en stokastisk variabel F(X) som er F(k 1,n k)-fordelt. Da store værdier af F(x) er kritiske for H 02 beregnes testsandsynligheden derfor som ε(x) = 1 F F(k 1,n k)(f(x)), (4.40) se Figur 4.16, og ved test på 5% niveau forkastes H 02, hvis F(x) > F 0.95 (k 1,n k). Hvis H 0 accepteres reduceres modellen M 1 til modellen M 2 : X i j N(µ,σ 2 ), i = 1,...,n j, j = 1,...,k.

186 k observationsrækker Figur 4.16 Illustration af testsandsynligheden for F-testet for ens middelværdier i Eksempel 4.5. Testsandsynligheden er arealet af den skraverede område. Beregninger Beregningen af teststørrelsen i (4.39) foretages let ved hjælp af beregningsskemaet side 4.33, idet s 2 01 som findes i kolonne 8 i skemaets nederste række. Desuden er s 2 2 = 1 k 1 SAK 2 = 1 (( k k 1 S 2 i i=1 n i som let beregnes ud fra kolonne 2, 3 og 5 i skemaets nederste række. ) ) S2, (4.41) n Konfidensintervaller Hvis H 02 accepteres, findes estimaterne i M 2 ved hjælp af formlerne (4.37) og (4.38) ovenfor, og (1 α) konfidensintervaller for µ, σ 2 og σ findes ved hjælp af formlerne i Afsnit 4.3: µ x t 1 α/2 (n 1) σ 2 [ s 2 02 n, x +t 1 α/2 (n 1) s 2 02 χ 2 1 α/2 (n 1)/(n 1), s 2 02 χ 2 α/2 (n 1)/(n 1) s 2 02 n ], (4.42), (4.43)

187 4.67 σ s 2 02 χ1 α/2 2 (n 1)/(n 1), s χα/2 2 (4.44) (n 1)/(n 1) Variansanalysetabellen I litteraturen omtales modellen for k observationsrækker ofte som ensidet variansanalyse og resultaterne af analysen præsenteres ved variansanalysetabellen, som også Excel benytter. Navnet variansanalyse skal ses i lys af at F-teststørrelsen i (4.39) jo netop fremkommer ved at sammenligne varianser eller variationer. I variansanalysetabellen gengives beregningerne således Variationskilde SAK f g s 2 F ε mellem grupper SAK 2 k 1 s 2 2 inden for grupper SAK 01 n k s 2 01 I alt SAK 02 n 1 s 2 2 s F F(k 1,n k)(f) Tabel 4.3 Variansanalysetabellen for ensidet variansanalyse. Eksempel 4.5 (Fortsat) Ved hjælp af sidste række i beregningsskemaet side 4.61 og formel (4.41) fås, at SAK 2 = = og dermed s 2 2 = SAK = Værdien af s 2 01 findes i beregningsskemaet i kolonne 8 i nederste række. Vi kan derfor beregne F-teststørrelsen i (4.39) for hypotesen H 02 : µ 1 = µ 2 = µ 3. Vi finder F(x) = s2 2 s 2 = F(2,35) 01 og af (4.40) fås, at testsandsynligheden for H 02 er ε(x) = 1 F F(2,35) (0.5420) = , så hypotesen om ens middelværdier accepteres. Vi kan altså ikke påvise forskel på middelværdien af længden af pigernes længdespring i de tre år. Igen er Excel brugt til at beregne testsandsynligheden. Benyttes Statistical Tables har vi et lille problem, idet fraktilerne for F(2, 35)-fordelingen ikke findes i tabellen. Benytter vi i stedet

188 k observationsrækker for F(2,36)-fordelingen til at beregne testsandsynligheden, finder vi, idet F 0.50 (2,36) = 0.71 >0.5420, at ε(x) > = Ved test på 5% niveau accepteres H 02, da < F 0.95 (2,36) = Beregningerne kan resumeres i variansanalyse tabellen som her bliver Variationskilde SAK f g s 2 F ε mellem grupper inden for grupper I alt Slutmodellen for analysen er M 2 : X i j N(µ,σ 2 ), i = 1,...,n j, j = 1,2,3 og estimaterne i M 2 bliver - ved hjælp af (4.37) og (4.38) - og µ x = S n = = N(µ, σ 2 38 ) σ 2 s 2 02 = SAK 02 n 1 = = σ 2 χ 2 (37)/ Endelig bliver 95% konfidensintervallerne for µ,σ 2 og σ - ifølge formlerne (4.42) - (4.44) - [ ] µ , = [3.694,3.974], 38 [ σ , ] = [0.1200, ], [ ] σ , = [0.3464, ] Tilsvarende data for drengene er analyseret i Excel på side Forskelle og ligheder i behandlingen af to og k observationsrækker Som test for H 02 har vi anvendt et t-test, når k = 2, og et F-test, når k > 2. Det er imidlertid samme test. Man kan vise, at t 2 = F, og testsandsynligheden er den samme uanset hvilket af de to tests, man anvender. Når man alligevel behandler specialtilfældet k = 2, skyldes det, at man dér kan angive konfidensintervaller for forskellen µ 1 µ 2 i middelværdier, og det kan være interessant, når H 02 forkastes.

189 4.69 Vi har også angivet forskellige tests for H 01 i de to tilfælde. Bartletts test kan rent teknisk også beregnes når k = 2, men det kan ikke anbefales. F-testet baseret på forholdet mellem de to variansskøn er langt hurtigst at beregne, og det er ydermere et eksakt test, det vil sige, at testsandsynligheden kan beregnes nøjagtigt. Ved beregning af testsandsynligheden for Bartletts test benytter man som bekendt en approksimation Notation og test i forbindelse med en følge af modeller I dette afsnit har vi - uden at nævne det - indført en notation i forbindelse med en følge af modeller, som også vil blive brugt i de følgende afsnit. Vi betragter en følge af modeller M 1 M 2 M i 1 M i, som består af gradvist enklere beskrivelse af observationernes middelværdi. Det forudsættes, at alle observationerne har den samme varians. Hypotesen, som beskriver reduktionen M i 1 M i betegnes H 0i. Variansskønnet i modellen M i betegnes s 2 0i, og det er på formen s 2 0i = 1 SAK 0i, f 0i hvor f 0i betegner frihedsgraderne for s 2 0i. Endvidere benytter vi betegnelserne og SAK i = SAK 0i SAK 0i 1, f i = f 0i f 0i 1, s 2 i = SAK i f i. Som vi har set i dette afsnit og som vi skal se flere eksempler på i de kommende afsnit i dette kapitel, er teststørrelsen for H 0i, svarende til reduktionen M i 1 M i, SAK 0i SAK 0i 1 SAK i f F(x) = 0i f 0i 1 f s 2 = i 0i 1 s 2 = s2 i 0i 1 s 2, 0i 1 og testsandsynligheden beregnes ved opslag i F-fordelingen med f i frihedsgrader i tælleren og f 0i 1 frihedsgrader i nævneren som ε(x) = 1 F F( fi, f 0i 1 )(F(x)). Fortolkningen af frihedsgraderne for tælleren er iøvrigt, at det er forskellen i antallet af parametre i middelværdien i de to modeller M i 1 og M i. Frihedsgraderne for nævneren er antallet af observationer minus antallet af parametre i middelværdien i modellen M i 1.

190 4.70 Beregninger i Excel Anneks til Afsnit 4.5 Beregninger i Excel F-testet for hypotesen H 02 om ens middelværdier i en ensidet variansanalyse foretages i Excel ved hjælp af dialogboksen Anava: Enkelt faktor. Beregningerne vedrørende Bartlett testet for hypotesen H 01 om varianshomogenitet må man derimod selv programmere. Det gøres dog forholdsvis let ved hjælp af udskriften fra dialogboksenanava: Enkelt faktor, som vist i fortsættelsen af Eksempel 4.5 nedenfor. Eksempel 4.5 (Fortsat) I regnearket nedenfor indeholder cellerne A4:C22 resultaterne af drengenes længdespring i de tre år. F-testet for hypotesen H 02 om ens middelværdier fås via rutenfunktioner Dataanalyse Anava: Enkelt faktor. I dialogboksen, der fremkommer, angives cellerne A4:C22 i Input område: og i Grupperet efter: angives Kolonner. På et nyt regneark fås de to

191 4.71!"##$! %&'() *"+ $&&$+,&-'.(!-(&, øverste tabeller på udskriften: 0 0 * :;<=!>- 94!-' D E@F@GH G 0 0 G 0 IFHJ KD G L M HHDHNF@OD / / C 0 0 I tabellen med overskriften RESUME findes størrelserne n i, S i, x i og s 2 (i) for de tre observationsrækker. Variansanalysentabellen er gengivet under overskriftenanava, idetsk svarer til SAK,MK til s 2 ogp-værdi til ε. IF-krit er angivet 95% faktilen i den relevante F-fordeling, her fraktilen F 0.95 (2,47). (Bemærk, at Excel noget uheldigt benytter SK og ikke SAK som betegnelse for SAK.) Beregningerne, der giver resultaterne for Bartlett testet i cellerne A18:C28, laves på følgende måde: Først skrives overskriften beregning af Bartlett-testet i cellen A18. Antallet af frihedsgrader f (1) i den første række beregnes i cellena21 som =B5 1 ( f (1) = n 1 1) og analoge formler oprettes ia22:a23. I cellenb21 beregnes =LN(E5) (= ln(s 2 (1) )) og ic21 beregnes =1/A21 (= 1 f (1) )

192 4.72 Beregninger i Excel og analoge formler oprettes ib22:c23. Herefter beregnes værdien af konstanten C i cellenb25 som k 1 =1+1/3/(3 1) (SUM(C21 :C23) 1/C13) (= 1+ 3(k 1) (( i=1 og 2lnQ i cellenb26 som =C13 LN(D13) SUMPRODUKT(A21 :A23;B21 :B23) (= f 01 lns 2 01 Endelig beregnes Ba i cellenb27 som og testsandsynligheden ε i cellenb28 som =B26/B25 (= 2lnQ C ) 1 ) 1 )) f (i) f 01 k i=1 f (i) lns 2 (i) ). =CHIFORDELING(B27;2) (= 1 F χ 2 (2) (Ba)). Det ses af resultaterne ovenfor, at konklusionen for drengene er den samme som for pigerne, nemlig at det kan antages, at middelværdier og varianser for længden af længdespringene ikke afhænger af år.

193 4.73 Hovedpunkter til Afsnit 4.5 Her resumeres hovedpunkterne om k observationsrækker. Modellen for k normalfordelte observationsrækker er, at data x 11,...,x 1 j,...,x 1n1 x i1,...,x i j,...,x ini x k1,...,x k j,...,x knk er realisationer af uafhængige, normalfordelte stokastiske variable M 0 : X i j N(µ i,σ 2 i ), j = 1,...,n i, i = 1,...,k. Modelkontrol Fraktilsammenligning, hvis der er observationer nok, men mindst prikdiagrammer på samme ark papir, så man kan vurdere forskelle og ligheder. Estimation i M 0 Man kan med fordel bruge beregningsskemaet for k observationsrækker side Med notationen herfra har man µ i x i N(µ i, σ i 2 ), n i i = 1,...,k, σ 2 i s 2 (i) σ 2 i χ 2 ( f (i) )/ f (i), i = 1,...,k. Test af hypotesen om varianshomogenitet H 01 : σ 2 1 = = σ 2 k Bartlett test. Teststørrelse hvor og Ba(x) = 2lnQ(x), C 2lnQ(x) = f 01 lns 2 01 k f (i) lns 2 (i), i=1 C = 1+ [( 1 3(k 1) k i=1 1 f (i) ) ] 1. f 01

194 4.74 Hovedpunkter til Afsnit 4.5 Her er og s 2 01 = k i=1 f (i) s 2 (i) = k f (i) i=1 SAK 01 = k SAK (i) i=1 Testsandsynlighed, forudsat n i 3, i = 1,...,k, k i=1 SAK (i) = k f (i) i=1 SAK 01 f 01, f 01 = k f (i) = n k. i=1 ε(x) = 1 F χ 2 (k 1) (Ba(x)), hvor F χ 2 (k 1) er fordelingsfunktionen for χ2 -fordelingen med k 1 frihedsgrader. Hvis H 01 accepteres reduceres modellen til M 1 : X i j N(µ i,σ 2 ). Estimation i M 1 µ i x i N(µ i, σ 2 n i ), i = 1,...,k, σ 2 s 2 01 = SAK 01 f 01 σ 2 χ 2 ( f 01 )/ f 01. Konfidensintervaller i M 1 (1 α) konfidensintervallerne for middelværdien µ i, variansen σ 2 og spredningen σ er: s µ i 2 01 s 2 01 x i t 1 α/2 ( f 01 ), x i +t n 1 α/2 ( f 01 ), i n i [ ] σ 2 s 2 01 s 2 01 χ1 α/2 2 ( f, 01)/ f 01 χα/2 2 ( f, 01)/ f 01 σ s 2 01 χ1 α/2 2 ( f, s )/ f 01 χα/2 2 ( f. 01)/ f 01 Test af hypotesen om ens middelværdier H 02 : µ 1 = = µ k Teststørrelse F(x) = s2 2 s 2 01

195 4.75 Testsandsynlighed ε(x) = 1 F F(k 1,n k)(f(x)), hvor F F(k 1,n k)er fordelingsfunktionen for F-fordelingen med k 1 frihedsgrader i tælleren og n k frihedsgrader i nævneren. Her er og beregningsformlen for SAK 2 er s 2 2 = SAK 2 k 1, SAK 2 = ( k S 2 i i=1 n i ) S2. n De størrelser, der indgår i beregningen findes i nederste række i kolonne 5, 2 og 3 i beregningsskemaet side Accepteres H 02 reduceres modellen M 1 til M 2 : X i j N(µ,σ 2 ) som er modellen for én observationsrække blot med en anden indicering af de variable. Estimation i M 2 µ x N(µ, σ 2 ), σ 2 s 2 02 = SAK 02 n 1 = 1 n 1 (SK S2 ) σ 2 χ 2 (n 1)/n 1, n n Konfidensintervaller i M 2 (1 α) konfidensintervallerne for middelværdien µ, variansen σ 2 og spredningen σ er: µ x t 1 α/2 (n 1) σ 2 [ s 2 02 n, x +t 1 α/2 (n 1) s 2 02 χ 2 1 α/2 (n 1)/(n 1), s 2 02 χ 2 α/2 (n 1)/(n 1) σ s 2 02 χ1 α/2 2 (n 1)/(n 1), s χα/2 2 (n 1)/(n 1) s 2 02 n ],,

196 Lineær regression 4.6 Lineær regression Omtalen af den lineære regressionsmodel kan naturligt opdeles i to dele. I Afsnit omtales regression uden gentagelser og i Afsnit omtales modellen, når der forekommer gentagelser. Hypoteser vedrørende parameterne i en lineær regression er omtalt i Afsnit og i Afsnit omtales et emne, der er relateret til regressionsmodellen, under overskriften Korrelation og/eller regression Lineær regression uden gentagelser Gennemgangen af lineær regression uden gentagelser er knyttet til Eksempel 4.6. Eksempel 4.6 I forbindelse med fortræningen til et 100 km løb blev der foretaget et test med en af løberne. Testet blev foretaget ved hjælp af et løbebånd, hvor belastningen blev sat op hver minut ved at hastigheden eller vinklen på båndet blev sat op. Foruden at registrere tiden på båndet målte Tue Lindstrøm, Institut for Idræt, blandt andet iltoptagelse, CO 2 udskillelse, ventilation og puls. Da der går et stykke tid fra løbet begynder, indtil hjertet registrerer belastningen, betragter vi kun målingerne fra 120 sekunder og fremefter. Sammenhørende målinger af tid og puls for hvert 1 2 minut ses i tabellen nedenfor. tid(sek) puls tid(sek) puls Det er ikke overraskende, at pulsen stiger med tiden, og vi indfører nu en model, den lineære regressionsmodel, som beskriver pulsens stigning med tiden. Vi opfatter tiden som en kendt eller deterministisk størrelse, som betegnes med t. I modsætning hertil opfattes pulsen som en realisation af en stokastisk variabel. Vi fastholder traditionen med at betegne data, som er realisationer af stokastiske variable med x. Data, hvor den lineære regressionsmodel kan komme på tale, består altså af talpar (t i,x i ),i = 1,...,n.

197 4.77 I Figur 4.17 er der en tegning af de sammenhørende værdier af tid og puls, og der er indtegnet en ret linje midt igennem punktsværmen. Figur 4.17 Tegning af sammemhørende værdier af tid og puls. Punkterne i Figur 4.17 ligger tæt og ensartet omkring en ret linje, og på baggrund af tegningen i Figur 4.17 beslutter man sig for den lineære regressionsmodel: x i N(α + βt i,σ 2 ), i = 1,...,n. Der er to karakteristiske træk ved modellen, for det første er middelværdien for x erne en lineær funktion af t, og for det andet er variansen på x i den samme for alle i. Den lineære middelværdi kontrollerer man på tegningen ved at se efter, om punkterne ligger omkring en ret linje. Hvis punktsværmen krummer, for eksempel som en banan, tyder det på, at middelværdien af x erne ikke er en lineær funktion af t. Hvis observationerne har konstant varians, vil punkterne ligge i et bånd omkring linjen af nogenlunde konstant bredde. En typisk afvigelse fra hypotesen om konstant varians er, at variansen afhænger af t, så observationerne spreder sig mere for store eller små værdier af t. Vi skal senere i Afsnit se, at man under specielle omstændigheder kan teste både hypotesen om, at middelværdien er en lineær funktion af t og hypotesen om konstant varians, men oftest er en tegning den eneste kontrol af modellen, inden man begynder at regne. Vi forlader nu Eksempel 4.6 for at se, hvordan man estimerer i regressionsmodellen.

198 Lineær regression Model Modellen for lineær regression svarende til talparrene (t i,x i ), i = 1,...,n, er M 2 : X i N(α + βt i,σ 2 ), i = 1,...,n, (4.45) og X i erne er uafhængige. Modellen omtales som lineær regression af x på t. Den rette linje x(t) = α + βt kaldes regressionslinjen. Parameteren α er afskæringen af andenaksen og β er hældningskoefficienten. Parameteren α kaldes afskæringen eller undertiden positionen, og β kaldes hældningen eller regressionskoefficienten. De to variable x og t betegnes som henholdsvis den afhængige variabel og den uafhængige variabel. Denne sprogbrug er inspireret af, at x opfattes som funktion af t. Undertiden kaldes x for responsen og t for den forklarende variabel. Hvis alle t erne er forskellige taler vi om en lineær regression uden gentagelser. Det er naturligvis overflødigt at tale om en regressionslinje, før man har mindst to punkter, den skal gå igennem, så derfor betragter man ikke regressionsmodellen med mindre man har mindst to forskellige værdier af den forklarende variabel. Estimation Estimaterne ˆα og ˆβ for parametrene α og β i regressionsmodellen M 2 findes som de værdier af α og β som miminerer kvadratsumsafvigelsen n i=1 (x i (α + βt i )) 2, som er et mål for afstanden mellem observationerne x og linjen α + βt. Metoden omtales som mindste kvadraters metode. Det kan vises, at i M 2 er ˆα og ˆβ maksimum likelihood estimaterne for α og β. Hvis n, t og x betegner henholdsvis det totale antal observationer, gennemsnittet af t-erne og gennemsnittet af x-erne, det vil sige t = 1 n bestemmes estimaterne for α og β som n i=1t i, x = 1 n n i=1 x i, og ˆβ = n (x i x )(t i t ) i=1 n (4.46) (t i t ) 2 i=1 ˆα = x ˆβ t. (4.47)

199 4.79 I dansk litteratur bruges betegnelserne SAP xt = for summen af afvigelsernes produkt og n i=1 SAK t = (x i x )(t i t ) n i=1 (t i t ) 2 for summen af afvigelsernes kvadrater. Formel (4.46) bliver da ˆβ = SAP xt SAK t. Variansen σ 2 estimeres i regressionsmodellen M 2 ved hvor SAK 02 er residualkvadratsummen SAK 02 = s 2 02 = 1 n 2 SAK 02, (4.48) n i=1 (x i ( ˆα + ˆβt i )) 2. Navnet på denne kvadratsum skyldes, at størrelserne r i = x i ( ˆα + ˆβt i ), i = 1,...,n kaldes (de observerede) residualer i regressionsmodellen M 2. Ifølge (4.45) er X i (α + βt i ) N(0,σ 2 ), i = 1,...,n, og erstatter vi her α og β med estimaterne ˆα og ˆβ får vi residualerne R i som approksimativt er normalfordelt med middelværdi 0 og varians σ 2, det vil sige R i = X i ( ˆα + ˆβt i ) N(0,σ 2 ), i = 1,...,n. Antagelsen, om at observationerne i en regressionsanalyse er normalfordelte, kan derfor undersøges ved at lave en fraktilsammenligning på grundlag af residualerne r i, i = 1,...,n. I en regression uden gentagelser er det den eneste mulighed for at undersøge antagelsen om normalitet.

200 Lineær regression Beregningsformler Af beregningsskemaet nedenfor ses, at estimaterne i M 2 kan beregnes ud fra de 6 størrelser: og n S t = SK t = n i=1 n i=1 n t i, S x = t 2 i, SK x = SP xt = x n i=1 n x i, i=1 n i=1 x i t i. n x 2 i, t S S x S t SK SK x SK t SP SP xt SAK SAP SK x S2 x n SP xt S xs t n SK t S2 t n ˆβ ˆα SAP xt SAK t 1 [S x n ˆβS ] t SAK 02 s 2 02 SAK x SAP2 xt SAK t 1 n 2 SAK 02 Fordelingen til estimaterne i modellen M 2 er anført nedenfor. ( ( )) 1 ˆα N α,σ 2 t 2 + n SAK t ( σ ˆβ 2 ) N β, SAK t ( ˆα + ˆβt 1n N (α + βt,σ 2 + (t t ) 2 )) SAK t

201 4.81 s 2 02 σ 2 χ 2 ( f 02 )/ f 02, hvor f 02 = n 2. Desuden har man brug for at vide, at fordelingen til ( ˆα, ˆβ) er uafhængig af fordelingen til s 2 02, samt at ˆβ og x er uafhængige. Varianserne på estimaterne er interessante. Variansen på ˆβ er σ 2 /SAK t, så jo større SAK t, desto mindre varians, og desto bedre er β estimeret. SAK t er et mål for den uafhængige variabels variationsområde. Jo større variationsområde den uafhængige variabel har, desto større er SAK t, og desto bedre er β estimeret. Dette bør man have for øje, hvis man udfører et førsøg, hvor man selv kan vælge værdierne af t. Variansen på ˆα viser, at α kan være meningsløs at fortolke, hvis de uafhængige variable ligger langt væk fra 0. I de situationer gør faktoren t 2 estimatet for α upræcist, idet variansen på ˆα bliver stor. Variansen på ˆα + ˆβt afhænger af den uafhængige variabel t gennem (t t ) 2. Variansen er mindst for t = t, og da er variansen σ 2 /n, hvilket passer smukt med, at ˆα + ˆβ t = x. ˆα + ˆβt er altså bedst bestemt for værdier af t midt i variationsområdet for den uafhængige variabel. Konfidensintervaller for parametrene i regressionsmodellen (1 α) konfidensinterval for α [ ( ) ( ) 1 ˆα t 1 α/2 ( f 02 ) s 2 t , ˆα +t n SAK 1 α/2 ( f 02 ) s 2 t ] (4.49) t n SAK t Ved konkrete beregninger på lommeregner af konfidensintervallet for α, er det nyttigt at bemærke, at 1 t 2 + = SK t, n SAK t nsak t og n, SK t og SAK t findes let i beregningsskemaet til lineær regression. (1 α) konfidensinterval for β s ˆβ 02 s t1 α/2 ( f 02 ), ˆβ + 02 t1 α/2 ( f 02 ). SAK t SAK t (4.50) (1 α) konfidensinterval for α + βt [ ˆα + ˆβt t 1 α/2 ( f 02 ) s 2 02 ( 1 n + (t t ) 2 ) (, ˆα + SAK ˆβt 1 +t 1 α/2 ( f 02 ) s 2 02 t n + (t t ) 2 SAK t ) ]. (4.51)

202 Lineær regression α + βt er middelværdien af observationer, som svarer til værdien t af den uafhængige variabel. Undertiden er formålet med en lineær regressionsmodel at kunne forudsige middelværdien af observationerne til forskellige værdier af t. I de tilfælde bliver (1 α) konfidensintervallet for α + βt interessant. (1 α) konfidensinterval for σ 2 [ s 2 02 χ 2 1 α/2 ( f 02)/ f 02, s 2 02 χ 2 α/2 ( f 02)/ f 02 ], (4.52) hvor χ 2 1 α/2 ( f 02)/ f 02 og χ 2 α/2 ( f 02)/ f 02 er henholdsvis 1 α/2 og α/2 fraktil for χ 2 ( f 02 )/ f 02 - fordelingen med f 02 = n 2 frihedsgrader. Eksempel 4.6 (Fortsat) For data i dette eksempel bliver beregningsskemaet på side x(puls) n 17 t(tid) S SK SP SAK SAP ˆβ ˆα SAK s Den estimerede regressionslinje, som er indtegnet i Figur 4.17, har altså ligningen x(t) = t. Som kontrol af normalfordelingsantagelsen i regressionsmodellen M 2 laver vi et fraktildiagram for residualerne r i = x i ( t i ), i = 1,...,17. Fraktildiagrammet, som er vist i Figur 4.18, giver ikke anledning til at betvivle antagelsen om normalitet, idet punkterne varierer omkring en ret linje uden systematiske afvigelser. Desuden ser det ud til at residualerne har middelværdi 0.

203 4.83 Figur 4.18 Fraktildiagram for residualerne i Eksempel 4.6. Ved hjælp af formlerne (4.49), (4.50) og (4.52) finder vi følgende 95% konfidensintervaller for α, β og σ 2 : α [ , ]= [ , ], β [ , ]= [0.0567,0.0643], [ σ , ] = [ , ] Lineær regression med gentagelser Teorien bliver gennemgået i forbindelse med Eksempel 4.7. Eksempel 4.7 Data i dette eksempel er tiderne i finalerne for kvinder på løbedistancerne 200 m, 400 m og 800 m ved olympiaden i Sydney i år Det er oplagt, at variansen på tiderne for de 8 kvinder i finalen vokser med distancen. Vi betragter derfor tiderne per 100 m og ønsker at undersøge, hvordan disse afhænger af distancen. Tiderne angivet i sekunder med tre decimalers nøjagtighed

204 Lineær regression findes i tabellen nedenfor og indtegnet i Figur tider per 100 m distance 200 m 400 m 800 m Bedømt ud fra Figur 4.19, ser det ud til, at variansen for de tre observationsrækker på hver 8 observationer svarende til de tre distancer kan antages, at være ens. Desuden ser, det ud til at middelværdien vokser lineært med distancen. Figur 4.19 Tider per 100 m for kvindernes finaler på distancerne 200 m, 400 m og 800 m ved olympiaden i Sydney år 2000.

205 4.85 Modeller og test Vi annoncerede side 4.77, at man under specielle omstændigheder kunne teste hypotesen om konstant varians og hypotesen om lineær regression. Det kan man, hvis flere observationspar har den samme værdi af den uafhængige variabel, så en sortering af data efter værdierne af den uafhængige variabel viser, at data kan opdeles i k observationsrækker: Afhængig variabel: Uafhængige variabel: x 11,...,x 1 j,...,x 1n1 t 1 j = t 1, j = 1,...,n 1 x i1,...,x i j,...,x ini t i j = t i, j = 1,...,n i x k1,...,x k j,...x knk t k j = t k, j = 1,...,n k De n i observationer i gruppe i har samme værdi af den uafhængige variabel, og den fælles værdi betegnes med t i. Når data har denne struktur, begynder man med at antage grundmodellen M 0 : X i j N(µ i,σ 2 i ), i = 1,...,k, j = 1,...,n i, som måske kan kontrolleres med fraktildiagrammer i de k observationsrækker, hvis der er observationer nok. Derefter kan man teste reduktionen til modellen M 1 : X i j N(µ i,σ 2 ), i = 1,...,k, j = 1,...,n i, ved at teste hypotesen H 01 : σ 2 1 = =σ 2 k = σ 2 med Bartletts test, som blev introduceret i Afsnit 4.5. Hvis reduktionen til M 1 accepteres, kan man teste reduktionen til regressionsmodellen M 2 : X i j N(α + βt i,σ 2 ), i = 1,...,k, j = 1,...,n i, ved at teste hypotesen H 02 : µ i = α +βt i. Dette test er et typisk variansanalyse test, som baserer sig på at vurdere, hvor meget variansskønnet ændrer sig, mellem de to modeller M 1 og M 2, set i forhold til variansskønnet under den sidst accepterede model M 1. Variansskønnet i modellen M 1 er s 2 01 = 1 f 01 SAK 01, og det er velkendt, at f 01 = n k. Det er ligeledes velkendt, at man finder f 01, SAK 01 og s 2 01, i sidste række i det manuelle beregningsskema, side Tilsvarende er variansskønnet i regressionsmodellen M 2 s 2 02 = 1 f 02 SAK 02,

206 σ 2 2 = σ 2 3 let. Idet C = og 2lnQ(x) = , Lineær regression og SAK 02 og s 2 02 findes i det manuelle beregningsskema side Når man har disse størrelser, kan testet for reduktionen fra M 1 til M 2 beregnes som F(x) = SAK 02 SAK 01 f 02 f 01 s 2 01 = s2 2 s 2. (4.53) 01 Teststørrelsen skal vurderes i en F-fordeling med f 2 = f 02 f 01 = (n 2) (n k) = k 2 frihedsgrader i tælleren og f 01 = n k frihedsgrader i nævneren. Kun store værdier af teststørrelsen er kritiske for H 02, så testsandsynligheden beregnes som ε(x) = 1 F F(k 2,n k) (F(x)), hvor F F(k 2,n k) er fordelingsfunktionen for F-fordelingen med f 2 = k 2 frihedsgrader i tælleren og f 01 = n k frihedsgrader i nævneren. Det bemærkes, at n her betegner det totale antal af observationer. Dette antal er tidligere i forbindelse med modellen for k observationsrækker blevet betegnet med n. Det kan vises, at SAK 2 = SAK 02 SAK 01 = k i=1 n i ( x i ( ˆα + ˆβt i )) 2 som er et mål for hvor meget gennemsnittene x i varierer omkring det estimerede regressionslinje ˆα + ˆβt. Idet SAK 01 = k i=1 n i j=1 (x i j x i ) 2 er mål for variationen inden for grupperne ses det, at F-testet i (4.53) forkaster, hvis variationen omkring regressionslinjen er for stor i forhold til variationen inden for grupper, se Figur Eksempel 4.7 (Fortsat) I Figur 4.20 ses fraktildiagrammet for de tre observationsrækker svarende til de tre distancer. Figuren giver ikke anledning til at betvivle modellen M 0. Udskriften fra Excel nedenfor viser beregningsskemaet side 4.33 for disse data: Ud fra dette beregnes Bartlett testet for hypotesen om varianshomogenitet H 01 : σ 2 1 = bliver teststørrelsen Ba(x) = =

207 4.87 Figur 4.20 Fraktildiagram for tiderne per 100m i Eksempel 4.7. og testsandsynligheden ε(x) = 1 F χ 2 (2)( ) = 0.863, så H 01 accepteres. For disse data er beregningsskemaet side 4.80 x(tid) n 24 t(distance) S SK SP SAK SAP ˆβ ˆα SAK s Ved hjælp af de to beregningsskemaer finder vi, at SAK 2 = SAK 02 SAK 01 = = ,

208 Lineær regression Figur 4.21 Tider per 100 m for kvindernes finaler på distancerne 200 m, 400 m og 800 m ved olympiaden i Sydney år 2000 samt den estimerede regressionslinje. Gennemsnittene for de tre distance er markeret med. så F-teststørrelse i (4.53) bliver F(x) = /1 = F(1,21) /21 Da ε(x) = 1 F F(1,21) (4.038) = accepteres hypotesen om lineær regression H 02 : µ i = α + βt i lige netop ved test på niveau 5%. (Benyttes Statistical Tables får vi samme konklusion, idet F(x) = < F 0.95 (1,21) = 4.32.) Af det beregningsskemaet oven for ses, at det estimerede regressionslinje for sammenhængen mellem tid per 100 m og distancen har ligningen x(t) = t. (4.54) til Ved hjælp af formlerne (4.49), (4.50) og (4.52) findes konfidensintervallerne for α, β og σ 2 α [ , ]= [ , ], β [ , ]= [ , ],

209 σ 2 [ , ] = [ , ] Ønsker vi at angive et skøn over tiden per 100 m for en distance på 600 m indsætter vi t = 600 i formel (4.54) og finder x(600) = = Ifølge (4.51) er 95% konfidensintervallet for dette skøn [ , ]= [13.516,13.656]. Figur 4.22 Tider per 100 m for kvindernes finaler i samtlige løbedistancer, 100 m, 200 m, 400 m, 800 m, 1500 m, 5000 m, m og marathon, ved olympiaden i Sydney år Man skal som regel altid være meget forsigtig med at anvende formlen for den estimerede regressionslinje x(t) = ˆα + ˆβt til angive skøn for den afhængige variabel x svarende til værdier af den uafhængige variable t, der ligger udenfor det område af t-værdier, der er benyttet til at bestemme linjen. Således også i dette eksempel. Figur 4.22 viser tiden per 100 m for de 8 bedst placerede i samtlige løbedistancer for kvinder ved olympiaden i Sydney 2000, det vil sige for distancerne 100 m, 200 m, 400 m, 800 m, 1500 m, 3000 m, 5000 m, m og m(marathon). Det fremgår tydeligt af figuren, at den lineære sammenhæng mellem tid per 100

210 Lineær regression m og distancen, som vi fandt for distancerne 200 m, 400 m og 800 m, ikke gælder for de længste distancer Hypoteser om regressionsparametrene Vi betragter hypoteserne med kendt hældning eller kendt afskæring og de modeller det leder til. Sammenhængen mellem modellerne og hypoteserne, der forbinder dem, kan fremstilles grafisk: M 3 : X i N(α + β 0 t i,σ 2 ) H 03 : β = β 0 ր ց H 04 : α = α 0 M 2 : X i N(α + βt i,σ 2 ) M 4 : X i N(α 0 + β 0 t i,σ 2 ) H 03 : α = α 0 ց ր H 04 : β = β 0 M 3 : X i N(α 0 + βt i,σ 2 ) Vi giver alle test for hypoteserne og estimaterne for parametrene i modellerne. Man skal bemærke, at både H 03 og H 04 er test for α = α 0, men dermed hører enhver lighed op. Der er tale om reduktion fra to forskellige modeller til to forskellige modeller og testene er derfor forskellige. Når man tester H 04, har man accepteret, at β er kendt og dermed modellen M 3, og i den model har estimatet for α - som det ses nedenfor - en mindre varians end estimatet for α i M 2. Tilsvarende kommentarer gælder om hypoteserne H 03 og H 04, om at β = β 0. Test af H 03 : β = β 0. Teststørrelse t(x) = ˆβ β 0 s 2 02 /SAK t (4.55) Testsandsynlighed ε(x) = 2 [ 1 F t(n 2) ( t(x) ) ] Estimater for parametrene i M 3 : α ˆα M3 = x β 0 t N(α, σ 2 n ) σ 2 s 2 03 = 1 n {x i ( ˆα M3 + β 0 t i )} 2 n 1 i=1 = 1 [SAK 02 +( n 1 ˆβ ] β 0 ) 2 SAK t σ 2 χ 2 (n 1)/(n 1)

211 4.91 Test af H 03 : α = α 0. Teststørrelse Testsandsynlighed t(x) = s 2 02 ˆα α 0 ( ) 1 t 2 + n SAK t ε(x) = 2 [ 1 F t(n 2) ( t(x) ) ] Estimater for parametrene i M 3 : β ˆβ M 3 = n t i (x i α 0 ) i=1 n ti 2 i=1 = SP xt α 0 S t SK t N(β, σ 2 SK t ) Test af H 04 : β = β 0 : Teststørrelse σ 2 s 2 03 = 1 n 1 = 1 n 1 n i=1 {x i (α 0 + ˆβ M 3 t i )} 2 [ SK x + nα 2 0 2α 0S x ˆβ 2 M 3 SK t σ 2 χ 2 (n 1)/(n 1) t(x) = ˆβ M 3 β 0 s 2 03 /SK t = SP xt α 0 S t β 0 SK t s 2 03 SK t t(n 1) ] Testsandsynlighed ε(x) = 2 [ 1 F t(n 1) ( t(x) ) ] Estimat for parameteren i M 4 : n σ 2 s 2 04 = 1 {x i (α 0 + β 0 t i )} 2 n i=1 = 1 [ SKx + nα0 2 n + β 0 2 SK ] t 2α 0 S x 2β 0 SP xt + 2α 0 β 0 S t σ 2 χ 2 (n)/(n)

212 Lineær regression Test af H 04 : α = α 0 : Teststørrelse t(x) = ˆα M 3 α 0 s 2 03 /n = S x β 0 S t α 0 n s 2 03 n t(n 1) Testsandsynlighed ε(x) = 2 [ 1 F t(n 1) ( t(x) ) ] Estimat for parameteren i M 4 : n σ 2 s 2 04 = 1 {x i (α 0 + β 0 t i )} 2 n i=1 = 1 [ SKx + nα0 2 n + β 0 2 SK ] t 2α 0 S x 2β 0 SP xt + 2α 0 β 0 S t σ 2 χ 2 (n)/(n). Variansanalysetabellen For en regressionsanalysen med gentagelser kan beregningerne resumeres i variansanalysetabellen: Variationskilde SAK f g s 2 F ε regression SAK 3 1 s 2 3 s 2 3 /s F F(1,n 2) (F) omkring linjen SAK 2 k 2 s 2 2 s 2 2 /s F F(k 2,n k) (F) inden for grupper SAK 01 n k s 2 01 I alt SAK 03 n 1 I linjen regression svarer kvadratsummen SAK 3 til testet for hypotesen H 03 : β = 0, svarende til at alle observationerne har middelværdi α. F-teststørrelsen i denne linje er F(x) = s2 3 s 2 = ˆβ 2 SAK t 02 s 2 02 = ˆβ 0 s 2 02 /SAK t 2 = (t(x)) 2, hvor t(x) er t-teststørrelsen i (4.55) for hypotesen H 03. Desuden er SAK 03 = SAK x.

213 4.93 For en regressionsanalyse uden gentagelser er variationen inden for grupper, SAK 01, lig med 0, så linjen inden for grupper fjernes fra tabellen som får udseendet: Eksempel 4.6 (Fortsat) Variationskilde SAK f g s 2 F ε regression SAK 3 1 s 2 3 s 2 3 /s F F(1,n 2) (F) omkring linjen SAK 02 n 2 s 2 02 I alt SAK 03 n 1 I dette eksempel svarer hypotesen H 03 : β = 0 til at pulsen ikke afhænger af tiden på løbebåndet, idet regressionslinjen under H 03 får ligningen x(t) = α. Fra beregningsskemaet på side 4.82 finder man de størrelser, der benyttes i t-testet for H 03, som bliver t(x) = / = t(15). Testsandsynligheden er , så H 03 forkastes som forventet. Pulsen afhænger altså af tiden på løbebåndet. Ifølge udskriften fra Excel på side er variansanalysetabellen for data i dette eksempel som vist nedenfor. (Resultaterne i tabellen vedrørende testet for H 03 adskiller sig lidt fra den ovenfor, fordi vi her har brugt afrundede størrelser i beregningerne.) Variationskilde SAK f g s 2 F ε regression omkring linjen I alt Eksempel 4.7 (Fortsat) Variansanalysetabellen for disse data er: Variationskilde SAK f g s 2 F ε regression omkring linjen inden for grupper I alt

214 Lineær regression Korrelation og/eller regression Teorien gennemgås i forbindelse med Eksempel 4.8. Eksempel 4.8 Vi betragter igen eksperimentet i Eksempel 4.6 udført af Tue Lindstrøm, Institut for Idræt, hvor der foruden tiden på løbebåndet blev målt forskellige fysiologiske størrelser, blandt andre puls og iltoptagelse. I Eksempel 4.6 så vi, at pulsens afhængighed af tiden kunne beskrives ved hjælp af en lineær regressionsmodel. Her betragter vi sammenhørende målinger af pulsen og iltoptagelsen(i l/min) foretaget første gang efter 2 minutter og derefter hvert 2 1 minut. Resultaterne er vist i tabellen nedenfor. puls iltoptagelse puls iltoptagelse Vi er her interesserede i at undersøge, om der er en sammenhæng mellem pulsen og iltoptagelsen. Situationen her er forskellig fra den i Eksempel 4.6 hvor vi studerede sammenhørende af tiden og pulsen, idet vi da antog, at tiden var deterministisk (kendt) mens pulsen var udfald en realisation af en stokastisk variabel. Her er både pulsen og iltoptagelsen realisationer af stokastiske variable. Vi kan for eksempel ikke før forsøgets start med sikkerhed sige, hvad pulsen og iltoptaget er efter minuts løb på båndet. Lader vi (x 1i,x 2i ), i = 1,...,17, betegne det i te sæt af sammenhørende værdier af puls og iltoptagelse er (x 1i,x 2i ) en realisation af en todimensional stokastisk vektor og vil betragte (x 11,x 21 ),...,(x 1n,x 2n ) som én observationsrække af længde n = 17 fra den todimensionale normalfordeling, som er omtalt i Afsnit Én observationsrække fra den todimensionale normalfordeling Vi betragter modellen M 0 : X i = (X 1i,X 2i ) N 2 ((µ 1, µ 2 ),Σ),

215 4.95 Figur 4.23 Data i Eksempel 4.8. Sammenhørende værdier af puls og iltoptagelse. hvor Σ = { σ 2 1 ρσ 1 σ 2 ρσ 1 σ 2 σ 2 2 }. Her betegner µ i og σi 2 middelværdien og variansen for X i, i = 1,2, og ρ er korrelationen mellem de to komponenter af X i. Modelkontrol Af formel (3.19) fås, at i modellen M 0 er observationsrækken bestående af førstekomponenterne x 11,...,x 1i,...,x 1n normalfordelt med middelværdi µ 1 og varians σ1 2 og tilsvarende er observationsrækken bestående af andenkomponenterne x 21,...,x 2i,...,x 2n normalfordelt med middelværdi µ 2 og varians σ 2 2. En del af kontrollen af M 0 består derfor af to fraktilsammenligninger for henholdsvis første- og andenkomponenterne. eller Formel (3.21) medfører, at X 2i X 1i = x 1i N(µ 2 +(x 1i µ 1 ) ρσ 2 σ 1,σ 2 2 (1 ρ2 )) X 2i X 1i = x 1i N(α + βx 1i,σ 2 ), (4.56)

216 Lineær regression hvor og α = µ 2 µ 1 ρσ 2 σ 1, (4.57) β = ρσ 2 σ 1 (4.58) σ 2 = σ 2 2 (1 ρ2 ). (4.59) Hvis førstekomponenterne x 11,...,x 1i,...,x 1n betragtes som faste, siger formel (4.56), at vi har en lineær regression med førstekomponenterne som uafhængige variable og andenkomponenterne som afhængige variable. Af symmetrigrunde har vi også en lineær regression med andenkomponenterne som uafhængige variable og førstekomponenterne som afhængige variable. Modellen M 0 kan altså også evalueres ved hjælp af kontroltegninger fra lineær regressionsanalyse. Estimation Maksimum likelihood estimaterne for de fem parametre i M 0 beregnet på grundlag af observationerne (x 11,x 21 ),...,(x 1n,x 2n ) er: µ 1 S 1 n = 1 n µ 2 S 2 n = 1 n σ1 2 1 n 1 SAK 1 = 1 n 1 σ2 2 1 n 1 SAK 2 = 1 n 1 ρ r = n i=1 n i=1 n i=1 n i=1 SAP SAK1 SAK 2 = x 1i = x 1 N(µ 1, σ 2 1 n ), x 2i = x 2 N(µ 2, σ 2 2 n ), (x 1i x 1 ) 2 σ 2 1 χ 2 (n 1)/(n 1), (x 2i x 2 ) 2 σ 2 2 χ 2 (n 1)/(n 1), n i=1 (x 1i x 1 )(x 2i x 2 ) n (x 1i x 1 ) 2 n. (x 2i x 2 ) 2 i=1 Den simultane fordeling af de fem estimater er vanskelig at beskrive, men foruden de nævnte fordelingsresultater gælder der, følgende approksimation i=1 z = 1 2 ln(1+r 1 r ) N(1 2 ln(1+ρ 1 ρ ), 1 n 3 ).

217 4.97 Beregningerne af estimaterne foretages let ved hjælp af følgende beregningsskema n x 1 x 2 n S SK S 1 = n x i1 i=1 SK 1 = n x 2 i1 i=1 S 2 = n x i2 i=1 SK 2 = n x 2 i2 i=1 SP SP = n x i1 x i2 i=1 SAK SAK 1 = SK 1 S2 1 n SAK 2 = SK 2 S2 2 n SAP SAP = SP S 1S 2 n s 2 s 2 1 = 1 n 1 SAK 1 s 2 2 = 1 n 1 SAK 2 r r = SAP SAK1 SAK 2 Test af hypotesen H 0 : ρ = 0 Hypotesen H 0 om uafhængighed af de to komponenter i en todimensional normalfordeling testes ved hjælp af teststørrelsen t(x) = r t(n 2). (4.60) (1 r 2 )/(n 2) Idet både store og små værdier af teststørrelsen er kritiske er testsandsynligheden for H 0 ε(x) = 2(1 F t(n 2) ( t(x) ). (4.61) Relation til regressionsanalyse Indsættes estimaterne ovenfor på højresiden i (4.57) og (4.58) fås, og ˆβ = r s 2 SAP SAK2 /(n 1) = s 1 SAK1 SAK 2 SAK1 /(n 1) = SAP SAK 1 ˆα = x 2 x 1 r s 2 s 1 = x 2 x 1 ˆβ, det vil sige præcis de samme størrelser som i regressionsanalysen af x 2 på x 1.

218 Lineær regression Ved at indsætte formlen for r i (4.60) finder vi t(x) = ( 1 ( = 1 n 2 ˆβ =, s 2 02 /SAK 1 SAP SAK1 SAK 2 SAP SAK1 SAK 2 ) 2 )/(n 2) SAP SAK 1 (SAK 2 SAP2 SAK 1 ) /SAK 1 hvor s 2 02 betegner variansestimatet i modellen for lineær regression af x 2 på x 1. Det ses, at t-testet for H 0 : ρ = 0 i (4.60) er præcis det samme som t-testet for H 03 : β = 0 i (4.55). Som konklusion på overvejelserne ovenfor har vi, at der med hensyn til de betragtede a- spekter beregningsmæssigt ikke er forskel på regressionsmodellen og modellen for én observationsrække fra den todimensionale normalfordeling, skønt disse to modeller er principielt forskellige. Endvidere gælder, lidt løst formuleret, at den todimensionale normalfordelingsmodel indeholder to regressionsanalyser, nemlig regressionen af x 2 på x 1, hvis x 1 betragtes som fast, og tilsvarende af x 1 på x 2. Eksempel 4.8 (Fortsat) Af Figur 4.23 ses, at de sammenhørende værdier af puls og iltoptag ligger pænt og ensartet omkring en ret linje. Figur 4.24 viser fraktildiagrammerne for målingerne af pulsen og iltoptaget. Diagrammerne strider ikke mod at målingerne kan betragtes som to normalfordelte observationsrækker. Alt i alt strider Figur 4.23 og Figur 4.24 ikke mod at antage at de sammenhørende målinger kan betragtes som én todimensional normalfordelt observationsrække. For disse data bliver beregningsskemaet på side 4.97: x 1 (puls) n 17 x 2 (iltoptag) S SK SP SAK SAP s r

219 Figur 4.24 Fraktildiagrammer for målinger af puls og iltoptag i Eksempel

220 Lineær regression Teststørrelsen i (4.58) for hypotesen H 0 om ingen sammenhæng mellem puls og iltoptag er t(x) = = 5.11 t(15). ( )/15 Da testsandsynligheden er for kastes H 0. Linjen i regressionen for iltoptag på puls, der fremkommer ved at betragte værdierne af pulsmålingerne som deterministiske, har ligningen x 2 = ( x 2 x 1 r s 2 s 1 )+r s 2 s 1 x 1 = x 1.

221 4.101 Anneks til Afsnit 4.6 Beregninger i Excel Beregningerne i regressionsmodellen M 2 : X i j N(α + βt i,σ 2 ) udføres let i Excel ved hjælp af dialogboksen Regression Det er derimod noget besværligt at teste reduktionen for modellen for k observationsrækker M 1 : X i j N(µ i,σ 2 ) til M 2, som beskrevet i fortsættelsen af Eksempel 4.7 nedenfor. Eksempel 4.6 (Fortsat) Antag, at cellernea1:b20 har indholdet som vist nedenfor Via ruten Funktioner Dataanalyse Regression fremkommer der en dialogboks. I vores gennemgang af regressionanlysen har vi betegnet den afhængige variabel med x og den uafhængige variabel med t. Mange stedet betegnes den afhængige variable med y og den uafhængige med x, således også i Excel. Da vi vil lave regressionen af puls på tid angiver vi cellerneb4:b20 efterinput for Y-område og cellerne A4:A20 efterinput for X-område.

222 4.102 Beregninger i Excel Efter et klik påok får vi følgende udskrift på et nyt regneark: 0#1%(/(%*+,-./(/(% ) %-2.-/.3(4$ #$%&'($! ) ) ) " 78 51(/,-%&62(/ 9 :; <; = :9"!= N*,-/&-5($ +M/&2> ;99@ ) ) ) ) : )!A!A9BC ) D! ) ) EDFGA * * ) HAIJK ) ) LFIJK ) (1&.#-$?-$% (>/(11&62 ) ) ) ) ) ) ) * I tabellen med overskriften Regressionsstatistik angives den empiriske korrelation r for de to variable i linjen Multipel R og r 2 i linjen R-kvadreret. I linjen Standardfejl angives den estimerede spredning s 02 (= s 2 02 )i regressionsmodellen. I den øverste tabel under overskriftenanava finder vi i linjenresidual under henholdsvis fg, SK og MK størrelserne f 02, SAK 02 og s 2 02, sammenlign med beregningsskemaet side I linjenregression finder vi undersk ogmk størrelserne SAK 3 og s 2 3, som benyttes i forbindelse med test af hypotesen H 03 : β = 0. Størrelserne er ens, idet antallet af frihedsgrader f 3 = f 03 f 02 = (n 1) (n 2) = 1. F-teststørrelsen og den tilsvarende testsandsynlighed for H 03 findes i samme linje underfogsignifikans F. Endelig findes i linjeni alt størrelserne f 03 = n 1 og SAK 03 = SAK 02 + SAK 3. I den nederste tabel under overskriften ANAVA finder vi i linjen Skæring finder vi estimatet ˆα (Koefficienter), den estimerede spredning på ˆα (Standardfejl), t-teststørrelsen for hypotesen H03 : α = 0 (t-stat) og den tilsvarende testsandsynlighed (P-værdi). De to sidste tal i rækken angiver 95% konfidensintervallet for α, som vi genkender fra side I linjen X-variabel 1 findes tilsvarende estimatet ˆβ for hældningen, den estimerede spredning på ˆβ, t-teststørrelsen for hypotesen H 03 : β = 0, den tilsvarende testsandsynlighed, og 95% konfidensintervallet for β. Resultaterne vedrørende testet svarer til dem på side 4.93 og konfidensintervallet blev beregnet på side (Af en ukendt grund bliver konfidensintervallerne angivet to gange på udskriften. Så tungnemme er vi da ikke at det er nødvendigt.) En tegning af observationerne med den estimerede regressionslinje kan fås ved at klikke i

223 4.103 ruden foranlinjetilpasningsplot i dialogboksenregression. Tegningen ser således ud:! " #$%&'()*+,# 1// Ikke særligt informativ, men efter lidt redigering bliver den til :; 89-0/ -./ -// 1// 2// 567 3// 4//.// som ligner tegningen i Figur Eksempel 4.7 (Fortsat) I forbindelse med test af reduktionen fra M 1 : X i j N(µ i,σ 2 ) til M 2 : X i j N(α + βt i,σ 2 )

224 4.104 Beregninger i Excel er Excel lidt tung at danse med. Det skyldes, at man i forbindelse med M 1, modellen for k observationsrækker, skal angive x-erne som k kolonner (eller rækker), mens man i forbindelse med M 2 skal angive x-erne som en kolonne (eller række). Det kan gøres således: Først indtastet data som tre observationsrækker som vist nedenfor og dialogboksenanava: Enkelt faktor benyttes til at producere udskriften +,-.!"!# $%&'(!$')* % % / ? 91:?/3553:;5<6???? >)&) %??? =70<76<B5;C<8D3 9E FG HE I JKLM0D< IC0<6.%&&%NO*PQQ%* S!&' S T% ()*O*PQQ%*???????R? hvor de størrelser fra M 1, der skal bruges i F-teststørrelsen i (4.53) for hypotesen H 02 : µ i = α + βt i, nemlig SAK 01, f 01 og s 2 01, findes i linjen Inden for grupper i ANAVA-tabellen. Herefter

225 4.105 omorganiseres data, så de kommer til at se således ud:! " # $ % og &'()'**+,-**./.+* disse data som input produceres ved hjælp af dialogboksenregression udskriften IJ FGA7?<=45HC7? B4=C>=?>D7E3 9 87P?7AA5HC 87A5>2=3 K( LM NM O L+(-+K+0/-*O 9#: `:<=?5=G73 B;_?5CP M,'KK+R+'-.')L./-S/)SK'TU 9999#: 9 999#:.V*./. WVXY)S+ 99 Z'S)'[\] 99 ^X)'[\] Q=34 9 hvor de størrelser fra M 2, der skal bruges i F-testet af H 02, nemlig SAK 02 og f 02, findes i linjen Residual ianava-tabellen undersk ogfg. Sammenlign estimater og konfidensintervaller i udskriften med resultaterne på siderne 4.87 og 4.88.

226 4.106 Hovedpunkter til Afsnit 4.6 Hovedpunkter til Afsnit 4.6 Data består af sammenhørende værdier af t og x, (t i,x i ), i = 1,...,n. Model: Modellen M 2 for lineær regression er, at x i, i = 1,...,n, er realisationer af uafhængige stokastiske variable X i N(α + βt i,σ 2 ), 1,...,n. Dette forkortes til M 2 : X i N(α + βt i,σ 2 ), i = 1,...,n. Modelkontrol: Mindst en tegning af (t i,x i ), i = 1,...,n. Hvis der er flere observationspar med samme værdi af t i, kan probitdiagrammer, test for varianshomogenitet og test af den lineære regression komme på tale. Test for lineær regression: Teststørrelse F(x) = SAK 02 SAK 01 f 02 f 01 s 2 01 = s2 2 s 2 F(k 2,n k). 01 Se side 4.86 for angivelse af, hvordan de størrelser, der indgår i testet, beregnes. Testsandsynlighed Estimation: ε(x) = 1 F F(k 2,n k) (F(x)). Formler for estimaterne fremgår af beregningsskemaet side ( ( )) 1 ˆα N α,σ 2 t 2 + n SAK t ( σ ˆβ 2 ) N β, SAK t ( ˆα + ˆβt 1n N (α + βt,σ 2 + (t t ) 2 )) SAK t s 2 02 σ 2 χ 2 ( f 02 )/ f 02 hvor f 02 = n 2 (antal observationer minus antal ukendte parametre i middelværdien). Konfidensintervaller:

227 4.107 (1 α) konfidensinterval for α [ ˆα t 1 α/2 ( f 02 ) s 2 02 ( ) ( ) 1 t 2 1 +, ˆα +t n SAK 1 α/2 ( f 02 ) s 2 t ] t n SAK t (1 α) konfidensinterval for β s ˆβ 02 s t1 α/2 ( f 02 ), ˆβ + 02 t1 α/2 ( f 02 ) SAK t SAK t (1 α) konfidensinterval for regressionslinjen α + β t : [ ( ˆα + ˆβt 1 t 1 α/2 ( f 02 ) s 2 02 n + (t t ) 2 ) (, ˆα + SAK ˆβt 1 +t 1 α/2 ( f 02 ) s 2 02 t n + (t t ) 2 ) ] SAK t (1 α) konfidensinterval for σ 2 [ s 2 02 χ 2 1 α/2 ( f 02)/ f 02, s 2 02 χ 2 α/2 ( f 02)/ f 02 hvor χ 2 1 α/2 ( f 02) og χ 2 α/2 ( f 02) er henholdsvis 1 α/2 og α/2 fraktil for χ 2 -fordelingen med f 02 = n 2 frihedsgrader. ], Undermodeller af regressionsmodellen eller hypoteser om regressionsparametrene Vi betragter modellerne med kendt hældning og/eller kendt afskæring. Sammenhængen mellem modellerne og hypoteserne, der forbinder dem, kan fremstilles grafisk: M 3 : X i N(α + β 0 t i,σ 2 ) H 03 : β = β 0 ր ց H 04 : α = α 0 M 2 : X i N(α + βt i,σ 2 ) M 4 : X i N(α 0 + β 0 t i,σ 2 ) H03 : α = α 0 ց ր H04 : β = β 0 M3 : X i N(α 0 + βt i,σ 2 ) Test af H 03 : β = β 0. Teststørrelse Testsandsynlighed t(x) = ˆβ β 0 s 2 02 /SAK t ε(x) = 2 [ 1 F t(n 2) ( t(x) ) ]

228 4.108 Hovedpunkter til Afsnit 4.6 Estimater for parametrene i M 3 : α ˆα M3 = x β 0 t N(α, σ 2 n ) σ 2 s 2 03 = 1 n {x i ( ˆα M3 + β 0 t i )} 2 n 1 i=1 = 1 [SAK 02 +( n 1 ˆβ ] β 0 ) 2 SAK t σ 2 χ 2 (n 1)/(n 1) Test af H 03 : α = α 0. Teststørrelse Testsandsynlighed t(x) = s 2 02 ˆα α 0 ( ) 1 t 2 + n SAK t ε(x) = 2 [ 1 F t(n 2) ( t(x) ) ] Estimater for parametrene i M 3 : β ˆβ M 3 = n t i (x i α 0 ) i=1 n ti 2 i=1 = SP xt α 0 S t SK t N(β, σ 2 SK t ) Test af H 04 : β = β 0 : Teststørrelse σ 2 s 2 03 = 1 n 1 = 1 n 1 n i=1 {x i (α 0 + ˆβ M 3 t i )} 2 [ SK x + nα 2 0 2α 0 S x ˆβ 2 M 3 SK t σ 2 χ 2 (n 1)/(n 1) t(x) = ˆβ M 3 β 0 s 2 03 /SK t = SP xt α 0 S t β 0 SK t s 2 03 SK t t(n 1) ]

229 4.109 Testsandsynlighed ε(x) = 2 [ 1 F t(n 1) ( t(x) ) ] Estimat for parameteren i M 4 : Test af H 04 : α = α 0 : Teststørrelse n σ 2 s 2 04 =1 {x i (α 0 + β 0 t i )} 2 n i=1 = 1 [ SKx + nα0 2 n + β 0 2 SK ] t 2α 0 S x 2β 0 SP xt + 2α 0 β 0 S t σ 2 χ 2 (n)/(n) t(x) = ˆα M 3 α 0 s 2 03 /n = S x β 0 S t α 0 n s 2 03 n t(n 1) Testsandsynlighed ε(x) = 2 [ 1 F t(n 1) ( t(x) ) ] Estimat for parameteren i M 4 : n σ 2 s 2 04 =1 {x i (α 0 + β 0 t i )} 2 n i=1 = 1 [ SKx + nα0 2 n + β 0 2 SK ] t 2α 0 S x 2β 0 SP xt + 2α 0 β 0 S t σ 2 χ 2 (n)/(n). Én observationsrække fra en todimensional normalfordeling Modellen for data (x 11,x 21 ),..., (x 1i,x 2i ),..., (x 1n,x 2n ) er M 0 : X i = (X 1i,X 2i ) N 2 ((µ 1, µ 2 ),Σ), hvor Σ = { σ 2 1 ρσ 1 σ 2 ρσ 1 σ 2 σ 2 2 }.

230 4.110 Hovedpunkter til Afsnit 4.6 Modelkontrol Fraktilsammenligning for førstekomponenterne x 11,..., x 1i,...,x 1n og andenkomponenterne x 21,..., x 2i,...,x 2n. Desuden skal en tegning af observationer (x 11,x 21 ),..., (x 1i,x 2i ),..., (x 1n,x 2n ) vise samme træk som kontroltegningen for en lineær regression af x 2 på x 1. Estimation Parametrene i M 0 estimeres ved de tilsvarende empiriske størrelser, det vil sige µ 1 x 1, µ 2 x 2, σ 2 1 s2 1, σ 2 2 s2 2 side Test af hypotesen H 0 : ρ = 0 Teststørrelse t(x) = og ρ r, som kan beregnes ved hjælp af beregningsskemaet r t(n 2). (1 r 2 )/(n 2) Testsandsynligheden for H 0 ε(x) = 2(1 F t(n 2)( t(x) ).

231 Tosidet variansanalyse I dette afsnit slækker vi på kravet om, at beregningerne skal kunne foretages i hånden og baserer gennemgangen på beregninger udført i Excel ved hjælp af to dialogbokse, nemlig Anava: To-faktor uden gentagelse oganava: To-faktor med gentagelse. Teorien bliver gennemgået i tilknytning til Eksempel 4.9 og Eksempel Eksempel 4.9 I forbindelse med klubbens 100 års fødselsdag arrangerede atletikafdelingen i Århus 1900 et 100 km løb i juli måned i år For at undersøge hvorledeset så langt løb påvirker deltagernes fysiologi, foretog man på Institut for Idræt en lang række målinger på nogle af deltagerne. Der blev blandt andet taget blodprøver på deltagerne forud for løbet (dag -1), umiddelbart efter løbet (dag 0), samt 1, 2, 3, 5 og 12 dage efter løbet (dag 1, dag 2, dag 3, dag 5 og dag 12). Tallene i tabellen nedenfor, som Tue Lindstrøm har stillet tilrådighed, viser indholdet (målt i mmol/l) af Calcium i blodprøverne for 11 af deltagerne. person\dag Der er af interesse at undersøge dels om der er forskel på indholdet af calcium på de forskellige tidpunkter og dels om der er forskel på indholdet af calcium i deltagernes blodprøver. Eksempel 4.10 I forbindelse med atletikstævnet for 1. årsstuderende - omtalt i Eksempel har Mikkel Sørensen, Institut for Idræt, Københavns universitet registreret følgende resultater i kuglestød (i

232 Tosidet variansanalyse m) for drenge og piger i årene 1998, 1999 og 2000: køn/år drenge piger Vi vil her undersøge dels om der er forskel på resultaterne i de tre år og dels om der er forskel på drengenes og pigernes resultater. Modeller og hypoteser Fælles for de to datasæt er at de er opskrevet i et tosidet skema med r rækker og s søjler og altså i alt rs celler. I Eksempel 4.9 har vi indledningsvis r = 11 rækker og s = 7 søjler, mens der i Eksempel 4.10 er r = 2 rækker og s = 3 søjler. De to dialogbokse i Excel kræver, at der er lige mange observationer i de rs celler. Hvis t betegner dette antal, er dette tilfældet i Eksempel 4.10, hvor antallet af observationer i de seks celler i skemaet er t = 9. Uheldigvis er det ikke lykkedes medarbejderne ved Institut for Idræt at få blodprøver på de 11 personer til samtlige 7 tidspunkter, så derfor betragter vi i det følgende kun personerne 1, 2, 3, 7, 9 og 10. Med denne modification har vi for data i Eksempel 4.9, at r = 6, s = 7 og t = 1. Lad x i jk betegne det k te måling i den i te række og den j te søjle. Vi bruger altså i = 1,...,r til at indicere de r rækker, j = 1,...,s, til at indicere de s søjler og k = 1...,t til at indicere

233 gentagelserne med. Det totale antal af observationer betegnes n, det vil sige n = rst Idet vi som sædvanlig forudsætter, at alle observationerne x i jk, i = 1,...,r, j = 1,...,s, k = 1,...,t, er udfald af uafhængige stokastiske variable X i jk, kan de modeller, vi vil betragte, skrives på følgende måde: Modellen for rs observationsrækker hver med sin middelværdi og sin varians M 0 : X i jk N(µ i j,σ 2 i j). Modellen for rs observationsrækker hver med sin middelværdi og fælles varians M 1 : X i jk N(µ i j,σ 2 ). Additivitetsmodellen M 2 : X i jk N(α i + β j,σ 2 ). skema. M 3 Modellen med kun rækkevirkning Modellen med kun søjlevirkning M 3 : X i jk N(α i,σ 2 ), M 3 : X i jk N(β j,σ 2 ). Modellen for én observationsrække eller homogenitet M 4 : X i jk N(µ,σ 2 ). Det indbyrdes forhold mellem modellerne M 2, M 3, M 3 og M 4 er angivet i nedenstående ր M 3 : X i jk N(α i,σ 2 ) M 2 : X i jk N(α i + β j,σ 2 ) M 4 : X i jk N(µ,σ 2 ) ց M 3 : X i jk N(β j,σ 2 ) Vi kender alle disse modeller fra tidligere med undtagelse af M 2. Modellerne M 1, M 3 og er alle eksempler på en model for flere observationsrækker hver med sin middelværdi men med fælles varians, omtalt i Afsnit 4.5. I M 1 har vi rs observationsrækker (cellerne) hver med t observationer. I M 3 har r observationsrækker (rækkerne) hver med st observationer og i M 3 har vi s observationsrækker (søjlerne) hver med rt observationer. Endelig er M 4 modellen for én observationsrække med n = rst observationer. ց ր

234 Tosidet variansanalyse De hypoteser vi skal betragte er følgende: Hypotesen om additivitet: H 02 : µ i j = α i + β j svarende til reduktionen M 1 M 2. Hypotesen omtales også undertiden som hypotesen om ingen vekselvirkning eller som hypotesen om ingen interaktion. I en tosidet variansanalyse betragter man endvidere følgende hypoteser: Hypotesen om ingen rækkevirkning H 0R : α 1 = = α r, og hypotesen om ingen søjlevirkning H 0S : β 1 = = β s, Det ses af skemaet ovenfor, at accept af H 0R i modellen M 2 giver reduktionen til M3, idet det accepteres at EX i j = α + β j = β j, hvor α betegner den fælles værdi af α-erne. Accept af H 0R i M 3 bevirker reduktion til M 4, idet vi da har EX i j = α, det vil sige at alle observationerne har samme middelværdi. Hypotesen om ingen rækkevirkning kan altså testes i to forskellige modeller og testene er - som vi skal se nedenfor - forskellige. (Bemærk, at notationen her er ændret i forhold til tidligere, hvor hypoteserne svarende til reduktionerne M 2 M3 og M 3 M 4 blev betegnet med henholdsvis H03 og H 04.) Tilsvarende giver accept af hypotesen om ingen søjlevirkning H 0S anledning til reduktionerne M 2 M 3 og M3 M 4 og igen afhænger testet af hvilken model hypotesen testes i. (Hypoteserne svarende til reduktionerne M 2 M 3 og M3 M 4 er tidligere betegnet med henholdsvis H 03 og H04.) Hvis t = 1, det vil sige hvis der kun er én observation i hver celle, taler vi om en tosidet variansanalyse uden gentagelser og hvis t 2 om en tosidet variansanalyse med gentagelser. Estimation Som nævnt ovenfor er modellerne M 1, M 3 og M3 er alle eksempler på en model med flere observationsrækker med hver sin middelværdi men med fælles varians, omtalt i Afsnit 4.5. Fra det afsnit har vi derfor umiddelbart de følgende resultater: Estimation i M 1 : X i jk N(µ i j,σ 2 ) (rs observationsrækker hver med t observationer): µ i j X i j = 1 t s 2 01 = 1 f 01 SAK 01 = 1 f 01 r i=1 s j=1 t k=1 t k=1 X i jk N(µ i j, σ 2 ), t (X i jk X i j ) 2 σ 2 χ 2 ( f 01 )/ f 01,

235 hvor f 01 = n rs = rst rs = rs(t 1) Estimation i M 3 : X i jk N(α i,σ 2 ) (r observationsrækker - rækkerne - hver med st observationer): α i X i = 1 st s 2 03 = 1 f 03 SAK 03 = 1 f 03 hvor f 03 = n r = rst r = r(st 1). r i=1 s j=1 s j=1 t k=1 t k=1 X i jk N(α i, σ 2 st ), (X i jk X i ) 2 σ 2 χ 2 ( f 03 )/ f 03, Estimation i M 3 : X i jk N(β j,σ 2 ) (s observationsrækker - søjlerne - hver med rt observationer): β j X j = 1 rt s 2 03 = 1 f03 SAK03 = 1 f03 r i=1 r t i=1 k=1 s j=1 t k=1 X i jk N(β j, σ 2 rt ), (X i jk X j ) 2 σ 2 χ 2 ( f 03 )/ f 03, hvor f03 = n s = rst s = s(rt 1). Estimation i M 4 : X i jk N(µ,σ 2 ) (én observationsrække hver med rst observationer): µ X = 1 rst s 2 04 = 1 f 04 SAK 04 = 1 f 04 hvor f 04 = n 1 = rst 1. r i=1 r i=1 s j=1 s j=1 t k=1 t k=1 X i jk N(µ, σ 2 rst ), (X i jk X ) 2 σ 2 χ 2 ( f 04 )/ f 04, Vi mangler nu kun at diskutere estimation i additivitetsmodellen M 2 : X i jk N(α i +β j,σ 2 ). Da vi kan skrive α i +β j som (α i +c)+(β j c), hvor c er en konstant, parametriserer de r α-er og de s β-er ikke modellen M 2. Det kan vises, at antallet af frie parametre, der skal bruges til at parametrisere M 2, er r + s 1. Idet antallet af observationer er rst, er antallet af frihedsgrader for varians estimatet i M 2 derfor f 02 = rst (r+ s 1). I M 2 benyttes følgende estimater s 2 02 = 1 f 02 SAK 02 = 1 f 02 Modelkontrol α i + β j X i + X j X N(α i + β j, r+ s 1 σ 2 ) (4.62) rst r i=1 s j=1 t k=1 (X i jk X i X j + X ) 2 σ 2 χ 2 ( f 02 )/ f 02. (4.63) I en tosidet variansanalyse er det additivitetsmodellen M 2 der sædvanligvis er i centrum, da det er i denne (eller i delmodeller af denne) hypoteserne om ingen rækkevirkning H 0R og ingen søjlevirkning H 0S testes. Vi diskuterer derfor nu kontrol af additivitetsmodellen M 2.

236 Tosidet variansanalyse Hvis vi har en tosidet variansanalyse med gentagelser er udgangspunktet M 0 : X i jk N(µ i j,σ 2 i j ) som kan kontrolleres med rs fraktildiagrammer (ét for hver af de rs celler), hvis antallet t af observationer i cellerne er tilpas stort. Hvis t 3 kan hypotesen om varianshomogenitet H 01 : σ 2 11 = = σ 2 i j = = σ 2 rs, svarende til reduktionen M 0 M 1 : X i jk N(µ i j,σ 2 ), testes ved Bartletts test som omtalt i Afsnit 4.5. Hypotesen om additivitet H 02 : µ i j = α i +β j - svarende til reduktionen M 1 M 2 - kan testet ved hjælp af et F-test, hvis t 2, det vil sige hvis vi har gentagelser. Lad s 2 2 = SAK 2 f 2, hvor og SAK 2 = SAK 02 SAK 01 = t r s i=1 j=1 ( X i j X i X j + X ) 2 f 2 = f 02 f 01 = (rst (r+ s 1)) rs(t 1) = rs (r+ s 1) = (r 1)(s 1). Under hypotesen H 02 er SAK 2 σ 2 χ 2 ( f 2 ) og uafhængig af SAK 01 σ 2 χ 2 ( f 01 ) og som teststørrelse for H 02 benyttes F(X) = s2 2 s 2, (4.64) 01 som - ifølge formel (3.35) - er F-fordelt med ( f 2, f 01 ) frihedsgrader, hvor f 01 = rs(t 1). Hvis F(x) er den observerede værdi af F(X) er testsandsynligheden for H 02 - idet store værdier af F(x) er kritiske - ε(x) = P(F(X) > F(x)) = 1 F F( f2, f 01 )(F(x)), hvor F F( f2, f 01 ) er fordelingsfunktionen for F-fordelingen med ( f 2, f 01 ) frihedsgrader. Ved test på 5% niveau forkastes H 02, hvis F(x) > F 0.95 ( f 2, f 01 ). Accept af H 02 medfører modelreduktionen M 1 M 2. Under M 2 afhænger forskellen i middelværdi mellem to forskellige rækker g og h ikke af, i hvilken søjle man måler forskellen, da EX g jk EX h jk = (α g + β j ) (α h + β j ) = α g α h. (4.65) Tilsvarende afhænger forskellen i middelværdi mellem to forskellige søjler l og m ikke af, i hvilken række man måler forskellen, da EX ilk EX imk = (α i + β l ) (α i + β m ) = β l β m. (4.66)

237 4.117 Nu er x i j et estimat for middelværdien EX i jk, så hvis man for hver række i afsætter og forbinder punkterne ( j, x i j ), j = 1,...,s, skal man på grund af (4.65) have r kurver, som bortset fra tilfældige udsving har konstant lodret afstand. Hvis man tilsvarende for hver fast søjle j afsætter og forbinder punkterne (i, x i j ), i = 1,...,r, skal man på grund af (4.66) have s kurver, som bortset fra tilfældige udsving har konstant lodret afstand. De netop omtalte figurer kaldes profildiagrammer. Hvis t = 1, det vil sige hvis vi ikke har gentagelser, kan vi ikke foretage testet i (4.64), idet s 2 01 ikke er defineret, og rimeligheden af additivitetsmodellen M 2 vurderes udelukkende ved hjælp af profildiagrammer. I M 2 betegnes størrelserne R i jk = X i jk X i X j + X som residualerne. Det kan vises, at residualerne approksimativt er identisk normalfordelt med middelværdi 0. Antagelsen om normalitet i M 2 kan derfor vurderes ved at lave et fraktildiagram baseret på de observerede residualer r i jk = x i jk x i x j + x, i = 1,...,r, j = 1...,s, k = 1...,t. Hvis vi ikke har gentagelser er et fraktildiagram for residualerne den eneste kontrol af normalfordelingsantagelsen i M 2. Eksempel 4.9 (Fortsat) Profildiagrammerne for data for personerne 1, 2, 3, 7, 9 og 10 er vist i Figur Bortset fra tilfældige udsving ser kurverne i hver af de to tegninger ud til at have konstant lodret afstand og tegningerne giver ikke anledning til at betvivle additivitetsmodellen M 2. Eksempel 4.10 (Fortsat) Tallene i dette eksempel har vi betragtet før, nemlig i Opgave 4.12, hvor der ikke var lige mange observationer i hver af de seks grupper. Der var færrest observationer for pigerne i år 2000, nemlig 9. For at kunne imødekomme kravet om, at antallet af observationer skal være det samme i hver af de seks grupper, betragter vi her de 9 første observationer i grupperne. Data ses i Figur 4.26 og i Figur 4.27 ses fraktildiagrammerne for de seks observationsrækker. Fraktildiagrammerne afslører ikke systematiske afvigelser fra rette linjer, så de seks observationsrækker kan betragtes som normalfordelte. Begge figurer antyder, at variansen i de seks rækker kan antages at være ens. Endvidere antyder figurerne, at der ikke er forskel på resultaterne i de tre år hverken for drengene eller pigerne, men at der er forskel på resultaterne for drenge og piger. Beregningsskemaet side 4.33 ser således ud:

238 Tosidet variansanalyse Figur 4.25 Profildiagrammer for personerne 1, 2, 3, 7, 9 og 10 i Eksempel 4.9.

239 4.119 Figur 4.26 Resultater for drenge og piger i kuglestød ved atletikstævnet for 1. års studerende i årene 1998, 1999 og Figur 4.27 Fraktildiagrammer for resultaterne for drenge og piger i kuglestød ved atletikstævnet for 1. års studerende i årene 1998, 1999 og 2000.

240 Tosidet variansanalyse Med udgangspunkt i dette skema tester vi hypotesen om varianshomogenitet H 01 : σ 2 11 = = σ23 2 i M 0 : X i jk N(µ i j,σi 2 j ),i = 1,2, j = 1,2,3,k = 1,...,9, ved hjælp af Bartlett testet. Da og finder vi C = , 2lnQ(x) = , Ba(x) = χ 2 (5). Idet n i 3 er den tilsvarende testsandsynlighed ε(x) = 1 F χ 2 (5)( ) = , det vil sige, at vi accepterer, at variansen kan antages at være ens for de seks observationsrækker af længden af kuglestød og dermed reduktion af M 0 til M 1 : X i jk N(µ i j,σ 2 ). Test i M 2 Teststørrelserne for testene i M 2 baserer sig på følgende opspaltning af den totale variation: SAK 04 = r s t i=1 j=1 k=1 r s t i=1 j=1 k=1 = (X i jk X ) 2 (X i jk X i X j + X ) 2 + st = SAK 02 + SAK R + SAK S. r i=1 ( X i X ) 2 + rt s j=1 ( X j X ) 2

241 Her er SAK R = st r i=1 ( X i X ) 2 et udtryk for variationen mellem rækkegennemsnittene - kort variationen mellem rækker - og SAK S = rt s j=1 ( X j X ) 2 er et udtryk for variationen mellem søjlegennemsnittene - variationen mellem søjler - mens SAK 02 = r s t i=1 j=1 k=1 (X i jk X i X j + X ) betegnes som residualvariationen, idet størrelserne R i jk = X i jk X i X j + X som nævnt ovenfor betegnes som residualerne i M 2. Det kan vises, at i M 2 er SAK 02, SAK R og SAK S stokastisk uafhængige og som nævnt ovenfor er SAK 02 σ 2 χ 2 ( f 02 ), hvor f 02 = rst (r+ s 1). Test af H 0R i M 2 I M 2 svarer hypotesen H 0R om ingen rækkevirkning til reduktionen M 2 M 3. Idet SAK 3 = SAK 03 SAK 02 = SAK R sætter vi f R = f 3 = f 03 f 02 = s(rt 1) (rst (r+ s 1)) = r 1 og s 2 R = s 2 3 = SAK 3 f 3 = SAK R f R. I forhold til den generelle notation i Afsnit erstatter vi altså indiceringen 3 med indiceringen R, idet denne forekommer mere naturlig i forbindelse med testet af hypotesen H 0R. Af resultaterne i Afsnit fås, at vi som teststørrelse for H 0R i M 2 benytter F R (X) = s2 R s 2, (4.67) 02 som - ifølge formel (3.35) - er F-fordelt med (r 1, f 02 ) frihedsgrader, idet SAK R σ 2 χ 2 (r 1) under H 0R. Hvis F R (x) er den observerede værdi af F R (X) er store værdier af F R (x) kritiske, svarende til at variationen mellem rækker er for stor i forhold til residualvariationen i M 2. Testsandsynligheden for H 0R bliver derfor ε(x) = P(F R (X) > F R (x)) = 1 F F(r 1, f02 )(F R (x)),

242 Tosidet variansanalyse hvor F F(r 1, f02 ) er fordelingsfunktionen for F-fordelingen med (r 1, f 02 ) frihedsgrader og f 02 = rst (r+ s 1). Ved test på 5% niveau forkastes H 0R, hvis F R (x) > F 0.95 (r 1, f 02 ). Accept af H 0R medfører modelreduktionen M 2 M3. Test af H 0S i M 2 I M 2 svarer hypotesen H 0S om ingen søjlevirkning til reduktionen M 2 M 3 og hypotesen forkastes, hvis variationen SAK S = SAK 03 SAK 02 mellem søjlegennemsnittene er for stor i forhold til residualvariationen SAK 02. Lad s 2 S = SAK S s 1. Under hypotesen H 0S er SAK S σ 2 χ 2 (s 1) og som teststørrelse for H 0S benyttes F S (X) = s2 S s 2, (4.68) 02 som - ifølge formel (3.35) - er F-fordelt med (s 1, f 02 ) frihedsgrader. Hvis F S (x) er den observerede værdi af F S (X) er testsandsynligheden for H 0S - idet store værdier af F S (x) er kritiske - ε(x) = P(F S (X) > F S (x)) = 1 F F(s 1, f02 )(F S (x)), hvor F F(s 1, f02 ) er fordelingsfunktionen for F-fordelingen med (s 1, f 02 ) frihedsgrader og f 02 = rst (r+ s 1). Ved test på 5% niveau forkastes H 0S, hvis F S (x) > F 0.95 (s 1, f 02 ). Accept af H 0S medfører modelreduktionen M 2 M 3. Test i M 3 Test af H 0R i M 3 Idet M 3 er en model for r observationsrækker - rækkerne - med hver st observationer ved vi

243 4.123 fra Afsnit 4.5, at i M 3 testes hypotesen H 0R - svarende til modelreduktionen M 3 M 4 - ved at sammenligne variationen SAK R = st r i=1 ( X i X ) 2 = SAK 04 SAK 03 mellem rækker med variationen SAK 03 indenfor rækker. Der gælder SAK 03 σ 2 χ 2 ( f 03 ), hvor f 03 = r(st 1) og det kan vises, at SAK 03 = r s t i=1 j=1 k=1 Teststørrelsen for testet af H 0R i M 3 er (X i jk X i ) 2 = SAK 02 + SAK S. F R (X) = s2 R s 2 = SAK R/(r 1), (4.69) 03 SAK 03 / f 03 som er F-fordelt med (r 1, f 03 ) frihedsgrader. (Bemærk, at vi sætter en over F R for ikke at forveksle testet her med testet i (4.67).) Hvis F R (x) er den observerede værdi af F R (X), er testsandsynligheden for test af H 0R i M 3 ε(x) = P( F R (X) > F R (x)) = 1 F F(r 1, f03 )( F R (x)), idet store værdier er kritiske. Ved test på niveau 5% forkastes, hvis Accept af H 0R medfører reduktionen M 3 M 4. F R (x) > F 0.95 (r 1, f 03 ). Test i M 3 Test af H 0S i M 3 Idet M3 er en model for s observationsrækker - søjlerne - med hver rt observationer ved vi fra Afsnit 4.5, at i M3 testes hypotesen H 0S - svarende til modelreduktionen M3 M 4 - ved at sammenligne variationen SAK S = rt s j=1 ( X j X ) 2 = SAK 04 SAK 03 mellem søjler med variationen SAK03 indenfor søjler. Der gælder SAK 03 σ 2 χ 2 ( f03 ), hvor f 03 = s(rt 1) og det kan vises, at SAK 03 = r i=1 s j=1 t k=1 (X i jk X j ) 2 = SAK 02 + SAK R. (4.70)

244 Tosidet variansanalyse Teststørrelsen for testet af H 0S i M 3 er F S (X) = s2 S = SAK S/(s 1) s 2 03 SAK03 / f 03, (4.71) som er F-fordelt med (s 1, f 03 ) frihedsgrader. (Bemærk, at vi sætter en over F S for ikke at forveksle testet her med testet i (4.68).) Hvis F S (x) er den observerede værdi af F S (X), er testsandsynligheden for test af H 0S i M 3 ε(x) = P( F S (X) > F S (x)) = 1 F F(s 1, f 03 )( F S (x)), idet store værdier er kritiske. Ved test på niveau 5% forkastes, hvis Accept af H S medfører reduktionen M 3 M 4. F S (x) > F 0.95 (s 1, f 03 ). Variansanalysetabellen En oversigt over beregningerne i en tosidet variansanalyse resumeres bekvemt i en variansanlysetabel. For en tosidet variansanalyse med gentagelser ser en del af Excel s variansanlysetabel således ud: Variationskilde SAK f g s 2 F ε Rækker SAK R r 1 s 2 R (s 2 R /s2 01 ) (1 F F(r 1,rs(t 1))(s 2 R /s2 01 )) Søjler SAK S s 1 s 2 S (s 2 S /s2 01 ) (1 F F(s 1,rs(t 1))(s 2 S /s2 01 )) Interaktion SAK 2 (r 1)(s 1) s 2 2 s 2 2 /s F F((r 1)(s 1),rs(t 1)) (s 2 2 /s2 01 ) Indenfor SAK 01 rs(t 1) s 2 01 I alt SAK 04 rst 1 Excel benytter dog navnenesk,mk ogp-værdi for kolonnerne som her hedder SAK, s 2 og ε og navnenestikprøve ogkolonner for rækkerne som her hedder Rækker og Søjler. Bemærk, at der er sat parenteser om F- og ε-størrelserne i Rækker og Søjler. Det skyldes, at Excel tester hypoteserne H 0R og H 0S om henholdsvis ingen rækkevirkning og ingen søjlevirkning i modellen M 1. Dette ses af at tælleren og antal frihedsgrader for tælleren i alle F størrelserne er henholdsvis s 2 01 og f 01 = rs(t 1). Det er ikke den fremgangsmåde vi benytter. Vi tester først hypotesen H 02 om additivitet i M 1. Hvis vi forkaster kan vi ikke komme videre med analysen. Hvis vi accepterer H 02 er model M 1 reduceret til additivitetsmodellen M 2, som nu danner grundlag for den videre analyse. Rækkefølgen hvori hypoteserne H 0R og H 0S testes afhænger af den faglige problemstilling. Hvis vi først vælger af teste H 0R er F-teststørrelsen

245 4.125 s 2 R /s2 02, idet s2 02 er varians estimatet i M 2. Accepteres H 0R reduceres M 2 til M3 og i denne model kan hypotesen H 0S testes ved hjælp af F-teststørrelsen s 2 S /s 2 03, idet s 2 03 er varians estimatet i M 3. Hvis H 0R forkastes ved test i M 2 er modellen stadig M 2 og hypotesen H 0S kan testes ved hjælp af F-teststørrelsen s 2 S /s2 02. Fremgangsmåden er altså ikke den samme som den Excel lægger op til, men variansanalyseskemaet indeholder alle de relevante størrelser, idet SAK 02 = SAK 01 + SAK 2, f 02 = f 01 + f 2 = rst (r+ s 1), s 2 02 = SAK 02 f 02 SAK 03 = SAK 01 + SAK 2 + SAK S, f 03 = f 01 + f 2 + f S = r(st 1), s 2 03 = SAK 03 f 03 SAK03 = SAK 01 + SAK 2 + SAK R, f03 = f 01 + f 2 + f R = s(rt 1), s 2 03 = SAK 03. For en tosidet variansanalyse uden gentagelser ser en del af Excel s variansanalysetabel således ud: Variationskilde SAK f g s 2 F ε Rækker SAK R r 1 s 2 R s 2 R /s F F(r 1,(r 1)(s 1)) (s 2 R /s2 02 ) Søjler SAK S s 1 s 2 S s 2 S /s F F(s 1,(r 1)(s 1)) (s 2 S /s2 02 ) Interaktion SAK 02 (r 1)(s 1) s 2 02 I alt SAK 04 rs 1 Igen benyter Excel navnene SK, MK og P-værdi for kolonnerne som her hedder SAK, s 2 og ε. Desuden benyttes navnene Rækker, Kolonner og Fejl for rækkerne som her hedder Rækker, Søjler og Interaktion. Bemærk, at Excel angiver tester begge hypoteserne H 0R og H 0S i additivitetsmodellen M 2, hvilket vi ikke altid gør. Tabellen indeholder dog den relevante information også til vores fremgangsmåde idet SAK 03 = SAK 02 + SAK S, f 03 = f 02 + f S = r(s 1), s 2 03 = SAK 03 f 03 SAK03 = SAK 02 + SAK R, f03 = f 02 + f R = s(r 1), s 2 03 = SAK 03. f 03 f 03 Konfidensintervaller i M 2 Da modellerne M 1, M 3 og M 3 alle er modeller for flere observationsrækker kan konfidensintervallerne for parametrene i disse modeller findes ved hjælp af resultaterne i Afsnit 4.5. M 4 er modellen for én normalfordelt observationsrække med ukendt middelværdi og varians, så

246 Tosidet variansanalyse konfidensintervallerne i denne model fremgår af Afsnit 4.3. Vi indskrænker os derfor her til at diskutere konfidensintervaller i additivitetsmodellen M 2. Af formlerne (4.62) og (4.63) fås, at (1 α) konfidensintervallerne for middelværdien α i + β j i den (i, j) te celle er [ x i + x j x t 1 α/2 ( f 02 ) s 2 02 hvor f 02 = rst (r+ s 1), og for variansen σ 2 r+ s 1, x i + x j x +t rst 1 α/2 ( f 02 ) s 2 r+ s 1 02 ], (4.72) rst s 2 02 s 2 02 [ χ1 α/2 2 ( f, 02)/ f 02 χα/2 2 ( f ]. (4.73) 02)/ f 02 Størrelsen α g α h omtales kontrasten mellem den g te og den h te række. Tilsvarende er β l β m kontrasten mellem den l te og den m te søjle. I M 2 estimeres kontrasterne således: α g α h x g x h N(α g α h, 2 st σ 2 ) og β l β m x l x m N(β l β m, 2 rt σ 2 ), hvilket giver anledning til følgende (1 α) konfidensintervaller. For kontrasten α g α h [ x g x h t 1 α/2 ( f 02 ) s st, x g x h +t 1 α/2 ( f 02 ) s st ] (4.74) og for kontrasten β l β m [ x l x m t 1 α/2 ( f 02 ) Diskussion af de to test for H 0S s rt, x l x m +t 1 α/2 ( f 02 ) s ]. (4.75) rt Af det ovenstående ses, at hypotesen om ingen søjlevirkning H 0S kan testes i to forskellige modeller, nemlig M 2 og M3. Testene er forskellige og kan føre til forskellige resultater - som vist nedenfor - hvis der er en signifikant rækkevirkning. For nemheds skyld antager vi at t = 1, det vil sige at vi ingen gentagelser har. Af (4.68) og (4.71), ses at i additivitetsmodellen M 2 testes H 0S ved hjælp af F S (X) = s2 S s 2 F(s 1,(r 1)(s 1)) 02 og i M 3 ved hjælp af FS(X) = s2 S s 2 F(s 1,(r 1)s). 03

247 4.127 Formlerne (4.67) og (4.70) medfører, at F S (X) F S (X) = s 2 S s 2 02 s 2 S s 2 03 = s 1 s = s 2 03 s 2 = 02 1 (r 1)s SAK 03 1 (r 1)(s 1) SAK 02 SAK 02 + SAK R = s 1 SAK 02 s = s 1 (1+ 1 s s 1 F R(X)) = s 1 s + F R(X). s = s 1 SAK03 s SAK 02 (1+ SAK R SAK 02 ) Hypotesen H 0R om ingen rækkevirkning forkastes for store værdier af F R (X)(>> 1), og det ses at i så tilfælde er F S (X) F S (X) >> 1 eller F S (X) << F S (X). Af tabellerne over F-fordelingen ses, at fraktilerne for F(s 1, f) aftager når f vokser. I praksis kan vi derfor komme ud for følgende situation F S (x) < F 0.95 (s 1,(r 1)s) < F 0.95 (s 1,(r 1)(s 1)) < F S (x), det vil sige, at testes hypotesen om ingen søjlevirkning H 0S i M 2 forkaster vi idet F S (x) > F 0.95 (s 1,(r 1)(s 1)), mens hypotesen accepteres i M3 idet F S (x) < F 0.95 (s 1,(r 1)s). Forklaringen er, at hypotesen ikke skal testes i M3, da reduktionen M 2 M3 - svarende til hypotesen om ingen rækkevirkning - forkastes, fordi F R (x) er stor. Med andre ord kan hypotesen om ingen søjlevirkning ukorrekt blive accepteret, hvis en signifikant rækkevirkning negliceres. Eksempel 4.9 (Fortsat) Udskriften fra Excel s dialogboks Anava: To-faktor uden gentagelse ser for disse data

248 Tosidet variansanalyse således 45 "#$%&#! '()*+ ud: $, /((/-0(1) 6 2*31*( *31*)1:(0; $< => 45 E F Den øverste tabel indeholder informationer om tretten observationsrækker (seks svarende til rækkerne og syv svarende til søjlerne). For hver observationsrække angives antallet af observationer, summen af observationerne samt empirisk middelværdi og varians. at Under overskriften ANAVA ses variansanalysetabellen. Det fremgår af rækken Fejl fremgår, I rækkenkolonner ses, at samt at SAK 02 = , f 02 =30 og s 2 02 = SAK S = , f S =6 og s 2 S = og at den tilsvarende testsandsynlighed er F S (x) = s2 S s 2 = ε(x) = 1 F F(6,30) (F S (x)) = og endvidere er angiver 95% fraktilen F 0.95 (6,30) = Vi forkaster derfor hypotesen H 0S om ingen søjlevirkning, hvilket her betyder at der er forskel på den målte mængde af calcium på de syv forskellige tidspunkter.

249 4.129 På tilsvarende måde ses i rækkenrækker, at SAK R = , f R =5 og s 2 R = samt og F R (x) = s2 R s 2 = ε(x) = 1 F F(5,30) (F R (x)) = Hypotesen H 0R om ingen rækkevirkning forkastes altså også. Det vil sige, at der er forskel på mængden af calcium hos de seks personer. Figur 4.28 Fraktildiagrammer for residualerne i M 2 i Eksempel 4.9. Figur 4.28 viser fraktildiagrammet for residualerne i M 2 og figuren giver ikke anledning til at betvivle normalfordelingsantagelsen i modellen. Ved hjælp af udskriften fra Excel på side og formel (4.73) finder vi følgende 95% konfidensinterval for variansen σ 2 : [ , ] = [ , ] Konfidensintervallet for middelværdien α i + β j i den (i, j) te celle er givet i formel (4.72). For, for eksempel, at beregne intervallet for person nr. 10 (i = 6) på den 12 te dag (j = 7) finder vi

250 Tosidet variansanalyse først ved hjælp af tabellenresume på side 4.128, at α 6 + β 7 x 6 + x 7 x = = , idet summen af de 42 observationer er Da t (30) = 2.042, bliver 95% konfidensintervallet for α 6 + β 7 [ , ] = [2.327,2.484]. Ved hjælp af (4.74) findes 95% konfidensintervallet for kontrasten α 5 α 6 (for person nr. 9 og person nr. 10), idet til [ α 5 α 6 x 5 x 6 = , = , ] = [ 0.068,0.088]. Der er altså ikke forskel på indholdet af calcium i blodprøverne for disse to personer. 95% konfidensintervallet for kontrasten β 2 β 7 (for dag 0 og dag 12) bliver ved hjælp af formel (4.75), idet [ β 2 β 7 x 2 x 7 = = , , ] = [0.306,0.474]. Vi ser, at 0 ikke tilhører 95% konfidensintervallet for β 2 β 7. Ved et t-test på 5% niveau forkaster vi altså hypotesen β 2 β 7 = 0, eller β 2 = β 7. Der er altså signifikant forskel på indeholdet af calcium i blodprøverne fra dag 0, lige efter løbet, og indholdet af calcuim i blodprøverne på dag 12 efter løbet. Fysiologerne mener, at denne forskel skyldes væsketabet under løbet.

251 4.131 Eksempel! 4.10 (Fortsat) Udskriften fra Excel s dialogboks Anava: To-faktor med gentagelser bliver i dette eksempel /.! #, '()*+) !. 01+)( /789:8;:<=>?:@AB /.! #.MN - CD EF GD H IJKL9A: - H?9:; O !. "#$% & - /.! #, #,! & &. & I tabellen RESUME er angivet antal observationer, sum af observationer samt empirisk middelværdi og varians for observationsrækkerne bestående af henholdsvis observationer indenfor de enkelte celler, observationer indenfor de enkelte rækker og observationer indenfor de enkelte søjler. Variansanalysetabellen findes under overskriftenanava. I rækkenindenfor ses at SAK 01 = , f 01 =48 og s 2 01 = , hvilket også fremgår at beregningsskemaet side RækkenInteraktion indeholder størrelserne SAK 2 = , f 2 =2 og s 2 2 = samt F-teststørrelsen for hypotesen om additivitet H 02 : µ i j = α i + β j F(x) = s2 2 s 2 =

252 Tosidet variansanalyse og den tilsvarende testsandsynlighed ε(x) = 1 F F(2,48) (F(x)) = Det vil sige, at hypotensen H 02 om additivitet accepteres. Modellen M 1 reduceres derfor til I M 2 er varians estimatet M 2 : X i jk N(α i + β j,σ 2 ). s 2 02 = SAK 02 = = , f idet og SAK 02 = SAK 01 + SAK 2 = = f 02 = f 01 + f 2 =48+2 = 50. Da der ikke er nogen særlig grund til at der er forskel på resultaterne de forskellige år (søjler), tester vi først hypotesen om ingen søjlevirkning H 0S. I linjenkolonner ses, at SAK S = , f S =2 og s 2 S = Af (4.68) ses, at F-teststørrelsen for H 0S er F S (x) = s2 S s 2 = = F(2,50) Da ε(x) = 1 F F(2,50) (F S (x)) = (eller blot F S (x) < F 0.95 (2,50) = 3.18) accepteres H 0S, det vil sige der er ikke forskel på resultaterne i de tre år. Modellen M 2 reduceres til M 3 : X i jk N(α i,σ 2 ). Da og SAK 03 = SAK 02 + SAK S = = f 03 = f 02 + f S = 50+2 = 52, bliver estimatet for variansen i M 3 s 2 03 = SAK 03 f 03 =

253 4.133 Vi tester til sidst hypotesen H 0R om ingen rækkevirkning - her ingen forskel på længden af drengenes og pigernes kuglestød - i M 3. I linjenstikprøve ses, at SAK R = , f R =1, s 2 R = , så F-teststørrelsen for test af H 0R i M 3 i formel (4.69) bliver Da F R (x) = s2 R s 2 = = F(1,52) ε(x) = 1 F F(1,52) ( F R (x)) = (eller blot F R (x) > F 0.95 (1,50) = 4.03 (da F 0.95 (1,52) ikke findes i Statistical Tables)) forkastes H 0R. Der er altså forskel på længden af drengenes og pigernes kuglestød. Slutmodellen for disse data er dermed M 3 : X i jk N(α i,σ 2 ), i = 1,2, j = 1,2,3,k = 1,...,9, det vil sige to normalfordelte observationsrækker hver med 27 observationer. Af tabellen RESUME ses, at og af det ovenstående fås α 1 x 1 =10.86 N(α 1, σ 2 27 ), α 2 x 2 =8.72 N(α 2, σ 2 27 ), σ 2 s 2 03 = σ 2 χ 2 (52)/52. Relation til andre modeller Antag, at s = 2 og t = 1, det vil sige at vi betragter en tosidet variansanalyse uden gentagelser og med kun to søjler. Det kan da vises, at F-testet i (4.68) for hypotesen H 0S om ingen søjlevirkning er ækvivalent med det parrede t-test i Afsnit 4.4.4, idet F S (x) = (t(d)) 2. På grund af formel (3.36) er de to testsandsynligheder ε(x) = 1 F F(1,r 1) (F S (x))

254 Tosidet variansanalyse og ε(d) = 2(1 P(t(r 1) t(d) )) identiske. Eksempel 4.11 Hvis vi betragter data for samtlige 11 personer før løbet (dag -1) og efter løbet (dag 0) i tabellen side bliver teststørrelsen for hypotesen H 0S om ingen søjlevirkning i additivitetsmodellen M 2 F S (x) = F(1,10) mens teststørrelsen for det parrede t-test er t(d) = I begge tilfælde er testsandsynligheden , hvilket betyder, at vi har konstateret en signifikant forskel på indholdet af calcium i deltagernes blodprøver før og efter løbet. Af tallene ses, at indholdet er størst efter løbet, hvilket - som nævnt ovenfor - ifølge fysiologerne skyldes væsketab under løbet.

255 4.135 Anneks til Afsnit 4.7 Beregninger i Excel Excel har to dialogbokse der udfører beregninger i en tosidet variansanalyse, nemlig Anava: To-faktor uden gentagelse Anava: To-faktor med gentagelse Vi viser her hvorledes beregningerne udføres. Udskrifterene fra de to dialogbokse er kommenteret i teksten ovenfor. Eksempel 4.9 (Fortsat) Antag, at indholdet af cellerne A1:H9 i regnearket er: Ruten Funktioner Dataanalyse Anava:To-faktor uden gentagelse giver en dialogboks, hvor cellerne B4:H9 angives i Inputområde. Bemærk, at kun celler, der indeholder tal, angives. Et klik påok bevirker en udskrift på et nyt regneark. Udskriften er her vist på side

256 4.136 Beregninger i Excel Eksempel 4.10 (Fortsat) Antag, at indholdet af cellerne A1:D21 i regnearket er: Ruten Funktioner Dataanalyse Anava:To-faktor med gentagelse giver en dialogboks, hvor cellernea3:d21 angives iinputområde. Bemærk, at ikke kun celler, der indeholder tal, angives. Cellerne, der indeholder navne på rækker og søjler, angives også. Desuden angives i Rækker pr. stikprøve tallet 9. Et klik på OK bevirker en udskrift på et nyt regneark. Udskriften er her vist på side (Linjerne i regnearket er strengt taget ikke nødvendige men er medtaget for overskuelighedens skyld.)

257 4.137 Hovedpunkter til Afsnit 4.7 Her resumeres hovedpunkterne vedrørende tosidet variansanalyse. Data er organiseret i et tosidet skema med r rækker og s søjler. I den (i, j) celle er der t observationer. Den k-te observation i den (i, j) celle x i jk antages at være et udfald af en stokastisk variabel X i jk, i = 1,...,r, j = 1,...,s og k = 1,...,t. Idet X-erne antages at være uafhængige betragtes følgende modeller: ր M 0 : X i jk N(µ i j,σ 2 i j ), M 1 : X i jk N(µ i j,σ 2 ), M 3 : X i jk N(α i,σ 2 ) M 2 : X i jk N(α i + β j,σ 2 ) M 4 : X i jk N(µ,σ 2 ) ց M 3 : X i jk N(β j,σ 2 ) Her er M 0 modellen for rs observationsrækker hver med sin middelværdi og sin varians. Modellerne M 1, M 3 og M3 er alle eksempler på modellen med flere observationsrækker hver med sin middelværdi men med fælles varians, omtalt i Afsnit 4.5. I M 1 er der rs observationsrækker (cellerne) hver med t observationer, i M 3 er der r observationsrækker (rækkerne) hver med st observationer og i M3 er der s observationsrækker (søjlerne) hver med rt observationer. M 4 er modellen for én observationsrække med n = rst observationer med ukendt middelværdi og varians, omtalt i Afsnit 4.3. Estimation, herunder konfidensintervaller, i disse modeller er kendt fra Afsnit 4.3 og Afsnit 4.5 og resumeres derfor ikke her. De centrale hypoteser er hypotesen om ingen rækkevirkning ց ր og hypotesen om ingen søjlevirkning H 0R : α 1 = = α r H 0S : β 1 = = β s H 0R kan testes i M 2 og i M 3. Testene i de to modeller er forskellige og accept af hypotesen medfører henholdsvis modelreduktionen M 2 M3 og M 3 M 4. Tilsvarende kan H 0S kan testes i M 2 og i M3 og igen er testene, svarende til henholdsvis reduktionen M 2 M 3 og M3 M 4, forskellige.

258 4.138 Hovedpunkter til Afsnit 4.7 Modelkontrol Hvis antallet af observationer t i hver celle er tilpas stort kan M 0 kontrolleres ved hjælp af rs fraktilsammenligninger. Hvis t 3 kan hypotesen om varianshomogenitet, svarende til reduktionen M 0 M 1, vurderes ved hjælp af et Bartlett test, omtalt i Afsnit 4.5. Hvis vi har gentagelser, t 2, kan hypotesen om additivitet H 02 : µ i j = α i + β j testet ved hjælp af teststørrelsen hvor og s 2 2 = SAK 2 f 2 = F(x) = s2 2 s 2 F( f 2, f 01 ), 01 t r i=1 s 2 01 = SAK 01 f 01 = s ( x i j x i x j + x ) 2 j=1, (r 1)(s 1) r i=1 s j=1 t k=1 (x i jk x i j ) 2 rs(t 1) Store værdier af F(x) er kritiske og testsandsynligheden for H 02 er ε(x) = 1 F F( f2, f 01 )(F(x)), hvor F F( f2, f 01 ) er fordelingsfunktionen for F-fordelingen med ( f 2, f 01 ) frihedsgrader. Ved test på 5% niveau forkastes H 02, hvis F(x) > F 0.95 ( f 2, f 01 ). Testet beregnes ved hjælp af Excel s dialogboksanava: To-faktor med gentagelse. Modellen M 2 kan endvidere kontrolles ved hjælp af profildiagrammer, omtalt på side Hvis vi ikke har gentagelser, t = 1, er profildiagrammer den eneste måde at vurdere rimeligheden af M 2 på.. Estimation i M 2 Vi har følgende estimater for EX i jk = α i + β j og variansen σ 2 i M 2 : α i + β j x i + x j x N(α i + β j, r+ s 1 σ 2 ), rst s 2 02 = 1 f 02 SAK 02 = 1 f 02 r i=1 s j=1 t k=1 (x i jk x i x j + x ) 2 σ 2 χ 2 ( f 02 )/ f 02. hvor f 02 = rst (r+ s 1). Endvidere estimeres kontrasterne således: α g α h x g x h N(α g α h, 2 st σ 2 ),

259 4.139 β l β m x l x m N(β l β m, 2 rt σ 2 ). Konfidensintervaller i M 2 Med f 02 = rst (r+ s 1) har vi følgende (1 α) konfidensintervaller: middelværdien α i + β j i den (i, j) te celle: [ x i + x j x t 1 α/2 ( f 02 ) s 2 r+ s 1 02, x i + x j x +t rst 1 α/2 ( f 02 ) variansen σ 2 : kontrasten α g α h : kontrasten β l β m [ x g x h t 1 α/2 ( f 02 ) [ x l x m t 1 α/2 ( f 02 ) s 2 02 s 2 02 [ χ1 α/2 2 ( f, 02)/ f 02 χα/2 2 ( f ] 02)/ f 02 s 2 02 s st, x g x h +t 1 α/2 ( f 02 ) 2 rt, x l x m +t 1 α/2 ( f 02 ) s 2 02 s 2 02 s st ] 2 rt ]. r+ s 1 ] rst Test i M 2 Test af H 0R i M 2 Teststørrelse: hvor og s 2 02 = SAK 02 f 02 = F R (x) = s2 R s 2 F( f R, f 02 ), 02 s 2 R = SAK R f R = r i=1 s j=1 st t k=1 r i=1 ( x i x ) 2 r 1 (x i jk x i x j + x ) 2 rst (r+ s 1) SAK R og SAK 02 fremgår af udskriften fra Excel, idet dog SAK 02 beregnes som SAK 02 = SAK 01 + SAK 2 hvis t 2. Testsandsynlighed for H 0R : ε(x) = 1 F F(r 1, f02 )(F R (x)), hvor F F(r 1, f02 ) er fordelingsfunktionen for F-fordelingen med (r 1, f 02 ) frihedsgrader..

260 4.140 Hovedpunkter til Afsnit 4.7 Ved test på 5% niveau forkastes H 0R, hvis F R (x) > F 0.95 (r 1, f 02 ). Accept af H 0R medfører modelreduktionen M 2 M3. Test af H 0S i M 2 Teststørrelse hvor og s 2 02 = SAK 02 f 02 = F S (x) = s2 S s 2 F( f S, f 02 ), 02 s s 2 S = SAK rt ( x j x ) 2 S j=1 = f S s 1 r i=1 s j=1 t k=1 (x i jk x i x j + x ) 2 rst (r+ s 1) SAK S og SAK 02 fremgår af udskriften fra Excel, idet dog SAK 02 beregnes som SAK 02 = SAK 01 + SAK 2 hvis t 2. Testsandsynligheden for H 0S ε(x) = 1 F F(s 1, f02 )(F S (x)), hvor F F(s 1, f02 ) er fordelingsfunktionen for F-fordelingen med (s 1, f 02 ) frihedsgrader. Ved test på 5% niveau forkastes H 0S, hvis F S (x) > F 0.95 (s 1, f 02 ). Accept af H 0S medfører modelreduktionen M 2 M 3.. Test i M 3 Test af H 0R i M 3 Teststørrelse hvor F R (x) = s2 R s 2 F( f R, f 03 ), 03 s 2 R = SAK R f R = st r i=1 ( x i x ) 2 r 1

261 4.141 og s 2 03 = SAK 03 f 03 = r i=1 s j=1 t k=1 (x i jk x i ) 2 r(st 1) SAK R fremgår af udskriften fra Excel, mens SAK 03 beregnes som SAK 03 = SAK 02 + SAK S. Testsandsynlighed: ε(x) = 1 F F(r 1, f03 )( F R (x)), Ved test på niveau 5% forkastes, hvis F R (x) > F 0.95 (r 1, f 03 ). Accept af H 0R medfører modelreduktionen M 3 M 4. Test i M 3 Test af H 0S i M 3 Teststørrelse hvor og F S (x) = s2 S s 2 F( f S, f03 ), 03 s s 2 S = SAK rt ( x j x ) 2 S j=1 = f S s 1 s 2 03 = SAK 03 f03 = r i=1 s j=1 t k=1 (x i jk x j ) 2 s(rt 1) SAK S fremgår af udskriften fra Excel, mens SAK03 beregnes som SAK 03 = SAK 02 + SAK R. Testsandsynlighed: ε(x) = 1 F F(s 1, f 03 )( F S (x)), Ved test på niveau 5% forkastes, hvis F S (x) > F 0.95 (s 1, f03 ). Accept af H 0S medfører modelreduktionen M 3 M 4.

262 4.142 Opgaver Opgaver til Kapitel 4 Opgave 4.1 Betragt igen tallene i Opgave 3.2. a) Gør rede for at data kan betragtes som en normalfordelt observationsrække. b) Angiv estimaterne for middelværdi og varians og angiv estimaternes fordeling (n = 17, S = 53.31, SK = ). c) Beregn 95% konfidensintervallet for middelværdien, variansen og spredningen. Opgave 4.2 Betragt konditallene i Opgave 1.3. Observationen med værdien er oplagt urimelig og skyldes måske en skrivefejl. Her erstatter vi den med en observation med værdien (Efter denne korrektion er n = 24, S = og SK = ) a) Gør rede for, at konditallene kan antages at være normalfordelte. Antag først, at variansen σ 2 er kendt og lig med 5, det vil sige σ0 2 = 5. b) Test hypotesen om middelværdien µ kan antages at være 71.5, det vil sige hypotesen H 0 : µ = c) Angiv 95% konfidensintervallet for middelværdien µ. Antag nu, at både middelværdien µ og variansen σ 2 er ukendte. d) Test hypotesen H 0µ : µ = e) Angiv 95% konfidensintervallet for middelværdien µ. f) Test hypotesen H 0σ 2 : σ 2 = 5. h) Angiv 95% konfidensintervallet for variansen σ 2 og spredningen σ. Opgave 4.3 Betragt konditallene i Opgave 1.4. a) Gør rede for, at konditallene kan antages at være normalfordelte. b) Angiv 95% konfidensintervallet for middelværdien, variansen og spredningen (n = 17, S = , SK = ).

263 4.143 Opgave 4.4 Betragt vægtene i Opgave 1.5. a) Gør rede for, at vægtene kan antages at være normalfordelte. b) Angiv 95% konfidensintervallet for middelværdien, variansen og spredningen (n = 30, S = , SK = ). Opgave 4.5 Betragt højdefordelingen for pigerne i Opgave a) Gør rede for, at højderne for pigerne i 1983 og højden for pigerne i 1985 kan antages at være normalfordelte. (Lav fraktildiagrammerne for de to år i samme figur.) b) Angiv for hvert af de to år 95% konfidensintervallet for middelværdien, variansen og spredningen. (Benyt de beregnede størrelser for højderne i tabellen nedenfor) år n S SK Opgave 4.6 I afsnittet her har vi i forbindelse med t-testet for hypotesen H 0µ : µ = µ 0 betragtet et dobbeltsidet test, det vil sige beregnet testsandsynligheden for t-testet som ε(x) = P(t(n 1) t(x) ), hvor t(x) = x µ 0 s 2 /n. Hvis man af en faglig grund kun er interesseret i at afsløre afvigelser fra H 0µ i én bestemt retning for eksempel µ > µ 0 betragtes ofte et ensidet test for hypotesen, det vil sige, at testsandsynligheden beregnes som ε(x) = P(t(n 1) t(x)). Det kunne for eksempel være tilfældet i følgende situation: Som bekendt er promillegrænsen for spirituskørsel 0.5 promille. Antag, at der foretages fire uafhængige målinger er promillen, nemlig 0.58, 0.57, 0.57 og 0.49, som antages at være normalfordelte. Test hypotesen H 0µ : µ = 0.5 ved såvel et ensidet som et dobbeltsidet test (n = 4, S = 2.21, SK = ) og diskuter resultaterne.

264 4.144 Opgaver Opgave 4.7 Betragt de fire vægtfordelinger i Opgave 1.9. De følgende summer og kvadratsummer er beregnet ved hjælp af intervalmidtpunkterne: vægt n S SK drenge piger drenge piger Fraktildiagrammer alslører, at det kan antages, at de fire observationsrækker er normalfordelte. (Det er ikke nødvendigt at foretage denne kontrol.) Vi betragter først drengene. a) Vis, at det antages, variansen på vægtmålingerne er densamme i 1983 og b) Vis, at det kan antages, at middelværdien er den samme for de to vægtfordelinger og angiv et 95% konfidensinterval for forskellen i middelværdien for fordelingen i 1983 og fordelingen i Nu til pigerne. c) Vis, at det antages, variansen på vægtmålingerne er densamme i 1983 og d) Vis at det ikke kan antages, at middelværdien er den samme for de to vægtfordelinger og angiv et 95% konfidensinterval for forskellen i middelværdien for fordelingen i 1983 og fordelingen i Opgave 4.8 Betragt de fire højdefordelinger i Opgave De følgende summer og kvadratsummer er beregnet ved hjælp af intervalmidtpunkterne: højde n S SK drenge piger drenge piger Fraktildiagrammer alslører, at det kan antages, at de fire observationsrækker er normalfordelte. (Det er ikke nødvendigt at foretage denne kontrol.) a) Vis, for såvel drenge som piger, at de to observationsrækker for årene 1983 og 1985 kan beskrives ved hjælp af én fordeling.

265 4.145 Slå nu de to observationsrækker for drengene sammen til én observationsrække og tilsvarende for pigerne. b) Vis, at det ikke kan antages at observationsrækken for drengene har samme varians som observationsrækken for pigerne. c) Beregn et 95% konfidensområde for forskellen mellem middelværdien af højden for drengene og middelværdien af højden for pigerne og påvis ved hjælp af dette den ikke overraskende kendsgerning, at drengene er signifikant højere end pigerne. Opgave 4.9 Betragt tallene i Opgave Er der signifikant forskel på glycogen indholdet i benmusklerne før og efter træningsperioden på 3 uger? Opgave 4.10 Betragt tallene i Eksempel 1.5. Er der signifikant forskel på indholdet af glycogen i venstre og højre ben? Opgave 4.11 Et helsecenter tilbyder et fitness program og lover et gennemsnitligt vægttab på 6.5 kg de første 30 dage. For at undersøge om centret lever op til dette løfte, blev programmet afprøvet på 12 personer. Resultatet ses i Tabel 4.4. person før efter differens i f i e i d i = f i e i Tabel 4.4 Vægten (i kg) før og efter hos 12 personer, der deltog i et fitness program. Desuden er differensen mellem vægtene angivet.

266 4.146 Opgaver a) Undersøg, om vægttabet er normalfordelt. b) Undersøg, om middelværdien af vægttabet er 6.5 kg. c) Angiv estimat og 95%-konfidensinterval for middelværdien og variansen af vægttabet. Standardberegninger for vægttabene. Antal S SK Opgave 4.12 Ved atletikstævnerne for de 1. årsstuderende ved Institut for Idræt, Københavns Universitet, blev resultaterne i pigernes kuglestød i årene : Beregnede størrelser år n S SK a) Vis, at det kan antages, at de tre observationsrækker for pigerne har samme varians. b) Undersøg, om det kan antages, at de tre observationsrækker for pigerne har samme middelværdi.

267 Resultaterne for drengene blev: Beregnede størrelser år n S SK c) Vis, at det kan antages, at de tre observationsrækker for drengene har samme varians. d) Undersøg, om det kan antages, at de tre observationsrækker for drengene har samme middelværdi. Opgave 4.13 Ved atletikstævnerne for de 1. årsstuderende ved Institut for Idræt, Københavns Universitet, blev resultaterne i pigernes $%$! $%!!!" 100 m løb $%'$ &%$$!!! # i årene $%! &%" : $%' $%'" &%( &%&( $%( &%)( $%!( $%!) $%!" $%)# $%'( (%! $%) &% $%# $%!) &%&) $%& $%! &%! &%

268 4.148 Opgaver Beregnede størrelser år n S SK a) Vis, at det kan antages, at de tre observationsrækker for pigerne har samme varians. blev: b) Undersøg, om det kan antages, at de tre observationsrækker for pigerne har samme middelværdi. Resultaterne for drengene Beregnede størrelser år n S SK c) Vis, at det ikke kan antages, at de tre observationsrækker for drengene har samme varians og overvej, hvorfor dette er tilfældet.

269 4.149 Opgave 4.14 (Andersen 1998) Tallene i tabellen nedenfor viser verdensrekorderne på en engelsk mile fra 1911 til Materialet stammer oprindeligt fra 1975, så frem til 1993 er blot den sidste rekord medtaget. Tiderne er rekordtiderne i sekunder fratrukket 180 sekunder. Ved angivelsen er året er der fratrukket år rekord år rekord a) Gør rede for at data kan beskrives ved en lineær regression rekord som afhængig variabel og år som uafhængig variabel b) Beregn estimater for parametrene i regressionmodellen, idet følgende beregnede størrelser kan benyttes x(rekord) t(år) n 25 S SK SP c) Angiv 95% konfidensinterval for parametrene i regressionsmodellen. Data til Opgave 4.15 og Opgave 4.16 nedenfor stammer fra samme undersøgelse, hvis formål og resultater var: Efter fødslen falder hæmoglobinindholdet i blodet hos for tidligt fødte børn ofte voldsomt. Tidligere fik disse børn derfor blodtransfusioner. For at undersøge om indsprøjtning af erythro-

270 4.150 Opgaver poietin (det fra professionel cykelsport kendte dopingmiddel epo ) kunne erstatte blodtransfusioner, udførtes to forsø g, hvor for tidligt fødte børn blev behandlet med erythropoietin. I det første deltog 29 børn, hvoraf 14 (gruppe 3) fik en erythropoietin-dosis på 100 U pr. kg legemsvægt (her er U en enhed for det anvendte præparat), mens de resterende 15 var en kontrolgruppe (gruppe 0), der ikke fik nogen behandling. I det andet deltog 31 børn, hvoraf 16 (gruppe 2) fik en erythropoietin-dosis på 100 U pr. kg legemsvægt og 15 (gruppe 1) fik en erythropoietin-dosis på 50 U pr. kg legemsvægt. Børnenes hæmoglobinprocent blev blandt andet må lt 3 og 6 uger efter fødslen. Tabel 4.5 viser æ ndringen i hæmoglobinprocenten fra uge 3 til uge 6 for de fire grupper. Epo-gruppe Ændring i hæ moglobinprocent n 0 (0 U/kg) (50 U/kg) (100 U/kg) (100 U/kg) Tabel 4.5 Ændring i hæmoglobinprocenten fra uge 3 til uge 6 for 60 præmature børn. I det følgende antages, at ændringen i hæmoglobinprocenten i hver af de 4 grupper er en normalfordelt observationsrække. Opgave 4.15 I denne opgave betragter vi kun grupperne 2 og 3, der begge har få et en epo-dosis på 100 U/kg. a) Vis, at det kan antages, at variansen på ændringen i hæmoglobinprocenten er den samme i de to grupper. b) Vis, at det kan antages, at gruppe 2 og 3 har samme ændring i hæmoglobinprocent. c) Estimer den fælles middelværdi og den fælles varians for ændringen i hæmoglobinprocent i gruppe 2 og 3.

271 4.151 Ved besvarelsen kan følgende beregnede størrelser benyttes: n S SK gruppe gruppe Σ Opgave 4.16 Opgave 4.15 viste, at grupperne 2 og 3 kunne slås sammen til en gruppe. I denne opgave betragter vi derfor 3 observationsrækker svarende til forskellige værdier af epo-dosen: 0 (gruppe 0), 50 (gruppe 1) og 100 (gruppe 2 og 3). For disse data ser beregningsskemaet side 4.33 således ud Beregningsskema: i ni Si SKi Si2/ni SAKi fi Var Mean ===================== a) Gør rede for, at det kan antages, at de 3 observationsrækker svarende til de tre værdier af epo-dosen har samme varians. Figur 4.29 viser ændringen i hæmoglobinprocenten (dif) tegnet op mod epo-dosen (dosis). b) Kommenter Figur 4.29 med henblik på en lineær regressionsmodel med ændringen i hæmoglobinprocenten som responsvariabel og epo-dosen som forklarende variabel. c) Estimer parametrene i regressionsmodellen. Ved beregningerne kan følgende størrelser benyttes ændring i hæmoglobinprocent epo-dosis n 60 S SK SP d) Vis, at det kan antages, at middelværdien af ændringen i hæmoglobinprocent afhænger lineært af epo-dosis.

272 4.152 Opgaver Figur 4.29 Ændringen i hæmoglobinprocenten tegnet op mod epo-dosen. e) Vis, at materialet giver grundlag for at antage, at epo-behandling har en virkning på hæmoglobinprocenten. Opgave 4.17 Vis, at data i Opgave 1.14, som vi også har regnet på i Opgave 4.9, kan betragtes som én observationsrække fra den todimensionale normalfordeling og test hypotesen om uafhængighed af glycogen indholdet før og efter træningsperioden på 3 uger. Opgave 4.18 Vis, at data i Eksempel 1.5, som vi også har betragtet i Opgave 4.10, kan opfattes som én observationsrække fra den todimensionale normalfordeling og test hypotesen om uafhængighed af glycogen indholdet i venstre og højre ben. Opgave 4.19 Det eneste kvinde blandt personerne i tabellen på side er person nr. 1. Lav en tosidet variansanalyse for de fem mænd, der fik foretaget blodprøver på samtlige syv tidpunkter. Er der forskel på indholdet af calcium i blodprøverne hos disse mænd? Opgave 4.20 Som det ses af tabellen på side har samtlige 11 personer fået foretaget blodprøver på de tre første tidspunkter. a) Hvad kan der siges indholdet af calcium i blodprøverne hvis betragter alle personer med kun tre tidspunkter?

273 4.153 b) Hvad er konklusionen, hvis vi som i Opgave 4.19 udelader målingerne for den eneste kvinde, person nr.1? Opgave 4.21 Data nedenfor stammer fra langdistanceløbene ved olympiaden i Sydney år Data består af tiden per 100 m for de syv bedst placerede i finalerne på 1500 m, m og marathon for mænd og kvinder. Det kan ved hjælp af fraktildiagrammer vises, at det kan antages, at de seks observationsrækker er normalfordelte. a) Vis, at det kan antages, at den seks observationsrækker har samme varians. (De tilsvarende tal for mændenes 5000 m har en meget mindre varians på grund af et meget tæt opløb, hvilket er grunden til at distancen ikke betragtes her.) b) Vis, at data kan beskrives ved additivitesmodellen i en tosidet variansanalyse. c) Vis, at der er forskel på tiderne per 100 m for såvel de tre distancer som for mænd og kvinder. d) Angiv et 95% konfidensinterval for forskellen mellem mænd og kvinder. Opgave 4.22 Kontroller ved hjælp af Excel beregningerne i Eksempel 4.11.

274 4.154 Opgaver

275 Indeks I.1 Indeks A acceptområde additivitetsmodellen tosidet variansanalyse afhængig variabel lineær regression afskæring lineær regression B Bartlett test 2lnQ for identitet af k > 2 varianser hovedpunkter konstanten C testsandsynlighed Bayes formel beregninger s x beregninger i Excel , 4.10, 4.19, 4.28, 4.50, 4.70, 4.135, 6.28, 7.29, 8.15 beta funktion betinget fordeling betinget sandsynlighed binomialfordeling beregning af punktsandsynligheder definition Excel middelværdi og varians binomialrækken A.3 C χ 2 -fordeling definition Excel fordelingsresultater middelværdi og varians tabel D data flerdimensionale grafisk repræsentation grupperede grupperede, ugrupperet version gruppering idræt , 5.2 kvalitative kvantitative sæt , 5.2 tabelform tabellering todimensionale ugrupperede delmængde A.1 område sammenhængende åben

276 I.2 Indeks diagram blok fraktil kasse lagkage pinde prik probit profil søjle , 1.23 disjunkte mængder A.2 parvis A.2 diskret stokastisk variabel diskret stokastisk vektor , 5.2 dobbeltintegral A.5 E Eksempel , 1.5, 4.7, 4.26, 6.26 højde af piger Eksempel , 4.3, 4.5, 4.10, 4.27 kondital for eliteidrætsudøvere Eksempel , 1.24, 1.26 Excel resultatet af Faxe Kondi Ligaen Eksempel , 1.16, 1.31, 1.35 hypotetiske kondital Eksempel glycogen indhold i muskler Eksempel uniforme sandsynlighedsmål på endelig mængde Eksempel , 2.19 to kampe på tipskuponen Eksempel uniforme sandsynlighedsmål på interval Eksempel superligaholds chancer på hjemmeog udebane Eksempel superligaholds hjemmekampe Eksempel uniform fordeling Eksempel , 2.29 to kampe på tipskuponen, point fordeling 2.14 Eksempel antal hjemmekampe inden første sejr Eksempel , 2.30 tæthedsfunktion for uniform fordeling Eksempel , 2.22, 2.24, 2.29 to kampe på tipskuponen Eksempel , 2.23, 2.24 uniform fordeling på delmængde af R Eksempel , 2.25, 2.31 uniform fordeling på trekant Eksempel sandsynlighedsfunktion for binomialfordeling Eksempel sandsynlighedsfunktion for poissonfordeling Eksempel sandsynlighedsfunktion for hypergeometrisk fordeling Eksempel sandsynlighedsfunktion for negativ binomialfordeling Eksempel , 4.19, 4.21, 5.4, 5.10, 5.13, 5.16, 5.21 bestemmelse af laktatkoncentration Eksempel , 4.35, 4.38 Excel kondital for ikke-aktive og aktive Eksempel Excel tider i semifinalerne i kvindernes 100 m løb 4.42 Eksempel

277 Indeks I.3 Excel muskelglucogen før og efter træning Eksempel , 4.62, 4.67 Excel længdespring Eksempel , 4.82, 4.93 Excel lineær regression af puls på tid Eksempel , 4.93 Excel finaletider i kvindernes 200 m, 400 m og 800 m løb Eksempel puls og iltoptagelse Eksempel , 4.117, Excel tosidet variansanalyse uden gentagelser Eksempel , 4.117, Excel tosidet variansanalyse med gentagelser Eksempel tosidet variansanalyse og det parrede t-test Eksempel multinomialfordelte data Eksempel , 6.10 AB s kampe på hjemmeog udebane Excel Eksempel , 6.13 Excel idrætaktivitet og rygning Eksempel Excel opdeling af resultater i Faxe Kondi Ligaen 6.4 Eksempel , 6.22 undersøgelse af sammenhæng mellem kræft og magnetfelter Eksempel test for goodness of fit Eksempel , 7.8, 7.11, 7.17 antal mål i Faxe Kondi Ligaen Excel Eksempel , 7.15 de nordiske landes medaljehøst ved OL i Sydney Excel Eksempel , 7.26 Excel medaljefordeling ved OL i Sydney Eksempel , 8.3, 8.6 Excel kondital før og efter træning Eksempel , 8.10, 8.14 kondital for ikke-aktive og aktive Eksempel , 8.13 længdespring eksperiment datasæt , 5.2 eksponentialfordeling definition Excel middelværdi og varians eksponentialrækken A.4 empirisk fordelingsfunktion empirisk korrelationskoefficient empirisk middelværdi empirisk spredning empirisk varians én observationsrække Poissonfordelingen tabelform endelig række A.3 eksempler A.3 estimat interval maksimum likelihood notation

278 I.4 Indeks estimation én observationsrække, Poissonfordelingen 7.7 lineær regression maksimum likelihood middelværdien i én observationsrække multiplikativ Poissonmodel proportionale parametre i Poissonmodel teori todimensional normalfordeling tosidet variansanalyse variansen i én observationsrække estimator maksimum likelihood , 5.9 Excel analoge formler Beskrivende statistik binomialfordeling χ 2 -fordeling Diagram (procent) stablet søjlediagram Grupperet søjle , 1.39 Punktdiagram dialogboksen Anava: Enkelt faktor To-faktor med gentagelse To-faktor uden gentagelse dialogboksen F-test: Dobbelt stikprøve for ens varians dialogboksen Regression dialogboksen t-test: Parvis dobbelt stikprøve for middelværdi To stikprøver med ens varians To stikprøver med forskellig varians eksponentialfordelingen F-fordeling fraktildiagram funktionen BINOMIALFORDELING funktionen CHIFORDELING funktionen CHIINV , 6.30 funktionen CHITEST , 6.30 funktionen EKSPFORDELING funktionen FAST funktionen FFORDELING funktionen FINV funktionen FRAKTIL funktionen HYPGEOFORDELING funktionen KOMBIN funktionen NEGBINOMFORDELING funktionen NORMFORDELING funktionen NORMINV funktionen PLADS funktionen POISSON funktionen POTENS funktionen SLUMP funktionen SUMPRODUKT funktionen TFORDELING funktionen TINV Histogram hypergeometrisk fordeling negativ binomialfordeling normalfordeling numeriske variable Poissonfordeling t-fordeling t-test for kendt middelværdi tekst variable test for kendt varians u-test F F-fordeling definition

279 Indeks I.5 Excel fordelingsresultater tabel F-test for identitet af to varianser , 4.55 t 2 = F faglig problem sammenhæng , 5.2, 5.4 fejl type I type II fempunktsopsummeringen f (i) k observationsrækker Fishers dispersionsindeks eksempel Fishers eksakte test eksempel i 2 2 tableller i r s tabeller fordeling approksimativ, likelihood ratio testoren diskret funktion klasse af kontinuert fordelingsfunktion egenskaber ved empirisk stokastisk variabel stokastisk vektor foreningsmængde A.2 endelig A.2 tællelig A.2 forkastelsesområde forklarende variabel lineær regression forsøgsplanlægning fraktildiagram Excel grupperede data simuleret B.1 ugrupperede data vurdering af frie parametre funktion fordeling likelihood log likelihood log likelihood, normeret model , 5.7 styrke tæthed fællesmængde A.2 endelig A.2 tællelig A.2 følge af modeller notation G gamma fordeling gamma funktion goodness of fit 2lnQ-testet lnQ-testet, testsandsynlighed eksempel , 7.9 Poissonmodel test X 2 -testet X 2 -testet, testsandsynlighed grafisk undersøgelse , 5.4 grupperede data empiriske størrelser ugrupperet version af

280 I.6 Indeks græsk alfabet D.1 H histogram homogenitet tosidet variansanalyse homogenitet af flere multinomialfordelinger lnQ-testet, testsandsynlighed beregningsformel for 2 ln Q-testet eksempel fordelingsresultat maksimum likelihood estimat hovedpunkter én observationsrække med kendt varians én observationsrække med ukendt varians 4.30 ikke-parametriske test k observationsrækker lineær regression multinomialmodel Poissonfordelte data to observationsrækker tosidet variansanalyse hypergeometrisk fordeling beregning af punktsandsynligheder definition Excel middelværdi og varians hypotese kritisk observation multinomialmodel punkt sammensat simpel test af hyppighed relativ hældning lineær regression hændelser hændelsessystem , 5.2 højreskæv I inferens likelihood statistisk information Fisher forventet observeret intervalestimat K k observationsrækker estimation notation statistisk model kassediagram kategori numerisk komplementærmængde A.1 konfidens interval område konfidensinterval binomialmodel for afskæringen i lineær regression for forskel mellem to middelværdier; ens varianser for forskel mellem to middelværdier; forskellige varianser for hældningen i lineær regression for middelværdien; kendt varians for middelværdien; ukendt varians for regressionslinjen for spredningen i en normalfordeling for variansen i en normalfordeling

281 Indeks I.7 for variansen i lineær regression multinomialmodel Poissonmodel middelværdien λ baseret på én Poissonfordelt variabel middelværdien λ i én Poissonfordelt observationsrække parameteren i modellen med proportionale parametre kontinuert stokastisk variabel kontinuert stokastisk vektor , 5.2 kontrast korrelation empirisk kovarians regneregler kumulerede antal kvartil afstand, empirisk nedre nedre, empirisk øvre, empirisk øvre kvotientrække endelig A.4 uendelig A.4 L likelihood approksimativ teori estimat, maksimum estimation, maksimum estimator, maksimum funktion inferens ligninger maksimum, estimator ratio test ratio test, approksimativ testsandsynlighed 5.20 ratio testor, approksimativ fordeling lineær regression estimaternes fordeling hypoteser om regressionsparametrene , konfidensintervaller for parametrene med gentagelser modelkontrol test af hypotesen om lineær regression , uden gentagelser log likelihood funktion funktion, normeret logaritmisk række A.4 loven om total sandsynlighed M maksimum likelihood estimat estimation estimator , 5.9 marginal fordeling median empirisk middelværdi af funktion af diskret stokastisk vektor af funktion af kontinuert stokastisk vektor 2.27 af gennemsnit diskret stokastisk variabel empirisk kontinuert stokastisk variabel regneregler middelværdivektor mindste kvadraters metode model funktion , 5.7

282 I.8 Indeks inferens kontrol , 5.4 opstilling , 5.1, 5.2 parametrisk sandsynlighedsteoretisk , 5.2 statistisk multinomialfordeling betingelser for definition egenskaber ved marginale fordelinger middelværdivektor og kovariansmatriks multinomialmodel 2lnQ-testor lnQ-testor, testsandsynlighed X 2 -testoren X 2 -testoren, testsandsynlighed estimation estimation under hypotese flere multinomialfordelinger forventede antal under hypotese frie parametre homogenitet af flere multinomialfordelinger hovedpunkter hypotese hypotese, frie parametre konfidensinterval statistisk inferens test af simpel hypotese, eksempel uafhængighed af inddelingskriterier mængdedifferens A.2 mængdelære , A.1 måle målelig mængde N negativ binomialfordeling beregning af punktsandsynligheder definition Excel middelværdi og varians normalfordeling , 4.1 definition Excel fordelingsresultater middelværdi og varians standard tabeller todimensional normalfordelte data notation følge af modeller numerisk undersøgelse O observation kritisk observationer sammenfaldende observationsrække , 5.9 én; normalfordeling én; Poissonfordelingen én; todimensional normalfordeling område accept kritisk omvendt betinget sandsynlighed opgaver , 2.32, 3.22, 4.142, 5.23, 6.35, 7.39, 8.21 ordnede stikprøve ordnede værdier , 8.4

283 Indeks I.9 P p-fraktil empirisk fordeling p-værdi parameter fri mængde rum parrede t-test partiel differentiation A.5 pindediagram Poisson processen , 7.5 intensitet Poissonfordeling approksimeret med normalfordeling beregning af punktsandsynligheder definition egenskaber ved Excel grænsefordeling for binomialfordeling middelværdi og varians relation til multinomialfordeling ved betingning Poissonmodel én observationsrække, 2 ln Q-test én observationsrække, estimation én observationsrække, Fishers dispersionsindeks én observationsrække, modelkontrol én observationsrække, test for goodness of fit 7.7 én observationsrække, X 2 -test konfidensinterval konfidensinterval for middelværdien λ i Poissonfordeling konfidensinterval for middelværdien λ i Poissonfordelt observationsrække konfidensinterval for parameteren i Poissonmodellen med proportionale parametre multiplikativ multiplikativ, estimation multiplikativ, homogenitet multiplikativ, ingen vekselvirkning multiplikativ, kun rækkevirkning multiplikativ, kun søjlevirkning multiplikativ, parametrisering multiplikativ, relation til multinomialmodel 7.25 multiplikativ, test af hypoteser proportionale parametre proportionale parametre, 2 ln Q-test proportionale parametre, 2 ln Q-test, testsandsynlighed proportionale parametre, estimation proportionale parametre, fordeling af estimator proportionale parametre, relation til multinomial model proportionale parametre, X 2 -test proportionale parametre, X 2 -test, testsandsynlighed position lineær regression prikdiagram probit profildiagram programpakker R rang af observationer , 8.4 rangtest reduktion statistisk model regneregler betinget sandsynlighed middelværdi sandsynligheder

284 I.10 Indeks uendelige rækker A.4 varians og kovarians regressionskoefficient lineær regression regressionslinje lineær regression relativ hyppighed , 6.6, 6.12 residual kvadratsum tosidet variansanalyse respons lineær regression rækkevirkning S S sum af observationer , 7.8 s 2 beregningsformel s 2 (i) k observationsrækker SAK sum af afvigelsernes kvadrater SAK (i) k observationsrækker sammenfaldende observationer sandsynlighed test sandsynlighedsfunktion diskret stokastisk variabel diskret stokastisk variabel, egenskaber ved 2.14 diskret stokastisk vektor marginal fordeling sandsynlighedsmål , 5.2 sandsynlighedsmål sandsynlighedspapir sandsynlighedsrum sandsynlighedsteori , 5.2 SAP sum af afvigelsernes produkter signifikansniveau , 5.14 observeret simultan fordeling SK sum af kvadrater , 7.8 SP sum af produkter spredning empirisk standardafvigelse statistik beskrivende deskriptiv ikke-parametrisk inferens parametrisk model statistikkens slutningsregel statistisk analyse , 5.1, 5.2 approksimativ metode metode stikprøve ordnet størrelse stokastisk variation , 5.2 vektor, multinomialfordelt stokastisk variabel diskret kontinuert stokastisk vektor diskret , 5.2 kontinuert , 5.2 styrkefunktion støtte diskret stokastisk variabel

285 Indeks I.11 diskret stokastisk vektor kontinuert stokastisk variabel stokastisk vektor søjlediagram søjlevirkning T t-fordeling definition Excel fordelingsresultater tabel t-test parrede , t-test for kendt middelværdi Excel tabel χ 2 -fordeling F-fordeling normalfordeling t-fordeling u-fordeling tabelform data Taylor polynomium udvikling teori estimation likelihood, approksimativ test test, generel test af hypoteser om regressionsparametrene , Bartlett dobbeltsidet ensidet F-test for hypotesen om lineær regression , F-test for identitet af middelværdier F-test for identitet af to varianser. 4.37, 4.55 for kendt varians , 4.28 goodness of fit ikke-parametrisk fortegnstest Kruskal-Wallis s for flere observationsrækker Wilcoxons for én observationsrække Wilcoxons for to observationsrækker likelihood ratio , 5.11 p-værdi på niveau α signifikansniveau , 5.14 størrelse styrkefunktion t 2 = F t-test for kendt middelværdi t-test for uafhængighed i N teori , 5.5 teori, generel u-test for kendt middelværdi testor testsandsynlighed approksimativ, likelihood ratio test teststørrelse likelihood ratio tilfældigt tal to observationsrækker skøn over fælles varians test af ens middelværdier; varianser ens , 4.56 test af ens middelværdier; varianser forskellige , 4.57 test af ens varianser

286 I.12 Indeks todimensional normalfordeling definition én observationsrække fra estimation korrelation marginale og betingede fordelinger middelværdivektor og kovariansmatriks modelkontrol test af hypotesen om uafhængighed tomme mængde A.2 tosidet variansanalyse additivitet estimation estimation af rækkevirkningsforskel i additivitesmodellen estimation af søjlevirkningsforskel i additivitesmodellen homogenitet hypotesen om additivitet hypotesen om ingen rækkevirkning hypotesen om ingen søjlevirkning konfidensintervaller i additivitetsmodellen kontrast kun rækkevirkning kun søjlevirkning med gentagelser med gentagelser, variansanalysetabel modelkontrol profildiagram relation til det parrede t-test residualer test i additivitetsmodellen test i modellen for kun rækkevirkning test i modellen for kun søjlevirkning uden gentagelser uden gentagelser, variansanalysetabel transformation tælle tæthedsfunktion kontinuert stokastisk variabel kontinuert stokastisk variabel, egenskaber ved kontinuert stokastisk vektor marginal fordeling U u-fordeling tabel u-test for kendt middelværdi Excel uafhængig variabel lineær regression uafhængighed flere hændelser stokastiske variable stokastiske variable, betingelser for to hændelser uafhængighed af inddelingskriterier lnQ-testet, testsandsynlighed beregningsformel for 2 ln Q-testet eksempel fordelingsresultat forventede antal hypotese maksimum likelihood estimater udfald udfaldsrum , 2.1, 5.2 uendelig række , 2.2, A.3 absolut konvergent A.3 afsnitssum A.3 divergent A.3 eksempler A.4 konvergent A.3 led A.3 regneregler A.4

287 Indeks I.13 undersøgelse grafisk numerisk uniform fordeling tæthedsfunktion uniforme sandsynlighedsmål på endelig mængde på interval V varians af gennemsnit empirisk regneregler variansanalyse variansanalysetabel ensidet variansanalyse tosidet variansanalyse med gentagelser tosidet variansanalyse uden gentagelser venstreskæv

288 I.14 Indeks

Vis mere