Statistik 1 og Statistiske Modeller 2: Todimensionale normalfordelte data Flerdimensionale normalfordelte data. Jørgen Granfeldt

Relaterede dokumenter
Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Modul 12: Regression og korrelation

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Løsning eksamen d. 15. december 2008

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Konfidensintervaller og Hypotesetest

Perspektiver i Matematik-Økonomi: Linær regression

Eksamen i Statistik for biokemikere. Blok

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Preben Blæsild og Jens Ledet Jensen

Module 4: Ensidig variansanalyse

En Introduktion til SAS. Kapitel 5.

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Løsning til eksaminen d. 14. december 2009

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Note om Monte Carlo metoden

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

1 Hb SS Hb Sβ Hb SC = , (s = )

Elementær sandsynlighedsregning

Nanostatistik: Lineær regression

Modul 11: Simpel lineær regression

Modul 6: Regression og kalibrering

Nanostatistik: Konfidensinterval

Elementær sandsynlighedsregning

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Kvantitative Metoder 1 - Forår Dagens program

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Lidt om fordelinger, afledt af normalfordelingen

1 Regressionsproblemet 2

Simpel Lineær Regression

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Statistik for ankomstprocesser

Produkt og marked - matematiske og statistiske metoder

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Den lineære normale model

Den todimensionale normalfordeling

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

k normalfordelte observationsrækker (ensidet variansanalyse)

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Schweynoch, Se eventuelt

Kapitel 12 Variansanalyse

To samhørende variable

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Lineære normale modeller (4) udkast

Kvantitative Metoder 1 - Forår 2007

Normalfordelingen og Stikprøvefordelinger

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Modelkontrol i Faktor Modeller

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Kapitel 12 Variansanalyse

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Nanostatistik: Opgavebesvarelser

Transkript:

Statistik 1 og Statistiske Modeller : Todimensionale normalfordelte data Flerdimensionale normalfordelte data Jørgen Granfeldt

Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 005

Indhold 8 Todimensionale normalfordelte data 1 8.1 Introduktion.................................... 1 8. Definitioner.................................... 1 8.3 Eksempler..................................... 4 8.4 Den todimensionale normalfordeling....................... 6 8.5 Estimation..................................... 9 8.6 Maksimum likelihood estimatorens fordeling.................. 11 8.6.1 Fordeling af r XY for ρ = 0........................ 11 8.6. Fordeling af r XY for ρ 0........................ 13 8.7 Modelkontrol................................... 15 8.8 Inferens om ρ baseret på en stikprøve fra N................... 18 8.8.1 Test af hypotesen ρ = 0......................... 18 8.8. Test af H 0 : ρ = ρ 0 og konfidensinterval for ρ.............. 19 8.9 Inferens om ρ baseret på k stikprøver.................... 1 8.10 Korrelation og regression............................. 3 8.11 Fortolkning af korrelation............................. 4 8.1 Yderligere hypoteser og tests i den todimensionale normalfordeling...... 5 8.1.1 Én stikprøve fra den todimensionale normalfordeling.......... 8 8.1. Udledning af Hotellings T -test for simpel middelværdihypotese.... 30 8.1.3 To uafhængige stikprøver fra todimensionale normalfordelinger.... 3 8.1.4 Udledning af Hotellings T -test for sammenligning af to middelværdier 34 Anneks til Kapitel 8 37 Litteratur..................................... 47 Opgaver...................................... 49 9 Flerdimensionale normalfordelte data 61 9.1 Indledning..................................... 61 9. Den flerdimensionale normalfordeling...................... 61 9.3 Flere p-dimensionale normalfordelte variable. Notation.............. 70 9.4 Én observationsrække i den flerdimensionale normalfordeling......... 74 9.4.1 Estimation i én observationsrække i N p................. 74 9.4. Fordelingen af maksimum likelihood estimatorerne for µ og Σ..... 76 9.5 Hotellings T................................... 78 i

9.6 Lineære normale modeller............................ 81 9.7 Estimation af partielle korrelationer og estimatorernes fordeling........ 89 9.8 Fordelingen af den multiple korrelationskoefficient............... 91 9.9 Tests for uafhængighed mellem komponenter.................. 94 9.10 Test for identitet af kovariansmatricer...................... 96 Anneks til Kapitel 9 99 Litteratur..................................... 109 Opgaver...................................... 111 Indeks 137 ii

8 Todimensionale normalfordelte data 8.1 Introduktion I sandsynlighedsteori bruges termen korrelation om en specifik egenskab (8.) ved den simultane fordeling af to stokastiske variable. For en stikprøve fra en todimensional fordeling bruges termen korrelation om adskillige empiriske mål, som bruges til at kvantificere sammenhængen mellem de to variable. Vægten vil i dette kapitel være på det empiriske modstykke til den sandsynlighedsteoretiske korrelation, og vi betragter her udelukkende kontinuerte variable. Afsnit 8. indeholder definitionerne af korrelation og empirisk korrelation sammen med nogle af deres basale egenskaber tillige med en advarsel om, at beregning af korrelation uden først at tegne data kan være meningsløs. I Afsnit 8.3 præsenteres de data, der bruges til at illustrere teorien gennem hele kapitlet. I Afsnit 8.4 vises de vigtigste egenskaber ved den todimensionale normalfordeling, og i Afsnit 8.5 estimeres parametrene i den todimensionale normalfordeling baseret på en observationsrække. Den todimensionale normalfordeling udmærker sig som en model, hvor den empiriske korrelationskoefficient er maksimum likelihood estimat for korrelationskoefficienten i fordelingen og har en præcis fortolkning. Modelkontrol i den todimensionale normalfordeling består i at undersøge om observationsrækken er i overensstemmelse med de teoretiske egenskaber ved den todimensionale normalfordeling, og de teknikker omtales i 8.7 og igen i forbindelse med beregninger i SAS fra side 37. Inferens om korrelationskoefficienten omfatter test af hypotesen, at korrelationskoefficienten er 0 samt beregning af et (1 α) konfidensinterval. Begge teknikker gives i Afsnit 8.8. Afsnit 8.9 omhandler teknikken for at teste identitet korrelationskoefficienterne fra k todimensionale normalfordelinger baseret på uafhængige stikprøver fra de fordelinger. Afsnit 8.10 og Afsnit 8.11 omhandler fortolkning af korrelation. I Afsnit 8.1 behandles flere hypoteser og tests i den todimensionale normalfordeling. Mere præcist er det test af en simpel hypotese om middelværdivektoren baseret på én observationsrække fra den todimensionale normalfordeling, og test af identitet af middelværdivektorerne i to normalfordelinger baseret på to uafhængige observationsrækker fra den todimensionale normalfordeling. 8. Definitioner For to stokastiske variable X og Y er kovariansen af X og Y Cov(X,Y ) = E((X EX)(Y EY )), (8.1) 1

KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA og korrelationen eller korrelationskoefficienten mellem X og Y er kovariansen divideret med standard afvigelserne for X og Y, det vil sige, Cor(X,Y ) = E((X EX)(Y EY )) VarX VarY. (8.) Korrelationskoefficienten er en dimensionsløs størrelse, som er begrænset af 1 og 1, det vil sige, 1 Cor(X,Y ) 1. (8.3) Hvis korrelationskoefficienten er 1 eller 1, er der en eksakt lineær sammenhæng mellem X og Y i den forstand, at der eksisterer konstanter α og β, så Y = α + βx (8.4) med sandsynlighed 1. Hvis Cor(X,Y ) = 1, er β negativ, og Y aftager når X vokser, og hvis Cor(X,Y ) = 1, er β positiv, og X og Y vokser samtidigt. For en stikprøve (observationsrække) (x 1,y 1 ),...,(x n,y n ) fra en todimensional fordeling, er det empiriske modstykke til (8.1) Cov(x,y) = 1 n n = 1 n SPD xy, modstykket til (8.) er den empiriske korrelations koefficient (x i x )(y i ȳ ) (8.5) n r = r xy = (x i x )(y i ȳ ) n (x i x ) n (y (8.6) i ȳ ) SPD xy =. (8.7) SSDx SSDy Observatoren i (8.6) omtales ofte som Pearson korrelationskoefficienten efter Karl Pearson (1857 1937). Ofte udelades ordet koefficient, og man taler simpelthen om empirisk korrelation, estimeret korrelation, eller Pearson korrelation Sammenhængen mellem (8.1) og (8.5) og mellem (8.) og (8.6) er, at stikprøven definerer en todimensional fordeling, den empiriske fordeling, som tillægger sandsynligheden n 1 til hver af observationerne og (8.5) er kovariansen (8.1) for X og Y i den empiriske fordeling, og (8.6) er korrelationen (8.) af X og Y i den empiriske fordeling. Det betyder, at grænserne i (8.3) også holder for den empiriske korrelation, så 1 r xy 1, (8.8) og hvis r xy = 1 eller r xy = 1, er der en eksakt lineær sammenhæng mellem x 1,...,x n og y 1,...,y n. Det vil sige y i = α + βx i, i = 1,...,n, (8.9)

8.. DEFINITIONER 3 hvor β er negativ hvis r xy = 1 og β er positiv hvis r xy = 1. Endnu er særlig værdi for korrelationskoeffcienten er 0. Hvis X og Y er uafhængige, så er kovariansen 0, og dermed er også korrelationen 0. Men korrelation lig med 0 betyder ikke i almindelighed, at X og Y er uafhængige. For den todimensionale normalfordeling er uafhængighed og korrelation 0 ensbetydende. Den perfekte lineære sammenhæng (8.9) mellem de variable i stikprøven, når r xy = ±1, bør ikke forlede nogen til at tro, at man kan opfatte numeriske værdier af rxy mellem 0 og 1 som et udtryk for graden af lineær sammenhæng mellem de variable. Der er konstrueret adskillige eksempler for at illustrere dette. I Figur 8.1 er vist fire eksempler på datasæt, som blev presenteret af Anscombe (1973). De fire konstruerede datasæt har alle r xy lig med 0.816, men det er meget forskellige historier de enkelte tegninger fortæller, og kun for datasæt A kan korrelationen anses for at give er meningsfuldt udtryk for graden af sammenhæng mellem de to variable. Figur 8.1 Anscombe eksempler. Endnu en vigtig pointe illustreres af de to datasæt, der er vist i Figur 8.. For begge datasæt er den empiriske korrelation tæt på 0. Man ser ofte, at man ud fra observeret korrelation tæt på 0 drager den konklusion, at der ingen sammenhæng er mellem de to variable. Det er klart, at den konklusion kun er rimelig for data i tegning B i Figur 8.. I tegning A i Figur 8. er der en tydelig ikke-lineær sammenhæng mellem de to variable. Begge eksempler understreger pointen, at beregning og fortolkning af empiriske korrelationer er meningsløse, hvis de ikke understøttes af tegninger af data.

4 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA Figur 8. Data i tegning A har r = 0 og data i plot B hat r = 0.086. Der er én model, hvor den empiriske korrelation er særligt meningsfuld: Den todimensionale normalfordeling. I denne model er den empiriske korrelationskoefficient maksimum likelihood estimat af korrelationskoefficienten (8.) i den todimensionale normalfordeling, og værdien af korrelationskoefficienten for den todimensionale normalfordeling kan fortolkes som styrken af sammenhængen mellem de to variable. 8.3 Eksempler Eksempel 8.1 (Kilde: Hald (195, pp.547 ff.,603 f.,611 f.)) I en undersøgelse af bevaring af ascorbinsyre i spinat efter tørring og lagring fik man i 4 prøver, som var tørret ved 90 o C, de i Tabel 8.1 og Figur 8.3 anførte sammenhørende værdier mellem procenten af tørstof i den friske spinat og procent bevaret ascorbinsyre. Figur 8.3 tyder på en sammenhæng mellem tørstofindhold og bevaringsprocent for ascorbinsyre. Vi skal senere bruge disse data til at illustrere detaljeret modelkontrol i den todimensionale fordeling. Eksempel 8. Data i dette eksempel er fra Keiding (1976). Den 4. juli og den 16. august fangedes henholdsvis 18 og 3 unge skruptudser, Bufo bufo, i samme område. Tabel 8. indeholder logaritmen til længden L (i mm) og vægten V (i mg). Data blev indsamlet for at beskrive størrelsesfordelingerne af skruptudser på indsamlingstidspunkterne og med henblik på at beskrive forskellen mellem størrelsesfordelingerne på de to tidspunkter. Her refererer størrelse både til længde og vægt, og vi vil beskrive sammenhængen mellem logaritmen til længde og logaritmen til vægt i begge stikprøver. Vi vil også beskrive ændringen i middelværdierne mellem de to tidspunkter.

8.3. EKSEMPLER 5 Tørstof Ascorbin Tørstof Ascorbin 10.0 70.9 1.5 74. 8.9 74.0 1.3 83.1 8.9 58.6 10.0 66.7 9. 80.6 10. 77. 7.8 69.4 11. 83.8 10.1 76.0 11. 67.9 9.0 66.4 10.0 88.9 8. 50.9 10.7 69.0 9.5 61.9 10.3 69.8 10.8 65. 1.9 86.0 11.1 77. 11.8 79.9 11. 89.6 14.9 88. Tabel 8.1 Sammenhæng mellem tørstofprocent (x) i frisk spinat og bevaringsprocent (y) for ascorbinsyreindholdet ved tørring ved 90 o C. Figur 8.3 Tørstofprocenter i frisk spinat og bevaringsprocenten for ascorbinsyreindholdet ved tørring ved 90 o C.

6 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA Tabel 8. Naturlig logaritme af længden i mm (L) og vægten i mg (V ) for for unge skruptudser 4/7-75 (n 1 = 18) 16/8-75 (n = 3) ln L lnv ln L lnv.83 5.86.97 6..86 5.97 3.00 6.3.83 5.97 3.6 7.03.71 5.47 3.07 6.50.89 5.96 3.09 6.68.67 5.31 3.14 6.65.74 5.7 3.14 6.84.71 5.50 3.14 6.55.80 5.79 3.00 6.7.83 5.93 3.09 6.60.77 5.65 3.11 6.59.74 5.59 3.00 6.38.86 5.96 3.04 6.44.67 5.39 3.0 6.79.89 6.06 3.04 6.48.9 6.13 3.0 6.93.71 5.50 3.00 6.3 3.00 6.7 3.16 6.8 3.07 6.58 3.00 6.36 3.09 6.64 3.07 6.64 3.11 6.68 Endvidere vil vi senere (side 16) begrunde, hvorfor vi betragter logaritmerne frem for de oprindelige variable længde og vægt. Tabel 8. indeholder den naturlige logaritme af længden L (i mm) og den naturlige logaritme af vægten V (i mg). Sammenhørende værdier af ln vægt og ln længde tegnet op mod hinanden i Figur 8.4 sammen med 50% og 90% konturkurver for tæthedsfunktionerne de todimensionale normalfordelinger, der passer bedst til data. Konturellipserne forklares nærmere i Afsnit 8.4, og estimation i den todimensionale normalfordeling behandles i Afsnit 8.5. 8.4 Den todimensionale normalfordeling I dette afsnit defineres den todimensionale normalfordeling. Formålet er at give en grundig omtale af korrelation og sammenhængen mellem regression og korrelation. Lad X være normalfordelt N(µ x,σ x ) og lad Y være normalfordelt N(µ y,σ y ). Hvis X og Y

8.4. DEN TODIMENSIONALE NORMALFORDELING 7 Figur 8.4 Sammenhørende værdier af ln vægt og ln længde tegnet op mod hinanden sammen med 50% og 90% konturkurver for tæthedsfunktionerne for todimensionale normalfordelinger med parametre lig med de estimerede værdier fra de to stikprøver i Tabel 8.. Krydsene har centrum i de estimerede middelværdier og de dannes af linjer hvis længde er to estimerede standardafvigelser. er uafhængige, er den simultane tæthed, f, for (X,Y ) produktet af de marginale tætheder, så f (x,y) = { 1 e 1 ( x µ x σx ) + πσ x σ y ( ) } y µ y σy, (x,y) R. (8.10) Den simultane fordeling af X og Y er en todimensional normalfordeling med parametre ( ) { } µx σ, x 0 µ y 0 σy, idet man først angiver vektoren af middelværdier og dernæst matricen af kovarianser. Hvis X og Y er korrelerede med korrelationskoefficient ρ, er (X,Y ) todimensionalt normalfordelt, hvis (X,Y ) har simultan tæthed f (x,y) = { 1 1 ( x µ πσ x σ y 1 ρ e (1 ρ x ) σx ) ρ (x µ x) σx (y µ y) + σy ( y µ y σy ) }, (8.11) og vi skriver i korthed ( X Y ) N (( µx µ y ) { σ, x ρσ x σ y ρσ x σ y σy }). Bemærk, at x og y indgår symmetrisk i udtrykket for tætheden (8.11). Hvis ρ = 0 reducerer (8.11) til (8.10), og så er X og Y uafhængige.

8 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA For at få et indblik i udseendet af tætheden for den todimensionale normalfordeling betragter vi kort niveaukurverne {(x, y) f (x, y) = k} for tætheden f. Ligningen f (x, y) = k er ækvivalent med { (x ) 1 µx 1 ρ ρ x µ ( ) } x y µ y y µy + = c. (8.1) σ y σ x σ x For ρ = 0 ses umiddelbart, at mængden af de (x,y) som opfylder (8.1) udgør en ellipse med centrum i (µ x, µ y ), halvakser af længde (cσ x,cσ y ) og akser parallelle med koordinatakserne. En sådan ellipse kaldes en konturellipse. For generelt ρ ] 1,1[ er mængden af de punkter (x,y), som opfylder (8.1) stadig en ellipse med centrum i (µ x, µ y ), men for ρ 0 er akserne ikke parallelle med koordinatakserne, ligesom halvaksernes længde både afhænger af spredningerne og af værdien af ρ. (Opgave 8..) En nyttig omskrivning af (8.11) er f (x,y) = 1 e 1 σ (x µ x ) 1 1 x πσx πσy 1 ρ e σy (1 ρ ) (y µ y ρσ y σx (x µ x)). (8.13) Benyttes (8.13) fås umiddelbart, at når ( ) (( X µx N Y µ y σ y ) { σ, x ρσ x σ y ρσ x σ y σy }), er den marginale fordeling for X en N(µ x,σx ) fordeling, og den betingede fordeling af Y givet X = x er N(µ y + ρ σ y (x µ x ),σy (1 ρ )). Faktoriseringen (8.13) er altså faktoriseringen σ x f (x,y) = f (x) f (y x) af den simultane tæthed for (X,Y ) i den marginale tæthed for X og den betingede tæthed for Y givet X = x. Tilsvarende er marginalfordelingen for Y en N(µ y,σy ) fordeling og den betingede fordeling af X givet Y = y er en N(µ x + ρ σ x (y µ y ),σx (1 ρ )) σ y fordeling. Figur 8.5 stammer fra Francis Galton: Regression towards Mediocrity in Hereditary Stature, Journal of the Anthropological Institute, 15 (1885), 46-65. Selvom regression af Galton bruges i den direkte betydning tilbagegang, skyldes det alligevel denne artikel, at ordet regression er blevet hæftet på de teknikker, hvor man søger at beskrive én variabel som en funktion af en eller flere andre variable (lineær regression, ikke-lineær regression, multipel regression). Den betingede middelværdi af Y givet X = x som funktion af x, det vil sige funktionen x µ y + ρ σ y (x µ x ) kaldes regressionen af Y på X. Grafen for denne funktion er σ x { (x,y) y = µ y + ρ σ } y (x µ x ),x R. σ x Tilsvarende kaldes den betingede middelværdi af X givet Y = y, som funktion af y for regressionen af X på Y. Grafen for denne er { } (y µ y ),y R σ y } (x,y) x = µ x + ρ σ x { (x,y) y = µ y + σ y (x µ x ),x R ρσ x. =

8.5. ESTIMATION 9 Figur 8.5 Konturellipse med hovedakser og regressionslinjer. Regressionen af Y på X går gennem de punkter, hvor konturellipsen har lodret tangent og regression af X på Y gennem de punkter, hvor konturellipsen har vandret tangent. For ρ > 0 ses, at regressionslinjen for regressionen af X på Y har større hældning end regressionslinjen for regressionen af Y på X. På Figur 8.5 er regressionslinjerne indtegnet i forhold til en konturellipse for et ρ > 0. 8.5 Estimation Lad (x 1,y 1 ),...,(x n,y n ), hvor n 3, være en stikprøve fra en todimensional normalfordeling. Det vil sige (x i,y i ), i = 1,...,n, er realisationer af stokastiske variable (X i,y i ), i = 1,...n, som er uafhængige og identisk todimensionalt normalfordelt. Den statistiske model er specificeret ved, at parametrene varierer frit, det vil sige (µ x, µ y,σ x,σ y,ρ) varierer frit i R R R + R + ] 1, 1[. Ved maksimering af likelihood funktionen er det bekvemt at benytte faktoriseringen (8.13) og en omparametrisering. Bemærk, at parametrene i den betingede fordeling af Y givet X = x er α, β og ω, hvor α = µ y ρ σ y σ x µ x, β = ρ σ y σ x, ω = σ y (1 ρ ), og at parametrene i den marginale fordeling for X er µ x og σ x. Afbildningen ( µx, µ y,σ x,σ y,ρ ) ( µ x,σ x,α,β,ω )

10 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA en bijektion af R R R + R + ] 1,1[ på R R + R R R +. Likelihoodfunktionen fremstår som et produkt L ( µ x, µ y,σx,σy,ρ ) ( = L 1 µx,σx ) ( L α,β,ω ), hvor og 1 ( L 1 µx,σx ) 1 ( σx ) n σx e n (x i µ x ) n ( L α,β,ω ) ( 1 1 ω ) n ω (y i α βx i ) e. Maksimeringen af L kan foregå ved maksimering af L 1 og L hver for sig, da parametervektoren ( µ x,σx,α,β,ω ) er en en-entydig funktion af de oprindelige parametre og ( µ x,σx ) og ( α,β,ω ) varierer i et produktområde. Maksimeringen af L 1 og L er velkendt, idet L 1 er likelihoodfunktionen svarende til en stikprøve fra en N(µ x,σx ) fordeling og L afhænger på samme måde af (x 1,...,x n,y 1,...,y n ) som likelihood funktionen svarende til regressionsmodellen Y 1,...,Y n indbyrdes uafhængige og Y i N(α + βx i,ω ) afhænger af (x 1,...,x n,y 1,...,y n ). L 1 maksimeres af ˆµ x = x = x 1 + + x n, ˆσ x = s n x = 1 n n (x i x.) = 1 n SSD x og fra regressionsanalysen fås, at ved maksimering af L skal β sættes lig med SPD/SSD x, det vil sige ˆβ = SPD SSD x, hvor SPD = SPD xy = n (x i x.)(y i ȳ.). Foretog vi i stedet den analoge opsplitning af likelihood funktionen efter den marginale tæthed for Y, ville vi se, at vi ved maksimeringen skal sætte ˆµ y = ȳ. og ˆσ y = s y = 1 n Da β = ρ σ y σ x eller ρ = β σ x σ y fås, at vi skal sætte ρ = r = r xy = SPD xy SSD x n (y i ȳ.) = 1 n SSD y. SSD x SSD y = SPD xy SSDx SSD y

8.6. MAKSIMUM LIKELIHOOD ESTIMATORENS FORDELING 11 for at maksimere likelihood funktionen. Sammenfattende har vi, at maksimum likelihood estimatet er ( ˆµx, ˆµ y, ˆσ x, ˆσ y, ˆρ ) = ( x.,ȳ.,s x,s y,r ). Sædvanligvis erstattes s x og s y med henholdsvis s x = SSD x /(n 1) og s y = SSD y /(n 1). Bemærk, at estimaterne x,ȳ,s ( ) ( ) x s x,s y s y er de velkendte fra én observationsrække, og at estimatet r netop er den empiriske korrelationskoefficient, det vil sige korrelationskoefficienten i den empiriske fordeling svarende til stikprøven (x 1,y 1 ),...,(x n,y n ). 8.6 Maksimum likelihood estimatorens fordeling Estimaterne for middelværdier og varianser er de sædvanlige estimater baseret enten på den normale stikprøve, x 1,...,x n, eller den normale stikprøve, y 1,...,y n, og derfor er de marginale fordelinger af estimaterne de velkendte: µ x x N(µ x, σ x n ), σ x s x σ x n 1 χ (n 1), µ y ȳ N(µ y, σ y n ), σ y s y σ y n 1 χ (n 1). Fordelingen af estimatoren for ρ er mere kompliceret, og det er den simultane fordeling af de fem estimatorer også. Derfor vil vi kun give den eksakte fordeling for r, når ρ = 0. Når vi taler om fordelingen af den empiriske korrelationskoefficient, opfatter vi den som en funktion af de stokastiske variable i stikprøven og for at minde om det, bruger vi store fede bogstaver X og Y som indekser og skiver estimatoren for korrelationskoefficienten som r XY = SPD XY SSDX SSD Y. For variansskønnene afviger vi lidt fra denne notation, idet vi ikke bruger fed skrift og for eksempel lader s x betegne estimatet for σx, mens s X betegner den stokastiske variabel. I forbindelse med én observationsrække i Kapitel 3 brugte vi i (3.8) notationen s (X) for variansskønnet opfattet som stokastisk variabel. 8.6.1 Fordeling af r XY for ρ = 0 Vi skal kun finde maksimum likelihood estimatorens fordeling under hypotesen ρ = 0. De marginale fordelinger for de fire komponenter X, Ȳ, s X og s Y er givet ovenfor, og når ρ = 0 er de fire komponenter indbyrdes uafhængige. I det følgende skal vi vise, at r XY er uafhængig af ( X,Ȳ,s ) X,s Y under hypotesen ρ = 0 og finde fordelingen af r XY.

1 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA Vi benytter igen kendte resultater fra regressionsanalysen. I den betingede fordeling givet (X 1,...,X n ) = (x 1,...,x n ) er T (x) = SSD 0 (x) = SSD Y SPD xy SSD x, der er σ y χ (n ) (ω = σ y, når ρ = 0), og estimatoren for β, ˆβ = SPD xy SSD x, der (idet ρ = 0 medfører β = 0 og ω = σ y ) er N(0, σy ), samt Ȳ, der er N(µ y, σ y ), indbyr- SSD x n des uafhængige. Derfor er T 1 (x) = SPD xy SSDx N(0,σ y ), T (x) og Ȳ indbyrdes uafhængige. Da fordelingen til (Ȳ,T 1 (x),t (x)) er den samme for alle x følger det, at Ȳ,T 1 (X),T (X),X 1,...,X n er indbyrdes uafhængige, og at Ȳ,T 1 (X) og T (X) følger de ovenfor angivne fordelinger for Ȳ,T 1 (x) og T (x). Nu er r XY = SPD XY SSD X SSD Y = T 1 (X) T 1 (X) + T (X). Da T1 (X) og T (X) ifølge det foregående er uafhængige og henholdsvis Γ( 1,1/(σ y )) og Γ( n,1/(σ y )) fordelt, er rxy fordelt som B( 1, n ) og uafhængig af SSD Y = T1 (X)+T (X) (Opgave 8.10). Vi har nu vist, at rxy, SSD Y, Ȳ, X 1,...,X n er indbyrdes uafhængige, og derfor er også rxy, SSD Y, Ȳ, SSD X, X indbyrdes uafhængige. Hermed er fordelingen af ( X, s X, Ȳ, sy, r XY ) under hypotesen ρ = 0 fuldstændigt specificeret. Det er nyttigt at notere sig, at r XY n = SPD XY n = 1 rxy (SSD X SSD Y SPD XY ) T 1 (X)/σ y T (X)/(σy (n )), (8.14) hvor tælleren er N(0,1) fordelt og uafhængig af nævneren, som er kvadratroden af en χ (n )/(n ) fordelt stokastisk variabel. Altså er r XY T (r XY ) = n 1 rxy t(n ). (8.15) En tabel over t-fordelingen kan altså bruges til at udregne fordelingen til r XY for ρ = 0. Vi bemærker, at (8.14) viser, at T (r xy ) er lig med t-testet for hypotesen, at hældningen er 0 i regressionen af Y på X.

8.6.. FORDELING AF R XY FOR ρ 0 13 8.6. Fordeling af r XY for ρ 0 Fordelingen til r XY fra en stikprøve på n indbyrdes uafhængige observationer fra en todimensional normalfordeling afhænger på temmelig kompliceret måde af ρ. Fordelingen blev udledt af R.A. Fisher (1915). For ρ = 0 er fordelingen symmetrisk om 0, som det fremgår af (8.15), men for ρ 0 bliver fordelingen mere og mere asymmetrisk når ρ vokser. I Figur 8.6 er tætheden for r XY for n = 8 angivet for ρ = 0 og ρ = 0.8. Til mange praktiske formål behøver man ikke at benytte sig af fordelingen til r XY, idet der findes en strengt voksende transformation af r XY hvis fordeling med god tilnærmelse er normal allerede for små stikprøvestørrelser, og hvor det med god tilnærmelse kun er middelværdien af den transformerede variabel som afhænger af ρ (jævnfør Opgave 8.6). Transformationen blev angivet af R.A. Fisher (1915) og kaldes Fishers Z, hvor Z = 1 ln 1 + r XY 1 r XY = tanh 1 (r XY ). (8.16) I Figur 8.6 er tætheden for Z vist for n = 8 og ρ = 0 og ρ = 0.8. De fire første momenter blev angivet af Fisher (191) og senere revideret af Gayen (1951). Idet ζ = 1 ln 1 + ρ (8.17) 1 ρ er EZ = ζ + ρ {1 + 5 + ρ (n 1) µ = Var Z = 1 n 1 µ 3 = ρ3 (n 1) 3 + 1 µ 4 = {3 (n 1) + } 4(n 1) + {1 + 4 ρ (n 1) + 6ρ 3ρ 4 6(n 1) + 14 3ρ n 1 } + 184 48ρ 1ρ 4 } 4(n 1) +. Idet γ 1 betegner skævheden (skewness) og γ topstejlheden (kurtosis) af fordelingen til Z fås γ 1 = µ 3 µ 3 = ρ6 (n 1) 3 + og γ = µ 4 µ 3 = n 1 + 4 + ρ 3ρ 4 (n 1) + (jævnfør Opgave 8.7). Da γ 1 og γ er tæt ved 0 allerede for små n, følger det, at Z allerede for små n med god tilnærmelse er normalfordelt med ovenstående middelværdi og varians, som til de fleste praktiske formål erstattes af EZ ζ + ρ (n 1)

14 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA Figur 8.6 Tæthedsfunktioner for r XY (øverst) og Z (nederst) vist for n = 8, ρ = 0 og ρ = 0.8

8.7. MODELKONTROL 15 og Man kan altså regne med, at Var Z 1 n 1 + 4 ρ (n 1) 1 n 3. (Z ζ ρ (n 1) ) n 3 (8.18) med god tilnærmelse er N(0,1) fordelt. Da ρ/((n 1)) er lille i forhold til spredningen 1/ n 3 ser man ofte bort fra leddet ρ/((n 1)) i EZ og benytter approksimationen (Z ζ ) n 3 N(0,1). (8.19) Dog kan det have betydning at medtage leddet ρ/((n 1)), når man skal estimere ρ ud fra flere z-værdier fra uafhængige stikprøver fra todimensionale normalfordelinger med samme korrelation ρ. 8.7 Modelkontrol Skal man undersøge, om et observationssæt er todimensionalt normalfordelt, starter man med en undersøgelse af de marginale fordelinger. Er disse ikke normale, søges en passende transformation af observationerne, således at de transformerede værdier kan betragtes som normalfordelte. Sammenhængen mellem de variable undersøges ved at indtegne punktparrene i et scatterplot. Om variationen i punktparrene er forenelig med antagelse om todimensional normalfordeling kan undersøges ved hjælp af konturellipserne. Hvis ( ) (( ) { }) X µx σ N, x ρσ x σ y Y µ y ρσ x σ y er ifølge Opgave 8.1 størrelsen [ (X W = 1 ) µx 1 ρ ρ X µ x σ x σ x σ y Y µ y σ y + ( ) ] Y µy σ y (8.0) χ fordelt med frihedsgrader. Hvis parametrene var kendte, kunne (8.0) beregnes for hvert par (x i,y i ) af observationer i stikprøven, og derved kunne man få n uafhængige observationer fra χ () fordelingen. I anvendelser af dette resultat er parametrene imidlertid ukendte, og de må derfor erstattes af deres estimater, det vil sige at for i = 1,...,n beregner man w i = 1 1 r [ (xi x s x ) r x ( i x y i ȳ yi ȳ + s x s y s y ) ]. (8.1) Den empiriske fordeling af w 1,...,w n kan sammenlignes med fordelingsfunktionen for χ ()- fordelingen med et fraktildiagram. Det er særdeles let, da en χ () fordeling har fordelingsfunktionen F(x) = 1 e 1 x for x > 0, så fraktilerne findes uden tabelopslag ved at løse ligningen p = F(x p ) = 1 e 1 x p.

16 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA for x p, og det giver x p = ln(1 p). Hvis antallet af observationer er stort, kan undersøgelsen suppleres med en undersøgelse af de betingede fordelinger, som alle skal være normale. Desuden kan det undersøges, om de betingede fordelinger givet X (henholdsvis Y ) har samme varians. Endelig kan regressionslinjernes linearitet undersøges med en regressionsanalyse. Eksempel 8. (fortsat) Figur 8.7 viser de tegninger, der er relevante, når man kontrollerer for todimensional normalfordeling af længde og vægt i de to stikprøver og også for todimensional normalfordeling af logaritmen til længde og logaritmen til vægt i de to stikprøver. De øverste tegninger er scatterplots med regressionlinjerne for regressionen af vægt (ln vægt) på længde (ln længde). Begge tegninger er i overensstemmelse med antagelsen om todimensional normalfordeling. Eneste kvalitative forskel mellem originale og transformerede data synes at være at regressionslinjerne for de originale data har forskellig hældning i de to stikprøver. De fire tegninger i midten viser fraktildiagrammer for de marginale fordelinger. Ingen af disse tegninger strider mod antagelsen om normalfordeling for både de originale målinger og for de logaritmetransformerede målinger. Dette er ikke overraskende, når man lægger mærke til at den største observation i hver stikprøve er mindre end 3 gange så stor som den mindste observation, og husker tommelfingerreglen, at for at en logaritmetransformation skal have effekt, skal der være mindst en faktor 10 til forskel mellem mindste og største observation. For vægten bemærker man en lavere hældning i fraktildiagrammet for august stikprøven end for juli stikprøven, som kunne tyde på en større varians for vægten i august. Endelig viser de to nederste tegninger fraktildiagrammerne baseret på (8.0). Ingen af tegningerne viser en markant afvigelse fra identitetslinjen, så disse tegninger bekræfter førstehåndsindtrykket fra scatterplottene, at både de originale og de logaritmetransformerede data er i overensstemmelse med antagelse om todimensional normalfordeling. Vi vælger at arbejde videre med logaritmen til højde og vægt af flere grunde. For det første er erfaringen fra større datasæt, at en logaritmetransformation ofte er nødvendig for at få normalfordeling. Det gælder for målinger af længde og vægt for en lang række af arter. For det andet er variansen af vægten i de to stikprøver signifikant forskellige, mens det ikke er tilfældet for logaritmen til vægten. For det tredje er beskrivelsen af væksten af skruptudserne en del enklere for logaritmen af længden og logaritmen af vægten end for de utransformerede variable. Det bliver illustreret, når vi analyserer middelværdierne af stikprøverne i Eksempel 8., som starter side 5. Idet vi lader x betegne logaritmen til længden og y betegne logaritmen til vægten, kan vi formulere en model for de to stikprøver på følgende måde. For juli stikprøven er (x 11,y 11 ),..., (x 1n1,y 1n1 ) observationer af uafhængige, identisk fordelte stokastiske variable med en todimensional normalfordeling, N (( µ1x µ 1y ) {, σ 1x ρ 1 σ 1x σ 1y ρ 1 σ 1x σ 1y σ 1y }), (8.)

8.7. MODELKONTROL 17 Figur 8.7 Forskellige kontroltegninger for antagelsen om todimensional normalfordeling af længde og vægt (venstre side) og logaritmen til længde og logaritmen til vægt (højre side).

18 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA og for august stikprøven er (x 1,y 1 ),...,(x n,y n ) observationer af uafhængige identisk fordelte stokastiske variable med en todimensional normalfordeling, (( ){ µx σ }) N x ρ σ x σ y. (8.3) µ y ρ σ x σ y Endvidere er de to stikprøver uafhængige. Estimater for middelværdier, varianser og korrelationskoefficient for de to stikprøver gives nedenfor. Juli stikprøven: x 1 =.80 ȳ 1 = 5.78 s (1)x = 0.00863 s (1)y = 0.0758 r 1 = 0.978 August stikprøven: σ y x = 3.09 ȳ = 6.57 s ()x = 0.00578 s ()y = 0.0509 r = 0.94 Her bruger vi ligesom i Kapitel 3 parenteser omkring indeks for stikprøven i betegnelsen for variansestimaterne. 8.8 Inferens om ρ baseret på en stikprøve fra N 8.8.1 Test af hypotesen ρ = 0 Intuitivt test baseret på r xy Et intuitivt rimeligt test for hypotesen H: ρ = 0 er baseret på estimatet r xy for ρ. Fordelingen af r XY er symmetrisk om 0, så de værdier af r, som er mere kritiske for hypotesen end den observerede værdi r xy, er værdier som er numerisk større end eller lig med r xy. Derfor er testsandsynligheden p obs (x,y) = P( r XY rxy ) = P( T (r XY ) T (rxy ) ) = ( 1 F t(n ) ( T (r xy ) ) ), (8.4) hvor vi har brugt T -transformationen i (8.15), og at T (r XY ) har en t(n ) fordeling. Stikprøvefunktionerne r xy og T (r xy ) er ækvivalente som teststørrelser for hypotesen H: ρ = 0, men hvis beregningerne udføres i hånden, er T (r xy ) det naturlige valg, fordi testsandsynligheden beregnes ved hjælp af dens t(n )-fordeling. Sidst i det afsnit, hvor T -transformationen blev introduceret på side 1, bemærkede vi at T (r xy ) var lig med t-teststørrelsen for hypotesen, at hældningen af regressionslinjen er lig med 0 i regressionen af Y på X. Sidstnævnte teststørrelse har også en t(n ) fordeling, så testsandsynlighederne for de to tests er identiske. Vi viser nu, at testet i (8.4), er identisk med likelihood ratio testet for hypotesen, at ρ = 0.

LIKELIHOOD RATIO TEST FOR HYPOTESEN ρ = 0 19 Likelihood ratio test for hypotesen ρ = 0 Likelihood ratio testet for hypotesen ρ = 0 bygger på Q = maxl(µ x, µ y,σ x,σ y,0) maxl(µ x, µ y,σ x,σ y,ρ) = maxl 1(µ x,σ x )maxl (α,0,ω ) maxl 1 (µ x,σ x )maxl (α,β,ω ) = maxl (α,0,ω ) maxl (α,β,ω ). Likelihood ratio testoren afhænger derfor på samme måde af (X 1,...,X n,y 1,...,Y n ), som likelihood ratio testoren for hypotesen β = 0 i regressionsanalysen Y 1,...,Y n uafhængige Y i N(α + βx i,ω ) afhænger af (x 1,...,x n,y 1,...Y n ). Det følger nu fra regressionsanalysen, at Q q T t, hvor n T (X) SPD XY SSD X SSDX = n T 1(X) T (X) = n r XY 1 r XY = T (r xy ) ifølge (8.15) er t-fordelt med n frihedsgrader. Det ses også let, at Q q R r R r. Testsandsynligheden findes altså let i en tabel over B-fordelingen eller t-fordelingen. De fleste statistiske tabelværker indeholder dog en tabel over fordelingen af r XY for ρ = 0. I Afsnit 8.5 vistes, at når ρ = 0 er ( X.,s X,Ȳ.,s Y ) uafhængige af r XY, som bruges til at teste hypotesen ρ = 0. Det er en stor fordel. Dels betyder det, at fordelingen til estimatorerne ikke påvirkes af den observerede værdi r af r XY, når denne vel at mærke er sådan, at hypotesen accepteres, og dels betyder det, at testsandsynligheden, som udregnes i fordelingen til r XY, ikke er påvirket af de aktuelle estimater. 8.8. Test af H 0 : ρ = ρ 0 og konfidensinterval for ρ Den approksimerende normalfordeling (8.19) kan bruges til at teste om en observeret korrelationskoefficient r afviger signifikant fra en teoretisk værdi ρ 0, eller med andre ord til at teste hypotesen H 0 : ρ = ρ 0. Transformeret til ζ svarer det til hypotesen som testes ved at beregne teststørrelsen, H 0 : ζ = ζ 0 = 1 ln 1 + ρ 0 1 ρ 0, u = (z ζ 0 ) n 3, (8.5) som under H 0 er en realisation af en (approksimativt) N(0,1)-fordelt stokastisk variabel, og derfor er testsandsynligheden p obs = (1 Φ(u)).

0 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA Vi har brugt u som betegnelse for teststørelsen i (8.5), fordi den er et eksempel på u teststørrelsen, der blev betragtet i (3.4). I dette tilfælde med kun én observation z fra en normalfordeling med varians 1/(n 3). Den vigtigste anvendelse af testet for en fast værdi af korrelationskoefficienten er at finde konfidensintervaller for korrelationskoefficienten. Benyttes (8.19) kan et (1 α) konfidensinterval for ζ umiddelbart beregnes til [ z 1 u 1 α/,z + 1 u 1 α/ ]. (8.6) n 3 n 3 Det er en anvendelse af (3.16) med én observation fra en normalfordeling med en kendt varians 1/(n 3). Dette konfidensinterval for ζ kan transformeres til et konfidensinterval for ρ ved at anvende den inverse transformation til (8.17) på endepunkterne. Den inverse transformation til (8.17) er ρ = eζ 1 e ζ + 1. (8.7) Eksempel 8. (fortsat) Vi kan nu vurdere, om der er en signifikant korrelation mellem ln længde og ln vægt i de to stikprøver og beregne konfidensintervaller for korrelationskoefficienten for at få en idé om præcisionen af estimaterne. Juli stikprøven: Estimatet for korrelationskoefficienten er r 1 = 0.978 og teststørrelsen for korrelation 0 er n1 r 1 1 r 1 = 0.978 16 = 18.753, 1 0.978 og da P( T > 18.753) < 0.001, hvor T er t-fordelt med 16 frihedsgrader, forkastes hypotesen om korrelation 0 for populationen i juli. Estimatet for korrelationskoefficienten er positive, så konklusionen er, at der er positiv sammenhæng mellem ln længde og ln vægt i populationen i juli. Et konfidensinterval for ρ 1 baseret på stikprøven kan beregnes ved hjælp af Fishers Z i (8.17) og formlen (8.6), som giver konfidensintervallet for ζ 1 = 1 ln 1+ρ 1 1 ρ 1, som efterfølgende transformeres til et konfidensinterval for ρ 1. Fishers Z er z 1 = 1 ln 1 + r 1 1 r 1 =.49, og 95% konfidensintervallet for ζ 1 er [ ] 1 z 1 n1 3 u 1 0.975, z 1 + n1 3 u 0.975 = [.49 1 1.96,.49 + 1 ] 1.96 = 15 15 [1.743,.755].

8.9. INFERENS OM ρ BASERET PÅ K STIKPRØVER 1 95% konfidensintervallet for ρ 1 fås ved at anvende transformationen i (8.7) på endepunkterne for dette interval, [ e 1.743 ] 1 e 1.743 + 1, e.755 1 e.755 = [0.941, 0.99]. + 1 Alle beregninger er baseret på den estimerede korrelationskoefficient r 1 = 0.978; men, som nævnt side 3, er det kvadratet på korrelationskoeffcienten, der er mest relevant, når det kommmer til fortolkning af størrelsen af korrelationen. I dette tilfælde er r1 = 0.956, og vi kan sige, at 95.6% af variationen i ln længde forklares af variationen i ln vægt og omvendt. August stikprøven: Resultatet for august stikprøven svarer nøje til det, som vi fandt for juli stikprøven. T -transformationen af r = 0.94 er 1.86, og vurderet i en t-fordeling med 1 frihedsgrader giver det en testsandsynlighed under 0.001. Estimatet for korrelationskoefficienten er positivt, så konklusionen er, at der er positiv sammenhæng mellem ln længde og ln vægt i august populationen. Et 95% konfidensinterval for ρ er [0.866, 0.975]. Som nævnt senere side 3 er det kvadratet på korrelationskoefficienten, der er mest relevant for fortolkning af størrelsen af korrelationen. I dette tilfælde er r = 0.887, og vi kan sige at 88.7% af variationen i ln længde forklares af variationen i ln vægt og omvendt. Man kan naturligvis også kvadrere grænserne for konfidensintervallet og dermed få en idé om, hvor præcist dette udsagn er. 8.9 Inferens om ρ baseret på k stikprøver Hvis vi har observeret k korrelationskoefficienter r i, i = 1,...,k, baseret på uafhængige stikprøver af størrelse n i fra todimensionale normalfordelinger med korrelationskoefficienter ρ i, kan vi benytte (8.19) til at teste hypotesen, H: ρ 1 = = ρ k = ρ, at korrelationskoefficienterne er identiske. Det vil sige, at vi beregner Fishers Z på alle k estimerede korrelationskoefficienter og benytter, at ( ) 1 z i N ζ i,, (8.8) n i 3 samt at H er ækvivalent med H: ζ 1 = = ζ k = ζ, Teststørrelsen er (se Opgave 8.8 for udledningen) hvor X = k z = (z i z) (n i 3), (8.9) k z i (n i 3). (8.30) k (n i 3)

KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA For nøjagtige beregninger i hånden er et bedre udtryk for X X = k ( k z i (n i 3) z i (n i 3) k (n i 3) ). (8.31) Under hypothesen om en fælles korrelationskoefficient, er X approksimativt χ fordelt med k 1 frihedsgrader, og store værdier af X er kritiske hypothesen H, så testsandsynligheden er p obs = 1 F χ (k 1) (X ). Hvis H ikke forkastes, bruges z i (8.30) som estimat for ζ, og et estimat for ρ fås ved at benytte (8.7) med ζ erstattet af z. Den approksimative fordeling af z er z N(ζ,1/ k (n i 3)), og derfor kan et (1 α) konfidensinterval for ζ fås som 1 1 z u 1 α/, z + k k (n i 3) (n i 3) u 1 α/. (8.3) Endelig kan dette interval transformeres til et (1 α) konfidensinterval for ρ ved hjælp af transformationen (8.7). Hvis antallet af observationsrækker er stort, kan det have betydning at bruge den mere nøjagtige approksimation i (8.18) og inkludere leddet ρ i /((n i 1)) i EZ i. Hvis vi beslutter at gøre det, må vi betragte modellen, hvor Z 1,...,Z k er uafhængige Z i N( 1 ln 1 + ρ i ρ i + 1 ρ i (n i 1), 1 n i 3 ), og i denne model estimere ρ og teste hypotesen H. Likelihood ligningen for ρ er k 1 (n i 3)( 1 ρ + 1 (n i 1) )(z i 1 ln 1 + ρ 1 ρ ρ (n i 1) ) = 0, som skal løses iterativt. Likelihood ratio teststørrelsen for hypotesen H er lnq = k (n i 3)(z i 1 ln 1 + ˆρ 1 ˆρ ˆρ (n i 1) ), hvor ˆρ betegner maksimum likelihood estimatet for ρ under hypotesen H. lnq er approksimativt χ fordelt med k 1 frihedsgrader og, som det altid er tilfældet med likelihood ratio test, med store værdier kritiske for hypotesen.

8.10. KORRELATION OG REGRESSION 3 Eksempel 8. (fortsat) Hypotesen om en fælles korrelation i juli og august populationerne, H: ρ 1 = ρ = ρ, kan testes med teststørrelsen X i (8.9). Bruges det alternative udtryk for X i (8.31) fås, og testsandsynligheden bliver X =.091, p obs = 1 F χ (1)(.091) = 0.15. Hypotesen H om en fælles korrelation forkastes ikke. Estimatet for den fælles korrelationskoefficient fås fra estimatet z = 1.96796 af den fælles værdi af ζ via transformationen (8.7) som e 1.96796 1 e 1.96796 = 0.96169 ρ. + 1 Et 95% konfidensinterval for den fælles værdi af ζ fås fra formlen (8.3) som 1 1 z u 1 α/, z + [ 1.96796 k (n i 3) [1.6367,.993], k (n i 3) 1 15 + 0 1.960, 1.96796 + u 1 α/ = ] 1 1.960 = 15 + 0 som derefter kan transformeres til et 95% konfidensinterval for den fælles korrelationskoefficient ρ: [ e 1.6367 ] 1 e 1.6367 + 1, e.993 1 e.993 = [0.9701, 0.98007]. + 1 Estimatet for ρ er 0.96169 = 0.95 med fortolkningen at 9.5% af variationen i ln længde kan forklares med variationen i ln vægt og omvendt. 8.10 Korrelation og regression Når man har forelagt et sæt sammenhørende værdier (x 1,y 1 ),...,(x n,y n ), vil korrelationskoefficienten give et mål for sammenhængen mellem xerne og yerne under forudsætning af todimensional normalfordeling. Ønsker man ud fra xerne at forudsige y erne, kan man derefter gå over til regressionsanalyse i den betingede fordeling af Y for givet X (eller omvendt). Meget ofte er hypotesen om todimensional normalfordeling urimelig, og den saglige problematik er en regressionstankegang. Angående fortolkning af korrelationskoefficientens størrelse bemærkes, at σ y = V (Y ) = ρ σ y + (1 ρ )σ y, hvor (1 ρ )σy genkendes som variansen i den betingede fordeling af Y givet X = x. Det fortolkes på den måde, at ρ angiver, hvor stor en del af variationen i Y, som forklares af X. Det er således snarere r end r, man skal angive ved slutningen af sin korrelationsanalyse.

4 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA 8.11 Fortolkning af korrelation I dette afsnit nævnes nogle forhold, man bør være opmærksom på i forbindelse med korrelation. Forkaster man i et datamateriale hypotesen ρ = 0 betyder det, at de variable er stokastisk afhængige. Dette betyder ikke automatisk, at der er nogen årsagssammenhæng mellem de to variable. For eksempel vil højde og vægt være positivt korrelerede i de fleste stikprøver fra den danske befolkning, og det indikerer, at den ene af de to variable kan bruges til at forudsige den anden, men det betyder ikke, at en forøgelse af højden forårsager en forøgelse af vægten, eller omvendt. Formodentlig skyldes den positive korrelation for disse to variable, at de begge er kausalt afhængige af visse fælles variable. Et andet fænomen er falsk korrelation (spurious correlation). Dette forekommer når andre faktorer end de to observerede har varieret og derved frembragt en korrelation. Et eksempel er følgende. Før indførelsen af de omfattende vaccinationer mod polio i 1950 erne, registrerede man hver uge salget af læskedrikke og antallet af nye tilfælde af polio. Man noterede sig en positiv korrelation mellem de to variable. Dette skyldes naturligvis ikke, at læskedrikke forårsager polio, men at begge variable varierer med årstiden. Salget af læskedrikke er størst i varmeperioder, og det er antallet nye poliotilfælde også. Har man mistanke om falsk korrelation er løsningen, at inddele materialet i undergrupper, hvor de eventuelt forstyrrende faktorer ikke varierer. Inden for hver undergruppe udregnes korrelationskoefficienten, og dennes afhængighed af de forstyrrende faktorer undersøges ved hjælp af metoderne i Afsnit 8.6.. Er korrelationskoefficienterne i undergrupperne ikke signifikant forskellige, kan man lave et fælles estimat for korrelationskoefficienten, som angivet i Afsnit 8.6.. Et lidt andet eksempel på falsk korrelation er følgende. Man har observationer fra indbyrdes uafhængige stokastiske variable U, V og W, og i stedet for at analysere disse observationer vælger man at analysere X = U/W og Y = V /W. Disse vil imidlertid som oftest være korrelerede på grund af den fælles divisor W. Man har altså på grund af sine manipulationer med tallene fået indført en korrelation. Variable som X og Y benævnes ofte rater eller index tal. Der er altså grund til at være på vagt, når man bliver stillet over for korrelationer mellem rater. I Opgave 8.9 præsenteres et kunstigt eksempel, hvor der synes at være en sammenhæng mellem storke og fødsler. Eksempel 8.1 (fortsat) Figuren tyder på en sammenhæng mellem tørstofindhold og bevaringsprocent for ascorbinsyre, og de marginale fordelinger synes med god tilnærmelse at kunne opfattes som normale (Kontroltegningerne er ikke vist). En sammenligning mellem den empiriske fordelingsfunktion for de n W værdier (jævnfør (8.0) og (8.1)) med χ () fordelingen i Figur 8.8 giver heller ikke anledning til at tvivle på antagelsen om todimensional normalfordeling. Beskrives observationerne ved en todimensional normalfordeling, fås estimaterne x = 10.53 ȳ = 73.975 s x =.594 s y = 100.39 r = 0.618. Det ses, at r n = 0.618 = 3.69, 1 r 0.6178

8.1. YDERLIGERE HYPOTESER OG TESTS I DEN TODIMENSIONALE NORMALFORDELING5 Figur 8.8 Kontrol af simultan normalfordeling. og da P( T > 3.69) = ca. 0.1%, hvor T er t-fordelt med frihedsgrader, bekræfter testet indtrykket af en afgjort positiv sammenhæng mellem tørstof indhold og bevaringsprocent. Ved en nærmere analyse er det naturligt at undersøge regressionen af bevaringsprocent på tørstofindhold. Regressionslinjen estimeres til y = 33.48 + 3.846x. Bemærk, at selv om r = 0.618 er r = 0.38, så det er kun 38 % af variationen i % bevaret ascorbinsyre, der forklares af variationen i tørstofprocenten. 8.1 Yderligere hypoteser og tests i den todimensionale normalfordeling Indtil nu har vi kun betragtet sammenhængen mellem to variable, som den er beskrevet ved korrelationskoefficienten. For én stikprøve med todimensionale data kan det være af interesse at teste hypotesen, at middelværdivektoren har en fast værdi, og for to uafhængige stikprøver af todimensionale data kan det være af interesse at sammenligne middelværdierne af de underliggende fordelinger. Inden vi fortsætter med at beskrive de teknikker, vil vi afslutte analysen af Eksempel 8. udelukkende med brug af velkendte teknikker fra Kapitel 3: to observationsrækker og lineær regression. Eksempel 8. (fortsat) En fuldstændig behandling af dette eksempel omfatter en beskrivelse af om der er ændringer i størrelsesfordelingerne mellem de to datoer.

6 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA På side 16 formulerede vi modellen for de to stikprøver i (8.) og i (8.3) som to uafhængige observationsrækker fra den todimensionale normalfordeling uden nogen restriktioner på parametrene. I fortsættelsen af Eksempel 8. på side 3 fandt vi, at vi kunne antage, at korrelationskoefficienterne kunne antages at være identiske i de to stikprøver, og vi betegnede den fælles korrelationskoefficient med ρ. Det er den eneste modelreduktion, vi har betragtet indtil nu. Vurderet ud fra fraktildiagrammerne i Figur 8.7 ser det ud som om, der kan være ens varians af ln længde på de to tidspunkter og også ens varians af ln vægt på de to tidspunkter. Det viser sig da også, at hypoteserne σ1x = σ x = σ x og σ1y = σ y = σ y ikke bliver forkastet af de formelle F-test for ens varians, som blev udledt i Afsnit 3..1 på side 90 i Bind 1. Beregningerne er ikke gengivet her. Modellen kan altså reduceres til to uafhængige stikprøver fra todimensionale normalfordelinger med samme kovariansmatiks. For julistikprøven er den todimensionale normalfordeling N (( µ1x µ 1y ) { σ, x ρσ x σ y ρσ x σ y σ y }), (8.33) og for auguststikprøven er den todimensionale normalfordeling (( ) { }) µx σ N, x ρσ x σ y. (8.34) µ y ρσ x σ y Estimaterne for varianserne er de sædvanlige estimater baseret på to éndimensionale normalfordelte observationsrækker σ y σ x s x = 0.0070 σ x χ (39)/(39), σ y s y = 0.0618 σ y χ (39)/(39), hvor 39 = n 1 + n. Estimatet for ρ blev givet på side 3 som 0.96, men vi vil ikke få brug for værdien af estimatet her. Estimaterne for middelværdierne er de gennemsnit, som blev givet side 18. Vi kan nu fortsætte analysen ved at teste om fordelingerne af ln længde kan antages at have samme middelværdi på de to tidspunkter, det vil sige H 0x : µ 1x = µ x. t-teststørrelsen er t 1 = x 1 x ( 1 ) = 10.8, (8.35) s x n 1 + 1 n og da t skal vurderes i en t(39)-fordeling er testsandsynligheden mindre end 0.001 og H 0x forkastes. Estimatet for middelværdien er størst for august stikprøven, skruptudserne er signifikant længere i august end i juli. Herefter kunne man fortsætte og teste hypotesen H 0y : µ 1y = µ y for ln vægt, og det ville vise, at skruptudserne var signifikant tungere i august end i juli. Men denne fremgangsmåde ville ikke være helt tilfredsstillende. For på grund af den stærke korrelation mellem længde og

8.1. YDERLIGERE HYPOTESER OG TESTS I DEN TODIMENSIONALE NORMALFORDELING7 vægt ville man spekulere på, om den signifikante forskel i vægten simpelthen skyldtes forskellen i længden og korrelationen mellem de to variable. Løsningen er at benytte faktoriseringen (8.13) af den todimensionale normalfordeling. For de todimensionale fordelinger i (8.33) og i (8.34) giver faktoriseringerne og x 1i N(µ 1x,σ x ), (8.36) y 1i X 1i = x 1i N(µ 1y + ρ σ y σ x (x 1i µ 1x ),σ y (1 ρ )), (8.37) x i N(µ x,σ x ), (8.38) y i X i = x i N(µ y + ρ σ y σ x (x i µ x ),σ y (1 ρ )). (8.39) Når man omordner leddene i middelværdien af de betingede fordelinger i (8.37) og (8.39) kan de skrives som y 1i X 1i = x 1i N(α 1 + βx 1i,σ y (1 ρ )) og y i X i = x i N(α + βx i,σ y (1 ρ )) hvor β = ρ σ y σ x, α 1 = µ 1y ρ σ y σ x µ 1x = µ 1y β µ 1x, α = µ y ρ σ y σ x µ x = µ y β µ x. Bemærk, at regressionsmodellerne for ln vægt givet ln længde har den samme hældning, fordi varianser og korrelationen antages at være ens til de to tidspunkter. Tegningen øverst til højre i Figur 8.7 viser data med regressionslinjerne i de to stikprøver indtegnet og hældningerne er meget tæt ved hinanden. De eneste parametre, som kan være forskellige for de to stikprøver, er afskæringerne, og det er meget naturligt at teste om de er ens, det vil sige, H 0 : α 1 = α, for når denne hypotese formuleres i middelværdierne, er den µ 1y β µ 1x = µ y β µ x eller µ 1y µ y = β(µ 1x µ x ). Hypotesen siger således, at ændringen i middelværdien af ln vægt mellem de to fordelinger (µ 1y µ y ) fuldt ud forklares af ændringen af middelværdierne for ln længde (µ 1x µ x ) mellem de to fordelinger. Hypotesen testes ved hjælp af teknikkerne for at sammenligne regressionslinjer i Afsnit 4. i Bind 1. Det følgende SAS program udfører de nødvendige beregninger.

8 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA PROC GLM DATA=bufobufo; CLASS dato; MODEL ln_vaegt=ln_laengde dato/ss1 SOLUTION; RUN; Variablen dato indicerer de to stikprøver, og da dato står i CLASS sætningen, specificerer MODEL sætningen to parallelle regressionslinjer med mulighed for forskellige afskæringer. Hvis dato fjernes fra MODEL sætningen, er det modellen med en fælles regressionslinje, der specificeres, og derfor kan F-testet for H 0 : α 1 = α findes i nederste linje af SS1 tabellen i udskriften, jævnfør forklaringen af type I kvadratsummerne i slutningen af Anneks til Afsnit 4. i Bind. Det ækvivalente t-test kan findes i linjen dato 75-07-4 i Parameter Estimate tabellen af udskriften til t = 0.48. (8.40) Source DF Type I SS Mean Square F Value Pr > F ln_laengde 1 8.55086377 8.55086377 1774.8 <.0001 dato 1 0.0011318 0.0011318 0.3 0.630 Standard Parameter Estimate Error t Value Pr > t Intercept -.3896441 B 0.40976991-5.45 <.0001 ln_laengde.8535935 0.136780 1.50 <.0001 dato 75-07-4 0.01074390 B 0.04365397 0.48 0.630 dato 75-08-16 0.000000000 B... F-testet er 0.3 og svarer til en testsandsynlighed på 0.63, så hypotesen bliver ikke forkastet. Det er ikke særligt overraskende på baggrund af tegningen øverst til højre i Figur 8.7, som viser at regressionslinjerne for de to stikprøver er næsten sammenfaldende. Data er således i meget god overensstemmelse med antagelsen, at ændringen i middelværdien af ln vægt er fuldt ud forklaret af ændringen i middelværdien af ln længde. Det var denne enkle beskrivelse af væksten af skruptudser, vi havde i tankerne på side 16, da vi besluttede at analysere logaritmerne frem for de oprindelige variable. Vi afslutter dette kapitel med nogle få resultater, som er nyttige i analysen af en enkelt stikprøve fra en todimensional normalfordeling og for analysen af to uafhængige stikprøver fra todimensionale normalfordelinger. Vi skal her bruge lidt notation fra lineær algebra. Vi vil betragte vektorer som søjlevektorer, og vi vil bruge til at betegne den transponerede af en vektor. Resultaterne er analoge til resultaterne for én og to stikprøver fra endimensionale normalfordelinger, som blev givet i Afsnit 3.1 og Afsnit 3. i Bind 1. 8.1.1 Én stikprøve fra den todimensionale normalfordeling Lad (x 1,y 1 ),...,(x n,y n ), med n 3, være en stikprøve fra den todimensionale normalfordeling. Dermed er (x i,y i ), i = 1,...,n, realisationer af stokastiske variable (X i,y i ), i = 1,...n, som er uafhængige og har fordelingen, N (( µx µ y ) { σ, x ρσ x σ y ρσ x σ y σy }). (8.41)