Statistik 1 og Statistiske Modeller 2: Todimensionale normalfordelte data Flerdimensionale normalfordelte data. Jørgen Granfeldt

Størrelse: px
Starte visningen fra side:

Download "Statistik 1 og Statistiske Modeller 2: Todimensionale normalfordelte data Flerdimensionale normalfordelte data. Jørgen Granfeldt"

Transkript

1 Statistik 1 og Statistiske Modeller : Todimensionale normalfordelte data Flerdimensionale normalfordelte data Jørgen Granfeldt

2 Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 005

3 Indhold 8 Todimensionale normalfordelte data Introduktion Definitioner Eksempler Den todimensionale normalfordeling Estimation Maksimum likelihood estimatorens fordeling Fordeling af r XY for ρ = Fordeling af r XY for ρ Modelkontrol Inferens om ρ baseret på en stikprøve fra N Test af hypotesen ρ = Test af H 0 : ρ = ρ 0 og konfidensinterval for ρ Inferens om ρ baseret på k stikprøver Korrelation og regression Fortolkning af korrelation Yderligere hypoteser og tests i den todimensionale normalfordeling Én stikprøve fra den todimensionale normalfordeling Udledning af Hotellings T -test for simpel middelværdihypotese To uafhængige stikprøver fra todimensionale normalfordelinger Udledning af Hotellings T -test for sammenligning af to middelværdier 34 Anneks til Kapitel 8 37 Litteratur Opgaver Flerdimensionale normalfordelte data Indledning Den flerdimensionale normalfordeling Flere p-dimensionale normalfordelte variable. Notation Én observationsrække i den flerdimensionale normalfordeling Estimation i én observationsrække i N p Fordelingen af maksimum likelihood estimatorerne for µ og Σ Hotellings T i

4 9.6 Lineære normale modeller Estimation af partielle korrelationer og estimatorernes fordeling Fordelingen af den multiple korrelationskoefficient Tests for uafhængighed mellem komponenter Test for identitet af kovariansmatricer Anneks til Kapitel 9 99 Litteratur Opgaver Indeks 137 ii

5 8 Todimensionale normalfordelte data 8.1 Introduktion I sandsynlighedsteori bruges termen korrelation om en specifik egenskab (8.) ved den simultane fordeling af to stokastiske variable. For en stikprøve fra en todimensional fordeling bruges termen korrelation om adskillige empiriske mål, som bruges til at kvantificere sammenhængen mellem de to variable. Vægten vil i dette kapitel være på det empiriske modstykke til den sandsynlighedsteoretiske korrelation, og vi betragter her udelukkende kontinuerte variable. Afsnit 8. indeholder definitionerne af korrelation og empirisk korrelation sammen med nogle af deres basale egenskaber tillige med en advarsel om, at beregning af korrelation uden først at tegne data kan være meningsløs. I Afsnit 8.3 præsenteres de data, der bruges til at illustrere teorien gennem hele kapitlet. I Afsnit 8.4 vises de vigtigste egenskaber ved den todimensionale normalfordeling, og i Afsnit 8.5 estimeres parametrene i den todimensionale normalfordeling baseret på en observationsrække. Den todimensionale normalfordeling udmærker sig som en model, hvor den empiriske korrelationskoefficient er maksimum likelihood estimat for korrelationskoefficienten i fordelingen og har en præcis fortolkning. Modelkontrol i den todimensionale normalfordeling består i at undersøge om observationsrækken er i overensstemmelse med de teoretiske egenskaber ved den todimensionale normalfordeling, og de teknikker omtales i 8.7 og igen i forbindelse med beregninger i SAS fra side 37. Inferens om korrelationskoefficienten omfatter test af hypotesen, at korrelationskoefficienten er 0 samt beregning af et (1 α) konfidensinterval. Begge teknikker gives i Afsnit 8.8. Afsnit 8.9 omhandler teknikken for at teste identitet korrelationskoefficienterne fra k todimensionale normalfordelinger baseret på uafhængige stikprøver fra de fordelinger. Afsnit 8.10 og Afsnit 8.11 omhandler fortolkning af korrelation. I Afsnit 8.1 behandles flere hypoteser og tests i den todimensionale normalfordeling. Mere præcist er det test af en simpel hypotese om middelværdivektoren baseret på én observationsrække fra den todimensionale normalfordeling, og test af identitet af middelværdivektorerne i to normalfordelinger baseret på to uafhængige observationsrækker fra den todimensionale normalfordeling. 8. Definitioner For to stokastiske variable X og Y er kovariansen af X og Y Cov(X,Y ) = E((X EX)(Y EY )), (8.1) 1

6 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA og korrelationen eller korrelationskoefficienten mellem X og Y er kovariansen divideret med standard afvigelserne for X og Y, det vil sige, Cor(X,Y ) = E((X EX)(Y EY )) VarX VarY. (8.) Korrelationskoefficienten er en dimensionsløs størrelse, som er begrænset af 1 og 1, det vil sige, 1 Cor(X,Y ) 1. (8.3) Hvis korrelationskoefficienten er 1 eller 1, er der en eksakt lineær sammenhæng mellem X og Y i den forstand, at der eksisterer konstanter α og β, så Y = α + βx (8.4) med sandsynlighed 1. Hvis Cor(X,Y ) = 1, er β negativ, og Y aftager når X vokser, og hvis Cor(X,Y ) = 1, er β positiv, og X og Y vokser samtidigt. For en stikprøve (observationsrække) (x 1,y 1 ),...,(x n,y n ) fra en todimensional fordeling, er det empiriske modstykke til (8.1) Cov(x,y) = 1 n n = 1 n SPD xy, modstykket til (8.) er den empiriske korrelations koefficient (x i x )(y i ȳ ) (8.5) n r = r xy = (x i x )(y i ȳ ) n (x i x ) n (y (8.6) i ȳ ) SPD xy =. (8.7) SSDx SSDy Observatoren i (8.6) omtales ofte som Pearson korrelationskoefficienten efter Karl Pearson ( ). Ofte udelades ordet koefficient, og man taler simpelthen om empirisk korrelation, estimeret korrelation, eller Pearson korrelation Sammenhængen mellem (8.1) og (8.5) og mellem (8.) og (8.6) er, at stikprøven definerer en todimensional fordeling, den empiriske fordeling, som tillægger sandsynligheden n 1 til hver af observationerne og (8.5) er kovariansen (8.1) for X og Y i den empiriske fordeling, og (8.6) er korrelationen (8.) af X og Y i den empiriske fordeling. Det betyder, at grænserne i (8.3) også holder for den empiriske korrelation, så 1 r xy 1, (8.8) og hvis r xy = 1 eller r xy = 1, er der en eksakt lineær sammenhæng mellem x 1,...,x n og y 1,...,y n. Det vil sige y i = α + βx i, i = 1,...,n, (8.9)

7 8.. DEFINITIONER 3 hvor β er negativ hvis r xy = 1 og β er positiv hvis r xy = 1. Endnu er særlig værdi for korrelationskoeffcienten er 0. Hvis X og Y er uafhængige, så er kovariansen 0, og dermed er også korrelationen 0. Men korrelation lig med 0 betyder ikke i almindelighed, at X og Y er uafhængige. For den todimensionale normalfordeling er uafhængighed og korrelation 0 ensbetydende. Den perfekte lineære sammenhæng (8.9) mellem de variable i stikprøven, når r xy = ±1, bør ikke forlede nogen til at tro, at man kan opfatte numeriske værdier af rxy mellem 0 og 1 som et udtryk for graden af lineær sammenhæng mellem de variable. Der er konstrueret adskillige eksempler for at illustrere dette. I Figur 8.1 er vist fire eksempler på datasæt, som blev presenteret af Anscombe (1973). De fire konstruerede datasæt har alle r xy lig med 0.816, men det er meget forskellige historier de enkelte tegninger fortæller, og kun for datasæt A kan korrelationen anses for at give er meningsfuldt udtryk for graden af sammenhæng mellem de to variable. Figur 8.1 Anscombe eksempler. Endnu en vigtig pointe illustreres af de to datasæt, der er vist i Figur 8.. For begge datasæt er den empiriske korrelation tæt på 0. Man ser ofte, at man ud fra observeret korrelation tæt på 0 drager den konklusion, at der ingen sammenhæng er mellem de to variable. Det er klart, at den konklusion kun er rimelig for data i tegning B i Figur 8.. I tegning A i Figur 8. er der en tydelig ikke-lineær sammenhæng mellem de to variable. Begge eksempler understreger pointen, at beregning og fortolkning af empiriske korrelationer er meningsløse, hvis de ikke understøttes af tegninger af data.

8 4 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA Figur 8. Data i tegning A har r = 0 og data i plot B hat r = Der er én model, hvor den empiriske korrelation er særligt meningsfuld: Den todimensionale normalfordeling. I denne model er den empiriske korrelationskoefficient maksimum likelihood estimat af korrelationskoefficienten (8.) i den todimensionale normalfordeling, og værdien af korrelationskoefficienten for den todimensionale normalfordeling kan fortolkes som styrken af sammenhængen mellem de to variable. 8.3 Eksempler Eksempel 8.1 (Kilde: Hald (195, pp.547 ff.,603 f.,611 f.)) I en undersøgelse af bevaring af ascorbinsyre i spinat efter tørring og lagring fik man i 4 prøver, som var tørret ved 90 o C, de i Tabel 8.1 og Figur 8.3 anførte sammenhørende værdier mellem procenten af tørstof i den friske spinat og procent bevaret ascorbinsyre. Figur 8.3 tyder på en sammenhæng mellem tørstofindhold og bevaringsprocent for ascorbinsyre. Vi skal senere bruge disse data til at illustrere detaljeret modelkontrol i den todimensionale fordeling. Eksempel 8. Data i dette eksempel er fra Keiding (1976). Den 4. juli og den 16. august fangedes henholdsvis 18 og 3 unge skruptudser, Bufo bufo, i samme område. Tabel 8. indeholder logaritmen til længden L (i mm) og vægten V (i mg). Data blev indsamlet for at beskrive størrelsesfordelingerne af skruptudser på indsamlingstidspunkterne og med henblik på at beskrive forskellen mellem størrelsesfordelingerne på de to tidspunkter. Her refererer størrelse både til længde og vægt, og vi vil beskrive sammenhængen mellem logaritmen til længde og logaritmen til vægt i begge stikprøver. Vi vil også beskrive ændringen i middelværdierne mellem de to tidspunkter.

9 8.3. EKSEMPLER 5 Tørstof Ascorbin Tørstof Ascorbin Tabel 8.1 Sammenhæng mellem tørstofprocent (x) i frisk spinat og bevaringsprocent (y) for ascorbinsyreindholdet ved tørring ved 90 o C. Figur 8.3 Tørstofprocenter i frisk spinat og bevaringsprocenten for ascorbinsyreindholdet ved tørring ved 90 o C.

10 6 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA Tabel 8. Naturlig logaritme af længden i mm (L) og vægten i mg (V ) for for unge skruptudser 4/7-75 (n 1 = 18) 16/8-75 (n = 3) ln L lnv ln L lnv Endvidere vil vi senere (side 16) begrunde, hvorfor vi betragter logaritmerne frem for de oprindelige variable længde og vægt. Tabel 8. indeholder den naturlige logaritme af længden L (i mm) og den naturlige logaritme af vægten V (i mg). Sammenhørende værdier af ln vægt og ln længde tegnet op mod hinanden i Figur 8.4 sammen med 50% og 90% konturkurver for tæthedsfunktionerne de todimensionale normalfordelinger, der passer bedst til data. Konturellipserne forklares nærmere i Afsnit 8.4, og estimation i den todimensionale normalfordeling behandles i Afsnit Den todimensionale normalfordeling I dette afsnit defineres den todimensionale normalfordeling. Formålet er at give en grundig omtale af korrelation og sammenhængen mellem regression og korrelation. Lad X være normalfordelt N(µ x,σ x ) og lad Y være normalfordelt N(µ y,σ y ). Hvis X og Y

11 8.4. DEN TODIMENSIONALE NORMALFORDELING 7 Figur 8.4 Sammenhørende værdier af ln vægt og ln længde tegnet op mod hinanden sammen med 50% og 90% konturkurver for tæthedsfunktionerne for todimensionale normalfordelinger med parametre lig med de estimerede værdier fra de to stikprøver i Tabel 8.. Krydsene har centrum i de estimerede middelværdier og de dannes af linjer hvis længde er to estimerede standardafvigelser. er uafhængige, er den simultane tæthed, f, for (X,Y ) produktet af de marginale tætheder, så f (x,y) = { 1 e 1 ( x µ x σx ) + πσ x σ y ( ) } y µ y σy, (x,y) R. (8.10) Den simultane fordeling af X og Y er en todimensional normalfordeling med parametre ( ) { } µx σ, x 0 µ y 0 σy, idet man først angiver vektoren af middelværdier og dernæst matricen af kovarianser. Hvis X og Y er korrelerede med korrelationskoefficient ρ, er (X,Y ) todimensionalt normalfordelt, hvis (X,Y ) har simultan tæthed f (x,y) = { 1 1 ( x µ πσ x σ y 1 ρ e (1 ρ x ) σx ) ρ (x µ x) σx (y µ y) + σy ( y µ y σy ) }, (8.11) og vi skriver i korthed ( X Y ) N (( µx µ y ) { σ, x ρσ x σ y ρσ x σ y σy }). Bemærk, at x og y indgår symmetrisk i udtrykket for tætheden (8.11). Hvis ρ = 0 reducerer (8.11) til (8.10), og så er X og Y uafhængige.

12 8 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA For at få et indblik i udseendet af tætheden for den todimensionale normalfordeling betragter vi kort niveaukurverne {(x, y) f (x, y) = k} for tætheden f. Ligningen f (x, y) = k er ækvivalent med { (x ) 1 µx 1 ρ ρ x µ ( ) } x y µ y y µy + = c. (8.1) σ y σ x σ x For ρ = 0 ses umiddelbart, at mængden af de (x,y) som opfylder (8.1) udgør en ellipse med centrum i (µ x, µ y ), halvakser af længde (cσ x,cσ y ) og akser parallelle med koordinatakserne. En sådan ellipse kaldes en konturellipse. For generelt ρ ] 1,1[ er mængden af de punkter (x,y), som opfylder (8.1) stadig en ellipse med centrum i (µ x, µ y ), men for ρ 0 er akserne ikke parallelle med koordinatakserne, ligesom halvaksernes længde både afhænger af spredningerne og af værdien af ρ. (Opgave 8..) En nyttig omskrivning af (8.11) er f (x,y) = 1 e 1 σ (x µ x ) 1 1 x πσx πσy 1 ρ e σy (1 ρ ) (y µ y ρσ y σx (x µ x)). (8.13) Benyttes (8.13) fås umiddelbart, at når ( ) (( X µx N Y µ y σ y ) { σ, x ρσ x σ y ρσ x σ y σy }), er den marginale fordeling for X en N(µ x,σx ) fordeling, og den betingede fordeling af Y givet X = x er N(µ y + ρ σ y (x µ x ),σy (1 ρ )). Faktoriseringen (8.13) er altså faktoriseringen σ x f (x,y) = f (x) f (y x) af den simultane tæthed for (X,Y ) i den marginale tæthed for X og den betingede tæthed for Y givet X = x. Tilsvarende er marginalfordelingen for Y en N(µ y,σy ) fordeling og den betingede fordeling af X givet Y = y er en N(µ x + ρ σ x (y µ y ),σx (1 ρ )) σ y fordeling. Figur 8.5 stammer fra Francis Galton: Regression towards Mediocrity in Hereditary Stature, Journal of the Anthropological Institute, 15 (1885), Selvom regression af Galton bruges i den direkte betydning tilbagegang, skyldes det alligevel denne artikel, at ordet regression er blevet hæftet på de teknikker, hvor man søger at beskrive én variabel som en funktion af en eller flere andre variable (lineær regression, ikke-lineær regression, multipel regression). Den betingede middelværdi af Y givet X = x som funktion af x, det vil sige funktionen x µ y + ρ σ y (x µ x ) kaldes regressionen af Y på X. Grafen for denne funktion er σ x { (x,y) y = µ y + ρ σ } y (x µ x ),x R. σ x Tilsvarende kaldes den betingede middelværdi af X givet Y = y, som funktion af y for regressionen af X på Y. Grafen for denne er { } (y µ y ),y R σ y } (x,y) x = µ x + ρ σ x { (x,y) y = µ y + σ y (x µ x ),x R ρσ x. =

13 8.5. ESTIMATION 9 Figur 8.5 Konturellipse med hovedakser og regressionslinjer. Regressionen af Y på X går gennem de punkter, hvor konturellipsen har lodret tangent og regression af X på Y gennem de punkter, hvor konturellipsen har vandret tangent. For ρ > 0 ses, at regressionslinjen for regressionen af X på Y har større hældning end regressionslinjen for regressionen af Y på X. På Figur 8.5 er regressionslinjerne indtegnet i forhold til en konturellipse for et ρ > Estimation Lad (x 1,y 1 ),...,(x n,y n ), hvor n 3, være en stikprøve fra en todimensional normalfordeling. Det vil sige (x i,y i ), i = 1,...,n, er realisationer af stokastiske variable (X i,y i ), i = 1,...n, som er uafhængige og identisk todimensionalt normalfordelt. Den statistiske model er specificeret ved, at parametrene varierer frit, det vil sige (µ x, µ y,σ x,σ y,ρ) varierer frit i R R R + R + ] 1, 1[. Ved maksimering af likelihood funktionen er det bekvemt at benytte faktoriseringen (8.13) og en omparametrisering. Bemærk, at parametrene i den betingede fordeling af Y givet X = x er α, β og ω, hvor α = µ y ρ σ y σ x µ x, β = ρ σ y σ x, ω = σ y (1 ρ ), og at parametrene i den marginale fordeling for X er µ x og σ x. Afbildningen ( µx, µ y,σ x,σ y,ρ ) ( µ x,σ x,α,β,ω )

14 10 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA en bijektion af R R R + R + ] 1,1[ på R R + R R R +. Likelihoodfunktionen fremstår som et produkt L ( µ x, µ y,σx,σy,ρ ) ( = L 1 µx,σx ) ( L α,β,ω ), hvor og 1 ( L 1 µx,σx ) 1 ( σx ) n σx e n (x i µ x ) n ( L α,β,ω ) ( 1 1 ω ) n ω (y i α βx i ) e. Maksimeringen af L kan foregå ved maksimering af L 1 og L hver for sig, da parametervektoren ( µ x,σx,α,β,ω ) er en en-entydig funktion af de oprindelige parametre og ( µ x,σx ) og ( α,β,ω ) varierer i et produktområde. Maksimeringen af L 1 og L er velkendt, idet L 1 er likelihoodfunktionen svarende til en stikprøve fra en N(µ x,σx ) fordeling og L afhænger på samme måde af (x 1,...,x n,y 1,...,y n ) som likelihood funktionen svarende til regressionsmodellen Y 1,...,Y n indbyrdes uafhængige og Y i N(α + βx i,ω ) afhænger af (x 1,...,x n,y 1,...,y n ). L 1 maksimeres af ˆµ x = x = x x n, ˆσ x = s n x = 1 n n (x i x.) = 1 n SSD x og fra regressionsanalysen fås, at ved maksimering af L skal β sættes lig med SPD/SSD x, det vil sige ˆβ = SPD SSD x, hvor SPD = SPD xy = n (x i x.)(y i ȳ.). Foretog vi i stedet den analoge opsplitning af likelihood funktionen efter den marginale tæthed for Y, ville vi se, at vi ved maksimeringen skal sætte ˆµ y = ȳ. og ˆσ y = s y = 1 n Da β = ρ σ y σ x eller ρ = β σ x σ y fås, at vi skal sætte ρ = r = r xy = SPD xy SSD x n (y i ȳ.) = 1 n SSD y. SSD x SSD y = SPD xy SSDx SSD y

15 8.6. MAKSIMUM LIKELIHOOD ESTIMATORENS FORDELING 11 for at maksimere likelihood funktionen. Sammenfattende har vi, at maksimum likelihood estimatet er ( ˆµx, ˆµ y, ˆσ x, ˆσ y, ˆρ ) = ( x.,ȳ.,s x,s y,r ). Sædvanligvis erstattes s x og s y med henholdsvis s x = SSD x /(n 1) og s y = SSD y /(n 1). Bemærk, at estimaterne x,ȳ,s ( ) ( ) x s x,s y s y er de velkendte fra én observationsrække, og at estimatet r netop er den empiriske korrelationskoefficient, det vil sige korrelationskoefficienten i den empiriske fordeling svarende til stikprøven (x 1,y 1 ),...,(x n,y n ). 8.6 Maksimum likelihood estimatorens fordeling Estimaterne for middelværdier og varianser er de sædvanlige estimater baseret enten på den normale stikprøve, x 1,...,x n, eller den normale stikprøve, y 1,...,y n, og derfor er de marginale fordelinger af estimaterne de velkendte: µ x x N(µ x, σ x n ), σ x s x σ x n 1 χ (n 1), µ y ȳ N(µ y, σ y n ), σ y s y σ y n 1 χ (n 1). Fordelingen af estimatoren for ρ er mere kompliceret, og det er den simultane fordeling af de fem estimatorer også. Derfor vil vi kun give den eksakte fordeling for r, når ρ = 0. Når vi taler om fordelingen af den empiriske korrelationskoefficient, opfatter vi den som en funktion af de stokastiske variable i stikprøven og for at minde om det, bruger vi store fede bogstaver X og Y som indekser og skiver estimatoren for korrelationskoefficienten som r XY = SPD XY SSDX SSD Y. For variansskønnene afviger vi lidt fra denne notation, idet vi ikke bruger fed skrift og for eksempel lader s x betegne estimatet for σx, mens s X betegner den stokastiske variabel. I forbindelse med én observationsrække i Kapitel 3 brugte vi i (3.8) notationen s (X) for variansskønnet opfattet som stokastisk variabel Fordeling af r XY for ρ = 0 Vi skal kun finde maksimum likelihood estimatorens fordeling under hypotesen ρ = 0. De marginale fordelinger for de fire komponenter X, Ȳ, s X og s Y er givet ovenfor, og når ρ = 0 er de fire komponenter indbyrdes uafhængige. I det følgende skal vi vise, at r XY er uafhængig af ( X,Ȳ,s ) X,s Y under hypotesen ρ = 0 og finde fordelingen af r XY.

16 1 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA Vi benytter igen kendte resultater fra regressionsanalysen. I den betingede fordeling givet (X 1,...,X n ) = (x 1,...,x n ) er T (x) = SSD 0 (x) = SSD Y SPD xy SSD x, der er σ y χ (n ) (ω = σ y, når ρ = 0), og estimatoren for β, ˆβ = SPD xy SSD x, der (idet ρ = 0 medfører β = 0 og ω = σ y ) er N(0, σy ), samt Ȳ, der er N(µ y, σ y ), indbyr- SSD x n des uafhængige. Derfor er T 1 (x) = SPD xy SSDx N(0,σ y ), T (x) og Ȳ indbyrdes uafhængige. Da fordelingen til (Ȳ,T 1 (x),t (x)) er den samme for alle x følger det, at Ȳ,T 1 (X),T (X),X 1,...,X n er indbyrdes uafhængige, og at Ȳ,T 1 (X) og T (X) følger de ovenfor angivne fordelinger for Ȳ,T 1 (x) og T (x). Nu er r XY = SPD XY SSD X SSD Y = T 1 (X) T 1 (X) + T (X). Da T1 (X) og T (X) ifølge det foregående er uafhængige og henholdsvis Γ( 1,1/(σ y )) og Γ( n,1/(σ y )) fordelt, er rxy fordelt som B( 1, n ) og uafhængig af SSD Y = T1 (X)+T (X) (Opgave 8.10). Vi har nu vist, at rxy, SSD Y, Ȳ, X 1,...,X n er indbyrdes uafhængige, og derfor er også rxy, SSD Y, Ȳ, SSD X, X indbyrdes uafhængige. Hermed er fordelingen af ( X, s X, Ȳ, sy, r XY ) under hypotesen ρ = 0 fuldstændigt specificeret. Det er nyttigt at notere sig, at r XY n = SPD XY n = 1 rxy (SSD X SSD Y SPD XY ) T 1 (X)/σ y T (X)/(σy (n )), (8.14) hvor tælleren er N(0,1) fordelt og uafhængig af nævneren, som er kvadratroden af en χ (n )/(n ) fordelt stokastisk variabel. Altså er r XY T (r XY ) = n 1 rxy t(n ). (8.15) En tabel over t-fordelingen kan altså bruges til at udregne fordelingen til r XY for ρ = 0. Vi bemærker, at (8.14) viser, at T (r xy ) er lig med t-testet for hypotesen, at hældningen er 0 i regressionen af Y på X.

17 8.6.. FORDELING AF R XY FOR ρ Fordeling af r XY for ρ 0 Fordelingen til r XY fra en stikprøve på n indbyrdes uafhængige observationer fra en todimensional normalfordeling afhænger på temmelig kompliceret måde af ρ. Fordelingen blev udledt af R.A. Fisher (1915). For ρ = 0 er fordelingen symmetrisk om 0, som det fremgår af (8.15), men for ρ 0 bliver fordelingen mere og mere asymmetrisk når ρ vokser. I Figur 8.6 er tætheden for r XY for n = 8 angivet for ρ = 0 og ρ = 0.8. Til mange praktiske formål behøver man ikke at benytte sig af fordelingen til r XY, idet der findes en strengt voksende transformation af r XY hvis fordeling med god tilnærmelse er normal allerede for små stikprøvestørrelser, og hvor det med god tilnærmelse kun er middelværdien af den transformerede variabel som afhænger af ρ (jævnfør Opgave 8.6). Transformationen blev angivet af R.A. Fisher (1915) og kaldes Fishers Z, hvor Z = 1 ln 1 + r XY 1 r XY = tanh 1 (r XY ). (8.16) I Figur 8.6 er tætheden for Z vist for n = 8 og ρ = 0 og ρ = 0.8. De fire første momenter blev angivet af Fisher (191) og senere revideret af Gayen (1951). Idet ζ = 1 ln 1 + ρ (8.17) 1 ρ er EZ = ζ + ρ { ρ (n 1) µ = Var Z = 1 n 1 µ 3 = ρ3 (n 1) µ 4 = {3 (n 1) + } 4(n 1) + {1 + 4 ρ (n 1) + 6ρ 3ρ 4 6(n 1) ρ n 1 } ρ 1ρ 4 } 4(n 1) +. Idet γ 1 betegner skævheden (skewness) og γ topstejlheden (kurtosis) af fordelingen til Z fås γ 1 = µ 3 µ 3 = ρ6 (n 1) 3 + og γ = µ 4 µ 3 = n ρ 3ρ 4 (n 1) + (jævnfør Opgave 8.7). Da γ 1 og γ er tæt ved 0 allerede for små n, følger det, at Z allerede for små n med god tilnærmelse er normalfordelt med ovenstående middelværdi og varians, som til de fleste praktiske formål erstattes af EZ ζ + ρ (n 1)

18 14 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA Figur 8.6 Tæthedsfunktioner for r XY (øverst) og Z (nederst) vist for n = 8, ρ = 0 og ρ = 0.8

19 8.7. MODELKONTROL 15 og Man kan altså regne med, at Var Z 1 n ρ (n 1) 1 n 3. (Z ζ ρ (n 1) ) n 3 (8.18) med god tilnærmelse er N(0,1) fordelt. Da ρ/((n 1)) er lille i forhold til spredningen 1/ n 3 ser man ofte bort fra leddet ρ/((n 1)) i EZ og benytter approksimationen (Z ζ ) n 3 N(0,1). (8.19) Dog kan det have betydning at medtage leddet ρ/((n 1)), når man skal estimere ρ ud fra flere z-værdier fra uafhængige stikprøver fra todimensionale normalfordelinger med samme korrelation ρ. 8.7 Modelkontrol Skal man undersøge, om et observationssæt er todimensionalt normalfordelt, starter man med en undersøgelse af de marginale fordelinger. Er disse ikke normale, søges en passende transformation af observationerne, således at de transformerede værdier kan betragtes som normalfordelte. Sammenhængen mellem de variable undersøges ved at indtegne punktparrene i et scatterplot. Om variationen i punktparrene er forenelig med antagelse om todimensional normalfordeling kan undersøges ved hjælp af konturellipserne. Hvis ( ) (( ) { }) X µx σ N, x ρσ x σ y Y µ y ρσ x σ y er ifølge Opgave 8.1 størrelsen [ (X W = 1 ) µx 1 ρ ρ X µ x σ x σ x σ y Y µ y σ y + ( ) ] Y µy σ y (8.0) χ fordelt med frihedsgrader. Hvis parametrene var kendte, kunne (8.0) beregnes for hvert par (x i,y i ) af observationer i stikprøven, og derved kunne man få n uafhængige observationer fra χ () fordelingen. I anvendelser af dette resultat er parametrene imidlertid ukendte, og de må derfor erstattes af deres estimater, det vil sige at for i = 1,...,n beregner man w i = 1 1 r [ (xi x s x ) r x ( i x y i ȳ yi ȳ + s x s y s y ) ]. (8.1) Den empiriske fordeling af w 1,...,w n kan sammenlignes med fordelingsfunktionen for χ ()- fordelingen med et fraktildiagram. Det er særdeles let, da en χ () fordeling har fordelingsfunktionen F(x) = 1 e 1 x for x > 0, så fraktilerne findes uden tabelopslag ved at løse ligningen p = F(x p ) = 1 e 1 x p.

20 16 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA for x p, og det giver x p = ln(1 p). Hvis antallet af observationer er stort, kan undersøgelsen suppleres med en undersøgelse af de betingede fordelinger, som alle skal være normale. Desuden kan det undersøges, om de betingede fordelinger givet X (henholdsvis Y ) har samme varians. Endelig kan regressionslinjernes linearitet undersøges med en regressionsanalyse. Eksempel 8. (fortsat) Figur 8.7 viser de tegninger, der er relevante, når man kontrollerer for todimensional normalfordeling af længde og vægt i de to stikprøver og også for todimensional normalfordeling af logaritmen til længde og logaritmen til vægt i de to stikprøver. De øverste tegninger er scatterplots med regressionlinjerne for regressionen af vægt (ln vægt) på længde (ln længde). Begge tegninger er i overensstemmelse med antagelsen om todimensional normalfordeling. Eneste kvalitative forskel mellem originale og transformerede data synes at være at regressionslinjerne for de originale data har forskellig hældning i de to stikprøver. De fire tegninger i midten viser fraktildiagrammer for de marginale fordelinger. Ingen af disse tegninger strider mod antagelsen om normalfordeling for både de originale målinger og for de logaritmetransformerede målinger. Dette er ikke overraskende, når man lægger mærke til at den største observation i hver stikprøve er mindre end 3 gange så stor som den mindste observation, og husker tommelfingerreglen, at for at en logaritmetransformation skal have effekt, skal der være mindst en faktor 10 til forskel mellem mindste og største observation. For vægten bemærker man en lavere hældning i fraktildiagrammet for august stikprøven end for juli stikprøven, som kunne tyde på en større varians for vægten i august. Endelig viser de to nederste tegninger fraktildiagrammerne baseret på (8.0). Ingen af tegningerne viser en markant afvigelse fra identitetslinjen, så disse tegninger bekræfter førstehåndsindtrykket fra scatterplottene, at både de originale og de logaritmetransformerede data er i overensstemmelse med antagelse om todimensional normalfordeling. Vi vælger at arbejde videre med logaritmen til højde og vægt af flere grunde. For det første er erfaringen fra større datasæt, at en logaritmetransformation ofte er nødvendig for at få normalfordeling. Det gælder for målinger af længde og vægt for en lang række af arter. For det andet er variansen af vægten i de to stikprøver signifikant forskellige, mens det ikke er tilfældet for logaritmen til vægten. For det tredje er beskrivelsen af væksten af skruptudserne en del enklere for logaritmen af længden og logaritmen af vægten end for de utransformerede variable. Det bliver illustreret, når vi analyserer middelværdierne af stikprøverne i Eksempel 8., som starter side 5. Idet vi lader x betegne logaritmen til længden og y betegne logaritmen til vægten, kan vi formulere en model for de to stikprøver på følgende måde. For juli stikprøven er (x 11,y 11 ),..., (x 1n1,y 1n1 ) observationer af uafhængige, identisk fordelte stokastiske variable med en todimensional normalfordeling, N (( µ1x µ 1y ) {, σ 1x ρ 1 σ 1x σ 1y ρ 1 σ 1x σ 1y σ 1y }), (8.)

21 8.7. MODELKONTROL 17 Figur 8.7 Forskellige kontroltegninger for antagelsen om todimensional normalfordeling af længde og vægt (venstre side) og logaritmen til længde og logaritmen til vægt (højre side).

22 18 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA og for august stikprøven er (x 1,y 1 ),...,(x n,y n ) observationer af uafhængige identisk fordelte stokastiske variable med en todimensional normalfordeling, (( ){ µx σ }) N x ρ σ x σ y. (8.3) µ y ρ σ x σ y Endvidere er de to stikprøver uafhængige. Estimater for middelværdier, varianser og korrelationskoefficient for de to stikprøver gives nedenfor. Juli stikprøven: x 1 =.80 ȳ 1 = 5.78 s (1)x = s (1)y = r 1 = August stikprøven: σ y x = 3.09 ȳ = 6.57 s ()x = s ()y = r = 0.94 Her bruger vi ligesom i Kapitel 3 parenteser omkring indeks for stikprøven i betegnelsen for variansestimaterne. 8.8 Inferens om ρ baseret på en stikprøve fra N Test af hypotesen ρ = 0 Intuitivt test baseret på r xy Et intuitivt rimeligt test for hypotesen H: ρ = 0 er baseret på estimatet r xy for ρ. Fordelingen af r XY er symmetrisk om 0, så de værdier af r, som er mere kritiske for hypotesen end den observerede værdi r xy, er værdier som er numerisk større end eller lig med r xy. Derfor er testsandsynligheden p obs (x,y) = P( r XY rxy ) = P( T (r XY ) T (rxy ) ) = ( 1 F t(n ) ( T (r xy ) ) ), (8.4) hvor vi har brugt T -transformationen i (8.15), og at T (r XY ) har en t(n ) fordeling. Stikprøvefunktionerne r xy og T (r xy ) er ækvivalente som teststørrelser for hypotesen H: ρ = 0, men hvis beregningerne udføres i hånden, er T (r xy ) det naturlige valg, fordi testsandsynligheden beregnes ved hjælp af dens t(n )-fordeling. Sidst i det afsnit, hvor T -transformationen blev introduceret på side 1, bemærkede vi at T (r xy ) var lig med t-teststørrelsen for hypotesen, at hældningen af regressionslinjen er lig med 0 i regressionen af Y på X. Sidstnævnte teststørrelse har også en t(n ) fordeling, så testsandsynlighederne for de to tests er identiske. Vi viser nu, at testet i (8.4), er identisk med likelihood ratio testet for hypotesen, at ρ = 0.

23 LIKELIHOOD RATIO TEST FOR HYPOTESEN ρ = 0 19 Likelihood ratio test for hypotesen ρ = 0 Likelihood ratio testet for hypotesen ρ = 0 bygger på Q = maxl(µ x, µ y,σ x,σ y,0) maxl(µ x, µ y,σ x,σ y,ρ) = maxl 1(µ x,σ x )maxl (α,0,ω ) maxl 1 (µ x,σ x )maxl (α,β,ω ) = maxl (α,0,ω ) maxl (α,β,ω ). Likelihood ratio testoren afhænger derfor på samme måde af (X 1,...,X n,y 1,...,Y n ), som likelihood ratio testoren for hypotesen β = 0 i regressionsanalysen Y 1,...,Y n uafhængige Y i N(α + βx i,ω ) afhænger af (x 1,...,x n,y 1,...Y n ). Det følger nu fra regressionsanalysen, at Q q T t, hvor n T (X) SPD XY SSD X SSDX = n T 1(X) T (X) = n r XY 1 r XY = T (r xy ) ifølge (8.15) er t-fordelt med n frihedsgrader. Det ses også let, at Q q R r R r. Testsandsynligheden findes altså let i en tabel over B-fordelingen eller t-fordelingen. De fleste statistiske tabelværker indeholder dog en tabel over fordelingen af r XY for ρ = 0. I Afsnit 8.5 vistes, at når ρ = 0 er ( X.,s X,Ȳ.,s Y ) uafhængige af r XY, som bruges til at teste hypotesen ρ = 0. Det er en stor fordel. Dels betyder det, at fordelingen til estimatorerne ikke påvirkes af den observerede værdi r af r XY, når denne vel at mærke er sådan, at hypotesen accepteres, og dels betyder det, at testsandsynligheden, som udregnes i fordelingen til r XY, ikke er påvirket af de aktuelle estimater Test af H 0 : ρ = ρ 0 og konfidensinterval for ρ Den approksimerende normalfordeling (8.19) kan bruges til at teste om en observeret korrelationskoefficient r afviger signifikant fra en teoretisk værdi ρ 0, eller med andre ord til at teste hypotesen H 0 : ρ = ρ 0. Transformeret til ζ svarer det til hypotesen som testes ved at beregne teststørrelsen, H 0 : ζ = ζ 0 = 1 ln 1 + ρ 0 1 ρ 0, u = (z ζ 0 ) n 3, (8.5) som under H 0 er en realisation af en (approksimativt) N(0,1)-fordelt stokastisk variabel, og derfor er testsandsynligheden p obs = (1 Φ(u)).

24 0 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA Vi har brugt u som betegnelse for teststørelsen i (8.5), fordi den er et eksempel på u teststørrelsen, der blev betragtet i (3.4). I dette tilfælde med kun én observation z fra en normalfordeling med varians 1/(n 3). Den vigtigste anvendelse af testet for en fast værdi af korrelationskoefficienten er at finde konfidensintervaller for korrelationskoefficienten. Benyttes (8.19) kan et (1 α) konfidensinterval for ζ umiddelbart beregnes til [ z 1 u 1 α/,z + 1 u 1 α/ ]. (8.6) n 3 n 3 Det er en anvendelse af (3.16) med én observation fra en normalfordeling med en kendt varians 1/(n 3). Dette konfidensinterval for ζ kan transformeres til et konfidensinterval for ρ ved at anvende den inverse transformation til (8.17) på endepunkterne. Den inverse transformation til (8.17) er ρ = eζ 1 e ζ + 1. (8.7) Eksempel 8. (fortsat) Vi kan nu vurdere, om der er en signifikant korrelation mellem ln længde og ln vægt i de to stikprøver og beregne konfidensintervaller for korrelationskoefficienten for at få en idé om præcisionen af estimaterne. Juli stikprøven: Estimatet for korrelationskoefficienten er r 1 = og teststørrelsen for korrelation 0 er n1 r 1 1 r 1 = = , og da P( T > ) < 0.001, hvor T er t-fordelt med 16 frihedsgrader, forkastes hypotesen om korrelation 0 for populationen i juli. Estimatet for korrelationskoefficienten er positive, så konklusionen er, at der er positiv sammenhæng mellem ln længde og ln vægt i populationen i juli. Et konfidensinterval for ρ 1 baseret på stikprøven kan beregnes ved hjælp af Fishers Z i (8.17) og formlen (8.6), som giver konfidensintervallet for ζ 1 = 1 ln 1+ρ 1 1 ρ 1, som efterfølgende transformeres til et konfidensinterval for ρ 1. Fishers Z er z 1 = 1 ln 1 + r 1 1 r 1 =.49, og 95% konfidensintervallet for ζ 1 er [ ] 1 z 1 n1 3 u , z 1 + n1 3 u = [ , ] 1.96 = [1.743,.755].

25 8.9. INFERENS OM ρ BASERET PÅ K STIKPRØVER 1 95% konfidensintervallet for ρ 1 fås ved at anvende transformationen i (8.7) på endepunkterne for dette interval, [ e ] 1 e , e e.755 = [0.941, 0.99]. + 1 Alle beregninger er baseret på den estimerede korrelationskoefficient r 1 = 0.978; men, som nævnt side 3, er det kvadratet på korrelationskoeffcienten, der er mest relevant, når det kommmer til fortolkning af størrelsen af korrelationen. I dette tilfælde er r1 = 0.956, og vi kan sige, at 95.6% af variationen i ln længde forklares af variationen i ln vægt og omvendt. August stikprøven: Resultatet for august stikprøven svarer nøje til det, som vi fandt for juli stikprøven. T -transformationen af r = 0.94 er 1.86, og vurderet i en t-fordeling med 1 frihedsgrader giver det en testsandsynlighed under Estimatet for korrelationskoefficienten er positivt, så konklusionen er, at der er positiv sammenhæng mellem ln længde og ln vægt i august populationen. Et 95% konfidensinterval for ρ er [0.866, 0.975]. Som nævnt senere side 3 er det kvadratet på korrelationskoefficienten, der er mest relevant for fortolkning af størrelsen af korrelationen. I dette tilfælde er r = 0.887, og vi kan sige at 88.7% af variationen i ln længde forklares af variationen i ln vægt og omvendt. Man kan naturligvis også kvadrere grænserne for konfidensintervallet og dermed få en idé om, hvor præcist dette udsagn er. 8.9 Inferens om ρ baseret på k stikprøver Hvis vi har observeret k korrelationskoefficienter r i, i = 1,...,k, baseret på uafhængige stikprøver af størrelse n i fra todimensionale normalfordelinger med korrelationskoefficienter ρ i, kan vi benytte (8.19) til at teste hypotesen, H: ρ 1 = = ρ k = ρ, at korrelationskoefficienterne er identiske. Det vil sige, at vi beregner Fishers Z på alle k estimerede korrelationskoefficienter og benytter, at ( ) 1 z i N ζ i,, (8.8) n i 3 samt at H er ækvivalent med H: ζ 1 = = ζ k = ζ, Teststørrelsen er (se Opgave 8.8 for udledningen) hvor X = k z = (z i z) (n i 3), (8.9) k z i (n i 3). (8.30) k (n i 3)

26 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA For nøjagtige beregninger i hånden er et bedre udtryk for X X = k ( k z i (n i 3) z i (n i 3) k (n i 3) ). (8.31) Under hypothesen om en fælles korrelationskoefficient, er X approksimativt χ fordelt med k 1 frihedsgrader, og store værdier af X er kritiske hypothesen H, så testsandsynligheden er p obs = 1 F χ (k 1) (X ). Hvis H ikke forkastes, bruges z i (8.30) som estimat for ζ, og et estimat for ρ fås ved at benytte (8.7) med ζ erstattet af z. Den approksimative fordeling af z er z N(ζ,1/ k (n i 3)), og derfor kan et (1 α) konfidensinterval for ζ fås som 1 1 z u 1 α/, z + k k (n i 3) (n i 3) u 1 α/. (8.3) Endelig kan dette interval transformeres til et (1 α) konfidensinterval for ρ ved hjælp af transformationen (8.7). Hvis antallet af observationsrækker er stort, kan det have betydning at bruge den mere nøjagtige approksimation i (8.18) og inkludere leddet ρ i /((n i 1)) i EZ i. Hvis vi beslutter at gøre det, må vi betragte modellen, hvor Z 1,...,Z k er uafhængige Z i N( 1 ln 1 + ρ i ρ i + 1 ρ i (n i 1), 1 n i 3 ), og i denne model estimere ρ og teste hypotesen H. Likelihood ligningen for ρ er k 1 (n i 3)( 1 ρ + 1 (n i 1) )(z i 1 ln 1 + ρ 1 ρ ρ (n i 1) ) = 0, som skal løses iterativt. Likelihood ratio teststørrelsen for hypotesen H er lnq = k (n i 3)(z i 1 ln 1 + ˆρ 1 ˆρ ˆρ (n i 1) ), hvor ˆρ betegner maksimum likelihood estimatet for ρ under hypotesen H. lnq er approksimativt χ fordelt med k 1 frihedsgrader og, som det altid er tilfældet med likelihood ratio test, med store værdier kritiske for hypotesen.

27 8.10. KORRELATION OG REGRESSION 3 Eksempel 8. (fortsat) Hypotesen om en fælles korrelation i juli og august populationerne, H: ρ 1 = ρ = ρ, kan testes med teststørrelsen X i (8.9). Bruges det alternative udtryk for X i (8.31) fås, og testsandsynligheden bliver X =.091, p obs = 1 F χ (1)(.091) = Hypotesen H om en fælles korrelation forkastes ikke. Estimatet for den fælles korrelationskoefficient fås fra estimatet z = af den fælles værdi af ζ via transformationen (8.7) som e e = ρ. + 1 Et 95% konfidensinterval for den fælles værdi af ζ fås fra formlen (8.3) som 1 1 z u 1 α/, z + [ k (n i 3) [1.6367,.993], k (n i 3) , u 1 α/ = ] = som derefter kan transformeres til et 95% konfidensinterval for den fælles korrelationskoefficient ρ: [ e ] 1 e , e e.993 = [0.9701, ]. + 1 Estimatet for ρ er = 0.95 med fortolkningen at 9.5% af variationen i ln længde kan forklares med variationen i ln vægt og omvendt Korrelation og regression Når man har forelagt et sæt sammenhørende værdier (x 1,y 1 ),...,(x n,y n ), vil korrelationskoefficienten give et mål for sammenhængen mellem xerne og yerne under forudsætning af todimensional normalfordeling. Ønsker man ud fra xerne at forudsige y erne, kan man derefter gå over til regressionsanalyse i den betingede fordeling af Y for givet X (eller omvendt). Meget ofte er hypotesen om todimensional normalfordeling urimelig, og den saglige problematik er en regressionstankegang. Angående fortolkning af korrelationskoefficientens størrelse bemærkes, at σ y = V (Y ) = ρ σ y + (1 ρ )σ y, hvor (1 ρ )σy genkendes som variansen i den betingede fordeling af Y givet X = x. Det fortolkes på den måde, at ρ angiver, hvor stor en del af variationen i Y, som forklares af X. Det er således snarere r end r, man skal angive ved slutningen af sin korrelationsanalyse.

28 4 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA 8.11 Fortolkning af korrelation I dette afsnit nævnes nogle forhold, man bør være opmærksom på i forbindelse med korrelation. Forkaster man i et datamateriale hypotesen ρ = 0 betyder det, at de variable er stokastisk afhængige. Dette betyder ikke automatisk, at der er nogen årsagssammenhæng mellem de to variable. For eksempel vil højde og vægt være positivt korrelerede i de fleste stikprøver fra den danske befolkning, og det indikerer, at den ene af de to variable kan bruges til at forudsige den anden, men det betyder ikke, at en forøgelse af højden forårsager en forøgelse af vægten, eller omvendt. Formodentlig skyldes den positive korrelation for disse to variable, at de begge er kausalt afhængige af visse fælles variable. Et andet fænomen er falsk korrelation (spurious correlation). Dette forekommer når andre faktorer end de to observerede har varieret og derved frembragt en korrelation. Et eksempel er følgende. Før indførelsen af de omfattende vaccinationer mod polio i 1950 erne, registrerede man hver uge salget af læskedrikke og antallet af nye tilfælde af polio. Man noterede sig en positiv korrelation mellem de to variable. Dette skyldes naturligvis ikke, at læskedrikke forårsager polio, men at begge variable varierer med årstiden. Salget af læskedrikke er størst i varmeperioder, og det er antallet nye poliotilfælde også. Har man mistanke om falsk korrelation er løsningen, at inddele materialet i undergrupper, hvor de eventuelt forstyrrende faktorer ikke varierer. Inden for hver undergruppe udregnes korrelationskoefficienten, og dennes afhængighed af de forstyrrende faktorer undersøges ved hjælp af metoderne i Afsnit Er korrelationskoefficienterne i undergrupperne ikke signifikant forskellige, kan man lave et fælles estimat for korrelationskoefficienten, som angivet i Afsnit Et lidt andet eksempel på falsk korrelation er følgende. Man har observationer fra indbyrdes uafhængige stokastiske variable U, V og W, og i stedet for at analysere disse observationer vælger man at analysere X = U/W og Y = V /W. Disse vil imidlertid som oftest være korrelerede på grund af den fælles divisor W. Man har altså på grund af sine manipulationer med tallene fået indført en korrelation. Variable som X og Y benævnes ofte rater eller index tal. Der er altså grund til at være på vagt, når man bliver stillet over for korrelationer mellem rater. I Opgave 8.9 præsenteres et kunstigt eksempel, hvor der synes at være en sammenhæng mellem storke og fødsler. Eksempel 8.1 (fortsat) Figuren tyder på en sammenhæng mellem tørstofindhold og bevaringsprocent for ascorbinsyre, og de marginale fordelinger synes med god tilnærmelse at kunne opfattes som normale (Kontroltegningerne er ikke vist). En sammenligning mellem den empiriske fordelingsfunktion for de n W værdier (jævnfør (8.0) og (8.1)) med χ () fordelingen i Figur 8.8 giver heller ikke anledning til at tvivle på antagelsen om todimensional normalfordeling. Beskrives observationerne ved en todimensional normalfordeling, fås estimaterne x = ȳ = s x =.594 s y = r = Det ses, at r n = = 3.69, 1 r

29 8.1. YDERLIGERE HYPOTESER OG TESTS I DEN TODIMENSIONALE NORMALFORDELING5 Figur 8.8 Kontrol af simultan normalfordeling. og da P( T > 3.69) = ca. 0.1%, hvor T er t-fordelt med frihedsgrader, bekræfter testet indtrykket af en afgjort positiv sammenhæng mellem tørstof indhold og bevaringsprocent. Ved en nærmere analyse er det naturligt at undersøge regressionen af bevaringsprocent på tørstofindhold. Regressionslinjen estimeres til y = x. Bemærk, at selv om r = er r = 0.38, så det er kun 38 % af variationen i % bevaret ascorbinsyre, der forklares af variationen i tørstofprocenten. 8.1 Yderligere hypoteser og tests i den todimensionale normalfordeling Indtil nu har vi kun betragtet sammenhængen mellem to variable, som den er beskrevet ved korrelationskoefficienten. For én stikprøve med todimensionale data kan det være af interesse at teste hypotesen, at middelværdivektoren har en fast værdi, og for to uafhængige stikprøver af todimensionale data kan det være af interesse at sammenligne middelværdierne af de underliggende fordelinger. Inden vi fortsætter med at beskrive de teknikker, vil vi afslutte analysen af Eksempel 8. udelukkende med brug af velkendte teknikker fra Kapitel 3: to observationsrækker og lineær regression. Eksempel 8. (fortsat) En fuldstændig behandling af dette eksempel omfatter en beskrivelse af om der er ændringer i størrelsesfordelingerne mellem de to datoer.

30 6 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA På side 16 formulerede vi modellen for de to stikprøver i (8.) og i (8.3) som to uafhængige observationsrækker fra den todimensionale normalfordeling uden nogen restriktioner på parametrene. I fortsættelsen af Eksempel 8. på side 3 fandt vi, at vi kunne antage, at korrelationskoefficienterne kunne antages at være identiske i de to stikprøver, og vi betegnede den fælles korrelationskoefficient med ρ. Det er den eneste modelreduktion, vi har betragtet indtil nu. Vurderet ud fra fraktildiagrammerne i Figur 8.7 ser det ud som om, der kan være ens varians af ln længde på de to tidspunkter og også ens varians af ln vægt på de to tidspunkter. Det viser sig da også, at hypoteserne σ1x = σ x = σ x og σ1y = σ y = σ y ikke bliver forkastet af de formelle F-test for ens varians, som blev udledt i Afsnit 3..1 på side 90 i Bind 1. Beregningerne er ikke gengivet her. Modellen kan altså reduceres til to uafhængige stikprøver fra todimensionale normalfordelinger med samme kovariansmatiks. For julistikprøven er den todimensionale normalfordeling N (( µ1x µ 1y ) { σ, x ρσ x σ y ρσ x σ y σ y }), (8.33) og for auguststikprøven er den todimensionale normalfordeling (( ) { }) µx σ N, x ρσ x σ y. (8.34) µ y ρσ x σ y Estimaterne for varianserne er de sædvanlige estimater baseret på to éndimensionale normalfordelte observationsrækker σ y σ x s x = σ x χ (39)/(39), σ y s y = σ y χ (39)/(39), hvor 39 = n 1 + n. Estimatet for ρ blev givet på side 3 som 0.96, men vi vil ikke få brug for værdien af estimatet her. Estimaterne for middelværdierne er de gennemsnit, som blev givet side 18. Vi kan nu fortsætte analysen ved at teste om fordelingerne af ln længde kan antages at have samme middelværdi på de to tidspunkter, det vil sige H 0x : µ 1x = µ x. t-teststørrelsen er t 1 = x 1 x ( 1 ) = 10.8, (8.35) s x n n og da t skal vurderes i en t(39)-fordeling er testsandsynligheden mindre end og H 0x forkastes. Estimatet for middelværdien er størst for august stikprøven, skruptudserne er signifikant længere i august end i juli. Herefter kunne man fortsætte og teste hypotesen H 0y : µ 1y = µ y for ln vægt, og det ville vise, at skruptudserne var signifikant tungere i august end i juli. Men denne fremgangsmåde ville ikke være helt tilfredsstillende. For på grund af den stærke korrelation mellem længde og

31 8.1. YDERLIGERE HYPOTESER OG TESTS I DEN TODIMENSIONALE NORMALFORDELING7 vægt ville man spekulere på, om den signifikante forskel i vægten simpelthen skyldtes forskellen i længden og korrelationen mellem de to variable. Løsningen er at benytte faktoriseringen (8.13) af den todimensionale normalfordeling. For de todimensionale fordelinger i (8.33) og i (8.34) giver faktoriseringerne og x 1i N(µ 1x,σ x ), (8.36) y 1i X 1i = x 1i N(µ 1y + ρ σ y σ x (x 1i µ 1x ),σ y (1 ρ )), (8.37) x i N(µ x,σ x ), (8.38) y i X i = x i N(µ y + ρ σ y σ x (x i µ x ),σ y (1 ρ )). (8.39) Når man omordner leddene i middelværdien af de betingede fordelinger i (8.37) og (8.39) kan de skrives som y 1i X 1i = x 1i N(α 1 + βx 1i,σ y (1 ρ )) og y i X i = x i N(α + βx i,σ y (1 ρ )) hvor β = ρ σ y σ x, α 1 = µ 1y ρ σ y σ x µ 1x = µ 1y β µ 1x, α = µ y ρ σ y σ x µ x = µ y β µ x. Bemærk, at regressionsmodellerne for ln vægt givet ln længde har den samme hældning, fordi varianser og korrelationen antages at være ens til de to tidspunkter. Tegningen øverst til højre i Figur 8.7 viser data med regressionslinjerne i de to stikprøver indtegnet og hældningerne er meget tæt ved hinanden. De eneste parametre, som kan være forskellige for de to stikprøver, er afskæringerne, og det er meget naturligt at teste om de er ens, det vil sige, H 0 : α 1 = α, for når denne hypotese formuleres i middelværdierne, er den µ 1y β µ 1x = µ y β µ x eller µ 1y µ y = β(µ 1x µ x ). Hypotesen siger således, at ændringen i middelværdien af ln vægt mellem de to fordelinger (µ 1y µ y ) fuldt ud forklares af ændringen af middelværdierne for ln længde (µ 1x µ x ) mellem de to fordelinger. Hypotesen testes ved hjælp af teknikkerne for at sammenligne regressionslinjer i Afsnit 4. i Bind 1. Det følgende SAS program udfører de nødvendige beregninger.

32 8 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA PROC GLM DATA=bufobufo; CLASS dato; MODEL ln_vaegt=ln_laengde dato/ss1 SOLUTION; RUN; Variablen dato indicerer de to stikprøver, og da dato står i CLASS sætningen, specificerer MODEL sætningen to parallelle regressionslinjer med mulighed for forskellige afskæringer. Hvis dato fjernes fra MODEL sætningen, er det modellen med en fælles regressionslinje, der specificeres, og derfor kan F-testet for H 0 : α 1 = α findes i nederste linje af SS1 tabellen i udskriften, jævnfør forklaringen af type I kvadratsummerne i slutningen af Anneks til Afsnit 4. i Bind. Det ækvivalente t-test kan findes i linjen dato i Parameter Estimate tabellen af udskriften til t = (8.40) Source DF Type I SS Mean Square F Value Pr > F ln_laengde <.0001 dato Standard Parameter Estimate Error t Value Pr > t Intercept B <.0001 ln_laengde <.0001 dato B dato B... F-testet er 0.3 og svarer til en testsandsynlighed på 0.63, så hypotesen bliver ikke forkastet. Det er ikke særligt overraskende på baggrund af tegningen øverst til højre i Figur 8.7, som viser at regressionslinjerne for de to stikprøver er næsten sammenfaldende. Data er således i meget god overensstemmelse med antagelsen, at ændringen i middelværdien af ln vægt er fuldt ud forklaret af ændringen i middelværdien af ln længde. Det var denne enkle beskrivelse af væksten af skruptudser, vi havde i tankerne på side 16, da vi besluttede at analysere logaritmerne frem for de oprindelige variable. Vi afslutter dette kapitel med nogle få resultater, som er nyttige i analysen af en enkelt stikprøve fra en todimensional normalfordeling og for analysen af to uafhængige stikprøver fra todimensionale normalfordelinger. Vi skal her bruge lidt notation fra lineær algebra. Vi vil betragte vektorer som søjlevektorer, og vi vil bruge til at betegne den transponerede af en vektor. Resultaterne er analoge til resultaterne for én og to stikprøver fra endimensionale normalfordelinger, som blev givet i Afsnit 3.1 og Afsnit 3. i Bind Én stikprøve fra den todimensionale normalfordeling Lad (x 1,y 1 ),...,(x n,y n ), med n 3, være en stikprøve fra den todimensionale normalfordeling. Dermed er (x i,y i ), i = 1,...,n, realisationer af stokastiske variable (X i,y i ), i = 1,...n, som er uafhængige og har fordelingen, N (( µx µ y ) { σ, x ρσ x σ y ρσ x σ y σy }). (8.41)

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable IMM, 00--6 Poul Thyregod Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable Todimensionale stokastiske variable Lærebogens afsnit 4 introducerede sandsynlighedsmodeller formuleret

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Perspektiver i Matematik-Økonomi: Linær regression

Perspektiver i Matematik-Økonomi: Linær regression Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, email: jlj@imf.au.dk Perspektiver i Matematik-Økonomi: Linær regression p. 1/34 Program for i dag 1. Indledning: sammenhæng mellem

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med Repetition: Varians af linear kombination Landmålingens fejlteori Lektion 5 Fejlforplantning - rw@math.aau.dk Antag X 1, X,..., X n er uafhængige stokastiske variable, og Y er en linearkombination af X

Læs mere

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1 (a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345) Kursus 4: Besvarelser til øvelses- og hjemmeopgaver i uge 11 Opgave 11.4 side 316 (7ed: 11.4, side 35 og 6ed: 11., side 345) Opgaven består i at foretage en regressionsanalse. Først afbildes data som i

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Nanostatistik: Lineær regression

Nanostatistik: Lineær regression Nanostatistik: Lineær regression JLJ Nanostatistik: Lineær regression p. 1/41 Sammenhænge Funktionssammenhæng: y er en funktion af x. Ex: Hvis jeg kender afstanden mellem to galakser så kender jeg også

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Nanostatistik: Konfidensinterval

Nanostatistik: Konfidensinterval Nanostatistik: Konfidensinterval JLJ Nanostatistik: Konfidensinterval p. 1/37 Fraktilpåmindelse u p : Φ(u p ) = p, Φ( z ) = 1 Φ( z ) t p [f] : F t[f] (t p [f]) = p, F t[f] ( t ) = 1 F t[f] ( t ) F-fordeling:

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

hvor a og b er konstanter. Ved middelværdidannelse fås videre

hvor a og b er konstanter. Ved middelværdidannelse fås videre Uge 3 Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge ) 3. Middelværdivektor, kovarians- og korrelationsmatrix 4. Summer af stokastiske variable 5.Den

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Lidt om fordelinger, afledt af normalfordelingen

Lidt om fordelinger, afledt af normalfordelingen IMM, 2002-10-10 Poul Thyregod Lidt om fordelinger, afledt af normalfordelingen 1 Introduktion I forbindelse med inferens i normalfordelinger optræder forskellige fordelinger, der er afledt af normalfordelingen,

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Statistik for ankomstprocesser

Statistik for ankomstprocesser Statistik for ankomstprocesser Anders Gorst-Rasmussen 20. september 2006 Resumé Denne note er en kortfattet gennemgang af grundlæggende statistiske værktøjer, man kunne tænke sig brugt til at vurdere rimeligheden

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Den todimensionale normalfordeling

Den todimensionale normalfordeling Den todimensionale normalfordeling Definition En todimensional stokastisk variabel X Y siges at være todimensional normalfordelt med parametrene µ µ og når den simultane tæthedsfunktion for X Y kan skrives

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Per Bruun Brockhoff, DTU Compute, Claus Thorn Ekstrøm, KU Biostatistik, Ernst Hansen, KU Matematik January 17, 2017 Abstract

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Lineære normale modeller (4) udkast

Lineære normale modeller (4) udkast E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,

Læs mere

Nanostatistik: Opgavebesvarelser

Nanostatistik: Opgavebesvarelser Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,

Læs mere