Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på målinger. Fordelingens sandsynlighedsteoretiske egenskaber giver et solidt matematisk grundlag at bygge på. Overheads til forelæsninger, mandag 7. uge Normalfordelingen er symmetrisk, har et maximum og er fuldstændigt beskrevet ved to parametre, nemlig midddelværdien og variansen (eller standardafvigelsen). 2 Hvis X er normalfordelt med middelværdi µ og varians σ 2 har X tæthed { } ϕ(x) = exp (x µ)2 2πσ 2 2σ 2 Vi skriver X N(µ, σ 2 ) Vi antager fremover at vi har observationer af x = (x,..., x n ) X = (X,..., X n ) hvor X i, i =,..., n er normalfordelte med samme varians σ 2, men muligvis med forskellig middelværdi µ i. T-test benyttes når man vil teste hypoteser om middelværdien af normalfordelte variable. Vi ser på 3 forskellige slags t-test: One-sample t-test benyttes når man vil teste om uafhængige, identisk fordelte normale variable kommer fra en fordeling med en kendt middelværdi. Uparret t-test benyttes når man vil sammenligne middelværdierne i to grupper af uafhængige, identisk fordelte normale variable. Det antages at der er samme varians i de to grupper, og man ønsker at teste om middelværdierne er ens. Parret t-test benyttes når man vil teste om differencen mellem sammenhørende par af observationer af normalfordelte variable med samme varians kommer fra en normalfordeling med kendt middelværdi. Er det samme som one-sample t-test udført på differenserne. 3 4
One-sample t-test Statistisk model: hvor N (µ,σ 2 ) har tæthed Hypotese: ϕ (µ,σ 2 )(x) = (R n, (N (µ,σ 2 )) (µ,σ 2 ) R ]0, [) ( 2πσ 2 ) n exp { H : µ = µ 0 2σ 2 } (x s µ) 2 s= Estimatorer under den fulde model: og ˆµ = n ˆσ 2 = n dog benyttes s 2 = x s = x s= (x s x) 2 s= n (x s x) 2 ˆµ N(µ, σ2 n ) ; SSD = nˆσ2 = (n )s 2 σ 2 χ 2 n ; ˆµ s 2 s= 5 6 Kvotientteststørrelsen for test af µ = µ 0 er Estimatorer under hypotesen: µ = µ 0 σ 2 = (x s µ 0 ) 2 n s= og n σ 2 σ 2 χ 2 n ( ˆσ 2 Q(x) = σ 2 ) n 2 og testsandsynligheden er givet ved ( ɛ(x) = 2P T n x µ ) 0 s/ n hvor T n er T fordelt med n frihedsgrader. Bemærk: Vi beregner gennemsnittet, trækker den formodede middelværdi fra og dividerer med et estimat af standardafvigelsen. Vi har altså en teststørrelse, der under hypotesen har middelværdi 0 og varians. 7 8
Bemærk også at under hypotesen er X N(µ 0, σ2 n ), dvs at n( X µ0 ) N(0, σ 2 ). Desuden er (n )s 2 σ 2 χ 2 n og X s 2. Definitionen af en t-fordeling med f frihedsgrader er netop T = hvor U N(0, ) og Z χ 2 f og U Z. U Z/f Vi kan altså direkte se at vores teststørrelse n( x µ0 ) n( x µ0 )/σ T = = s ((n )s2 /σ 2 )/(n ) er t-fordelt med n frihedsgrader. VIGTIGT: Testsandsynligheden (p-værdien) angiver sandsynligheden for at man under et lignende eksperiment observerer den samme eller en større afstand mellem gennemsnittet og den formodede middelværdi som den man har observeret i det konkrete eksperiment. Hvis denne sandsynlighed er stor kan vi godt tro på at den observerede forskel blot skyldes tilfældig variation. Hvis sandsynligheden er lille vil vi være tilbøjelige til ikke at tro på at det udelukkende skyldes tilfældigheder, men snarere at data ikke stammer fra en fordeling med den formodede middelværdi. Hvis testsandsynligheden er mindre end 0.05 siger vi at middelværdien er signifikant forskellig fra µ 0 på 5% niveau. 9 0 Uparret t-test: Sammenligning af middelværdi i to normalfordelinger Observation fra x = (x rs ) r=,2,s=,...nr X = (X rs ) r=,2,s=,...nr uafhængige normalfordelte variable X rs N(µ r, σ 2 ) med µ r R og σ > 0. Sæt n = n + n 2. X har tæthed ϕ µ,µ 2,σ 2(x) = ( 2πσ 2 ) n exp { 2σ 2 } 2 n r (x rs µ r ) 2 r= s= Statistisk model og hypotese Statistisk model (R n, (N (µ,µ 2,σ 2 )) (µ,µ 2,σ 2 ) R 2 ]0, [) hvor N (µ,µ 2,σ 2 ) har tæthed ϕ µ,µ 2,σ 2(x) Hypotese: H : µ = µ 2 = µ 2
Estimatorer og teststørrelse MLE under M : ˆµ r = x r ˆσ 2 = n Dog benyttes : s 2 = n 2 MLE under H : µ = x σ 2 = n Dog benyttes : s 2 = n 2 n r (x rs x r ) 2 r= s= 2 n r (x rs x r ) 2 r= s= 2 n r (x rs x) 2 r= s= 2 n r (x rs x) 2 r= s= Testsandsynlighed og fordeling af estimatorer Fordeling af MLE under M: Fordeling af MLE under H: ˆµ ˆµ 2 ˆσ 2 ˆµ r N(µ r, n r σ 2 ) nˆσ 2 σ 2 χ 2 n 2 µ ˆσ 2 µ N(µ, n σ2 ) n σ 2 σ 2 χ 2 n 3 4 Kvotientteststørrelse Testsandsynlighed ( ˆσ 2 Q(x) = σ 2 ) n 2 ɛ(x) = 2P T n 2 x x 2 s n + n 2 hvor s 2 = 2 nr n 2 r= s= (x rs x r ) 2, og T n 2 er T fordelt med n 2 frihedsgrader. Bemærk: Vi beregner differencen på de to gennemsnit, trækker den formodede middelværdi fra (=0) og dividerer med et estimat af standardafvigelsen på differencen. Vi har altså en teststørrelse, der under hypotesen har middelværdi 0 og varians. Også her kan vi direkte se fordelingen af vores teststørrelse udfra fordelingerne af de enkelte elementer og definitionen af en t-fordeling., Eksempel: eksamensopgave For at undersøge om methylkviksølv er lige farligt for mænd og kvinder udførtes et forsøg hvor raske personer fik indgivet CH 203 3 oralt. I forsøget deltog seks kvinder og ni mænd. For hver person måltes halveringstiden i dage for den indgivne methylkviksølv. Det kan i det følgende antages at observationerne er uafhængige og normalfordelte. Ved besvarelsen kan nedenstående R-udskrifter og Figur anvendes. Resultaterne er angivet i datasættet methyl 5 6
> methyl sex halvtid kvinde 52 2 kvinde 69 3 kvinde 73 4 kvinde 88 5 kvinde 87 6 kvinde 56 7 mand 72 8 mand 88 9 mand 87 0 mand 74 mand 78 2 mand 70 3 mand 78 4 mand 93 5 mand 74. Er det rimeligt at antage at målingerne fra henholdsvis mænd og kvinder stammer fra fordelinger med samme varians? 2. Angiv et estimat og et 95% konfidensinterval for forskellen mellem middelværdierne for halveringstiden for kvinder og mænd. 3. Kan halveringstiden antages at være den samme for kvinder og mænd? Forklar p-værdien i Udskrift 2. 4. Antag at halveringstiden ikke afhænger af køn. Angiv estimater for middelværdi og varians i den fælles halveringsfordeling. 5. Kommenter residualplottet Figur. Er det rimeligt at antage at data er normalfordelt? 7 8 Udskrift > var.test(halvtid ~ sex, data = methyl) Udskrift 2 > t.test(halvtid ~ sex, data = methyl, var.equal=true) F test to compare two variances Two Sample t-test data: halvtid by sex F = 3.4907, num df = 5, denom df = 8, p-value = 0.43 alternative hypothesis: true ratio of variances is not equal to 0.724664 23.58704 sample estimates: ratio of variances 3.490677 data: halvtid by sex t = -.4269, df = 3, p-value = 0.772 alternative hypothesis: true difference in means is not equal to 0-2.369686 4.369686 sample estimates: mean in group kvinde mean in group mand 70.83333 79.33333 9 20
Udskrift 3 > t.test(halvtid, data = methyl) One Sample t-test data: halvtid t = 25.065, df = 4, p-value = 4.835e-3 alternative hypothesis: true mean is not equal to 0 69.44653 82.4203 sample estimates: mean of x 75.93333 Residualer 2.0.5.0 0.5 0.0 0.5.0.5 2 4 6 8 0 2 4 Index 2 22 Løsning til spørgsmål. Er det rimeligt at antage at målingerne fra henholdsvis mænd og kvinder stammer fra fordelinger med samme varians? Løsning til spørgsmål 2 2. Angiv et estimat og et 95% konfidensinterval for forskellen mellem middelværdierne for halveringstiden for kvinder og mænd. Fra Udskrift : F = 3.4907, num df = 5, denom df = 8, p-value = 0.43 alternative hypothesis: true ratio of variances is not equal to 0.724664 23.58704 Se også IH s. 48 49. Fra Udskrift 2: -2.369686 4.369686 sample estimates: mean in group kvinde mean in group mand 70.83333 79.33333 23 24
Løsning til spørgsmål 4 Løsning til spørgsmål 3 3. Kan halveringstiden antages at være den samme for kvinder og mænd? Forklar p-værdien i Udskrift 2. Fra Udskrift 2: t = -.4269, df = 3, p-value = 0.772 alternative hypothesis: true difference in means is not equal to 0-2.369686 4.369686 4. Antag at halveringstiden ikke afhænger af køn. Angiv estimater for middelværdi og varians i den fælles halveringsfordeling. Fra Udskrift 3: t = 25.065, df = 4, p-value = 4.835e-3 alternative hypothesis: true mean is not equal to 0 69.44653 82.4203 sample estimates: mean of x 75.93333 25 26 T-teststørrelsen er givet ved T = x µ 0 s/ n hvor s 2 er estimatet for variansen vi er interesseret i. Testet er for µ 0 = 0 og x er angivet til at være 75.9333. Frihedsgraderne er 4 og antallet af observationer er således n = 5. Vi får s 2 = ( x µ 0) 2 T 2 /n 75.93333 2 = 25.065 2 /5 = 37.2094 Løsning til spørgsmål 5 5. Kommenter residualplottet Figur. Er det rimeligt at antage at data er normalfordelt? Bemærk at punkterne ligger nogenlunde symmetrisk omkring 0 uden åbenlys stuktur og uden outliers. Residualplottet kan således godt underbygge en antagelse om normalfordelte data. Derfor estimerer vi fordelingen af halveringstiden til N(75.93333, 37.2094). 27 28
Lineær regression Observationssæt t x Parret t-test Dette test benyttes hvis man har sammenhørende par af observationer, for eksempel før og efter et indgreb på samme subjekt, og man ønsker at teste om indgrebet ændrer middelværdien. I praksis udføres testet ved at lave et one-sample t-test på differencerne. t x...... t n x n Realisationer af stokastiske variable X r, r =,..., n X r erne er indbyrdes uafhængige. X r N(ν + βt r, σ 2 ) 29 30 Lineær regression Statistisk model Linearitetsmodel Ny parametrisering X r N(ν + βt r, σ 2 ) M l : EX r = α + β(t r t), (α, β) R 2, Parameterområde under modellen Θ 0 = R 2 ]0, [ x er observation fra den statistiske model EX r = α + β(t r t) for r =,..., n Regressionslinien bliver y(t) = α + β(t t) og liniens skæring med y aksen bliver α β t. hvor N α,β,σ 2 har tæthed ϕ α,β,σ 2(x) = (R n, (N α,β,σ 2) (α,β,σ 2 ) R 2 ]0, [) ( 2πσ 2 ) n exp { 2σ 2 } (x r α β(t r t)) 2 r= 3 32
MLE for (α, β, σ 2 ) er entydigt givet ved Dog benyttes s 2 l = ˆα = x ˆβ = n r= (x r x)(t r t) SSD t ˆσ l 2 = (x r x n r t)) 2 r= n 2 (x r x ˆβ(t r t)) 2 r= ˆα, ˆβ og ˆσ 2 l (eller s 2 l ) er uafhængige og ˆα N(α, n σ2 ) ˆβ N(β, SSD l = (n 2)s 2 l = nˆσ 2 l σ 2 χ 2 n 2 σ 2 SSD t ) 33 34 Estimatet for regressionslinien y(t) bliver Den stokastiske variabel har fordeling Y (t) N ŷ(t) = x + ˆβ(t t). Y (t) = X + ˆβ(t r t) (α + β(t t), σ 2 ( n + (t t) 2 ) ) SSD t Variansen på den estimerede regressionslinie vokser med afstanden til t, således at regressionslinien er bedst bestemt nær t. I praktiske anvendelser indsættes ( x, ˆβ, s 2 l ) i stedet for parameterværdierne, når man skal angive estimatorernes og den estimerede regressionslinies fordelinger. Test for β under linearitetsmodellen Hypotese: H β : EX r = α + β 0 (t r t), r =,..., n, α R Parameterområde under hypotesen: Θ β = R ]0, [ Statistisk model hvor N α,σ 2 har tæthed ϕ α,σ 2(x) = (R n, (N α,σ 2) (α,σ 2 ) R ]0, [) ( 2πσ 2 ) n exp { 2σ 2 } (x r α β 0 (t r t)) 2 r= 35 36
MLE under H β ˆα = x ˆσ 2 β = n Dog benyttes s 2 β = ˆα og ˆσ β 2 er uafhængige ˆα N(α, n σ2 ) (x r x β 0 (t r t)) 2 r= n (x r x β 0 (t r t)) 2 r= SSD β = (n )s 2 β = nˆσ2 β σ2 χ 2 n ( SSDt Testsandsynlighed: ɛ β (x) = 2P T β ˆβ ) β 0 hvor T β = SSDt( ˆβ(X) β 0) s l (X) er T fordelt med n 2 frihedsgrader. s l Eksempel på eksamen Fedtsyreprocenten er den fundamentale kvalitetsegenskab ved sæbe. Den bestemmes sædvanligvis ved langsomme kemiske laboratoriemålinger. Til lettelse af produktionskontrollen i sæbefabrikker har man foreslået at bestemme fedtsyreprocenten ved at måle sæbens elektriske ledningsevne. Ledningsevnen er let at måle, og målingerne kan udføres på produktionsstedet. I nedenstående tabel findes en række uafhængige bestemmelser af ledningsevnen målt i milli-siemens (ms) for en bestemt sæbetype og forskellige fedtsyreprocenter. 37 38 Fedtsyre- Ledningsevne procent i ms 8.3.40.20 0.90.00 82.2.75.50.70.80 82.3.52.52.67.67 83.0 2.0.95.85.90 Tabel : Sammenhæng mellem ledningsevne og fedtsyreprocent i sæbe. I R-udskriften nedenfor er data analyseret ved hjælp af en lineær regressionsmodel. Opstil den statistiske model. Redegør for forudsætningerne for analysen, og diskuter om disse kan antages at være opfyldte i det foreliggende tilfælde. 2. Angiv estimater for parametrene under regressionsmodellen og disses fordeling. 3. Er data forenelige med en hypotese om at ledningsevnen ikke afhænger af fedtsyreprocenten? 4. Er data forenelige med en hypotese om at regressionslinien har en hældning på 0.6? Ved besvarelsen kan nedenstående uddrag af et R-udskrift og et QQ-plot af de standardiserede residualer anvendes. Data antages at ligge i datasættet ledning med de to variable fedtpct og ledning. 39 40
Udskrift : Normal Q Q Plot Call: lm(formula = ledning ~ I(fedtpct - mean(fedtpct)), data = ledning) Residuals: Min Q Median 3Q Max -0.253553-0.7800 0.00274 0.3776 0.246447 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept).58938 0.0373 42.804 3.03e-6 I(fedtpct - mean(fedtpct)) 0.48425 0.0646 7.879.63e-06 --- Residual standard error: 0.485 on 4 degrees of freedom Sample Quantiles 2 0 2 2 0 2 Theoretical Quantiles 4 42 Besvarelse. Opstil den statistiske model. Data består af 6 observationer af ledningsevnen, hvor fedtsyreprocenten også er angivet. Vi angiver den rte måling af ledningsevnen som x r med tilhørende fedtsyreprocent t r. Det antages at ledningsevnen X r er normalfordelt med middelværdi α + β(t r t), hvor t er gennemsnittet af de angivne fedtsyreprocenter, og varians σ 2. Den statistiske model bliver således (R 6, (N α,β,σ 2) (α,β,σ 2 ) R 2 ]0, [) hvor N α,β,σ 2 har tæthed { ϕ α,β,σ 2(x) = ( exp 2πσ 2 ) 6 2σ 2 6 r= (x r α β(t r t)) 2 }. Redegør for forudsætningerne for analysen, og diskuter om disse kan antages at være opfyldte i det foreliggende tilfælde. Det antages at data er uafhængige. Det angives at det er uafhængige bestemmelser, så denne antagelse vil vi godtage. Derudover antages data at være normalfordelt med den givne middelværdi. Dette kan efterprøves ved at se på fordelingen af residualerne. Fra udskriftet kan vi bruge informationen om residualerne. Her bør henholdsvis min og max og. og 3. kvartil være nogenlunde lige store i absolut værdi. Det lader til at være fint opfyldt. Derudover bør medianen være tæt på 0, der er gennemsnittet af residualerne. Dette lader også til at være opfyldt, og vi godtager således normalfordelingsantagelsen. QQ-plottet af de standardiserede residualer indikerer også fin overensstemmelse med normalfordelingsantagelsen, da punkterne ligger tæt på en ret linie. 43 44
2. Angiv estimater for parametrene under regressionsmodellen og disses fordeling. Bemærk først at regressionen er foretaget på de centrerede værdier af fedtprocenten, dvs gennemsnittet af t r er fratrukket alle fedtprocentangivelser inden analysen. Vi skal angive estimater for de 3 parametre α, β og σ og deres fordelinger. Vi har ˆα = x r og ˆα N(α, σ2 n n ) r= n r= ˆβ = (x r x)(t r t) σ n r= (t og ˆβ N(β, 2 r t) 2 n r= (t r t) ) 2 s 2 = n 2 (x r x ˆβ(t r t)) 2 og (n 2)s 2 σ 2 χ 2 n 2 r= hvor s 2 er estimatet for σ 2. Vi benytter estimaterne for α, β og σ når fordelingerne skal vurderes. I udskriftet under Coefficients er α betegnet som interceptet og estimeret til.58938. Dette estimat er gennemsnittet af ledningsevnemålingerne. Standardfejlen for estimatet er angivet til 0.0373. Denne kunne også findes i sidste linie hvor s er angivet til 0.485. Antallet af målinger er n = 6. Bemærk at s/ n = 0.485/ 6 = 0.0373. Vi får således følgende bud på fordelingen af ˆα: ˆα N(.58938, 0.0373 2 ) 45 46 I udskriftet under Coefficients findes estimatet for β under I(fedtpct - mean(fedtpct)) og er estimeret til 0.48425 med en standard fejl på 0.0646. Vi har følgende bud på fordelingen af ˆβ: I udskriftets sidste linie angives et estimat for σ til s = 0.485 og frihedsgraderne er n = 2 = 4. Vi har følgende bud på fordelingen af s 2 : ˆβ N(0.48425, 0.0646 2 ) s 2 0.4852 χ 2 4 = 0.00575 χ 2 4 4 47 48
3. Er data forenelige med en hypotese om at ledningsevnen ikke afhænger af fedtsyreprocenten? Vi skal teste hypotesen H : β = 0 Dette kan gøres med t-teststørrelsen T β = SSDt ˆβ 0 s der under hypotesen er T-fordelt med n 2 = 4 frihedsgrader. Den er allerede regnet ud i udskriftet og kan findes på linien for β: I(fedtpct - mean(fedtpct)) 0.48425 0.0646 7.879.63e-06 Den er således angivet til T β = 7.879. Testsandsynligheden er opgivet til at være.63e-06. Der er altså en meget lille sandsynlighed for at observere en værdi for ˆβ på 0.48425 eller længere væk fra 0 i en stikprøve af denne størrelse, hvis den sande værdi af β er 0. Vi afviser således hypotesen om at ledningsevnen ikke afhænger af fedtsyreprocenten. 4. Er data forenelige med en hypotese om at regressionslinien har en hældning på 0.6? Vi skal teste hypotesen H : β = 0.6 Dette kan gøres med t-teststørrelsen SSDt T β = ˆβ 0.6 s der under hypotesen er T-fordelt med n 2 = 4 frihedsgrader. I udskriftets sidste linie er s angivet til 0.485, og vi har ˆβ = 0.48425. Vi mangler værdien af SSD t. Den kan beregnes således: Estimatet for standardfejlen på ˆβ er angivet til 0.0646, og er estimeret ved s/ SSD t. Vi får at SSDt = 0.485/0.0646 = 2.46206. 49 50 Vi kan nu beregne t-teststørrelsen: T β = SSDt ˆβ 0.6 s = 2.46206 0.48425 0.6 0.485 =.883 Testsandsynligheden er givet ved 2P (T.883) og kan slås op i R med ordren > 2*(-pt(.883339, df=4)) [] 0.080597 Da testsandsynligheden er større end 0.05 kan vi acceptere hypotesen om en hældning på 0.6 på 5% niveau. Hvis man ikke har mulighed for at slå testsandsynligheden op i R kan en tilnærmelse findes i MS s. 306. Her angives at P (T 4 2.45) = 0.025, dvs at P ( T 4 2.45) = 0.05. Da 2.45 >.883 kan vi konkludere at vi accepterer hypotesen på 5% niveau. En endnu grovere tilnærmelse kan findes udfra betragtningen: P ( T n.96) > P ( Y.96) = 0.05 for alle n =, 2,..., hvor Y er standard normalfordelt. Konklusion: Data er forenelige med en hypotese om at regressionslinien har en hældning på 0.6. 5 52