da er X 1 + X 2 N(µ 1 + µ 2,σ1 2 + σ2) Hvis X 1,...,X n er uafhængige og X r N(µ,σ 2 ), da er X = 1 n (X 1 +... + X n ) N(µ, σ2

Relaterede dokumenter
Normalfordelingen. Statistik og Sandsynlighedsregning 2

Konfidensinterval for µ (σ kendt)

Statistik og Sandsynlighedsregning 2

Modul 5: Test for én stikprøve

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Forelæsning 8: Inferens for varianser (kap 9)

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Oversigt. 1 Eksempel. 2 Fordelingen for gennemsnittet t-fordelingen. 3 Konfidensintervallet for µ Eksempel

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Kapitel 3 Centraltendens og spredning

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

En Introduktion til SAS. Kapitel 5.

Basal statistik. 30. januar 2007

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

Klasseøvelser dag 2 Opgave 1

Løsning eksamen d. 15. december 2008

Ensidet variansanalyse

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Module 12: Mere om variansanalyse

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Note til styrkefunktionen

Modul 3: Kontinuerte stokastiske variable

Konfidensintervaller og Hypotesetest

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Produkt og marked - matematiske og statistiske metoder

Tema. Dagens tema: Indfør centrale statistiske begreber.

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Statistik og Sandsynlighedsregning 2

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Kvantitative Metoder 1 - Forår Dagens program

En Introduktion til SAS. Kapitel 6.

Susanne Ditlevsen Institut for Matematiske Fag susanne

Løsning til eksaminen d. 14. december 2009

Susanne Ditlevsen Institut for Matematiske Fag susanne

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Oversigt: De næste forelæsninger

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Forsøgsplanlægning Stikprøvestørrelse

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Kvantitative Metoder 1 - Forår 2007

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

SENIORKURSUS STATA OG BIOSTATISTIK

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Estimation og konfidensintervaller

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Løsning til eksaminen d. 29. maj 2009

Opgaver til kapitel 3

Estimation og usikkerhed

Logistisk Regression - fortsat

Opgaver til Kapitel 3

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Perspektiver i Matematik-Økonomi: Linær regression

Kvantitative Metoder 1 - Forår 2007

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Deskriptiv Statitik. Judith L. Jacobsen, PhD.

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.

Kapitel 3 Centraltendens og spredning

Forsøgsplanlægning Stikprøvestørrelse

Kvantitative Metoder 1 - Forår 2007

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Matematisk Modellering 1 Hjælpeark

Seniorkursus i Biostatistik og Stata, Dag 2

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Nanostatistik: Opgavebesvarelser

Nanostatistik: Middelværdi og varians

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Transkript:

Statistik og Sandsynlighedsregning IH kapitel Overheads til forelæsninger, onsdag 5. uge Resultater om normalfordeling X N(µ,σ ). N har tæthed ϕ µ,σ (x) = exp (x µ) πσ σ EX = µ, Var(X) = σ X µ N(0,) σ Hvis X og X er uafhængige, X r N(µ r,σr), da er X + X N(µ + µ,σ + σ) Hvis X,...,X n er uafhængige og X r N(µ,σ ), da er X = n (X +... + X n ) N(µ, σ n ) Normalfordelingen Observation af x = (x,...,x n ) R n X = (X,...,X n ) X r N(µ,σ ) er uafhængige, identisk normalfordelte variable med µ R og σ > 0. X har tæthed ϕ µ,σ (x) = = n exp πσ σ (x s µ) ( πσ ) n exp σ (x s µ) Motiverende eksempel. Usikkerhed på middelværdi Patient Pimax (cm H O) 54.8 6.0 3 63.3 4 44. 5 40.3 6 36.3 7 9.3 8 4.6 9 6.6 Gennemsnit 4.7 Standardafvigelse 6.3 Model: X i : Pimax for patient nr. i X,...,X 9 uafh. N(µ,σ ), ˆµ = 4.7, ˆσ = 6.3 = SD 3 4

I R: > Pimax <- c(54.8,6,63.3,44.,40.3,36.3,9.3,4.6,6.6) > xbar <- mean(pimax) > xbar [] 4.6667 > s <- sd(pimax) > s [] 6.335 Antag: Et langt større eksperiment på en anden patientgruppe har fundet ˆµ = 35.0, ˆσ = 0.0 Spørgsmål: Er µ = 35.0 muligt i vores eksempel?. Hvis σ er kendt (sjældent): U-test. Hvis σ er ukendt (oftest): t-test 5 6. U-test: Lad Eksempel: X = n i= X i = 9 (X + + X 9 ) N(µ, σ /n ) SEM SD middel i stikprøve postuleret middel spredning for middel i stikprøve 4.7 35.0 0/ =.88 9 Hvis Y N(0,), hvad er P( Y.88)? = X µ 0 σ/ n N(0,) 0.0 0. 0. 0.3 0.4.88 0.88 Normalfordeling 7 8

I R: P( Y.88) = Φ(.88) = ( Φ(.88)) > mu0 <- 35 > sigma <- 0 > n <- 9 > y <- (xbar-mu0)/(sigma/sqrt(n)) > y [].88 > *pnorm(-abs(y)) [] 0.0600808 > *(-pnorm(abs(y))) [] 0.0600808 Statistisk model og maximum likelihood estimatoren Vi antager µ ukendt og σ = σ 0 kendt. Den statistiske model bliver (R n,(n µ ) µ R ) hvor N µ har tæthed ϕ µ (x) = ( exp πσ0 )n σ0 Likelihoodfunktionen for µ bliver derfor (x s µ) L : R n R [0, ) L(x,µ) = ϕ µ (x) Fortolkning? 9 0 Estimation af µ i normalfordeling med kendt varians Log-likelihooden bliver log ϕ µ (x) = n log Score-funktionen bliver d log ϕ µ (x) dµ ( ) πσ0 σ0 = σ 0 og likelihood-ligningen giver estimatoren σ0 (x s µ) (x s µ) (x s ˆµ) = 0 ˆµ = n x s = x Vi får således at maximum likelihood estimatoren er gennemsnittet af målingerne. Vi så tidligere at hvis X,...,X n er uafhængige og X r N(µ,σ ), da er X = n (X +... + X n ) N(µ, σ n ) Vi får derfor direkte fordelingen af maximum likelihood estimatoren ˆµ N(µ, σ 0 n )

Estimation af µ i normalfordeling med kendt varians Vi kunne også direkte have maximeret likelihooden. Der gælder (x s µ) = ((x s x) + ( x µ)) = = = (x s x) + ( x µ) + (x s x)( x µ) (x s x) + n( x µ) + ( x µ) (x s x) + n( x µ) (x s x) (x s x) Hvorfor er det vigtigt at kende estimatorens fordeling? Hvor godt er vores estimat? ˆµ N(µ, σ 0 n ) Hvor tæt kan vi forvente at det er på den sande værdi? 3 4 Normalfordelingen Konfidensinterval 0.0 0. 0. 0.3 0.4 µ 3σ µ σ µ σ µ µ + σ µ + σ µ + 3σ To parametre: µ : middelværdi σ : varians (σ er spredningen) Et interval omkring vores estimat, der angiver værdier hvor den sande værdi med stor sandsynlighed er indeholdt. ( ) Hvis ˆµ N(µ, σ 0 ˆµ µ n ), da vil P σ 0 / n.96 = 0.95 Derfor vil P Fortolkning? ( [ µ ˆµ.96 σ 0 ; ˆµ +.96 σ ]) 0 n n = 0.95 5 6

Normalfordelingen -.96 Normalfordelingen -.58 0.0 0. 0. 0.3 0.4 95%.5%.5% µ.96σ µ µ +.96σ 0.0 0. 0. 0.3 0.4 99% 0.5% 0.5% µ.58σ µ µ +.58σ Vi bruger tallet.96 til at konstruere 95% konfidensintervaller. Vi bruger tallet.58 til at konstruere 99% konfidensintervaller. 7 8 Test af hypotesen H : µ = µ 0. Kvotientteststørrelse: Q(x) = L(x, ˆµ 0) L(x, ˆµ) exp n ( πσ0 = )n σ0 (x s µ 0 ) exp n ( πσ0 )n σ0 (x s x) = exp σ0 ((x s µ 0 ) (x s x) ) = exp σ0 n( x µ 0 ) Da hypotesen er simpel, har vi at ǫ(x) = P µ0 (Q(X) Q(x)) = P µ0 ( log Q(X) log Q(x)) ( = P µ0 σ0 n( X µ 0 ) ) σ0 n( x µ 0 ) ( X µ0 = P µ0 σ 0 / n x µ ) 0 σ 0 / n ( X µ0 = P µ0 σ 0 / n x µ ) 0 σ 0 / n ( ( )) x µ0 = Φ σ 0 / n da X µ 0 σ 0 / n er standard normalfordelt. 9 0

Flere resultater om normalfordelingen Definition af χ -fordelingen: Hvis X,...,X n er uafhængige og X r N(0,), da er S = X +... + X n, summen af de kvadrerede variable, χ fordelt med n frihedsgrader (S χ n). Hvis X,...,X n er uafhængige og X r N(0,σ ), da er S = X +... + X n, summen af de kvadrerede variable, χ fordelt med n frihedsgrader og skalaparameter σ (S σ χ n). Hvis S χ n, da er ES = n Hvis S σ χ n, da er ES = nσ Hvis S og S er uafhængige og S r σ χ n r,r =,, da er S + S σ χ n +n Hvis X,...,X n er uafhængige, X r N(µ,σ ) og SSD = n r= (X r X), summen af de kvadrerede afvigelser (sum of squared deviations), da er SSD σ χ n og SSD X. Flere resultater om normalfordeling Definition af T-fordelinger: Motiverende eksempel. Normalfordeling med ukendt varians Hvis X N(0,), S χ n og X S, da er nx S T-fordelt med n frihedsgrader. t-test: Istedet for X µ 0 σ/ n benyttes X µ 0 s/ n Hvis X N(µ,σ ), S σ χ n og X S, da er n(x µ) S T-fordelt med n frihedsgrader. Hvis X,...,X n er uafhængige, X r N(µ,σ ), SSD = n r= (X r X) og s = n SSD, da er n( X µ) s T n. n hvor s i= = (X i X) (n ) der følger en t-fordeling med n frihedsgrader. 3 4

0.0 0. 0. 0.3 0.4 95% konfidensinterval [ x t n (0.975) s, x + t n (0.975) s ] n n Eksempel: Pimax-studiet [ 4.7.306 6.3 ; 4.7 +.306 6.3 ] = [8.79 ; 53.75] 9 9 indeholder 35.0 dvs. µ = 35.0 kan ikke afvises på 5%-niveau. 4 0 4 Normalfordeling og t fordeling med, 5 og 5 frihedsgrader 5 6 I R: > qnorm(0.975) [].959964 > > alpha <- 0.05 > qnorm(-alpha/) [].959964 > > n <- 9 > qt(0.975, df = n-) [].306004 Vigtigt: SD=Std(X i ) = σ SE (eller SEM) = Std(X) = n σ = n SD standard deviation eller standardafvigelse eller spredning eller varians standard error (of the mean) eller standardfejl 7 8

Statistisk model og maximum likelihood estimatoren Observation af x = (x,...,x n ) R n X = (X,...,X n ) X r N(µ,σ ) er uafhængige, identisk normalfordelte med µ R og σ > 0. X har tæthed n ϕ µ,σ (x) = exp πσ σ (x s µ) = ( πσ ) n exp σ (x s µ) Statistisk model og maximum likelihood estimatoren Statistisk model hvor N (µ,σ ) har tæthed ϕ (µ,σ )(x) = Likelihoodfunktion (R n,(n (µ,σ )) (µ,σ ) R ]0, [), ( πσ ) n exp σ (x s µ) L : R n R ]0, [ [0, [ L(x,µ,σ) = ( πσ ) exp n σ (x s µ) 9 30 Estimation af µ og σ i normalfordeling med ukendt varians Log-likelihood: ( ) l = log L(x,µ,σ) = n log πσ σ Score-funktioner: dl dµ = σ dl dσ (x s µ) = n σ + n σ 3 (x s µ) (x s µ) Likelihood-ligningerne giver estimatoren ˆσ ṋ σ + ˆσ 3 (x s ˆµ) = 0 ˆµ = n n (x s ˆµ) = 0 ˆσ = n = n x s = x (x s ˆµ) (x s x) ˆµ N(µ, σ n ) ; nˆσ σ χ n ; ˆµ ˆσ 3 3

Test af hypotesen H : µ = µ 0. Likelihoodfunktion under H: Log-likelihood: L : R n ]0, [ [0, [ L(x,σ) = ( πσ ) exp n σ (x s µ 0 ). ( ) l = log L(x,σ) = n log πσ σ Score-funktion: dl dσ = n σ + n σ 3 (x s µ 0 ) (x s µ 0 ) Likelihood-ligningen giver estimatoren ñ σ + σ 3 og selvfølgelig n (x s µ 0 ) = 0 σ = n µ = µ 0 Fordeling af estimatoren n σ σ χ n (x s µ 0 ) 33 34 Estimatorer og teststørrelse Kvotientteststørrelse MLE under M : ˆµ = x MLE under H : µ = µ 0 ˆσ = n n (x s x). σ = n n (x s µ 0 ) ( ˆσ Q(x) = σ ) n Testsandsynlighed og fordeling af estimatorer Fordeling af MLE under M: Fordeling af MLE under H: Testsandsynlighed ǫ(x) = P ˆµ ˆσ ˆµ N(µ, n σ ) nˆσ σ χ n. nˆσ σ χ n ( T n x µ ) 0 s/, n hvor T n er T fordelt med n frihedsgrader, og s = n n (x s x). 35 36

> data <- rnorm(00,mean=,sd=0.5) > t.test(data) One Sample t-test data: data t = 9.480, df = 99, p-value <.e-6 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 0.875549.06948 sample estimates: mean of x 0.9703983 > mu0 <- > t.test(data-mu0) One Sample t-test data: data - mu0 t = -0.594, df = 99, p-value = 0.5537 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -0.84453 0.069477 sample estimates: mean of x -0.096068 37 38 Parvist T-test x er observation af uafhængige, hvor Hypotese H : µ = 0. Definer Y r = X r X r. X = (X rs ) r=,...,n,,, X r N(α r,σ ) X r N(µ + α r,σ ). Y,...,Y n uafhængige, Y r N(α r,σ ). Test af µ = 0 ved at bruge Sætning.3. på y,...y n, hvor y r = x r x r. Sammenligning af respons for to uafhængige grupper Placebo Aktiv y y Målinger y y.. y,n y,n Gennemsnit y y 39 40

Normalfordelte målinger Sammenligning af middelværdi Y j N(µ,σ ) Y k N(µ,σ ) Antagelse: samme varians i de to grupper. [ ] X µ 0 (Y Y ) 0 idé: s laves til n SE(Y Y ) Eksempel: Måler to blodglukose-måleapparater forskelligt? Der foretages n = 50 målinger med apparat A og n = 50 målinger med apparat B, alle målinger foretages på samme blodprøve. Resultat: Blodglukosekoncentration Gennemsnit Spredning Apparat A 5,70 0,6 Apparat B 5,0 0,5 4 4 Først skal vi undersøge om spredningerne kan antages lige store på de to måleapparater. F-test: Hvis varianserne i de to grupper er ens vil Her SD SD F(n,n ) 0,6 0,5 =,44 > -pf(.44, df = 49, df = 49) [] 0.07059 Vi antager varianshomogenitet Fælles variansskøn Her s = s = (n )s + (n )s n + n s = SD apparat A s = SD apparat B (50 )(0,6) + (50 )(0,5) = 0,553 50 + 50 SE for differensen Y Y SE(Y Y ) = s + = 0,553 n n 50 + 50 = 0,05 43 44

t-test: Frihedsgrader = 50 + 50 = 98. > *(-pt(5.499, df=98)) [] 4.097506e-07 t = Y Y SE(Y Y ) = 5,7 5, 0,05 = 5,499 Signifikant forskel på middelglukosekoncentrationen målt på samme blodprøve med de to apparater. 95% konfidensinterval for forskellen i middelværdi Her (Y Y ) ± t n +n (0.975) SE(Y Y ) (5,7 5,) ± t 50+50 (0.975) 0,05 = [0,383 ; 0,87] indeholder ikke 0. Signifikant forskel på middelglukosekoncentrationen målt på samme blodprøve med de to apparater (Vi kan altså afvise H 0 på 5%-niveau). 45 46 Parvist T-test igen x er observation af uafhængige par hvor Hypotese H : µ = 0. Definer Y r = X r X r. X = (X rs ) r=,...,n,,, (X r,x r ) N((α r,µ + α r ),Σ). Y,...,Y n uafhængige, Y r N(µ,σ + σ ρσ σ ). Test af µ = 0 ved at bruge Sætning 3.3. på y,...y n, hvor y r = x r x r. Sammenligning af middelværdi i to normalfordelinger Observation fra x = (x rs ) r=,,,...nr X = (X rs ) r=,,,...nr, uafhængige normalfordelte variable X rs N(µ r,σ ) med µ r R og σ > 0. Sæt n = n + n. X har tæthed ϕ µ,µ,σ (x) = = n r r= exp πσ ( πσ ) n exp σ σ (x rs µ r ) n r (x rs µ r ). r= 47 48

Statistisk model og hypotese Statistisk model hvor N (µ,µ,σ ) har tæthed (R n,(n (µ,µ,σ )) (µ,σ ) R ]0, )) ϕ µ,µ,σ (x) = ( πσ ) n exp σ H : µ = µ = µ. n r (x rs µ r ). r= Likelihoodfunktioner Likelihoodfunktion under M: L : R n R ]0, [ [0, [ L(x,µ,µ,σ) = ( πσ ) exp n r n σ (x rs µ r ) Likelihoodfunktion under H: r= L : R n R ]0, [ [0, [ L(x,µ,σ) = ( πσ ) exp n r n σ (x rs µ) r= 49 50 Estimatorer og teststørrelse Kvotientteststørrelse H : µ = µ = µ. MLE under M : ˆµ r = x r ˆσ = n MLE under H : µ = x σ = n ( ˆσ Q(x) = σ n r (x rs x r ) r= n r (x rs x) r= ) n Testsandsynlighed og fordeling af estimatorer Fordeling af MLE under M: Fordeling af MLE under H: ˆµ ˆµ ˆσ ˆµ r N(µ r, n r σ ) nˆσ σ χ n. µ ˆσ µ N(µ, n σ ) n σ σ χ n. 5 5

> data <- rnorm(7,mean=,sd=) > data <- rnorm(3,mean=.5,sd=) > t.test(data,data) Testsandsynlighed ǫ(x) = P T n x x s n + n hvor s = nr n r= (x rs x r ), og T n er T fordelt med n frihedsgrader., Welch Two Sample t-test data: data and data t = -.4487, df = 37.988, p-value = 0.556 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -.0964738 0.87546 sample estimates: mean of x mean of y.748493.05853 53 54 > data <- rnorm(7,mean=,sd=) > data <- rnorm(3,mean=.5,sd=) > t.test(data,data) Welch Two Sample t-test data: data and data t = -.63, df = 33.97, p-value = 0.030 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -.343483-0.69779 sample estimates: mean of x mean of y.577850.33363 > data <- rnorm(40,mean=,sd=) > data <- rnorm(40,mean=.,sd=) > t.test(data,data,paired=true) Paired t-test data: data and data t =.66, df = 39, p-value = 0.4 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.659557 0.77480 sample estimates: mean of the differences 0.75646 55 56

Eksempel.5.3 Dobbeltbestemmelser af tuberkulinreaktioner Differens mellem Differens mellem aflæsninger (mm) antal aflæsninger (mm) antal -9 0 6-8 0 4-7 0 5-6 3 5-5 3 4-4 5-3 9 6 0-49 7 0 > dif <- c(-9,-6,rep(-5,3),rep(-4,),rep(-3,9),rep(-,49), + rep(-,94),rep(0,6),rep(,4),rep(,5),rep(3,5), + rep(4,),5,8) > length(dif) [] 334 > mean(dif) [] -0.796407 > sd(dif) [].877763 > var(dif) [] 3.55993-94 8 57 58 Tuberkulinreaktioner ved vaccine, centre > t.test(dif) One Sample t-test data: dif t = -7.75, df = 333, p-value =.5e-3 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -0.99854-0.594930 sample estimates: mean of x -0.796407 Størrelse Kbh Oslo Størrelse Kbh Oslo 8 0 9 5 8 9 0 0 5 0 5 0 5 4 3 5 6 3 5 9 3 3 5 3 4 0 4 5 4 7 5 5 0 0 5 5 3 6 0 6 0 n 30 6 7 6 x 7.3 6.83 8 s.03.66 59 60

> size <- 8:6 > kbh <- c(0,,5,3,5,4,7,5,,,,5,5,5,6,3,,0,) > oslo <- c(,0,0,5,9,0,5,3,0,6,,8,,4,3,5,5,0,0) > > TBkbh <- rep(size,kbh) > TBoslo <- rep(size,oslo) > > c(length(tbkbh), mean(tbkbh), var(tbkbh)) [] 30.00000 7.3077.098 > c(length(tboslo), mean(tboslo), var(tboslo)) [] 6.00000 6.836.65990 > # Normalfordelingsantagelsen > hist(tbkbh) > hist(tboslo) > qqnorm(tbkbh) > qqnorm(tboslo) 6 6 Histogram of TBkbh Histogram of TBoslo Frequency 0 5 0 5 0 5 30 Frequency 0 5 0 5 0 5 0 5 0 5 TBkbh 0 5 0 TBoslo 63 64

Normal Q Q Plot Normal Q Q Plot Sample Quantiles 0 5 0 5 Sample Quantiles 0 5 0 0 Theoretical Quantiles 0 Theoretical Quantiles 65 66 > # Test om ens middelværdier > t.test(tbkbh,tboslo) > # Antagelse om varianshomogeneitet > v <- var(tboslo)/var(tbkbh) > v [].47844 > -pf(v, df = 5, df = 9) [] 0.7736 Welch Two Sample t-test data: TBkbh and TBoslo t = 0.6688, df = 36.099, p-value = 0.5043 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.5730.6349 sample estimates: mean of x mean of y 7.3077 6.836 67 68

> t.test(tbkbh,tboslo,var.equal=true) Two Sample t-test data: TBkbh and TBoslo t = 0.674, df = 44, p-value = 0.506 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.5695597.586844 sample estimates: mean of x mean of y 7.3077 6.836 69