I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Relaterede dokumenter
I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Opgaver til kapitel 3

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistik og Sandsynlighedsregning 2

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistik og Sandsynlighedsregning 2

Løsning eksamen d. 15. december 2008

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Uge 10 Teoretisk Statistik 1. marts 2004

Produkt og marked - matematiske og statistiske metoder

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Kvantitative Metoder 1 - Forår Dagens program

En Introduktion til SAS. Kapitel 5.

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Normalfordelingen og Stikprøvefordelinger

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Note om Monte Carlo metoden

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Module 4: Ensidig variansanalyse

1 Hb SS Hb Sβ Hb SC = , (s = )

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Konfidensintervaller og Hypotesetest

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Løsning til eksaminen d. 14. december 2009

Kvantitative Metoder 1 - Efterår Dagens program

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Nanostatistik: Opgavebesvarelser

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

StatDataN: Test af hypotese

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Nanostatistik: Test af hypotese

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Nanostatistik: Konfidensinterval

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Multipel Lineær Regression

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Statistik II 4. Lektion. Logistisk regression

Estimation og usikkerhed

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Kvantitative Metoder 1 - Forår 2007

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Modelkontrol i Faktor Modeller

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Klasseøvelser dag 2 Opgave 1

Anvendt Statistik Lektion 8. Multipel Lineær Regression

(studienummer) (underskrift) (bord nr)

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Almindelige kontinuerte fordelinger

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Statistik og Sandsynlighedsregning 2

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Løsning til eksaminen d. 29. maj 2009

Løsning til eksamen d.27 Maj 2010

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Preben Blæsild og Jens Ledet Jensen

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Transkript:

I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest Sandsynligheder og fraktiler Likelihood ratio testet er identisk med t-testet Modelkontrol, især QQ-plot R: Modelkontrol Indlæsning af data fra fil til R SaSt (Uge 6, mandag) En stikprøve 1 / 22 SaSt (Uge 6, mandag) En stikprøve 2 / 22 Eksempel: sammenligning af dagligvarepriser Priser i Netto og Fakta på 34 veldefinerede varer Lad y i = log(f i ) log(n i ), i = 1,,34 Bemærk at y i (f i n i )/n i, dvs den relative prisforskel Statistisk model: y 1,,y 34 er realisationer af Y 1,,Y 34 Y 1,,Y 34 uafh og Y i N(µ,σ 2 ) hvor (µ,σ 2 ) R (0, ) Estimater for µ og σ 2 : ˆµ = ȳ = 0025, σ 2 = s 2 = 00285, σ = s = 0169 Fordeling af estimatorer: ˆµ = Ȳ og σ 2 er uafhængige, og Ȳ N(µ,σ 2 /34), 33 σ 2 σ 2 χ 2 33 95% KI for µ: 0025 ± 2034 0169 34 = ( 0034,0084) Endepunkterne svarer til 34% besparelse i Fakta henholdsvis 84% besparelse i Netto SaSt (Uge 6, mandag) En stikprøve 3 / 22 Eksempel: sammenligning af dagligvarepriser Den interessante hypotese er H : µ = 0 Hvad svarer dette til? Teststørrelse og p-værdi: 34(0025 0) t = = 087 s ε(y) = 2P(T 087) = 039, T t 33 Vi kan således ikke afvise hypotesen De indsamlede priser giver således ikke umiddelbart belæg for at sige at priserne er forskellige i Fakta og Netto Det kunne vi faktisk se allerede fra konfidensintervallet Hvordan? Ønsker at opdatere estimaterne, dvs estimere under hypotesen Hvordan gør vi det? Lidt senere SaSt (Uge 6, mandag) En stikprøve 4 / 22

Analyse af dagligvarepriser i R vha ttest() R: sandsynligheder og fraktiler i N og t N-tæthed > fakta09 [1] 395 2195 3015 895 2150 725 > netto09 [1] 395 2195 2950 895 1995 560 > logdif = log(fakta09)-log(netto09) > ttest(logdif, mu=0) One Sample t-test data: logdif t = 08663, df = 33, p-value = 03926 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -003379563 008392156 sample estimates: mean of x 002506296 NB: Mange ens priser så N-antagelsen måske ikke helt i orden > pnorm(196) ## P(U <= 196), U~N(0,1) [1] 09750021 > pnorm(1645) ## P(U <= 1645), U~N(0,1) [1] 0950015 > qnorm(0975) ## 975% fraktil i N(0,1) [1] 1959964 > qnorm(095) ## 95% fraktil i N(0,1) [1] 1644854 > pt(087, df=33) ## P(T <= 087), T~t_33 [1] 08047075 > qt(0975, df=33) ## 975% fraktil i t_33 [1] 2034515 > qt(0975, df=4) ## 975% fraktil i t_4 [1] 2776445 > dnorm(15, mean=1, sd=03) ## Tæthed i 15 for N(1,03^2) [1] 03315905 SaSt (Uge 6, mandag) En stikprøve 5 / 22 SaSt (Uge 6, mandag) En stikprøve 6 / 22 Likelihood ratio testet Estimation under hypotesen Hypotese H : µ = µ 0 for en given værdi µ 0 R, eller H : (µ,σ 2 ) Θ 0 = {µ 0 } (0, ) ML estimater under hypotesen, dvs (ˆµ, ˆσ 2 ) så Klart at ˆµ = µ 0, men hvad er ˆσ 2? Kvotientteststørrelsen L y (ˆµ, ˆσ 2 ) L y (µ,σ 2 ), (µ,σ 2 ) Θ 0 Q(y) = L y (ˆµ, ˆσ 2 ) L y (ˆµ, ˆσ 2 ) ; ) ( ) 1 2/n vis! Q(y) = (1 + t2 n 1 Sætning 47 (første del) ˆµ = µ 0, ˆσ 2 = 1 n n i=1 (y i µ 0 ) 2, Under hypotesen gælder om den tilsvarende stokastiske variabel at n ˆσ 2 σ 2 χ 2 n Bevis: Klart at ˆµ = µ 0 Opskriv l y (µ 0,σ 2 ) og find maksimumpunkt som i fredags Fordeling: (Y i µ 0 )/σ N(0,1) og de er uafhængige p-værdi: ε(y) = P ( Q(Y ) Q(y) ) = P(T 2 t 2 ) SaSt (Uge 6, mandag) En stikprøve 7 / 22 SaSt (Uge 6, mandag) En stikprøve 8 / 22

Likelihood ratio testet Sætning 47 (anden del) Kvotientteststørrelsen for H : µ = µ 0 er givet ved hvor p-værdien er derfor givet ved ( Q(y) ) 2/n = ˆσ 2 ˆσ 2 = t = ȳ µ 0 s/ n ) 1 (1 + t2 n 1 ε(y) = 2P ( T t ) = 2 (1 F tn 1 ( t ) ) hvor T er t-fordelt med n 1 frihedsgrader og F tn 1 er fordelingsfunktionen for denne fordeling Bevis p-værdien ok hvis udtrykket for Q(y) som aftagende funktion af t 2 holder Husk nemlig at T = ȳ µ 0 s/ n t n 1 under hypotesen Skal altså bare vise udtrykket for Q(y): Vi har 1 2 ˆσ 2 n i=1 (y i ȳ) 2 = n 2, 1 så eksponentialleddet forkorter ud Vi får derfor 2 ˆσ 2 n i=1(y i µ 0 ) 2 = n 2 Q(y) = L y (ˆµ, ˆσ 2 ( ) ) ˆσ 2 n/2 L y (ˆµ, ˆσ 2 ) = ˆσ ( ) 2 ( ) 2/n ˆσ 2 Q(y) = = n i=1(y i ȳ) 2 ˆσ 2 n i=1(y i µ 0 ) 2 SaSt (Uge 6, mandag) En stikprøve 9 / 22 SaSt (Uge 6, mandag) En stikprøve 10 / 22 Bevis Modelkontrol Definer n(ȳ µ0 ) u =, σ z = 1 n σ 2 t = i=1 (y i ȳ) 2 = 1 σ 2 ssd, u z/(n 1) = n(ȳ µ0 ) ssd/(n 1) Omskriv summen i nævneren af Q(y) til σ 2 z + σ 2 u 2 Omskriv ( Q(y) ) ( 2/n 1 til 1 + n 1) t2 Data: y = (y 1,,y n ) Udfald af Y (Y 1,,Y n ) Antagelser: Y 1,,Y n uafhængige Y 1,,Y n normalfordelte De udledte fordelingsresultater, konfidensinterval og test gælder hvis antagelserne holder Ellers: ingen anelse Antagelsen om uafhængighed vanskelig at checke empirisk (ved hjælp af data) Handler mere om hvordan data er indsamlet Eksempler hvor der kan være problemer med uafhængighed: Flere observationer per individ Nogle af individerne er i familie med hinanden Samme størrelse målt henover tid SaSt (Uge 6, mandag) En stikprøve 11 / 22 SaSt (Uge 6, mandag) En stikprøve 12 / 22

Kontrol af normalfordelingsantagelsen Illustration med simulerede data Kan variationen med rimelighed beskrives vha en normalfordeling? Grafisk modelkontrol: Sammenligning af histogram og tæthed for N(µ,s 2 ) Hvis normalfordelingsantagelsen er ok, så bør tætheden være en god approksimation til histogrammet Dur kun hvis der er mange observationer QQ-plot: sammenligning af empiriske/observerede fraktiler og normalfordelingsfraktiler QQ står for quantile-quantile (quantile = fraktil) Kaldes også et fraktilplot 200 observationer simuleret fra N(10, 4) Tæthed 000 005 010 015 020 5 10 15 Simulerede data Empiriske fraktiler 6 8 10 12 14 16 3 2 1 0 1 2 3 N(0,1) fraktiler SaSt (Uge 6, mandag) En stikprøve 13 / 22 SaSt (Uge 6, mandag) En stikprøve 14 / 22 Hvordan virker et QQ-plot? R: Simulation fra N QQ-plot Histogram Først: kommer z 1,,z n fra N(0,1)? Ordnede observationer: z (1) < z (2) < z (n) Empiriske (j 05)/n fraktil: j te mindste observation, dvs z (j) Den tilsvarende fraktil i N(0,1) er u j = Φ 1 ((j 05)/n) Sammenlign z (1),,z (n) med u 1,,u n : tegn z (j) mod u j Variation om ret linie med skæring 0 og hældning 1? Generelt: kommer y 1,,y n fra en normalfordeling? Hvis y i kommer fra N(µ,σ 2 ), så kan vi skrive y i = µ + σz i hvor z i kommer fra N(0,1) Hvis vi gør som før bør punkterne derfor ligge på ret linie med hældning σ og skæring µ Tegn empiriske fraktiler mod N(0, 1)-fraktiler Variation om ret linie? y <- rnorm(500, mean=2, sd=01) ## 500 sim værdier fra N(2,001) qqnorm(y) ## QQ-plot qqline(y) ## Ret linie m <- mean(y) ## Gennemsnit ybar s <- sd(y) ## Stikprøvespredning s hist(y, prob=t) ## Histogram på ssh-skala f <- function(a) dnorm(a, mean=m, sd=s) ## Tæthed for N(ybar,s^2) plot(f, -25, 25, add=t) ## Tegn oven i histogram Kig efter systematiske afvigelser fra en ret linie! SaSt (Uge 6, mandag) En stikprøve 15 / 22 SaSt (Uge 6, mandag) En stikprøve 16 / 22

R: indlæsning af data fra flad tekstfil R: indlæsning af data fra flad tekstfil Hvis data ligger i en flad tekstfil, fx malariatxt, med variabelnavne: parasites 100 140 134232 Hvordan får vi puttet dem ind i R? Gem filen i et passende katalog på din computer Skift arbejdskatalog til dette katalog via File menuen Lav datasæt i R med funktionen readtable() Attach datasættet så kan du bruge variablene direkte Hvis arbejdskataloget ikke er det sted som filen ligger, så skal hele stien til filen angives Altså: > malariadata <- readtable("malariatxt", header=t) > attach(malariadata) QQ-plot for oprindelige og log-transformerede data: > qqnorm(parasites) > logparasites <- log(parasites) > qqnorm(logparasites) SaSt (Uge 6, mandag) En stikprøve 17 / 22 SaSt (Uge 6, mandag) En stikprøve 18 / 22 Vurdering af QQ-plots Kendt vs ukendt varians Hvad skal man kigge efter i et QQ-plot? Er der tale om naturlig variation omkring ret linie? Se efter systematiske afvigelser Ikke bare enkelte punkter For små datasæt kan afvigelserne være ret store selvom data er genereret fra en normalfordeling Simulér! Nogle gange kan transformation reparere på ikke-normalitet, jf malariadata Er det vigtigt at skelne mellem situationen med kendt og ukendt varians, og bruge t-fordelingen i stedet for normalfordelingen? Density 00 01 02 03 04 4 2 0 2 4 T Store stikprøver: næh Variansen kan estimeres præcist Næsten ingen forskel på t n 1 og N(0, 1) Små stikprøver: ja Variansen kun usikkert estimeret Stor forskel på t n 1 og N(0,1) SaSt (Uge 6, mandag) En stikprøve 19 / 22 SaSt (Uge 6, mandag) En stikprøve 20 / 22

SKÅL fordi vi nu kan analysere data og fordi Resume Øl Gosset = Student Hvad skal I kunne efter i dag? Det samme som sidst samt modelkontrol, dvs komplet statistisk analyse af en enkelt normalfordelt stikprøve Også i R Opskrive statistisk model for en enkelt stikprøve Udføre modelkontrol Opskrive estimater for modellens parametre samt angive estimatorers fordeling (og estimeret fordeling) Beregne konfidensinterval for middelværdien, og fortolke det Opstille relevante hypoteser samt teste dem, incl fortolkning Angive konklusioner på baggrund af analysen De næste gange: to stikprøver SaSt (Uge 6, mandag) En stikprøve 21 / 22 SaSt (Uge 6, mandag) En stikprøve 22 / 22