Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Relaterede dokumenter
Tema. Dagens tema: Indfør centrale statistiske begreber.

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Nanostatistik: Opgavebesvarelser

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

k normalfordelte observationsrækker (ensidet variansanalyse)

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Eksamen i Statistik for biokemikere. Blok

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

En Introduktion til SAS. Kapitel 5.

Konfidensintervaller og Hypotesetest

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Nanostatistik: Konfidensinterval

StatDataN: Test af hypotese

Matematisk Modellering 1 Cheat Sheet

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Nanostatistik: Test af hypotese

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Besvarelser til øvelsesopgaver i uge 6

Produkt og marked - matematiske og statistiske metoder

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

1 Hb SS Hb Sβ Hb SC = , (s = )

Forsøgsplanlægning Stikprøvestørrelse

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Vejledende besvarelser til opgaver i kapitel 14

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kvantitative Metoder 1 - Forår 2007

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Den lineære normale model

Note om Monte Carlo metoden

Normalfordelingen og Stikprøvefordelinger

Løsning til eksaminen d. 29. maj 2009

Vejledende løsninger kapitel 8 opgaver

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Modul 12: Regression og korrelation

Forelæsning 11: Kapitel 11: Regressionsanalyse

Kapitel 12 Variansanalyse

Løsning til eksamen d.27 Maj 2010

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Hvorfor er normalfordelingen så normal?

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Løsning eksamen d. 15. december 2008

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Statistik og Sandsynlighedsregning 2

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Kapitel 12 Variansanalyse

Løsning til eksaminen d. 14. december 2009

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Opgaver til kapitel 3

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Preben Blæsild og Jens Ledet Jensen

Løsninger til kapitel 6

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Estimation og konfidensintervaller

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Statistiske principper

Forsøgsplanlægning Stikprøvestørrelse

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Susanne Ditlevsen Institut for Matematiske Fag susanne

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Estimation og usikkerhed

Module 4: Ensidig variansanalyse

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Module 12: Mere om variansanalyse

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Transkript:

Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i BG. p. 1/??

Model M : X i N(µ,σ 2 ) for i = 1,...,n hvor µ R og σ 2 > 0 er ukendte. ( En normalfordelt observationsrække ). Kontrolleres ved et fraktildiagram. Tidligere antog vi at σ 2 er kendt. I Ex. 3.1 kan µ fortolkes som middel-diameteren fratrukket 5160 micrometer; σ 2 modellerer variationen. p. 2/??

Estimation Vi benytter x. µ s 2 σ 2 hvor s 2 = 1 n 1 n i=1 (x i x. ) 2. p. 3/??

Estimation Vi benytter x. µ s 2 σ 2 hvor s 2 = 1 n 1 n i=1 (x i x. ) 2. Vi kalder s 2 for det middelværdirette variansskøn, jvf. senere. p. 3/??

Fordelingerne X. N(µ, σ2 n ) 1 n 1 n (X i X. ) 2 σ 2 χ 2 (n 1)/(n 1) i=1 og disse stokastiske variable er uafhængige. Specielt er E 1 n 1 V ar n (X i X. ) 2 = σ 2 i=1 1 n 1 n (X i X. ) 2 = 2σ 4 /(n 1) i=1 p. 4/??

Huskeregel 1 n 1 n (x i x. ) 2 σ 2 χ 2 (n 1)/(n 1). i=1 Hvorfor n 1? n er antallet af observationer 1 svarer til at vi skal estimere een parameter (nemlig µ) i middelværdien. Dvs. n 1 er antallet af observationer minus antallet af ukendte parametre i middelværdien. p. 5/??

Hypotese og test Test: H 0 : µ = µ 0. (I Ex. 3.1 er µ 0 = 40). Når vi kender σ 2 benyttes som teststørrelse. u(x) = x. µ 0 σ 2 n p. 6/??

Hypotese og test Test: H 0 : µ = µ 0. (I Ex. 3.1 er µ 0 = 40). Når vi kender σ 2 benyttes som teststørrelse. u(x) = x. µ 0 σ 2 n Her kender vi ikke σ 2 så i stedet benyttes det middelværdirette variansskøn. Dvs t(x) = x. µ 0 s 2 n p. 6/??

Hypotese og test - fortsat Som tidligere har vi, at numerisk store værdier er kritiske for H 0. På tavlen vises: t(x) t(n 1). p. 7/??

Hypotese og test - fortsat Som tidligere har vi, at numerisk store værdier er kritiske for H 0. På tavlen vises: t(x) t(n 1). Dermed er p obs (x) = 2(1 F t(n 1) ( t(x) )). I Ex. 3.1 kan vi stadig acceptere H 0. p. 7/??

Konfidensinterval for µ Antag: niveauet er α. Hypotese H 0 : µ = µ 0. Dvs. H 0 accepteres hviss p obs (x) = 2(1 F t(n 1) ( t(x) )) α som er ækvivalent med F t(n 1) ( t(x) ) 1 α/2. p. 8/??

Konfidensinterval for µ - fortsat Dette er ækvivalent med t(x) (F t(n 1) ) 1 (1 α/2) = t 1 α/2 (n 1). p. 9/??

Konfidensinterval for µ - fortsat Dette er ækvivalent med t(x) (F t(n 1) ) 1 (1 α/2) = t 1 α/2 (n 1). Altså: H 0 accepteres hviss µ 0 tilhører intervallet med grænser x. ± t 1 α/2 (n 1) s 2 /n. p. 9/??

(1 α)-konfidensintervallet for µ Er intervallet bestående af de µ 0 for hvilke hypotesen µ = µ 0 accepteres. p. 10/??

(1 α)-konfidensintervallet for µ Er intervallet bestående af de µ 0 for hvilke hypotesen µ = µ 0 accepteres. Dvs. jvf. ovenfor har (1 α)-konfidensintervallet grænser x. ± t 1 α/2 (n 1) s 2 /n. Specielt har 95%-konfidensintervallet grænser givet ved x. ± t 0.975 (n 1) s 2 /n. (se (3.22) side 63 i BG). p. 10/??

Konfidensinterval - bemærkninger Løst skrevet består 95%-konfidensintervallet af de værdier af den ukendte parameter som vi kan tro på på baggrund af data. I BG, side 62, er det vist, at sandsynligheden for at µ tilhører 95%-konfidensintervallet er 95%. Læs selv om konfidensinterval for µ når σ 2 er kendt. (Side 62). p. 11/??

Test i variansen Model: En normalfordelt observationsrække - ukendt varians. Variansskønnet i Ex. 3.1 er s 2 = 53.31 σ 2 χ 2 (n 1)/(n 1). H 0 : σ 2 = σ 2 0 (I Ex. 3.1 er σ2 0 = 100). p. 12/??

Test i variansen - fortsat Hvis H 0 er sand, vil vi forvente at s 2 /σ 2 0 er tæt på 1. Derfor er både store og små værdier af s 2 /σ0 2 H 0. kritiske for p. 13/??

Test i variansen - fortsat I eksemplet er s 2 /σ0 2 = 05331 og sandsynligheden for at få en mindre observation er F χ2 (39)/39(0.5331) = 0.00743. Hvordan defineres de mere kritiske store værdier???? p. 14/??

Test i variansen - fortsat I eksemplet er s 2 /σ0 2 = 05331 og sandsynligheden for at få en mindre observation er F χ2 (39)/39(0.5331) = 0.00743. Hvordan defineres de mere kritiske store værdier???? Løsning: Der ganges med 2; Dvs. testsandsynligheden er p obs (x) = 2 0.00743 = 0.0148. Dermed forkastes H 0 i Ex. 3.1! p. 14/??

Test i variansen - fortsat Se (3.12) i BG for den generelle formel for testsandsynligheden. Se (3.14) i BG for formlen for konfidensintervallet. (f er antallet af frihedsgrader for variansskønnet; her f = n 1). p. 15/??

Beregningsformler: x. kaldes ofte for S (summen); Lad SSD = n i=1 (x i x. ) 2 (Sum of Squares of Deviations). Lad USS = n i=1 x2 i (Uncorrected Sum of Squares) p. 16/??

Beregningsformler: x. kaldes ofte for S (summen); Lad SSD = n i=1 (x i x. ) 2 (Sum of Squares of Deviations). Lad USS = n i=1 x2 i (Uncorrected Sum of Squares) Da gælder SSD = USS S2 n og dermed s 2 = 1 n 1 (USS S2 n ). p. 16/??

Intro til Std Error t-teststørrelsen for H 0 : µ = µ 0 er hvor x. µ. Nævneren t(x) = x. µ 0 s 2 n s 2 er den estimerede spredning på estimatet x. for µ og betegnes Std Error eller Std Error( x. ). n p. 17/??

Intro til Std Error - fortsat Strukturen af t-teststørrelsen er derfor t(x) = estimat µ 0 Std Error og 95%-konfidensintervallet har grænser estimat ± t 0.025 (f) Std Error. hvor f er frihedsgraderne for variansskønnet; her f = n 1. Ovenstående er nyttigt at vide, bl.a. når man skal aflæse udskrifter fra statistiske programpakker. p. 18/??

F -fordelingen - side 166 Lad Z i χ 2 (f i )/f i for i = 1, 2 være uafhængige. Tænk på Z i som et variansskøn. Definer F = Z 1 Z 2 Vi siger, at F er F -fordelt med f 1 frihedsgrader i tælleren og f 2 frihedsgrader i nævneren. Skrives F F(f 1,f 2 ). p. 19/??

F -fordelingen - fortsat Bemærk at t t(f) t 2 F(1,f) Vigtig formel i forbindelse med tabelopslag: F F(f1,f 2 )(x) = 1 F F(f2,f 1 )( 1 x ). p. 20/??