Tema. Dagens tema: Indfør centrale statistiske begreber.

Relaterede dokumenter
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Konfidensintervaller og Hypotesetest

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Vejledende besvarelser til opgaver i kapitel 14

Kvantitative Metoder 1 - Forår 2007

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Normalfordelingen og Stikprøvefordelinger

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Opgaver til kapitel 3

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

1 Hb SS Hb Sβ Hb SC = , (s = )

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Løsning eksamen d. 15. december 2008

Statistik II 4. Lektion. Logistisk regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Preben Blæsild og Jens Ledet Jensen

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Produkt og marked - matematiske og statistiske metoder

Uge 10 Teoretisk Statistik 1. marts 2004

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Personlig stemmeafgivning

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Løsninger til kapitel 6

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Vejledende løsninger kapitel 8 opgaver

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Kapitel 12 Variansanalyse

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Module 4: Ensidig variansanalyse

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Stastistik og Databehandling på en TI-83

Kvantitative Metoder 1 - Efterår Dagens program

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Løsning til eksaminen d. 29. maj 2009

En Introduktion til SAS. Kapitel 5.

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Eksamen i Statistik for biokemikere. Blok

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Transkript:

Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i BG. p. 1/??

Set-up Vi har observationer x 1,...,x n. I Ex. 3.1 er n = 16 og x i modellerer den ite diameter fratrukket 5160. Antagelse: x 1,...,x n er udfald af uafhængige og identisk fordelte stokastiske variable X 1,...,X n. Denne antagelse checkes ikke, men forekommer rimelig i Ex. 3.1. p. 2/??

Model og kontrol Model: X i N(µ,σ 2 ) for i = 1,...,n. ( En normalfordelt observationsrække ). (I stedet for model skriver vi ofte bare M). p. 3/??

Model og kontrol Model: X i N(µ,σ 2 ) for i = 1,...,n. ( En normalfordelt observationsrække ). (I stedet for model skriver vi ofte bare M). Denne model skal naturligvis kontrolleres. Hertil benyttes et fraktilplot. I Ex. 3.1 giver dette bestemt ikke anledning til at forkaste modellen. p. 3/??

Fortolkning af parametrene: µ er jo middelværdien. I Ex. 3.1 er µ altså middel-diameteren fratrukket 5160. Hvis maskinen ellers fungerer som den skal, er µ = 40 i Ex. 3.1 (Det testes senere). σ 2 er variansen. En lille (stor) varians betyder lille (stor) variation i diameteren. p. 4/??

Fortolkning af parametrene: µ er jo middelværdien. I Ex. 3.1 er µ altså middel-diameteren fratrukket 5160. Hvis maskinen ellers fungerer som den skal, er µ = 40 i Ex. 3.1 (Det testes senere). σ 2 er variansen. En lille (stor) varians betyder lille (stor) variation i diameteren. Bemærk at vi skelner mellem middelværdien µ ( den teoretiske værdi ) og gennemsnittet x.. Hvis vi måler flere gange, vil gennemsnittet ændre sig, men middelværdien er den samme! p. 4/??

Estimation Antag først at σ 2 er lig med en kendt værdi σ 2 0. I Ex. 3.1 er σ 0 = 10 micrometer. Estimation: Da σ 2 er kendt, skal vi blot estimere middelværdien µ. p. 5/??

Estimation -fortsat Vi estimerer (naturligvis) middelværdien ved gennemsnittet. Vi benytter altså x. som estimat for µ. Vi skriver x. µ I Ex. 3.1 kommer vi frem til x. = 41.65 micrometer. Det vil sige 41.65 µ. p. 6/??

Estimatets fordeling Vi har (jvf. opgave 82) X. N(µ, σ2 0 n ) p. 7/??

Estimatets fordeling Vi har (jvf. opgave 82) X. N(µ, σ2 0 n ) Derfor har vi specielt at E( X. ) = µ. Altså at middelværdien af estimatet præcis er lig med den parameter vi skal estimere. Variansen går mod 0, når antallet af observationer går mod uendelig. (Præcisionen øges ved at tage flere prøver). p. 7/??

Estimatets fordeling Vi har (jvf. opgave 82) X. N(µ, σ2 0 n ) Derfor har vi specielt at E( X. ) = µ. Altså at middelværdien af estimatet præcis er lig med den parameter vi skal estimere. Variansen går mod 0, når antallet af observationer går mod uendelig. (Præcisionen øges ved at tage flere prøver). Disse egenskaber kan benyttes til forsøgsplanlægning: Hvor mange målinger skal vi foretage for at opnå en given præcision? (Opgave 82) p. 7/??

Estimatets fordeling - Notation Idet X. N(µ, σ2 0 n ) skriver vi x. N(µ, σ2 0 n ) og siger, at x. er udfald af en stokastisk variabel, der er N(µ, σ2 0 n )-fordelt. Altså 41.65 N(µ, 100 40 ) i Ex. 3.1. p. 8/??

Hypotese Lad os igen kigge på Ex. 3.1. Kan det antages, at middelværdien er 40 micrometer? Vi betragter altså hypotesen H 0 : µ = µ 0 = 40. p. 9/??

Hvordan tester vi H 0? Vi har x. µ. (Middelværdien estimeres ved gennemsnittet). Idé: Vi tror på H 0 ( accepterer H 0 ), hvis x. er tæt på µ 0. Vi tror ikke på H 0 ( forkaster H 0 ), hvis x. er langt fra µ 0. p. 10/??

Hvordan tester vi H 0?-fortsat I Ex. 3.1 skal vi altså undersøge om x. = 41.65 er tæt på µ 0 = 40. (Svaret på spørgsmålet må nødvendigvis afhænge af variansen). p. 11/??

Test for H 0 i Ex. 3.1 I stedet for x. vil vi kigge på følgende teststørrelse u(x) = x. µ 0 σ0 2 n 41.65 40 = 100 40 = 1.044. p. 12/??

Test for H 0 i Ex. 3.1 I stedet for x. vil vi kigge på følgende teststørrelse u(x) = x. µ 0 σ0 2 n 41.65 40 = 100 40 = 1.044. Hvis H 0 er sand, vil vi forvente at u er tæt på 0. p. 12/??

Test for H 0 i Ex. 3.1 I stedet for x. vil vi kigge på følgende teststørrelse u(x) = x. µ 0 σ0 2 n 41.65 40 = 100 40 = 1.044. Hvis H 0 er sand, vil vi forvente at u er tæt på 0. Vi siger derfor, at værdier af u der numerisk er 1.044 er mindst ligeså kritiske for hypotesen, som det observerede. p. 12/??

Test for H 0 i Ex. 3.1 - fortsat Ifølge opgave på us er u(x) N(0, 1) p. 13/??

Test for H 0 i Ex. 3.1 - fortsat Ifølge opgave på us er u(x) N(0, 1) Det følger derfor (igen fra opg på us), at sandsynligheden for at få noget der mindst lige så kritisk som det observerede er p obs (x) = 2(1 Φ(1.044)) = 0.296. p. 13/??

Test for H 0 i Ex. 3.1 - fortsat Ifølge opgave på us er u(x) N(0, 1) Det følger derfor (igen fra opg på us), at sandsynligheden for at få noget der mindst lige så kritisk som det observerede er p obs (x) = 2(1 Φ(1.044)) = 0.296. p obs (x) kaldes for p-værdien eller testsandsynligheden. p. 13/??

Accepterer vi H 0? Vi har altså fået en testsandsynlighed på p obs (x) 30%. Hvad nu hvis vi havde fået u(x) = 3.39 og dermed en testsandsynlighed på ca. 0.06%? p. 14/??

Accepterer vi H 0? Vi har altså fået en testsandsynlighed på p obs (x) 30%. Hvad nu hvis vi havde fået u(x) = 3.39 og dermed en testsandsynlighed på ca. 0.06%? Med en testss. på 30% kan hypotesen bestemt ikke afvises. p. 14/??

Accepterer vi H 0? Vi har altså fået en testsandsynlighed på p obs (x) 30%. Hvad nu hvis vi havde fået u(x) = 3.39 og dermed en testsandsynlighed på ca. 0.06%? Med en testss. på 30% kan hypotesen bestemt ikke afvises. Med en testss. på 0.06% er det usandsynligt at H 0 er sand. p. 14/??

Accepterer vi H 0? Vi har altså fået en testsandsynlighed på p obs (x) 30%. Hvad nu hvis vi havde fået u(x) = 3.39 og dermed en testsandsynlighed på ca. 0.06%? Med en testss. på 30% kan hypotesen bestemt ikke afvises. Med en testss. på 0.06% er det usandsynligt at H 0 er sand. Vi accepterer derfor H 0 hvis p obs (x) 30% og forkaster H 0 hvis p obs (x) = 0.06%. p. 14/??

vor går grænsen mellem accept/forkastels Vi indfører et signifikansniveau α og Accepterer H 0 hvis p obs (x) > α Forkaster H 0 hvis p obs (x) < α I dette kursus sættes α = 5% med mindre andet angives. p. 15/??

Opsummering Model: En normalfordelt observationsrække med kendt varians. M : X 1,...,X n uafhængige med X i N(µ,σ 2 0 ). Estimation: x. µ og vi har x. N(µ, σ2 0 n ) p. 16/??

Opsummering - fortsat Hypotese H 0 : µ = µ 0 hvor µ 0 er kendt. Hvis H 0 er sand, vil vi forvente at er tæt på 0. u(x) = x. µ 0 σ0 2 n p. 17/??

Opsummering - fortsat Testsandsynligheden (sandsynligheden for at få noget der er mindst ligeså kritisk som det observerede, hvis H 0 er sand) er p obs (x) = 2(1 Φ( u(x) )). Forkast på niveau α = 0.05 hvis testsandsynligheden er mindre end 0.05. p. 18/??

Næste model En normalfordelt observationsrække hvor såvel middelværdi som varians er ukendte. Vi får brug t-fordelingen. (Side 164 i BG). p. 19/??

Næste model En normalfordelt observationsrække hvor såvel middelværdi som varians er ukendte. Vi får brug t-fordelingen. (Side 164 i BG). Antag U N(0, 1) og Z χ 2 (f)/f er uafhængige. Lad t = U Z. Vi siger, at t er t-fordelt med f frihedsgrader. (Skrives t t(f).) p. 19/??

t-fordelingen Kan vises: t er absolut kontinuert. Tætheden er angivet side 165 i BG. Tætheden er symmetrisk omkring 0; Ligner en normalfordelingstæthed, men toppen er fladere og halerne er tungere. For f haves Z 1 så derfor gælder t N(0, 1). p. 20/??

t-fordelingen - fortsat Lad F t(f) betegne fordelingsfunktionen for t(f). For p ]0, 1[ lad t p (f) = (F t(f) ) 1 (p) betegne p-fraktilen for t(f). Bemærk at symmetrien giver t 1 p (f) = t p (f). p. 21/??

Næste gang. Beregn F t(39) (1.429). t(39) ikke tabellagt, så kig under t(40). Vi ser ved tabelopslag, at t 0.90 (40) = 1.303 ; t 0.95 (40) = 1.684. (Kig under t(f) i rækken med f = 40). Dvs F t(39) (1.429) [0.90, 0.95]. p. 22/??