Tema. Dagens tema: Indfør centrale statistiske begreber.

Transkript

1 Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i BG. p. 1/??

2 Set-up Vi har observationer x 1,...,x n. I Ex. 3.1 er n = 16 og x i modellerer den ite diameter fratrukket Antagelse: x 1,...,x n er udfald af uafhængige og identisk fordelte stokastiske variable X 1,...,X n. Denne antagelse checkes ikke, men forekommer rimelig i Ex p. 2/??

3 Model og kontrol Model: X i N(µ,σ 2 ) for i = 1,...,n. ( En normalfordelt observationsrække ). (I stedet for model skriver vi ofte bare M). p. 3/??

4 Model og kontrol Model: X i N(µ,σ 2 ) for i = 1,...,n. ( En normalfordelt observationsrække ). (I stedet for model skriver vi ofte bare M). Denne model skal naturligvis kontrolleres. Hertil benyttes et fraktilplot. I Ex. 3.1 giver dette bestemt ikke anledning til at forkaste modellen. p. 3/??

5 Fortolkning af parametrene: µ er jo middelværdien. I Ex. 3.1 er µ altså middel-diameteren fratrukket Hvis maskinen ellers fungerer som den skal, er µ = 40 i Ex. 3.1 (Det testes senere). σ 2 er variansen. En lille (stor) varians betyder lille (stor) variation i diameteren. p. 4/??

6 Fortolkning af parametrene: µ er jo middelværdien. I Ex. 3.1 er µ altså middel-diameteren fratrukket Hvis maskinen ellers fungerer som den skal, er µ = 40 i Ex. 3.1 (Det testes senere). σ 2 er variansen. En lille (stor) varians betyder lille (stor) variation i diameteren. Bemærk at vi skelner mellem middelværdien µ ( den teoretiske værdi ) og gennemsnittet x.. Hvis vi måler flere gange, vil gennemsnittet ændre sig, men middelværdien er den samme! p. 4/??

7 Estimation Antag først at σ 2 er lig med en kendt værdi σ 2 0. I Ex. 3.1 er σ 0 = 10 micrometer. Estimation: Da σ 2 er kendt, skal vi blot estimere middelværdien µ. p. 5/??

8 Estimation -fortsat Vi estimerer (naturligvis) middelværdien ved gennemsnittet. Vi benytter altså x. som estimat for µ. Vi skriver x. µ I Ex. 3.1 kommer vi frem til x. = micrometer. Det vil sige µ. p. 6/??

9 Estimatets fordeling Vi har (jvf. opgave 82) X. N(µ, σ2 0 n ) p. 7/??

10 Estimatets fordeling Vi har (jvf. opgave 82) X. N(µ, σ2 0 n ) Derfor har vi specielt at E( X. ) = µ. Altså at middelværdien af estimatet præcis er lig med den parameter vi skal estimere. Variansen går mod 0, når antallet af observationer går mod uendelig. (Præcisionen øges ved at tage flere prøver). p. 7/??

11 Estimatets fordeling Vi har (jvf. opgave 82) X. N(µ, σ2 0 n ) Derfor har vi specielt at E( X. ) = µ. Altså at middelværdien af estimatet præcis er lig med den parameter vi skal estimere. Variansen går mod 0, når antallet af observationer går mod uendelig. (Præcisionen øges ved at tage flere prøver). Disse egenskaber kan benyttes til forsøgsplanlægning: Hvor mange målinger skal vi foretage for at opnå en given præcision? (Opgave 82) p. 7/??

12 Estimatets fordeling - Notation Idet X. N(µ, σ2 0 n ) skriver vi x. N(µ, σ2 0 n ) og siger, at x. er udfald af en stokastisk variabel, der er N(µ, σ2 0 n )-fordelt. Altså N(µ, ) i Ex p. 8/??

13 Hypotese Lad os igen kigge på Ex Kan det antages, at middelværdien er 40 micrometer? Vi betragter altså hypotesen H 0 : µ = µ 0 = 40. p. 9/??

14 Hvordan tester vi H 0? Vi har x. µ. (Middelværdien estimeres ved gennemsnittet). Idé: Vi tror på H 0 ( accepterer H 0 ), hvis x. er tæt på µ 0. Vi tror ikke på H 0 ( forkaster H 0 ), hvis x. er langt fra µ 0. p. 10/??

15 Hvordan tester vi H 0?-fortsat I Ex. 3.1 skal vi altså undersøge om x. = er tæt på µ 0 = 40. (Svaret på spørgsmålet må nødvendigvis afhænge af variansen). p. 11/??

16 Test for H 0 i Ex. 3.1 I stedet for x. vil vi kigge på følgende teststørrelse u(x) = x. µ 0 σ0 2 n = = p. 12/??

17 Test for H 0 i Ex. 3.1 I stedet for x. vil vi kigge på følgende teststørrelse u(x) = x. µ 0 σ0 2 n = = Hvis H 0 er sand, vil vi forvente at u er tæt på 0. p. 12/??

18 Test for H 0 i Ex. 3.1 I stedet for x. vil vi kigge på følgende teststørrelse u(x) = x. µ 0 σ0 2 n = = Hvis H 0 er sand, vil vi forvente at u er tæt på 0. Vi siger derfor, at værdier af u der numerisk er er mindst ligeså kritiske for hypotesen, som det observerede. p. 12/??

19 Test for H 0 i Ex fortsat Ifølge opgave på us er u(x) N(0, 1) p. 13/??

20 Test for H 0 i Ex fortsat Ifølge opgave på us er u(x) N(0, 1) Det følger derfor (igen fra opg på us), at sandsynligheden for at få noget der mindst lige så kritisk som det observerede er p obs (x) = 2(1 Φ(1.044)) = p. 13/??

21 Test for H 0 i Ex fortsat Ifølge opgave på us er u(x) N(0, 1) Det følger derfor (igen fra opg på us), at sandsynligheden for at få noget der mindst lige så kritisk som det observerede er p obs (x) = 2(1 Φ(1.044)) = p obs (x) kaldes for p-værdien eller testsandsynligheden. p. 13/??

22 Accepterer vi H 0? Vi har altså fået en testsandsynlighed på p obs (x) 30%. Hvad nu hvis vi havde fået u(x) = 3.39 og dermed en testsandsynlighed på ca. 0.06%? p. 14/??

23 Accepterer vi H 0? Vi har altså fået en testsandsynlighed på p obs (x) 30%. Hvad nu hvis vi havde fået u(x) = 3.39 og dermed en testsandsynlighed på ca. 0.06%? Med en testss. på 30% kan hypotesen bestemt ikke afvises. p. 14/??

24 Accepterer vi H 0? Vi har altså fået en testsandsynlighed på p obs (x) 30%. Hvad nu hvis vi havde fået u(x) = 3.39 og dermed en testsandsynlighed på ca. 0.06%? Med en testss. på 30% kan hypotesen bestemt ikke afvises. Med en testss. på 0.06% er det usandsynligt at H 0 er sand. p. 14/??

25 Accepterer vi H 0? Vi har altså fået en testsandsynlighed på p obs (x) 30%. Hvad nu hvis vi havde fået u(x) = 3.39 og dermed en testsandsynlighed på ca. 0.06%? Med en testss. på 30% kan hypotesen bestemt ikke afvises. Med en testss. på 0.06% er det usandsynligt at H 0 er sand. Vi accepterer derfor H 0 hvis p obs (x) 30% og forkaster H 0 hvis p obs (x) = 0.06%. p. 14/??

26 vor går grænsen mellem accept/forkastels Vi indfører et signifikansniveau α og Accepterer H 0 hvis p obs (x) > α Forkaster H 0 hvis p obs (x) < α I dette kursus sættes α = 5% med mindre andet angives. p. 15/??

27 Opsummering Model: En normalfordelt observationsrække med kendt varians. M : X 1,...,X n uafhængige med X i N(µ,σ 2 0 ). Estimation: x. µ og vi har x. N(µ, σ2 0 n ) p. 16/??

28 Opsummering - fortsat Hypotese H 0 : µ = µ 0 hvor µ 0 er kendt. Hvis H 0 er sand, vil vi forvente at er tæt på 0. u(x) = x. µ 0 σ0 2 n p. 17/??

29 Opsummering - fortsat Testsandsynligheden (sandsynligheden for at få noget der er mindst ligeså kritisk som det observerede, hvis H 0 er sand) er p obs (x) = 2(1 Φ( u(x) )). Forkast på niveau α = 0.05 hvis testsandsynligheden er mindre end p. 18/??

30 Næste model En normalfordelt observationsrække hvor såvel middelværdi som varians er ukendte. Vi får brug t-fordelingen. (Side 164 i BG). p. 19/??

31 Næste model En normalfordelt observationsrække hvor såvel middelværdi som varians er ukendte. Vi får brug t-fordelingen. (Side 164 i BG). Antag U N(0, 1) og Z χ 2 (f)/f er uafhængige. Lad t = U Z. Vi siger, at t er t-fordelt med f frihedsgrader. (Skrives t t(f).) p. 19/??

32 t-fordelingen Kan vises: t er absolut kontinuert. Tætheden er angivet side 165 i BG. Tætheden er symmetrisk omkring 0; Ligner en normalfordelingstæthed, men toppen er fladere og halerne er tungere. For f haves Z 1 så derfor gælder t N(0, 1). p. 20/??

33 t-fordelingen - fortsat Lad F t(f) betegne fordelingsfunktionen for t(f). For p ]0, 1[ lad t p (f) = (F t(f) ) 1 (p) betegne p-fraktilen for t(f). Bemærk at symmetrien giver t 1 p (f) = t p (f). p. 21/??

34 Næste gang. Beregn F t(39) (1.429). t(39) ikke tabellagt, så kig under t(40). Vi ser ved tabelopslag, at t 0.90 (40) = ; t 0.95 (40) = (Kig under t(f) i rækken med f = 40). Dvs F t(39) (1.429) [0.90, 0.95]. p. 22/??