Dagens program. Praktisk information:

Relaterede dokumenter
Dagens program. Praktisk information: Husk evalueringer af kurset

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Forår Dagens program

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Susanne Ditlevsen Institut for Matematiske Fag susanne

Estimation og konfidensintervaller

Vejledende besvarelser til opgaver i kapitel 14

Kvantitative Metoder 1 - Forår 2007

Konfidensintervaller og Hypotesetest

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Kvantitative Metoder 1 - Forår 2007

Bayesiansk statistik. Tom Engsted. DSS Aarhus, 28 november 2017

Kvantitative Metoder 1 - Forår Dagens program

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Kapitel 7 Forskelle mellem centraltendenser

Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Forelæsning 9: Inferens for andele (kapitel 10)

Statistiske principper

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Personlig stemmeafgivning

Note til styrkefunktionen

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Logistisk Regression - fortsat

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Om hypoteseprøvning (1)

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Kvantitative Metoder 1 - Forår Dagens program

Løsning til eksaminen d. 14. december 2009

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Tema. Dagens tema: Indfør centrale statistiske begreber.

Uge 13 referat hold 4

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

J E T T E V E S T E R G A A R D

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

To-sidet varians analyse

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Den lineære normale model

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Kvantitative metoder 2

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Den lineære normale model

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

EKSAMEN Flerdimensional Analyse Sommer sider

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Kvantitative metoder 2

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

StatDataN: Test af hypotese

Tidlige eksempler. Susanne Ditlevsen Institut for Matematiske Fag susanne

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Kvantitative metoder 2

Forsøgsplanlægning Stikprøvestørrelse

Kvantitative metoder 2

Schweynoch, Se eventuelt

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Nanostatistik: Konfidensinterval

Kvantitative metoder 2

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

1 Hb SS Hb Sβ Hb SC = , (s = )

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Susanne Ditlevsen Institut for Matematiske Fag susanne

Module 4: Ensidig variansanalyse

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Hypotesetests, fejltyper og p-værdier

Modul 12: Regression og korrelation

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Kvantitative Metoder 1 - Forår 2007

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Transkript:

Dagens program Praktisk information: Husk hjemmeopgaven i statistik Hypoteseprøvning kap. 11.2,11.3 og 11.8 Eksempel på test Styrkefunktionen kap. 11.2 Stikprøvens størrelse kap. 11.3 Likelihood ratio test kap. 11.8 1

1 Styrkefunktionen Kvantitative Metoder 1 - Forår 2007 Sandsynligheden for at forkaste H 0 ; når H A er sand (1 ()); afhænger typisk af en parameter :Styrkefunktionen er en funktion af parameteren ; som angiver sandsynligheden for at forkaste H 0 som funktion af : Denne funktion er de neret for alle 2 H 0 og 2 H A : () = P (forkast H 0 j) = P (Rj) Der gælder, at hvis H 0 : = 0 ; så er styrkefunktionen ( 0 ) = Styrkefunktionen angiver sandsynligheden for at forkaste H 0 : Vi ønsker derfor Lav styrke (dvs. lave værdier af ()); når 2 H 0 Høj styrke(dvs høje værdier af ()); når 2 H A 2

Eksempel (beståelse af 1. årsprøve) fortsat Antag at vi undersøger nulhypotesen H 0 : p = 0; 5 Vi vil benytte forkastelsesområdet R = [1; 65; 1) 3

Styrkefunktionen er så de neret som (p) = P (Rjp) p 2 [0; 5; 1] = P (Z 2 [1; 65; 1)jp) = P (Z 1; 65jp) ^p 0; 5 = P ( 1; 65jp) q 0;5(1 0;5) 231 r 0; 5 0; 5 = P (^p 0; 5 + 1; 65 jp) r 231 0; 5 0; 5 = 1 P (^p < 0; 5 + 1; 65 jp) 231 = 1 P (^p < 0; 554) 4

p(1 p) ) ifølge den centrale grænseværdisætning. Så styrke- 231 Der gælder, at ^p N(p; funktionen er givet ved (p) : = 1 p! 0; 5 p 0; 5 231p + 1; 65p p (1 p) p (1 p) = 1 Styrkefunktionen kan afbildes som! 0; 554 p p p 231 p (1 p) 5

styrkefunktionen 1,2 1 0,8 0,6 0,4 0,2 0 styrkefunktio nen 0,5 0,58 0,66 0,74 0,82 0,9 0,98 p 6

Stikprøvens størrelse Kvantitative Metoder 1 - Forår 2007 Når man bestemmer stikprøvens størrelse, er det ofte en afvejning mellem, hvor troværdige konklusioner man kan få og omkostningerne ved at indsamle data. Styrkefunktionen kan bruges til at vurdere sandsynligheden for at begå fejl for en given stikprøve. Ved at fastlægge størrelsen for Type I og Type II fejl kan man nde den mindste stikprøve, som behøves. Antag at man er interesseret i at teste følgende nulhypotese H 0 : = 0 på et 5% signi kansniveau (sandsynligheden for Type I fejl). Men samtidig vil man have, at sandsynligheden for Type II fejl for parameteren = 1 højst skal være 10%. Dvs at man har at ( 0 ) = 0; 05; ( 1 ) = 1 0; 1 = 0; 9: Disse to betingelser vil fastlægge betingelser for forkastelsesområdet og stikprøvestørrelsen. 7

Eksempel (beståelse af 1. årsprøve) fortsat Antag at man ønsker at (0; 05) = 0; 05; (0; 60) = 1 0; 1 = 0; 9: Antagelse om signi kansniveauet fastlægger forkastelsesområdet til R = [1; 65; 1): Stikprøvens størrelse kan bestemmes til (0; 6) = : 1 p! 0; 5 0; 6 0; 5 np + 1; 65p = 0; 9 0; 6 (1 0; 6) 0; 6 (1 0; 6) dvs. p 0; 5 0; 6 0; 5 n p + 1; 65p = 1; 28 0; 6 (1 0; 6) 0; 6 (1 0; 6) p n = 1; 28 1; 65 0; 5 p 0; 6 (1 0; 6)! p 0; 6 (1 0; 6) 0; 1 Løses ligningen mht.n fås at n 211: 8

styrkefunktionen 1,2 1 0,8 0,6 0,4 0,2 0 styrkefunktion (n=231) styrkefunktion (n=100) styrkefunktion (n=211) 0,5 0,56 0,62 0,68 0,74 0,8 0,86 0,92 0,98 p 9

Likelihood ratio test (kvotienttestet) I dette afsnit præsenteres en generel måde at udlede en teststørrelse på. Indtil nu er teststørrelserne blevet præsenteret, men vi har ikke set, hvordan man er kommet frem til netop den konkrete teststørrelse for det pågældende test. Teststørrelserne er helt centrale, når man taler hypoteseprøvning. Denne metode til at nde en teststørrelse er baseret på likelihoodfunktionen. Ideen med likelihood ratio testet er, at man sammenligner den maximale værdi af likelihood funktionen, når vi antager, at nulhypotesen (restriktioner på parametrene) er opfyldt med den maximale værdi af likelihoodfunktionen (uden restriktioner på parametrene). Antag at vi har en population, som kan beskrives ved en fordeling, der afhænger af parameteren : Antag at vi har en nulhypotese H 0 : Vi har indtil nu kigget på hypoteser af formen H 0 : = 0 ; men det kan her være mere generelt. Alternativhypotesen er H A : Der gælder, at nulhypotesen og alternativhypotesen tilsammen indeholder alle mulige 10

værdier af parameteren : 11

Repetition: Likelihoodfunktionen er en funktion af den ukendte parameter. Likelihoodfunktionen er proportional med tæthedsfunktionen for en given stikprøve. L() / f(xj) Forholdet mellem likelihoodfunktionen i to forskellige værdier L( 1) L( 2 angiver, hvor ) meget mere "sandsynlig"den givne stikprøve er, når parameteren er 1 i stedet for 2 : Maximum likelihood estimatoren ^ er den værdi af parameteren ; som maximerer likelihoodfunktionen for en given stikprøve. 12

Maximum likelihood estimatoren kan fortolkes som den værdi af parameteren, som gør vores stikprøve mest sandsynlig. Der gælder, at maximum likelihood estimatoren ^ er den værdi af parameteren blandt alle mulige værdier, som gør udfaldet af den givne stikprøve mest sandsynlig. L(^) = sup L(): 2H 0 [H A Når vi betragter nulhypotesen, restrikterer den mængden af værdier, som parameteren kan antage. Vi kan nu nde den maximale værdi af likelihoodfunktionen blandt værdierne, som er "tilladt"under H 0 : L(^ 0 ) = sup 2H 0 L(): 13

Ved at sammenligne fås kvotientteststørrelsen = L(^ 0 ) L(^) Hvis nulhypotesen er af formen H 0 : = 0 ; så gælder der = L( 0) L(^) 14

Der gælder for kvotientteststørrelsen 0 1 = 1 hvis ^ = ^ 0 : Når er lille, så betyder det, at det er meget mere "usandsynligt", at stikprøven stammer fra en fordeling med en parameter i H 0 end fra en fordeling med parameteren i H A (eller H 0 ): Små værdier af (værdier tæt på 0) taler altså imod H 0 ;mens store værdier af (værdier tæt på 1) taler for H 0 : Det betyder at forkastelsesområdet vil have formen < K: 15

Fordelingen af kvotientteststørrelsen For at kunne udregne P-værdien (eller teste på et bestemt signi kansniveau) er det nødvendigt at kende fordelingen af : I nogle tilfælde viser det sig, at kvotientteststørrelsen kan skrives som teststørrelser, man allerede kender fordelingen af. Hvis nulhypotesen er af en simpel form, hvor en eller ere af parametrene sættes lig en bestemt værdi ( opfattes her som en vektor), gælder der, at fordelingen af -2 log er asymptotisk 2 fordelt (chi-square), hvis nulhypotesen er opfyldt. Antallet af frihedsgrader er givet ved antallet af restriktioner på parametrene. 2 log 2 (f) Bemærk ekstreme værdier for 2 log er store værdier. Det betyder, at forkastelsesområdet har formen 2 log > L: 16

Eksempel 11.8 Antag at vi har en Bernoulli fordelt population med sandsynlighedsparameter p: Vi ønsker at teste følgende nulhypotese H 0 : p = 0; 5 Alternativhypotesen er H A : p 6= 0; 5: Stikprøven er en tilfældig stikprøve bestående af 100 observationer. For den givne stikprøve har vi Likelihoodfunktionen L(p) = Y100 i=1 0 1 i alt Antal 42 58 100 p x i (1 p) 1 x i = p 58 (1 p) 42 : 17

Maximum likelihood estimatoren har vi tidligere fundet til ^p = X = 58 = 0; 58 100 Værdien af likelihoodfunktionen er L(^p) = (0; 58) 58 (0; 42) 42 Maximum likelihood estimatoren under H 0 er ^p 0 = 0; 5: Værdien af likelihoodfunktionen er Kvotientteststørrelsen L(^p 0 ) = (0; 5) 58 (0; 5) 42 = (0; 5) 100 = (0; 5) 100 = 0; 277 (0; 58) 58 (0; 42) 42 2 log = 2; 57 Da 2 log 2 (1) (approksimativt Chi-i-anden fordelt med en frihedsgrad), kan vi nde forkastelsesområdet for et 5% signi kansniveau (se tabel Va) R = [3; 84; 1) 18

Vi kan altså ikke forkaste nulhypotesen. Sammenligning med Z-testet Z = 0; 58 0; 5 p 0; 5 0; 5=100 = 1; 70 Der gælder, at Z N(0; 1). Forkastelsesområdet er med et 5% signi kansniveau R = ( 1; 1; 96] [ [1; 96; 1) Konklusionen er, at nulhypotesen ikke kan forkastes. Der gælder, at Z 2 = 2; 89 og at Z 2 2 (1) altså den samme fordeling som 2 log : 19

Fordele ved likelihood ratio testet For store stikprøver har likelihood ratio testet en række "pæne"egenskaber Likelihood ratio test giver en mulighed for at nde en teststørrelse, hvor det ikke er så oplagt, hvad man skal vælge Likelihood ratio testet gør det muligt at teste nulhupoteser, som er mere komplicerede end hypoteser af formen H 0 : = 0 : Det viser sig, at en række intuitive teststørrelser faktisk fremkommer som et likelihood ratio test 20

Opsummering Stikprøvens størrelse Kvotient test 21

Næste gang Mandag d. 14/5: Eksempel på kvotient test Sammenligning af populationer kap. 12.1-12.3 22