Kvantitative Metoder 1 - Efterår Dagens program

Relaterede dokumenter
Kvantitative Metoder 1 - Forår Dagens program

Dagens program. Praktisk information: Husk evalueringer af kurset

Dagens program. Praktisk information:

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Tema. Dagens tema: Indfør centrale statistiske begreber.

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Konfidensintervaller og Hypotesetest

Susanne Ditlevsen Institut for Matematiske Fag susanne

Estimation og konfidensintervaller

Bayesiansk statistik. Tom Engsted. DSS Aarhus, 28 november 2017

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Kvantitative Metoder 1 - Forår Dagens program

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Note til styrkefunktionen

Kvantitative metoder 2

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Vejledende besvarelser til opgaver i kapitel 14

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Kvantitative Metoder 1 - Forår 2007

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Kvantitative Metoder 1 - Forår Dagens program

Personlig stemmeafgivning

Kvantitative metoder 2

Kønsproportion og familiemønstre.

Om hypoteseprøvning (1)

Kapitel 12 Variansanalyse

Kapitel 7 Forskelle mellem centraltendenser

Normalfordelingen og Stikprøvefordelinger

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Opgaver til kapitel 3

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Module 4: Ensidig variansanalyse

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

En Introduktion til SAS. Kapitel 5.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Kvantitative metoder 2

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Note om Monte Carlo metoden

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Forelæsning 9: Inferens for andele (kapitel 10)

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Kvantitative metoder 2

Kapitel 12 Variansanalyse

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Statistik i basketball

Løsning til eksaminen d. 14. december 2009

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Oversigt over nyttige fordelinger

Hypotesetests, fejltyper og p-værdier

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Normalfordelingen. Statistik og Sandsynlighedsregning 2

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Estimation af bilkøbsrelationen med nye indkomst- og formueudtryk

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Løsninger til kapitel 6

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Efterår Dagens program

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Bilag 7. SFA-modellen

Mat2SS Vejledende besvarelse uge 11

Nanostatistik: Test af hypotese

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

Estimation og usikkerhed

Test for strukturelle ændringer i investeringsadfærden

Transkript:

Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Estimationsmetoder Kvantitative Metoder 1 - Efterår 2006 Indtil nu har vi set på forskellige estimatorer og deres egenskaber, men ikke diskuteret hvordan man nder en estimator. I dette afsnit (kap. 9.10) behandles to generelle estimationsmetoder: Moment estimation (Method of moments) Maximum likelihood estimation Moment estimation Ideen med moment estimation er meget intuitiv. Hvis vi ønsker en estimator for middelværdien E(X); bruger man gennemsnittet 1 n P n i=1 X i. Hvis man ønsker en estimator for E(X 2 ); benyttes 1 n P n i=1 X2 i : Mere generelt går metoden ud på at estimere parameterne ved at erstatte populationsmomenterne med "stikprøve"momenter. "Stikprøve"momenterne er konsistente estimatorer for populationsmomenterne. Estimationsprocedure: Antag vi har en population, som er beskrevet ved en fordeling med k parametre. 2

(1) Opskriv de k første momenter som identi cerer k parametre. (2) Løs ligningerne opstillet i 1 med hensyn til k parametre. (3) Erstat populationsmomenterne med "stikprøve"momenterne (gennemsnit). Eksempel Antag at vi har en popolation, hvor der gælder at E(X) = og E(X 2 ) = + 2 : Vi antager, at vi har en tilfældig stikprøve af størrelse n: (1) I dette eksempel har vi to ukendte parametre og : Vi skal derfor benytte to momenter; (2) Så løses ligningerne mht. parameterne = E(X) E(X) = E(X 2 ) = + 2 = E(X 2 ) 2 = E(X 2 ) (E(X)) 2 3

(3) Så erstattes populationsmomenterne med de tilsvarende "data"momenter: = 1 nx X i = X n = 1 n i=1 nx X 2 i ( X) 2 i=1 Man kan vise, at under visse antagelser er en moment estimator en konsistent estimator. 4

Maximum likelihood estimation Ideen med maximum likehood estimation er, som navnet antyder, at vælge den værdi af parameteren, som maximerer likelihood funktionen. De nition: Maximum likelihood estimatet (m.l.e) af er den værdi ^; som maximerer likelihood funktionen L():Hvis der eksisterer en indre løsning, og likelihood funktionen er di erentiabel, kan maximum ndes ved L 0 (^) = 0: For en tilfældig stikprøve er det som regel lettere at arbejde med logaritmen til likelihood funktionen log L:Da logaritmen er en monoton stigende funktion, gælder der, at hvis ^ maximerer log L(); så maximerer ^ også L(): Bemærk når vi udleder m.l.e, betragtes likelihood funktionen som en funktion af stikprøven, og stikprøven beskrives som stokastiske variable. Når populationsfordelingen indeholder ere end en parameter, ndes disse parametre ved simultant at nde maximum for likelihood funktionen. Hvis likelihood funktionen er di erentiabel, kan man dog nde maximum udfra de partielle a edte. 5

En af de "pæne"egenskaber ved m.l.e er, at hvis man ønsker at nde en estimator for en funktion af parameterne, kan man blot transforme m.l.e estimatoren med samme funktion. F.eks. hvis vi ønsker at nde m.l.e for ; når vi kender m.l.e. for 2 : V. kan vi nde m.l.e som p V : Sætning: Hvis g() er en entydig funktion (bijektiv) funktion af ; og ^ er m.l.e af ;så gælder der at g(^) er m.l.e for g(): Egenskaber ved maximum likelihood estimatoren m.l.e er konsistent m.l.e er asymptotisk normalfordelt m.l.e. er en funktion af den su ciente stikprøvefunktion 6

Test (Statistisk hypoteseprøvning) Stikprøver kan også bruges til at få viden om hypoteser Eksempler på hypoteser: Når man undersøger, om en behandling virker, er man f.eks. interesseret i at vide, om den behandlede population er anderledes end den ubehandlede population (f.eks. om den lever længere). Når man laver meningsmålinger, kan man være interesseret i at vide, om det ene parti vil få halvdelen af stemmerne. For at undersøge disse påstande statistisk kan man benytte en testprocedure, hvor påstanden formuleres som en hypotese. 7

Hypoteser En påstand eller teori modsvares af en modpåstand eller modteori. Påstande og modpåstande kaldes hypoteser. Hypoteser er udsagn om populationsfordelingen. Eksempel: Sandsynligheden for at nde det rigtige kort. Eksperiment: En person skal nde et bestemt kort ud af re kort. Dette kan formuleres som en sandsynlighedsmodel med en Bernoulli fordelt variabel med sandsynlighedsparameter p. Hvis man vælger tilfældigt blandt de re kort, er der p = 0; 25 sandsynlighed for at nde det rigtige kort. En person A hævder at have specielle evner til at nde det rigtige kort blandt re kort. Person B hævder, at person A ikke har specielle evner. Disse påstande kan formuleres som hypoteser: Person A s påstand (hypotese): Sandsynligheden p > 0; 25 Person B s påstand (hypotese): Sandsynligheden p = 0; 25 8

Eksempel: Forskelle mellem drenge og pigers evner for matematik. Vi antager, at man kan måle evner ved en række test. Vi antager, at i populationen af piger er testresultatet beskrevet ved en fordeling med middelværdi mu_1, og for populationen af drenge er middelværdien mu_2. Vi har nu to påstande, som kan formuleres som hypoteser: Påstand 1: Der er ikke forskel på evnerne for matematik mellem drenge og piger: 1 = 2 Påstand 2: Der er forskel på drenge og pigers evner: 1 6= 2 Hypoteser som angiver ingen forskel kaldes normalt nulhypoteser H 0. 9

Eksempler på nulhypoteser H 0 : H 0 : p = 0; 25 H 0 : 1 = 2 Da nulhypotesen ikke altid er sand, er det nødvendigt at de nere en alternativ hypotese. Alternativ hypotesen speci cerer, hvorledes modellen for populationen er, hvis nulhypotesen ikke er sand. Som regel angiver alternativ hypotesen en fordeling for populationen eller en familie af fordelinger for populationen. Eksempel på alternativ hypotese: H A : p > 0; 25 H A : 1 6= 2 Vi ønsker nu at benytte en stikprøve til at undersøge hypotesen. At benytte en stikprøve til at opnå viden om hypotesen kaldes statistisk hypoteseprøvning 10

Testprocedure Når man undersøger en hypotese på baggrund af en stikprøve, skal man huske, at stikprøven består af stokastiske variable. Det betyder, at man med en anden stikprøve ville kunne nå til en anden konklusion vedr. hypotesen. Derfor kan man aldrig være fuldstændig sikker på konklusionen, som er baseret på en stikprøve (med mindre at stikprøven udgør hele populationen). Derfor ønsker vi en testprocedure, hvor der er gode chancer for at nå til den rigtige konklusion vedr. hypotesen. 11

Ideen bag statistiske test af nulhypoteser er at sammenligne den givne stikprøve, med hvad man ville forvente, hvis nulhypotesen var sand. Til at lave disse sammenligninger konstrueres en teststørrelse. Teststørrelsen er også en stikprøvefunktion og derfor en stokastisk variabel. Fordelingen af teststørrelsen er bestemt af populationsfordelingen (dvs. det afhænger af, om vi antager, at det er nulhypotesen eller alternativhypotesen, som er sand). Fordelingen under nulhypotesen er fordelingen af teststørrelsen, når vi antager, at det er nulhypotesen, som er sand. 12

Sandsynligheden f(y) 0,3 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 y f(y) Eksempel Antag at vi ønsker at undersøge, om person A har specielle evner til at nde bestemte kort ved at udføre 10 forsøg. Vi ved, at antallet af succeser i dette eksperiment Y (teststørrelsen) er binomialfordelt Y ~Bin(10; p). Under nulhypotesen (dvs. under antagelse af at p = 0; 25) gælder der, at sandsynlighedsfordelingen for Y er givet ved guren 13

I et konkret forsøg på ti gange får person A seks succeser. Dette resultat er ret overraskende, hvis sandsynligheden faktisk er p = 0; 25 (som nulhypotesen angiver). For at angive hvor ekstremt det er at få det observede udfald, angives sandsynligheden for at få noget, som er mindst lige så ekstremt P (Y 6jH 0 ) = P (Y = 6jH 0 ) + P (Y = 7jH 0 ) + P (Y = 8jH 0 ) + P (Y = 9jH 0 ) + P (Y = 10jH 0 ) = 0; 019 Dette resultat siger, at der er en meget lille sandsynlighed for at få et sådan resultat, hvis p = 0; 25. Omvendt hvis p > 0; 25, vil det være mere sandsynligt at få seks successer. Denne undersøgelse giver således en indikation af, at nulhypotsen ikke er sand. 14

Sandsynligheden for at få en lige så ekstremt teststørrelse i retning af alternativhypotesen, når nulhypotsen er sand, kaldes testsandsynligheden eller P -værdien. Jo mindre testsandsynlighed, jo længere væk ligger teststørrelsen fra det forventede, når nulhypotesen er sand, og jo sværere er det at acceptere, at forskellen bare skyldes tilfældighed i stikprøven. Derfor tages en lille testsandsynlighed som indikation af, at nulhypotesen ikke er sand. Hvor lille skal testsandsynligheden være for at kunne tage det for indikation mod nulhypotesen (tommel ngerregel). P < 0; 01: Stærk indikation mod H 0 0; 01 < P < 0; 05: indikation mod H 0 P > 0; 10 ingen eller meget svag indikation mod H 0 Ofte siger man at hvis P < 0; 05 er det statistisk signi kant. 15

Testprocedure Når man skal lave hypoteseprøvning kan følgende procedure anvendes: Trin 1: Angiv H 0 (Find den relevante nulhypotese ud fra den påstand som ønskes undersøgt i det givne eksperiment) Trin 2: Angiv H A : (Angiv den relevante alternativ hypotese) Trin 3: Konstruer teststørrelsen Y (en stikprøvefunktion som kan anvendes til at diskriminere mellem nulhypotesen og alternativ hypotesen) Trin 4: Angiv ekstreme værdier af Y (i retning af alternativ hypotesen er bedre til at forklare data) når nulhypotesen er sand. Trin 5: Med den konkrete stikprøve udregnes værdien af stikprøvefunktionen og på baggrund af denne værdi bestemmes testsandsynligheden (P -værdien). 16

Ensidet og tosidet alternativ I tilfældet hvor nulhypotesen er hypotese af formen H 0 : = 0 kan alternativ hypotesen formuleres som et ensidet eller et tosidet alternativ. Det ensidede alternativ er hypoteser af formen: eller H A : > 0 H A : < 0 Det dobbelsidet alternativ er hypoteser af formen H A : 6= 0 Hvilken type af alternativ hypotese som er den rigtige: det afhænger af problemet Teststørrelsens ekstreme værdier vil afhænge af alternativhypotesen. 17

Bemærkninger Hvis man anvender 0,05 som en grænse for hvornår noget er signi kant, skal man huske at hvis man tester mange hypoteser (og testsandsynlighederne er uafhængige) er det sandsynligt at man vil nder statistisk signi kans selvom alle nulhypoteserne er sande. Hvorfor det? Hvis konklusionen er at der ikke er statistisk signi kans, er det ikke nødvendigvis det samme som at nulhypotesen er sand. Det kan blot være at der er for stor variation eller stikprøven ikke er stor nok til at skelne forskelle som faktisk eksistere Fordi noget er statistisk signi kant er det ikke det samme som at det i praksis er signi kant. 18

Opsummering Estimationsmetoder Test Hypoteser Testprocedure 19

Næste gang Torsdag d. 30/11: Z-test kap. 10.3 T-test kap. 10.4 Ikke parameteriske test kap. 10.5 20