Kvantitative Metoder 1 - Forår 2007

Relaterede dokumenter
Kvantitative Metoder 1 - Forår 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Kvantitative Metoder 1 - Efterår Dagens program

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Kvantitative metoder 2

Kvantitative Metoder 1 - Forår Dagens program

Konfidensintervaller og Hypotesetest

Kvantitative metoder 2

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Kvantitative Metoder 1 - Forår Dagens program

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Produkt og marked - matematiske og statistiske metoder

Estimation og usikkerhed

Kvantitative Metoder 1 - Forår 2007

Dagens program. Praktisk information:

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Normalfordelingen og Stikprøvefordelinger

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Note om Monte Carlo metoden

Kvantitative Metoder 1 - Forår Dagens program

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Løsning eksamen d. 15. december 2008

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Tema. Dagens tema: Indfør centrale statistiske begreber.

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Kvantitative metoder 2

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

hvor y antages approksimeret ved normalfordeling med middelværdi y og varians va^r(y): y ± u 1-/2 # cv(y) # y = y(1 ± u 1-/2 # cv(y))

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Dagens program. Praktisk information: Husk evalueringer af kurset

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Statistiske modeller

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mål for sammenhæng mellem to variable

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Løsning til eksaminen d. 29. maj 2009

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Økonometri 1. Oversigt. Mere om dataproblemer Gentagne tværsnit og panel data I

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Kvantitative metoder 2

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Konfidensinterval for µ (σ kendt)

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Kvantitative Metoder 1 - Forår Dagens program

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

To-sidet varians analyse

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Susanne Ditlevsen Institut for Matematiske Fag susanne

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

ca. 5 min. STATISTISKE TEGN

Statistik opgaver - Efterår 2009 Keller - Statistics for management and economics

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Definition. Definitioner

Løsning til eksaminen d. 14. december 2009

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Statistik og Sandsynlighedsregning 2

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Opgaver til kapitel 3

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Kvantitative Metoder 1 - Efterår Dagens program

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

Kvantitative metoder 2

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Forelæsning 11: Kapitel 11: Regressionsanalyse

Transkript:

Dagens program Estimation: Kapitel 9.1-9.3 Estimation Estimationsfejlen Bias Eksempler Bestemmelse af stikprøvens størrelse Konsistens De nitioner påkonsistens Eksempler på konsistente og middelrette estimatorer 1

Estimation Estimation drejer sig om at give et "gæt"på den sande ukendte parameter i populationen baseret på en stikprøve. Antag at vi har en population, som kan beskrives af en populationsfordeling f(xj) og en parameter : Ud fra stikprøven (X 1 ; X 2 ; ::::; X n ) kan man give et bud på parameteren : Eksempel: Danskeres ugentlige udgifter til mad. Vi antager, at populationen kan beskrives ved en normalfordeling med middelværdi og varians 2 : Vi ønsker et "gæt"på, hvad er. 2

"Gættet"på parameteren er en funktion af stikprøven T = t(x 1 ; X 2 ; :::X n ). Der gælder for T : T er en stokastisk variabel og har derfor en fordeling T kaldes en estimator for (regneregel) Værdien af T for en given stikprøve kaldes for et estimat af Værdien af T afhænger af stikprøven og varierer derfor fra stikprøve til stikprøve. 3

Eksempel Vi ønsker at give et bud på middelværdien af danskeres ugentlige forbrug af mad på baggrund af en stikprøve på 100 individer. Gennemsnittet af stikprøven kan bruges som et bud på parameteren. Vi antager, at populationsfordelingen er normalfordelt med middelværdi Vi udtager en stikprøve på 100 individer (X 1 ; X 2 ; ::X 100 ). Estimatoren (regnereglen) for er gennemsnittet T = 1 100 P 100 i=1 X i For den konkrete stikprøve (x 1 ; x 2 ; ::::; x n ) kan gennemsnittet udregnes 1 100 Denne værdi er estimatet for : P 100 i=1 x i: 4

Estimationsfejlen Kvantitative Metoder 1 - Forår 2007 Værdien af en estimator er sjældent lig parameteren. For en god estimator T gælder: Værdien af estimatoren T er tæt ved den sande værdi Fordelingen af estimatoren T er koncentreret omkring Middelret De nition: En estimator T for kaldes middelret (unbiased) hvis E(T ) = : Denne egenskab ved estimatoren angiver, at middelværdien af estimatoren er lig parameteren. Estimatoren har således ikke tendens til at systematisk over- eller undervurdere parameteren. 5

Skævhed Skævheden (bias) ved en estimator de neres som b T () = E(T ) Bias kan opfattes som den forventede estimationsfejl. Estimationsfejl Ved estimation vil man derfor ofte lave en fejl. Estimationsfejlen er forskellen T : Størrelsen af fejlen vil afhænge af den konkrete stikprøve. For en god estimator forventer vi, at estimationsfejlene er små. Mål for hvor god en estimator er: Forventede absolut estimationsfejl E(jT Forventede kvadrerede estimationsfejl (mean squared error m.s.e.) E((T ) 2 ) j) 6

Den forventede kvadrerede estimationsfejl kan også skrives som E (T ) 2 = E (T E(T ) + E(T ) ) 2 = E (T E(T )) 2 + E (E(T ) ) 2 + E [2(T E(T ))(E(T ) )] = var(t ) + (E(T ) ) 2 = var(t ) + [b T ()] 2 Kvadratroden af forventede kvadrerede estimationsfejl p m:s:e: = p E [(T )2 ] Når T er middelret, gælder der r:m:s:e:(t ) = p m:s:e:(t ) = p var(t ) = T 7

Eksempel For at estimere middelværdien i en population med middelværdi og varians 2 fra en tilfældig stikprøve kan gennemsnittet bruges: Vi har vist at T = X = 1 n nx X i : i=1 E(T ) = E( X) = var(t ) = var( X) = 2 n Altså en middelret estimator og med r:m:s:e:(t ) = p n : 8

er oftest en ukendt parameter, og vi kan derfor kun approksimere r.m.s.e. Når n er stor, vil S være tæt på ; og vi kan lave en approksimation med at erstatte med S. Når man erstatter den sande parameter med et estimat kaldes "standardafvigelsen"for standardfejlen. Standardfejlen for X er givet ved r s:e:( X) S 2 = n Standardfejlen for gennemsnittet af Bernoulli fordelte variable Ber(p) s:e( X) = s:e:(^p) = r ^p(1 n ^p) 9

Bestemmelse af stikprøvens størrelse Når man bestemmer størrelsen af stikprøven, er det ofte en afvejning mellem omkostningerne ved at indsamle meget data og præcisionen af estimatoren. Antag at vi er interesseret i at estimere populationsmiddelværdien ved gennemsnittet. Desuden antages at variansen i populationen er kendt, 2 : Hvis vi ønsker, at præcisionen af X skal være således, at standardafvigelsen af X er mindre end eller lig "; så gælder X = p n " n 2 " 2 Problemet er, at det er sjældent, at man kender 2 : Man kan i stedet erstatte 2 med tidligere estimerede værdier af 2 eller et interval af mulige værdier for 2 : Alternativt kan man løbende estimere 2 (se eksempel 9.2b). 10

Eksempel Hvis vi ønsker at estimere en populationsandel, hvor vi anvender gennemsnittet, ved vi at r p(1 p) X = ^p = n Der gæder nu, at standardafvigelsen er størst for p = 0:5: Her er standardafvigelsen ^p Hvis 0;5 p n ", n 0;25 " 2 så følger ^p " r 0; 5(1 0; 5) n = 0; 5 p n : 11

Konsistens Konsistens er en egenskab ved en estimator. Konsistens betyder "løst sagt", at fordelingen af estimatoren T for skal blive mere og mere koncentreret omkring ; når stikprøvestørrelsen vokser (n! 1):Konsistens er altså en asymptotisk egenskab. De nition: Lad ft n g være en sekvens af estimatorer. ft n g er konsistent for hvis lim P (jt n j ") = 1 n!1 Hvorfor er konsistens en vigtig egenskab ved en estimator? 12

Når man skal undersøge, om en estimator er konsistent, er det som regel lettere at benytte følgende sætning: Sætning: Når T n har endelig varians, gælder at ft n g er konsistent for hvis E(T n )! og var(t n )! 0 for n! 1 Denne sætning kan vises ved at anvende Chebyshevs ulighed. Chebyshevs ulighed: Hvis E(X 2 ) < 1 og for enhver værdi af 2 R og " > 0 P (jx j ") 1 " 2E (X ) 2 13

For at vise sætningen antager vi, at var(t n ) = E(Tn) 2 [E(T n )] 2 < 1 ) E(Tn) 2 < 1 E(T n )! og var(t n )! 0 for n! 1 Af Chebyshevs ulighed følger 0 P (jt n j ") 1 " 2E (T n ) 2 = 1 " (var(t n) + (E(T 2 n ) ) 2 ) For n! 1 gælder, at (var(t n ) + (E(T n ) ) 2 )! 0. Heraf sluttes at lim P (jt n j ") = 0 n!1 14

Opsummering Estimationsfejl Middelret estimator Forventede kvadrerede estimationsfejl Stikprøvens størrelse Hvordan bestemmer man stikprøvestørrelsen Konsistens de nition på konsistens 15

Næste gang Mandag d. 23/4: Kon densintervaller for store stikprøver (asymptotiske) kap. 9.4 Kon densintervaller for små stikprøver kap. 9.5 T-fordelingen kap. 9.6 Pivital størrelser kap. 9.7 16