Dagens program Estimation: Kapitel 9.1-9.3 Estimation Estimationsfejlen Bias Eksempler Bestemmelse af stikprøvens størrelse Konsistens De nitioner påkonsistens Eksempler på konsistente og middelrette estimatorer 1
Estimation Estimation drejer sig om at give et "gæt"på den sande ukendte parameter i populationen baseret på en stikprøve. Antag at vi har en population, som kan beskrives af en populationsfordeling f(xj) og en parameter : Ud fra stikprøven (X 1 ; X 2 ; ::::; X n ) kan man give et bud på parameteren : Eksempel: Danskeres ugentlige udgifter til mad. Vi antager, at populationen kan beskrives ved en normalfordeling med middelværdi og varians 2 : Vi ønsker et "gæt"på, hvad er. 2
"Gættet"på parameteren er en funktion af stikprøven T = t(x 1 ; X 2 ; :::X n ). Der gælder for T : T er en stokastisk variabel og har derfor en fordeling T kaldes en estimator for (regneregel) Værdien af T for en given stikprøve kaldes for et estimat af Værdien af T afhænger af stikprøven og varierer derfor fra stikprøve til stikprøve. 3
Eksempel Vi ønsker at give et bud på middelværdien af danskeres ugentlige forbrug af mad på baggrund af en stikprøve på 100 individer. Gennemsnittet af stikprøven kan bruges som et bud på parameteren. Vi antager, at populationsfordelingen er normalfordelt med middelværdi Vi udtager en stikprøve på 100 individer (X 1 ; X 2 ; ::X 100 ). Estimatoren (regnereglen) for er gennemsnittet T = 1 100 P 100 i=1 X i For den konkrete stikprøve (x 1 ; x 2 ; ::::; x n ) kan gennemsnittet udregnes 1 100 Denne værdi er estimatet for : P 100 i=1 x i: 4
Estimationsfejlen Kvantitative Metoder 1 - Forår 2007 Værdien af en estimator er sjældent lig parameteren. For en god estimator T gælder: Værdien af estimatoren T er tæt ved den sande værdi Fordelingen af estimatoren T er koncentreret omkring Middelret De nition: En estimator T for kaldes middelret (unbiased) hvis E(T ) = : Denne egenskab ved estimatoren angiver, at middelværdien af estimatoren er lig parameteren. Estimatoren har således ikke tendens til at systematisk over- eller undervurdere parameteren. 5
Skævhed Skævheden (bias) ved en estimator de neres som b T () = E(T ) Bias kan opfattes som den forventede estimationsfejl. Estimationsfejl Ved estimation vil man derfor ofte lave en fejl. Estimationsfejlen er forskellen T : Størrelsen af fejlen vil afhænge af den konkrete stikprøve. For en god estimator forventer vi, at estimationsfejlene er små. Mål for hvor god en estimator er: Forventede absolut estimationsfejl E(jT Forventede kvadrerede estimationsfejl (mean squared error m.s.e.) E((T ) 2 ) j) 6
Den forventede kvadrerede estimationsfejl kan også skrives som E (T ) 2 = E (T E(T ) + E(T ) ) 2 = E (T E(T )) 2 + E (E(T ) ) 2 + E [2(T E(T ))(E(T ) )] = var(t ) + (E(T ) ) 2 = var(t ) + [b T ()] 2 Kvadratroden af forventede kvadrerede estimationsfejl p m:s:e: = p E [(T )2 ] Når T er middelret, gælder der r:m:s:e:(t ) = p m:s:e:(t ) = p var(t ) = T 7
Eksempel For at estimere middelværdien i en population med middelværdi og varians 2 fra en tilfældig stikprøve kan gennemsnittet bruges: Vi har vist at T = X = 1 n nx X i : i=1 E(T ) = E( X) = var(t ) = var( X) = 2 n Altså en middelret estimator og med r:m:s:e:(t ) = p n : 8
er oftest en ukendt parameter, og vi kan derfor kun approksimere r.m.s.e. Når n er stor, vil S være tæt på ; og vi kan lave en approksimation med at erstatte med S. Når man erstatter den sande parameter med et estimat kaldes "standardafvigelsen"for standardfejlen. Standardfejlen for X er givet ved r s:e:( X) S 2 = n Standardfejlen for gennemsnittet af Bernoulli fordelte variable Ber(p) s:e( X) = s:e:(^p) = r ^p(1 n ^p) 9
Bestemmelse af stikprøvens størrelse Når man bestemmer størrelsen af stikprøven, er det ofte en afvejning mellem omkostningerne ved at indsamle meget data og præcisionen af estimatoren. Antag at vi er interesseret i at estimere populationsmiddelværdien ved gennemsnittet. Desuden antages at variansen i populationen er kendt, 2 : Hvis vi ønsker, at præcisionen af X skal være således, at standardafvigelsen af X er mindre end eller lig "; så gælder X = p n " n 2 " 2 Problemet er, at det er sjældent, at man kender 2 : Man kan i stedet erstatte 2 med tidligere estimerede værdier af 2 eller et interval af mulige værdier for 2 : Alternativt kan man løbende estimere 2 (se eksempel 9.2b). 10
Eksempel Hvis vi ønsker at estimere en populationsandel, hvor vi anvender gennemsnittet, ved vi at r p(1 p) X = ^p = n Der gæder nu, at standardafvigelsen er størst for p = 0:5: Her er standardafvigelsen ^p Hvis 0;5 p n ", n 0;25 " 2 så følger ^p " r 0; 5(1 0; 5) n = 0; 5 p n : 11
Konsistens Konsistens er en egenskab ved en estimator. Konsistens betyder "løst sagt", at fordelingen af estimatoren T for skal blive mere og mere koncentreret omkring ; når stikprøvestørrelsen vokser (n! 1):Konsistens er altså en asymptotisk egenskab. De nition: Lad ft n g være en sekvens af estimatorer. ft n g er konsistent for hvis lim P (jt n j ") = 1 n!1 Hvorfor er konsistens en vigtig egenskab ved en estimator? 12
Når man skal undersøge, om en estimator er konsistent, er det som regel lettere at benytte følgende sætning: Sætning: Når T n har endelig varians, gælder at ft n g er konsistent for hvis E(T n )! og var(t n )! 0 for n! 1 Denne sætning kan vises ved at anvende Chebyshevs ulighed. Chebyshevs ulighed: Hvis E(X 2 ) < 1 og for enhver værdi af 2 R og " > 0 P (jx j ") 1 " 2E (X ) 2 13
For at vise sætningen antager vi, at var(t n ) = E(Tn) 2 [E(T n )] 2 < 1 ) E(Tn) 2 < 1 E(T n )! og var(t n )! 0 for n! 1 Af Chebyshevs ulighed følger 0 P (jt n j ") 1 " 2E (T n ) 2 = 1 " (var(t n) + (E(T 2 n ) ) 2 ) For n! 1 gælder, at (var(t n ) + (E(T n ) ) 2 )! 0. Heraf sluttes at lim P (jt n j ") = 0 n!1 14
Opsummering Estimationsfejl Middelret estimator Forventede kvadrerede estimationsfejl Stikprøvens størrelse Hvordan bestemmer man stikprøvestørrelsen Konsistens de nition på konsistens 15
Næste gang Mandag d. 23/4: Kon densintervaller for store stikprøver (asymptotiske) kap. 9.4 Kon densintervaller for små stikprøver kap. 9.5 T-fordelingen kap. 9.6 Pivital størrelser kap. 9.7 16