Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte populationer kap. 8.10 Eksempler på simulationer med SAS 1
Momenter af gennemsnit og andele Det viser sig i mange tilfælde, at gennemsnittet er en sufficient stikprøvefunktion for den sande parameter. Ofte er gennemsnittet en sufficient stikprøvefunktion for middelværdien i populationen. Intuitivt virker det logisk, at gennemsnittet er et godt "gæt"på den sande ukendte parameter for middelværdien. Vi har tidligere vist, at vi kan opfatte summen eller gennemsnittet som en stikprøvefunktion. Heraf følger, at summen og herved også gennemsnittet er en stokastisk variabel, som har en fordeling. Fordelingen vil afhænge af populationsfordelingen samt udvælgelsesproceduren. I dette afsnit fokuseres på middelværdien og variansen af gennemsnittet. 2
Gennemsnittet Antag en stikprøve af størrelse n som er fremkommet ved tilfældig udvælgelse (med eller uden tilbagelægning): (X 1,X 2,X 3,..., X n ) fra en population som har middelværdi μ og varians σ 2 : E(X) =μ, V (X) =σ 2. Det medfører, at alle observationer X i har den samme middelværdi E(X i )=μ og varians V (X i )= σ 2 (identisk fordelt) observationerne er ikke nødvendigvis uafhængige (det afhænger af, om stikprøveudtagningen er med eller uden tilbagelægning) Stikprøvefunktionens gennemsnit er defineret som X = 1 nx X i n Middelværdien af gennemsnit kan udregnes som (jf. regneregler for middelværdi, se side 83): " # E( X) 1 nx =E X i = 1 nx E(X i )= 1 n n n nμ = μ 3
Fortolkning: Middelværdien af gennemsnittet er lig populationsmiddelværdien Men gennemsnittet i en given stikprøve er oftest forskellig fra middelværdien 4
Variansen er givet ved (jf regneregler for varians, se side 94): " # " σ 2 X = V ( X) 1 nx =V X i = 1 n # X n n 2V X i Det er ikke muligt at reducere udtrykket yderligere uden ekstra antagelser. Vi antager nu, at stikprøven er en tilfældig stikprøve. Så følger at observationerne er uafhængige, og variansen kan da skrives som (se side 105): " = V ( X) = 1 n # X n 2V X i σ 2 X " = 1 n # " X V (X n 2 i ) = 1 n # X σ 2 n 2 = 1 n 2nσ2 = σ2 n Dermed er spredningen σ X = σ n Det ses, at jo større stikprøven er (jo større n), jo mindre spredning har gennemsnittet. 5
Eksempel: Terningekast Eksperimentet betår i at slå med en terning med udfaldene 1,2,3,4,5,6. Lad X være en stokastisk variabel, som angiver antallet på terningen. Alle udfaldene har samme sandsynlighed P (X =1)=P (X =2)=... = P (X =6)=1/6 Middelværdien af X er E(X) = 3, 5 V (X) = 35 12 6
Antagatviharentilfældigstikprøvepå3(X 1,X 2,X 3 ).Gennemsnittet af stikprøven Y = 1 3 (X 1 + X 2 + X 3 ) er en ny stokastisk variabel: Middelværdien af Y : E(Y )= 1 3 (E(X 1)+E(X 2 )+E(X 3 )) = 1/3 (3 3, 5) = 3, 5 Variansen af Y : V (Y )= 1(V (X 9 1)+V (X 2 )+V(X 3 )) = 1 35 (3 35/12) = = 35 = 9 3 12 36 0, 972 Gennemsnittet for en given stikprøve er i dette eksperiment aldrig lig middelværdien Simulationseksperiment: Resultaterne efterprøves ved et simulationseksperiment i SAS med 10.000 replikationer 7
Andele For specialtilfældet med en population af Bernoulli fordelte variabler, X Ber(p), kan parameteren p fortolkes som middelværdien i populationen: p = P (X =1)=E(X) =μ. Tilsvarende kan gennemsnittet fortolkes som andelen af succes X = 1 nx X i = 1 n n #{X i =1}. Det følger heraf at E( X) =μ = p Da variansen for en Bernoulli fordelt variabel er V (X) =pq = p(1 p) gælder V ( X) = pq n pq σ X = n 8
Tilfældig udvælgelse uden tilbagelægning Ved tilfældig udvælgelse uden tilbagelægning fra en endelig population N med middelværdi μ og standardafvigelse σ gælder E( X) = μ σ X = σ r N n n N 1 Sammenligning mellem med og uden tilbagelægning Middelværdien er ens Spredningen er mindre uden tilbagelægning (N >1) For stort N iforholdtiln (stor population i forhold til stikprøvens størrelse) er der kun en lille forskel på spredningen 9
Den centrale grænseværdisætning Det kan være svært at finde fordelingen af en stikprøvefunktion. Det viser sig for mange stikprøvefunktioner, at man kan finde en god approksimation, når stikprøven er stor. Ofte kan normalfordelingen bruges som approksimation til den ukendte fordeling. Under givne antagelser kan fordelingen af gennemsnittet approksimeres med normalfordelingen, når n er stor. Betingelsen for at approksimation kan bruges er at Populationsfordelingen har middelværdi μ og har en endelig varians σ <. Dette er en meget mild betingelse, da mest almindelig benyttede fordelinger faktisk har endelig varians (f.eks. binomialfordelingen, poissonfordelingen, den geometriske fordeling, ligefordelingen, normalfordelingen) Observationerne i stikprøven er uafhængige 10
Den centrale grænseværdisætning For en tilfældig stikprøve af størrelse n og hvor populationsfordelingen har endelig varians σ< gælder µ X μ lim P n.= σ/ n z Φ(z) Sætningen siger, at når n går mod uendelig, vil sandsynligheden for den standardiserede variabel X konvergere mod sandsynligheden i en standardiseret normalfordeling. Når man refererer til den centrale grænseværdisætning benyttes ofte udtryk som X er asymptotisk normalfordelt med middelværdi μ og varians σ2 : X n N(μ, σ 2 ) n N(μ, σ2) er den asymptotiske fordeling af X n Den centrale grænseværdisætning er meget nyttig, idet man for en stor klasse af populationsfordelinger kan approksimere fordelingen af gennemsnittet. 11
Hvornår er n så stor, at man kan anvende den centrale grænseværdisætning? Det afhænger af, hvor god en approksimation man ønsker af populationsfordelingen, og hvor i fordelingen man benytter approksimationerne: Jo mere populationsfordelingen "ligner"normalfordelingen, jo tættere vil fordelingen af X være på normalfordelingen, og jo mindre stikprøve kan man klare sig med. 12
Hvordan finder man sandsynligheden for gennemsnittet? Vi ved at Dvs. Heraf følger også at P ( X k) =P P ( X k X μ k μ X μ σ/ n k μ σ/ n µ X μ σ/ n k μ µ.= k μ σ/ Φ n σ/ n nx X i y) =. Φ µ y nμ σ n 13
Bernoulli fordelt population For en tilfældig stikprøve fra en Bernoulli fordelt population gælder der X p p N(0, 1) pq/n P ( X c) =. µ c p Φ pq/ n P ( nx X i y). = Φ µ y np pqn Vi har tidligere set, at binominalfordelingen kan approksimeres med normalfordelingen (afsnit 4.5), men der brugte vi en korrektionsfaktor. 14
Eksempel: Terningekast Antagatmanharentilfældigstikprøvepån fra en population (et kast med en terning). Populationsfordelingen adskiller sig fra en normalfordeling på flg. måder: Diskret fordeling Udfaldene er på et begrænset udfaldsrum Sandsynligheden er den samme for alle udfald. Vi benytter nu SAS til at sammenligne fordelingen af gennemsnittet med normalfordeling Det standardiserede gennemsnit er X 3, 5 p (35/12) n N(0, 1) 15
Normalfordelte populationer For normaltfordelte populationer N(μ, σ 2 ) med en tilfældig stikprøve har vi vist, at gennemsnittet X og den empiriske varians S 2 er den sufficiente stikprøvefunktion. Der gælder for den tilfældige stikprøve (X 1,X 2,X 3,..., X n ) fra N(μ, σ 2 ) for n 2 (1) X N(μ, σ 2 /n) (2) n 1 S 2 χ 2 σ 2 (n 1) (3) X og S 2 er uafhængige 16
Opsummering Momenter af gennemsnit og andele Hvad er den tilstrækkelige information fra stikprøven Den centrale grænseværdisætning For store stikprøver kan man under visse betingelser approksimere fordelingen af gennemsnittet med normalfordelingen Normalfordelte populationer Afsnit 8.9 er ikke pensum. 17
Næste gang Onsdag d. 18/4: Mette overtager forelæsningerne. Estimation kap. 9.1 Stikprøvens størrelse kap. 9.2 Konsistens kap. 9.3 HUSK SAS-prøven: SAS-prøven ligger på nettet fra i dag Opgaven skal løses (dvs. der skal laves et SAS-program) Programmet gennemgås ved øvelserne i næste uge for øvelseslæreren 18