Kvantitative Metoder 1 - Forår 2007

Relaterede dokumenter
Kvantitative Metoder 1 - Forår Dagens program

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Kvantitative Metoder 1 - Forår 2007

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Elementær sandsynlighedsregning

Tema. Dagens tema: Indfør centrale statistiske begreber.

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Sandsynlighedsregning

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Kvantitative Metoder 1 - Efterår Dagens program

Elementær sandsynlighedsregning

Kvantitative Metoder 1 - Efterår Dagens program

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Sandsynlighedsregning Oversigt over begreber og fordelinger

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

INSTITUT FOR MATEMATISKE FAG c

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Løsninger til kapitel 6

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Note om Monte Carlo metoden

Statistiske modeller

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Uge 10 Teoretisk Statistik 1. marts 2004

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Kapitel 4 Sandsynlighed og statistiske modeller

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Normalfordelingen og Stikprøvefordelinger

Løsning eksamen d. 15. december 2008

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Transkript:

Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte populationer kap. 8.10 Eksempler på simulationer med SAS 1

Momenter af gennemsnit og andele Det viser sig i mange tilfælde, at gennemsnittet er en sufficient stikprøvefunktion for den sande parameter. Ofte er gennemsnittet en sufficient stikprøvefunktion for middelværdien i populationen. Intuitivt virker det logisk, at gennemsnittet er et godt "gæt"på den sande ukendte parameter for middelværdien. Vi har tidligere vist, at vi kan opfatte summen eller gennemsnittet som en stikprøvefunktion. Heraf følger, at summen og herved også gennemsnittet er en stokastisk variabel, som har en fordeling. Fordelingen vil afhænge af populationsfordelingen samt udvælgelsesproceduren. I dette afsnit fokuseres på middelværdien og variansen af gennemsnittet. 2

Gennemsnittet Antag en stikprøve af størrelse n som er fremkommet ved tilfældig udvælgelse (med eller uden tilbagelægning): (X 1,X 2,X 3,..., X n ) fra en population som har middelværdi μ og varians σ 2 : E(X) =μ, V (X) =σ 2. Det medfører, at alle observationer X i har den samme middelværdi E(X i )=μ og varians V (X i )= σ 2 (identisk fordelt) observationerne er ikke nødvendigvis uafhængige (det afhænger af, om stikprøveudtagningen er med eller uden tilbagelægning) Stikprøvefunktionens gennemsnit er defineret som X = 1 nx X i n Middelværdien af gennemsnit kan udregnes som (jf. regneregler for middelværdi, se side 83): " # E( X) 1 nx =E X i = 1 nx E(X i )= 1 n n n nμ = μ 3

Fortolkning: Middelværdien af gennemsnittet er lig populationsmiddelværdien Men gennemsnittet i en given stikprøve er oftest forskellig fra middelværdien 4

Variansen er givet ved (jf regneregler for varians, se side 94): " # " σ 2 X = V ( X) 1 nx =V X i = 1 n # X n n 2V X i Det er ikke muligt at reducere udtrykket yderligere uden ekstra antagelser. Vi antager nu, at stikprøven er en tilfældig stikprøve. Så følger at observationerne er uafhængige, og variansen kan da skrives som (se side 105): " = V ( X) = 1 n # X n 2V X i σ 2 X " = 1 n # " X V (X n 2 i ) = 1 n # X σ 2 n 2 = 1 n 2nσ2 = σ2 n Dermed er spredningen σ X = σ n Det ses, at jo større stikprøven er (jo større n), jo mindre spredning har gennemsnittet. 5

Eksempel: Terningekast Eksperimentet betår i at slå med en terning med udfaldene 1,2,3,4,5,6. Lad X være en stokastisk variabel, som angiver antallet på terningen. Alle udfaldene har samme sandsynlighed P (X =1)=P (X =2)=... = P (X =6)=1/6 Middelværdien af X er E(X) = 3, 5 V (X) = 35 12 6

Antagatviharentilfældigstikprøvepå3(X 1,X 2,X 3 ).Gennemsnittet af stikprøven Y = 1 3 (X 1 + X 2 + X 3 ) er en ny stokastisk variabel: Middelværdien af Y : E(Y )= 1 3 (E(X 1)+E(X 2 )+E(X 3 )) = 1/3 (3 3, 5) = 3, 5 Variansen af Y : V (Y )= 1(V (X 9 1)+V (X 2 )+V(X 3 )) = 1 35 (3 35/12) = = 35 = 9 3 12 36 0, 972 Gennemsnittet for en given stikprøve er i dette eksperiment aldrig lig middelværdien Simulationseksperiment: Resultaterne efterprøves ved et simulationseksperiment i SAS med 10.000 replikationer 7

Andele For specialtilfældet med en population af Bernoulli fordelte variabler, X Ber(p), kan parameteren p fortolkes som middelværdien i populationen: p = P (X =1)=E(X) =μ. Tilsvarende kan gennemsnittet fortolkes som andelen af succes X = 1 nx X i = 1 n n #{X i =1}. Det følger heraf at E( X) =μ = p Da variansen for en Bernoulli fordelt variabel er V (X) =pq = p(1 p) gælder V ( X) = pq n pq σ X = n 8

Tilfældig udvælgelse uden tilbagelægning Ved tilfældig udvælgelse uden tilbagelægning fra en endelig population N med middelværdi μ og standardafvigelse σ gælder E( X) = μ σ X = σ r N n n N 1 Sammenligning mellem med og uden tilbagelægning Middelværdien er ens Spredningen er mindre uden tilbagelægning (N >1) For stort N iforholdtiln (stor population i forhold til stikprøvens størrelse) er der kun en lille forskel på spredningen 9

Den centrale grænseværdisætning Det kan være svært at finde fordelingen af en stikprøvefunktion. Det viser sig for mange stikprøvefunktioner, at man kan finde en god approksimation, når stikprøven er stor. Ofte kan normalfordelingen bruges som approksimation til den ukendte fordeling. Under givne antagelser kan fordelingen af gennemsnittet approksimeres med normalfordelingen, når n er stor. Betingelsen for at approksimation kan bruges er at Populationsfordelingen har middelværdi μ og har en endelig varians σ <. Dette er en meget mild betingelse, da mest almindelig benyttede fordelinger faktisk har endelig varians (f.eks. binomialfordelingen, poissonfordelingen, den geometriske fordeling, ligefordelingen, normalfordelingen) Observationerne i stikprøven er uafhængige 10

Den centrale grænseværdisætning For en tilfældig stikprøve af størrelse n og hvor populationsfordelingen har endelig varians σ< gælder µ X μ lim P n.= σ/ n z Φ(z) Sætningen siger, at når n går mod uendelig, vil sandsynligheden for den standardiserede variabel X konvergere mod sandsynligheden i en standardiseret normalfordeling. Når man refererer til den centrale grænseværdisætning benyttes ofte udtryk som X er asymptotisk normalfordelt med middelværdi μ og varians σ2 : X n N(μ, σ 2 ) n N(μ, σ2) er den asymptotiske fordeling af X n Den centrale grænseværdisætning er meget nyttig, idet man for en stor klasse af populationsfordelinger kan approksimere fordelingen af gennemsnittet. 11

Hvornår er n så stor, at man kan anvende den centrale grænseværdisætning? Det afhænger af, hvor god en approksimation man ønsker af populationsfordelingen, og hvor i fordelingen man benytter approksimationerne: Jo mere populationsfordelingen "ligner"normalfordelingen, jo tættere vil fordelingen af X være på normalfordelingen, og jo mindre stikprøve kan man klare sig med. 12

Hvordan finder man sandsynligheden for gennemsnittet? Vi ved at Dvs. Heraf følger også at P ( X k) =P P ( X k X μ k μ X μ σ/ n k μ σ/ n µ X μ σ/ n k μ µ.= k μ σ/ Φ n σ/ n nx X i y) =. Φ µ y nμ σ n 13

Bernoulli fordelt population For en tilfældig stikprøve fra en Bernoulli fordelt population gælder der X p p N(0, 1) pq/n P ( X c) =. µ c p Φ pq/ n P ( nx X i y). = Φ µ y np pqn Vi har tidligere set, at binominalfordelingen kan approksimeres med normalfordelingen (afsnit 4.5), men der brugte vi en korrektionsfaktor. 14

Eksempel: Terningekast Antagatmanharentilfældigstikprøvepån fra en population (et kast med en terning). Populationsfordelingen adskiller sig fra en normalfordeling på flg. måder: Diskret fordeling Udfaldene er på et begrænset udfaldsrum Sandsynligheden er den samme for alle udfald. Vi benytter nu SAS til at sammenligne fordelingen af gennemsnittet med normalfordeling Det standardiserede gennemsnit er X 3, 5 p (35/12) n N(0, 1) 15

Normalfordelte populationer For normaltfordelte populationer N(μ, σ 2 ) med en tilfældig stikprøve har vi vist, at gennemsnittet X og den empiriske varians S 2 er den sufficiente stikprøvefunktion. Der gælder for den tilfældige stikprøve (X 1,X 2,X 3,..., X n ) fra N(μ, σ 2 ) for n 2 (1) X N(μ, σ 2 /n) (2) n 1 S 2 χ 2 σ 2 (n 1) (3) X og S 2 er uafhængige 16

Opsummering Momenter af gennemsnit og andele Hvad er den tilstrækkelige information fra stikprøven Den centrale grænseværdisætning For store stikprøver kan man under visse betingelser approksimere fordelingen af gennemsnittet med normalfordelingen Normalfordelte populationer Afsnit 8.9 er ikke pensum. 17

Næste gang Onsdag d. 18/4: Mette overtager forelæsningerne. Estimation kap. 9.1 Stikprøvens størrelse kap. 9.2 Konsistens kap. 9.3 HUSK SAS-prøven: SAS-prøven ligger på nettet fra i dag Opgaven skal løses (dvs. der skal laves et SAS-program) Programmet gennemgås ved øvelserne i næste uge for øvelseslæreren 18