Kvantitative Metoder 1 - Forår Dagens program

Relaterede dokumenter
Kvantitative Metoder 1 - Forår 2007

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Kvantitative Metoder 1 - Forår 2007

Normalfordelingen og Stikprøvefordelinger

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Forår Dagens program

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18


Sandsynligheder. Udfaldsrum Ω = {ω 1,..., ω N } hvor alle udfald er lige sandsynlige, dvs. P (ω i )=1/N for alle i =1,..., N.

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Kvantitative Metoder 1 - Forår Dagens program

Tema. Dagens tema: Indfør centrale statistiske begreber.

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Dagens program. Afsnit Eksperimenter med usikkerhed Sandsynlighedsmodel - Udfaldsrum - Hændelser - Sandsynligheder Eksempler

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Statistiske modeller

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Vejledende løsninger til opgaver i kapitel 6

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Statistik noter - Efterår 2009 Keller - Statistics for management and economics

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Susanne Ditlevsen Institut for Matematiske Fag susanne

Indblik i statistik - for samfundsvidenskab

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

02402 Vejledende løsninger til hjemmeopgaver og øvelser i kapitel 4

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Løsninger til kapitel 5

Produkt og marked - matematiske og statistiske metoder

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Uge 10 Teoretisk Statistik 1. marts 2004

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Løsning til eksaminen d. 14. december 2009

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Præcision og effektivitet (efficiency)?

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Kvantitative metoder 1

Transkript:

Dagens program Kapitel 8.1-8.3 Tilfældig stikprøve (Random Sampling) Likelihood Eksempler på likelihood funktioner Sufficiente statistikker Eksempler på sufficiente statistikker 1

Tilfældig stikprøve Kvantitative Metoder 1 - Forår 2007 Meget statistik handler om, at man er interesseret i at få infomation om et karakteristika ved en population. Dette karakteristika kaldes for en parameter. Man kunne f.eks. ønske at kende middelværdien af timelønnen. For at kunne komme med et gæt på en populationsparameter anvender man en stikprøve. Centrale statistiske begreber En population er en statistisk betegnelse for en samling individer, genstande eller andre objekter. En stikprøve er en samling af værdier fra en population. Stikprøven er resultatet af en udvælgelsesprocedure. En population, en stikprøve og en udvælgelsesprocedure kaldes et eksperiment. 2

En repræsentativ stikprøve En repræsentativ stikprøve har de samme karakteristika som populationen. Hvorfor er det vigtigt, at stikprøven er repræsentativ? Desværre er der ikke nogen udvælgelsesmetode, som kan garantere en repræsentativ stikprøve. Men der er nogle metoder, som er bedre end andre. En tilfældig udvælgelse En stikprøve, som er lavet på baggrund af tilfældig udvælgelse, er ofte tæt på at være repræsentativ. Jo større stikprøven er (jo flere individer den indeholder) jo lettere er det at få stikprøven til at være næsten repræsentativ. Definition: Tilfældig udvælgelse fra en endelig population: Individer er tilfældigt udvalgt, således at ét individ af gangen udvælges blandt de mulige, enten med eller uden tilbagelægning. 3

Eksempel: Lotteri Tilfældig udvælgelse kan laves som et lotteri. Alle individer i populationen er repræsenteret ved et lod (f.eks. ved at CPR-nr. står på loddet). Så trækkes et lod af gangen. Med tilbagelægning noteres nummer på loddet, og loddet lægges tilbage, før næste lod trækkes.alle lodder er således mulige ved hver trækning. Uden tilbagelægning noteres nummeret, men loddet lægges ikke tilbage. Der bliver således færre og færre lodder tilbage. Egenskaber ved tilfældig udvælgelse: Alle mulige stikprøver er lige sandsynlige Alle individer i populationen har samme chance for at komme med i stikprøven 4

Antag, at vi er interesseret i X (f.eks. timelønnen i befolkningen). Værdier af X for tilfældigt udvalgte individer fra befolkningen kan opfattes som en stokastisk variabel. Fordelingen for X kaldes populationens fordeling, beskrevet ved tætheden f X.En stikprøve på n individer kan skrives som (X 1,X 2,X 3,.., X n ). Eksempel (8.1b i bogen) Antag at populationen består af 20 genstande (18 gode og 2 defekte). Lad den stokastiske variabel X være givet ved ½ 1 hvis genstanden er defekt X = 0 hvis genstanden er ok Der gælder, at fordelingen af X er populationsfordelingen f(1) = 2/20 = 0,1, f(0) = 18/20 = 0,9. Antag at vi udtager en stikprøve på 3 individer (n =3). Mulige udfald: (000), (001), (010), (100), (011), (101), (110), (111). 5

Med tilbagelægning: P med (001) = 18 20 18 20 2 20 =0, 081 Observationerne (X 1,X 2,X 3 ) er uafhængige og identisk fordelte (med fordeling som er populationsfordelingen). Uden tilbagelægning: P uden (001) = 18 20 17 19 2 18 =0, 089 Observationerne (X 1,X 2,X 3 ) er ikke uafhængige, men er identisk fordelte (med fordeling som er populationsfordelingen). 6

Udvælgelse af stikprøver i praksis. I praksis er det ikke altid, at man laver en tilfældig udvælgelse. Eksempler på forskellige metoder til at indsamle data: Spørgeskemaer sendt til bopælsadressen Telefoninterview Spørgeskemaer som udfyldes via Internet (evt. med præmier for deltagelse) Registeroplysninger via CPR-nr. Ofte laver man strata (disjunkte grupper baseret på karakteristika ved individerne f.eks. alder, køn, bopæl), og så laver man tilfældig udvælgelse indenfor hver strata. Nogen gange laver man også cluster, hvor man udvælger husholdninger og så inkluderer alle individer i husholdningen i stikprøven. I praksis er det også sjældent, tilfældig udvælgelse er med tilbagelægning - det er oftest uden tilbagelægning. 7

Tilfældig stikprøve Definition: En tilfældig stikprøve af størrelse n er en sekvens af uafhængige observationer X = (X 1,X 2,..., X n ), hvor hver observation er trukket fra populationsfordelingen. Det følger specielt af definitionen, at observationerne er uafhængige og identisk fordelte. Den simultane fordeling af n observationer i stikprøven er givet ved ny f(x 1,x 2,x 3,..., x n )=f X (x 1 ) f X (x 2 )... f X (x n )= f X (x i ) En stikprøve baseret på en tilfældig udvælgelse uden tilbagelægning vil ikke være en tilfældig stikprøve. Hvorfor? Alligevel vil man ofte antage, at stikprøven er en stilfældig stikprøve. Dette kan opfattes som en approksimation, som er god, hvis stikprøven er lille i forhold til populationen. I det meste af dette kursus vil vi antage, at vi arbejder med en tilfældig stikprøve. i=1 8

Likelihood funktion Kvantitative Metoder 1 - Forår 2007 Vi definerer en model (en populationsfordeling) ved at angive fordelingen f(x θ) og herved angive parameteren θ. Hver værdi af θ angiver en ny model. "Likelihood"er et begreb, som anvendes i statistik. Likelihood analyse benyttes til at give et "gæt"på parameteren θ i en bestemt fordeling for en given stikprøve. Definition: For en given stikprøve x =(x 1,x 2,..., x n ) fra en population med en populationsfordeling f(x θ) er likelihood funktionen givet ved Egenskaber ved likelihood funktionen: L(θ) f(x 1,x 2,..., x n θ) Likelihood funktionen er en funktion af θ. Likelihood funktionen er proportional med den simultane tæthedsfunktion for stikprøven. Værdien af likelihood funktionen i θ 0 angiver, hvor "rimelig"det er, at parameteren i populationsfordelingen er θ 0 for den givne stikprøve. 9

Eksempel på likelihood funktion (8.2b i bogen) Antag at vi har en tilfældig stikprøve bestående af 10 individer (X 1,X 2,X 3,...X 10 ), dvs. at individerne er indbyrdes uafhængige og identisk fordelte. Vi antager, at populationsfordelingen er en Bernoulli fordeling med parameteren p f X (x p) =p x (1 p) 1 x, x =0, 1 Hvis den givne stikprøve indeholder 6 successer og 4 fiaskoer, f.eks. (x 1,x 2,x 3,...x 10 )= (1, 1, 1, 1, 1, 1, 0, 0, 0, 0), kan likelihood funktionen for netop denne stikprøve opskrives L(p) =f(x 1,x 2,..., x 10 p) = 10Y i=1 Likelihood funktionen er en funktion af p. f X (x i p) =p 6 (1 p) 4, 0 p 1 10

Likelihood funktionen opnår de største værdier for p =0, 6, dvs. det er mest sandsynligt at have fået 6 successer og 4 fiaskoer, hvis fordelingen, som stikprøven stammer fra, har en parameter på 0,6. Det gælder også at L(0, 5)/L(0, 4) = 0, 000976563/0, 000530842 = 1, 84 Det betyder for denne stikprøve, at det er 1,84 gange så "sandsynligt"at p =0.5 i forhold til at p =0, 4 11

Likelihood funktionen 0,0014 0,0012 0,001 L(p) 0,0008 0,0006 0,0004 0,0002 0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 p 12 Figur 1:

Antag at vi kun havde information om, at stikprøven indeholdte 6 succeser og 4 fiaskoer (og altså ikke kendte rækkefølgen): Y =6 hvor Y = X 1 + X 2 +.. + X 10 Bin(10,p) I dette tilfælde vides at f Y (6 p) = µ 10 6 p 6 (1 p) 4, 0 p 1 Likelihood µ funktionen baseret på f Y (6 p) er den samme som før (idet der kun er konstanten til forskel, og likelihood funktionen skal "kun"være proportional med 10 6 tætheden). Likelihood princippet: Hvis forskellige eksperimenter baseret på modeller, som afhænger af θ, giver den samme likelihood funktion, så skal man nå til den samme inferens og de samme konklusioner. 13

Sufficiens "Sufficiens"betyder tilstrækkelig. Begrebet sufficiens dækker over, hvad der er tilstrækkeligt at vide (om stikprøven), når man vil lave inferens (f.eks. estimation af parameter). Vi har tidligere set, at likelihood funktionen indeholder alt relevant information fra stikprøven, der er nødvendig fra stikprøven. Det betyder, vi ikke behøver information om de enkelte variabler. Definition: En stikprøvefunktion (eller statistik) T = t(x) for en familie af fordelinger f(x θ) er sufficient,hvis og kun hvis likelihood funktionen kun afhænger af X gennem t(x) = t(x 1,X 2,..., X n ) L(θ) =g(t(x),θ). Sufficiens kan også defineres således: T = t(x) er sufficient hvis og kun hvis f(x θ) =g(t(x),θ)h(x). 14

15

Eksempel (fortsat): For en tilfældig stikprøve (X 1,X 2,..., X 10 ) for en populationsfordeling Ber(p) kan likelihood funktionen skrives som: L(p) = f(x 1,X 2,..., X 10 p) = 10Y i=1 = p P 10 i=1 X i (1 p) 10 P 10 i=1 X i = g( = g(t(x 1,X 2,..., X 10 ),p) f X (X i p) = 10X i=1 X i,p) 10Y i=1 p X i (1 p) 1 X i Heraf sluttes, at P 10 i=1 X er en sufficient stikprøvefunktion. Det betyder, at alt relevant information om parameteren i modellen er indeholdt i P 10 X i=1 16

Antag at X stammer fra en tilfældig stikprøve fra en diskret populationsfordeling med parameteren θ. T = t(x) er sufficient for θ. For en given stikprøve X = x gælder der t(x) =t 0. Likelihood funktionen er L(θ) =g(t(x),θ)=g(t 0,θ). Hvis man observerer T = t 0 istedetforx, kanvinuslutteat P (T = t 0 )= X f(x θ) = X g(t(x),θ)h(x) T =t 0 T =t 0 = g(t 0,θ) X h(x) T =t 0 L (θ) 17

Opsummering Stikprøve: Population, stikprøve, udvælgelsesprocedure -> eksperiment Tilfældig udvælgelse Tilfældig stikprøve Likelihood funktionen Sufficient stikprøvefunktion 18

Næste gang Onsdag d. 11/4 : Fordelingen af statistikker kap. 8.4 Simulationer kap. 8.5 Ordens statistikker kap. 8.6 GOD PÅSKEFEIRE 19