Dagens program Kapitel 8.1-8.3 Tilfældig stikprøve (Random Sampling) Likelihood Eksempler på likelihood funktioner Sufficiente statistikker Eksempler på sufficiente statistikker 1
Tilfældig stikprøve Kvantitative Metoder 1 - Forår 2007 Meget statistik handler om, at man er interesseret i at få infomation om et karakteristika ved en population. Dette karakteristika kaldes for en parameter. Man kunne f.eks. ønske at kende middelværdien af timelønnen. For at kunne komme med et gæt på en populationsparameter anvender man en stikprøve. Centrale statistiske begreber En population er en statistisk betegnelse for en samling individer, genstande eller andre objekter. En stikprøve er en samling af værdier fra en population. Stikprøven er resultatet af en udvælgelsesprocedure. En population, en stikprøve og en udvælgelsesprocedure kaldes et eksperiment. 2
En repræsentativ stikprøve En repræsentativ stikprøve har de samme karakteristika som populationen. Hvorfor er det vigtigt, at stikprøven er repræsentativ? Desværre er der ikke nogen udvælgelsesmetode, som kan garantere en repræsentativ stikprøve. Men der er nogle metoder, som er bedre end andre. En tilfældig udvælgelse En stikprøve, som er lavet på baggrund af tilfældig udvælgelse, er ofte tæt på at være repræsentativ. Jo større stikprøven er (jo flere individer den indeholder) jo lettere er det at få stikprøven til at være næsten repræsentativ. Definition: Tilfældig udvælgelse fra en endelig population: Individer er tilfældigt udvalgt, således at ét individ af gangen udvælges blandt de mulige, enten med eller uden tilbagelægning. 3
Eksempel: Lotteri Tilfældig udvælgelse kan laves som et lotteri. Alle individer i populationen er repræsenteret ved et lod (f.eks. ved at CPR-nr. står på loddet). Så trækkes et lod af gangen. Med tilbagelægning noteres nummer på loddet, og loddet lægges tilbage, før næste lod trækkes.alle lodder er således mulige ved hver trækning. Uden tilbagelægning noteres nummeret, men loddet lægges ikke tilbage. Der bliver således færre og færre lodder tilbage. Egenskaber ved tilfældig udvælgelse: Alle mulige stikprøver er lige sandsynlige Alle individer i populationen har samme chance for at komme med i stikprøven 4
Antag, at vi er interesseret i X (f.eks. timelønnen i befolkningen). Værdier af X for tilfældigt udvalgte individer fra befolkningen kan opfattes som en stokastisk variabel. Fordelingen for X kaldes populationens fordeling, beskrevet ved tætheden f X.En stikprøve på n individer kan skrives som (X 1,X 2,X 3,.., X n ). Eksempel (8.1b i bogen) Antag at populationen består af 20 genstande (18 gode og 2 defekte). Lad den stokastiske variabel X være givet ved ½ 1 hvis genstanden er defekt X = 0 hvis genstanden er ok Der gælder, at fordelingen af X er populationsfordelingen f(1) = 2/20 = 0,1, f(0) = 18/20 = 0,9. Antag at vi udtager en stikprøve på 3 individer (n =3). Mulige udfald: (000), (001), (010), (100), (011), (101), (110), (111). 5
Med tilbagelægning: P med (001) = 18 20 18 20 2 20 =0, 081 Observationerne (X 1,X 2,X 3 ) er uafhængige og identisk fordelte (med fordeling som er populationsfordelingen). Uden tilbagelægning: P uden (001) = 18 20 17 19 2 18 =0, 089 Observationerne (X 1,X 2,X 3 ) er ikke uafhængige, men er identisk fordelte (med fordeling som er populationsfordelingen). 6
Udvælgelse af stikprøver i praksis. I praksis er det ikke altid, at man laver en tilfældig udvælgelse. Eksempler på forskellige metoder til at indsamle data: Spørgeskemaer sendt til bopælsadressen Telefoninterview Spørgeskemaer som udfyldes via Internet (evt. med præmier for deltagelse) Registeroplysninger via CPR-nr. Ofte laver man strata (disjunkte grupper baseret på karakteristika ved individerne f.eks. alder, køn, bopæl), og så laver man tilfældig udvælgelse indenfor hver strata. Nogen gange laver man også cluster, hvor man udvælger husholdninger og så inkluderer alle individer i husholdningen i stikprøven. I praksis er det også sjældent, tilfældig udvælgelse er med tilbagelægning - det er oftest uden tilbagelægning. 7
Tilfældig stikprøve Definition: En tilfældig stikprøve af størrelse n er en sekvens af uafhængige observationer X = (X 1,X 2,..., X n ), hvor hver observation er trukket fra populationsfordelingen. Det følger specielt af definitionen, at observationerne er uafhængige og identisk fordelte. Den simultane fordeling af n observationer i stikprøven er givet ved ny f(x 1,x 2,x 3,..., x n )=f X (x 1 ) f X (x 2 )... f X (x n )= f X (x i ) En stikprøve baseret på en tilfældig udvælgelse uden tilbagelægning vil ikke være en tilfældig stikprøve. Hvorfor? Alligevel vil man ofte antage, at stikprøven er en stilfældig stikprøve. Dette kan opfattes som en approksimation, som er god, hvis stikprøven er lille i forhold til populationen. I det meste af dette kursus vil vi antage, at vi arbejder med en tilfældig stikprøve. i=1 8
Likelihood funktion Kvantitative Metoder 1 - Forår 2007 Vi definerer en model (en populationsfordeling) ved at angive fordelingen f(x θ) og herved angive parameteren θ. Hver værdi af θ angiver en ny model. "Likelihood"er et begreb, som anvendes i statistik. Likelihood analyse benyttes til at give et "gæt"på parameteren θ i en bestemt fordeling for en given stikprøve. Definition: For en given stikprøve x =(x 1,x 2,..., x n ) fra en population med en populationsfordeling f(x θ) er likelihood funktionen givet ved Egenskaber ved likelihood funktionen: L(θ) f(x 1,x 2,..., x n θ) Likelihood funktionen er en funktion af θ. Likelihood funktionen er proportional med den simultane tæthedsfunktion for stikprøven. Værdien af likelihood funktionen i θ 0 angiver, hvor "rimelig"det er, at parameteren i populationsfordelingen er θ 0 for den givne stikprøve. 9
Eksempel på likelihood funktion (8.2b i bogen) Antag at vi har en tilfældig stikprøve bestående af 10 individer (X 1,X 2,X 3,...X 10 ), dvs. at individerne er indbyrdes uafhængige og identisk fordelte. Vi antager, at populationsfordelingen er en Bernoulli fordeling med parameteren p f X (x p) =p x (1 p) 1 x, x =0, 1 Hvis den givne stikprøve indeholder 6 successer og 4 fiaskoer, f.eks. (x 1,x 2,x 3,...x 10 )= (1, 1, 1, 1, 1, 1, 0, 0, 0, 0), kan likelihood funktionen for netop denne stikprøve opskrives L(p) =f(x 1,x 2,..., x 10 p) = 10Y i=1 Likelihood funktionen er en funktion af p. f X (x i p) =p 6 (1 p) 4, 0 p 1 10
Likelihood funktionen opnår de største værdier for p =0, 6, dvs. det er mest sandsynligt at have fået 6 successer og 4 fiaskoer, hvis fordelingen, som stikprøven stammer fra, har en parameter på 0,6. Det gælder også at L(0, 5)/L(0, 4) = 0, 000976563/0, 000530842 = 1, 84 Det betyder for denne stikprøve, at det er 1,84 gange så "sandsynligt"at p =0.5 i forhold til at p =0, 4 11
Likelihood funktionen 0,0014 0,0012 0,001 L(p) 0,0008 0,0006 0,0004 0,0002 0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 p 12 Figur 1:
Antag at vi kun havde information om, at stikprøven indeholdte 6 succeser og 4 fiaskoer (og altså ikke kendte rækkefølgen): Y =6 hvor Y = X 1 + X 2 +.. + X 10 Bin(10,p) I dette tilfælde vides at f Y (6 p) = µ 10 6 p 6 (1 p) 4, 0 p 1 Likelihood µ funktionen baseret på f Y (6 p) er den samme som før (idet der kun er konstanten til forskel, og likelihood funktionen skal "kun"være proportional med 10 6 tætheden). Likelihood princippet: Hvis forskellige eksperimenter baseret på modeller, som afhænger af θ, giver den samme likelihood funktion, så skal man nå til den samme inferens og de samme konklusioner. 13
Sufficiens "Sufficiens"betyder tilstrækkelig. Begrebet sufficiens dækker over, hvad der er tilstrækkeligt at vide (om stikprøven), når man vil lave inferens (f.eks. estimation af parameter). Vi har tidligere set, at likelihood funktionen indeholder alt relevant information fra stikprøven, der er nødvendig fra stikprøven. Det betyder, vi ikke behøver information om de enkelte variabler. Definition: En stikprøvefunktion (eller statistik) T = t(x) for en familie af fordelinger f(x θ) er sufficient,hvis og kun hvis likelihood funktionen kun afhænger af X gennem t(x) = t(x 1,X 2,..., X n ) L(θ) =g(t(x),θ). Sufficiens kan også defineres således: T = t(x) er sufficient hvis og kun hvis f(x θ) =g(t(x),θ)h(x). 14
15
Eksempel (fortsat): For en tilfældig stikprøve (X 1,X 2,..., X 10 ) for en populationsfordeling Ber(p) kan likelihood funktionen skrives som: L(p) = f(x 1,X 2,..., X 10 p) = 10Y i=1 = p P 10 i=1 X i (1 p) 10 P 10 i=1 X i = g( = g(t(x 1,X 2,..., X 10 ),p) f X (X i p) = 10X i=1 X i,p) 10Y i=1 p X i (1 p) 1 X i Heraf sluttes, at P 10 i=1 X er en sufficient stikprøvefunktion. Det betyder, at alt relevant information om parameteren i modellen er indeholdt i P 10 X i=1 16
Antag at X stammer fra en tilfældig stikprøve fra en diskret populationsfordeling med parameteren θ. T = t(x) er sufficient for θ. For en given stikprøve X = x gælder der t(x) =t 0. Likelihood funktionen er L(θ) =g(t(x),θ)=g(t 0,θ). Hvis man observerer T = t 0 istedetforx, kanvinuslutteat P (T = t 0 )= X f(x θ) = X g(t(x),θ)h(x) T =t 0 T =t 0 = g(t 0,θ) X h(x) T =t 0 L (θ) 17
Opsummering Stikprøve: Population, stikprøve, udvælgelsesprocedure -> eksperiment Tilfældig udvælgelse Tilfældig stikprøve Likelihood funktionen Sufficient stikprøvefunktion 18
Næste gang Onsdag d. 11/4 : Fordelingen af statistikker kap. 8.4 Simulationer kap. 8.5 Ordens statistikker kap. 8.6 GOD PÅSKEFEIRE 19