Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder Mængden af sandsynligheder omtales som variablenes fordeling 1
Data fra de europæiske værdiundersøgelser 1999 V234 = Holdning til abort (1 = kan aldrig accepteres, 10 = kan altid accepteres To typer af variable Design-variable (land) (varierer ikke tilfældigt) Stokastiske variable (ser ud til at variere tilfældigt: Køn, Holdning til abort) 2
Den statistiske model indeholder sandsynligheder for hændelser defineret ved Køn (K) og Holdning til abort (H): Simultan sandsynlighed: P(H=7, K=mand) Marginal sandsynlighed: P(H=8-10) Betinget sandsynlighed: P(H<5 K = Kvinde) Den statistiske model forenkler modelen ved at påstå nogle ting om disse sandsynligheder. F.eks.: Køn og Holdning er uafhængige P(H,K)=P(H)P(K) Holdningen til abort er normalfordelt, med middelværdi og varians, der afhænger af køn Holdningen til abort er normalfordelt, med middelværdi og varians, der ikke afhænger af køn Modelproblemet: Disse påstande kan være forkerte. 3
Stokastisk uafhængige variable Stokastisk uafhængige begivenheder P(A,B) = P(A)P(B) Stokastisk uafhængige variable To variable, X og Y, siges at være stokastisk uafhængige, hvis enhver hændelse defineret ved variablen, X, er stokastisk uafhængig af enhver hændelse defineret ved variablen Y. To variable X og Y er stokastisk uafhængige hvis, P(Y=y X=x) = P(Y=y) P(X=x,Y=y) = P(X=x)P(Y=y) for alle mulige værdier af de to variable 4
Stokastisk uafhængige identisk fordelte individer Stokastisk uafhængige individer To individer er stokastisk uafhængige, hvis samtlige hændelser defineret ved variablene for det ene individ er uafhængige af samtlige hændelser defineret ved variablene for det andet individ. Identisk fordelte individer Person nr. a og b er identisk fordelte hvis P(X ai =x) = P(X bi =x) Det er en forudsætning for alle de statistiske metoder, der vil blive omtalt på dette kursus, at der er tale om identisk fordelte stokastisk uafhængige individer P( X = x,..., X = x ) = P( X = x,... X = x ) 11 11 nk nk 1 i1 k ik i 5
Reference mellem empiriske og teoretiske begreber Karakterer i statistik for 10 tilfældigt udvalgte studerende: 5 6 6 7 7 7 8 8 9 11 Middelværdi = (5+6+6+7+7+7+8+8+9+11)/10 = 7.4 = (1 5+2 6+3 7+2 8+1 9+1 11)/10 = 7.4 Den empiriske middelværdi 1 1 nx x = xn = x = xh n n n i x x i= 1,.., n x= 0,..,13 x= 0,..,13 x= 0,..,13 Den relative hyppighed, h x, er tal mellem 0 og 1. Sandsynlighedsregningen er konstrueret således at der er en høj grad af korrespondance mellem sandsynligheder og relative frekvenser. 6
Empiriside n observationer: x 1,,x n Den absolutte fordeling: n x = antal personer med værdien x Den relative fordeling: h x = n x /n Den kumulerede fordeling: x x 1 ni = hx n i= 1 i= 1 Percentiler defineret ud fra den kumulerede fordeling Empirisk middelværdi: M X = x xh Empirisk varians: n VAR( X ) = hx ( x M X ) n 1 x x 2 Modelside Én stokastisk variabel, X Det forventede antal med en bestemt værdi: e x = np x Sandsynligheden for at X=x: p x = P(X=x) Fordelingsfunktionen: x F( x) = p = P( X x) i= 1 i Percentiler defineret ud fra fordelingsfunktionen Teoretisk middelværdi: (forventet værdi) E( X ) = xp x Teoretisk varians: 2 σ X = p x x E X 2 x x ( ( )) Variablens fordeling = mængden af sandsynligheder, der kan defineres for de hændelser, der kan defineres ud fra variables forskellige mulige værdier. 7
Nogle tatistiske standardfordelinger 1) Bernoullifordelingen sandsynligheden svarende til en enkelt binær variabel. 2) Binomialfordelingen sandsynlighederne for antallet af positive udfald på et vist antal Bernoullifordelte variable. 3) Polynomialfordelingen sandsynligheder for antallet af forekomne værdier af kategorivariable med mere end to forskellige udfald. 4) Normalfordelingen en symmetrisk fordeling af en ubegrænset kontinuert intervalskalavariabel. Er entydigt fastlagt af middelværdi og varians. 5) Den standardiserede normalfordeling. En normalfordeling med middelværdi lig med 0 og varians lig med 1. 6) Chi-i-anden fordelingen. En fordeling på den positive talakse. kan defineres som summen af et vist antal standardiserede normalfordelinger. 8
Bernoulli fordelingen: En fordeling af en variabel, X, med to forskellige udfald: X = 0 X = 1 En bestemt begivenhed forekommer ikke E bestemt begivenhed forekommer Fordelingen indeholder én sandsynlighed: p = P(X=1) Sandsynligheden for at begivenheden ikke forekommer er lig med P(X=0) = 1-p 9
Fordelingsindikatorer for Bernoullifordelingen E(X) = Σ x (xp x )= 0 (1-p) + 1 p = p σ 2 (X) = Σ x [(x-e(x)) 2 p x ] = (0-p)²(1-p) + (1-p)²p = p²(1-p) + (1-p)²p = p(1-p)(p+1-p) = p(1-p) 10
Fordelingsindikatorer efter omkodning Samme regneregler som for empiriske fordelingsindikatorer med én nyttig forskel S = X + Y E(S) = E(X) + E(Y) σ 2 (S) = Σ s p s (s-e(s))² =Σ xy p xy (x+y-e(x)-e(y))² = Σ xy p xy ((x-e(x))+(y-e(y)))² = Σ xy p xy ((x-e(x))²+(y-e(y))²+2(x-e(x))(y-e(y))) = Σ xy p xy (x-e(x))² + Σ xy p xy (y-e(y))² + 2Σ xy p xy (x-e(x))(y-e(y)) = σ 2 (X) + σ 2 (Y) + 2σ 2 (X,Y) Hvis X og Y er stokastisk uafhængige, er den kovarians, σ 2 (X,Y) lig med nul σ 2 (X+Y) = σ 2 (X) + σ 2 (Y) 11
Binomialfordelingen Y er binomialfordelt, Y ~ Bin(n,p), hvis den er lig med summen af n indbyrdes uafhængige identisk fordelte Bernoulli fordelte variable med sandsynligheden p: Dvs. Y = i=1..n X i Hvor X i er en Bernoulli-fordelt variabel med sandsynlighed p. Teoretisk middelværdi = E(Y) = n p Teoretisk varians = σ 2 (Y) = n p (1-p) Teoretisk standardafvigelse = σ(y) = n p (1-p) 12
Standardiserede variable Variable, der er omkodet, således at middelværdien er lig nul og variansen er lig med 1 Z = X E( X ) σ ( X ) hvor σ(x) er variablens standardafvigelse Z E( X ) 1 = + ix σ ( X ) σ ( X ) E( X ) σ ( X ) og 1 σ ( X ) er konstanter. I flg. regnereglerne for middelværdier og varianser er E(Z) = 0 og σ 2 (Z) = 1. 13
Hvor stor usikkerhed er der på en middelværdiberegning? Teoretisk middelværdi og varians for den empiriske middelværdi E(M x ) = E(X) σ 2 (M x ) = σ 2 (X)/n σ ( M ) σ ( X ) n x = Fordelingsindikatorer for binomialfordelingen E(S) = np σ 2 (S) = np(1-p) E S = p σ 2 S p( 1 p) = n n n 14
Fordelingsindikatorer for politisk opinionsundersøgelse i september 1994. Undersøgelsen antages at omfatte 900 personer. S = Absolut fordeling E(S) Relativ fordeling σ 2 (S) E(S/900) σ 2 (S/900) Ej stemt+ugyldig 149.4 124.6 0.166 0.000154 A. Socialdemokratiet 259.2 184.6 0.288 0.000228 B. Radikale 34.2 32.9 0.038 0.000041 C. Konservative 112.5 98.4 0.125 0.000122 D. Centrum demokrater 21.6 21.1 0.024 0.000026 F. Socialistisk folkeparti 54.9 53.6 0.061 0.000064 Q. Kristeligt folkeparti 13.5 13.3 0.015 0.000016 V. Venstre 174.6 140.7 0.194 0.000174 Z. Fremskridtspartiet 48.6 46.0 0.054 0.000057 Ø. Enhedslisten 23.4 22.8 0.026 0.000028 * Udenfor parti 7.2 7.1 0.008 0.000009 15
Om tætheder for kontinuerte variable Et histogram over tiden til en hændelse målt i femårsgrupper 600 Frequency 400 200 Mean =4,90 Std. Dev. =5,025 N =1.000 0 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00 40,00 COMPUTE x5 = RV.EXP(0.2) Søjlens højde/1000 er et estimat af en sandsynlighed 16
400 300 Frequency 200 100 Mean =4,90 Std. Dev. =5,025 N =1.000 0 0,00 10,00 20,00 30,00 40,00 COMPUTE x5 = RV.EXP(0.2) To-års alders intervaller Højden af søjlen/1000 er et estimat af sandsynligheden Søjlerne er mindre, fordi sandsynlighederne er mindre, fordi intervallerne er mindre 17
200 150 Frequency 100 50 Mean =4,90 Std. Dev. =5,025 N =1.000 0 0,00 10,00 20,00 30,00 40,00 COMPUTE x5 = RV.EXP(0.2) 1-års intervaller Søjlerne er ca. halvt så høje som for to-års intervallerne fordi sandsynlighederne er ca. halvt så store 18
100 80 Frequency 60 40 20 Mean =4,90 Std. Dev. =5,025 N =1.000 0 0,00 10,00 20,00 30,00 40,00 COMPUTE x5 = RV.EXP(0.2) ½ års intervaller 19
Når intervalbredden nærmer sig nul kommer toppen af histogrammet til at ligne en kontinuert kurve, der omtales som fordelingens tæthed 0,20 0,15 density 0,10 0,05 0,00 0,00 10,00 20,00 X 30,00 40,00 I dette tilfælde f(x) = λ e λx hvor λ = 0.2 Eksponential fordelingen 20
Sandsynligheder og tætheder Hvis er et meget lille tal vil sandsynligheden næsten være lig med P(x - < X x + ) 2 f(x) P(x < X x + ) f(x+ /2) f(x) Samme regneregler for tætheder som for sandsynligheder, men summation skal erstattes af integration P (x1 < X x 2 ) = f(x) dx x 2 x 1 21
Tætheder, fordelingsfunktioner og overlevelsesfunktioner Fordelingsfunktionen F (x) = P(X f (x) = x) d dx = x F(x) f(x)dx 22
Normalfordelingen.5 0.0-5 Figur 4.3 Tre normalfordelinger 0 5 Standardiseret normalfordeling P(Z < -1.96) = P(Z > +1.96) = 0.025 P( Z >1.96) = 0.05 95 % af værdierne af en normalt fordelt variabel med middelværdi,ξ, og standardafvigelse,σ, vil ligge inden for intervallet ξ ± 1.96σ 23
Udvalgte sandynligheder fra den standardiserede normalfordeling: Tabel 4.3 Udvalgte sandsynligheder defineret ved en standardiseret normalfordelt variabel, Z Udfald Sandsynlighed Z -4.00 0.00003 Z -3.50 0.0002 Z -3.08 0.0010 Z -3.00 0.0013 Z -2.50 0.0062 Z -2.33 0.0100 Z -2.00 0.0228 Z -1.96 0.0250 Z -1.66 0.0500 Z -1.00 0.1587 24
Er variable nogensinde normalfordelte? 700 600 500 400 300 200 100 0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 Venstre-højre position 700 600 500 400 300 200 100 0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0 12.0 13.0 14.0 15.0 Tilfredshed med livet 25
Middelværdisætningen Antag, at X 1,..,X n er n identisk fordelte uafhængige variable med middelværdi, E(X), og varians, σ X2, og at M X 1 er den empiriske middelværdi. = X n i i Lad endvidere ε være et vilkårlig positivt tal. Når antallet af observationer forøges, vil sandsynligheden for at forskellen på den empiriske og teoretiske middelværdi er mindre end ε nærme sig 1, P( M E( X ) < ε) 1 når n X 26
De store tals lov Antag, at X 1,..,X n er n identisk Bernoullifordelte uafhængige variable med sandsynlighed, p, for et positivt udfald. Lad endvidere h X være den relative hyppighed af positive udfald, mens ε er et vilkårlig positivt tal. Når antallet af observationer forøges vil sandsynligheden for at forskellen på sandsynligheden og den relative hyppighed er mindre end ε nærme sig 1, P( h p < ε) X 1 når n 27
Den centrale grænseværdisætning Antag, at X 1,..,X n er n identisk fordelte uafhængige variable med middelværdi, E(X), og varians, σ X 2. Under denne forudsætning vil den empiriske middelværdi, M X 1 i, altid være approksimativt normalt i = X n fordelt med middelværdi, E(X), og varians, σ X 2 /n. Approksimationen vil blive bedre og bedre, jo flere observationer, der indsamles. 28
1.00 2.25 3.50 4.75 6.00 7.25 8.50 9.75 700 600 500 400 300 200 100 0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 Figur 4.5 Fordeling af svarene på spørgsmålet om den generelle tilfredshed med livet. Kurven svarer til en normalfordeling med samme middelværdi og spredning som i fordelingen af tilfredsheden. Figur 4.6 Fordeling af den gennemsnitlige tilfredshed med livet i 220 tilfældigt udvalgte grupper på 10 personer. Kurven svarer til en normalfordeling med samme middelværdi og samme varians som fordelingen af gennemsnitsværdierne. 29
1.00 3.50 6.00 8.50 Figur 4.7 Fordeling af den gennemsnitlige tilfredshed med tilværelsen i 88 tilfældigt sammensatte grupper med 25 personer. Kurven svarer til en normalfordeling med samme middelværdi og samme spredning som i fordelingen af gennemsnitsværdierne 1.00 4.00 7.00 10.00 Figur 4.8 Fordeling af den gennemsnitlige tilfredshed med tilværelsen i 44 tilfældigt sammensatte grupper med 50 personer. Kurven svarer til en normalfordeling med samme middelværdi og samme spredning som i fordelingen af gennemsnitsværdierne 30
.03.02 Sandsynlighed.01 0.00 201 206 211 216 221 226 231 236 241 Figur 4.9 Eksakt og approksimativ fordeling af antallet af socialdemokrater i en Gallup undersøgelse omfattende 900 personer. Trappefunktionen angiver de eksakte sandsynligheder. 246 251 256 261 266 271 276 281 286 291 296 40 30 20 10 0.300.310.320.330.340.350.360.370.380.390.400.305.315.325.335.345.355.365.375.385.395 Figur 4.10 Fordelingen af tilslutningen til Socialdemokratiet blandt alle gyldige stemmer i 1994 i 200 simulerede opinionsundersøgelser, der hver omfattede 900 personer. 31
Regnereglen for normalfordelinger: En hvilken som helst lineær funktion af k normalfordelte variable, (X 1,..,X k ) er selv normalfordelt: Y = a 0 + a 1 X 1 + + a k X k er normalfordelt Y s middelværdien og variansen skal beregnes ud fra de sædvanlige regneregler for middelværdier og varianser. 32
χ 2 fordelingen Antag, at Z er en variabel med en standardiseret normalfordeling. X = Z 2 er en variabel, der kun kan have positive værdier. Fordelingen af X kan beregnes og kortlægges. Denne fordeling omtales som en χ 2 fordelingen med 1 frihedsgrad. χ 2 fordelingen optræder i en lang række forskellige situationer og har en række bekvemme egenskaber. Bl.a. gælder, at fordelingen af summen af k uafhængige χ 2 fordelte variable kan beregnes. Den omtales som en χ 2 fordeling med k frihedsgrader (df = k). 33
0 10 20 30 df=1 df=5 df=10 Tæthedsfunktionen for tre forskellige χ 2 fordelinger 34