Statistiske modeller

Relaterede dokumenter

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Produkt og marked - matematiske og statistiske metoder

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Normalfordelingen og Stikprøvefordelinger

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Kvantitative Metoder 1 - Forår 2007

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Vejledende løsninger til opgaver i kapitel 6

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

INSTITUT FOR MATEMATISKE FAG c

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Kvantitative Metoder 1 - Efterår Dagens program

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

3 Stokastiske variable 3.1 Diskrete variable

Sandsynlighedsregning Oversigt over begreber og fordelinger

Skriftlig eksamen Science statistik- ST501

Uge 10 Teoretisk Statistik 1. marts 2004

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Preben Blæsild og Jens Ledet Jensen

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Statistik og Sandsynlighedsregning 2

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Konfidensintervaller og Hypotesetest

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Tema. Dagens tema: Indfør centrale statistiske begreber.

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Løsning eksamen d. 15. december 2008

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Statistik og Sandsynlighedsregning 2

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Opgaver i sandsynlighedsregning

Note om Monte Carlo metoden

Teoretisk Statistik, 16. februar Generel teori,repetition

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Transkript:

Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder Mængden af sandsynligheder omtales som variablenes fordeling 1

Data fra de europæiske værdiundersøgelser 1999 V234 = Holdning til abort (1 = kan aldrig accepteres, 10 = kan altid accepteres To typer af variable Design-variable (land) (varierer ikke tilfældigt) Stokastiske variable (ser ud til at variere tilfældigt: Køn, Holdning til abort) 2

Den statistiske model indeholder sandsynligheder for hændelser defineret ved Køn (K) og Holdning til abort (H): Simultan sandsynlighed: P(H=7, K=mand) Marginal sandsynlighed: P(H=8-10) Betinget sandsynlighed: P(H<5 K = Kvinde) Den statistiske model forenkler modelen ved at påstå nogle ting om disse sandsynligheder. F.eks.: Køn og Holdning er uafhængige P(H,K)=P(H)P(K) Holdningen til abort er normalfordelt, med middelværdi og varians, der afhænger af køn Holdningen til abort er normalfordelt, med middelværdi og varians, der ikke afhænger af køn Modelproblemet: Disse påstande kan være forkerte. 3

Stokastisk uafhængige variable Stokastisk uafhængige begivenheder P(A,B) = P(A)P(B) Stokastisk uafhængige variable To variable, X og Y, siges at være stokastisk uafhængige, hvis enhver hændelse defineret ved variablen, X, er stokastisk uafhængig af enhver hændelse defineret ved variablen Y. To variable X og Y er stokastisk uafhængige hvis, P(Y=y X=x) = P(Y=y) P(X=x,Y=y) = P(X=x)P(Y=y) for alle mulige værdier af de to variable 4

Stokastisk uafhængige identisk fordelte individer Stokastisk uafhængige individer To individer er stokastisk uafhængige, hvis samtlige hændelser defineret ved variablene for det ene individ er uafhængige af samtlige hændelser defineret ved variablene for det andet individ. Identisk fordelte individer Person nr. a og b er identisk fordelte hvis P(X ai =x) = P(X bi =x) Det er en forudsætning for alle de statistiske metoder, der vil blive omtalt på dette kursus, at der er tale om identisk fordelte stokastisk uafhængige individer P( X = x,..., X = x ) = P( X = x,... X = x ) 11 11 nk nk 1 i1 k ik i 5

Reference mellem empiriske og teoretiske begreber Karakterer i statistik for 10 tilfældigt udvalgte studerende: 5 6 6 7 7 7 8 8 9 11 Middelværdi = (5+6+6+7+7+7+8+8+9+11)/10 = 7.4 = (1 5+2 6+3 7+2 8+1 9+1 11)/10 = 7.4 Den empiriske middelværdi 1 1 nx x = xn = x = xh n n n i x x i= 1,.., n x= 0,..,13 x= 0,..,13 x= 0,..,13 Den relative hyppighed, h x, er tal mellem 0 og 1. Sandsynlighedsregningen er konstrueret således at der er en høj grad af korrespondance mellem sandsynligheder og relative frekvenser. 6

Empiriside n observationer: x 1,,x n Den absolutte fordeling: n x = antal personer med værdien x Den relative fordeling: h x = n x /n Den kumulerede fordeling: x x 1 ni = hx n i= 1 i= 1 Percentiler defineret ud fra den kumulerede fordeling Empirisk middelværdi: M X = x xh Empirisk varians: n VAR( X ) = hx ( x M X ) n 1 x x 2 Modelside Én stokastisk variabel, X Det forventede antal med en bestemt værdi: e x = np x Sandsynligheden for at X=x: p x = P(X=x) Fordelingsfunktionen: x F( x) = p = P( X x) i= 1 i Percentiler defineret ud fra fordelingsfunktionen Teoretisk middelværdi: (forventet værdi) E( X ) = xp x Teoretisk varians: 2 σ X = p x x E X 2 x x ( ( )) Variablens fordeling = mængden af sandsynligheder, der kan defineres for de hændelser, der kan defineres ud fra variables forskellige mulige værdier. 7

Nogle tatistiske standardfordelinger 1) Bernoullifordelingen sandsynligheden svarende til en enkelt binær variabel. 2) Binomialfordelingen sandsynlighederne for antallet af positive udfald på et vist antal Bernoullifordelte variable. 3) Polynomialfordelingen sandsynligheder for antallet af forekomne værdier af kategorivariable med mere end to forskellige udfald. 4) Normalfordelingen en symmetrisk fordeling af en ubegrænset kontinuert intervalskalavariabel. Er entydigt fastlagt af middelværdi og varians. 5) Den standardiserede normalfordeling. En normalfordeling med middelværdi lig med 0 og varians lig med 1. 6) Chi-i-anden fordelingen. En fordeling på den positive talakse. kan defineres som summen af et vist antal standardiserede normalfordelinger. 8

Bernoulli fordelingen: En fordeling af en variabel, X, med to forskellige udfald: X = 0 X = 1 En bestemt begivenhed forekommer ikke E bestemt begivenhed forekommer Fordelingen indeholder én sandsynlighed: p = P(X=1) Sandsynligheden for at begivenheden ikke forekommer er lig med P(X=0) = 1-p 9

Fordelingsindikatorer for Bernoullifordelingen E(X) = Σ x (xp x )= 0 (1-p) + 1 p = p σ 2 (X) = Σ x [(x-e(x)) 2 p x ] = (0-p)²(1-p) + (1-p)²p = p²(1-p) + (1-p)²p = p(1-p)(p+1-p) = p(1-p) 10

Fordelingsindikatorer efter omkodning Samme regneregler som for empiriske fordelingsindikatorer med én nyttig forskel S = X + Y E(S) = E(X) + E(Y) σ 2 (S) = Σ s p s (s-e(s))² =Σ xy p xy (x+y-e(x)-e(y))² = Σ xy p xy ((x-e(x))+(y-e(y)))² = Σ xy p xy ((x-e(x))²+(y-e(y))²+2(x-e(x))(y-e(y))) = Σ xy p xy (x-e(x))² + Σ xy p xy (y-e(y))² + 2Σ xy p xy (x-e(x))(y-e(y)) = σ 2 (X) + σ 2 (Y) + 2σ 2 (X,Y) Hvis X og Y er stokastisk uafhængige, er den kovarians, σ 2 (X,Y) lig med nul σ 2 (X+Y) = σ 2 (X) + σ 2 (Y) 11

Binomialfordelingen Y er binomialfordelt, Y ~ Bin(n,p), hvis den er lig med summen af n indbyrdes uafhængige identisk fordelte Bernoulli fordelte variable med sandsynligheden p: Dvs. Y = i=1..n X i Hvor X i er en Bernoulli-fordelt variabel med sandsynlighed p. Teoretisk middelværdi = E(Y) = n p Teoretisk varians = σ 2 (Y) = n p (1-p) Teoretisk standardafvigelse = σ(y) = n p (1-p) 12

Standardiserede variable Variable, der er omkodet, således at middelværdien er lig nul og variansen er lig med 1 Z = X E( X ) σ ( X ) hvor σ(x) er variablens standardafvigelse Z E( X ) 1 = + ix σ ( X ) σ ( X ) E( X ) σ ( X ) og 1 σ ( X ) er konstanter. I flg. regnereglerne for middelværdier og varianser er E(Z) = 0 og σ 2 (Z) = 1. 13

Hvor stor usikkerhed er der på en middelværdiberegning? Teoretisk middelværdi og varians for den empiriske middelværdi E(M x ) = E(X) σ 2 (M x ) = σ 2 (X)/n σ ( M ) σ ( X ) n x = Fordelingsindikatorer for binomialfordelingen E(S) = np σ 2 (S) = np(1-p) E S = p σ 2 S p( 1 p) = n n n 14

Fordelingsindikatorer for politisk opinionsundersøgelse i september 1994. Undersøgelsen antages at omfatte 900 personer. S = Absolut fordeling E(S) Relativ fordeling σ 2 (S) E(S/900) σ 2 (S/900) Ej stemt+ugyldig 149.4 124.6 0.166 0.000154 A. Socialdemokratiet 259.2 184.6 0.288 0.000228 B. Radikale 34.2 32.9 0.038 0.000041 C. Konservative 112.5 98.4 0.125 0.000122 D. Centrum demokrater 21.6 21.1 0.024 0.000026 F. Socialistisk folkeparti 54.9 53.6 0.061 0.000064 Q. Kristeligt folkeparti 13.5 13.3 0.015 0.000016 V. Venstre 174.6 140.7 0.194 0.000174 Z. Fremskridtspartiet 48.6 46.0 0.054 0.000057 Ø. Enhedslisten 23.4 22.8 0.026 0.000028 * Udenfor parti 7.2 7.1 0.008 0.000009 15

Om tætheder for kontinuerte variable Et histogram over tiden til en hændelse målt i femårsgrupper 600 Frequency 400 200 Mean =4,90 Std. Dev. =5,025 N =1.000 0 0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00 40,00 COMPUTE x5 = RV.EXP(0.2) Søjlens højde/1000 er et estimat af en sandsynlighed 16

400 300 Frequency 200 100 Mean =4,90 Std. Dev. =5,025 N =1.000 0 0,00 10,00 20,00 30,00 40,00 COMPUTE x5 = RV.EXP(0.2) To-års alders intervaller Højden af søjlen/1000 er et estimat af sandsynligheden Søjlerne er mindre, fordi sandsynlighederne er mindre, fordi intervallerne er mindre 17

200 150 Frequency 100 50 Mean =4,90 Std. Dev. =5,025 N =1.000 0 0,00 10,00 20,00 30,00 40,00 COMPUTE x5 = RV.EXP(0.2) 1-års intervaller Søjlerne er ca. halvt så høje som for to-års intervallerne fordi sandsynlighederne er ca. halvt så store 18

100 80 Frequency 60 40 20 Mean =4,90 Std. Dev. =5,025 N =1.000 0 0,00 10,00 20,00 30,00 40,00 COMPUTE x5 = RV.EXP(0.2) ½ års intervaller 19

Når intervalbredden nærmer sig nul kommer toppen af histogrammet til at ligne en kontinuert kurve, der omtales som fordelingens tæthed 0,20 0,15 density 0,10 0,05 0,00 0,00 10,00 20,00 X 30,00 40,00 I dette tilfælde f(x) = λ e λx hvor λ = 0.2 Eksponential fordelingen 20

Sandsynligheder og tætheder Hvis er et meget lille tal vil sandsynligheden næsten være lig med P(x - < X x + ) 2 f(x) P(x < X x + ) f(x+ /2) f(x) Samme regneregler for tætheder som for sandsynligheder, men summation skal erstattes af integration P (x1 < X x 2 ) = f(x) dx x 2 x 1 21

Tætheder, fordelingsfunktioner og overlevelsesfunktioner Fordelingsfunktionen F (x) = P(X f (x) = x) d dx = x F(x) f(x)dx 22

Normalfordelingen.5 0.0-5 Figur 4.3 Tre normalfordelinger 0 5 Standardiseret normalfordeling P(Z < -1.96) = P(Z > +1.96) = 0.025 P( Z >1.96) = 0.05 95 % af værdierne af en normalt fordelt variabel med middelværdi,ξ, og standardafvigelse,σ, vil ligge inden for intervallet ξ ± 1.96σ 23

Udvalgte sandynligheder fra den standardiserede normalfordeling: Tabel 4.3 Udvalgte sandsynligheder defineret ved en standardiseret normalfordelt variabel, Z Udfald Sandsynlighed Z -4.00 0.00003 Z -3.50 0.0002 Z -3.08 0.0010 Z -3.00 0.0013 Z -2.50 0.0062 Z -2.33 0.0100 Z -2.00 0.0228 Z -1.96 0.0250 Z -1.66 0.0500 Z -1.00 0.1587 24

Er variable nogensinde normalfordelte? 700 600 500 400 300 200 100 0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 Venstre-højre position 700 600 500 400 300 200 100 0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0 12.0 13.0 14.0 15.0 Tilfredshed med livet 25

Middelværdisætningen Antag, at X 1,..,X n er n identisk fordelte uafhængige variable med middelværdi, E(X), og varians, σ X2, og at M X 1 er den empiriske middelværdi. = X n i i Lad endvidere ε være et vilkårlig positivt tal. Når antallet af observationer forøges, vil sandsynligheden for at forskellen på den empiriske og teoretiske middelværdi er mindre end ε nærme sig 1, P( M E( X ) < ε) 1 når n X 26

De store tals lov Antag, at X 1,..,X n er n identisk Bernoullifordelte uafhængige variable med sandsynlighed, p, for et positivt udfald. Lad endvidere h X være den relative hyppighed af positive udfald, mens ε er et vilkårlig positivt tal. Når antallet af observationer forøges vil sandsynligheden for at forskellen på sandsynligheden og den relative hyppighed er mindre end ε nærme sig 1, P( h p < ε) X 1 når n 27

Den centrale grænseværdisætning Antag, at X 1,..,X n er n identisk fordelte uafhængige variable med middelværdi, E(X), og varians, σ X 2. Under denne forudsætning vil den empiriske middelværdi, M X 1 i, altid være approksimativt normalt i = X n fordelt med middelværdi, E(X), og varians, σ X 2 /n. Approksimationen vil blive bedre og bedre, jo flere observationer, der indsamles. 28

1.00 2.25 3.50 4.75 6.00 7.25 8.50 9.75 700 600 500 400 300 200 100 0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 Figur 4.5 Fordeling af svarene på spørgsmålet om den generelle tilfredshed med livet. Kurven svarer til en normalfordeling med samme middelværdi og spredning som i fordelingen af tilfredsheden. Figur 4.6 Fordeling af den gennemsnitlige tilfredshed med livet i 220 tilfældigt udvalgte grupper på 10 personer. Kurven svarer til en normalfordeling med samme middelværdi og samme varians som fordelingen af gennemsnitsværdierne. 29

1.00 3.50 6.00 8.50 Figur 4.7 Fordeling af den gennemsnitlige tilfredshed med tilværelsen i 88 tilfældigt sammensatte grupper med 25 personer. Kurven svarer til en normalfordeling med samme middelværdi og samme spredning som i fordelingen af gennemsnitsværdierne 1.00 4.00 7.00 10.00 Figur 4.8 Fordeling af den gennemsnitlige tilfredshed med tilværelsen i 44 tilfældigt sammensatte grupper med 50 personer. Kurven svarer til en normalfordeling med samme middelværdi og samme spredning som i fordelingen af gennemsnitsværdierne 30

.03.02 Sandsynlighed.01 0.00 201 206 211 216 221 226 231 236 241 Figur 4.9 Eksakt og approksimativ fordeling af antallet af socialdemokrater i en Gallup undersøgelse omfattende 900 personer. Trappefunktionen angiver de eksakte sandsynligheder. 246 251 256 261 266 271 276 281 286 291 296 40 30 20 10 0.300.310.320.330.340.350.360.370.380.390.400.305.315.325.335.345.355.365.375.385.395 Figur 4.10 Fordelingen af tilslutningen til Socialdemokratiet blandt alle gyldige stemmer i 1994 i 200 simulerede opinionsundersøgelser, der hver omfattede 900 personer. 31

Regnereglen for normalfordelinger: En hvilken som helst lineær funktion af k normalfordelte variable, (X 1,..,X k ) er selv normalfordelt: Y = a 0 + a 1 X 1 + + a k X k er normalfordelt Y s middelværdien og variansen skal beregnes ud fra de sædvanlige regneregler for middelværdier og varianser. 32

χ 2 fordelingen Antag, at Z er en variabel med en standardiseret normalfordeling. X = Z 2 er en variabel, der kun kan have positive værdier. Fordelingen af X kan beregnes og kortlægges. Denne fordeling omtales som en χ 2 fordelingen med 1 frihedsgrad. χ 2 fordelingen optræder i en lang række forskellige situationer og har en række bekvemme egenskaber. Bl.a. gælder, at fordelingen af summen af k uafhængige χ 2 fordelte variable kan beregnes. Den omtales som en χ 2 fordeling med k frihedsgrader (df = k). 33

0 10 20 30 df=1 df=5 df=10 Tæthedsfunktionen for tre forskellige χ 2 fordelinger 34