Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Relaterede dokumenter
Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Hvorfor er normalfordelingen så normal?

Højde af kvinder 2 / 18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Note om Monte Carlo metoden

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Definition. Definitioner

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Kvantitative Metoder 1 - Forår 2007

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Elementær sandsynlighedsregning

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Elementær sandsynlighedsregning

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Estimation og usikkerhed

Normalfordelingen og Stikprøvefordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

INSTITUT FOR MATEMATISKE FAG c

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Kvantitative Metoder 1 - Forår 2007

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Nanostatistik: Opgaver

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Kapitel 4 Sandsynlighed og statistiske modeller

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Tema. Dagens tema: Indfør centrale statistiske begreber.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Uge 10 Teoretisk Statistik 1. marts 2004

Statistiske modeller

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Kapitel 4 Sandsynlighed og statistiske modeller

Sandsynlighedsregning

Forelæsning 2: Kapitel 4, Diskrete fordelinger

4 Oversigt over kapitel 4

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Nanostatistik: Opgavebesvarelser

Løsning til eksaminen d. 29. maj 2009

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Statistik og Sandsynlighedsregning 2

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Løsning til eksaminen d. 14. december 2009

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Kvantitative Metoder 1 - Forår 2007

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Konfidensintervaller og Hypotesetest

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Statistik og Sandsynlighedsregning 2

Vægte motiverende eksempel. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægtet model. Vægtrelationen

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Kvantitative Metoder 1 - Efterår Dagens program

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Statistik II 4. Lektion. Logistisk regression

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

Diskrete fordelinger. Fire vigtige diskrete fordelinger: 1. Uniform fordeling (diskret) 2. Binomial fordeling. 3. Hyper-geometrisk fordeling

Vejledende besvarelser til opgaver i kapitel 14

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Transkript:

Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte Carlo-metoder February 7, 2019 1 / 27 2 / 27 Monte Carlo Estimat af P(X m): Lad I i = 1[X i m] Antag vi gerne vil beregne sandsynligheden for at et kast med 5 terninger giver mindst 15 i alt. Er vi ikke i stand til at beregne denne sandsynlighed teoretisk, kan vi i princippet kaste 5 terninger et stort antal gange og udregne andelen af kastene, hvor summen af terningernes øjne giver 15 eller derover. Denne andel vil være et estimat af den ønskede sandsynlighed. I praksis lader vi en computer foretage kastene vha. computer-genererede tilfældige tal. P(X m) 1 n n I i = Ī Eksempel: hvis vi bruger n = 1000 simulationer af kast med 5 terninger fås estimat 0.775. Men kun estimat - hvis vi tager 1000 nye kast fås andet resultat - f.eks. 0.795. Dvs. der er en vis usikkerhed på Monte Carlo estimatet. Usikkerheden bliver mindre jo større n, der benyttes. 3 / 27 4 / 27

Basal statistik - empirisk middelværdi og varians Observationer X 1, X 2,..., X n (kan være syntetiske - genereret på computer) - alle samme fordeling som X. Empirisk middelværdi og empirisk varians X = 1 n X i n s 2 = 1 n 1 n (X i X ) 2 ( empirisk middelværdi af kvadrerede afvigelser ) Empirisk spredning: s = s 2 = 1 n (X i X ) n 1 2 Når n meget stor vil X blive nøjagtig tilnærmelse af µ = EX og s 2 vil tilnærme sig variansen af X : σ 2 = VarX = E(X µ) 2 Varians: forventede værdi af den kvadrerede afvigelse fra middelværdien. Spredning: (samme enhed som X ) σ = VarX 5 / 27 6 / 27 Udregning af varians Antag X kan antage værdierne m = 0, 1, 2, 3,..., M med sandsynligheder p(m) = P(X = m). Regneregel for varians: Hvis X og Y uafhængige: VaraX = a 2 VarX Var[X + Y ] = VarX + VarY M VarX = p(m)(m µ) 2 = m=1 p(0)(0 µ) 2 + p(1)(1 µ) 2 + + p(m)(m µ) 2 Eksempel: varians af binomialfordeling S b(1, p) med µ = p. σ 2 = E(X µ) 2 = (1 p)(0 p) 2 + p(1 p) 2 = p(1 p) Spredning af ax : VaraX = a VarX Eksempel: varians af binomialfordeling X = n S i b(n, p) (S i b(1, p) og uafh.) VarX = n VarS i = np(1 p) 7 / 27 8 / 27

0 2 4 6 8 10 Varianser: 1.6, 2.5 og 1.2. p() 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 b(5, 0.5) 0 2 4 6 8 10 0 2 4 6 8 10 p() 0.00 0.05 0.10 0.15 0.20 0.25 0.30 p() 0.00 0.05 0.10 0.15 0.20 0.25 b(10, 0.2) b(10, 0.5) Binomial-fordelinger med forskellige varianser Varians for Poisson Poisson fordeling med middelværdi µ fremkommer som grænseværdi af b(n, µ/n). Varians for X b(n, µ/n): VarX = n µ n (1 µ ( n ) = µ 1 µ ) n Dvs. variansen for X går mod µ når n går mod uendelig. Konklusion: variansen for Poisson(µ) er VarX = µ = EX! 9 / 27 10 / 27 Kontinuerte stokastiske variable Hidtil har vi set på diskrete stokastiske variable, som antog heltallige værdier. En kontinuert stokastisk variabel kan antage alle reelle værdier. Normal fordeling Normalfordeling med middelværdi µ og varians σ 2 : f klokkeformet f () = 1 ep( 1 2πσ 2 2σ 2 ( µ)2 ) For en kontinuert stokastisk variabel angives sandsynligheder vha. en funktion f defineret på de reelle tal. Stor/lille sandsynlighed for at X falder i intervaller hvor f er stor/lille. Eksempel: uniform (ensartet) fordeling på [0, 1]: { 1 [0, 1] f () = 0 ellers f() 0.0 0.2 0.4 0.6 0.8 1.0 1.2 0 2 4 6 Middelværdi 3 eller 2 og spredning 1 eller 1/3. 11 / 27 12 / 27

Normalfordeling - 2 slags intervaller Centrale grænseværdi-sætning For en normalfordeling N(µ, σ 2 ) har vi altid P(µ σ1.96 X µ + σ1.96) = 0.95 Sagt i ord: med 95% sandsynlighed afviger en normalfordelt stokastisk variabel ikke mere end to standardafvigelser (1.96σ 2σ) fra middelværdien. Dette er ækvivalent med, at med 95% sandsynlighed ligger µ i det tilfældige interval [X 1.96σ; X + 1.96σ]. Sagt på en tredje måde: forskellen X µ er mindre end 1.96σ med 95% sandsynlighed. Middelværdi for X er µ. Variansen er σ 2 /n CLT: når n stor vil X tilnærmelsesvist have en normal-fordeling (med middelværdi µ og varians σ 2 /n). NB: ligegyldigt hvilken fordeling X i erne har fås samme grænse-fordeling af X når n (dog skal X i erne være ens fordelt og uafhængige). 2σ: 95% 3σ: 99,7% 4σ: 99,99% 13 / 27 14 / 27 Tilnærmelsesvis normal fordeling af gennemsnit af uniformt fordelte variable Histogram af uniformt fordelte variable samt histogram af X (gennemsnit af 1000 uniformt fordelte) Intervaller for Monte Carlo estimater - vurdering af usikkerhed Estimat X tilnærmelsesvist N(µ, σ 2 /n). Dvs. med 95% sandsynlighed er estimations-fejlen Histogram of unif Histogram of bar µ X Frequency 0 20 40 60 80 100 0.0 0.2 0.4 0.6 0.8 1.0 unif Density 0 50 100 150 0.490 0.495 0.500 0.505 0.510 bar mindre end 1.96%. Dette er ækvivalent med, at med 95% sandsynlighed ligger µ i det tilfældige interval [ X σ1.96/ n, X + σ1.96/ n]. Intervallet giver et bud på usikkerheden af estimationen af µ - kaldes konfidens-intervallet. I praksis erstattes ukendte σ af s = s 2 - den empiriske spredning. 15 / 27 16 / 27

Simulerede X (hver X gennemsnit af 100 normalfordelte variable med middelværdi 3 og varians 2) Simulerede konfidensintervaller (hver baseret på X gennemsnit af 100 normalfordelte variable med middelværdi 3 og varians 2) bar 2.0 2.5 3.0 3.5 4.0 konfidens interval 2.4 2.6 2.8 3.0 3.2 3.4 3.6 0 20 40 60 80 100 eksperiment Ca. 5% af de simulerede X ligger udenfor 95%-intervallet. 0 20 40 60 80 100 eksperiment nr. Konfidensintervallerne indeholder sande middelværdi µ = 3 i ca. 95% af tilfældende. 17 / 27 18 / 27 Praktisk brug af konfidensinterval Hvis vi for et givet eksperiment/datasæt/monte Carlo beregning hævder, at den ukendte middelværdi ligger i det beregnede interval, så tager vi kun fejl i 5% af tilfældende, hvis der er tale om et 95% interval. Hvis vi vil have større sikkerhed kan vi i beregningen af konfidensintervallet erstatte 1.96σ med 3σ eller 4σ - giver 99.7% eller 99.99% intervaller. Da tager vi kun fejl i 0.3% eller 0.01% af tilfældene. Tilbage til Monte Carlo Med tusind (computer) kast af 5 terninger får vi estimeret forventet total antal øjne 17.49 og estimeret varians 13.91. Estimaterne for µ og σ 2 /n er 17.49 og 13.91/1000 = 0.0139. Den estimerede spredning for X er 0.0139 = 0.11. NB: hvad er den sande forventede værdi? Bud på usikkerheden: trolige værdier af µ er [17.49 2 0.11, 17.49 + 2 0.11]. Estimation af sandsynlighed for mere end eller lig 15: her benytter vi variable I i = 1[total sum i 15]. Empirisk middelværdi og varians 0.778 og 0.17. Dvs. estimeret spredning på Ī er 0.17/1000 = 0.013. Dvs. vurdering af usikkerhed: sandsynlighed mellem 0.778-0.026 og 0.778+0.026. 19 / 27 20 / 27

En simulation af lager Lager: V ventetid til lager tømmes. Empirisk middelværdi 28.33 og varians 4.42. Antal simulationer=1000. Dvs. sande forventede ventetid 28.33 ± 2 0.066. beholdning 0 20 40 60 80 0 5 10 15 20 25 30 dag I dette tilfælde gik der 26 dage før lageret blev tømt. 21 / 27 22 / 27 Øvelser 1. Beregn varianserne af de stokastiske variable fra opgave 1, 2, 6 og 7 i første sæt af opgaver. 2. Udgangspunktet er følgende 10 observationer (uafhængige, samme middelværdi og varians): 3.10 1.84 1.66 1.44 1.26 2.63 2.93 3.61 0.36 2.45 2.1 Beregn empirisk middelværdi og varians s 2. 2.2 Beregn et 95% konfidensinterval for den ukendte (teoretiske) middelværdi µ. 2.3 Hvor stor skulle stikprøven være, hvis intervallets bredde skulle være mindre end en halv? 3. Antag X er normalfordelt med middelværdi 3 og varians 2. 3.1 Hvad er sandsynligheden for, at X er mindre end 3? 3.2 Angiv et interval, som X tilhører med 95% sandsynlighed. 4. Antag X 1,..., X 50 er uafhængige og alle har middelværdi 3 og varians 2. 4.1 Angiv et interval, som X tilhører med sandsynlighed 95%. 4.2 Angiv et (tilfældigt) interval, som med sandsynlighed 95% vil indeholde den sande middelværdi 3. 5. Antag X = (X 1 + + X 100 ) b(100, 0.25) og lad X = X /100. 5.1 Hvordan kan vi udregne en tilnærmet værdi for P( X 0.1) vha. den centrale grænseværdi-sætning? 5.2 Antag, at p er ukendt men vi har observeret X = 0.65. Angiv da et 95% konfidensinterval for p (vink: husk variansen for b(n, p) er np(1 p)). 23 / 27 24 / 27

6. Antag, at en fabriks produktion af bolte skal leve op til følgende specifikationer: middelværdien af boltenes længde skal være 10 mm og der skal være mindst 99.7% sandsynlighed for, at en bolts længde er i intervallet 9.85 til 10.15 mm. En ingeniør måler nu 100 bolte og observerer, at den empiriske middelværdi X og varians s 2 for de målte bolte er henholdsvis 9.91 og 0.000289. 6.1 Taler ingeniørens data imod, at den sande middelværdi er 10? (vink: beregn konfidensinterval) 6.2 Antag, at boltenes længder er normalfordelte. Giver data anledning til at tro, at de producerede bolte med 99.7% sandsynlighed overholder specifikationens tolerance-interval? 7. En produktion af elektriske komponenter skal overholde, at i snit er højst 0.5% af komponenterne defekte. I en stikprøve af 1000 komponenter er 7 komponenter defekte. Det antages, at komponenternes fejlstatus er uafhængige. Giver de observerede data anledning til at mene, at kravet til produktionen ikke er overholdt? (vink: udregn 95% konfidensinterval for den ukendte andel defekte) 8. (Monte Carlo beregning af sandsynlighed). Brug computer til at estimere sandsynligheden for, at det maksimale antal øjne i et kast med 5 terninger er mindre end eller lig 5. Beregningens nøjagtighed skal opfylde, at 99.7% konfidensintervallet for sandsynligheden har bredde højst 0.02. Vink: modificer min kode for terningkast. Beregning af ma-værdi i en vektor : > ma=ma() Kan I udregne sandsynligheden eksakt? 25 / 27 26 / 27 Facit 1: 0.96, 3, 0.5625, 3.6, 2.1: 2.13 0.98, 2.2: [1.52;2.74], 2.3: 60, 3.1: 0.5, 3.2: 3±2.77, 4.1: 3 ± 0.392, 4.2: X ±0.392, 5.1 : X er approksimativt N(0.25, 0.001875). 5.2: Varians σ 2 for X i estimeres til 0.65(1 0.65) = 0.2275. Konfidensinterval: 0.65 ± 1.96 0.2275/100 = 0.65 ± 0.093. 6.1: ja, 99.7% konfidensintervallet er [9.9049, 9.9151] 6.2: ja, på baggrund af X og s 2 er det estimerede 99.7% interval [9.859, 9.961]. 7: nej, 95% konfidensintervallet er [0.0017, 0.0123]. 8: med 100000 simulationer beregner jeg sandsynligheden til 0.3999 med et 99.7% konfidensinterval [0.3952, 0.04045], som har bredde 0.0092 (husk, disse beregninger er behæftet med Monte Carlo fejl, da de er beregnet på baggrund af simulationer). 27 / 27