Produkt og marked - matematiske og statistiske metoder

Relaterede dokumenter
Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Note om Monte Carlo metoden

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Højde af kvinder 2 / 18

Hvorfor er normalfordelingen så normal?

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Definition. Definitioner

Elementær sandsynlighedsregning

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Estimation og usikkerhed

Kvantitative Metoder 1 - Forår 2007

Normalfordelingen og Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Elementær sandsynlighedsregning

Uge 10 Teoretisk Statistik 1. marts 2004

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Kvantitative Metoder 1 - Forår 2007

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Nanostatistik: Opgaver

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

INSTITUT FOR MATEMATISKE FAG c

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Statistiske modeller

Tema. Dagens tema: Indfør centrale statistiske begreber.

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

4 Oversigt over kapitel 4

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Statistik og Sandsynlighedsregning 2

Nanostatistik: Opgavebesvarelser

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Kvantitative Metoder 1 - Forår Dagens program

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Statistik og Sandsynlighedsregning 2

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Løsning til eksaminen d. 29. maj 2009

Statistik II 4. Lektion. Logistisk regression

Betingede sandsynligheder Aase D. Madsen

Kapitel 4 Sandsynlighed og statistiske modeller

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Kapitel 4 Sandsynlighed og statistiske modeller

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Konfidensintervaller og Hypotesetest

Kvantitative Metoder 1 - Forår 2007

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Kvantitative Metoder 1 - Efterår Dagens program

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Note til styrkefunktionen

Vægte motiverende eksempel. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægtet model. Vægtrelationen

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Opgaver til kapitel 3

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Transkript:

Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26

Kursusindhold: Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte Carlo-metoder Matrix-regning 2/26

Monte Carlo Antag vi gerne vil beregne sandsynligheden for at et kast med 5 terninger giver mindst 15 i alt. Er vi ikke i stand til at beregne denne sandsynlighed teoretisk, kan vi i princippet kaste 5 terninger et stort antal gange og udregne andelen af kastene, hvor summen af terningernes øjne giver 15 eller derover. Denne andel vil være et estimat af den ønskede sandsynlighed. I praksis lader vi en computer foretage kastene vha. computer-genererede tilfældige tal. 3/26

Estimat af P(X m): Lad I i = 1[X i m] P(X m) 1 n n I i = Ī i=1 Eksempel: hvis vi bruger n = 1000 simulationer af kast med 5 terninger fås estimat 0.775. Men kun estimat - hvis vi tager 1000 nye kast fås andet resultat - f.eks. 0.795. Dvs. der er en vis usikkerhed på Monte Carlo estimatet. Usikkerheden bliver mindre jo større n, der benyttes. 4/26

Basal statistik - empirisk middelværdi og varians Observationer X 1,X 2,...,X n (kan være syntetiske - genereret på computer) - alle fordelt som X. Empirisk middelværdi og empirisk varians X = 1 n X i n s 2 = 1 n 1 i=1 n (X i X) 2 i=1 ( empirisk middelværdi af kvadrerede afvigelser ) Empirisk spredning: s = s 2 = 1 n 1 n (X i X) 2 i=1 5/26

Når n meget stor vil X blive nøjagtig tilnærmelse af µ = EX og s 2 vil tilnærme sig variansen af X: σ 2 = VarX = E(X µ) 2 Varians: forventede værdi af den kvadrerede afvigelse fra middelværdien. Spredning: (samme enhed som X) σ = VarX 6/26

Udregning af varians Antag X kan antage værdierne m = 0,1,2,3,...,M med sandsynligheder p(m) = P(X = m). M VarX = p(m)(m µ) 2 = m=1 p(0)(0 µ) 2 +p(1)(1 µ) 2 + +p(m)(m µ) 2 Eksempel: varians af binomialfordeling X b(1,p) med µ = p. σ 2 = E(X µ) 2 = p(1 p) 2 +(1 p)(0 p) 2 = p(1 p) 7/26

Regneregel for varians: Hvis X og Y uafhængige: VaraX = a 2 VarX Var[X +Y] = VarX +VarY Spredning af ax: VaraX = a VarX Eksempel: varians af binomialfordeling X = n i=1 X i b(n,p) VarX = n VarX i = np(1 p) i=1 8/26

Binomial-fordelinger med forskellige varianser b(10, 0.2) b(10, 0.5) p(x) 0.00 0.10 0.20 0.30 p(x) 0.00 0.05 0.10 0.15 0.20 0.25 0 2 4 6 8 10 x 0 2 4 6 8 10 x b(5, 0.5) p(x) 0.00 0.10 0.20 0.30 0 2 4 6 8 10 x Varianser: 1.6, 2.5 og 1.25. 9/26

Kontinuerte stokastiske variable Hidtil har vi set på diskrete stokastiske variable, som antog heltallige værdier. En kontinuert stokastisk variabel kan antage alle reelle værdier. For en kontinuert stokastisk variabel angives sandsynligheder vha. en funktion f defineret på de reelle tal. Stor/lille sandsynlighed for at X falder i intervaller hvor f er stor/lille. Eksempel: uniform (ensartet) fordeling på [0, 1]: { 1 x [0,1] f(x) = 0 ellers 10/26

Normal fordeling Normalfordeling med middelværdi µ og varians σ 2 : f klokkeformet f(x) = 1 exp( 1 2πσ 2 2σ 2(x µ)2 ) f(x) 0.0 0.2 0.4 0.6 0.8 1.0 1.2 0 2 4 6 x Middelværdi 3 eller 2 og spredning 1 eller 1/3. 11/26

Normalfordeling - 2 slags intervaller For en normalfordeling N(µ,σ 2 ) har vi altid P(µ σ1.96 X µ+σ1.96) = 0.95 Dvs. med 95% sandsynlighed afviger en normalfordeling ikke mere end to standardafvigelser (1.96σ 2σ) fra middelværdien. Tilsvarende (interval for µ) P(X σ1.96 µ X +σ1.96) = 0.95 2σ: 95% 3σ: 99,7% 4σ: 99,99% 12/26

Centrale grænseværdi-sætning Middelværdi for X er µ. Variansen er σ 2 /n CLT: når n stor vil X tilnærmelsesvist have en normal-fordeling (med middelværdi µ og varians σ 2 /n). NB: ligegyldigt hvilken fordeling X i erne har fås samme grænse-fordeling af X når n (dog skal X i erne være ens fordelt og uafhængige). 13/26

Tilnærmelsesvis normal fordeling af gennemsnit af uniformt fordelte variable Histogram af uniformt fordelte variable samt histogram af X (gennemsnit af 1000 uniformt fordelte) Histogram of xunif Histogram of xbar Frequency 0 20 40 60 80 100 Density 0 50 100 150 0.0 0.2 0.4 0.6 0.8 1.0 xunif 0.490 0.495 0.500 0.505 0.510 xbar 14/26

Intervaller for Monte Carlo estimater - vurdering af usikkerhed Estimat X tilnærmelsesvist N(µ,σ 2 /n). Dvs. interval for ukendt µ: P( X 1.96 σ n µ X +1.96 σ n ) = 0.95 Intervallet [ X σ1.96/ n, X +σ1.96/ n] giver et bud på usikkerheden af estimationen af µ - kaldes konfidens-intervallet. I praksis erstattes ukendte σ af s = s 2 - den empiriske spredning. 15/26

Simulerede X (hver X gennemsnit af 100 normalfordelte variable med middelværdi 3 og varians 2) xbar 2.0 2.5 3.0 3.5 4.0 0 20 40 60 80 100 eksperiment Ca. 5% af de simulerede X ligger udenfor 95%-intervallet. 16/26

Simulerede konfidensintervaller (hver baseret på X gennemsnit af 100 normalfordelte variable med middelværdi 3 og varians 2) konfidens interval 2.4 2.6 2.8 3.0 3.2 3.4 3.6 0 20 40 60 80 100 eksperiment nr. Konfidensintervallerne indeholder sande middelværdi µ = 3 i ca. 95% af tilfældende. 17/26

Praktisk brug af konfidensinterval Hvis vi for et givet eksperiment/datasæt/monte Carlo beregning hævder, at den ukendte middelværdi ligger i det beregnede interval, så tager vi kun fejl i 5% tilfældende, hvis der er tale om et 95% interval. Hvis vi vil have større sikkerhed kan vi i beregningen af konfidensintervallet erstatte 1.96σ med 3σ eller 4σ - giver 99.7% eller 99.99% intervaller. Da tager vi kun fejl i 0.3% eller 0.01% af tilfældene. 18/26

Tilbage til Monte Carlo Med tusind (computer) kast af 5 terninger får vi estimeret forventet total antal øjne 17.49 og estimeret varians 13.91. Estimaterne for µ og σ 2 /n er 17.49 og 13.91/1000 = 0.0139. Den estimerede spredning for X er 0.0139 = 0.11. NB: hvad er den sande forventede værdi? Bud på usikkerheden: trolige værdier af µ er [17.49 2 0.11,17.49+2 0.11]. Estimation af sandsynlighed for mere end 15: her benytter vi variable I i = 1[total sum i > 14]. Empirisk middelværdi og varians 0.778 og 0.17. Dvs. estimeret spredning på Ī er 0.17/1000 = 0.013. Dvs. vurdering af usikkerhed: sandsynlighed mellem 0.778-0.026 og 0.778+0.026. 19/26

Lager: V ventetid til lager tømmes. Empirisk middelværdi 28.33 og varians 4.42. Antal simulationer=1000. Dvs. sande forventede ventetid 28.33±2 0.066. 20/26

En simulation af lager beholdning 0 20 40 60 80 0 5 10 15 20 25 30 dag I dette tilfælde gik der 26 dage før lageret blev tømt. 21/26

Øvelser 1. Beregn varianserne af de stokastiske variable fra opgave 1, 2, 6 og 7 i første sæt af opgaver. 2. Udgangspunktet er følgende 10 observationer (uafhængige, samme middelværdi og varians): 3.10 1.84 1.66 1.44 1.26 2.63 2.93 3.61 0.36 2.45 2.1 Beregn empirisk middelværdi x og varians s 2. 2.2 Beregn et 95% konfidensinterval for den ukendte (teoretiske) middelværdi µ. 2.3 Hvor stor skulle stikprøven være, hvis intervallets bredde skulle være mindre end en halv? 3. Antag X er normalfordelt med middelværdi 3 og varians 2. 3.1 Hvad er sandsynligheden for, at X er mindre end 3? 3.2 Angiv et interval, som X tilhører med 95% sandsynlighed. 22/26

4. Antag X 1,...,X 50 er uafhængige og alle har middelværdi 3 og varians 2. 4.1 Angiv et interval, som X tilhører med sandsynlighed 95%. 4.2 Angiv et (tilfældigt) interval, som med sandsynlighed 95% vil indeholde den sande middelværdi 3. 5. Antag X = (X 1 + +X 100 ) b(100,0.25) og lad X = X/100. 5.1 Hvordan kan vi udregne en tilnærmet værdi for P( X 0.1) vha. den centrale grænseværdi-sætning? 5.2 Antag, at p er ukendt men vi har observeret X = 0.65. Angiv da et 95% konfidensinterval for p (vink: husk variansen for b(n,p) er np(1 p)). 23/26

6. Antag, at en fabriks produktion af bolte skal leve op til følgende specifikationer: middelværdien af boltenes længde skal være 10 mm og der skal være mindst 99.7% sandsynlighed for, at en bolts længde er i intervallet 9.85 til 10.15 mm. En ingeniør måler nu 100 bolte og observerer, at den empiriske middelværdi X og varians s 2 for de målte bolte er henholdsvis 9.91 og 0.000289. 6.1 Taler ingeniørens data imod, at den sande middelværdi er 10? (vink: beregn konfidensinterval) 6.2 Antag, at boltenes længder er normalfordelte. Giver data anledning til at tro, at de producerede bolte med 99.7% sandsynlighed overholder specifikationens tolerance-interval? 7. En produktion af elektriske komponenter skal overholde, at i snit er højst 0.5% af komponenterne defekte. I en stikprøve af 1000 komponenter er 7 komponenter defekte. Det antages, at komponenternes fejlstatus er uafhængige. Giver de observerede data anledning til at mene, at kravet til produktionen ikke er overholdt? (vink: udregn 95% konfidensinterval for den ukendte andel defekte) 24/26

8. (Monte Carlo beregning af sandsynlighed). Brug computer til at estimere sandsynligheden for, at det maksimale antal øjne i et kast med 5 terninger er mindre end eller lig 5. Beregningens nøjagtighed skal opfylde, at 99.7% konfidensintervallet for sandsynligheden har bredde højst 0.02. Vink: modificer min kode for terningkast. Beregning af max-værdi i en vektor x: > xmax=max(x) Kan I udregne sandsynligheden eksakt? 25/26

Facit 1: 0.96, 3, 0.5625, 3.6, 2.1: 2.13 0.98, 2.2: [1.52;2.74], 2.3: 60, 3.1: 0.5, 3.2: 3±2.77, 4.1: 3 ± 0.392, 4.2: X±0.392, 5.1 : X er approksimativt N(0.25,0.001875). 5.2: Varians σ 2 for X i estimeres til 0.65(1 0.65) = 0.2275. Konfidensinterval: 0.65±1.96 0.2275/100 = 0.65±0.093. 6.1: ja, 99.7% konfidensintervallet er [9.9049, 9.9151] 6.2: ja, på baggrund af X og s 2 er det estimerede 99.7% interval [9.859,9.961]. 7: nej, 95% konfidensintervallet er [0.0017, 0.0123]. 8: med 100000 simulationer beregner jeg sandsynligheden til 0.3999 med et 99.7% konfidensinterval [0.3952, 0.04045], som har bredde 0.0092 (husk, disse beregninger er behæftet med Monte Carlo fejl, da de er beregnet på baggrund af simulationer). 26/26