Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Relaterede dokumenter
Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Definition. Definitioner

Landmålingens fejlteori - Lektion 5 - Fejlforplantning

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Produkt og marked - matematiske og statistiske metoder

Kvantitative Metoder 1 - Forår 2007

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Vægte motiverende eksempel. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægtet model. Vægtrelationen

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

Noter i fejlteori. Kasper Klitgaard Berthelsen Poul Winding & Jens Møller Pedersen. Diverse opdateringer ved Rasmus Waagepetersen. Version 1.

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Hvorfor er normalfordelingen så normal?

Kvantitative Metoder 1 - Forår Dagens program

4 Oversigt over kapitel 4

Normalfordelingen og Stikprøvefordelinger

Kvantitative Metoder 1 - Efterår Dagens program

Noter i fejlteori. Kasper Klitgaard Berthelsen Poul Winding & Jens Møller Pedersen. Version 1.2

Kvantitative Metoder 1 - Forår Dagens program

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Uge 10 Teoretisk Statistik 1. marts 2004

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Statistiske modeller

Højde af kvinder 2 / 18

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Tema. Dagens tema: Indfør centrale statistiske begreber.

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

MM501 forelæsningsslides

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Note om Monte Carlo metoden

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Statistik og Sandsynlighedsregning 2

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

3 Stokastiske variable 3.1 Diskrete variable

Noter i fejlteori. Kasper Klitgaard Berthelsen Poul Winding & Jens Møller Pedersen. Version 1.1

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

MM501/MM503 forelæsningsslides

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Elementær sandsynlighedsregning

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Kvantitative Metoder 1 - Forår Dagens program

INSTITUT FOR MATEMATISKE FAG c

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

StatDataN: Plot af data

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Teoretisk Statistik, 16. februar Generel teori,repetition

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Elementær sandsynlighedsregning

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Statistik og Sandsynlighedsregning 2

Kapitel 4 Sandsynlighed og statistiske modeller

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Nanostatistik: Opgavebesvarelser

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Eksamen 2014/2015 Mål- og integralteori

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Hvorfor er det lige at vi skal lære det her?

Kapitel 4 Sandsynlighed og statistiske modeller

Lidt om fordelinger, afledt af normalfordelingen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

StatDataN: Test af hypotese

Løsninger til kapitel 6

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

StatDataN: Middelværdi og varians

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Konfidensintervaller og Hypotesetest

Transkript:

Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition: Normalfordelingen Definition: Normalfordelingen En stokastisk variabel X med tæthedsfunktion f (x) = 1 ( ) (x µ)2 exp, x R, 2πσ 2σ 2 siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Notation: X N (µ, σ 2 ). Klokkeformet symmetrisk tæthedsfunktion. σ µ 1/31 2/31 Repetition: Standard Normalfordelingen Definition: Standard normalfordelingen Fordelingen N (0, 1) kaldes standard normalfordeling. Typisk noteres standard normal fordelte variable Z. Fordelingsfunktionen for en standard normalfordelt SV betegnes Φ(z): Dvs: Hvis Z N (0, 1) så gælder P(Z z) = Φ(z). Der findes ikke et lukket udtryk for fordelingsfunktionen Φ(z). Repetition: Sandsynlighedsintervaller Lad X N (µ, σ 2 ), så følger af standardisering, at Z = X µ σ N (0, 1). Sandynligheden for at X ligger højst z standardafvigelser fra middelværdien µ er P(µ zσ < X < µ + zσ) = 2Φ(z) 1 f (z) Φ(z) z 3 2 1 0 1 2 3 Φ(z) 1.00 0.75 0.50 0.25 0 3 2 1 0 1 2 z 2Φ(z) 1 µ zσ µ µ + zσ 3/31 4/31

Sandsynlighedsintervaller Inverse fordelingsfunktion Antag X N (µ, σ 2 ). Find z, så sandsynligheden for, at X ligger inden for z standardafvigelser fra µ er 95%. Vi har Da p = 0, 95 gælder p = P(µ zσ < X < µ + zσ) = 2Φ(z) 1 2φ(z) 1 = 0, 95 Φ(z) = 0, 975. I normalfordelingstabellen finder vi at Φ(1, 96) = 0, 9750, så svaret er z = 1, 96. Dvs. P(µ 1, 96σ < X < µ + 1, 96σ) = 0, 95. Den inverse fordelingsfunktion Φ 1 går den modsatte vej af Φ. Dvs. hvis Φ(2) = 0, 9772, så er Φ 1 (0, 9772) = 2. I Matlab er den inverse fordelingsfunktion, Φ 1 (p) implementeret: >> norminv(0.9772) ans = 1.991 5/31 6/31 Sandsynlighedsintervaller: Eksempler Antag X N (µ, σ 2 ). Givet en sandsynlighed p find z så P(µ zσ X µ + zσ) = p. Vi har set, at dette svarer til at løse p = 2Φ(z) 1. Isolerer vi Φ(z) får vi ). Φ(z) = p + 1 2 z = Φ 1 ( p + 1 2 Tæthedsfunktion 99, 9% 99% 95% Antag vi vil finde z, så intervallet indeholder X med 99% sandsynlighed, dvs. p = 0, 99. Da er z = Φ 1 ( 0,99+1 2 ) = Φ 1 (0, 995). Fra Matlab får vi >> norminv(0,995) ans = 2.5758 Dvs. P(µ 2, 58σ X µ + 2, 58σ) = 0, 99. 7/31 µ 3.29σ µ 1.96σ µ µ + 1.96σ µ + 3.29σ µ 2.58σ µ + 2.58σ 8/31

Repetition: Middelværdi og Varians Repetition: Lineær transformation Definition: Middelværdi og varians Lad X være en kontinuert stokastisk variabel med tæthedsfunktion f. Middelværdien af X defineres som µ = E(X ) = xf (x)dx < - også kaldet forventet værdi (UK: Expectation). Variansen af X defineres som σ 2 = V(X ) = E((X µ) 2 ) = (x µ) 2 f (x)dx <, hvor σ kaldes spredningen (eller standardafvigelsen) - mål for forventet variabilitet i X. Sætning: Lineær transformation af SV Hvis X er en stokastisk variabel, og a, b R, så gælder E(aX + b) = ae(x ) + b, V(aX + b) = a 2 V(X ). Spørgsmål: Hvordan håndterer vi ikke-lineære transformationer Hvordan håndterer vi flere stokastiske variable? 9/31 10/31 Vilkårlig transformation af X Linearisering Lineær approximation af g omkring µ: Vilkårlig transformation: Lad X være en stokastisk variabel med E(X ) = µ og V(X ) = σ 2. Y = g(x ): vilkårlig differentiabel transformation af X. Middelværdien af Y = g(x ): E(Y ) = g(x)f X (x)dx. Y = g(x ) g(µ) + g (µ)(x µ) = g (µ)x g (µ)µ + g(µ) = ax + b, hvor a = g (µ) og b = g (µ)µ + g(µ). ax + b g(x) g(µ) Problem: Middelværdien E(Y ) er ofte vanskelig at beregne. Løsning: Vi lineariserer transformationen g(x ). µ 11/31 12/31

Linearisering Linearisering: Eksempel Vi har en approksimation af g(x): Y ax + b, hvor a = g (µ) og b = g (µ)µ + g(µ). Heraf følger approximativ middelvædi og varians for Y : E(Y ) ae(x ) + b = g (µ)µ g (µ)µ + g(µ) = g(µ) V(Y ) a 2 V(X ) = g (µ) 2 σ 2, Antag X N (µ, σ 2 ) og Y = g(x ) = exp(x ). Vi har da g (x) = d dx exp(x) = exp(x) E(Y ) g(µ) = exp(µ) V(Y ) g (µ)σ 2 = exp(µ)σ 2 Vi har derfor at Y er tilnærmel normalfordelt, med middelværdi exp(µ) og varians exp(µ)σ 2 : Y ca. N (exp(µ), exp(µ)σ 2 ). hvor approximationen er god, hvis σ er lille. 13/31 14/31 Linearisering: Eksempel (forts.) Antag (igen) X N (µ, σ 2 ) og Y = g(x ) = exp(x ). To eksempler, hvor µ = 1, og σ = 0.5 (venstre) og σ = 0.1 (højre). X N (1; 0, 5 2 ) Y ca. N (exp(1); exp(1)0, 5 2 ) X N (1; 0, 1 2 ) Y ca. N (exp(1); exp(1)0, 1 2 ) Uafhængige stokastiske variable Definition: Uafhængighed To stokastiske variable X 1 og X 2 er uafhængige, hvis og kun hvis P(X 1 x 1 og X 2 x 2) = P(X 1 x 1)P(X 2 x 2) Approx. Approx. for alle x 1, x 2 R. Sand. Sand. Generelt: n stokastiske variable X 1, X 2,..., X n er uafhængige, hvis og kun hvis 2 0 2 4 6 1 2 3 4 P(X 1 x 1 og X 2 x 2 og... og X n x n) = P(X 1 x 1)P(X 2 x 2) P(X n x n) Til venstre er den relative varians for X σ 2 /µ 2 = 0, 25 og til højre er den relative varians for X 0, 01. Jo mindre relativ varians jo bedre er approksimationen. 15/31 for alle x 1, x 2,... x n R. 16/31

Linearkombination Linearkombination Sætning: Middelværdi af linearkombination Hvis X 1, X 2,..., X n er stokastiske variable med endelig middelværdier E(X 1 ) = µ 1, E(X 2 ) = µ 2,..., E(X n ) = µ n, og a 0, a 1,..., a n R, så gælder E ( ) a 0 + a 1X 1 + a 2X 2 + + a nx n = a0 + a 1E(X 1) + a 2E(X 2) + + a ne(x n) = a 0 + a 1µ 1 + a 2µ 2 + + a nµ n Sætning: Varians af linearkombination af uafhængige SV Hvis X 1, X 2,..., X n er uafhængige stokastiske variable med endelig varianser V(X 1) = σ 2 1, V(X 2) = σ 2 2,..., V(X n) = σ 2 n, og a 0, a 2,..., a n er reelle konstanter, så gælder V ( a 0 + a 1X 1 + a 2X 2 + + a nx n ) = a 2 1 V(X 1) + a 2 2V(X 2) + + a 2 nv(x n) = a 2 1σ 2 1 + a 2 2σ 2 2 + + a 2 nσ 2 n. Bemærk: Sætningen kræver ikke at X 1, X 2,..., X n er uafhængige! 17/31 18/31 Sum af uafhængige normalfordelte SV Sætning: Sum af uafhængige normalfordelte SV Hvis X 1 og X 2 er uafhængige stokastiske variable, hvor så er X 1 N (µ 1, σ 2 1) og X 2 N (µ 2, σ 2 2), X 1 + X 2 N (µ 1 + µ 2, σ 2 1 + σ 2 2). Generelt: Hvis X 1, X 2,... X n er uafhængige stokastiske variable, hvor X i N (µ i, σ 2 i ) for i = 1, 2,..., n, Statistisk model I de fleste videnskaber antages en model for det fænomen som er under observation. Ofte bygger modellen på en række antagelser hvis påstande tidligere er vist valide. Model for vinkler i landmåling: Vi antager at vinkler i landmåling er normalfordelte med den sande vinkel µ som middelværdi og spredning σ. Ydermere antages n gentagne måleforsøg X 1,..., X n af samme vinkel at være uafhængige og identisk fordelte (iid), X i N (µ, σ 2 ), i = 1,..., n. så er X 1 + X 2 + + X n N (µ 1 + µ 2 + + µ n, σ 2 1 + σ 2 2 + + σ 2 n). Bemærk: En sum a normalfordelte stokastiske variable er altid normalfordelt uafhængighed eller ej. 19/31 µ 2σ µ µ + 2σ 20/31

Model for vinkler Observationer x 1x2 3 x 5 x 4 Ved opmåling af en vinkel foretages n observationer x 1,..., x n som er realisationer af de stokatiske variable X 1,..., X n. Skematisk angives dette som, X 1... X n x 1... x n (X 1,..., X n ) kaldes en stikprøve fra normalfordelingen N (µ, σ 2 ). µ (x 1,..., x n ) kaldes en observeret stikprøve fra normalfordelingen N (µ, σ 2 ). 21/31 22/31 Eksempel Jf. eksempel fra noterne observeres følgende 10 satser af en vinkel. Eksempel Histogram af observerede vinkler Sats x i Observation 1 x 1 164.508 gon 2 x 2 164.509 gon 3 x 3 164.511 gon 4 x 4 164.507 gon 5 x 5 164.510 gon 6 x 6 164.511 gon 7 x 7 164.517 gon 8 x 8 164.510 gon 9 x 9 164.514 gon 10 x 10 164.513 gon Dvs den observerede stikprøve, hvor n = 10, er (x 1, x 2,..., x n 1, x n ) = (164.508, 164.509,..., 164.514, 164.513). Relativ frekvens / Tæthedsfunktion 0 50 100 150 164.506 164.508 164.510 x 164.512 164.514 164.516 164.518 23/31 Observerede vinkler 24/31

Estimator og estimat Eksempel - fortsat Som estimator for µ anvendes gennemsnittet X, der er defineret som X = 1 n X i = 1 n n (X 1 + X 2 + + X n ) i=1 Har vi observeret data kan vi estimere µ med x. Her udskiftes de stokatiske variable X i i X ud med de observerede xi, x = 1 n n x i = 1 n (x 1 + x 2 + + x n ) i=1 For eksemplet kan vi estimere µ med x: x = 1 (164.508 + 164.509 + + 164.514 + 164.513) = 164.511 gon 10 Bemærk: X er en stokastisk variabel (en transformation af X i erne), mens x er en realisation af X, X 1... X n X x 1... x n x 25/31 26/31 Egenskaber ved X Sætning: Middelværdi og varians for X Antag (X 1,..., X n ) er en stikprøve fra en fordeling med middelværdi µ og varians σ 2. Da gælder E( X ) = µ og var( X ) = σ2 n. Hvis X i N (µ, σ 2 ) gælder der ligeledes X N (µ, σ2 n ). Estimatoren X kaldes en central estimator for µ, idet E( X ) = µ. Estimatet x kaldes et central estimat for µ. Egenskaber for X : Bevis Vi har antaget at X 1,..., X n er indbyrdes uafhængige og har samme middelværdi µ og samme varians σ 2 : E(X i) = µ, V(X i) = σ 2 i = 1,..., n. Gennemsnittet af n målinger betegnes X kan skrives som Da gælder og V[ X ] = V X = X1 + X2 +... + Xn n = 1 n X1 + 1 n X2 +... + 1 n Xn. E[ X ] = 1 n µ +... + 1 n µ = n 1 n µ = µ. [ 1 n X1 + 1 n X2 +... + 1 ] n Xn = ( 1 n )2 σ 2 + ( 1 n )2 σ 2 + + ( 1 n )2 σ 2 = n 1 n 2 σ2 = 1 n σ2. 27/31 28/31

Gennemsnit af uafhængige normalfordelte SV Effekten af øget antal observationer Hvis X 1, X 2,... X n er uafhængige identiske fordelte stokastiske variable (i engelsk litteratur iid : Independent Identically Distributed), hvor Fordelingen af gennemsnittet X for forskellige antal observationer (n). n = 10 så er Dvs. eller X i N (µ, σ 2 ) for i = 1, 2,..., n, X 1 + X 2 + + X n = X = 1 n n i=1 n X i N (nµ, nσ 2 ). i=1 X i N ( µ, σ2 ) n X µ σ/ n N ( 0, 1 ). n = 5 n = 2 n = 1 102.0 102.5 103.0 103.5 104.0 Bemærk: Jo større n jo større sandsynlighed for at X ligger tæt på µ. 29/31 30/31 Den centrale grænseværdisætning Den centrale grænseværdisætning Hvis X 1, X 2,... X n er uafhængige identiske fordelte (iid) stokastiske variable med ens middelværdi µ og ens varians σ 2, så gælder der for store n X µ σ/ N ( 0, 1 ). n Fortolkning: Hvis de stokastiske variable er uafhængige og fra samme fordeling, så er gennemsnittet cirka normalfordelt, hvis bare n er stor nok. Som regel er n = 30 stor nok. Man kan finde mange en interaktiv illustration af den centrale grænseværdisætning på nettet, fx. her: http://www.mathcs.org/java/programs/clt/clt.html 31/31