Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31
Repetition: Normalfordelingen Definition: Normalfordelingen En stokastisk variabel X med tæthedsfunktion f(x) = 1 ) (x µ)2 exp (, x R, 2πσ 2σ 2 siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Notation: X N(µ,σ 2 ). Klokkeformet symmetrisk tæthedsfunktion. σ µ 2/31
Repetition: Standard Normalfordelingen Definition: Standard normalfordelingen Fordelingen N(0, 1) kaldes standard normalfordeling. Typisk noteres standard normal fordelte variable Z. Fordelingsfunktionen for en standard normalfordelt SV betegnes Φ(z): Dvs: Hvis Z N(0,1) så gælder P(Z z) = Φ(z). Der findes ikke et lukket udtryk for fordelingsfunktionen Φ(z). f(z) Φ(z) z 3 2 1 0 1 2 3 Φ(z) 1.00 0.75 0.50 0.25 0 3 2 1 0 1 2 z 3/31
Repetition: Sandsynlighedsintervaller Lad X N(µ,σ 2 ), så følger af standardisering, at Z = X µ σ N(0,1). Sandynligheden for at X ligger højst z standardafvigelser fra middelværdien µ er P(µ zσ < X < µ+zσ) = 2Φ(z) 1 2Φ(z) 1 µ zσ µ µ+zσ 4/31
Sandsynlighedsintervaller Antag X N(µ,σ 2 ). Find z, så sandsynligheden for, at X ligger inden for z standardafvigelser fra µ er 95%. Vi har Da p = 0,95 gælder p = P(µ zσ < X < µ+zσ) = 2Φ(z) 1 2φ(z) 1 = 0,95 Φ(z) = 0,975. I normalfordelingstabellen finder vi at Φ(1,96) = 0,9750, så svaret er z = 1,96. Dvs. P(µ 1,96σ < X < µ+1,96σ) = 0,95. 5/31
Inverse fordelingsfunktion Den inverse fordelingsfunktion Φ 1 går den modsatte vej af Φ. Dvs. hvis Φ(2) = 0,9772, så er Φ 1 (0,9772) = 2. I Matlab er den inverse fordelingsfunktion, Φ 1 (p) implementeret: >> norminv(0.9772) ans = 1.991 6/31
Sandsynlighedsintervaller: Eksempler Antag X N(µ,σ 2 ). Givet en sandsynlighed p find z så P(µ zσ X µ+zσ) = p. Vi har set, at dette svarer til at løse p = 2Φ(z) 1. Isolerer vi Φ(z) får vi ). Φ(z) = p +1 2 z = Φ 1 ( p +1 2 Antag vi vil finde z, så intervallet indeholder X med 99% sandsynlighed, dvs. p = 0,99. Da er z = Φ 1 ( 0,99+1 2 ) = Φ 1 (0,995). Fra Matlab får vi >> norminv(0,995) ans = 2.5758 Dvs. P(µ 2,58σ X µ+2,58σ) = 0,99. 7/31
Tæthedsfunktion 99,9% 99% 95% µ 3.29σ µ 1.96σ µ µ + 1.96σ µ + 3.29σ µ 2.58σ µ + 2.58σ 8/31
Repetition: Middelværdi og Varians Definition: Middelværdi og varians Lad X være en kontinuert stokastisk variabel med tæthedsfunktion f. Middelværdien af X defineres som µ = E(X) = xf(x)dx < - også kaldet forventet værdi (UK: Expectation). Variansen af X defineres som σ 2 = V(X) = E((X µ) 2 ) = (x µ) 2 f(x)dx <, hvor σ kaldes spredningen (eller standardafvigelsen) - mål for forventet variabilitet i X. 9/31
Repetition: Lineær transformation Sætning: Lineær transformation af SV Hvis X er en stokastisk variabel, og a,b R, så gælder E(aX +b) = ae(x)+b, V(aX +b) = a 2 V(X). Spørgsmål: Hvordan håndterer vi ikke-lineære transformationer Hvordan håndterer vi flere stokastiske variable? 10/31
Vilkårlig transformation af X Vilkårlig transformation: Lad X være en stokastisk variabel med E(X) = µ og V(X) = σ 2. Y = g(x): vilkårlig differentiabel transformation af X. Middelværdien af Y = g(x): E(Y) = g(x)f X (x)dx. Problem: Middelværdien E(Y) er ofte vanskelig at beregne. Løsning: Vi lineariserer transformationen g(x). 11/31
Linearisering Lineær approximation af g omkring µ: Y = g(x) g(µ)+g (µ)(x µ) = g (µ)x g (µ)µ+g(µ) = ax +b, hvor a = g (µ) og b = g (µ)µ+g(µ). ax +b g(x) g(µ) µ 12/31
Linearisering Vi har en approksimation af g(x): Y ax +b, hvor a = g (µ) og b = g (µ)µ+g(µ). Heraf følger approximativ middelvædi og varians for Y: E(Y) ae(x)+b = g (µ)µ g (µ)µ+g(µ) = g(µ) V(Y) a 2 V(X) = g (µ) 2 σ 2, hvor approximationen er god, hvis σ er lille. 13/31
Linearisering: Eksempel Antag X N(µ,σ 2 ) og Y = g(x) = exp(x). Vi har da g (x) = d dx exp(x) = exp(x) E(Y) g(µ) = exp(µ) V(Y) g (µ)σ 2 = exp(µ)σ 2 Vi har derfor at Y er tilnærmel normalfordelt, med middelværdi exp(µ) og varians exp(µ)σ 2 : Y ca. N(exp(µ),exp(µ)σ 2 ). 14/31
Linearisering: Eksempel (forts.) Antag (igen) X N(µ,σ 2 ) og Y = g(x) = exp(x). To eksempler, hvor µ = 1, og σ = 0.5 (venstre) og σ = 0.1 (højre). X N(1;0,5 2 ) Y ca. N(exp(1);exp(1)0,5 2 ) X N(1;0,1 2 ) Y ca. N(exp(1);exp(1)0,1 2 ) Approx. Sand. Approx. Sand. 2 0 2 4 6 1 2 3 4 Til venstre er den relative varians for X σ 2 /µ 2 = 0,25 og til højre er den relative varians for X 0,01. Jo mindre relativ varians jo bedre er approksimationen. 15/31
Uafhængige stokastiske variable Definition: Uafhængighed To stokastiske variable X 1 og X 2 er uafhængige, hvis og kun hvis P(X 1 x 1 og X 2 x 2) = P(X 1 x 1)P(X 2 x 2) for alle x 1,x 2 R. Generelt: n stokastiske variable X 1,X 2,...,X n er uafhængige, hvis og kun hvis P(X 1 x 1 og X 2 x 2 og... og X n x n) = P(X 1 x 1)P(X 2 x 2) P(X n x n) for alle x 1,x 2,...x n R. 16/31
Linearkombination Sætning: Middelværdi af linearkombination Hvis X 1,X 2,...,X n er stokastiske variable med endelig middelværdier E(X 1 ) = µ 1,E(X 2 ) = µ 2,...,E(X n ) = µ n, og a 0,a 1,...,a n R, så gælder E ( ) a 0 +a 1X 1 +a 2X 2 + +a nx n = a0 +a 1E(X 1)+a 2E(X 2)+ +a ne(x n) = a 0 +a 1µ 1 +a 2µ 2 + +a nµ n Bemærk: Sætningen kræver ikke at X 1,X 2,...,X n er uafhængige! 17/31
Linearkombination Sætning: Varians af linearkombination af uafhængige SV Hvis X 1,X 2,...,X n er uafhængige stokastiske variable med endelig varianser V(X 1) = σ 2 1,V(X 2) = σ 2 2,...,V(X n) = σ 2 n, og a 0,a 2,...,a n er reelle konstanter, så gælder V ( a 0 +a 1X 1 +a 2X 2 + +a nx n ) = a 2 1 V(X 1)+a 2 2V(X 2)+ +a 2 nv(x n) = a 2 1σ 2 1 +a 2 2σ 2 2 + +a 2 nσ 2 n. 18/31
Sum af uafhængige normalfordelte SV Sætning: Sum af uafhængige normalfordelte SV Hvis X 1 og X 2 er uafhængige stokastiske variable, hvor X 1 N(µ 1,σ 2 1) og X 2 N(µ 2,σ 2 2), så er X 1 +X 2 N(µ 1 +µ 2,σ 2 1 +σ 2 2). Generelt: Hvis X 1,X 2,...X n er uafhængige stokastiske variable, hvor så er X i N(µ i,σ 2 i ) for i = 1,2,...,n, X 1 +X 2 + +X n N(µ 1 +µ 2 + +µ n,σ 2 1 +σ 2 2 + +σ 2 n). Bemærk: En sum a normalfordelte stokastiske variable er altid normalfordelt uafhængighed eller ej. 19/31
Statistisk model I de fleste videnskaber antages en model for det fænomen som er under observation. Ofte bygger modellen på en række antagelser hvis påstande tidligere er vist valide. Model for vinkler i landmåling: Vi antager at vinkler i landmåling er normalfordelte med den sande vinkel µ som middelværdi og spredning σ. Ydermere antages n gentagne måleforsøg X 1,...,X n af samme vinkel at være uafhængige og identisk fordelte (iid), X i N(µ,σ 2 ), i = 1,...,n. µ 2σ µ µ+2σ 20/31
Model for vinkler x 1x2 3 x 5 x 4 µ 21/31
Observationer Ved opmåling af en vinkel foretages n observationer x 1,...,x n som er realisationer af de stokatiske variable X 1,...,X n. Skematisk angives dette som, X 1 x 1... X n... x n (X 1,...,X n ) kaldes en stikprøve fra normalfordelingen N(µ,σ 2 ). (x 1,...,x n ) kaldes en observeret stikprøve fra normalfordelingen N(µ,σ 2 ). 22/31
Eksempel Jf. eksempel fra noterne observeres følgende 10 satser af en vinkel. Sats x i Observation 1 x 1 164.508 gon 2 x 2 164.509 gon 3 x 3 164.511 gon 4 x 4 164.507 gon 5 x 5 164.510 gon 6 x 6 164.511 gon 7 x 7 164.517 gon 8 x 8 164.510 gon 9 x 9 164.514 gon 10 x 10 164.513 gon Dvs den observerede stikprøve, hvor n = 10, er (x 1,x 2,...,x n 1,x n ) = (164.508,164.509,...,164.514,164.513). 23/31
Eksempel Histogram af observerede vinkler Relativ frekvens / Tæthedsfunktion 0 50 100 150 164.506 164.508 164.510 x 164.512 164.514 164.516 164.518 Observerede vinkler 24/31
Estimator og estimat Som estimator for µ anvendes gennemsnittet X, der er defineret som X = 1 n n X i = 1 n (X 1 +X 2 + +X n ) i=1 Har vi observeret data kan vi estimere µ med x. Her udskiftes de stokatiske variable X i i X ud med de observerede xi, x = 1 n n x i = 1 n (x 1 +x 2 + +x n ) i=1 Bemærk: X er en stokastisk variabel (en transformation af X i erne), mens x er en realisation af X, X 1... X n X x 1... x n x 25/31
Eksempel - fortsat For eksemplet kan vi estimere µ med x: x = 1 (164.508+164.509+ +164.514+164.513) = 164.511 gon 10 26/31
Egenskaber ved X Sætning: Middelværdi og varians for X Antag (X 1,...,X n ) er en stikprøve fra en fordeling med middelværdi µ og varians σ 2. Da gælder E( X) = µ og var( X) = σ2 n. Hvis X i N(µ,σ 2 ) gælder der ligeledes X N(µ, σ2 n ). Estimatoren X kaldes en central estimator for µ, idet E( X) = µ. Estimatet x kaldes et central estimat for µ. 27/31
Egenskaber for X: Bevis Vi har antaget at X 1,...,X n er indbyrdes uafhængige og har samme middelværdi µ og samme varians σ 2 : E(X i ) = µ, V(X i ) = σ 2 i = 1,...,n. Gennemsnittet af n målinger betegnes X kan skrives som Da gælder og V[ X] = V X = X1 +X2 +...+Xn n = 1 n X1 + 1 n X2 +...+ 1 n Xn. E[ X] = 1 n µ+...+ 1 n µ = n1 n µ = µ. [ 1 n X1 + 1 n X2 +...+ 1 ] n Xn = ( 1 n )2 σ 2 +( 1 n )2 σ 2 + +( 1 n )2 σ 2 = n 1 n 2σ2 = 1 n σ2. 28/31
Gennemsnit af uafhængige normalfordelte SV Hvis X 1,X 2,...X n er uafhængige identiske fordelte stokastiske variable (i engelsk litteratur iid : Independent Identically Distributed), hvor X i N(µ,σ 2 ) for i = 1,2,...,n, så er Dvs. eller X 1 +X 2 + +X n = X = 1 n n i=1 n X i N(nµ,nσ 2 ). i=1 X i N ( µ, σ2 ) n X µ σ/ n N( 0,1 ). 29/31
Effekten af øget antal observationer Fordelingen af gennemsnittet X for forskellige antal observationer (n). n = 10 n = 5 n = 2 n = 1 102.0 102.5 103.0 103.5 104.0 Bemærk: Jo større n jo større sandsynlighed for at X ligger tæt på µ. 30/31
Den centrale grænseværdisætning Den centrale grænseværdisætning Hvis X 1,X 2,...X n er uafhængige identiske fordelte (iid) stokastiske variable med ens middelværdi µ og ens varians σ 2, så gælder der for store n X µ σ/ N ( 0,1 ). n Fortolkning: Hvis de stokastiske variable er uafhængige og fra samme fordeling, så er gennemsnittet cirka normalfordelt, hvis bare n er stor nok. Som regel er n = 30 stor nok. Man kan finde mange en interaktiv illustration af den centrale grænseværdisætning på nettet, fx. her: http://www.mathcs.org/java/programs/clt/clt.html 31/31