Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel, som vi tillægger sandsynligheder - vha. tætheds- eller fordelingsfunktion. Ex. ligelig fordelt stokastisk variabel på [a,b]: f(x) = Middelværdi Varians Spredning { b a x [a,b] 0 ellers σ = VarX = µ = EX = b a x F (x) = f(z)dz = b a x dx = (b + a)/ b a (x µ) b a dx = EX µ = σ = VarX = b a 0 x < a x b a x [a,b] x > b (b a) /37 /37 Definition: Normalfordelingen En stokastisk variabel X med tæthedsfunktion f(x) = ( ) (x µ) exp, x R, πσ σ Eksempel X N(,5). Beregn P (X ) samt x 0.3 = F (0,3): siges at være normalfordelt med middelværdi µ og varians σ, hvor µ og σ er reelle tal og σ > 0. Notation: X N (µ, σ ). Fordelingsfunktion x F (x) = ( exp πσ ) (z µ) σ dz >> normcdf(,,sqrt(5)) ans = 0.374 >> norminv(0.3,,sqrt(5)) ans = 0.874 pnorm(x,, sqrt(5)) 0.0 0. 0.4 0.6 0.8.0 har ikke lukket udtryk. 4 0 4 6 8 x Sandsynligheder og fraktiler udregnes mest bekvemt vha. computerprogram - f.eks. matlab. 3/37 4/37
Repetition: Standard-normalfordelingen Sandsynlighedsintervaller (Sætning 8) Definition: Standard-normalfordelingen Fordelingen N (0,) kaldes standard normalfordelingen. Typisk noteres standard-normal fordelte variable Z. Historisk set nyttig, da nok at tabellægge standardnormalfordelingen for at udregne sandsynligheder for alle andre normalfordelinger: X N (µ,σ ) Z = X µ σ N (0,) Lad X N (µ, σ ), dvs. Z = X µ σ N (0, ). Find sandsynligheden for at X ligger højst z standardafvigelser fra middelværdien µ. Dvs. find: p = P (µ zσ < X < µ + zσ) p =? µ zσ µ µ + zσ 5/37 6/37 Sandsynlighedsintervaller Sandsynlighedsintervaller: Eksempel Sandsynligheden for at X ligger højst z standardafvigelser fra middelværdien µ er: p = P (µ zσ < X < µ + zσ) = P ( z < X µ < z) σ = P ( z < Z < z) P ( z Z z) z 0 z P (Z z) = 0 = P (Z < z) P (Z < z) = Φ(z) Φ( z) = Φ(z) ( Φ(z)) = Φ(z). z P (Z z) z 0 Bemærk: middelværdien µ og spredningen σ indgår ikke! Spredning nyttig enhed for måling af usikkerhed. 7/37 Antag X N (µ,σ ). Hvad er sandsynligheden for at X ligger højst standardafvigelser fra middelværdien? p = P (µ σ < X < µ + σ) = Φ() Vha. matlab/ normalfordelingstabellen/ finder vi Φ() = 0,977. Dvs. p = 0,977 = 0,9544. Dvs. der er 95,44% sandsynlighed for at en normalfordelt SV ligger indenfor standardafvigelser fra middelværdien. 95,44% µ σ µ µ + σ 8/37
Sandsynlighedsintervaller: Eksempler Tæthedsfunktion Antag X N (µ,σ ). Givet en sandsynlighed p find z så P (µ zσ X µ + zσ) = p. Vi har set, at dette svarer til at løse p = Φ(z). Isolerer vi Φ(z) får vi ). Φ(z) = p + z = Φ ( p + 99,9% 99% 95% Antag vi vil finde z, så intervallet indeholder X med 99% sandsynlighed, dvs. p = 0,99. Da er z = Φ ( 0,99+ ) = Φ (0,995). Fra Matlab får vi >> norminv(0.995) ans =.5758 Dvs. P (µ,58σ X µ +,58σ) = 0,99. 9/37 µ 3.9σ µ.96σ µ µ +.96σ µ + 3.9σ µ.58σ µ +.58σ 0/37 Uafhængige stokastiske variable Linearkombination To stokastiske variable X og X uafhængige hvis viden om X s værdi ikke indvirker på sandsynlighedsfordelingen af X (og omvendt): P (X x X [a,b]) = P (X x ) Venstresiden læses som sandsynligheden for X x givet at X [a,b]. Gentagne målinger skal gerne være uafhængige: hvis eks. måling X er for stor ville det være uheldigt, hvis det medførte en forøget sandsynlighed for, at X også bliver for stor. (Definition 4 giver en stringent, men ikke helt intuitiv definition på uafhængighed) 3 Sætning: Middelværdi af linearkombination Hvis X, X,..., X n er stokastiske variable med middelværdier E(X ) = µ, E(X ) = µ,..., E(X n ) = µ n, og a 0, a,..., a n R, så gælder E ( ) a 0 + a X + + a nx n = a0 + a E(X ) + + a ne(x n) = a 0 + a µ + + a nµ n Bemærk: Sætningen kræver ikke at X, X,..., X n er uafhængige! /37 /37
Anvendelse: omskrivning af udtryk for varians Linearkombination Sætning: Varians af linearkombination af uafhængige SV Hvis X, X,..., X n er uafhængige stokastiske variable med varianser Definitionen på varians kan omskrives til σ = E(X µ) = E(X ) µ, Var(X ) = σ, Var(X ) = σ,..., Var(X n) = σn, og a 0,a,..., a n er reelle konstanter, så gælder Var ( ) a 0 + a X + a X + + a nx n = a Var(X ) + a Var(X ) + + a nvar(x n) = a σ + a σ + + a nσn. NB: vi skal senere se (lektion 5) at det faktisk er nok, at X,...,X n er ukorrelerede. 3/37 4/37 Sum af normalfordelte SV Sætning: Sum af normalfordelte SV Hvis X, X,... X n er normalfordelte stokastiske variable, X i N (µ i, σi ) for i =,,...,n, og a 0,...,a n er konstanter, så er summen a 0 + a X + a X + + a n X n normalfordelt. Fra de foregående resultater fås at summen har middelværdi 4 Statistisk model Model for vinkler i landmåling: Vi antager, at vinkler i landmåling er normalfordelte med den sande vinkel µ som middelværdi og spredning σ. Ydermere antages n gentagne målinger X,...,X n af samme vinkel at være uafhængige og identisk fordelte (iid), X i N (µ,σ ), i =,...,n. a 0 + a µ + a µ + + a n µ n og hvis X, X,... X n er uafhængige (eller blot ukorrelerede) er variansen af summen µ σ µ µ + σ a σ + a σ + + a nσ n 5/37 6/37
Model for vinkler Observationer x x 3 x 5 x 4 Ved opmåling af en vinkel foretages n observationer x,...,x n som er realisationer af de stokastiske variable X,...,X n. Skematisk angives dette som, X... X n x... x n µ X,...,X n kaldes en stikprøve fra normalfordelingen N (µ,σ ). x,...,x n kaldes en observeret stikprøve fra normalfordelingen N (µ,σ ). 7/37 8/37 Eksempel Eksempel Jf. eksempel fra noterne observeres følgende 0 satser af en vinkel. Histogram af observerede vinkler Sats x i Observation x 64.508 gon x 64.509 gon 3 x 3 64.5 gon 4 x 4 64.507 gon 5 x 5 64.50 gon 6 x 6 64.5 gon 7 x 7 64.57 gon 8 x 8 64.50 gon 9 x 9 64.54 gon 0 x 0 64.53 gon Dvs den observerede stikprøve, hvor n = 0, er x,x,...,x n,x n = 64.508,64.509,...,64.54,64.53. 5 Relativ frekvens / Tæthedsfunktion 0 50 00 50 64.506 64.508 64.50 x 64.5 64.54 64.56 64.58 9/37 Observerede vinkler 0/37
Estimator og estimat Eksempel - fortsat Som estimator for µ anvendes gennemsnittet X, der er defineret som X = n X i = n n (X + X + + X n ) i= Har vi observeret data kan vi estimere µ med x. Her udskiftes de stokastiske variable X i i X ud med de observerede xi, x = n n x i = n (x + x + + x n ) i= For eksemplet kan vi estimere µ med x: x = (64.508 + 64.509 + + 64.54 + 64.53) = 64.5 gon 0 Bemærk: X er en stokastisk variabel (en transformation af Xi erne), mens x er en realisation af X, X... X n X x... x n x /37 /37 Egenskaber ved X Sætning: Middelværdi og varians for X Antag X,...,X n er uafhængige stokastiske variable med fælles middelværdi µ og varians σ. Da gælder E( X) = µ og Var( X) = σ n. Hvis X i N (µ,σ ) gælder der ligeledes X N (µ, σ n ). Estimatoren X kaldes en central estimator for µ, idet E( X) = µ. 6 Egenskaber for X: Bevis Vi har antaget at X,...,X n er indbyrdes uafhængige og har samme middelværdi µ og samme varians σ : E(X i) = µ, Var(X i) = σ i =,...,n. Bemærk n Xi har middelværdi µ og varians σ. Dermed har n n middelværdi og varians X = n X + n X + + n Xn n µ + n µ + + n µ = n n µ = µ n σ + n σ + + n σ = n n σ = n σ Estimatet x kaldes et centralt estimat for µ. Bemærk: stort n giver lille varians/stor præcision! 3/37 Hvis yderligere de enkelte X i er normalfordelte gælder n Xi N( n µ, n σ ) og dermed er også X normalfordelt. (husk, sum af normalfordelte er selv normalfordelt). 4/37
Effekten af øget antal observationer Konfidensinterval for µ Fordelingen af gennemsnittet X for forskellige antal observationer (n). n = 0 n = 5 n = Gennemsnittet x er et estimat for µ. Hvor præcist er dette estimat? Vores modelantagelse siger at X,...,X n er uafhængige og identiske fordelte, X i N (µ,σ ) for i =,...,n. Desuden antages det her, at variansen σ er kendt. Fra teorien om sandsynlighedsintervaller har vi for X N (µ,σ ): P (µ,96σ X µ +,96σ) = 0,95. n = 0.0 0.5 03.0 03.5 04.0 Bemærk: Jo større n jo større sandsynlighed for at X ligger tæt på µ. Ovenstående antagelser medfører, at X N (µ, σ n ). Heraf følger, at for X gælder: P (µ,96 σ n X µ +,96 σ n ) = 0,95. 5/37 6/37 Konfidensinterval - fortsat Sandsynligheden for forrige slide kan nu omskrives, så µ isoleres : P ( P ( P ( P ( µ.96 σ n X µ +.96 σ n ) = 0.95 X.96 σ n µ X +.96 σ n ) = 0.95 X +.96 σ n µ X.96 σ n ) = 0.95 X.96 σ n µ X +.96 σ n ) = 0.95 Konfidensinterval - fortsat Vi kan nu definere et konfidensinterval Definition: Konfidensinterval Antag X,...,X n er en stikprøve af uafhænige observationer fra N (µ,σ ), og X er gennemsnittet af denne stikprøve. Da er et 95% konfidensinterval for µ givet ved X ±,96 σ n. Den sidste sandsynlighed har følgende fortolkning: eller Sandsynligheden for at X antager en værdi x så µ ligger i intervallet [ x.96 σ n ; x +.96 σ n ] er 0.95. Der er 95% sandsynlighed for at det stokastiske interval [ X.96 σ n ; X +.96 n σ ] indeholder µ. 7/37 7 Fortolkning: Vi er 95% sikre på, at intervallet X ±,96 σ n indeholder den sande middelværdi µ. Omvendt: for en given konkret realisation x ±,96 σ n vil der være sandsynlighed enten 0 eller for at µ er i intervallet. Konfidensintervallet har forskellig fortolkning før og og efter data er observeret! 8/37
Konfidensinterval - grafisk Konfidensinterval - fortolkning µ x +.96 σ n x x.96 σ n Antag vi observerer de n stokastiske variable k gange, dvs. vi får k observationsrækker med n tal. : x,, x,,..., x,n x : x,, x,,..., x,n x. k : x k,, x k,,..., x k,n x k µ Hermed fås k middelværdi estimater x,..., x k og k tilhørende konfidensintervaller. For k stor kan vi forvente at 95% af intervallerne indeholder µ. 9/37 30/37 Eksempel Praktisk brug af konfidensinterval Der foretages 0 gange 0 opmålinger af en længde på 8. m. Det antages, at der er en varians på observationerne på 0.0 m. Figuren viser de 0 konfidensintervaller for hver forsøgsrække. Meter 8.05 8.0 8.5 8.0 8.5 8.30 8.35 8 In praktisk brug vil vi ofte agere, som at den sande middelværdi er en af værdierne i 95% konfidensintervallet. Det kan meget vel være forkert for et givet observeret konfidensinterval. Men i det lange løb tager vi kun fejl i 5% af tilfældene. Vil vi have større sikkerhed kan vi benytte f.eks. 99% konfidensintervaller (skift faktoren.96 ud med.58). 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 0 Forsøgsrække 3/37 3/37
Eksempel - fortsat Ikke normalfordelte data - er alt tabt? Magisk resultat (centrale grænseværdisætning, CLT) Antag at vi kendte variansen i vores eksempel med 0 observerede vinkelmålinger. Det oplyses at σ = 0.00. Vi kan da bestemme et 95% konfidensinterval for µ, hvor x = 64.5 fra tidligere: [ 64.5.96 0.00 ; 64.5 +.96 0.00 ] = [64.5098 ; 64.5] 0 0 Per konstruktion ligger x altid midt i intervallet. Længden på intervallet er et udtryk for nøjagtigheden (kort interval=høj præcision) Centrale grænseværdisætning Hvis X,...,X n er uafhængige stokastiske variable med samme middelværdi µ og varians σ så gælder når n stor X N(µ, σ n ) Vores konstruktion af konfidensinterval benyttede blot, at X N(µ, σ n ) Dvs. selv for ikke-normalfordelte målinger vil konfidensintervallet stadig give god mening. 33/37 34/37 Illustration af CLT Histogram af første stikprøve n = 00 n=00 : x,, x,,..., x,n x : x,, x,,..., x,n x. k : x k,, x k,,..., x k,n x k hvor x i,j realisationer af Gamma-fordelte stokastiske variable. 9 Frequency 0 0 0 30 40 50 60 0.0 0. 0.4 0.6 0.8.0..4 35/37 Observationer langt fra normalfordelte! 36/37
Histogram af 500 gennemsnit x,... x 500 n = 5 n = 0 Histogram of barx Histogram of barx Frequency 0 0 40 60 80 Frequency 0 0 40 60 80 00 0 0.0 0. 0. 0.3 0.4 0.5 0.6 0. 0. 0.3 0.4 0.5 barx n = 30 n = 00 barx Histogram of barx Histogram of barx Frequency 0 0 40 60 80 Frequency 0 50 00 50 0.5 0.0 0.5 0.30 0.35 0.40 0.0 0.5 0.30 barx barx Gennemsnit af mange observationer er normalfordelt! 37/37 0