Normal fordeling Tæthedsfunktion for normalfordeling med middelværdi µ og varians σ 2 : Program (8.15-10): f() = 1 µ)2 ep( ( 2πσ 2 2σ 2 ) E µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4 1. vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. populationer, stikprøver, opsummering af data vha. deskriptive størrelser og grafer. f() 0.0 0.1 0.2 0.3 0.4 5 0 5 1 3 Binomial fordeling X 1,X 2,...,X n uafhængige stokastiske variable med fordeling givet ved P(X i = 1) = p P(X i = 0) = 1 p Sandsynlighedsfunktion for X = X 1 + X 2 + + X n ( ) n f() = p (1 p) n = 0,1,2,...,n Eksempler ( ) n = n!!(n )! Beregning af sandsynligheder Antag X normal-fordelt med EX = 4 og V arx = 9 hvor P(X 2) = pnorm(2,mean=4,sd=sqrt(9)) = P(Z 2 4 9 ) = 0.2525 Z = X 4 9 Fraktil: 25.25 % fraktil hvis standardnormalfordelt P(X < ) = 0.2525 0.0 0.2 0.4 0 1 2 3 0.00 0.10 0.20 0 2 4 6 8 10 Vha. R: Vha. tabel: = qnorm(0.2525,mean=4,sd=sqrt(9)) = 2 Middelværdi np og varians np(1 p). 2 P(Z < 0.67) = 0.2514 og = 0.67 9 + 4 = 1.99 4
Fortolkning af σ Population Chebyshev: P(µ kσ < X < µ + kσ) 1 1 k 2 Population: den totale mængde af mulige observationer for et givet eksperiment. Fordel: benytter kun viden om µ og σ ikke hvad f() konkret er. Ulempe: giver kun øvre grænse for sandsynlighed. E (opgave 17 side 125) X binomialfordelt med n = 5 og p = 0.7. µ = 5 0.7 = 3.5 σ = 5 0.7 0.3 = 1.025 P(3.5 2 1.025 < X < 3.5 + 2 1.025) = P(1.45 < X < 5.55) 75% Eksakt værdi for sandsynlighed: P(1.45 < X < 5.55) = pbinom(5,5,0.7)- pbinom(1,5,0.7) = sum(dbinom(2:5,5,0.7)) = 0.97 5 Endelig (og konkret) population): højder for alle personer i dette lokale. Uendelig (og abstrakt) population: resultatet af uendelig mange kast med en mønt. Uendelig (og abstrakt) population: alle de (i princippet) mulige resultater af ph målinger for en jordprøve. Hvis fordelingen af alle observationer i en population kan beskrives ved en sandsynlighedsfunktion/tæthed f() (f.eks. binomial eller normal) kan vi referere til f() som en population. population = f() 7 Normal fordeling: antag µ = 4 og σ 2 = 9. Hvilke værdier kan X antage? Generelt for normalfordeling: P(µ 2σ < X < µ + 2σ) = P(2 < Z < 2) = 95.44% P(µ 3σ < X < µ + 3σ) = P(3 < Z < 3) = 99.73% Dvs.: med stor sandsynlighed (95 %) vil X ligge mellem 2 og 10 og (næsten) med sikkerhed (99.73 %) vil X ligge mellem 5 og 13. Stikprøve Stikprøve: endelig delmængde af population. E: population højder for alle personer i USA (i praksis uendelig). Stikprøve: højder for 1000 tilfældigt udvalgte amerikanere. E: 3 gentagelser af absorptionsmålinger for en given protein-opløsning. 6 8
Repræsentativ stikprøve Vigtigt at stikprøve er repræsentativ. Uheldige eksempler fra det virkelige liv: laboranter udtog de største kirsebærblomster eller snegle i forsøg vedr. resistens for nattefrost og selektion for varianshomogenitet. Definition Hvis X 1,...,X n er uafhængige observationer fra den samme population f() kaldes X 1,...,X n en tilfældig stikprøve fra f() [ og NB: i det diskrete tilfælde er f( 1, 2,..., n ) = f( 1 )f( 2 ) f( n ) Deskriptive størrelser: populationens variabilitet Deskriptive størrelse Parameter for population f Empirisk varians S 2 = 1 n n 1 i=1 (X i X) 2 σ 2 = E(X µ) 2 1 n Empirisk standardafvigelse S = n 1 i=1 (X i X) 2 σ IQR: forskel mellem 75% og 25 % empiriske fraktil 0.75 0.25 Empirisk 25 % / 75 % fraktil: værdi som 25 % / 75 % af stikprøven er mindre end eller lig med. ] f( 1, 2,..., n ) = P(X 1 = 1,X 2 = 2,...,X n = n ) 9 11 Udregning i R Deskriptive størrelser: center for en population Deskriptive størrelse Parameter for population f() Empirisk middelværdi X = 1 n n i=1 X i µ = E(X) Median X : tal så halvdelen af stikprøve 50 % fraktil 0.50 : P(X 0.50 ) = 50% over og halvdelen under Mode: hyppigst forekommende værdi så f() maksimal NB: alle de deskriptive størrelser er stokastiske variable. Den observerede værdi af X baseret på 1,..., n benævnes. > =rnorm(20) #tilfaeldig stikproeve fra standardnormalfordeling > [1] -0.53555014-1.54128927 1.25245599 2.76781967 0.61877024 0.5112 [7] 2.14071452-0.50929095-1.09815316 0.71531522-2.67094898-0.0975 [13] 1.02426702 0.43211292 0.27912238 0.44593704-0.17448835 2.3141 [19] 0.41109679-0.52502343 > mean() [1] 0.2880368 > var() [1] 1.680162 > sd() [1] 1.296211 10 12
> median() [1] 0.4216049 > summary() Min. 1st Qu. Median Mean 3rd Qu. Ma. -2.6710-0.5132 0.4216 0.2880 0.7926 2.7680 > IQR=0.7926-(-0.5132) > IQR [1] 1.3058 NB: mode ikke veldefineret for stikprøve fra normalfordeling da alle værdier forskellige. Kun nyttig for diskrete data. > =rbinom(20,5,0.2) > freq=summary(factor())/20 #udregner observerede frekvenser > freq 0 1 2 3 0.40 0.35 0.20 0.05 > par(ce=2) #stoerre typer i plot > barplot(freq,col="red") > z=c(0:5) > dbinom(z,5,0.2) [1] 0.32768 0.40960 0.20480 0.05120 0.00640 0.00032 0.0 0.1 0.2 0.3 0.4 0 1 2 3 13 15 Grafiske metoder Fordelingens form: histogram (kontinuert) eller søjle-diagram (diskret) > =rnorm(20) > [1] 0.04485373-0.31368528 0.24570060 0.42085077 1.41427529-1.5297 [7] -0.04056843 0.86674329-0.41325025 0.88217101 0.11099875 0.9540... > hist(,col="yellow",probability=t) > z=seq(-3,3,len=100) > lines(z,dnorm(z),col="blue") #plot af f() Density 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Histogram of Faktorer i R Hvis vi skriver factor() angiver vi, at skal opfattes som en faktor/kategorisk variabel/grupperings-variabel. Dermed giver summary(factor()) anledning til en optælling af, hvor mange observationer der er for hvert niveau svarende til de forskellige værdier af. Ordren plot(factor()) giver anledning til et søjleplot. 2 1 0 1 14 16
Boplot: Specielt velegnet til sammenligning af flere stikprøver: > station1=c(5.03,13.7,10.73,11.4,8.6,2.2,4.25,15.04,4.98,11.91,8.13,26. > station2=c(2.8,4.67,6.89,7.72,7.03,7.33,2.81,1.33,3.32,1.23,2.13,2.19) > boplot(station1,station2) Fortolkning af whiskers 25 % og 75 % fraktiler for standardnormalfordeling Z : -0.67 og 0.67 og IQR=1.35. (Teoretiske) whiskers: -0.67-1.5 IQR = -2.70 og 0.67+1.5 IQR =2.70 P( 0.67 1.5IQR < Z < 0.67 + 1.5IQR) = P( 2.70 < Z < 2.70) = 99.3% 5 10 20 1 2 25 % og 75 % fraktiler for (µ,σ 2 ) normalfordeling X: 0.67σ + µ og 0.67σ + µ og IQR=1.35σ. (Teoretiske) whiskers: 2.70σ + µ og 2.70σ + µ Bo: 25 %, 50 % (median) og 75 % fraktiler Whiskers (yderste vandrette streger): mindste observation som er større end 25 % fraktil - 1.5 IQR og største observation som er mindre end 75 % fraktil + 1.5 IQR (dvs. mest ekstreme observationer som ikke er outliers ). 17 P( 2.70σ + µ < X < 2.70σ + µ) = 99.3% Dvs. meget lille sandsynlighed for observationer udenfor whiskers for normalfordelt stikprøve ( outliers ) 19 Boplot i R: alternativ > boplot(~factor(y)) Boplot for grupper af observationer i hvor grupper er givet ved værdierne i y. Empiriske fraktiler > nicotine=scan("../data/ascii files/nicotine.tt") Read 40 items > nicotine [1] 1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.24 1.58 2.03 1.70 2. [16] 2.11 1.86 1.90 1.68 1.51 1.64 0.72 1.69 1.85 1.82 1.79 2.46 1.88 2. [31] 1.37 1.93 1.40 1.64 2.09 1.75 1.63 2.37 1.75 1.69 > sort(nicotine) [1] 0.72 0.85 1.09 1.24 1.37 1.40 1.47 1.51 1.58 1.63 1.64 1.64 1.67 1. [16] 1.69 1.70 1.74 1.75 1.75 1.79 1.79 1.82 1.85 1.86 1.88 1.90 1.92 1. [31] 2.03 2.08 2.09 2.11 2.17 2.28 2.31 2.37 2.46 2.55 5 observationer 0.72 0.85 1.09 1.24 1.37 er mindre end eller lig 1.37. Dvs. 1.37 estimat af 5/40=12.5 % fraktil. 18 Generelt: (1) < (2) < (3) < < (n) sorteret stikprøve. (i) estimat for i/n fraktil: andel af obs (i) er i/n. 20
Tre typer af plot for nicotine data QQ plot: check af normalfordeling Hvis stikpøve fra normalfordeling bør (i) være tæt på teoretisk i/n-fraktil q µ,σ 2(i/n) for normalfordeling hvor q µ,σ 2(i/n) = q 0,1 (i/n)σ + µ Frequency 0 2 4 6 8 10 12 Histogram of nicotine Dvs. punkter (q 0,1 (i/n), (i) ) (q 0,1 (i/n),q µ,σ 2(i/n)) bør ligge på ret linie med skæring µ og hælding σ. NB: i bog bruges f i = (i 3/8)/(n + 1/4) i stedet for i/n. Sample Quantiles Normal Q Q Plot nicotine 2 1 0 1 2 Theoretical Quantiles 21 23 Fordeling af X > probabilities=c(1:40)/40 > theoretquant=qnorm(probabilities) > plot(theoretquant,sort(nicotine)) > #vha funktion qqnorm: > qqnorm(nicotine) > qqline(nicotine) Sample Quantiles Normal Q Q Plot 2 1 0 1 2 Theoretical Quantiles 22 Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. E (normalfordelt stikprøve) > sample1 [1] 0.9707727 1.8184993-0.5679272 0.5848434 0.4286343-2.0832521 [7] 0.9132965 0.3623205-0.0942689-2.4659896 2.6249701 1.4474366 [13] -1.3709333 0.1721564-0.5703357-0.1290553-0.4665710-0.3825574 [19] 0.4134650 0.4252125 > sample2=rnorm(20) > sample2 [1] 0.32893797 1.47024795 0.03953137 0.68587009 1.04228253-0.3695 [7] 0.55702599 1.54256912 0.42377482 0.53957533-0.17476243 0.5034 [13] 1.06354010-0.33748767-0.24773729 0.17813650 0.74056791-2.7265 [19] -0.20659909 0.86055465 > sample3=rnorm(20)... > sample10=rnorm(20) 24
> bar=rep(0,10) > bar[1]=mean(sample1) #beregner empirisk middelvaerdi for alle stikpro... > bar[10]=mean(sample10) > bar [1] 0.10153585 0.29566584 0.09684480 0.37516244 0.11594793 0.1057 [7] 0.07050678-0.16544810-0.05956582 0.02905803 > hist(bar) Frequency 0.0 0.5 3.0 Histogram of bar Udregning vha for-loop # vha for loop bar=rep(0,10) for (i in 1:10){ sample=rnorm(20) bar[i]=mean(sample) } 0.2 0.0 0.1 0.2 0.3 0.4 bar 25 27 Teoretisk fordeling af X E X = E 1 n (X 1 + + X n ) = 1 n nµ = µ V ar X = V ar 1 n (X 1 + + X n ) = 1 n 2 nσ2 = σ 2 /n Normalfordelt stikprøve X normalfordelt. E: antag X gennemsnit af 20 normalfordelte variable med middelværdi 5 og varians 2. Hvad er sandsynligheden for, at P( X > 5.5)? 26