Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29

Binomial fordeling X 1, X 2,...,X n uafhængige stokastiske variable med fordeling givet ved P(X i = 1) = p P(X i = 0) = 1 p Sandsynlighedsfunktion for X = X 1 + X 2 + + X n ( ) ( ) n n f (x) = p x (1 p) n x n! x = 0, 1, 2,...,n = x x x!(n x)! Eksempler 0.0 0.2 0.4 0 1 2 3 0.00 0.10 0.20 0 2 4 6 8 10 Middelværdi np og varians np(1 p). 2/29

Normal fordeling Tæthedsfunktion for normalfordeling med middelværdi µ og varians σ 2 : f (x) = Ex µ = 3, σ 2 = 1 og µ = 1, σ 2 = 4 1 µ)2 exp( (x 2πσ 2 2σ 2 ) f(x) 0.0 0.1 0.2 0.3 0.4 5 0 5 x 3/29

Beregning af sandsynligheder Antag X normal-fordelt med EX = 4 og VarX = 9 P(X 2) = P(Z 2 4 9 ) = 0.2525 hvor Z = X 4 9 standardnormalfordelt Fraktil: x er 25.25 % fraktil hvis P(X < x) = 0.2525 Vha. tabel: P(Z < 0.67) = 0.2514 og x = 0.67 9 + 4 = 1.99 4/29

Fortolkning af σ Chebyshev: P(µ kσ < X < µ + kσ) 1 1 k 2 Fordel: benytter kun viden om µ og σ ikke hvad f (x) konkret er. Ulempe: giver kun øvre grænse for sandsynlighed. Ex (opgave 5.17 side 151) X binomialfordelt med n = 5 og p = 0.7. µ = 5 0.7 = 3.5 σ = 5 0.7 0.3 = 1.025 P(3.5 2 1.025 < X < 3.5+2 1.025) = P(1.45 < X < 5.55) 75% 5/29

Normal fordeling Antag µ = 4 og σ 2 = 9. Hvilke værdier forventer man at X antager? Generelt for normalfordeling: P(µ 2σ < X < µ + 2σ) = P(2 < Z < 2) = 95.44% P(µ 3σ < X < µ + 3σ) = P(3 < Z < 3) = 99.73% Dvs.: med stor sandsynlighed (95 %) vil X ligge mellem 2 og 10 og (næsten) med sikkerhed (99.73 %) vil X ligge mellem 5 og 13. 6/29

Population Population: den totale mængde af mulige observationer for et givet eksperiment. Endelig (og konkret) population: højder for alle personer i dette lokale. Uendelig (og abstrakt) population: resultatet af uendelig mange kast med en mønt. Uendelig (og abstrakt) population: alle de (i princippet) mulige resultater af ph målinger for en jordprøve. Hvis fordelingen af alle observationer i en population kan beskrives ved en sandsynlighedsfunktion/tæthed f (x) (f.eks. binomial eller normal) kan vi referere til f (x) som en population. population = f (x) 7/29

Stikprøve (eng.: sample) Stikprøve: endelig delmængde af population. Ex: population højder for alle personer i USA (i praksis uendelig). Stikprøve: højder for 1000 tilfældigt udvalgte amerikanere. Ex: 3 gentagelser af absorptionsmålinger for en given protein-opløsning. 8/29

Repræsentativ stikprøve Vigtigt at en stikprøve er repræsentativ. Uheldige eksempler fra det virkelige liv: laboranter udtog de største kirsebærblomster eller snegle i forsøg vedr. resistens for nattefrost. Definition Hvis X 1,...,X n er uafhængige observationer fra den samme population f (x) kaldes X 1,...,X n en tilfældig stikprøve fra f (x) (og derfor f (x 1, x 2,...,x n ) = f (x 1 )f (x 2 ) f (x n )) 9/29

Deskriptive størrelser: center for en population Deskriptive størrelser Parameter for population f (x) Middelværdi: µ = E(X) X = 1 n n i=1 X i Median X : tal så halvdelen af stikprøve 50 % fraktil x 0.50 : over og halvdelen under P(X x 0.50 ) = 50% Modus: hyppigst forekommende værdi x så f (x) maksimal NB: alle de deskriptive størrelser er stokastiske variable. Den observerede værdi af X baseret på x 1,...,x n benævnes x. 10/29

Deskriptive størrelser: populationens variabilitet Deskriptive størrelse Parameter for population f (x) Varians σ 2 = E(X µ) 2 S 2 = 1 n n 1 i=1 (X i X) 2 Standardafvigelse σ n S = i=1 (X i X) 2 1 n 1 IQR: forskel mellem x 0.75 x 0.25 75% og 25 % empiriske fraktil Empirisk 25 % / 75 % fraktil: værdi som 25 % / 75 % af stikprøven er mindre end eller lig med. SPSS: Alle deskriptive størrelser kan udregnes via Analyse Descriptive Statistics Frequencies (tryk statistics for at vælge hvilke størrelser der skal udregnes) 11/29

Empirisk middelværdi, varians, median, IQR Deskriptive størrelser for rivet data: mean var median IQR 6.73 0.003 6.73 0.065 Ændrer en værdi 6.62 til 5 (f.eks. tastefejl): mean var median IQR 6.68 0.09 6.73 0.065 Eksempler på at median og IQR er robuste, og at empirisk middelværdi og varians ikke er robuste (dvs. er følsomme overfor outliers). 12/29

Grafiske metoder Fordelingens form: Histogram (kontinuert) Histogram of x Density 0.0 0.1 0.2 0.3 0.4 0.5 0.6 2 1 0 1 x SPSS: Vælg Histogram under Graphs Chart Builder 13/29

Grafiske metoder (fortsat) Fordelingens form: Søjle diagram (diskret): 0.0 0.1 0.2 0.3 0.4 0 1 2 3 14/29

Boxplot Specielt velegnet til sammenligning af flere stikprøver: station 1: 5.03,13.7,10.73,11.4,8.6,2.2,4.25,15.04,4.98,11.91,8.13,26.85, 17.66,22.8,1.13,1.69 station 2: 2.8,4.67,6.89,7.72,7.03,7.33,2.81,1.33,3.32, 1.23,2.13,2.19 5 10 20 1 2 Box: 25 %, 50 % (median) og 75 % fraktiler Whiskers (yderste vandrette streger): mest ekstreme observationer som er indenfor 25 % fraktil - 1.5 IQR og 75 % fraktil + 1.5 IQR. (dvs. mest ekstreme observationer som ikke er outliers ). 15/29

Fortolkning af whiskers 25 % og 75 % fraktiler for standardnormalfordeling Z : -0.67 og 0.67 og IQR=1.35. (Teoretiske) whiskers: -0.67-1.5 IQR = -2.70 og 0.67+1.5 IQR =2.70 P( 0.67 1.5IQR < Z < 0.67 + 1.5IQR) = P( 2.70 < Z < 2.70) = 99.3% 25 % og 75 % fraktiler for (µ, σ 2 ) normalfordeling X: 0.67σ + µ og 0.67σ + µ og IQR=1.35σ. (Teoretiske) whiskers: 2.70σ + µ og 2.70σ + µ P( 2.70σ + µ < X < 2.70σ + µ) = 99.3% Dvs. meget lille sandsynlighed for observationer udenfor whiskers for normalfordelt stikprøve ( outliers ) 16/29

Eksempler på Boxplot Boxplot for normalfordelte stikprøver med 10, 100 og 10000 observationer: 4 2 0 2 4 1 2 3 SPSS: Vælg Boxplot under Graphs Chart Builder 17/29

Empiriske fraktiler (Ex 8.3 nicotine data) 40 observationer: 1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.24 1.58 2.03 1.70 2.17 2.55 2.11 1.86 1.90 1.68 1.51 1.64 0.72 1.69 1.85 1.82 1.79 2.46 1.88 2.08 1.67 1.37 1.93 1.40 1.64 2.09 1.75 1.63 2.37 1.75 1.69 Sorteret: 0.72 0.85 1.09 1.24 1.37 1.40 1.47 1.51 1.58 1.63 1.64 1.64 1.67 1.68 1.69 1.69 1.70 1.74 1.75 1.75 1.79 1.79 1.82 1.85 1.86 1.88 1.90 1.92 1.93 1.97 2.03 2.08 2.09 2.11 2.17 2.28 2.31 2.37 2.46 2.55 Dvs. 5 observationer 0.72 0.85 1.09 1.24 1.37 er mindre end eller lig 1.37. Dvs. 1.37 er estimat for 5/40=12.5-% fraktil. Generelt: x (1) < x (2) < x (3) < < x (n) sorteret stikprøve. x (i) estimat for i/n fraktil: andel af obs x (i) er i/n. 18/29

Empiriske fraktiler x (i) =observation nr. i i den ordnede stikprøve (dvs. den i te mindste). Så er i n lig med andelen af observationer der er mindre end eller lig med x (i), dvs. F(x (i) ) = i n, hvor F er fordelingsfunktionen (CDF) for observationerne. Hvis nu observationerne er normalfordelte N(µ, σ 2 ), så er F(x) = P(X x) = P( X µ σ x µ σ ) = P(Z x µ σ ) = Φ(x µ σ ), hvor vi har kaldt standardnormalfordelingsfunktionen (den i tabel A.3) for Φ. 19/29

Sammenligning af fraktiler Det vil altså sige eller i n = F(x (i)) = Φ( x (i) µ ) σ Φ 1 ( i n ) = x (i) µ. σ ved invers transformation med Φ 1 ( ). Kalder vi nu q µ,σ 2(i/n) = x (i) q 0,1 (i/n) = Φ 1 ( i n ) har vi q 0,1 (i/n) = q µ,σ 2(i/n) µ. σ Vi får så det såkaldte QQ plot. 20/29

QQ plot: check af normalfordeling Hvis stikprøven er fra en normalfordeling bør x (i) være tæt på teoretisk i/n-fraktil q µ,σ 2(i/n) for normalfordeling hvor Dvs. punkter q µ,σ 2(i/n) = q 0,1 (i/n)σ + µ (q 0,1 (i/n), x (i) ) (q 0,1 (i/n), q µ,σ 2(i/n)) bør ligge på ret linie med skæring µ og hælding σ. NB: i bog bruges f i = (i 3/8)/(n + 1/4) i stedet for i/n. 21/29

Empiriske fraktiler (genforklaret) Reduceret nicotine data: 1.09 1.47 1.74 1.79 1.92 1.97 2.28 2.31 Sorteret data x (1),...,x (8) og tilsvarende sandsynligheder f i = (i 3/8)/(8 + 1/4) i/8 x (i) 1.09 1.47 1.74 1.79 1.92 1.97 2.28 2.31 f i 0.08 0.20 0.32 0.44 0.56 0.68 0.80 0.92 q (0,1) (f i ) -1.43-0.85-0.47-0.15 0.15 0.47 0.85 1.43 Ide: hvis normalfordelt (µ, σ 2 ) stikprøve skal x (i) q (µ,σ 2 )(f i ) og Dvs. q (µ,σ 2 )(f i ) = σq (0,1) (f i ) + µ x (i) σq (0,1) (f i ) + µ 22/29

QQ-plot x_(i) 1.2 1.4 1.6 1.8 2.0 2.2 1.5 1.0 0.5 0.0 0.5 1.0 1.5 q(i/n) SPSS:Analyze Descriptive Statistics Q-Q Plots Bemærk: i SPSS bruges ikke standard normalfordelingen på x-aksen, men normalfordelingen med samme middelværdi og varians som data. 23/29

Nicotine data Normal Q Q Plot Sample Quantiles 1.0 1.5 2.0 2.5 2 1 0 1 2 Theoretical Quantiles 24/29

Tre typer af plot for nicotine data Histogram of nicotine 1.0 1.5 2.0 2.5 Frequency 0 2 4 6 8 10 12 1.0 1.5 2.0 2.5 nicotine Normal Q Q Plot Sample Quantiles 1.0 1.5 2.0 2.5 2 1 0 1 2 Theoretical Quantiles 25/29

Histogram og QQ-plot Eksempel på afhængighed af valg af intervaller: FALSE FALSE Normal Q Q Plot Density 0.00 0.05 0.10 0.15 0.20 Density 0.00 0.05 0.10 0.15 0.20 Sample Quantiles 2 0 2 4 2 0 2 4 6 x 4 2 0 2 4 6 x 2 1 0 1 2 Theoretical Quantiles QQ-plot er fri for subjektive valg og afslører at fordelingen ikke er normal! 26/29

Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve) Sample 1: 0.9707727 1.8184993-0.5679272 0.5848434 0.4286343-2.0832521 0.9132965 0.3623205-0.0942689-2.4659896 2.6249701 1.4474366-1.3709333 0.1721564-0.5703357-0.1290553-0.4665710-0.3825574 0.4134650 0.4252125 Sample 2: 0.32893797 1.47024795 0.03953137 0.68587009 1.04228253-0.36957645 0.55702599 1.54256912 0.42377482 0.53957533-0.17476243 0.50346420 1.06354010-0.33748767-0.24773729 0.17813650 0.74056791-2.72659878-0.20659909 0.86055465. Sample 10: 27/29

Empirisk middelværdi for alle stikprøver (gennemsnit af gennemsnit) Histogram of barx Frequency 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.2 0.0 0.1 0.2 0.3 0.4 barx 28/29

Teoretisk fordeling af X E X = E 1 n (X 1 + + X n ) = 1 n nµ = µ Var X = Var 1 n (X 1 + + X n ) = 1 n 2nσ2 = σ 2 /n Normalfordelt stikprøve X normalfordelt. Ex: antag X gennemsnit af 20 normalfordelte variable med middelværdi 5 og varians 2. Hvad er sandsynligheden for, at P( X > 5.5)? 29/29