Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Relaterede dokumenter
Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Produkt og marked - matematiske og statistiske metoder

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Normalfordelingen og Stikprøvefordelinger

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Definition. Definitioner

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Note om Monte Carlo metoden

Uge 10 Teoretisk Statistik 1. marts 2004

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Kvantitative Metoder 1 - Forår 2007

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår Dagens program

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Elementær sandsynlighedsregning

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Højde af kvinder 2 / 18

Produkt og marked - matematiske og statistiske metoder

Elementær sandsynlighedsregning

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Kvantitative Metoder 1 - Efterår Dagens program

Hvorfor er det lige at vi skal lære det her?

Hvorfor er normalfordelingen så normal?

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Kapitel 4 Sandsynlighed og statistiske modeller

Tema. Dagens tema: Indfør centrale statistiske begreber.

StatDataN: Plot af data

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Løsning eksamen d. 15. december 2008

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Nanostatistik: Test af hypotese

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Kvantitative Metoder 1 - Forår Dagens program

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

Nanostatistik: Opgaver

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Løsninger til kapitel 6

Sandsynlighedsregning

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistiske modeller

Løsning til eksamen d.27 Maj 2010

StatDataN: Test af hypotese

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Kapitel 4 Sandsynlighed og statistiske modeller

Lidt om fordelinger, afledt af normalfordelingen

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Løsning til eksaminen d. 14. december 2009

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Løsning til eksaminen d. 29. maj 2009

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Kvantitative Metoder 1 - Forår Dagens program

MM501 forelæsningsslides

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

4 Oversigt over kapitel 4

Nanostatistik: Opgavebesvarelser

Karakteristiske funktioner og Den Centrale Grænseværdisætning


INSTITUT FOR MATEMATISKE FAG c

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

En Introduktion til SAS. Kapitel 5.

Transkript:

Normal fordeling Tæthedsfunktion for normalfordeling med middelværdi µ og varians σ 2 : Program (8.15-10): f() = 1 µ)2 ep( ( 2πσ 2 2σ 2 ) E µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4 1. vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. populationer, stikprøver, opsummering af data vha. deskriptive størrelser og grafer. f() 0.0 0.1 0.2 0.3 0.4 5 0 5 1 3 Binomial fordeling X 1,X 2,...,X n uafhængige stokastiske variable med fordeling givet ved P(X i = 1) = p P(X i = 0) = 1 p Sandsynlighedsfunktion for X = X 1 + X 2 + + X n ( ) n f() = p (1 p) n = 0,1,2,...,n Eksempler ( ) n = n!!(n )! Beregning af sandsynligheder Antag X normal-fordelt med EX = 4 og V arx = 9 hvor P(X 2) = pnorm(2,mean=4,sd=sqrt(9)) = P(Z 2 4 9 ) = 0.2525 Z = X 4 9 Fraktil: 25.25 % fraktil hvis standardnormalfordelt P(X < ) = 0.2525 0.0 0.2 0.4 0 1 2 3 0.00 0.10 0.20 0 2 4 6 8 10 Vha. R: Vha. tabel: = qnorm(0.2525,mean=4,sd=sqrt(9)) = 2 Middelværdi np og varians np(1 p). 2 P(Z < 0.67) = 0.2514 og = 0.67 9 + 4 = 1.99 4

Fortolkning af σ Population Chebyshev: P(µ kσ < X < µ + kσ) 1 1 k 2 Population: den totale mængde af mulige observationer for et givet eksperiment. Fordel: benytter kun viden om µ og σ ikke hvad f() konkret er. Ulempe: giver kun øvre grænse for sandsynlighed. E (opgave 17 side 125) X binomialfordelt med n = 5 og p = 0.7. µ = 5 0.7 = 3.5 σ = 5 0.7 0.3 = 1.025 P(3.5 2 1.025 < X < 3.5 + 2 1.025) = P(1.45 < X < 5.55) 75% Eksakt værdi for sandsynlighed: P(1.45 < X < 5.55) = pbinom(5,5,0.7)- pbinom(1,5,0.7) = sum(dbinom(2:5,5,0.7)) = 0.97 5 Endelig (og konkret) population): højder for alle personer i dette lokale. Uendelig (og abstrakt) population: resultatet af uendelig mange kast med en mønt. Uendelig (og abstrakt) population: alle de (i princippet) mulige resultater af ph målinger for en jordprøve. Hvis fordelingen af alle observationer i en population kan beskrives ved en sandsynlighedsfunktion/tæthed f() (f.eks. binomial eller normal) kan vi referere til f() som en population. population = f() 7 Normal fordeling: antag µ = 4 og σ 2 = 9. Hvilke værdier kan X antage? Generelt for normalfordeling: P(µ 2σ < X < µ + 2σ) = P(2 < Z < 2) = 95.44% P(µ 3σ < X < µ + 3σ) = P(3 < Z < 3) = 99.73% Dvs.: med stor sandsynlighed (95 %) vil X ligge mellem 2 og 10 og (næsten) med sikkerhed (99.73 %) vil X ligge mellem 5 og 13. Stikprøve Stikprøve: endelig delmængde af population. E: population højder for alle personer i USA (i praksis uendelig). Stikprøve: højder for 1000 tilfældigt udvalgte amerikanere. E: 3 gentagelser af absorptionsmålinger for en given protein-opløsning. 6 8

Repræsentativ stikprøve Vigtigt at stikprøve er repræsentativ. Uheldige eksempler fra det virkelige liv: laboranter udtog de største kirsebærblomster eller snegle i forsøg vedr. resistens for nattefrost og selektion for varianshomogenitet. Definition Hvis X 1,...,X n er uafhængige observationer fra den samme population f() kaldes X 1,...,X n en tilfældig stikprøve fra f() [ og NB: i det diskrete tilfælde er f( 1, 2,..., n ) = f( 1 )f( 2 ) f( n ) Deskriptive størrelser: populationens variabilitet Deskriptive størrelse Parameter for population f Empirisk varians S 2 = 1 n n 1 i=1 (X i X) 2 σ 2 = E(X µ) 2 1 n Empirisk standardafvigelse S = n 1 i=1 (X i X) 2 σ IQR: forskel mellem 75% og 25 % empiriske fraktil 0.75 0.25 Empirisk 25 % / 75 % fraktil: værdi som 25 % / 75 % af stikprøven er mindre end eller lig med. ] f( 1, 2,..., n ) = P(X 1 = 1,X 2 = 2,...,X n = n ) 9 11 Udregning i R Deskriptive størrelser: center for en population Deskriptive størrelse Parameter for population f() Empirisk middelværdi X = 1 n n i=1 X i µ = E(X) Median X : tal så halvdelen af stikprøve 50 % fraktil 0.50 : P(X 0.50 ) = 50% over og halvdelen under Mode: hyppigst forekommende værdi så f() maksimal NB: alle de deskriptive størrelser er stokastiske variable. Den observerede værdi af X baseret på 1,..., n benævnes. > =rnorm(20) #tilfaeldig stikproeve fra standardnormalfordeling > [1] -0.53555014-1.54128927 1.25245599 2.76781967 0.61877024 0.5112 [7] 2.14071452-0.50929095-1.09815316 0.71531522-2.67094898-0.0975 [13] 1.02426702 0.43211292 0.27912238 0.44593704-0.17448835 2.3141 [19] 0.41109679-0.52502343 > mean() [1] 0.2880368 > var() [1] 1.680162 > sd() [1] 1.296211 10 12

> median() [1] 0.4216049 > summary() Min. 1st Qu. Median Mean 3rd Qu. Ma. -2.6710-0.5132 0.4216 0.2880 0.7926 2.7680 > IQR=0.7926-(-0.5132) > IQR [1] 1.3058 NB: mode ikke veldefineret for stikprøve fra normalfordeling da alle værdier forskellige. Kun nyttig for diskrete data. > =rbinom(20,5,0.2) > freq=summary(factor())/20 #udregner observerede frekvenser > freq 0 1 2 3 0.40 0.35 0.20 0.05 > par(ce=2) #stoerre typer i plot > barplot(freq,col="red") > z=c(0:5) > dbinom(z,5,0.2) [1] 0.32768 0.40960 0.20480 0.05120 0.00640 0.00032 0.0 0.1 0.2 0.3 0.4 0 1 2 3 13 15 Grafiske metoder Fordelingens form: histogram (kontinuert) eller søjle-diagram (diskret) > =rnorm(20) > [1] 0.04485373-0.31368528 0.24570060 0.42085077 1.41427529-1.5297 [7] -0.04056843 0.86674329-0.41325025 0.88217101 0.11099875 0.9540... > hist(,col="yellow",probability=t) > z=seq(-3,3,len=100) > lines(z,dnorm(z),col="blue") #plot af f() Density 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Histogram of Faktorer i R Hvis vi skriver factor() angiver vi, at skal opfattes som en faktor/kategorisk variabel/grupperings-variabel. Dermed giver summary(factor()) anledning til en optælling af, hvor mange observationer der er for hvert niveau svarende til de forskellige værdier af. Ordren plot(factor()) giver anledning til et søjleplot. 2 1 0 1 14 16

Boplot: Specielt velegnet til sammenligning af flere stikprøver: > station1=c(5.03,13.7,10.73,11.4,8.6,2.2,4.25,15.04,4.98,11.91,8.13,26. > station2=c(2.8,4.67,6.89,7.72,7.03,7.33,2.81,1.33,3.32,1.23,2.13,2.19) > boplot(station1,station2) Fortolkning af whiskers 25 % og 75 % fraktiler for standardnormalfordeling Z : -0.67 og 0.67 og IQR=1.35. (Teoretiske) whiskers: -0.67-1.5 IQR = -2.70 og 0.67+1.5 IQR =2.70 P( 0.67 1.5IQR < Z < 0.67 + 1.5IQR) = P( 2.70 < Z < 2.70) = 99.3% 5 10 20 1 2 25 % og 75 % fraktiler for (µ,σ 2 ) normalfordeling X: 0.67σ + µ og 0.67σ + µ og IQR=1.35σ. (Teoretiske) whiskers: 2.70σ + µ og 2.70σ + µ Bo: 25 %, 50 % (median) og 75 % fraktiler Whiskers (yderste vandrette streger): mindste observation som er større end 25 % fraktil - 1.5 IQR og største observation som er mindre end 75 % fraktil + 1.5 IQR (dvs. mest ekstreme observationer som ikke er outliers ). 17 P( 2.70σ + µ < X < 2.70σ + µ) = 99.3% Dvs. meget lille sandsynlighed for observationer udenfor whiskers for normalfordelt stikprøve ( outliers ) 19 Boplot i R: alternativ > boplot(~factor(y)) Boplot for grupper af observationer i hvor grupper er givet ved værdierne i y. Empiriske fraktiler > nicotine=scan("../data/ascii files/nicotine.tt") Read 40 items > nicotine [1] 1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.24 1.58 2.03 1.70 2. [16] 2.11 1.86 1.90 1.68 1.51 1.64 0.72 1.69 1.85 1.82 1.79 2.46 1.88 2. [31] 1.37 1.93 1.40 1.64 2.09 1.75 1.63 2.37 1.75 1.69 > sort(nicotine) [1] 0.72 0.85 1.09 1.24 1.37 1.40 1.47 1.51 1.58 1.63 1.64 1.64 1.67 1. [16] 1.69 1.70 1.74 1.75 1.75 1.79 1.79 1.82 1.85 1.86 1.88 1.90 1.92 1. [31] 2.03 2.08 2.09 2.11 2.17 2.28 2.31 2.37 2.46 2.55 5 observationer 0.72 0.85 1.09 1.24 1.37 er mindre end eller lig 1.37. Dvs. 1.37 estimat af 5/40=12.5 % fraktil. 18 Generelt: (1) < (2) < (3) < < (n) sorteret stikprøve. (i) estimat for i/n fraktil: andel af obs (i) er i/n. 20

Tre typer af plot for nicotine data QQ plot: check af normalfordeling Hvis stikpøve fra normalfordeling bør (i) være tæt på teoretisk i/n-fraktil q µ,σ 2(i/n) for normalfordeling hvor q µ,σ 2(i/n) = q 0,1 (i/n)σ + µ Frequency 0 2 4 6 8 10 12 Histogram of nicotine Dvs. punkter (q 0,1 (i/n), (i) ) (q 0,1 (i/n),q µ,σ 2(i/n)) bør ligge på ret linie med skæring µ og hælding σ. NB: i bog bruges f i = (i 3/8)/(n + 1/4) i stedet for i/n. Sample Quantiles Normal Q Q Plot nicotine 2 1 0 1 2 Theoretical Quantiles 21 23 Fordeling af X > probabilities=c(1:40)/40 > theoretquant=qnorm(probabilities) > plot(theoretquant,sort(nicotine)) > #vha funktion qqnorm: > qqnorm(nicotine) > qqline(nicotine) Sample Quantiles Normal Q Q Plot 2 1 0 1 2 Theoretical Quantiles 22 Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. E (normalfordelt stikprøve) > sample1 [1] 0.9707727 1.8184993-0.5679272 0.5848434 0.4286343-2.0832521 [7] 0.9132965 0.3623205-0.0942689-2.4659896 2.6249701 1.4474366 [13] -1.3709333 0.1721564-0.5703357-0.1290553-0.4665710-0.3825574 [19] 0.4134650 0.4252125 > sample2=rnorm(20) > sample2 [1] 0.32893797 1.47024795 0.03953137 0.68587009 1.04228253-0.3695 [7] 0.55702599 1.54256912 0.42377482 0.53957533-0.17476243 0.5034 [13] 1.06354010-0.33748767-0.24773729 0.17813650 0.74056791-2.7265 [19] -0.20659909 0.86055465 > sample3=rnorm(20)... > sample10=rnorm(20) 24

> bar=rep(0,10) > bar[1]=mean(sample1) #beregner empirisk middelvaerdi for alle stikpro... > bar[10]=mean(sample10) > bar [1] 0.10153585 0.29566584 0.09684480 0.37516244 0.11594793 0.1057 [7] 0.07050678-0.16544810-0.05956582 0.02905803 > hist(bar) Frequency 0.0 0.5 3.0 Histogram of bar Udregning vha for-loop # vha for loop bar=rep(0,10) for (i in 1:10){ sample=rnorm(20) bar[i]=mean(sample) } 0.2 0.0 0.1 0.2 0.3 0.4 bar 25 27 Teoretisk fordeling af X E X = E 1 n (X 1 + + X n ) = 1 n nµ = µ V ar X = V ar 1 n (X 1 + + X n ) = 1 n 2 nσ2 = σ 2 /n Normalfordelt stikprøve X normalfordelt. E: antag X gennemsnit af 20 normalfordelte variable med middelværdi 5 og varians 2. Hvad er sandsynligheden for, at P( X > 5.5)? 26