Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Relaterede dokumenter
Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Uge 10 Teoretisk Statistik 1. marts 2004

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Kvantitative Metoder 1 - Forår Dagens program

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Kvantitative Metoder 1 - Efterår Dagens program

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Kvantitative Metoder 1 - Forår 2007

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Definition. Definitioner

Normalfordelingen og Stikprøvefordelinger

Hvorfor er det lige at vi skal lære det her?

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

StatDataN: Plot af data

Forelæsning 2: Kapitel 4, Diskrete fordelinger

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Kapitel 4 Sandsynlighed og statistiske modeller

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Kvantitative Metoder 1 - Forår 2007

Højde af kvinder 2 / 18

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Kapitel 4 Sandsynlighed og statistiske modeller

Elementær sandsynlighedsregning

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Elementær sandsynlighedsregning

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Løsninger til kapitel 6

Produkt og marked - matematiske og statistiske metoder

Statistik og Sandsynlighedsregning 2

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Nanostatistik: Test af hypotese

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Lidt om fordelinger, afledt af normalfordelingen

Note om Monte Carlo metoden

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Kvantitative Metoder 1 - Forår Dagens program

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Hvorfor er normalfordelingen så normal?

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

StatDataN: Test af hypotese

Karakteristiske funktioner og Den Centrale Grænseværdisætning

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Kvantitative Metoder 1 - Efterår Dagens program

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Kvantitative Metoder 1 - Forår Dagens program

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Løsning til eksamen d.27 Maj 2010

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Løsning til eksaminen d. 29. maj 2009

MM501 forelæsningsslides

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Nanostatistik: Opgavebesvarelser

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Sandsynlighedsregning Oversigt over begreber og fordelinger

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Sandsynlighedsregning

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Nanostatistik: Opgaver

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Statistiske modeller

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Teoretisk Statistik, 16. februar Generel teori,repetition

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Opgaver til kapitel 3

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Transkript:

Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29

Binomial fordeling X 1, X 2,...,X n uafhængige stokastiske variable med fordeling givet ved P(X i = 1) = p P(X i = 0) = 1 p Sandsynlighedsfunktion for X = X 1 + X 2 + + X n ( ) ( ) n n f (x) = p x (1 p) n x n! x = 0, 1, 2,...,n = x x x!(n x)! Eksempler 0.0 0.2 0.4 0 1 2 3 0.00 0.10 0.20 0 2 4 6 8 10 Middelværdi np og varians np(1 p). 2/29

Normal fordeling Tæthedsfunktion for normalfordeling med middelværdi µ og varians σ 2 : f (x) = Ex µ = 3, σ 2 = 1 og µ = 1, σ 2 = 4 1 µ)2 exp( (x 2πσ 2 2σ 2 ) f(x) 0.0 0.1 0.2 0.3 0.4 5 0 5 x 3/29

Beregning af sandsynligheder Antag X normal-fordelt med EX = 4 og VarX = 9 P(X 2) = P(Z 2 4 9 ) = 0.2525 hvor Z = X 4 9 standardnormalfordelt Fraktil: x er 25.25 % fraktil hvis P(X < x) = 0.2525 Vha. tabel: P(Z < 0.67) = 0.2514 og x = 0.67 9 + 4 = 1.99 4/29

Fortolkning af σ Chebyshev: P(µ kσ < X < µ + kσ) 1 1 k 2 Fordel: benytter kun viden om µ og σ ikke hvad f (x) konkret er. Ulempe: giver kun øvre grænse for sandsynlighed. Ex (opgave 5.17 side 151) X binomialfordelt med n = 5 og p = 0.7. µ = 5 0.7 = 3.5 σ = 5 0.7 0.3 = 1.025 P(3.5 2 1.025 < X < 3.5+2 1.025) = P(1.45 < X < 5.55) 75% 5/29

Normal fordeling Antag µ = 4 og σ 2 = 9. Hvilke værdier forventer man at X antager? Generelt for normalfordeling: P(µ 2σ < X < µ + 2σ) = P(2 < Z < 2) = 95.44% P(µ 3σ < X < µ + 3σ) = P(3 < Z < 3) = 99.73% Dvs.: med stor sandsynlighed (95 %) vil X ligge mellem 2 og 10 og (næsten) med sikkerhed (99.73 %) vil X ligge mellem 5 og 13. 6/29

Population Population: den totale mængde af mulige observationer for et givet eksperiment. Endelig (og konkret) population: højder for alle personer i dette lokale. Uendelig (og abstrakt) population: resultatet af uendelig mange kast med en mønt. Uendelig (og abstrakt) population: alle de (i princippet) mulige resultater af ph målinger for en jordprøve. Hvis fordelingen af alle observationer i en population kan beskrives ved en sandsynlighedsfunktion/tæthed f (x) (f.eks. binomial eller normal) kan vi referere til f (x) som en population. population = f (x) 7/29

Stikprøve (eng.: sample) Stikprøve: endelig delmængde af population. Ex: population højder for alle personer i USA (i praksis uendelig). Stikprøve: højder for 1000 tilfældigt udvalgte amerikanere. Ex: 3 gentagelser af absorptionsmålinger for en given protein-opløsning. 8/29

Repræsentativ stikprøve Vigtigt at en stikprøve er repræsentativ. Uheldige eksempler fra det virkelige liv: laboranter udtog de største kirsebærblomster eller snegle i forsøg vedr. resistens for nattefrost. Definition Hvis X 1,...,X n er uafhængige observationer fra den samme population f (x) kaldes X 1,...,X n en tilfældig stikprøve fra f (x) (og derfor f (x 1, x 2,...,x n ) = f (x 1 )f (x 2 ) f (x n )) 9/29

Deskriptive størrelser: center for en population Deskriptive størrelser Parameter for population f (x) Middelværdi: µ = E(X) X = 1 n n i=1 X i Median X : tal så halvdelen af stikprøve 50 % fraktil x 0.50 : over og halvdelen under P(X x 0.50 ) = 50% Modus: hyppigst forekommende værdi x så f (x) maksimal NB: alle de deskriptive størrelser er stokastiske variable. Den observerede værdi af X baseret på x 1,...,x n benævnes x. 10/29

Deskriptive størrelser: populationens variabilitet Deskriptive størrelse Parameter for population f (x) Varians σ 2 = E(X µ) 2 S 2 = 1 n n 1 i=1 (X i X) 2 Standardafvigelse σ n S = i=1 (X i X) 2 1 n 1 IQR: forskel mellem x 0.75 x 0.25 75% og 25 % empiriske fraktil Empirisk 25 % / 75 % fraktil: værdi som 25 % / 75 % af stikprøven er mindre end eller lig med. SPSS: Alle deskriptive størrelser kan udregnes via Analyse Descriptive Statistics Frequencies (tryk statistics for at vælge hvilke størrelser der skal udregnes) 11/29

Empirisk middelværdi, varians, median, IQR Deskriptive størrelser for rivet data: mean var median IQR 6.73 0.003 6.73 0.065 Ændrer en værdi 6.62 til 5 (f.eks. tastefejl): mean var median IQR 6.68 0.09 6.73 0.065 Eksempler på at median og IQR er robuste, og at empirisk middelværdi og varians ikke er robuste (dvs. er følsomme overfor outliers). 12/29

Grafiske metoder Fordelingens form: Histogram (kontinuert) Histogram of x Density 0.0 0.1 0.2 0.3 0.4 0.5 0.6 2 1 0 1 x SPSS: Vælg Histogram under Graphs Chart Builder 13/29

Grafiske metoder (fortsat) Fordelingens form: Søjle diagram (diskret): 0.0 0.1 0.2 0.3 0.4 0 1 2 3 14/29

Boxplot Specielt velegnet til sammenligning af flere stikprøver: station 1: 5.03,13.7,10.73,11.4,8.6,2.2,4.25,15.04,4.98,11.91,8.13,26.85, 17.66,22.8,1.13,1.69 station 2: 2.8,4.67,6.89,7.72,7.03,7.33,2.81,1.33,3.32, 1.23,2.13,2.19 5 10 20 1 2 Box: 25 %, 50 % (median) og 75 % fraktiler Whiskers (yderste vandrette streger): mest ekstreme observationer som er indenfor 25 % fraktil - 1.5 IQR og 75 % fraktil + 1.5 IQR. (dvs. mest ekstreme observationer som ikke er outliers ). 15/29

Fortolkning af whiskers 25 % og 75 % fraktiler for standardnormalfordeling Z : -0.67 og 0.67 og IQR=1.35. (Teoretiske) whiskers: -0.67-1.5 IQR = -2.70 og 0.67+1.5 IQR =2.70 P( 0.67 1.5IQR < Z < 0.67 + 1.5IQR) = P( 2.70 < Z < 2.70) = 99.3% 25 % og 75 % fraktiler for (µ, σ 2 ) normalfordeling X: 0.67σ + µ og 0.67σ + µ og IQR=1.35σ. (Teoretiske) whiskers: 2.70σ + µ og 2.70σ + µ P( 2.70σ + µ < X < 2.70σ + µ) = 99.3% Dvs. meget lille sandsynlighed for observationer udenfor whiskers for normalfordelt stikprøve ( outliers ) 16/29

Eksempler på Boxplot Boxplot for normalfordelte stikprøver med 10, 100 og 10000 observationer: 4 2 0 2 4 1 2 3 SPSS: Vælg Boxplot under Graphs Chart Builder 17/29

Empiriske fraktiler (Ex 8.3 nicotine data) 40 observationer: 1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.24 1.58 2.03 1.70 2.17 2.55 2.11 1.86 1.90 1.68 1.51 1.64 0.72 1.69 1.85 1.82 1.79 2.46 1.88 2.08 1.67 1.37 1.93 1.40 1.64 2.09 1.75 1.63 2.37 1.75 1.69 Sorteret: 0.72 0.85 1.09 1.24 1.37 1.40 1.47 1.51 1.58 1.63 1.64 1.64 1.67 1.68 1.69 1.69 1.70 1.74 1.75 1.75 1.79 1.79 1.82 1.85 1.86 1.88 1.90 1.92 1.93 1.97 2.03 2.08 2.09 2.11 2.17 2.28 2.31 2.37 2.46 2.55 Dvs. 5 observationer 0.72 0.85 1.09 1.24 1.37 er mindre end eller lig 1.37. Dvs. 1.37 er estimat for 5/40=12.5-% fraktil. Generelt: x (1) < x (2) < x (3) < < x (n) sorteret stikprøve. x (i) estimat for i/n fraktil: andel af obs x (i) er i/n. 18/29

Empiriske fraktiler x (i) =observation nr. i i den ordnede stikprøve (dvs. den i te mindste). Så er i n lig med andelen af observationer der er mindre end eller lig med x (i), dvs. F(x (i) ) = i n, hvor F er fordelingsfunktionen (CDF) for observationerne. Hvis nu observationerne er normalfordelte N(µ, σ 2 ), så er F(x) = P(X x) = P( X µ σ x µ σ ) = P(Z x µ σ ) = Φ(x µ σ ), hvor vi har kaldt standardnormalfordelingsfunktionen (den i tabel A.3) for Φ. 19/29

Sammenligning af fraktiler Det vil altså sige eller i n = F(x (i)) = Φ( x (i) µ ) σ Φ 1 ( i n ) = x (i) µ. σ ved invers transformation med Φ 1 ( ). Kalder vi nu q µ,σ 2(i/n) = x (i) q 0,1 (i/n) = Φ 1 ( i n ) har vi q 0,1 (i/n) = q µ,σ 2(i/n) µ. σ Vi får så det såkaldte QQ plot. 20/29

QQ plot: check af normalfordeling Hvis stikprøven er fra en normalfordeling bør x (i) være tæt på teoretisk i/n-fraktil q µ,σ 2(i/n) for normalfordeling hvor Dvs. punkter q µ,σ 2(i/n) = q 0,1 (i/n)σ + µ (q 0,1 (i/n), x (i) ) (q 0,1 (i/n), q µ,σ 2(i/n)) bør ligge på ret linie med skæring µ og hælding σ. NB: i bog bruges f i = (i 3/8)/(n + 1/4) i stedet for i/n. 21/29

Empiriske fraktiler (genforklaret) Reduceret nicotine data: 1.09 1.47 1.74 1.79 1.92 1.97 2.28 2.31 Sorteret data x (1),...,x (8) og tilsvarende sandsynligheder f i = (i 3/8)/(8 + 1/4) i/8 x (i) 1.09 1.47 1.74 1.79 1.92 1.97 2.28 2.31 f i 0.08 0.20 0.32 0.44 0.56 0.68 0.80 0.92 q (0,1) (f i ) -1.43-0.85-0.47-0.15 0.15 0.47 0.85 1.43 Ide: hvis normalfordelt (µ, σ 2 ) stikprøve skal x (i) q (µ,σ 2 )(f i ) og Dvs. q (µ,σ 2 )(f i ) = σq (0,1) (f i ) + µ x (i) σq (0,1) (f i ) + µ 22/29

QQ-plot x_(i) 1.2 1.4 1.6 1.8 2.0 2.2 1.5 1.0 0.5 0.0 0.5 1.0 1.5 q(i/n) SPSS:Analyze Descriptive Statistics Q-Q Plots Bemærk: i SPSS bruges ikke standard normalfordelingen på x-aksen, men normalfordelingen med samme middelværdi og varians som data. 23/29

Nicotine data Normal Q Q Plot Sample Quantiles 1.0 1.5 2.0 2.5 2 1 0 1 2 Theoretical Quantiles 24/29

Tre typer af plot for nicotine data Histogram of nicotine 1.0 1.5 2.0 2.5 Frequency 0 2 4 6 8 10 12 1.0 1.5 2.0 2.5 nicotine Normal Q Q Plot Sample Quantiles 1.0 1.5 2.0 2.5 2 1 0 1 2 Theoretical Quantiles 25/29

Histogram og QQ-plot Eksempel på afhængighed af valg af intervaller: FALSE FALSE Normal Q Q Plot Density 0.00 0.05 0.10 0.15 0.20 Density 0.00 0.05 0.10 0.15 0.20 Sample Quantiles 2 0 2 4 2 0 2 4 6 x 4 2 0 2 4 6 x 2 1 0 1 2 Theoretical Quantiles QQ-plot er fri for subjektive valg og afslører at fordelingen ikke er normal! 26/29

Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve) Sample 1: 0.9707727 1.8184993-0.5679272 0.5848434 0.4286343-2.0832521 0.9132965 0.3623205-0.0942689-2.4659896 2.6249701 1.4474366-1.3709333 0.1721564-0.5703357-0.1290553-0.4665710-0.3825574 0.4134650 0.4252125 Sample 2: 0.32893797 1.47024795 0.03953137 0.68587009 1.04228253-0.36957645 0.55702599 1.54256912 0.42377482 0.53957533-0.17476243 0.50346420 1.06354010-0.33748767-0.24773729 0.17813650 0.74056791-2.72659878-0.20659909 0.86055465. Sample 10: 27/29

Empirisk middelværdi for alle stikprøver (gennemsnit af gennemsnit) Histogram of barx Frequency 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.2 0.0 0.1 0.2 0.3 0.4 barx 28/29

Teoretisk fordeling af X E X = E 1 n (X 1 + + X n ) = 1 n nµ = µ Var X = Var 1 n (X 1 + + X n ) = 1 n 2nσ2 = σ 2 /n Normalfordelt stikprøve X normalfordelt. Ex: antag X gennemsnit af 20 normalfordelte variable med middelværdi 5 og varians 2. Hvad er sandsynligheden for, at P( X > 5.5)? 29/29