Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Relaterede dokumenter
Uge 10 Teoretisk Statistik 1. marts 2004

Teoretisk Statistik, 16. februar Generel teori,repetition

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Kvantitative Metoder 1 - Efterår Dagens program

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Kvantitative Metoder 1 - Forår Dagens program

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Produkt og marked - matematiske og statistiske metoder

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Kvantitative Metoder 1 - Forår Dagens program

Sandsynlighedsregning Oversigt over begreber og fordelinger

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Statistik og Sandsynlighedsregning 2

hvor a og b er konstanter. Ved middelværdidannelse fås videre

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Teoretisk Statistik, 13 april, 2005

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Statistik og Sandsynlighedsregning 2

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

StatDataN: Plot af data

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Elementær sandsynlighedsregning

Kvantitative Metoder 1 - Forår Dagens program

Statistik og Sandsynlighedsregning 2

Kvantitative Metoder 1 - Forår 2007

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Statistik og Sandsynlighedsregning 2

Tema. Dagens tema: Indfør centrale statistiske begreber.

DANMARKS TEKNISKE UNIVERSITET Side?? af?? sider. Skriftlig prøve, den: 18. december 2014 Kursus nr : (navn) (underskrift) (bord nr)

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Kapitel 4 Sandsynlighed og statistiske modeller

Normalfordelingen og Stikprøvefordelinger

Kvantitative Metoder 1 - Forår 2007

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Statistik og Sandsynlighedsregning 2

Elementær sandsynlighedsregning

Kvantitative Metoder 1 - Efterår Dagens program

Definition. Definitioner

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Højde af kvinder 2 / 18

Betingede sandsynligheder Aase D. Madsen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Statistiske modeller

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

MM501 forelæsningsslides

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 27. maj 2019 Kursus nr : (navn) (underskrift) (bord nr)

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

INSTITUT FOR MATEMATISKE FAG c

Kapitel 4 Sandsynlighed og statistiske modeller

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

StatDataN: Middelværdi og varians

Hvorfor er normalfordelingen så normal?

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Opgaver til kapitel 3

Lidt om fordelinger, afledt af normalfordelingen

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 19. december 2018 Kursus nr : (navn) (underskrift) (bord nr)

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 17. december 2015 Kursus nr : (navn) (underskrift) (bord nr)

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Kvantitative Metoder 1 - Forår 2007

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen

Nanostatistik: Opgavebesvarelser

Løsninger til kapitel 6

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Vejledende løsninger til opgaver i kapitel 6

Note om Monte Carlo metoden

MM501/MM503 forelæsningsslides

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

DANMARKS TEKNISKE UNIVERSITET Side 1 af 18 sider. Skriftlig prøve, den: 16. december 2003 Kursus nr : (navn) (underskrift) (bord nr)

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Transkript:

Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1

Empiriske analoger Betragt en stikprøve af størrelse n x 1,...,x n Stikprøven kan bestå af observationer af enten kontinuerte eller diskrete stokastiske variable. Antag fordelingen, som stikprøven stammer fra, er kendt. 2

Empirisk vs. teoretisk middelværdi og varians Middelværdien, E X, er et teoretiske modstykke til den empirisk middelværdi: X = 1 n x i EX n i=1 Variansen, Var X, er et teoretisk modstykke til empirisk varians: s 2 = 1 n (x i x) 2 VarX n 1 i=1 3

Fra sidste gang: Simulation af ligefordelingen Simulation af n observationer af en stok. var. X, der er ligefordelt på [0,1], x 1,...,x n. Teoretisk: E(X) = 1/2 var(x) = 1/12 = 0.08333 x = 0.653 s 2 = 0.053 for en sim. med n=20 x = 0.523 s 2 = 0.093 for en sim. med n=50 x = 0.522 s 2 = 0.099 for en sim. med n=100 x = 0.529 s 2 = 0.081 for en sim. med n=1000 x = 0.501 s 2 = 0.083 for en sim. med n=10000 4

Relative hyppigheder vs. punktsandsynligheder Lad x 1,...,x n være observationer af en variabel med punktsandsynlighed f. Hvis n er stor vil den relative hyppighed af observationer med værdi x være tæt på punktsandsynligheden P(X = x). Dette følger af Store Tals Lov for hyppigheder (kapitel 7). Figur med relative hyppigheder vil ligne pindediagrammet... 5

Relative hyppigheder vs. punktsandsynligheder (2) Eksempel: Lad X bin(n, p) og lad x 1,...,x n være observerede værdier af X. X bin(2,1/3), hhv. n = 10,100,1000 simulerede observationer X bin(10, 1/2), hhv. n = 10, 100, 1000 simulerede observationer 6

Relative hyppigheder/histogram vs. Tæthed Lad x 1,...,x n være observationer af en kontinuert stokastisk variabel med tæthed f. Hvis n er stor vil den relative hyppighed af observationer med værdi i intervallet [x,x + ] være tæt på tætheden i punktet x, f (x). Dette følger af Store Tals Lov for hyppigheder (kapitel 7). Histogram vil ligne tætheden... (jv.f. p. 84 i AJKM). 7

Teoretiske versus empiriske fraktiler Empirisk p-fraktil (intuitivt): x er en (empirisk) p-fraktil hvis andelen p af observationer x 1,...,x n er højst x. Teoretisk p-fraktil (løst): x er en (teoretisk) p-fraktil hvis P(X x) = p, dvs. hvis F(x) = p. Dvs. for kontinuerte fordelinger vil fraktildiagrammet ligne fordelingsfunktion når antallet observationer, n, er stor. For diskret fordelinger gælder nogenlunde det samme. Dog med forbehold for at fordelingsfunktionen er en trappefunktion. 8

Teoretisk vs. empirisk fordeling Teoretiske fordeling af stokakastisk variabel X versus empirisk fordeling af observationer x 1,...,x n. Teoretisk Empirisk Sandsynlighedsfunktion Relative hyppigheder Tæthed Histogram Middelværdi Gennemsnit Varians Empirisk varians(s 2 ) Teoretiske fraktiler Empiriske fraktiler 9

Fordelingsfunktionen: Eksempel: Ligefordelingen P(X x) = { 0, x < 0 P([0,x]) = x, 0 x 1 1, x > 1 Lad x 1,...,x n være observationer af X. n = 10 observationer n = 100 observationer n = 1000 observationer 10

Eksempel: Eksponentialfordelingen Der gælder, at transformationen Y = F(X) er rektangulært fordelt på [0, 1]. Vi skal bruge dette til at simulere observationer fra eksponentialfordelingen ud fra ligefordelingen. Simuler n ligefordelte tal, y 1,...,y n Transformer disse med F 1 (y) Da haves n obs. fra en fordeling med fordelingsfunktion F 11

Eksempel: Eksponentialfordelingen (2) Bevis for Y = F(X) R[0,1]: G(y) = P(Y y) = P(F(X) y) = P(X F 1 (y)) = F ( F 1 (y) ) = y Generer n ligefordelte tal, y 1,...,y n Transformer disse med F 1 (y) = 1 λ log(1 y) F 1 (y 1 ),...,F 1 (y n ) er da n obs. fra en eksponentialfordeling 12

Eksempel: Eksponentialfordelingen (3) Bevis for F 1 (y) = 1 λ log(1 y): y i = F(t i ) = 1 exp( λt i ) 1 y i = exp( λt i ) log(1 y i ) = λt i t i = 1 λ log(1 y i) 13

Eksempel: Eksponentialfordelingen (4) Teoretisk: T exp(0.2) F(t) = 1 e λt = 1 e 0.2t, t 0 E(T ) = 1 λ = 5 Var(T ) = 1 λ 2 = 25 Simulation af n onservationer fra T exp(0.2) n = 100, t = s 2 = n = 1000, t = s 2 = 14

Teoretisk Statistik, marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 15

Normalfordelingen Lad µ R og σ 2 R + være kendte tal. Man kan vise at e (x µ)2 /(2σ 2) dx = 2πσ 2 så er tæthed for en fordeling på R. f (x) = 1 ( ) (x µ) 2 exp 2πσ 2 2σ 2 Hvis X har denne tæthed siges, at X er normalfordelt med parametre µ og σ 2 (Se ppt for eksempler) 16

Den normerede normalfordeling For µ = 0 og σ 2 = 1 kaldes tætheden ϕ (se ppt): ϕ(u) = 1 2π e u2 /2 Hvis U er en stok. var. med denne tæthed siger man at U standardiseret normalfordelt, U N(0, 1) Fordelingsfunktion, Φ (se ppt): Φ(u) = u 1 2π e z2 /2 dz 17

Den standardiserede normalfordeling Der gælder for U N(0,1), at E(U) = 0, Var(U) = 1 Den standardiserede normalfordeling kaldes også normalfordelingen med middelværdi 0 og varians 1. 18

Lineær transformation af normalfordelingen Lad U N(0,1) og lad µ R og σ 2 > 0 være konstanter. Sæt Så er E(X) = µ og Var(X) = σ 2. X = µ + σu Det skal vises, at X er normalfordelt (X N(µ,σ 2 )). Dvs. at X har tæthed f (x) = 1 ( ) (x µ) 2 exp 2πσ 2 2σ 2 19

Lineær transformation af normalfordelingen X = µ + σu hvor U N(0,1), dvs. har tæthed ϕ og fordelingsfunktion Φ. Fordelingsfunktion for X: F(x) = P(X x) = P(µ + σu x) = P ( U x µ ) σ ( ) x µ = Φ σ Tæthed for X: f (x) = F (x) = d dx ( Φ ( )) x µ σ ( x µ = ϕ σ ) 1 σ = 1 ( ) e (x µ)2 2σ 2 2πσ 2 20

Der gælder: Dermed Lineær transformation af normalfordelingen U N(0,1) X = µ + σu N(µ,σ 2 ) X N(µ,σ 2 ) U = X µ σ N(0,1) X N(µ,σ 2 ) Y = a + bx N(a + bµ,b 2 σ 2 ) Klassen af normalfordelinger er lukket overfor lineære transformationer. 21

Beregning af sandsynligheder for X N(µ,σ 2 ) Lad X N(µ,σ 2 ) og lad a < b. Så er P(a X b) = b a ( ) 1 e (z µ)2 2σ 2 dz 2πσ 2 Stamfunktionen kan alene findes nummerisk. Benytter i stedet egenskaben: X N(µ,σ 2 ) U = X µ σ N(0,1) 22

Beregning af sandsynligheder for X N(µ,σ 2 ) P(a X b) = P ( a µ σ X µ b µ ) = Φ σ σ ( b µ σ ) Φ Φ-værdierne kan slås op i tabeller, f.eks. Erlang S. Eksempel: X N(1,2) ( ) ( ) 3 1 0 1 P(0 < X < 3) = Φ Φ = Φ(1.41) Φ( 0.71) 2 2 = 0.92073 0.23885 = 0.68188 ( ) a µ σ 23

Vigtig egenskab for normalfordelingen Lad k > 0 være en konstant. Sandsynligheden for at havne i et interval af typen [µ kσ, µ + kσ] afhænger ikke af µ og σ 2 for noget k > 0: ( ) ( ) (µ + kσ) µ (µ kσ) µ P(µ kσ X µ + kσ) = Φ Φ σ σ = Φ(k) Φ( k) 24

Vigtig egenskab for normalfordelingen (2) F.eks. P(µ σ X µ + σ) = Φ(1) Φ( 1) = 0.682 P(µ 1.96σ X µ + 1.96σ) = Φ(1.96) Φ( 1.96) = 0.95 P(X µ 1.96σ) = Φ( 1.96) = 0.025 P(X µ+1.96σ) = 1 Φ(1.96) = 0.025 (se ppt) 25

Grafisk kontrol af normalfordelingsantagelse Uafhængige observationer x 1,...,x n af stokastisk variabel X. Spørgsmål: Kan X antages at være normalfordelt? Histogram med indlagt tæthed for N( x,s 2 ): Histogrammet vil være en god approksimation til tæthedskurven hvis X er normalfordelt (og n er tilstrækkelig stor). Normalfraktildiagram: Sammenligner de empiriske fraktiler for observationerne med fraktilerne i normalfordelingen. (u p er en p-fraktil for N(0,1) hvis p = P(U u p ) = Φ(u p ).) 26

Normalfraktildiagram Normalfraktildiagram: Sammenligner de empiriske fraktiler for n uafhængige obs. x 1,...,x n med fraktilerne i normalfordelingen. Plot x (i) (x-aksen) mod p i -fraktilen Φ 1 (p i ) (y-aksen). Punkterne vil ligge omkring en ret linie med hældning 1/σ og skæring µ med x-aksen hvis X er normalfordelt (og n er tilstrækkelig stor). Grafisk estimation af µ og σ 2. Hvorfor gælder dette? 27

Normalfraktildiagram - bevis Hvis X N(µ,σ 2 ) uformelt: p i = i 0.5 ( ) x(i) µ P(X x (i) ) = Φ n σ ( ) Φ 1 (p i ) Φ 1 x(i) µ Φ σ { Φ 1 (p i ) 1 σ x (i) µ σ = x (i) µ σ x (i) µ + σφ 1 (p i ) 28

Kommentarer Kig efter systematiske afvigelser! Transformer evt. data (f.eks. med log eller ). Vil gerne have N-fordelte obs. da de statistiske analyser så er lette at udføre. Pas på når antallet af observationer, n, ikke er stort. 29

Teoretisk Statistik, marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 30

Punktsandsynlighed/tæthed, f diskret: f (x) = P(X = x) Begreber fra kapitel 3 kontinuert: f (x) P(X ]x /2,x + /2]) Fordelingsfunktion, F F(x) = P(X x) Sammenhæng mellem f og F: diskret: F(x) = z x f (z), f (x) = F(x) F(x 1) kontinuert: F(x) = x f (x)dx, f (x) = F (x) Oversigt over kapitel 3 31

Begreber fra kapitel 3 (2) Middelværdi diskret: EX = x S x f (x) kontinuert: EX = x f (x)dx Varians Def. og regneregel: Var(X) = E ( (X EX) 2) = E(X 2 ) (EX) 2 diskret: VarX = x S x 2 f (x) (EX) 2 kontinuert: VarX = x2 f (x)dx (EX) 2 Oversigt over kapitel 3 32

Oversigt over diskrete fordelinger P S f E Var ) bin(n, p) {0,1,...,n} p x (1 p) n x np np(1 p) ( hypgeo(n,m,n) (del af) {0,1,...,n} M x )( N M n x ) ( N n) λ Poiss(λ) {0,1,2,...} x negbin(k, p) {0,1,2,...} ( n x ( x+k 1 k 1 n M N n M N N M N x! e λ λ λ ) p k (1 p) x k 1 p p k 1 p p 2 Stikprøve med/uden tilbagelægning (bin/hypgeo) Approks. af hypgeo(n,m,n) med bin(n,n/m) hvis N og M store. Approks. af bin(n, p) med Poiss(λ) hvis n stor, p lille og np = λ N n N 1 Oversigt over kapitel 3 33

Oversigt over kontinuerte fordelinger P S f E Var ( ) N(µ,σ 2 1 ) R exp (x µ)2 µ σ 2 2πσ 2 2σ 2 exp(λ) ]0, [ e λx 1 λ R[0, 1] [0, 1] 1 1/2 1/12 1 λ 2 Oversigt over kapitel 3 34