Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Relaterede dokumenter
Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Elementær sandsynlighedsregning

Produkt og marked - matematiske og statistiske metoder

Uge 10 Teoretisk Statistik 1. marts 2004

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kvantitative Metoder 1 - Forår 2007

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Sandsynlighedsregning Oversigt over begreber og fordelinger

Elementær sandsynlighedsregning

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

INSTITUT FOR MATEMATISKE FAG c

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Betingede sandsynligheder Aase D. Madsen

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Statistik og Sandsynlighedsregning 2

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Nanostatistik: Konfidensinterval

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Kvantitative Metoder 1 - Forår Dagens program

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Nanostatistik: Opgavebesvarelser

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen

StatDataN: Test af hypotese

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Teoretisk Statistik, 16. februar Generel teori,repetition

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Løsning til eksaminen d. 29. maj 2009

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Statistik og Sandsynlighedsregning 2

Nanostatistik: Test af hypotese

Kvantitative Metoder 1 - Forår Dagens program

Note om Monte Carlo metoden

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Produkt og marked - matematiske og statistiske metoder

Sandsynlighedsregning

Kvantitative Metoder 1 - Forår 2007

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Løsning eksamen d. 15. december 2008

Estimation og konfidensintervaller

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Susanne Ditlevsen Institut for Matematiske Fag susanne

Statistiske modeller

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kvantitative Metoder 1 - Forår Dagens program

Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

Kvantitative Metoder 1 - Efterår Dagens program

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Preben Blæsild og Jens Ledet Jensen

Højde af kvinder 2 / 18

Vejledende løsninger til opgaver i kapitel 6

StatDataN: Plot af data

Oversigt over nyttige fordelinger

Statistik og Sandsynlighedsregning 2

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Teoretisk Statistik, 13 april, 2005

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Løsning til eksamen 16/

Løsning til eksaminen d. 14. december 2009

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 17. december 2015 Kursus nr : (navn) (underskrift) (bord nr)

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Kvantitative Metoder 1 - Efterår Dagens program

Transkript:

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater (kap. 3 og 6) Aymptotiske resultater (kap. 7) Estimation (kap. 8) Konfidensintervaller (kap. 8) 1

Regneregler P(/0) = 0; P(A c ) = P(E\A) = 1 P(A); P(A\B) = P(A) P(B) hvis B A; P(A B) = P(A) + P(B) P(A B). P(A 1 A n ) = P(A 1 ) + + P(A n ) hvis i, j : A i A j = /0 P(A B) = P(A B)/P(B) for P(B) > 0. P(A B) = P(A)P(B) for A og B ufh. 2

Regneregler Lad A 1,A 2,...,A m være en klassedeling af E Loven om den totale sandsynlighed: For en vilkårlig hændelse B gælder P(B) = P(B A 1 )P(A 1 ) +... + P(B A m )P(A m ) Bayes formel: For en vilkårlig hændelse, B, med P(B) > 0 gælder P(A i B) = P(B A i)p(a i ) m j=1 P(B A j )P(A j ) 3

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordeling og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater (kap. 3 og 6) Aymptotiske resultater (kap. 7) Estimation (kap. 8) Konfidensintervaller (kap. 8) 4

Oversigt over diskrete fordelinger P S f E Var ) bin(n, p) {0,1,...,n} p x (1 p) n x np np(1 p) ( hypgeo(n,m,n) (del af) {0,1,...,n} M x )( N M n x ) ( N n) λ Poiss(λ) {0,1,2,...} x negbin(k, p) {0,1,2,...} ( n x ( x+k 1 k 1 n M N n M N N M N x! e λ λ λ ) p k (1 p) x k 1 p p k 1 p p 2 Stikprøve med/uden tilbagelægning (bin/hypgeo) Approks. af hypgeo(n,m,n) med bin(n,n/m) hvis N og M store. Approks. af bin(n, p) med Poiss(λ) hvis n stor, p lille og np = λ N n N 1 5

Oversigt over kontinuerte fordelinger P S f E Var ( ) N(µ,σ 2 1 ) R exp (x µ)2 µ σ 2 2πσ 2 2σ 2 exp(λ) ]0, [ e λx 1 λ R[0, 1] [0, 1] 1 1/2 1/12 Naturligvis også den flerdimensionale normalfordeling Der ud over fordelinger, der beskriver teststørrelser, typisk χ 2 ( f ), t( f ) og F( f 1, f 2 ) 1 λ 2 6

Hvorfor alle disse fordelinger? 7

Hvordan vælges fordeling? 8

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordeling og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater (kap. 3 og 6) Aymptotiske resultater (kap. 7) Estimation (kap. 8) Konfidensintervaller (kap. 8) 9

Simultan og marginal fordeling Simultan fordeling: Fordeling af parret (X 1,X 2 ). Tager hensyn til hvordan X 1 og X 2 varierer i forhold til hinanden. Marginale fordelinger: fordeling af X 1 og fordeling af X 2 (uden hensyntagen til den anden variabel). 10

Betinget fordeling og uafhængighed Betinget fordeling: Fordeling af X 2 givet X 1. Hvordan varierer X 2 når vi kender værdien af X 1 (eller omvendt)? Uafhængighed: Påvirker X 1 fordelingen af X 2 (og omvendt)? 11

Hvorfor? 12

Eksempel på betinget fordeling: Normalfordelingen Lad X = ( X1 X 2 ) ( µ1 N 2 ( µ 2 ) ( σ 2, 1 σ 12 σ 12 σ2 2 ) ) Den betingede fordeling af X 1 givet X 2 = x 2 er en normalfordeling med middelværdi µ 1 + σ 12 (σ2 2) 1 (x 2 µ 2 ) og varians σ11 2 σ 12 (σ2 2) 1 σ 21 13

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater (kap. 3 og 6) Aymptotiske resultater (kap. 7) Estimation (kap. 8) Konfidensintervaller (kap. 8) 14

Definitioner Diskret EX = E(X) = x S x f (x) Kontinuert EX = E(X) = x S x f (x)dx Diskret E(X 2 X 1 = x 1 ) = x2 S 2 x 2 f (x 2 x 1 ) Kontinuert E(X 2 X 1 = x 1 ) = x 2 S 2 x 2 f (x 2 x 1 )dx ( (X ) ) 2 VarX = E EX Diskret Var(X 2 X 1 = x 1 ) = x2 S 2 x2 2 f (x 2 x 1 ) E(X 2 X 1 = x 1 ) 2 Kontinuert Var(X 2 X 1 = x 1 ) = x 2 S 2 x2 2 f (x 2 x 1 )dx 2 E(X 2 X 1 = x 1 ) ( 2 (X1 )( ) ) Cov(X 1,X 2 ) = E EX 1 X2 EX 2 15

Regneregler E(a + bx) = a + bex E(aX 1 + bx 2 ) = aex 1 + bex 2 VarX = EX 2 (EX) 2 Var(a + bx) = b 2 VarX Var(aX 1 + bx 2 ) = a 2 VarX 1 + b 2 VarX 2 + 2abCov(X 1,X 2 ) 16

Regneregler ( X en m-dimensional sv. (m 1); A en k 1-matrix; B en k m- matrix.) Cov(X 1,X 2 ) = E(X 1 X 2 ) (EX 1 )(EX 2 ) Cov(X 1,X 2 + X 3 ) = cov(x 1,X 2 ) + cov(x 1,X 3 ) EX 2 = E ( E(X 2 X 1 ) ) VarX 2 = E ( Var(X 2 X 1 ) ) + Var ( E(X 2 X 1 ) ) E(A + BX) = A + BE(X) (k 1) Var(A + BX) = BVar(X)B T (k k) 17

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater (kap. 3 og 6) Aymptotiske resultater (kap. 7) Estimation (kap. 8) Konfidensintervaller (kap. 8) 18

Fordeling af summer Antag at X 1,...,X m er uafhængige sv. og lad Y = X 1 +... + X m. Poisson Binomial Normal X 1 Poiss(λ 1 ),...,X m Poiss(λ m ) Y Poiss(λ 1 +... + λ m ) X 1 bin(n 1, p),...,x m bin(n m, p) Y bin(n 1 +... + n m, p) X 1 N(µ 1,σ1 2),...,X m N(µ m,σm) 2 Y N(µ 1 +... + µ m,σ1 2 +... + σ m) 2 19

χ 2 ( f ) fordelingen Lad U 1,...,U f være uafhængige N(0,1)-fordelte. Da siges Q = U1 2 + +Uf 2 at være χ 2 -fordelt med f frihedsgrader: Q χ 2 ( f ). Mange teststørrelser er χ 2 ( f )-fordelte (jv.f. Teoretisk statistik 2). Endvidere er (n 1)S 2 /σ 2 χ 2 (n 1) Eksempel på χ 2 fordelingen: lynprøven 20

t-fordelingen Lad U N(0,1), Q χ 2 ( f ) og lad U og Q være uafhængige. Da er T = U ( f ) t( f ) Q Hvorfor interessant: Bl.a. fordi når X 1,...,X n er uif med X 1 N(µ,σ 2 ) og H 0 : µ = µ 0, da er teststørrelsen T = n( X µ 0 ) S 2 t(n 1) Eksempel: lynprøven 21

F-fordelingen Mange hypoteser kan testes ved at teste om to varianser er ens: V = S2 1 S 2 2 = σ 1 2Q 1/(n 1 1) σ2 2Q 2/(n 2 1) = Q 1/(n 1 1) Q 2 /(n 2 1) Derfor er følgende interessant: Hvis Q 1 χ 2 ( f 1 ) og Q 2 χ 2 ( f 2 ) og Q 1 og Q 2 er uafhængige så er V = Q 1/ f z 1 Q 2 / f 2 F( f 1, f 2 ) F-ford. med ( f 1, f 2 ) frihedsgrader. NB: T t( f ) T 2 F(1, f ). 22

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater (kap. 3 og 6) Aymptotiske resultater (kap. 7) Estimation (kap. 8) Konfidensintervaller (kap. 8) 23

Store Tals Lov Lad X 1,X 2,... være en følge af uafhængige, identisk fordelte variable med middelværdi µ. Definer X n = X 1+...+X n n. Da gælder: Store tals lov for hyppigheder: X n P µ Relativ hyppighed af A = h n (A) P P(A) 24

Den centrale grænseværdisætning Lad X 1,...,X n være uid med EX 1 = µ og VarX 1 = σ 2 <. gælder (med X n = 1 n n i=1 X i ) Da P ( ) X n µ σ/ n u Φ(u), for n Bemærk, at denne sætning ikke hedder Den centrale grænseværdisætning for ingenting! 25

Den centrale grænseværdisætning Hvorfor er sætningen central? Vi har jo allerede set, at gennemsnittet vil konvergere i sandsynlighed mod middelværdien Men, den centrale grænseværdisætning giver, at hele fordelingen konvergerer mod normalfordelingen. Uanset hvilken udgangsfordlingen. Hvis der tages gennemsnit (og det gør man jo ofte) da er gennemsnittet langt mere normalfordelt end de enkelte observationer. 26

Approksimationer Følgende fordelinger kan i grænsen approksimeres med en normalfordeling: Binomialfordlingen Poissonfordelingen Den hypergeometriske fordeling Blev i gamle dage brugt til udregning af sandsynligheder... I dag er det vigtigere at vide, at mange fordelinger konvergerer mod normalfordlingen. 27

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater (kap. 3 og 6) Aymptotiske resultater (kap. 7) Estimation (kap. 8) Konfidensintervaller (kap. 8) 28

Estimator Problemstilling: ud fra data, x 1,...,x n at give et bud på θ. ˆθ = ˆθ(x 1,...,x n ) Adskillige estimationsprincipper. Maksimumlikelihoodestimatoren, ˆθ, for θ defineres som: L( ˆθ x) = max θ Θ L(θ x) Dvs. vi vælger den værdi θ Θ, der gør det mest sandsynligt, at vi har observeret x. 29

Oversigt over estimatorer X bin(n, p). MLE ˆp = X n X 1,...,X n uid med X 1 poiss(λ). MLE ˆλ = X X 1,...,X n være uid. med X 1 N(µ,σ 2 ). MLE ˆµ = X, ˆσ 2 = 1 n (X i X) 2 Benytter S 2 som estimator for σ 2, da denne estimator er middelret. 30

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater (kap. 3 og 6) Aymptotiske resultater (kap. 7) Estimation (kap. 8) Konfidensintervaller (kap. 8) 31

Konfidensintervaller - Fortolkning Opgaven er at finde grænser, C L (X) og C U (X) således Benytter f.eks. omskrivniner af: P(C L (X) θ C U (X)) = 1 α X µ σ 2 0 /n N(0,1) X µ S2 /n t(n 1), (n 1)S 2 σ 2 χ 2 (n 1) For diskrete fordelinger benyttes normalfordelingsapp. 32

Konfidensintervaller - Fortolkning P(C L (X) θ C U (X)) = 1 α Sandsynlighedsudsagn - men om hvad! ER θ en stokastisk variabel. Dvs. sandsynlighedsudsagnet kan ikke læses som et udsagn om θ 33

Derimod er intervallet en stokastisk variabel. Konfidensintervaller - Fortolkning [C L (X),C U (X)] Hver gang forsøget gentages, fås et nyt interval. Der er 1 α sandsynlighed for, at intervallet indeholder µ. Dvs. gentages forsøget mange gange vil andelen af intervaller, der indeholder den sande værdi θ konvergere imod 1 α. (jvf. p. 267) 34

Konfidensintervaller - Oversigt Normalfordelingen, kendt varians σ0 2. KI for µ: [ X u 1 α/2 σ0 2/n, X + u 1 α/2 σ0 2/n] Normalfordelingen, ukendt varians. KI for µ: [ X t 1 α/2 S2 /n, X +t 1 α/2 S2 /n] Normalfordelingen, ukendt varians. KI for σ 2 : (n 1)S2 [ χ1 α/2 2, (n 1)S2 χα/2 2 ] 35

Konfidensintervaller - Oversigt Binomialfordelingen (X bin(n, p)). appr. KI for p: [ X n u 1 α/2 X n (1 X n ) n, X n + u 1 α/2 For store værdier af n X n (1 X n ) n Den hypergeometriske fordeling. (X hyp(n, M, n)) For passende store værdier af M og N appr. KI for x/n: [ x n u 1 α/2σ n, x n + u 1 α/2σ n ], ˆσ n 2 = 1 x n 1n (1 x n )N n N 1 ] 36

Konfidensintervaller - Oversigt Poissonfordelingen (X poiss(λ). appr. KI for λ: For store værdier af λ [ x u 1 α/2 x/n, x + u 1 α/2 x/n] Ukendt fordeling. Uafh. id. fordelte stok. var. X 1,...,X n hvor E(X 1 ) = µ og var(x 1 ) = σ. For store værdier af n appr. KI for µ [ x u 1 α/2 σ/ n, x + u 1 α/2 σ/ n] 37