Statistik og Sandsynlighedsregning 2

Relaterede dokumenter

Statistik og Sandsynlighedsregning 2

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Program. Middelværdi af Y = t(x ) Transformationssætningen

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2

Modul 3: Kontinuerte stokastiske variable

Konfidensinterval for µ (σ kendt)

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Elementær sandsynlighedsregning

Sandsynlighedsregning Stokastisk variabel

Modul 5: Test for én stikprøve

Elementær sandsynlighedsregning

Susanne Ditlevsen Institut for Matematiske Fag susanne

Note til styrkefunktionen

Funktioner af flere variable

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

Statistiske modeller

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Sandsynlighedsregning Oversigt over begreber og fordelinger

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Sølvkorn 11 Eksponentialfunktioner og logaritmer

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kombinatorik. Eksempel 2: En mand har 7 par bukser og 10 skjorter. Skal han både vælge en skjorte og et par bukser, så har han 10. 7=70 mulige valg.

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Produkt og marked - matematiske og statistiske metoder

TALTEORI Wilsons sætning og Euler-Fermats sætning.

Teoretisk Statistik, 16. februar Generel teori,repetition

Noter i fejlteori. Kasper Klitgaard Berthelsen Poul Winding & Jens Møller Pedersen. Version 1.1

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Middelværdi og varians. Kovarians. korrelation = 0.02 korrelation = 0.7 korrelation = 1.0

Repetition Stokastisk variabel

Note om Monte Carlo metoden

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

TALTEORI Wilsons sætning og Euler-Fermats sætning.

Basal statistik. 30. januar 2007

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Løsning til prøveeksamen 1

Kvantitative Metoder 1 - Efterår Dagens program

Funktionalligninger - løsningsstrategier og opgaver

Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen

Statistik i basketball

Kapitel 3 Centraltendens og spredning

Hvad skal vi lave i dag?

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Kapitel 4 Sandsynlighed og statistiske modeller

Kursusgang 5 Afledte funktioner og differentialer Repetition

Løsning eksamen d. 15. december 2008

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Susanne Ditlevsen Institut for Matematiske Fag susanne

Ensidet variansanalyse

Transkript:

Statistik og Sandsynlighedsregning 2 Transformation af kontinuerte fordelinger på R, flerdimensionale kontinuerte fordelinger, mere om normalfordelingen Helle Sørensen Uge 7, onsdag SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 1 / 30

Program I formiddag: Opfølgning på transformationssætningen for fordelinger på R Bevis for sætning 5.2.3: middelværdi af t(x ). Fordeling af X 2 Transformation med fordelingsfunktion og invers fordelingsfunktion Flerdimensionale kontinuerte fordelinger Integration i R n Definition af tæthed, sandsynlighedsmål Marginalfordelinger I eftermiddag: Den lidt lettere genre til gengæld står tingene ikke så eksplicit i noterne. Fraktiler mm., også i R De 1.96 i konfidensinterval for binomialsandsynlighed: hvorfra? Dataeksempel: danske mænds indtag af A-vitamin SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 2 / 30

Transformationssætningen Antagelser: 1. X koncentreret på interval I fra a til b, dvs. P(X I ) = 1. 2. X kontinuert med tæthed p der er kontinuert på (a,b). 3. t : I R kontinuert. Så er J = t(i ) et interval fra v = inf J til h = supj og Y = t(x ) er koncentreret på (v,h). 4. t kontinuert differentiabel med t (x) 0 for alle x (a,b). Så er t strengt monoton og desuden eksisterer den inverse t 1 : J I. Sætning 5.4.1 Y = t(x ) er kontinuert med tæthed q givet ved { p(t q(y) = 1 (y))/ t (t 1 (y)) y (v,h) 0 ellers NB. d dy t 1 (y) = 1/t (t 1 (y)), så q(y) = p(t 1 (y)) d dy t 1 (y) på (v,h) SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 3 / 30

Middelværdi af Y = t(x ) Sætning 5.2.3 Y = t(x ) har middelværdi hvis og kun hvis t(x) p(x)dx < og middelværdien er så I E(Y ) = E(t(X )) = t(x)p(x) dx I Kan bevise sætningen i tilfælde hvor t opfylder antagelserne fra sætning 5.4.1: Tætheden for Y givet fra transformationssætningen Hvornår eksisterer middelværdien for Y? Omskriv betingelsen til betingelse om X SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 4 / 30

Fordeling af X 2 X kontinuert SV med værdier i hele R og kontinuert tæthed p. Hvad er tætheden for Z = X 2 (og hvorfor er Z en kontinuert SV?) Kan ikke umiddelbart bruge transformationssætningen med t(x) = x 2. Hvorfor? Bruger i stedet samme fremgangsmåde som sidst: Regn på fordelingsfunktionen for Z Argumentér for at F Z er kontinuert differentiabel på (0, ) Brug sætning 5.1.6 og slut at Z er kontinuert med tæthed F Z Regn på F Z. Specielt: Hvis X N(0,1) så er Z = X 2 χ 2 -fordelt med en frihedsgrad: q(z) = 1 2πz e z/2, z > 0 SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 5 / 30

Transformation med fordelingsfunktion X kontinuert SV koncentreret på interval fra a til b med strengt voksende fordelingsfunktion F på (a, b). Se på Y = F (X ). Hvilke værdier kan Y antage? Hvad er fordelingsfunktionen for Y Hvad er fordelingen af Y? Anvendelse: Data x 1,...,x n fra formodet fordeling med fordelingsfunkt. F : Beregn y i = F (x i ) Lav histogram for y 1,...,y n og se om det ligner histogrammet for en ligefordeling. Eksempel: A-vitamindata (i eftermiddag) SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 6 / 30

Transformation med invers fordelingsfunktion Omvendt: Hvis R er ligefordelt, så har Z = F 1 (R) fordelingsfunktion F. F skal stadig være strengt voksende sådan at F 1 eksisterer. Anvendelse: simulation af tal fra med givet fordelingsfunktion. Eksempel: Prøv evt. i R: r = runif(10000) hist(r) x=qnorm(r) hist(x) Φ 1 (R) N(0,1) SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 7 / 30

Repetition: tæthed og sandsynlighedsmål på R Interval I R. En funktion p : I R kaldes en tæthed på I hvis p(x) 0 for alle x I og I p(x)dx = 1 Sandsynlighedsmål på I: For pæne delmængder A af I sættes P(A) = 1 A (x)p(x)dx = p(x) dx I A P er en kontinuert fordeling, og P har (sandsynligheds)tæthed p. Fortolkning af p(x) som sandsynlighed per længdeenhed omkring x: x0 +h P([x 0,x 0 + h]) = p(x)dx p(x 0 )h x 0 Kan udvide til R ved at sætte p til 0 udenfor I. Stokastisk variabel med fordeling P: P(X A) = 1 A(x)p(x)dx, SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 8 / 30

Sandsynlighedstæthed og sandsynlighedsmål på R n Skal gentage historien på R n. Bemærk: Hvorfor? Skal kunne beskrive fordelingen af flere variable samtidig Skal kunne integrere funktioner af flere variable Nyt spørgsmål: hvis vi ved hvordan (X,Y ) er fordelt, hvordan er så X fordelt? Og Y? Marginalfordelinger. Nyt spørgsmål: Er der nogen sammenhæng mellem X og Y? Eksempel: ligefordelingen på [0, 1] [0, 1] SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 9 / 30

Sandsynlighedstæthed og sandsynlighedsmål på R 2 Delmængde B R 2. Funktionen p : B [0, ) er en tæthed eller sandsynlighedstæthed på B hvis p(x,y)dx dy = 1 B Sandsynlighedsmål på B: For pæne delmængder A af B sættes P(A) = 1 A (x,y)p(x,y)dx dy B P kaldes en kontinuert fordeling, og P har tæthed p. Kan udvides til fordeling på hele R 2 ved at definere p til nul udenfor B. Stok. var. med fordeling P: P((X,Y ) A) = R 2 1 A(x,y)p(x,y)dx dy... men hvad betyder integralerne? SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 10 / 30

Sandsynlighedstæthed og sandsynlighedsmål på R n Delmængde B R n. Funktionen p : B [0, ) er en tæthed eller sandsynlighedstæthed på B hvis p(x 1,...,x n )dx 1 dx n = 1 B Sandsynlighedsmål på B: For pæne delmængder A af B sættes P(A) = 1 A (x 1,...,x n )p(x 1,...,x n )dx 1 dx n = B P kaldes en kontinuert fordeling, og P har tæthed p. Kan udvides til fordeling på hele R n ved at definere p til nul udenfor B. Stokastisk variabel med fordeling P: P((X 1,...,X n ) A) = R n 1 A(x 1,...,x n )p(x 1,...,x n )dx 1 dx n... men hvad betyder integralerne? SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 11 / 30

Integration i R 2 og R n 1. f : A R hvor f er kontinuert og A = [a 1,a 2 ] [b 1,b 2 ] er begrænset. Integralet af f over A defineres som grænsen af I n = n n i=1 j=1 f (x i,x j ) (a 2 a 1 )(b 2 b 1 ) n svarende til inddelinger af [a 1,a 2 ] og [b 1,b 2 ] i n dele. Integralet kan beregnes som dobbeltintegral: a2 ( b2 ) f (x,y)dx dy = f (x,y)dy dx = A a 1 b 1 Hvorfor giver dette mening? b2 b 1 ( a2 a 1 ) f (x,y)dx dy SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 12 / 30

Integration i R 2 og R n 2. f : R 2 [0, ) kontinuert hvor f altså er defineret på en ubegrænset mængde. Vi ser på de begrænsede mængder A n = [ n,n] [ n,n] og de tilhørende integraler n n I n = f (x,y)dx dy = f (x,y)dx dy A n n n Hvis I n konvergerer siger vi at f er integrabel og definerer f (x,y)dx dy = lim I n R 2 n SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 13 / 30

Integration i R 2 og R n 3. f : R 2 R hvor f altså er defineret på en ubegrænset mængde og kan have negative værdier. f kaldes integrabel hvis f er integrabel, og i så fald er R 2 f (x,y)dx dy = 4. f : R n R hvor f altså er defineret på R n. f (x,y)dy dx = f (x,y)dx dy f kaldes integrabel hvis f er integrabel, og i så fald er R n f (x 1,...,x n )dx 1 dx n =... eller i en anden integrationsrækkefølge. f (x 1,...,x n )dx n dx 1 SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 14 / 30

Tæthed og sandsynlighedsmål på R 2 og R n Nu skulle definitionerne på tæthed og sandsynlighedsmål gerne give mening... Eksempel (inspireret af eksempel D.2.1): B = [0,1] [0,1] og p(x,y) = 3min(x,y), (x,y) B Er p en tæthed på B? Sæt A = {(x,y) B y x}?. Hvad er P(A) SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 15 / 30

Tæthed som sandsynlighed per areal-/volumenenhed p tæthed på B R 2. Se på (x 0,y 0 ) B og antag at p er kontinuert i (x 0,y 0 ). Betragt et lille δ og mængden A = [x 0 + δ,y 0 + δ]. Så er P(A) = 1 A (x,y)p(x,y)dx dy p(x 0,y 0 )δ 2 = p(x 0,y 0 ) A B således at p(x 0,y 0 ) kan fortolkes som sandsynlighed per arealenhed nær (x 0,y 0 ). Tilsvarende i R n : p(x 1,...,x n ) er sandsynlighed per volumenenhed nær punktet (x 1,...,x n ). SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 16 / 30

Marginalfordelinger Antag at den todimensionale stokastiske variabel (X,Y ) har tæthed p på R 2. For Ã R2 er altså P ( (X,Y ) Ã) = 1Ã(x,y)p(x,y)dx dy = 1Ã(x,y)dy dx R 2 R R Hvad kan vi sige om marginalfordelingerne, dvs. fordelingen af X og fordelingen af Y? SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 17 / 30

Marginalfordelinger X er en kontinuert stokastisk variabel med tæthed q(x) = p(x,y)dy Finder altså tætheden for X ved at integerere y ud i tætheden. R Tilsvarende i R n : Hvis (X 1,...,X n ) har tæthed p, så er (X 1,...,X k ) også kontinuert med tæthed der fås ved at integrere de øvrige koordinater væk: q(x 1,...,x k ) = p(x 1,...,x n )dx k+1 dx n R n k Eksempel (fortsat): Hvis (X,Y ) har tæthed p(x,y) = 3min(x,y), (x,y) på B = [0,1] [0,1], hvad er så fordelingen af X? SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 18 / 30

Mere om normalfordelingen Diverse om normalfordelingen: Tætheden for forskelligt valg af µ og σ 2. Fraktiler i normalfordelingen. Fordelingsfunktion og fraktiler i R. X binomialfordelt med antalsparameter n og sandsynlighedspar. p. Estimator for p er ˆp = X n. (Approksimativt) 95%-konfidensinterval for p: ˆp(1 ˆp) ˆp ± 1.96 n Hvor kommer de 1.96 fra? Eksempel hvor normalfordelingen er nyttig selvom data overhovedet ikke er normalfordelt SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 19 / 30

Normalfordelingen med middelværdi µ og varians σ 2 Density f(y) 0.0 0.2 0.4 0.6 0.8 N( 2,0.25) N(0,1) N(2,1) N(0,4) 6 4 2 0 2 4 6 y SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 20 / 30

Eksempel: indtag af A-vitamin A-vitaminindtaget for 1079 danske mænd. Indlæst i R som variabel avit (tænk ikke på hvordan lige nu...) Histogram for avit Histogram for logavit defineret som logaritmen til avit logavit ser ud til at være normalfordelt! Empirisk middelværdi (gennemsnit), varians og spredning for logavit: Modelkontrol: ȳ = 7.485, s 2 = 0.192, s = 0.192 Normeret histogram sammen med tæthed for N(7.485, 0.192). Er det en rimelig approksimation? Prøv også at transformation med fordelingsfunktion for N(7.485, 0.192). Ligefordelt? SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 21 / 30

Eksempel: indtag af A-vitamin Histogram of avit Histogram of logavit Density 0e+00 2e 04 4e 04 0 2000 4000 6000 8000 avit Density 0.0 0.2 0.4 0.6 0.8 5 6 7 8 9 logavit SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 22 / 30

Eksempel: indtag af A-vitamin Histogram of trans Frequency 0 20 40 60 80 100 120 0.0 0.2 0.4 0.6 0.8 1.0 trans SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 23 / 30

Diverse R-kommandoer ### Normeret så samlet areal er 1, cirka 15 intervaller hist(logavit, nclass=15, prob=t) ### Middelværdi og spredning for logavit ey = mean(logavit) sdy = sd(logavit) ### Normalfordelingstæthed oveni: z = seq(5,9,0.1) ## x-værdier dens = dnorm(z,ey,sdy) ## tætheden points(z,dens, type="l") ## tegn oveni ### Transformation til formodet ligefordeling: trans = pnorm((logavit-ey)/sdy) hist(trans) SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 24 / 30

Fraktiler i standardnormalfordelingen Density (φ) 0.0 0.1 0.2 0.3 0.4 0.90 0.05 0.05 4 2 0 2 4 z Cdf (Φ) 0.0 0.2 0.4 0.6 0.8 1.0 4 2 0 2 4 z P( 1.645 X 1.645) = 0.90 eller P(X 1.645) = 0.95 1.64 er 95%-fraktilen i N(0,1). Opgave 5.18, uge 8 SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 25 / 30

Fraktiler i standardnormalfordelingen > pnorm(1.645) [1] 0.950015 > qnorm(0.95) [1] 1.644854 > qnorm(0.975) [1] 1.959964 > pnorm(1.96) [1] 0.9750021 > qnorm(0.995) [1] 2.575829 > pnorm(2.576) [1] 0.9950025 P(X 1.645) = 0.95 P( 1.645 X 1.645) = 0.90 P(X 1.96) = 0.975 P( 1.96 X 1.96) = 0.95 P(X 2.576) = 0.995 P( 2.576 X 2.576) = 0.99 SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 26 / 30

Sandsynligheder i normalfordelingen Density Hvis Y N(µ,σ 2 ): 99.7% 95% 68% σ P(µ 1 σ Y µ + 1 σ) = 0.68 P(µ 2 σ Y µ + 2 σ) = 0.95 P(µ 3 σ Y µ + 3 σ) = 0.997 Density f(y) 0.0 0.2 0.4 0.6 0.8 N( 2,0.25) N(0,1) N(2,1) N(0,4) 6 4 2 0 2 4 6 y SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 27 / 30

Opgave Density 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 7 8 9 10 11 12 13 Density 0.000 0.005 0.010 0.015 0.020 0.025 0 20 40 60 80 100 Density 0.00 0.05 0.10 0.15 0 2 4 6 8 10 12 Hvad er middelværdi og varians mon for ovenstående data? SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 28 / 30

Konfidensinterval for p i binomialfordelingen ˆp = X /n er approksimativt normalf. med middelv. p og varians p(1 p)/n. Derfor er ( ) p(1 p) p(1 p) P p 1.96 ˆp p + 1.96 0.95 n n Isolér p og indsæt estimatet ˆp i stedet for p i grænserne: ( p(1 p) 0.95 P ˆp 1.96 n p p + 1.96 ( ˆp(1 ˆp) P ˆp 1.96 n p ˆp + 1.96 Husk at dette er et udsagn om ˆp! p(1 p) n ˆp(1 ˆp) n ) ) SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 29 / 30

Resume Vigtige ting fra i dag: Flerdimensionale fordelinger: tæthed, marginalfordelinger Større tryghed med normalfordelingen Næste uge: Mere om flerdimensionale fordelinger uafhængighed transformation middelværdi, varians, kovarians, korrelation SaSt2 (Uge 7, onsdag) Transf., normalf., flerdim. 30 / 30