Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Relaterede dokumenter
Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Kvantitative Metoder 1 - Efterår Dagens program

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Definition. Definitioner

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

4 Oversigt over kapitel 4

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Elementær sandsynlighedsregning

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Elementær sandsynlighedsregning

Kvantitative Metoder 1 - Forår 2007

MM501 forelæsningsslides

Oversigt over nyttige fordelinger

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kvantitative Metoder 1 - Forår 2007

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Kvantitative Metoder 1 - Forår 2007

Produkt og marked - matematiske og statistiske metoder

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Note om Monte Carlo metoden

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Diskrete fordelinger. Fire vigtige diskrete fordelinger: 1. Uniform fordeling (diskret) 2. Binomial fordeling. 3. Hyper-geometrisk fordeling

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

MM501/MM503 forelæsningsslides

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Forelæsning 10: Statistik ved hjælp af simulering

Oversigt. Kursus Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Hvorfor er det lige at vi skal lære det her?

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen


Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Løsning eksamen d. 15. december 2008

Kvantitative Metoder 1 - Forår Dagens program

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Produkt og marked - matematiske og statistiske metoder

Uge 10 Teoretisk Statistik 1. marts 2004

Kvantitative Metoder 1 - Forår Dagens program

Vejledende løsninger til opgaver i kapitel 6

Normalfordelingen og Stikprøvefordelinger

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

02402 Vejledende løsninger til hjemmeopgaver og øvelser i kapitel 4

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Kvantitative Metoder 1 - Forår Dagens program

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

INSTITUT FOR MATEMATISKE FAG c

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Løsning til eksaminen d. 29. maj 2009

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Statistik noter - Efterår 2009 Keller - Statistics for management and economics

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Løsning til eksaminen d. 14. december 2009

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Sandsynlighedsregning

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Løsninger til kapitel 5

CIVILINGENIØREKSAMEN Side 1 af 16 sider. Skriftlig prøve, den: 28. maj 2010 Kursus nr : (navn) (underskrift) (bord nr)

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Teoretisk Statistik, 16. februar Generel teori,repetition

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Hvad skal vi lave i dag?

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

StatDataN: Middelværdi og varians

Kapitel 4 Sandsynlighed og statistiske modeller

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Transkript:

Course 02402/02323 Introducerende Statistik Forelæsning 2: Stokastisk variabel og diskrete fordelinger Klaus K. Andersen og Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: klaus@cancer.dk Oversigt 1 Stokastisk variabel 2 3 Fordelingsfunktion 4 Eksempel 1 Eksempel 2 Eksempel 3 Fordelinger i R 5 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 1 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 2 / 51 Stokastisk variabel Stokastisk variabel Diskret eller kontinuert Stokastisk variabel En stokastisk variabel (random variable) repræsenterer udfaldet af et eksperiment der endnu ikke er udført Et terningekast Antallet af seksere i 10 terningekast km/l for en bil Måling af sukkerniveau i blodprøve... Vi skelner mellem diskret og kontinuert Diskret kan tælles: Hvor mange der bruger briller herinde Antal mange flyvere letter den næste time Kontinuert: Vindmåling Tiden det tog at komme til DTU I dag er det diskret næste uge er det kontinuert. Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 4 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 5 / 51

Stokastisk variabel Stokastisk variabel Stokastisk variabel Simuler et terningekast Før eksperimentet er udført stokastisk variabel haves X (eller X 1,..., X n ) noteret med stort bogstav. Så udføres eksperimentet, og vi har da en realisation eller observation Vælg et tal fra (1, 2, 3, 4, 5, 6) med lige sandsynlighed for hvert udfald x (eller x 1,..., x n ) noteret med småt bogstav. Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 6 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 7 / 51 Diskrete fordelinger Stokastisk variabel Selve konceptet er simpelthen at beskrive eksperimentet før det er udført Hvad kan vi gøre når vi endnu ikke kender udfaldet!? Løsning: brug en tæthedsfunktion En stokastisk variabel har en tæthedsfunktion (probability density function (pdf)) Definition f(x) = P (X = x) Sandsynligheden for at X bliver udfaldet x når eksperimentet udføres Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 8 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 10 / 51

Stikprøve En fair ternings tæthedsfunktion f(x) 0.0 0.2 0.4 0.6 0.8 1.0 gælder: f(1) = 1 6 f(x) 0 alle x f(x) = 1 f(2) = 1 6 Hvis vi kun har en observation kan vi da se fordelingen? Nej men hvis vi har n observationer, så har vi en stikprøve (a sample) {x 1, x 2,..., x n } og da kan vi begynde at se fordelingen. 1 2 3 4 5 6 x Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 11 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 12 / 51 Simulate n rolls with a fair dice ## Antal simulerede realiseringer n <- 30 ## Træk uafhængigt fra mængden (1,2,3,4,5,6) med ens sandsynlighed xfair <- sample(1:6, size=n, replace=true) ## Tæl antallet af hvert udfald table(xfair) En unfair ternings tæthedsfunktion ## Plot den empiriske tæthedsfunktion (pdf) plot(table(xfair)/n, ylim=c(0,1), lwd=10, xlab="x", ylab="f(x)") ## Tilføj den rigtige tæthedsfunktion til plottet lines(rep(1/6,6), type="h", lwd=3, col="red") ## legend legend("topright", c("empirical pdf","pdf"), lty=1, col=c(1,2), lwd=c(5,2)) Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 13 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 14 / 51

Nogle spørgsmål Simuler n kast med en ikke-fair terning ## Antal simulerede realiseringer n <- 30 ## Træk uafhændigt fra mængden (1,2,3,4,5,6) med højere ## sandsynlighed for en sekser xunfair <- sample(1:6, size=n, replace=true, prob=c(rep(1/7,5),2/7)) Find nogle sandsynligheder for X unfair : Sandsynligheden for at få en firer? Sandsynligheden for at få en femmer eller en sekser? Sandsynligheden for at få mindre end tre? ## Plot den empiriske tæthedsfunktion plot(table(xunfair)/n, lwd=10, ylim=c(0,1), xlab="x", ylab="density") ## Tilføj den rigtige tæthedsfunktion lines(c(rep(1/7,5),2/7), lwd=4, type="h", col=2) ## En legend legend("topright", c("empirical pdf","pdf"), lty=1, col=c(1,2), lwd=c(5,2)) 0.0 0.6 f(1) = 1 7 f(6) = 2 7 1 2 3 4 5 6 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 15 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 16 / 51 Fordelingsfunktion Fordelingsfunktion (distribution function eller cumulative density function (cdf)) Fair terning eksempel Fordelingsfunktion Lad X repræsentere et kast med en fair terning Udregn sandsynligheden for at få udfald under 3: Definition Fordelingsfunktionen (cdf) er tæthedsfunktionen akkumuleret F (x) = P (X x) = f(x j ) j hvor x j x P (X < 3) = P (X 2) = F (2) fordelingsfunktionen = P (X = 1) + P (X = 2) = f(1) + f(2) tæthedsfunktionen = 1 6 + 1 6 = 1 3 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 18 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 19 / 51

Fair terning eksempel Fordelingsfunktion Udregn sandsynligheden for at få udfald over eller lig 3: P (X 3) = 1 P (X 2) = 1 F (2) fordelingsfunktionen = 1 1 3 = 2 3 Der findes en række statistiske fordelinger, som kan bruges til at beskrive og analysere forskellige problemstillinger med I dag er det diskrete fordelinger: Den hypergeometriske fordeling Poisson fordelingen Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 20 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 22 / 51 Et eksperiment med to udfald (succes eller ikke-succes) gentages X er antal succeser efter n gentagelser Så følger X binomial fordelingen X B(n, p) n antal gentagelser p sandsynligheden for succes i hver gentagelse s tæthedsfunktion giver sandsynligheden for x antal succeser ( ) n f(x; n, p) = P (X = x) = p x (1 p) n x x Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 23 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 24 / 51

Binomial fordeling eksempel ## Sandsynlighed for success p <- 0.1 ## Antal gentagelser af succes og ikke-succes eksperimentet nrepeat <- 30 ## Simuler Bernoulli eksperiment nrepeat gange tmp <- sample(c(0,1), size=nrepeat, prob=c(1-p,p), replace=true) ## x er nu sum(tmp) ## Lav tilsvarende med funktion til simulering af binomial fordeling rbinom(1, size=30, prob=p) ################ ## Fair terning eksempel ## Antal simulerede realiseringer n <- 30 ## Træk uafhængigt fra mængden (1,2,3,4,5,6) med ens sandsynlighed xfair <- sample(1:6, size=n, replace=true) ## Tæl sammen for mange seksere sum(xfair == 6) ## Lav tilsvarende med rbinom() rbinom(n=1, size=30, prob=1/6) Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 25 / 51 Eksempel 1 I et kundecenter i et telefonselskab søger man at forbedre kundetilfredsheden. Især er det vigtigt, at når der indrapporteres en fejl, bliver fejlen udbedret i løbet af samme dag. Antag at sandsynligheden for at en fejl bliver udbedret i løbet af samme dag er 0.7. I løbet af en dag indrapporteres 6 fejl. Hvad er sandsynligheden for at samtlige fejl udbedres? Step 1) Hvad skal repræsenteres: X er antal udbedrede fejl Step 2) Hvilken fordeling: X følger binomial fordelingen Step 3) Hvilken sandsynlighed: P (X = x) = f(x; n, p) P (X = 6) = f(6; n, p) Step 4) Hvad er antal trækninger? n = 6 Hvad er succes-sandsynligheden? p = 0.7 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 26 / 51 Eksempel 1 Hvad er sandsynligheden for at 2 eller færre fejl bliver udbedret samme dag? Step 1) Hvad skal repræsenteres: X er antal udbedrede fejl Step 2) Hvilken fordeling: X følger binomial fordelingen Step 3) Hvilken sandsynlighed: P (X??) P (X 2) = F (2; n, p) Step 4) Hvad er antal trækninger? n = 6 Hvad er succes-sandsynligheden? p = 0.7 X er igen antal succeser, men nu er det uden tilbagelægning ved gentagelsen X følger da den hypergeometriske fordeling n er antallet af trækninger X H(n, a, N) a er antallet af succeser i populationen N elementer store population Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 27 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 28 / 51

Eksempel 2 Sandsynligheden for at få x succeser er n er antallet af trækninger f(x; n, a, N) = P (X = x) = a er antallet af succeser i populationen N elementer stor population i R, e.g. function dhyper: k svarer til n n svarer til N a m svarer til a ( a N a ) x)( n x ( N n) I en forsendelse af 10 hard disks har 2 mindre skrammer. Hvis der udtages en tilfældig stikprøve på 3 hard disks, hvad er sandsynligheden for at mindst en af dem har skrammer? Step 1) Hvad skal repræsenteres: X er antal med skrammer Step 2) Hvilken fordeling: X følger den hypergeometriske fordeling Step 3) Hvilken sandsynlighed: P (X??) P (X 1) = 1 P (X = 0) = 1 f(0; n, a, N) Step 4) Hvad er antal trækninger? n = 3 Hvor mange succeser er der? a = 2 Hvor mange er der i alt? N = 10 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 29 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 30 / 51 Binomial vs. hypergeometrisk anvendes også for at analysere stikprøver med tilbagelægning (Tænk på en terningekast) Når man vil analysere stikprøver uden tilbagelægning anvendes den hypergeometriske fordeling (Tænk på træk fra en hat) Poisson fordelingen anvendes ofte som en fordeling (model) for tælletal, hvor der ikke er nogen naturlig øvre grænse Poisson fordelingen karakteriseres ved en intensitet, dvs. på formen antal/enhed Parameteren λ angiver intensiteten Typisk hændelser per tidsinterval Intervallerne mellem hændelserne er uafhængige, dvs. processen er hukommelsesløs Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 31 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 32 / 51

Eksempel 3.1 X følger Poisson fordelingen X P (λ) : f(x) = P (X = x) = λx x! e λ Det antages, at der i gennemsnit bliver indlagt 0.3 patienter pr. dag på københavnske hospitaler som følge af luftforurening. Hvad er sandsynligheden for at der på en vilkårlig dag bliver indlagt højst 2 patienter som følge af luftforurening? Step 1) Hvad skal repræsenteres: X er antal patienter pr. dag Step 2) Hvilken fordeling: X følger Poisson fordelingen Step 3) Hvilken sandsynlighed: P (X??)P (X 2) Step 4) Hvad er raten: λ = 0.3 patienter per dag Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 33 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 34 / 51 Eksempel 3.2 Eksempel 3.3 Det antages, at der i gennemsnit bliver indlagt 0.3 patienter pr. dag på københavnske hospitaler som følge af luftforurening. Hvad er sandsynligheden for at der på en vilkårlig dag bliver indlagt præcis 2 patienter? Step 3) Hvilken sandsynlighed: P (X??)P (X = 2) Det antages, at der i gennemsnit bliver indlagt 0.3 patienter pr. dag på københavnske hospitaler som følge af luftforurening. Hvad er sandsynligheden for at der på en vilkårlig dag bliver indlagt mindst 2 patienter? Step 3) Hvilken sandsynlighed: P (X??)P (X 2) = 1 P (X 1) Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 35 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 36 / 51

Fordelinger i R Eksempel 3.4 Hvad er sandsynligheden for at der i en periode på 3 dage bliver indlagt præcis 1 patient? Step 1) Hvad skal repræsenteres: Fra X antal per dag Til X 3dage som er patienter per 3 dage Step 2) Hvilken fordeling følger X 3dage : Poisson fordelingen Step 3) Hvilken sandsynlighed: P (X 3dage = 1) Step 4) Skaler raten Fra λ = 0.3 patienter/dag til λ 3dage = 0.9 patienter/3dage R binom hyper pois Betegnelse Binomial hypergeometrisk poisson d f(x) (probability density function). p Fordelingsfunktion F (x) (cumulative distribution function). r Tilfældige tal fra den anførte fordeling. (Forelæsning 10) q Fraktil (quantile) i fordeling. Husk at hjælp til funktion mm. fåes ved at sætte? foran navnet. Eksempel binomial fordelt: P (X 5) = F (5; 10, 0.6) pbinom(q=5, size=10, prob=0.6) ## Få hjælpen med?pbinom Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 37 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 38 / 51 Middelværdi (mean) og forventningsværdi (expectation) Middelværdi eksempel Stokastisk variabels middelværdi µ = E(X) = xf(x) alle x Det rigtige gennemsnit Fortæller hvor midten af X er Middelværdi af en terning µ = E(X) = = 1 1 6 + 2 1 6 + 3 1 6 + 4 1 6 + 5 1 6 + 6 1 6 = 3.5 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 40 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 41 / 51

## Antal simulerede realiseringer n <- 30 ## Træk uafhængigt fra mængden (1,2,3,4,5,6) med ens sandsynlighed xfair <- sample(1:6, size=n, replace=true) ## Udregn empirisk middelværdi (sample mean, læg mærke til ## i R hedder funktionen 'mean') mean(xfair) Jo flere observationer, jo tættere kommer man på den rigtige middelværdi Prøv det i R lim ˆµ = µ n Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 42 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 43 / 51 Varians Varians eksempel Definition Et mål for spredningen σ 2 = Var(X) = alle x(x µ) 2 f(x) Den rigtige spredning af X (modsat empirisk varians (sample variance)) Varians af terningekast σ 2 = E[(X µ) 2 ] = = (1 3.5) 2 1 6 + (2 3.5)2 1 6 + (3 3.5)2 1 6 + (4 3.5) 2 1 6 + (5 3.5)2 1 6 + (6 3.5)2 1 6 2.92 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 44 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 45 / 51

Varians eksempel ## Antal simulerede realiseringer n <- 30 ## Træk uafhængigt fra mængden (1,2,3,4,5,6) med ens sandsynlighed xfair <- sample(1:6, size=n, replace=true) ## Udregn empirisk varians (sample variance, læg mærke til ## i R hedder funktionen 'var') var(xfair) : Middelværdi: µ = n p Varians: σ 2 = n p (1 p) Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 46 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 47 / 51 for kendte fordelinger Den hypergeometriske fordeling: Middelværdi: µ = n a N Varians: σ 2 = na (N a) (N n) N 2 (N 1) Poisson fordelingen: Middelværdi: µ = λ Varians: σ 2 = λ Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 48 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 49 / 51

Oversigt Terninge eksempel, se forskel på empirisk middelværdi og middelværdi ## Gentag 10 gange: Tæl sammen for mange seksere på 30 slag antalseksere <- rbinom(n=10, size=30, prob=1/6) ## Endelig kan vi se på empirisk middelværdi (sample mean) mean(rbinom(n=10, size=30, prob=1/6)) ## Den (rigtige) middelværdi (mean) n * 1/6 Oversigt 1 Stokastisk variabel 2 3 Fordelingsfunktion 4 Eksempel 1 Eksempel 2 Eksempel 3 Fordelinger i R 5 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 50 / 51 Klaus KA og Per BB (klaus@cancer.dk) Introduktion til Statistik, Forelæsning 2 Efteråret 2016 51 / 51