Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger



Relaterede dokumenter
Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Kvantitative Metoder 1 - Efterår Dagens program

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Oversigt over nyttige fordelinger

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

4 Oversigt over kapitel 4

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Definition. Definitioner

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Elementær sandsynlighedsregning

Kvantitative Metoder 1 - Forår 2007

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Elementær sandsynlighedsregning

Vejledende løsninger til opgaver i kapitel 6

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kvantitative Metoder 1 - Forår 2007

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Kvantitative Metoder 1 - Forår 2007

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Note om Monte Carlo metoden

Løsninger til kapitel 5

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kvantitative Metoder 1 - Forår Dagens program

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Produkt og marked - matematiske og statistiske metoder


MM501 forelæsningsslides

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Diskrete fordelinger. Fire vigtige diskrete fordelinger: 1. Uniform fordeling (diskret) 2. Binomial fordeling. 3. Hyper-geometrisk fordeling

Statistik noter - Efterår 2009 Keller - Statistics for management and economics

Kapitel 4 Sandsynlighed og statistiske modeller

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Løsning eksamen d. 15. december 2008

Uge 10 Teoretisk Statistik 1. marts 2004

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

MM501/MM503 forelæsningsslides

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Hvorfor er det lige at vi skal lære det her?

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Kapitel 4 Sandsynlighed og statistiske modeller

Statistiske modeller

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Normalfordelingen og Stikprøvefordelinger

Løsning til eksaminen d. 29. maj 2009

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Hvad skal vi lave i dag?

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

Kvantitative Metoder 1 - Forår Dagens program

Hvad skal vi lave i dag?

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Kvantitative Metoder 1 - Forår Dagens program

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

02402 Vejledende løsninger til hjemmeopgaver og øvelser i kapitel 4

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik viden eller tilfældighed

Teoretisk Statistik, 16. februar Generel teori,repetition

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Forelæsning 10: Statistik ved hjælp af simulering

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Binomialfordelingen. Binomialfordelingen. Binomialfordelingen

Sandsynlighedsregning

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Løsning til eksaminen d. 14. december 2009

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Sandsynlighedsregning

Sandsynlighedsregning 7. forelæsning Bo Friis Nielsen

Transkript:

Introduktion til Statistik Forelæsning 2: og diskrete fordelinger Oversigt 1 2 3 Fordelingsfunktion 4 Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk Binomialfordelingen Eksempler Eksempel 1 Eksempel 2 Eksempel 3 5 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 1 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 2 / 55 Praktisk information En stokastisk variabel (random variable) tildeler en værdi til udfaldet af et eksperiment der endnu ikke er udført SE PRAKTISK INFORMATION PÅ HJEMMESIDEN OG I STARTEN AF SLIDES FRA UGE 1 Et terningekast Antallet af seksere i 10 terningekast Hvor stor en andel svarer ja til et spørgsmål km/l for en bil Måling af sukkerniveau i blodprøve... Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 3 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 5 / 55

Diskret eller kontinuert Vi skelner mellem diskret og kontinuert Diskret (kan ofte tælles): Hvor mange der bruger briller herinde Antal mange flyvere letter den næste time... Kontinuert: Vindmåling Tiden det tog at komme til DTU... Før eksperimentet er udført stokastisk variabel haves noteret med stort bogstav. Så udføres eksperimentet, og vi har da en realisation eller observation noteret med småt bogstav. X 1 1 Der er en gråzone, f.eks. for observationer målt med lav opløsning. I dag er det diskret og i næste uge er det kontinuert. Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 6 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 7 / 55 Simuler et terningekast Før eksperimentet er udført stokastisk variabel haves X 1,X 2,...,X n noteret med stort bogstav. Så udføres eksperimentet, og vi har da en realisation eller observation 1, 2,..., n noteret med småt bogstav. Hvis vi udfører eksperimentet n gange. Vælg et tal fra (1,2,3,4,5,6) med lige stor sandsynlighed for hvert udfald Simuler i R ## Simuler et terningekast ## Vælg et tal fra (1,2,3,4,5,6) med lige sandsynlighed for hvert udfald sample(1:6, size=1) ## Antal simulerede realiseringer n <- 30 ## Træk uafhængigt fra mængden (1,2,3,4,5,6) med ens sandsynlighed sample(1:6, size=n, replace=true) Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 8 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 9 / 55

Diskrete fordelinger Hvordan kan vi regne på eksperimentet før det er udført? Hvad kan vi gøre når vi endnu ikke kender udfaldet!? Løsning: brug en tæthedsfunktion En stokastisk variabel har en tæthedsfunktion (probability density function (pdf)) Definition f () = P(X = ) Sandsynligheden for at X antager værdien når eksperimentet udføres Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 10 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 12 / 55 En unfair ternings tæthedsfunktion En fair ternings tæthedsfunktion f X unfair() 0.0 0.2 0.4 0.6 0.8 1.0 f (1) = 1 7 f (6) = 2 7 1 2 3 4 5 6 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 13 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 14 / 55

Find nogle sandsynligheder for X unfair : Sandsynligheden for at få en fire? Sandsynligheden for at få en femmer eller en sekser? Sandsynligheden for at få mindre end tre? Stikprøve Density 0.0 0.2 0.4 0.6 0.8 1.0 f (1) = 1 7 f (6) = 2 7 Svarmuligheder: A: 3 7 B: 1 6 C: 4 7 D: 2 7 Vi har en terning og vil nu undersøge om en terningen er fair. Hvis vi kun har en observation kan vi da se fordelingen? Nej men hvis vi har n observationer, så har vi en stikprøve (sample) { 1, 2,..., n } og da kan vi begynde at se fordelingen. 1 2 3 4 5 6 E: 1 7 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 15 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 16 / 55 Simuler n kast med en fair terning ## Simuler en fair terning ## Antal simulerede realiseringer n <- 30 ## Træk uafhængigt fra mængden (1,2,3,4,5,6) med ens sandsynlighed Fair <- sample(1:6, size=n, replace=true) ## Tæl antallet af hvert udfald table(fair) ## Plot den empiriske tæthedsfunktion (pdf), altså et density histogram plot(table(fair)/n, ylim=c(0,1), lwd=10, lab="", ylab="f()") ## Tilføj den rigtige tæthedsfunktion til plottet plot(table(fair)/n, ylim=c(0,1), lwd=10, lab="", ylab="f()") lines(rep(1/6,6), type="h", lwd=3, col="red") ## legend legend("topright", c("empirical pdf","pdf"), lty=1, col=c(1,2), lwd=c(5,2)) Simuler n kast med en ikke-fair terning ## Simuler en ikke-fair terning ## Antal simulerede realiseringer n <- 30 ## Træk uafhændigt fra mængden (1,2,3,4,5,6) med højere sandsynlighed for en sekser Unfair <- sample(1:6, size=n, replace=true, prob=c(rep(1/7,5),2/7)) ## Plot den empiriske tæthedsfunktion plot(table(unfair)/n, lwd=10, ylim=c(0,1), lab="", ylab="density") ## Tilføj den rigtige tæthedsfunktion lines(c(rep(1/7,5),2/7), lwd=4, type="h", col=2) ## En legend legend("topright", c("empirical pdf","pdf"), lty=1, col=c(1,2), lwd=c(5,2)) Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 17 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 18 / 55

Fordelingsfunktion Fordelingsfunktion (distribution function eller cumulative density function (cdf)) Fair terning eksempel Fordelingsfunktion Lad X repræsentere værdien af et kast med en fair terning Udregn sandsynligheden for at få udfald under 3: Definition Fordelingsfunktionen (cdf) er tæthedsfunktionen akkumuleret F() = P(X ) = j hvor j f ( j ) P(X < 3) = P(X 2) = F(2) fordelingsfunktionen = P(X = 1) + P(X = 2) = f (1) + f (2) tæthedsfunktionen = 1 6 + 1 6 = 1 3 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 20 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 21 / 55 Fair terning eksempel Fordelingsfunktion Fair terning eksempel Fordelingsfunktion Udregn sandsynligheden for at få udfald over eller lig 3: P(X 3) = 1 P(X 2) = 1 F(2) fordelingsfunktionen = 1 1 3 = 2 3 F() F() 0.0 0.5 1.0 1.5 0.0 0.2 0.4 0.6 0.8 1.0 A 1 2 3 4 5 6 C F() F() 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 B 1 2 3 4 5 6 D 1 2 3 4 5 6 1 2 3 4 5 6 Hvilket et af ovenstående plots kan være en fordelingsfunktion? A, B, C eller D? Svar: C Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 22 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 23 / 55

Binomialfordelingen En handling (eksperiment) med to udfald (succes eller ikke-succes) gentages Der findes en række statistiske fordelinger, som kan bruges til at beskrive og analysere forskellige problemstillinger med I dag er det diskrete fordelinger: Binomialfordelingen Den hypergeometriske fordeling Eksperiment med udfald: Tæl antal succeser Lad X repræsentere antal succeser efter n gentagelser X følger binomialfordelingen X B(n,p) med parametre n antal gentagelser p sandsynligheden for succes i hver gentagelse Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 25 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 26 / 55 Binomialfordelingen Binomialfordelingen Binomialfordeling eksempel i R ## Simuler en binomialfordeling Binomialfordelingens tæthedsfunktion giver sandsynligheden for antal succeser ( ) n f (;n,p) = P(X = ) = p (1 p) n Eksempel: Sandsynlighed for 2 plat ved 5 plat-eller-krone kast med mønt ## Sandsynlighed for success p <- 0.1 ## Antal gentagelser af succes og ikke-succes eksperimentet nrepeat <- 30 ## Simuler Bernoulli eksperiment nrepeat gange tmp <- sample(c(0,1), size=nrepeat, prob=c(1-p,p), replace=true) ## er nu sum(tmp) ## Lav tilsvarende med funktion til simulering af binomialfordeling rbinom(1, size=30, prob=p) Binomialfordeling med terning i R f (2;5,0.5) = P(X = 2) = ( ) 5 0.5 2 (1 0.5) 5 2 = 0.3125 2 ## Fair terning eksempel ## Antal simulerede realiseringer n <- 30 ## Træk uafhængigt fra mængden (1,2,3,4,5,6) med ens sandsynlighed Fair <- sample(1:6, size=n, replace=true) ## Tæl sammen for mange seksere sum(fair == 6) ## Lav tilsvarende med rbinom() rbinom(n=1, size=30, prob=1/6) Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 27 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 28 / 55

X er igen antal succeser, men nu er det uden tilbagelægning ved gentagelsen X følger den hypergeometriske fordeling X H(n,a,N) med parametrene n er antallet af trækninger a er antallet af succeser i populationen N elementer store population Sandsynligheden for at få succeser er f (;n,a,n) = P(X = ) = hvor n er antallet af trækninger a er antallet af succeser i populationen N elementer stor population ( a N a ) )( n ( N n) Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 29 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 30 / 55 Pause Binomial vs. hypergeometrisk Binomialfordelingen anvendes også for at analysere stikprøver med tilbagelægning (Tænk på en terningekast) PAUSE Når man vil analysere stikprøver uden tilbagelægning anvendes den hypergeometriske fordeling (Tænk på træk fra en hat) Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 31 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 32 / 55

Distributioner i R Eksempler R binom hyper Betegnelse Binomial hypergeometrisk d f () (probability density function). p Fordelingsfunktion F() (cumulative distribution function). r Tilfældige tal fra den anførte fordeling. (Forelæsning 10) q Fraktil (quantile) i fordeling. Husk at hjælp til funktion mm. fåes ved at sætte? foran navnet. Eksempel binomialfordelt: P(X 5) = F(5; 10, 0.6) ## Binomialfordelingsfunktion pbinom(q=5, size=10, prob=0.6) ## [1] 0.3669 ## Få hjælpen med?pbinom Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 33 / 55 Eksempel 1 I et kundecenter i et telefonselskab søger man at forbedre kundetilfredsheden. Især er det vigtigt, at når der indrapporteres en fejl, bliver fejlen udbedret i løbet af samme dag. Antag at sandsynligheden for at en fejl bliver udbedret i løbet af samme dag er 0.7. I løbet af en dag indrapporteres 6 fejl. Hvad er sandsynligheden for at samtlige fejl udbedres? Step 1) Hvad skal repræsenteres: X er antal udbedrede fejl Step 2) Fordeling: X følgera: binomial, B: hypergeometrisk? binomialfordelingen Step 3) Hvilken sandsynlighed: P(X??) P(X = 6) = f (6;n,p) Step 4) Hvad er antal trækninger? n = 6 Hvad er succes-sandsynligheden? p = 0.7 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 34 / 55 Eksempler Eksempler Eksempel 1 Eksempel 2 Hvad er sandsynligheden for at 2 eller færre fejl bliver udbedret samme dag? I bankoklubben trækkes der lod om 5 flasker Gammel Dansk. Der er udstedt 50 lodder og du har 3 lodder. Step 1) Hvad skal repræsenteres: X er antal udbedrede fejl Hvad er sandsynligheden for at du vinder præcis en flaske Gammel Dansk? Step 2) Hvilken fordeling: X følger binomialfordelingen Step 3) Hvilken sandsynlighed: A: P(X < 2) B: P(X 1) C: P(X < 3) D: 1 P(X 2) P(X < 3) = P(X 2) = F(2;n,p) Step 4) Hvad er antal trækninger? n = 6 Hvad er succes-sandsynligheden? p = 0.7 Step 1) Hvad skal repræsenteres: X er antal flasker du vinder Step 2) Hvilken fordeling: X følger den hypergeometriske fordeling Step 3) Hvilken sandsynlighed: P(X??) Step 4) Hvad er antal trækninger? n = 5 Hvor mange succeser er der? a = 3 Hvor mange er der i alt? N = 50 P(X = 1) = f (1;n,a,N) Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 35 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 36 / 55

anvendes ofte som en fordeling (model) for tælletal, hvor der ikke er nogen naturlig øvre grænse karakteriseres ved en intensitet, dvs. på formen antal/enhed X følger X P(λ) Parameteren λ angiver intensiteten λ er typisk hændelser per tidsinterval Intervallerne mellem hændelserne er uafhængige, dvs. processen er hukommelsesløs f () = P(X = ) = λ! e λ Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 37 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 38 / 55 Eksempel 3.1: Eksempel 3.2: Det antages, at der i gennemsnit bliver indlagt 0.3 patienter pr. dag på københavnske hospitaler som følge af luftforurening. Hvad er sandsynligheden for at der på en vilkårlig dag bliver indlagt højst 2 patienter som følge af luftforurening? Step 1) Hvad skal repræsenteres: X er antal patienter pr. dag Step 2) Hvilken fordeling: X følger Step 3) Hvilken sandsynlighed: P(X??) P(X 2) Step 4) Hvad er raten: λ = 0.3 patienter per dag Det antages, at der i gennemsnit bliver indlagt 0.3 patienter pr. dag på københavnske hospitaler som følge af luftforurening. Hvad er sandsynligheden for at der på en vilkårlig dag bliver indlagt præcis 2 patienter? Step 3) Hvilken sandsynlighed: P(X??) P(X = 2) Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 39 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 40 / 55

Eksempel 3.3: Eksempel 3.4: Skalering af intensiteten i Poissonfordeling Det antages, at der i gennemsnit bliver indlagt 0.3 patienter pr. dag på københavnske hospitaler som følge af luftforurening. Hvad er sandsynligheden for at der på en vilkårlig dag bliver indlagt mindst 2 patienter? Step 3) Hvilken sandsynlighed: P(X??) P(X 2) = 1 P(X 1) Hvad er sandsynligheden for at der i en periode på 3 dage bliver indlagt præcis 1 patient? Step 1) Hvad skal repræsenteres: Fra X som er patienter per dag Til X 3dage som er patienter per 3 dage Step 2) Hvilken fordeling følger X 3dage : Step 3) Hvilken sandsynlighed: P(X 3dage??) P(X 3dage = 1) Step 4) Skaler raten Fra λ dag = 0.3 patient/dag til λ 3dage = 0.9 patient/3 dag Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 41 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 42 / 55 Middelværdi (mean) og forventningsværdi (epectation) Middelværdi eksempel Definition: Middelværdi af stokastisk variabel µ = E(X) = f () alle Det rigtige gennemsnit eller populationens gennemsnit Fortæller hvor midten af X er Middelværdi af et terningekast µ = E(X) = = 1 1 6 + 2 1 6 + 3 1 6 + 4 1 6 + 5 1 6 + 6 1 6 = 3.5 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 44 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 45 / 55

## Simuler en fair terning ## Antal simulerede realiseringer n <- 30 ## Træk uafhængigt fra mængden (1,2,3,4,5,6) med ens sandsynlighed Fair <- sample(1:6, size=n, replace=true) ## Udregn gennemsnit (empirisk middelværdi, sample mean, læg mærke til ## at i R hedder funktionen 'mean') mean(fair) ## [1] 3.6333 Hvad sker der generelt med gennemsnittet af en stikprøve når man får flere observationer? A: Gennemsnittet er uafhængigt af antal observationer B: Gennemsnittet kommer generelt længere væk fra middelværdien C: Gennemsnittet kommer generelt tættere på middelværdien Svar C: Des flere observationer, des tættere kommer man generelt på middelværdien. Prøv at lege med det i ved simulering i R Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 46 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 47 / 55 Varians (variance) Varians eksempel Definition: Varians af stokastisk variabel Et mål for spredningen σ 2 = Var(X) = ( µ) 2 f () alle Den rigtige spredning af X (modsat empirisk varians (sample variance)) Varians af terningekast σ 2 = E[(X µ) 2 ] = = (1 3.5) 2 1 6 + (2 3.5)2 1 6 + (3 3.5)2 1 6 + (4 3.5) 2 1 6 + (5 3.5)2 1 6 + (6 3.5)2 1 6 2.92 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 48 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 49 / 55

Varians eksempel ## Simuler en fair terning ## Antal simulerede realiseringer n <- 30 ## Træk uafhængigt fra mængden (1,2,3,4,5,6) med ens sandsynlighed Fair <- sample(1:6, size=n, replace=true) ## Udregn empirisk varians (sample variance, læg mærke til ## at i R hedder funktionen 'var') var(fair) ## [1] 2.4609 Binomialfordelingen: Middelværdi: µ = n p Varians: σ 2 = n p (1 p) Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 50 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 51 / 55 for kendte fordelinger Den hypergeometriske fordeling: : Middelværdi: µ = n a N Varians: σ 2 = na (N a) (N n) N 2 (N 1) Middelværdi: µ = λ Varians: σ 2 = λ Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 52 / 55 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 53 / 55

Terninge eksempel, se forskel på empirisk middelværdi (sample mean) og middelværdi (mean) Oversigt 1 2 3 Fordelingsfunktion ## Simuler en binomialfordeling, terninge eksempel ## Gentag 10 gange: Tæl sammen for mange seksere på 30 slag antalseksere <- rbinom(n=10, size=30, prob=1/6) ## Endelig kan vi se på empirisk middelværdi (sample mean) mean(rbinom(n=10, size=30, prob=1/6)) ## [1] 4.8 ## Den (rigtige) middelværdi (mean) n * 1/6 ## [1] 5 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 54 / 55 4 Binomialfordelingen Eksempler Eksempel 1 Eksempel 2 Eksempel 3 5 Peder Bacher (pbac@dtu.dk) Introduktion til Statistik Efterår 2015 55 / 55