Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Relaterede dokumenter
Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Definition. Definitioner

Kvantitative Metoder 1 - Efterår Dagens program

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

4 Oversigt over kapitel 4

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kvantitative Metoder 1 - Forår 2007

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Oversigt over nyttige fordelinger

Kursus 02402/02323 Introduktion til statistik. Forelæsning 13: Et overblik over kursets indhold. Klaus K. Andersen og Per Bruun Brockhoff

Kvantitative Metoder 1 - Forår 2007

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

MM501 forelæsningsslides

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Kvantitative Metoder 1 - Forår 2007

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

1 enote 1: Simple plots og deskriptive statistik. 2 enote 2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Vejledende løsninger til opgaver i kapitel 6

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

02402 Vejledende løsninger til hjemmeopgaver og øvelser i kapitel 4

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

MM501/MM503 forelæsningsslides

Produkt og marked - matematiske og statistiske metoder

Uge 10 Teoretisk Statistik 1. marts 2004


Note om Monte Carlo metoden

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Løsning eksamen d. 15. december 2008

Kvantitative Metoder 1 - Forår Dagens program

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Hvorfor er det lige at vi skal lære det her?

Løsninger til kapitel 5

Statistik noter - Efterår 2009 Keller - Statistics for management and economics

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Diskrete fordelinger. Fire vigtige diskrete fordelinger: 1. Uniform fordeling (diskret) 2. Binomial fordeling. 3. Hyper-geometrisk fordeling

Forelæsning 11: Envejs variansanalyse, ANOVA

Sandsynlighedsregning

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Hvad skal vi lave i dag?

Normalfordelingen og Stikprøvefordelinger

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Kapitel 4 Sandsynlighed og statistiske modeller

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Løsning til eksaminen d. 29. maj 2009

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Teoretisk Statistik, 16. februar Generel teori,repetition

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Kapitel 4 Sandsynlighed og statistiske modeller

Kvantitative Metoder 1 - Forår Dagens program

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Forelæsning 10: Statistik ved hjælp af simulering

Oversigt. Kursus Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 19. december 2018 Kursus nr : (navn) (underskrift) (bord nr)

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Løsning til eksaminen d. 14. december 2009

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Hvad skal vi lave i dag?

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

INSTITUT FOR MATEMATISKE FAG c

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

StatDataN: Middelværdi og varians

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Transkript:

Introduktion til Statistik Forelæsning 2: Stokastisk variabel og diskrete fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk Forår 2018 DTU Compute Introduktion til Statistik Forår 2018 1 / 52

Kapitel 2: Diskrete fordelinger Grundlæggende koncepter: Stokastisk variabel (værdi afhængig af udfald af endnu ikke udført eksperiment) Tæthedsfunktion: f (x) = P(X = x) (pdf) Fordelingsfunktion: F(x) = P(X x) (cdf) Middelværdi: µ = E(X) Standard afvigelse: σ Varians: σ 2 Specifikke distributioner: Binomial (tæl antal succes ud af n trækninger) Hypergeometrisk (trækning uden tilbagelægning) Poisson (antal hændelser i interval) DTU Compute Introduktion til Statistik Forår 2018 2 / 52

Chapter 2: Discrete Distributions General concepts: Random variable (value is outcome of yet not carried out experiment) Density function: f (x) = P(X = x) (pdf) Distribution function: F(x) = P(X x) (cdf) Mean: µ = E(X) Standard deviation: σ Variance: σ 2 Specific distributions: The binomial distribution (dice roll) The hypergeometric distribution (draw without replacement) The Poisson distribution (number of events in interval) DTU Compute Introduktion til Statistik Forår 2018 3 / 52

Oversigt 1 Stokastisk variabel 2 Tæthedsfunktion (pdf) 3 Fordelingsfunktion (cdf) 4 Konkrete statistiske fordelinger Binomialfordelingen Hypergeometrisk fordeling Eksempler Poissonfordelingen 5 Middelværdi og varians Middelværdi og varians for de diskrete fordelinger DTU Compute Introduktion til Statistik Forår 2018 4 / 52

Praktisk information SE PRAKTISK INFORMATION PÅ HJEMMESIDEN OG I STARTEN AF SLIDES FRA UGE 1 DTU Compute Introduktion til Statistik Forår 2018 5 / 52

Stokastisk variabel Stokastisk variabel En stokastisk variabel (random variable) tildeler en værdi til udfaldet af et eksperiment der endnu ikke er udført, f.eks.: Et terningekast Antallet af seksere i 10 terningekast Hvor stor en andel svarer ja til et spørgsmål km/l for en bil Måling af sukkerniveau i blodprøve... DTU Compute Introduktion til Statistik Forår 2018 7 / 52

Stokastisk variabel Diskret eller kontinuert Vi skelner mellem diskret og kontinuert Diskret (kan ofte tælles): Hvor mange der bruger briller herinde Antal mange flyvere letter den næste time... Kontinuert: Vindmåling Tiden det tog at komme til DTU... Ikke altid klart, f.eks. for observationer målt med lav opløsning. I dag er det diskret og i næste uge er det kontinuert. DTU Compute Introduktion til Statistik Forår 2018 8 / 52

Stokastisk variabel Stokastisk variabel Før eksperimentet udføres: En stokastisk variabel noteret med stort bogstav Så udføres eksperimentet: Vi har da en realisation eller observation X 1 noteret med småt bogstav x 1 DTU Compute Introduktion til Statistik Forår 2018 9 / 52

Stokastisk variabel Stokastisk variabel og stikprøve Før eksperimentet udføres: Stikprøven som n stokastiske variable X 1,X 2,...,X n noteret med stort bogstav Så udføres eksperimentet: Vi har da n realisationer (observationer) x 1,x 2,...,x n noteret med småt bogstav Dvs. vi udfører eksperimentet n gange for at lave stikprøven DTU Compute Introduktion til Statistik Forår 2018 10 / 52

Stokastisk variabel Eksempel: Simuler et terningekast Vælg et tal fra (1,2,3,4,5,6) med lige stor sandsynlighed for hvert udfald Simuler i R ## Simuler et terningekast ## Vælg et tal fra (1,2,3,4,5,6) med lige sandsynlighed for hvert udfald sample(1:6, size=1) ## Antal simulerede realiseringer n <- 30 ## Træk uafhængigt fra mængden (1,2,3,4,5,6) med ens sandsynlighed sample(1:6, size=n, replace=true) DTU Compute Introduktion til Statistik Forår 2018 11 / 52

Tæthedsfunktion (pdf) Tæthedsfunktion (probability density function (pdf)) Def. 2.6: En stokastisk variabel har en tæthedsfunktion f (x) = P(X = x) Den giver sandsynligheden for at X antager værdien x når eksperimentet udføres DTU Compute Introduktion til Statistik Forår 2018 13 / 52

Tæthedsfunktion (pdf) Eksempel: En fair ternings tæthedsfunktion f (x) 0.0 0.2 0.4 0.6 0.8 1.0 Taethedsfunktion gaelder: f (x) 0 alle x f (x) = 1 f (1) = 1 6 f (2) = 1 6 1 2 3 4 5 6 x DTU Compute Introduktion til Statistik Forår 2018 14 / 52

Tæthedsfunktion (pdf) Eksempel: En unfair ternings tæthedsfunktion f X unfair(x) 0.0 0.2 0.4 0.6 0.8 1.0 f (1) = 1 7 f (6) = 2 7 1 2 3 4 5 6 x DTU Compute Introduktion til Statistik Forår 2018 15 / 52

Tæthedsfunktion (pdf) Spørgsmål om unfair terning (socrative.com, room: PBAC) Find nogle sandsynligheder for X unfair : Sandsynligheden for at få en fire? Svar: E Sandsynligheden for at få en femmer eller en sekser? Svar: A Sandsynligheden for at få mindre end tre? Svar: D f X unfair(x) 0.0 0.2 0.4 0.6 0.8 1.0 f (1) = 1 7 f (6) = 2 7 Svarmuligheder: A: 7 3 B: 1 6 C: 4 7 D: 2 7 1 2 3 4 5 6 x E: 1 7 DTU Compute Introduktion til Statistik Forår 2018 16 / 52

Tæthedsfunktion (pdf) Stikprøve Vi har en terning og vil nu undersøge om en terningen er fair. Hvis vi kun har en observation kan vi da se fordelingen? Nej men hvis vi har n observationer, så har vi en stikprøve (sample) {x 1,x 2,...,x n } og da kan vi begynde at se fordelingen. DTU Compute Introduktion til Statistik Forår 2018 17 / 52

Tæthedsfunktion (pdf) Eksempel: Simuler n kast med en fair terning ## Simuler en fair terning ## Antal simulerede realiseringer n <- 30 ## Træk uafhængigt fra mængden (1,2,3,4,5,6) med ens sandsynlighed xfair <- sample(1:6, size=n, replace=true) ## Tæl antallet af hvert udfald table(xfair) ## Plot den empiriske tæthedsfunktion (pdf), altså et density histogram plot(table(xfair)/n, ylim=c(0,1), lwd=10, xlab="x", ylab="f(x)") ## Tilføj den rigtige tæthedsfunktion til plottet lines(rep(1/6,6), type="h", lwd=3, col="red") ## legend legend("topright", c("empirical pdf","pdf"), lty=1, col=c(1,2), lwd=c(5,2)) ## Eller bare med hist(xfair, breaks=seq(0.5,6.5,by=1), prob=true) DTU Compute Introduktion til Statistik Forår 2018 18 / 52

Tæthedsfunktion (pdf) Eksempel: Simuler n kast med en ikke-fair terning ## Simuler en ikke-fair terning ## Antal simulerede realiseringer n <- 30 ## Træk uafhændigt fra mængden (1,2,3,4,5,6) med højere sandsynlighed for en sekser xunfair <- sample(1:6, size=n, replace=true, prob=c(rep(1/7,5),2/7)) ## Tæl antallet af hvert udfald table(xunfair) ## Plot den empiriske tæthedsfunktion plot(table(xunfair)/n, lwd=10, ylim=c(0,1), xlab="x", ylab="density") ## Tilføj den rigtige tæthedsfunktion lines(c(rep(1/7,5),2/7), lwd=4, type="h", col=2) ## En legend legend("topright", c("empirical pdf","pdf"), lty=1, col=c(1,2), lwd=c(5,2)) DTU Compute Introduktion til Statistik Forår 2018 19 / 52

Fordelingsfunktion (cdf) Fordelingsfunktion (distribution function eller cumulative density function (cdf)) Def. 2.9: Fordelingsfunktionen (cdf) er tæthedsfunktionen akkumuleret F(x) = P(X x) = j hvor x j x f (x j ) Der gælder for en fordelingsfunktion (cdf): Den er en ikke-aftagende funktion Den akkumuleres (assymtotisk) til 1 når x DTU Compute Introduktion til Statistik Forår 2018 21 / 52

Fordelingsfunktion (cdf) Eksempel: Fair terning Lad X repræsentere værdien af et kast med en fair terning Udregn sandsynligheden for at få udfald under 3: P(X < 3) = P(X 2) = F(2) fordelingsfunktionen = P(X = 1) + P(X = 2) = f (1) + f (2) tæthedsfunktionen = 1 6 + 1 6 = 1 3 DTU Compute Introduktion til Statistik Forår 2018 22 / 52

Fordelingsfunktion (cdf) Eksempel: Fair terning Udregn sandsynligheden for at få udfald over eller lig 3: P(X 3) = 1 P(X 2) = 1 F(2) fordelingsfunktionen = 1 1 3 = 2 3 DTU Compute Introduktion til Statistik Forår 2018 23 / 52

Fordelingsfunktion (cdf) Spørgsmål: Fordelingsfunktion (cdf) (socrative.com, room: PBAC) F(x) 0.0 0.5 1.0 1.5 A F(x) 0.0 0.2 0.4 0.6 0.8 1.0 B 1 2 3 4 5 6 1 2 3 4 5 6 x x F(x) 0.0 0.2 0.4 0.6 0.8 1.0 C F(x) 0.0 0.2 0.4 0.6 0.8 1.0 D 1 2 3 4 5 6 x 1 2 3 4 5 6 Hvilket et af ovenstående plots kan være en fordelingsfunktion (akkumuleret tæthedsfunktion, cdf)? A, B, C eller D? Svar: C x DTU Compute Introduktion til Statistik Forår 2018 24 / 52

Konkrete statistiske fordelinger Konkrete statistiske fordelinger Der findes en række statistiske fordelinger, som kan bruges til at beskrive og analysere forskellige problemstillinger med I dag er det diskrete fordelinger: Binomialfordelingen Den hypergeometriske fordeling Poissonfordelingen DTU Compute Introduktion til Statistik Forår 2018 26 / 52

Konkrete statistiske fordelinger Binomialfordelingen Binomialfordelingen Lad X repræsentere antal succeser efter n gentagelser af handling (eksperiment) med to udfald (succes eller ikke-succes) X følger binomialfordelingen X B(n,p) med parametre: n antal gentagelser p sandsynligheden for succes i hver gentagelse Tæthedsfunktion: Sandsynlighed for x antal succeser ( ) n f (x;n,p) = P(X = x) = p x (1 p) n x x DTU Compute Introduktion til Statistik Forår 2018 27 / 52

Konkrete statistiske fordelinger Binomialfordelingen Eksempel: Binomialfordelingen Eksempel: Sandsynlighed for 2 plat ved 5 plat-eller-krone kast med mønt f (2;5,0.5) = P(X = 2) = ( ) 5 0.5 2 (1 0.5) 5 2 = 0.3125 2 ## Sandsynlighed for 2 plat (success) i 5 kast med mønt ## Slå op med binomial tæthedsfunktion dbinom(x=2, size=5, prob=0.5) DTU Compute Introduktion til Statistik Forår 2018 28 / 52

Konkrete statistiske fordelinger Binomialfordelingen Binomialfordeling simuleringseksempel i R med terning: ## Fair terning eksempel ## Antal simulerede realiseringer n <- 30 ## Træk uafhængigt fra mængden (1,2,3,4,5,6) med ens sandsynlighed xfair <- sample(1:6, size=n, replace=true) ## Tæl sammen hvor mange seksere sum(xfair == 6) ## Lav tilsvarende med rbinom() rbinom(n=1, size=30, prob=1/6) DTU Compute Introduktion til Statistik Forår 2018 29 / 52

Konkrete statistiske fordelinger Hypergeometrisk fordeling Hypergeometrisk fordeling X er igen antal succeser, men nu er det uden tilbagelægning ved gentagelsen X følger en hypergeometrisk fordeling X H(n,a,N) med parametrene n er antallet af trækninger a er antallet af succeser i populationen N elementer store population Tæthedsfunktion: Sandsynlighed for at få x succeser ( a N a ) f (x;n,a,n) = P(X = x) = x)( n x ( N n) DTU Compute Introduktion til Statistik Forår 2018 30 / 52

Konkrete statistiske fordelinger Hypergeometrisk fordeling Binomial vs. hypergeometrisk Binomialfordelingen anvendes også for at analysere stikprøver med tilbagelægning (tænk på en terningekast) Når man vil analysere stikprøver uden tilbagelægning anvendes den hypergeometriske fordeling (tænk på træk fra en hat) DTU Compute Introduktion til Statistik Forår 2018 31 / 52

Konkrete statistiske fordelinger Pause PAUSE DTU Compute Introduktion til Statistik Forår 2018 32 / 52

Konkrete statistiske fordelinger Distributioner i R R navn Betegnelse binom binomial hyper hypergeometrisk d Tæthedsfunktion f (x) (probability density function). p Fordelingsfunktion F(x) (cumulative distribution function). r Tilfældige tal fra den anførte fordeling. (Forelæsning 10) q Fraktil (quantile) i fordeling. DTU Compute Introduktion til Statistik Forår 2018 33 / 52

Konkrete statistiske fordelinger Distributioner i R Eksempel binomialfordelt: Find P(X 5) = F(5;10,1/6) ## Binomial fordelingsfunktion (cdf) ## Sandsynlighed for at få 5 eller færre succeser i 10 kast med terning pbinom(q=5, size=10, prob=1/6) ## Få hjælpen med?pbinom Husk at hjælp til funktion mm. fåes ved at sætte? foran navnet. DTU Compute Introduktion til Statistik Forår 2018 34 / 52

Konkrete statistiske fordelinger Eksempler Eksempel 1 I et kundecenter i et telefonselskab søger man at forbedre kundetilfredsheden. Især er det vigtigt, at når der indrapporteres en fejl, bliver fejlen udbedret i løbet af samme dag. Antag at sandsynligheden for at en fejl bliver udbedret i løbet af samme dag altid er 0.7. I løbet af en dag indrapporteres 6 fejl. Hvad er sandsynligheden for at samtlige fejl udbedres? Step 1) Hvad skal repræsenteres: X er antal udbedrede fejl Step 2) Fordeling: X følger A: binomial, B: hypergeometrisk? binomialfordelingen Step 3) Hvilken sandsynlighed: P(X??) P(X = 6) = f (6;n,p) Step 4) Hvad er antal trækninger? n = 6 Hvad er succes-sandsynligheden? p = 0.7 Udregn i R DTU Compute Introduktion til Statistik Forår 2018 35 / 52

Konkrete statistiske fordelinger Eksempler Eksempel 1 Hvad er sandsynligheden for at 2 eller færre fejl bliver udbedret samme dag? Step 1) Hvad skal repræsenteres: X er antal udbedrede fejl Step 2) Hvilken fordeling: X følger binomialfordelingen Step 3) Hvilken sandsynlighed: A: P(X < 2) B: P(X 1) C: P(X < 3) D: 1 P(X 2) P(X < 3) = P(X 2) = F(2;n,p) Step 4) Hvad er antal trækninger? n = 6 Hvad er succes-sandsynligheden? p = 0.7 Udregn i R DTU Compute Introduktion til Statistik Forår 2018 36 / 52

Konkrete statistiske fordelinger Eksempler Eksempel 2 I bankoklubben trækkes der lod om 5 flasker Gammel Dansk. Der er udstedt 50 lodder og du har 3 lodder (der er altså 50 sedler med numrene fra 1 til 50 og der er 3 af de numre som du vinder på). Hvad er sandsynligheden for at du vinder præcis en flaske Gammel Dansk? Step 1) Hvad skal repræsenteres: X er antal flasker du vinder Step 2) Hvilken fordeling: X følger den hypergeometriske fordeling Step 3) Hvilken sandsynlighed: P(X??) P(X = 1) = f (1;n,a,N) Step 4) Hvad er antal trækninger? n = 5 Hvor mange succeser er der? a = 3 Hvor mange er der i alt? N = 50 Udregn i R DTU Compute Introduktion til Statistik Forår 2018 37 / 52

Konkrete statistiske fordelinger Poissonfordelingen Poissonfordelingen Poissonfordelingen anvendes ofte som en fordeling (model) for tælletal, hvor der ikke er nogen naturlig øvre grænse Poissonfordelingen karakteriseres ved en intensitet, dvs. på formen antal/enhed Parameteren λ angiver intensiteten λ er typisk hændelser per tidsinterval Intervallerne mellem hændelserne er uafhængige, dvs. processen er hukommelsesløs DTU Compute Introduktion til Statistik Forår 2018 38 / 52

Konkrete statistiske fordelinger Poissonfordelingen Poissonfordelingen X følger Poissonfordelingen X P(λ) Parameteren λ angiver intensiteten Tæthedsfunktion: Sandsynligheden for x antal i intervallet f (x) = P(X = x) = λ x x! e λ DTU Compute Introduktion til Statistik Forår 2018 39 / 52

Konkrete statistiske fordelinger Poissonfordelingen Eksempel 3.1: Poissonfordelingen Det antages, at der i gennemsnit bliver indlagt 0.3 patienter pr. dag på københavnske hospitaler som følge af luftforurening. Hvad er sandsynligheden for at der på en vilkårlig dag bliver indlagt højst 2 patienter som følge af luftforurening? Step 1) Hvad skal repræsenteres: X er antal patienter pr. dag Step 2) Hvilken fordeling: X følger Poissonfordelingen Step 3) Hvilken sandsynlighed: P(X??) P(X 2) Step 4) Hvad er raten: λ = 0.3 patienter per dag Udregn i R DTU Compute Introduktion til Statistik Forår 2018 40 / 52

Konkrete statistiske fordelinger Poissonfordelingen Eksempel 3.4: Skalering af intensiteten i Poissonfordeling Hvad er sandsynligheden for at der i en periode på 3 dage bliver indlagt præcis 1 patient? Step 1) Hvad skal repræsenteres: Fra X som er patienter per dag Til X 3dage som er patienter per 3 dage Step 2) Hvilken fordeling følger X 3dage : Poissonfordelingen Step 3) Hvilken sandsynlighed: P(X 3dage??) P(X 3dage = 1) Step 4) Skaler raten Fra λ dag = 0.3 patient/dag til λ 3dage = 0.9 patient/3 dag Udregn i R DTU Compute Introduktion til Statistik Forår 2018 41 / 52

Middelværdi og varians Middelværdi (mean) og forventningsværdi (expectation) Definition: Middelværdi af stokastisk variabel µ = E(X) = x f (x) alle x Populationsgennemsnittet (det rigtige gennemsnit ) Fortæller hvor midten af tæthedsfunktion for X er DTU Compute Introduktion til Statistik Forår 2018 43 / 52

Middelværdi og varians Eksempel: Middelværdi Middelværdi af et terningekast 6 µ = E(X) = x f (x) x=1 6 = x=1x 1 6 = 1 1 6 + 2 1 6 + 3 1 6 + 4 1 6 + 5 1 6 + 6 1 6 = 3.5 DTU Compute Introduktion til Statistik Forår 2018 44 / 52

Middelværdi og varians Eksempel: Simuler terningekast og beregn gennemsnit ## Simuler stikprøve af en fair terning og beregn gennemsnit ## Antal simulerede realiseringer (stikprøve på n elementer) n <- 30 ## Træk uafhængigt fra mængden (1,2,3,4,5,6) med ens sandsynlighed xfair <- sample(1:6, size=n, replace=true) ## Udregn stikprøvegennemsnit (sample mean) mean(xfair) DTU Compute Introduktion til Statistik Forår 2018 45 / 52

Middelværdi og varians Spørgsmål om stikprøvevarians (socrative.com, room: PBAC) Hvad sker der generelt med gennemsnittet af en stikprøve når man får flere observationer? A: Det er uafhængigt af antal observationer B: Det kommer generelt længere væk fra middelværdien C: Det kommer generelt tættere på middelværdien Svar C: Des flere observationer, des tættere kommer man generelt på middelværdien. Prøv at lege med det i ved simulering i R DTU Compute Introduktion til Statistik Forår 2018 46 / 52

Middelværdi og varians Varians (variance) Definition: Varians af stokastisk variabel σ 2 = Var(X) = (x µ) 2 f (x) alle x Et mål for spredningen Populationsvariansen Den rigtige spredning af X tæthedsfunktion DTU Compute Introduktion til Statistik Forår 2018 47 / 52

Middelværdi og varians Eksempel: Varians Varians af terningekast σ 2 = E[(X µ) 2 ] = = (1 3.5) 2 1 6 + (2 3.5)2 1 6 + (3 3.5)2 1 6 + (4 3.5) 2 1 6 + (5 3.5)2 1 6 + (6 3.5)2 1 6 2.92 DTU Compute Introduktion til Statistik Forår 2018 48 / 52

Middelværdi og varians Eksempel: Varians ## Simuler stikprøve med udfald af en fair terning og beregn stikprøvevarians ## Antal simulerede realiseringer n <- 30 ## Træk uafhængigt fra mængden (1,2,3,4,5,6) med ens sandsynlighed xfair <- sample(1:6, size=n, replace=true) ## Udregn empirisk varians (sample variance, læg mærke til ## at i R hedder funktionen "var") var(xfair) DTU Compute Introduktion til Statistik Forår 2018 49 / 52

Middelværdi og varians Middelværdi og varians for de diskrete fordelinger Middelværdi og varians for de diskrete fordelinger Fordeling Middelværdi Varians Binomialfordelingen µ = n p σ 2 = n p (1 p) Hypergeometrisk µ = n an σ 2 = na (N a) (N n) N 2 (N 1) Poissonfordelingen µ = λ σ 2 = λ DTU Compute Introduktion til Statistik Forår 2018 50 / 52

Middelværdi og varians Middelværdi og varians for de diskrete fordelinger Eksempel: Forskel på stikprøvegennemsnit (sample mean) og middelværdi (mean, dvs. populationsgennemsnittet) Se stikprøvegennemsnittet i forhold til middelværdien: ## Simuler en binomialfordeling, terninge eksempel ## Gentag 10 gange: Tæl sammen for mange seksere på 30 slag antalseksere <- rbinom(n=10, size=30, prob=1/6) ## Endelig kan vi se på stikprøvegennemsnittet (sample mean) mean(rbinom(n=10, size=30, prob=1/6)) ## versus Middelværdien (mean) n * 1/6 DTU Compute Introduktion til Statistik Forår 2018 51 / 52

Middelværdi og varians Middelværdi og varians for de diskrete fordelinger Tak for nu! Så er det bare over og træne statistikregning :) DTU Compute Introduktion til Statistik Forår 2018 52 / 52