Statistik for ankomstprocesser

Størrelse: px
Starte visningen fra side:

Download "Statistik for ankomstprocesser"

Transkript

1 Statistik for ankomstprocesser Anders Gorst-Rasmussen 20. september 2006 Resumé Denne note er en kortfattet gennemgang af grundlæggende statistiske værktøjer, man kunne tænke sig brugt til at vurdere rimeligheden af og sidenhen til at fastlægge en fornyelsesmodel for ankomstprocessen i et køsystem. Vi betragter et ikke nærmere specificeret køsystem, hvori {T n : n = 1,2,...} er en følge af ankomsttider (ankomstproces), og {U n : n N} er den tilhørende følge af interankomsttider, dvs. U 1 := T 1, U n := T n T n 1, n = 2,3,... I denne note skal vi udelukkende se på statistisk inferens for ankomstprocessen på baggrund af interankomsttider. Nærmere bestemt koncentrerer vi os i dette kursus om ankomstprocesser, som er fornyelsesprocesser, dvs. interankomsttider er uafhængige og identisk fordelte. I mindre tekniske termer kan disse antagelser formuleres som følger: 1. Hver kunde vælger sin ankomsttid uafhængig af de forudgående kunder. 2. Ankomstprocessen ser ens ud til alle tidspunkter, specielt er ankomstraten (gennemsnitligt antal ankomster per tidsenhed) er konstant over tid (stationaritet). Disse antagelser er typisk kun er grove approksimationer i dagligdags køsystemer. I et supermarked har folk tendens til at ankomme i klynger, alt imens ankomstraten varierer betydeligt i løbet af dagen; i et produktionssystem kan interankomsttiderne bedre antages uafhængige, men ofte vil ankomstraten variere i tid. På trods af den slags mangler, vil man ikke desto mindre ofte insistere på at anvende en fornyelsesmodel for ankomstprocessen, eksempelvis over tilpas små tidsrum, hvis der er tvivl om stationaritet. Begrundelsen er rimelig nok: fornyelsesmodellen er simplest mulige stokastiske model for ankomstprocessen i den forstand, at det er tilstrækkeligt at specificere interankomstfordelingen. Med en så simpel model er det 1

2 særligt let at simulere køsystemet mhp. at vurdere diverse performanceparametre. Endvidere rummer klassen af fornyelsesankomstprocesser den helt centrale stationære Poisson ankomstproces, under hvilken man i mange tilfælde kan udføre delvis eksakte analyser af køsystemet. Givet observationer fra en konkret ankomstproces er det derfor naturligt at undersøge vha. statistiske metoder, hvorvidt en fornyelsesmodel er en god model for ankomstprocessen og i bekræftende fald hvordan fornyelsesmodellen bør se ud i detaljer. Der skal tages stilling til følgende fire punkter: 1. Er stationaritetsantagelsen rimelig? 2. Er uafhængighedsantagelsen for interankomsttider rimelig? 3. Hvilken parametrisk klasse af fordelinger stammer interankomsttider fra? 4. Givet en rimelig parametrisk klasse af fordelinger, hvad er det bedste bud på parameterværdien for fordelingen af interankomsttider på baggrund af observationerne? I det følgende beskrives en række grundlæggende statistiske værktøjer til at håndtere hvert enkelt af ovenstående punkter. 1 Stationaritet Lad x 1,...,x n være observationer af en stokastisk proces {X n : n N}. En simpel men effektiv måde hvorpå man kan undersøge for stationaritet er ved at plotte observationer (i nærværende sammenhæng givet ved interankomsttider) mod deres indeks, dvs. plotte punkterne (i,x i ) for i = 1,...,n. Følgende er tegn på ikkestationaritet: 1. Trends eller skift i lokation over observationsnummer. 2. Skift i variation over observationsnummer. Hvis data er spredt jævnt omkring gennemsnittet uden af de ovenstående afvigelser, vil man typisk acceptere stationaritetsantagelsen. Se Figur 1 for eksempler. Man bør altid tage datakilden ind i overvejelserne, når man vurderer stationaritet. Ofte vil man på forhånd have en klar idé om, hvorvidt en ankomstproces er ikkestationær over et længere tidsinterval. Hvis det er tilfældet, bør man overveje at splitte datasættet af ankomsttider op i flere datasæt over mindre tidsintervaller, over hvilke man forventer stationaritet. Observationsfølgerne hørende til hvert tidsinterval kan derpå undersøges enkeltvis. 2

3 Stat. proces Ikkestat. proces Observation Observation Observationsnummer Observationsnummer FIGUR 1. Eksempler på plot af observationer mod indeks i en stationær (venstre) og ikkestationær (højre) stokastisk proces. Processen til venstre udviser ingen tydelige tegn på skift i lokation eller variation. Processen til højre udviser derimod periodisk trend. Endvidere er der et skift i variation omkring de sidste 20 observationer. 2 Uafhængighed af interankomsttider Et udbredt mål for afhængigheden mellem stokastiske variable er deres korrelation. Vi genkalder os først, at variansen af en stokastisk variabel X, hhv. kovariansen for to stokastiske variable X,Y, defineres som Var(X) := E(X EX) 2 = E(X 2 ) (E(X)) 2 ; Cov(X,Y) := E ( (X E(X))(Y EY) ) = E(XY) E(X)E(Y). Korrelationen mellem X,Y er da defineret som følger: (1) ρ(x,y) := Cov(X,Y) Var(X)Var(Y). Det kan vises, at korrelationen besidder følgende egenskaber: 1. ρ(x,y) ρ(x,y) = 1 Y = ax + b for konstanter a > 0 og b R. 3. ρ(x,y) = 1 Y = ax + b for konstanter a < 0 og b R. Iht. punkt 2-3 måler korrelationen den lineære afhængighed mellem X og Y : jo større (numerisk) korrelation, jo nærmere perfekt lineær er sammenhængen mellem X og Y. Negativ korrelation betyder, at X og Y har negativ samvariation jo større værdi af X, jo mindre værdi af Y. Positiv korrelation betyder, at X og Y har positiv samvariation jo større værdi af X, jo større værdi af Y. Hvis ρ(x,y) = 0, kaldes X og Y ukorrelerede. 3

4 y y x x2 y y x x4 FIGUR 2. Figurerne viser plot af observationer af stokastiske vektorer (X,Y). I alle tilfælde er ρ(x,y) = Kvalitativt forskellige former for afhængighed kan altså lede til samme korrelationskoefficient. Endvidere kan korrelationskoefficienten være stor, selvom afhængigheden er langt fra lineær (figuren nederst til højre) eller omvendt, korrelationskoefficienten kan være lille, selvom afhængigheden er meget tæt på lineær (figuren nederst til højre). Tommelfingerreglen at stor korrelation lineær sammenhæng bør anvendes varsomt i praksis. Som vist i Figur 2 kan andre og mere komplicerede sammenhænge end linearitet give anledning til stor korrelation. Bemærk at hvis X og Y er uafhængige, gælder E(XY) = E(X)E(Y) og dermed ρ(x,y) = 0 ifølge (1), dvs. X og Y er ukorrelerede. Det omvendte gælder ikke ukorrelerede variable er generelt ikke uafhængige (tjek selv ved at udregne korrelationen mellem stokastiske variable X og Y = X 2, når E(X) = 0). Til gengæld er korrelationen et meget parsimonisk mål for afhængighed (vi kan nøjes med ét tal), og giver sædvanligvis en rimelig idé om graden af afhængighed. Hvordan estimeres korrelationer ud fra data? Givet uafhængige observationer x 1,...,x n af en stokastisk variabel X kan variansen af X estimeres ved følgende: Var(X) = n 1 n (x i x i ) 2, x = n 1 n Hvis Y er en anden stokastisk variabel, fra hvilken vi har uafhængige observationer y 1,...,y n, kan kovariansen mellem X og Y estimeres ved Ĉov(X,Y) = n 1 n (x i x)(y i y), x = n 1 n Følgelig kan korrelationen mellem X og Y estimeres ved x i. x i, y = n 1 n y i. Ĉov(X,Y) n (2) ˆρ(X,Y) = = (x i x)(y i y) Var(X) Var(Y) n (x i x) 2 n (y i ȳ) 2. 4

5 Det kan vises, at ˆρ(X,Y) nærmer sig den sande korrelation ρ(x,y), når antallet af observationer går mod uendelig, dvs. ˆρ er en såkaldt konsistent estimator. Vi er interesserede i at anvende korrelationer til at vurdere afhængigheder i en følge af stokastisk variable, dvs. en stokastisk proces. Lad X := {X n : n N} være en sådan stokastisk proces. Til X knytter vi autokorrelationsfunktionen ρ(m,n) := ρ(x m,x n ), m,n N. Autokorrelationsfunktionen beskriver graden af afhængighed mellem givne observationer X m og X n i processen. Vi kan i princippet estimere ρ(m,n) ved estimatoren (2); det kræver imidlertid, at vi kan observere den stokastiske proces til samme tidspunkt mange gange, uafhængigt af hinanden. I praksis har man kun én observation for hvert tidspunkt, og man vil derfor typisk antage, at X er svagt stationær. Ved dette forstås, at E(X n ) og E(X n ) 2 er uafhængige af n. I så fald følger det af definitionen på korrelation og autokorrelation, at ρ(m, n) kun afhænger af differensen m n. Det kan så vises, at ρ(n) kan estimeres ved den empiriske autokorrelation givet ved (3) ˆρ(k) = n k (x i+k x)(x i x) n (x i x) 2, k = 0,1,...,n. Bemærk at ˆρ(0) = ρ(0) = 1 (en observation er altid perfekt korreleret med sig selv). Den uafhængige variabel k i (3) kaldes lag. Det gælder, at ˆρ(k) nærmer sig den sande lag-k autokorrelation ρ(k), når antallet af observationer n går mod uendelig. Bemærk at hvis lag k er tæt på antal observationer n, er der kun få observationer (n k sådanne) til at fastlægge ˆρ(k), jf. (3). De empiriske autokorrelationer for sådanne høje lags bør derfor tolkes varsomt. To eksempler på empiriske autokorrelationsfunktioner er givet i Figur 3. Når vi undersøger ankomstprocesser mhp. at opstille fornyelsesmodeller herfor, ønsker vi at vurdere, hvorvidt der er uafhængighed mellem interankomsttider. Generelt kan det vises, at hvis {X n : n N} er en (svagt stationær) stokastisk proces bestående af lutter uafhængige observationer, så gælder (4) n 1/2 ˆρ(k) approx N(0,1), for n stor, hvor N(0, 1) betegner standardnormalfordelingen. Denne normalapproksimation kan bruges til at konstruere konfidensgrænser for autokorrelationsfunktionen: givet n uafhængige observationer er et approksimativt (1 α)% konfidensinterval for ˆρ(k) givet ved [ z 1 α/2 n 1/2,z 1 α/2 n 1/2 ], hvor z a er a-fraktilen i standardnormalfordelingen, dvs. z a = Φ 1 (a), med Φ fordelingsfunktionen for standardnormalfordelingen. Af definitionen på et konfidensinterval (intervallet indeholder den sande parameter i (1 α) 100% af tilfældene) forventer vi i snit, at (1 α) 100% af de beregnede empiriske autokorrelationer ˆρ(k) for k > 0 ligger inden for konfidensgrænserne. Hvis det omtrentligt er tilfældet, vil vi typisk acceptere antagelsen om uafhængighed. 5

6 ACF IID obs ACF random walk ACF ACF Lag Lag FIGUR 3. Figuren til venstre viser et plot af ρ(k), når X består af uafhængigt standardnormalfordelte observationer. Figuren til højre viser et plot af ρ(k) for den stokastiske proces fastlagt iid ved X 0 = 0, X n = X n 1 + ε n, n > 1, ε n N(0,1) (random walk). I begge tilfælde er 95% konfidensbånd angivet ved de stiplede linier, beregnet ud fra sammenhængen i (4). I figuren til venstre accepteres antagelsen om uafhængighed (én ud af 20 autokorrelationer, dvs. præcis 5%, overskrider konfidensgrænsen). I figuren til højre afvises antagelsen om uafhængighed; observationerne er tydeligvis positivt korrelerede. 3 Fordeling af interankomsttider Forudsat at ankomstprocessen er stationær, og følgen af interankomsttiderne er blevet fundet uafhængige, er næste skridt at bestemme en model for fordelingen af interankomsttiderne. Vi forestiller os, at vi blandt en række forskellige fordelingstyper (eksponentialfordelingen, Erlangfordelingen etc.) ønsker at bestemme den type, som matcher data bedst. Til dette formål er den simpleste og ofte også mest informative metode at benytte en eller anden form for grafisk kontrol. Et formelt statistisk test for fordelingstype (goodness-of-fit test) kan være nyttigt i tvivlstilfælde og diskuteres kort til sidst i dette afsnit. Lad Y være en stokastisk variabel med fordelingsfunktion F, dvs. F(y) = P(Y y). Antag for nemheds skyld, at F er en kontinuert funktion. Så er fraktilfunktionen for F defineret som Q(p) := F 1 (p) for p [0,1], dvs. Q(p) er den værdi af den uafhængige variabel, for hvilken F krydser p. En sammenligning af Q med den empiriske fraktilfunktion beregnet ud fra data kan bruges til at vurdere, om data stammer fra F. Lad x 1,...,x n være en samling af uafhængige observationer af en stokastisk variabel X. Den empiriske fraktilfunktion for observationerne er defineret som Q n (p) := min{x : p F n (x)}, 6

7 hvor F n (x) er den empiriske fordelingsfunktion for x 1,...,x n, dvs. (5) F n (x) := antal observationer mindre end eller lig x. I fald X har fordelingsfunktion F, kan det vises, at Q n (x) nærmer sig Q(x) for ethvert x når n. Dvs. for n tilstrækkelig stor gælder, at Q n (x) Q(x). Under antagelsen at X har fordelingsfunktion F, vil punkterne i et plot af Q n (x) mod Q(x) ligge på tæt på linien y = x, uden systematiske afvigelser. Et sådant plot kaldes et QQ-plot (Quantile-Quantile plot). Konkret konstrueres QQ-plottet som et plot af punkterne (Q(i/n),y i ) for i = 1,...,n, hvor y 1 y n er observationerne x 1,...,x n ordnet efter størrelse. QQ plot Empiriske fraktiler Teoretiske fraktiler FIGUR 4. Et eksempel på et QQ-plot af interankomsttider mod fraktilerne i en eksponentialfordeling. Punkterne ligger tæt op ad og jævnt spredt om linien y = x. Vi slutter, at en eksponentialfordeling er en acceptabel model for disse data. Almindeligvis kender vi ikke F eksakt, men kun op til en eller flere ukendte parametre (parameteren i en eksponentialfordeling, middelværdi og varians i en normalfordeling etc.). I den slags tilfælde er det generelt nødvendigt at estimere parametre ud fra data, før man konstruerer sit QQ-plot. Der er dog visse vigtige undtagelser. Antag nemlig at punkterne i QQ-plottet af Q n (x) mod Q ligger omkring en rette linie y = ax+b. Dette gælder, hvis X har fordelingsfunktion F((x b)/a), dvs. X er fordelt som F pånær et skift i lokation b og skala a. Resultatet kan bruges til at vurdere visse fordelingstyper, uden at man behøver at estimere ukendte parametre for F. Her er to vigtige eksempler: 1. Antag at X eksponentialfordelt med parameter a. Hvis F er fordelingsfunktionen for en eksponentialfordelt stokastisk variabel med parameter 1, så har X fordelingsfunktion F(ax). Dvs. punkterne i et plot af Q n mod fraktilerne for F ligger omkring linien y = x/a. 7

8 2. Antag at X er normalfordelt med middelværdi b og varians a 2. Hvis F betegner fordelingsfunktionen for en standardnormalt stokastisk variabel, så har X fordelingsfunktion F((x b)/a). Dvs. punkterne i et plot af Q n mod fraktilerne hørende til F vil ligge omkring linien y = ax+b. Resultatet kan også bruges til at undersøge for lognormalfordelte observationer her skal logaritmen til observationerne ligge omkring linien y = ax + b. Et alternativ til QQ-plots er PP-plots (Probability-Probability plots). Her plottes den empiriske fordelingsfunktion F n (x) mod en teoretisk fordelingsfunktion F, hvis parametre evt. er estimeret på baggrund af data. Også her skal punkterne ligge omtrentligt på linien y = x, såfremt X er fordelt som F. I praksis konstrueres PPplottet som et plot af punkterne (i/n,f(y i )) for i = 1,...,n, hvor y 1 y n er observationerne x 1,...,x n ordnet efter størrelse. PP-plots diskriminerer bedst i områder, hvor der er meget sandsynlighedsmasse (dvs. omkring middelværdien) og dårligere i halen af fordelingen (hvor sandsynlighederne er meget tæt på 0 hhv. 1). QQ-plots diskriminerer derimod bedst i halerne af en fordeling og ringere i områder med høj sandsynlighedsmasse (hvor der er mange observationer klumpet sammen ). Valget af plot til at undersøge fordelingstype afhænger altså af, hvilket område af fordelingen, det er vigtigst at beskrive præcist. QQ plot PP plot Teoretiske fraktiler Teoretisk sandsynlighed Empiriske fraktiler Empirisk sandsynlighed FIGUR 5. QQ-plot og PP-plot af observationer fra en Erlangfordeling med formparameter 2 og skalaparameter 1/2 mod de teoretiske fraktiler/sandsynligheder i en eksponentialfordeling med parameter 1. Bemærk de systematiske afvigelser fra den rette linie y = x i begge plots observationerne er tydeligvis ikke eksponentialfordelte. Som et alternativ til QQ- og PP-plots, kan man udføre et formelt statistisk test for fordelingstype, et såkaldt goodness-of-fit test. Et sådant test kan være nyttigt i situationer, hvor det synes vanskeligt at afgøre fordelingstypen, eller hvor man ønsker præcis afklaring i form af en p-værdi snarere end mere løse overvejelser baseret på plots. I er formentlig stødt på dette test i et tidligere statistikkursus: givet 8

9 uafhængige observationer x 1,...,x n af en stokastisk variabel X ønsker vi at teste hypotesen H 0 mod alternativet H 1, hvor H 0 : observationerne stammer fra fordelingsfunktionen Fˆθ H 1 : observationerne stammer ikke fra Fˆθ. Her er Fˆθ en fordelingsfunktion, hvis parameter er estimeret ved ˆθ på baggrund af data, f.eks. ved maksimaliseringsestimation (se næste afsnit). Hypotesen H 0 kan undersøges ved først at definere intervaller [a j 1,a j ), j = 1,...,k, således at samtlige observationer er indeholdt i foreningsmængden af [a j 1,a j ) erne og derpå beregne det forventede antal observationer E i i hver [a j 1,a j ) under Fˆθ, dvs. E i = n ( Fˆθ (a j) Fˆθ (a j 1) ). Antag at parameteren for fordelingsfunktionen F har dimension c. Lad endvidere O j være antal observationer i intervallet [a j 1,a j ). Der gælder følgende X 2 := k (O i E i ) 2 approx χ 2 (k c 1), E i når n samt det forventede antal observationer per celle er tilstrækkelig stort. Teststørrelsen X 2 kaldes goodness-of-fit teststørrelsen. Som en tommelfingerregel kræves E i 5, for at ovenstående approksimation er gyldig. Ud fra teststørrelsen X 2 kan vi konstruere det ønskede test. Store værdier af X 2 er kritiske for H 0, dvs. med signifikansniveau α afvises hypotesen H 0, såfremt X 2 > χ 2 (α,k c 1), hvor χ 2 (α,k c 1) er (1 α) 100%-fraktilen i χ2 (k c 1)-fordelingen. Det er ikke muligt at angive generelt, hvor mange intervaller, som bør anvendes for at sikre den mest pålidelige testprocedure for goodness-of-fit testet. Tabel 1 er en oversigt over anbefalet størrelsesorden for antal intervaller for et givet antal observationer n. Tabellen er en gengivelse af tabellen p. 329 i Banks et. al. (2005), Discrete Event System Simulation, Prentice-Hall. Stikprøvestørrelse Antal intervaller 20 Brug ikke χ 2 -test >100 n n/5 TABEL 1. Anbefalet antal intervaller til brug ifm. χ 2 -testet for fordelingstype. 9

10 4 Parameterestimation Lad os antage, at stationaritetsantagelsen samt uafhængighedsantagelsen for interankomster er afklaret, samt at man har besluttet sig for en klasse af fordelinger for interankomsttiderne, dvs. man har besluttet sig for en statistisk model. Antag at den statistiske model kan beskrives ved en klasse af tæthedsfunktioner { f θ : θ Θ}, hvor θ er en ukendt parameter (f.eks. raten i en eksponentialfordeling eller vektoren bestående af middelværdi og varians i en normalfordeling). Vi ønsker nu at estimere værdien af θ på baggrund af data. En særligt udbredt form for estimation er maksimaliseringsestimation (eng: maximum likelihood estimation). Givet uafhængige observationer x 1,x 2,...,x n af en stokastisk variabel X og en samling af tæthedsfunktioner { f θ : θ Θ} er likelihoodfunktionen for θ defineret som L(θ) := n f θ (t i ). Maksimaliseringsestimatet for θ er defineret som den værdi af θ, der maksimaliserer likehoodfunktionen for data under den givne statistiske model, dvs. ˆθ ML := arg maxl(θ). Maksimaliseringsestimatet er altså den værdi af θ, som tildeler størst sandsynlighed til de observerede data under modellen. Maksimaliseringsestimatorer er særligt pæne estimatorer. Det kan f.eks. vises, at de under ganske generelle betingelser er approksimativt normalfordelte når n (muliggør konstruktion af konfidensintervaller for en parameter). Desuden spiller maksimaliseringsestimatorer en helt central rolle i konstruktionen af de såkaldte likelihood ratio tests til sammenligning af delmodeller i en givet statistisk model. Tabel 2 er en liste over maksimaliseringsestimatorer 1 for en række fordelingstyper, som man typisk støder på ifm. analyse af ankomstprocesser. Generelt er det ikke muligt at opskrive maksimaliseringsestimatorer på lukket form, og man må i stedet anvende numeriske metoder til maksimering af likelihoodfunktionen. Dette er eksempelvis påkrævet for Erlangfordelingen med ukendt form- og skalaparameter. 5 Opsummering hvad skal I huske? Følgende er en trin-for-trin oversigt over analyser, I bør udføre, når I forsøger at fitte fornyelsesmodeller til ankomstprocesser. 1 Det bemærkes, at maksimaliseringsestimatoren for variansen σ 2 i en normalfordeling faktisk er givet ved ˆσ 2 ML = (n 1)/n ˆσ 2 ; denne estimator er imidlertid ikke middelværdiret, forstået således at E( ˆσ ML ) = (n 1)/nσ 2 σ 2. Estimatoren ˆσ 2 er derimod middelværdiret og er derfor at foretrække. 10

11 Fordeling Tæthed Param. Maksimaliseringsestimator Eksponentialfordeling f(x) = ae ax a â = 1/ x Erlangfordeling f(x) = β r /(n 1)!x r 1 e x/β β ˆβ = x/r (kendt formparam.) Normalfordeling f(x) = (σ 2π) 1 e (x µ)2 /(2σ 2 ) µ,σ 2 ˆµ = x ˆσ 2 = (n 1) 1 n (x i x) 2 Lognormalfordeling f(x) = (xσ 2π) 1 e (ln(x) µ)2 /(2σ 2 ) µ,σ 2 Som for normalfordelingen; efter at have taget ln af data. TABEL 2. Liste over maksimaliseringsestimatorer for fordelinger, man typisk anvender for interankomsttider 1. Tjek stationaritet ved at plotte observationer (dvs. interankomsttider) mod observationsnummer. Hvis der ej er synlige skift i lokation eller variation, accepteres normalt antagelsen om stationaritet. Hvis ankomstprocessen ikke er stationær over hele det betragtede tidsinterval, gennemgå da punkt 2-4 over et eller flere mindre tidsintervaller, hvor processen kan antages approksimativt stationær. 2. Tjek uafhængighed vha. autokorrelationsplot. Brug konfidensbånd til at vurdere uafhængighedsantagelsen. Hvis ca. 5% eller færre af de estimerede autokorrelationer for lag større end 0 overskrider konfidensgrænsen, accepteres normalt antagelsen om uafhængighed. 3. Undersøg fordelingstype for interankomsttider. Det er en god idé først at undersøge, om eksponentialfordelingen kan bruges, da det leder til en særligt simpel og let fortolkelig ankomstproces, den stationære Poissonproces. Brug QQ-plots (eller PP-plots) hertil. Hvis punkterne i QQ-plottet ligger tæt op ad en ret linie med skæring i 0 uden systematiske afvigelser, kan observationerne antages at stamme fra en eksponentialfordeling. Hvis en eksponentialfordeling passer dårligt på data, kan det undersøges hvorvidt Erlang-, lognormalfordelingen eller en normalfordeling passer med data. Evt. kan andre fordelingstyper undersøges om nødvendigt. 4. Estimér parametre i fordelingen, f.eks. vha. maksimaliseringsestimation. Når tjeklisten er vel overstået, kan I bruge den estimerede ankomstproces i simulationsøjemed eller i nogle tilfælde til eksakte beregninger, i fald I kan beskrive køsystemet i termer af en passende analytisk håndtérbar model. 6 Statistik for ankomstprocesser i R Hverken Excel eller Matlab er specielt velegnede til at udføre de statistiske beregninger, som er beskrevet i denne note. Selv om de beskrevne plots principielt 11

12 kan laves i disse to programmer, bliver parameterestimation i unødvendigt teknisk. Til slige problemer er statistikværktøjet R et både bedre og nemmere valg. I kan hente programmet gratis på hjemmesiden Dokumentation for hovedfunktionerne i R kan findes på f.eks. følgende adresse: Følgende er et eksempel på, hvordan man kan udføre de fleste af analyserne i denne note givet data i en tekstfil data.txt, hvor hver række indeholder netop én ankomsttid. # Indlæs datasæt ank <- read.table("data.txt") # Antal observationer n<-nrow(ank) # Beregn interankomsttider inter.ank <- c(ank[1,1], diff(ank[,1])) # Plot af observationer for undersøgelse af stationaritet plot(1:n,inter.ank,xlab="observationsnummer", ylab="observation",type="l") # Plot af autokorrelation (m. 95% konfidensbånd) acf(inter.ank) # QQ-plot mod eksponentialfordeling teo<-qexp((1:n)/n) plot(sort(inter.ank),teo,xlab="observerede fraktiler", ylab="teoretiske fraktiler") abline(0,1) # PP-plot mod eksponentialfordeling teo<-pexp(sort(inter.ank)) plot((1:n)/n,teo,xlab="observerede sandsynligheder", ylab="teoretiske sandsynligheder") abline(0,1) # Parameterestimation for eksponentialfordeling. # Kræver at I har installeret biblioteket MASS library(mass) fitdistr(inter.ank,"exponential") 12

Stokastiske processer og køteori

Stokastiske processer og køteori Stokastiske processer og køteori 3. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1 SIDSTE GANG Ankomstproces T 1, T 2,... (ankomsttid per kunde) til køsystem. Modellér

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Stokastiske processer og køteori

Stokastiske processer og køteori Stokastiske processer og køteori 9. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1 OPSAMLING EKSAKTE MODELLER Fordele: Praktiske til initierende analyser/dimensionering

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Kræver generelt at diverse ventetider er eksponentialfordelte. Faste rammer for serverdiscipliner mv. Svært at modellere ikke-standard køsystemer.

Kræver generelt at diverse ventetider er eksponentialfordelte. Faste rammer for serverdiscipliner mv. Svært at modellere ikke-standard køsystemer. Opsamling eksakte modeller Fordele Praktiske til initierende analyser/dimensionering Ofte nemme at regne på. Kan bruges til at løse optimeringsopgaver, som ellers ville kræve snedige simulationsdesigns.

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Afsnit 6.1. Ligefordelinger, fra sidst Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Betingede sandsynligheder Aase D. Madsen

Betingede sandsynligheder Aase D. Madsen 1 Uge 12 Teoretisk Statistik 15. marts 2004 1. Betingede sandsynligheder Definition Loven om den totale sandsynlighed Bayes formel 2. Betinget middelværdi og varians 3. Kovarians og korrelationskoefficient

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag susanne

Susanne Ditlevsen Institut for Matematiske Fag    susanne Statistik og Sandsynlighedsregning 1 STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 7. undervisningsuge, mandag 1 Estimation og konfidensintervaller

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

Uge 10 Teoretisk Statistik 1. marts 2004

Uge 10 Teoretisk Statistik 1. marts 2004 1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro Uge 48 II Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori Endeligt udfaldsrum Udfaldsrum uden øvre

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Estimation og konfidensintervaller

Estimation og konfidensintervaller Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Opgaver til kapitel 3

Opgaver til kapitel 3 Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Lineære transformationer, middelværdi og varians Helle Sørensen Uge 8, onsdag SaSt2 (Uge 8, onsdag) Lineære transf. og middelværdi 1 / 15 Program I formiddag: Fordeling

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

hvor a og b er konstanter. Ved middelværdidannelse fås videre

hvor a og b er konstanter. Ved middelværdidannelse fås videre Uge 3 Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge ) 3. Middelværdivektor, kovarians- og korrelationsmatrix 4. Summer af stokastiske variable 5.Den

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 33B, Rum 9 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail: pbac@dtu.dk Efterår

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Normalfordelingen og transformation af kontinuerte fordelinger Helle Sørensen Uge 7, mandag SaSt2 (Uge 7, mandag) Normalford. og transformation 1 / 16 Program Paretofordelingen,

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kontinuerte fordelinger Simultane fordelinger Kovarians og korrelation Uafhængighed Betingede fordelinger - Middelværdi og varians - Sammenhæng med uafhængighed 1 Figur 1: En tæthedsfunktion

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/41 Landmålingens fejlteori - lidt om kurset

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff Course 242/2323 Introducerende Statistik Forelæsning 3: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 22 Danmarks Tekniske Universitet 28 Lyngby Danmark

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen STATISTIK Skriftlig evaluering, 3. semester, mandag den 6. januar 004 kl. 9.00-13.00. Alle hjælpemidler er tilladt. Opgaveløsningen forsynes med navn og CPR-nr. OPGAVE 1 Et firma tuner biler. Antallet

Læs mere

Stokastiske processer og køteori

Stokastiske processer og køteori Stokastiske processer og køteori 2. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1 STOKASTISK MODEL FOR KØSYSTEM Population Ankomst Kø Ekspedition Output Ankomstproces

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Institut for Økonomi Aarhus Universitet Statistik 1, Forår 2001 Allan Würtz 4. April, 2001 En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Uniform fordeling Benyttes som model for situationer,

Læs mere

Mat2SS Vejledende besvarelse uge 11

Mat2SS Vejledende besvarelse uge 11 MatSS Vejledende besvarelse uge Eksamen V99/00 opg. a Kønsfordelingen 996 den samme for de tre skoler Mænd Kvinder I alt København 5 = n x 56 = x 8 = n Odense 9 = n x 06 = x 5 = n Århus 0 = n x 40 = x

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

StatDataN: Middelværdi og varians

StatDataN: Middelværdi og varians StatDataN: Middelværdi og varians JLJ StatDataN: Middelværdi og varians p. 1/33 Repetition Stokastisk variabel: funktion fra udfaldsrum over i de hele tal eller over i de reelle tal Ex: Ω = alle egetræer,

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Dagens program. Praktisk information:

Dagens program. Praktisk information: Dagens program Praktisk information: Husk hjemmeopgaven i statistik Hypoteseprøvning kap. 11.2,11.3 og 11.8 Eksempel på test Styrkefunktionen kap. 11.2 Stikprøvens størrelse kap. 11.3 Likelihood ratio

Læs mere

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Normalfordelingens venner og bekendte Helle Sørensen Uge 9, onsdag SaSt2 (Uge 9, onsdag) Normalfordelingens venner 1 / 20 Program Resultaterne fra denne uge skal bruges

Læs mere

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Matematisk model for køsystem

Matematisk model for køsystem Matematisk model for køsystem Ankomstproces T 1, T 2,... (ankomsttid per kunde). Kødisciplin (rækkefølge for service). Ekspeditionstidsproces S 1, S 2,... (servicetid per kunde). Dagens emne: ankomstprocesser.

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr) DANMARKS TEKNISKE UNIVERSITET Side af 7 sider Skriftlig prøve, den: 0. maj 206 Kursus nr : 02405 Kursus navn: Sandsynlighedsregning Varighed : 4 timer Tilladte hjælpemidler: Alle Dette sæt er besvaret

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere