Statistik for ankomstprocesser

Størrelse: px
Starte visningen fra side:

Download "Statistik for ankomstprocesser"

Transkript

1 Statistik for ankomstprocesser Anders Gorst-Rasmussen 20. september 2006 Resumé Denne note er en kortfattet gennemgang af grundlæggende statistiske værktøjer, man kunne tænke sig brugt til at vurdere rimeligheden af og sidenhen til at fastlægge en fornyelsesmodel for ankomstprocessen i et køsystem. Vi betragter et ikke nærmere specificeret køsystem, hvori {T n : n = 1,2,...} er en følge af ankomsttider (ankomstproces), og {U n : n N} er den tilhørende følge af interankomsttider, dvs. U 1 := T 1, U n := T n T n 1, n = 2,3,... I denne note skal vi udelukkende se på statistisk inferens for ankomstprocessen på baggrund af interankomsttider. Nærmere bestemt koncentrerer vi os i dette kursus om ankomstprocesser, som er fornyelsesprocesser, dvs. interankomsttider er uafhængige og identisk fordelte. I mindre tekniske termer kan disse antagelser formuleres som følger: 1. Hver kunde vælger sin ankomsttid uafhængig af de forudgående kunder. 2. Ankomstprocessen ser ens ud til alle tidspunkter, specielt er ankomstraten (gennemsnitligt antal ankomster per tidsenhed) er konstant over tid (stationaritet). Disse antagelser er typisk kun er grove approksimationer i dagligdags køsystemer. I et supermarked har folk tendens til at ankomme i klynger, alt imens ankomstraten varierer betydeligt i løbet af dagen; i et produktionssystem kan interankomsttiderne bedre antages uafhængige, men ofte vil ankomstraten variere i tid. På trods af den slags mangler, vil man ikke desto mindre ofte insistere på at anvende en fornyelsesmodel for ankomstprocessen, eksempelvis over tilpas små tidsrum, hvis der er tvivl om stationaritet. Begrundelsen er rimelig nok: fornyelsesmodellen er simplest mulige stokastiske model for ankomstprocessen i den forstand, at det er tilstrækkeligt at specificere interankomstfordelingen. Med en så simpel model er det 1

2 særligt let at simulere køsystemet mhp. at vurdere diverse performanceparametre. Endvidere rummer klassen af fornyelsesankomstprocesser den helt centrale stationære Poisson ankomstproces, under hvilken man i mange tilfælde kan udføre delvis eksakte analyser af køsystemet. Givet observationer fra en konkret ankomstproces er det derfor naturligt at undersøge vha. statistiske metoder, hvorvidt en fornyelsesmodel er en god model for ankomstprocessen og i bekræftende fald hvordan fornyelsesmodellen bør se ud i detaljer. Der skal tages stilling til følgende fire punkter: 1. Er stationaritetsantagelsen rimelig? 2. Er uafhængighedsantagelsen for interankomsttider rimelig? 3. Hvilken parametrisk klasse af fordelinger stammer interankomsttider fra? 4. Givet en rimelig parametrisk klasse af fordelinger, hvad er det bedste bud på parameterværdien for fordelingen af interankomsttider på baggrund af observationerne? I det følgende beskrives en række grundlæggende statistiske værktøjer til at håndtere hvert enkelt af ovenstående punkter. 1 Stationaritet Lad x 1,...,x n være observationer af en stokastisk proces {X n : n N}. En simpel men effektiv måde hvorpå man kan undersøge for stationaritet er ved at plotte observationer (i nærværende sammenhæng givet ved interankomsttider) mod deres indeks, dvs. plotte punkterne (i,x i ) for i = 1,...,n. Følgende er tegn på ikkestationaritet: 1. Trends eller skift i lokation over observationsnummer. 2. Skift i variation over observationsnummer. Hvis data er spredt jævnt omkring gennemsnittet uden af de ovenstående afvigelser, vil man typisk acceptere stationaritetsantagelsen. Se Figur 1 for eksempler. Man bør altid tage datakilden ind i overvejelserne, når man vurderer stationaritet. Ofte vil man på forhånd have en klar idé om, hvorvidt en ankomstproces er ikkestationær over et længere tidsinterval. Hvis det er tilfældet, bør man overveje at splitte datasættet af ankomsttider op i flere datasæt over mindre tidsintervaller, over hvilke man forventer stationaritet. Observationsfølgerne hørende til hvert tidsinterval kan derpå undersøges enkeltvis. 2

3 Stat. proces Ikkestat. proces Observation Observation Observationsnummer Observationsnummer FIGUR 1. Eksempler på plot af observationer mod indeks i en stationær (venstre) og ikkestationær (højre) stokastisk proces. Processen til venstre udviser ingen tydelige tegn på skift i lokation eller variation. Processen til højre udviser derimod periodisk trend. Endvidere er der et skift i variation omkring de sidste 20 observationer. 2 Uafhængighed af interankomsttider Et udbredt mål for afhængigheden mellem stokastiske variable er deres korrelation. Vi genkalder os først, at variansen af en stokastisk variabel X, hhv. kovariansen for to stokastiske variable X,Y, defineres som Var(X) := E(X EX) 2 = E(X 2 ) (E(X)) 2 ; Cov(X,Y) := E ( (X E(X))(Y EY) ) = E(XY) E(X)E(Y). Korrelationen mellem X,Y er da defineret som følger: (1) ρ(x,y) := Cov(X,Y) Var(X)Var(Y). Det kan vises, at korrelationen besidder følgende egenskaber: 1. ρ(x,y) ρ(x,y) = 1 Y = ax + b for konstanter a > 0 og b R. 3. ρ(x,y) = 1 Y = ax + b for konstanter a < 0 og b R. Iht. punkt 2-3 måler korrelationen den lineære afhængighed mellem X og Y : jo større (numerisk) korrelation, jo nærmere perfekt lineær er sammenhængen mellem X og Y. Negativ korrelation betyder, at X og Y har negativ samvariation jo større værdi af X, jo mindre værdi af Y. Positiv korrelation betyder, at X og Y har positiv samvariation jo større værdi af X, jo større værdi af Y. Hvis ρ(x,y) = 0, kaldes X og Y ukorrelerede. 3

4 y y x x2 y y x x4 FIGUR 2. Figurerne viser plot af observationer af stokastiske vektorer (X,Y). I alle tilfælde er ρ(x,y) = Kvalitativt forskellige former for afhængighed kan altså lede til samme korrelationskoefficient. Endvidere kan korrelationskoefficienten være stor, selvom afhængigheden er langt fra lineær (figuren nederst til højre) eller omvendt, korrelationskoefficienten kan være lille, selvom afhængigheden er meget tæt på lineær (figuren nederst til højre). Tommelfingerreglen at stor korrelation lineær sammenhæng bør anvendes varsomt i praksis. Som vist i Figur 2 kan andre og mere komplicerede sammenhænge end linearitet give anledning til stor korrelation. Bemærk at hvis X og Y er uafhængige, gælder E(XY) = E(X)E(Y) og dermed ρ(x,y) = 0 ifølge (1), dvs. X og Y er ukorrelerede. Det omvendte gælder ikke ukorrelerede variable er generelt ikke uafhængige (tjek selv ved at udregne korrelationen mellem stokastiske variable X og Y = X 2, når E(X) = 0). Til gengæld er korrelationen et meget parsimonisk mål for afhængighed (vi kan nøjes med ét tal), og giver sædvanligvis en rimelig idé om graden af afhængighed. Hvordan estimeres korrelationer ud fra data? Givet uafhængige observationer x 1,...,x n af en stokastisk variabel X kan variansen af X estimeres ved følgende: Var(X) = n 1 n (x i x i ) 2, x = n 1 n Hvis Y er en anden stokastisk variabel, fra hvilken vi har uafhængige observationer y 1,...,y n, kan kovariansen mellem X og Y estimeres ved Ĉov(X,Y) = n 1 n (x i x)(y i y), x = n 1 n Følgelig kan korrelationen mellem X og Y estimeres ved x i. x i, y = n 1 n y i. Ĉov(X,Y) n (2) ˆρ(X,Y) = = (x i x)(y i y) Var(X) Var(Y) n (x i x) 2 n (y i ȳ) 2. 4

5 Det kan vises, at ˆρ(X,Y) nærmer sig den sande korrelation ρ(x,y), når antallet af observationer går mod uendelig, dvs. ˆρ er en såkaldt konsistent estimator. Vi er interesserede i at anvende korrelationer til at vurdere afhængigheder i en følge af stokastisk variable, dvs. en stokastisk proces. Lad X := {X n : n N} være en sådan stokastisk proces. Til X knytter vi autokorrelationsfunktionen ρ(m,n) := ρ(x m,x n ), m,n N. Autokorrelationsfunktionen beskriver graden af afhængighed mellem givne observationer X m og X n i processen. Vi kan i princippet estimere ρ(m,n) ved estimatoren (2); det kræver imidlertid, at vi kan observere den stokastiske proces til samme tidspunkt mange gange, uafhængigt af hinanden. I praksis har man kun én observation for hvert tidspunkt, og man vil derfor typisk antage, at X er svagt stationær. Ved dette forstås, at E(X n ) og E(X n ) 2 er uafhængige af n. I så fald følger det af definitionen på korrelation og autokorrelation, at ρ(m, n) kun afhænger af differensen m n. Det kan så vises, at ρ(n) kan estimeres ved den empiriske autokorrelation givet ved (3) ˆρ(k) = n k (x i+k x)(x i x) n (x i x) 2, k = 0,1,...,n. Bemærk at ˆρ(0) = ρ(0) = 1 (en observation er altid perfekt korreleret med sig selv). Den uafhængige variabel k i (3) kaldes lag. Det gælder, at ˆρ(k) nærmer sig den sande lag-k autokorrelation ρ(k), når antallet af observationer n går mod uendelig. Bemærk at hvis lag k er tæt på antal observationer n, er der kun få observationer (n k sådanne) til at fastlægge ˆρ(k), jf. (3). De empiriske autokorrelationer for sådanne høje lags bør derfor tolkes varsomt. To eksempler på empiriske autokorrelationsfunktioner er givet i Figur 3. Når vi undersøger ankomstprocesser mhp. at opstille fornyelsesmodeller herfor, ønsker vi at vurdere, hvorvidt der er uafhængighed mellem interankomsttider. Generelt kan det vises, at hvis {X n : n N} er en (svagt stationær) stokastisk proces bestående af lutter uafhængige observationer, så gælder (4) n 1/2 ˆρ(k) approx N(0,1), for n stor, hvor N(0, 1) betegner standardnormalfordelingen. Denne normalapproksimation kan bruges til at konstruere konfidensgrænser for autokorrelationsfunktionen: givet n uafhængige observationer er et approksimativt (1 α)% konfidensinterval for ˆρ(k) givet ved [ z 1 α/2 n 1/2,z 1 α/2 n 1/2 ], hvor z a er a-fraktilen i standardnormalfordelingen, dvs. z a = Φ 1 (a), med Φ fordelingsfunktionen for standardnormalfordelingen. Af definitionen på et konfidensinterval (intervallet indeholder den sande parameter i (1 α) 100% af tilfældene) forventer vi i snit, at (1 α) 100% af de beregnede empiriske autokorrelationer ˆρ(k) for k > 0 ligger inden for konfidensgrænserne. Hvis det omtrentligt er tilfældet, vil vi typisk acceptere antagelsen om uafhængighed. 5

6 ACF IID obs ACF random walk ACF ACF Lag Lag FIGUR 3. Figuren til venstre viser et plot af ρ(k), når X består af uafhængigt standardnormalfordelte observationer. Figuren til højre viser et plot af ρ(k) for den stokastiske proces fastlagt iid ved X 0 = 0, X n = X n 1 + ε n, n > 1, ε n N(0,1) (random walk). I begge tilfælde er 95% konfidensbånd angivet ved de stiplede linier, beregnet ud fra sammenhængen i (4). I figuren til venstre accepteres antagelsen om uafhængighed (én ud af 20 autokorrelationer, dvs. præcis 5%, overskrider konfidensgrænsen). I figuren til højre afvises antagelsen om uafhængighed; observationerne er tydeligvis positivt korrelerede. 3 Fordeling af interankomsttider Forudsat at ankomstprocessen er stationær, og følgen af interankomsttiderne er blevet fundet uafhængige, er næste skridt at bestemme en model for fordelingen af interankomsttiderne. Vi forestiller os, at vi blandt en række forskellige fordelingstyper (eksponentialfordelingen, Erlangfordelingen etc.) ønsker at bestemme den type, som matcher data bedst. Til dette formål er den simpleste og ofte også mest informative metode at benytte en eller anden form for grafisk kontrol. Et formelt statistisk test for fordelingstype (goodness-of-fit test) kan være nyttigt i tvivlstilfælde og diskuteres kort til sidst i dette afsnit. Lad Y være en stokastisk variabel med fordelingsfunktion F, dvs. F(y) = P(Y y). Antag for nemheds skyld, at F er en kontinuert funktion. Så er fraktilfunktionen for F defineret som Q(p) := F 1 (p) for p [0,1], dvs. Q(p) er den værdi af den uafhængige variabel, for hvilken F krydser p. En sammenligning af Q med den empiriske fraktilfunktion beregnet ud fra data kan bruges til at vurdere, om data stammer fra F. Lad x 1,...,x n være en samling af uafhængige observationer af en stokastisk variabel X. Den empiriske fraktilfunktion for observationerne er defineret som Q n (p) := min{x : p F n (x)}, 6

7 hvor F n (x) er den empiriske fordelingsfunktion for x 1,...,x n, dvs. (5) F n (x) := antal observationer mindre end eller lig x. I fald X har fordelingsfunktion F, kan det vises, at Q n (x) nærmer sig Q(x) for ethvert x når n. Dvs. for n tilstrækkelig stor gælder, at Q n (x) Q(x). Under antagelsen at X har fordelingsfunktion F, vil punkterne i et plot af Q n (x) mod Q(x) ligge på tæt på linien y = x, uden systematiske afvigelser. Et sådant plot kaldes et QQ-plot (Quantile-Quantile plot). Konkret konstrueres QQ-plottet som et plot af punkterne (Q(i/n),y i ) for i = 1,...,n, hvor y 1 y n er observationerne x 1,...,x n ordnet efter størrelse. QQ plot Empiriske fraktiler Teoretiske fraktiler FIGUR 4. Et eksempel på et QQ-plot af interankomsttider mod fraktilerne i en eksponentialfordeling. Punkterne ligger tæt op ad og jævnt spredt om linien y = x. Vi slutter, at en eksponentialfordeling er en acceptabel model for disse data. Almindeligvis kender vi ikke F eksakt, men kun op til en eller flere ukendte parametre (parameteren i en eksponentialfordeling, middelværdi og varians i en normalfordeling etc.). I den slags tilfælde er det generelt nødvendigt at estimere parametre ud fra data, før man konstruerer sit QQ-plot. Der er dog visse vigtige undtagelser. Antag nemlig at punkterne i QQ-plottet af Q n (x) mod Q ligger omkring en rette linie y = ax+b. Dette gælder, hvis X har fordelingsfunktion F((x b)/a), dvs. X er fordelt som F pånær et skift i lokation b og skala a. Resultatet kan bruges til at vurdere visse fordelingstyper, uden at man behøver at estimere ukendte parametre for F. Her er to vigtige eksempler: 1. Antag at X eksponentialfordelt med parameter a. Hvis F er fordelingsfunktionen for en eksponentialfordelt stokastisk variabel med parameter 1, så har X fordelingsfunktion F(ax). Dvs. punkterne i et plot af Q n mod fraktilerne for F ligger omkring linien y = x/a. 7

8 2. Antag at X er normalfordelt med middelværdi b og varians a 2. Hvis F betegner fordelingsfunktionen for en standardnormalt stokastisk variabel, så har X fordelingsfunktion F((x b)/a). Dvs. punkterne i et plot af Q n mod fraktilerne hørende til F vil ligge omkring linien y = ax+b. Resultatet kan også bruges til at undersøge for lognormalfordelte observationer her skal logaritmen til observationerne ligge omkring linien y = ax + b. Et alternativ til QQ-plots er PP-plots (Probability-Probability plots). Her plottes den empiriske fordelingsfunktion F n (x) mod en teoretisk fordelingsfunktion F, hvis parametre evt. er estimeret på baggrund af data. Også her skal punkterne ligge omtrentligt på linien y = x, såfremt X er fordelt som F. I praksis konstrueres PPplottet som et plot af punkterne (i/n,f(y i )) for i = 1,...,n, hvor y 1 y n er observationerne x 1,...,x n ordnet efter størrelse. PP-plots diskriminerer bedst i områder, hvor der er meget sandsynlighedsmasse (dvs. omkring middelværdien) og dårligere i halen af fordelingen (hvor sandsynlighederne er meget tæt på 0 hhv. 1). QQ-plots diskriminerer derimod bedst i halerne af en fordeling og ringere i områder med høj sandsynlighedsmasse (hvor der er mange observationer klumpet sammen ). Valget af plot til at undersøge fordelingstype afhænger altså af, hvilket område af fordelingen, det er vigtigst at beskrive præcist. QQ plot PP plot Teoretiske fraktiler Teoretisk sandsynlighed Empiriske fraktiler Empirisk sandsynlighed FIGUR 5. QQ-plot og PP-plot af observationer fra en Erlangfordeling med formparameter 2 og skalaparameter 1/2 mod de teoretiske fraktiler/sandsynligheder i en eksponentialfordeling med parameter 1. Bemærk de systematiske afvigelser fra den rette linie y = x i begge plots observationerne er tydeligvis ikke eksponentialfordelte. Som et alternativ til QQ- og PP-plots, kan man udføre et formelt statistisk test for fordelingstype, et såkaldt goodness-of-fit test. Et sådant test kan være nyttigt i situationer, hvor det synes vanskeligt at afgøre fordelingstypen, eller hvor man ønsker præcis afklaring i form af en p-værdi snarere end mere løse overvejelser baseret på plots. I er formentlig stødt på dette test i et tidligere statistikkursus: givet 8

9 uafhængige observationer x 1,...,x n af en stokastisk variabel X ønsker vi at teste hypotesen H 0 mod alternativet H 1, hvor H 0 : observationerne stammer fra fordelingsfunktionen Fˆθ H 1 : observationerne stammer ikke fra Fˆθ. Her er Fˆθ en fordelingsfunktion, hvis parameter er estimeret ved ˆθ på baggrund af data, f.eks. ved maksimaliseringsestimation (se næste afsnit). Hypotesen H 0 kan undersøges ved først at definere intervaller [a j 1,a j ), j = 1,...,k, således at samtlige observationer er indeholdt i foreningsmængden af [a j 1,a j ) erne og derpå beregne det forventede antal observationer E i i hver [a j 1,a j ) under Fˆθ, dvs. E i = n ( Fˆθ (a j) Fˆθ (a j 1) ). Antag at parameteren for fordelingsfunktionen F har dimension c. Lad endvidere O j være antal observationer i intervallet [a j 1,a j ). Der gælder følgende X 2 := k (O i E i ) 2 approx χ 2 (k c 1), E i når n samt det forventede antal observationer per celle er tilstrækkelig stort. Teststørrelsen X 2 kaldes goodness-of-fit teststørrelsen. Som en tommelfingerregel kræves E i 5, for at ovenstående approksimation er gyldig. Ud fra teststørrelsen X 2 kan vi konstruere det ønskede test. Store værdier af X 2 er kritiske for H 0, dvs. med signifikansniveau α afvises hypotesen H 0, såfremt X 2 > χ 2 (α,k c 1), hvor χ 2 (α,k c 1) er (1 α) 100%-fraktilen i χ2 (k c 1)-fordelingen. Det er ikke muligt at angive generelt, hvor mange intervaller, som bør anvendes for at sikre den mest pålidelige testprocedure for goodness-of-fit testet. Tabel 1 er en oversigt over anbefalet størrelsesorden for antal intervaller for et givet antal observationer n. Tabellen er en gengivelse af tabellen p. 329 i Banks et. al. (2005), Discrete Event System Simulation, Prentice-Hall. Stikprøvestørrelse Antal intervaller 20 Brug ikke χ 2 -test >100 n n/5 TABEL 1. Anbefalet antal intervaller til brug ifm. χ 2 -testet for fordelingstype. 9

10 4 Parameterestimation Lad os antage, at stationaritetsantagelsen samt uafhængighedsantagelsen for interankomster er afklaret, samt at man har besluttet sig for en klasse af fordelinger for interankomsttiderne, dvs. man har besluttet sig for en statistisk model. Antag at den statistiske model kan beskrives ved en klasse af tæthedsfunktioner { f θ : θ Θ}, hvor θ er en ukendt parameter (f.eks. raten i en eksponentialfordeling eller vektoren bestående af middelværdi og varians i en normalfordeling). Vi ønsker nu at estimere værdien af θ på baggrund af data. En særligt udbredt form for estimation er maksimaliseringsestimation (eng: maximum likelihood estimation). Givet uafhængige observationer x 1,x 2,...,x n af en stokastisk variabel X og en samling af tæthedsfunktioner { f θ : θ Θ} er likelihoodfunktionen for θ defineret som L(θ) := n f θ (t i ). Maksimaliseringsestimatet for θ er defineret som den værdi af θ, der maksimaliserer likehoodfunktionen for data under den givne statistiske model, dvs. ˆθ ML := arg maxl(θ). Maksimaliseringsestimatet er altså den værdi af θ, som tildeler størst sandsynlighed til de observerede data under modellen. Maksimaliseringsestimatorer er særligt pæne estimatorer. Det kan f.eks. vises, at de under ganske generelle betingelser er approksimativt normalfordelte når n (muliggør konstruktion af konfidensintervaller for en parameter). Desuden spiller maksimaliseringsestimatorer en helt central rolle i konstruktionen af de såkaldte likelihood ratio tests til sammenligning af delmodeller i en givet statistisk model. Tabel 2 er en liste over maksimaliseringsestimatorer 1 for en række fordelingstyper, som man typisk støder på ifm. analyse af ankomstprocesser. Generelt er det ikke muligt at opskrive maksimaliseringsestimatorer på lukket form, og man må i stedet anvende numeriske metoder til maksimering af likelihoodfunktionen. Dette er eksempelvis påkrævet for Erlangfordelingen med ukendt form- og skalaparameter. 5 Opsummering hvad skal I huske? Følgende er en trin-for-trin oversigt over analyser, I bør udføre, når I forsøger at fitte fornyelsesmodeller til ankomstprocesser. 1 Det bemærkes, at maksimaliseringsestimatoren for variansen σ 2 i en normalfordeling faktisk er givet ved ˆσ 2 ML = (n 1)/n ˆσ 2 ; denne estimator er imidlertid ikke middelværdiret, forstået således at E( ˆσ ML ) = (n 1)/nσ 2 σ 2. Estimatoren ˆσ 2 er derimod middelværdiret og er derfor at foretrække. 10

11 Fordeling Tæthed Param. Maksimaliseringsestimator Eksponentialfordeling f(x) = ae ax a â = 1/ x Erlangfordeling f(x) = β r /(n 1)!x r 1 e x/β β ˆβ = x/r (kendt formparam.) Normalfordeling f(x) = (σ 2π) 1 e (x µ)2 /(2σ 2 ) µ,σ 2 ˆµ = x ˆσ 2 = (n 1) 1 n (x i x) 2 Lognormalfordeling f(x) = (xσ 2π) 1 e (ln(x) µ)2 /(2σ 2 ) µ,σ 2 Som for normalfordelingen; efter at have taget ln af data. TABEL 2. Liste over maksimaliseringsestimatorer for fordelinger, man typisk anvender for interankomsttider 1. Tjek stationaritet ved at plotte observationer (dvs. interankomsttider) mod observationsnummer. Hvis der ej er synlige skift i lokation eller variation, accepteres normalt antagelsen om stationaritet. Hvis ankomstprocessen ikke er stationær over hele det betragtede tidsinterval, gennemgå da punkt 2-4 over et eller flere mindre tidsintervaller, hvor processen kan antages approksimativt stationær. 2. Tjek uafhængighed vha. autokorrelationsplot. Brug konfidensbånd til at vurdere uafhængighedsantagelsen. Hvis ca. 5% eller færre af de estimerede autokorrelationer for lag større end 0 overskrider konfidensgrænsen, accepteres normalt antagelsen om uafhængighed. 3. Undersøg fordelingstype for interankomsttider. Det er en god idé først at undersøge, om eksponentialfordelingen kan bruges, da det leder til en særligt simpel og let fortolkelig ankomstproces, den stationære Poissonproces. Brug QQ-plots (eller PP-plots) hertil. Hvis punkterne i QQ-plottet ligger tæt op ad en ret linie med skæring i 0 uden systematiske afvigelser, kan observationerne antages at stamme fra en eksponentialfordeling. Hvis en eksponentialfordeling passer dårligt på data, kan det undersøges hvorvidt Erlang-, lognormalfordelingen eller en normalfordeling passer med data. Evt. kan andre fordelingstyper undersøges om nødvendigt. 4. Estimér parametre i fordelingen, f.eks. vha. maksimaliseringsestimation. Når tjeklisten er vel overstået, kan I bruge den estimerede ankomstproces i simulationsøjemed eller i nogle tilfælde til eksakte beregninger, i fald I kan beskrive køsystemet i termer af en passende analytisk håndtérbar model. 6 Statistik for ankomstprocesser i R Hverken Excel eller Matlab er specielt velegnede til at udføre de statistiske beregninger, som er beskrevet i denne note. Selv om de beskrevne plots principielt 11

12 kan laves i disse to programmer, bliver parameterestimation i unødvendigt teknisk. Til slige problemer er statistikværktøjet R et både bedre og nemmere valg. I kan hente programmet gratis på hjemmesiden Dokumentation for hovedfunktionerne i R kan findes på f.eks. følgende adresse: Følgende er et eksempel på, hvordan man kan udføre de fleste af analyserne i denne note givet data i en tekstfil data.txt, hvor hver række indeholder netop én ankomsttid. # Indlæs datasæt ank <- read.table("data.txt") # Antal observationer n<-nrow(ank) # Beregn interankomsttider inter.ank <- c(ank[1,1], diff(ank[,1])) # Plot af observationer for undersøgelse af stationaritet plot(1:n,inter.ank,xlab="observationsnummer", ylab="observation",type="l") # Plot af autokorrelation (m. 95% konfidensbånd) acf(inter.ank) # QQ-plot mod eksponentialfordeling teo<-qexp((1:n)/n) plot(sort(inter.ank),teo,xlab="observerede fraktiler", ylab="teoretiske fraktiler") abline(0,1) # PP-plot mod eksponentialfordeling teo<-pexp(sort(inter.ank)) plot((1:n)/n,teo,xlab="observerede sandsynligheder", ylab="teoretiske sandsynligheder") abline(0,1) # Parameterestimation for eksponentialfordeling. # Kræver at I har installeret biblioteket MASS library(mass) fitdistr(inter.ank,"exponential") 12

Stokastiske processer og køteori

Stokastiske processer og køteori Stokastiske processer og køteori 3. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1 SIDSTE GANG Ankomstproces T 1, T 2,... (ankomsttid per kunde) til køsystem. Modellér

Læs mere

Stokastiske processer og køteori

Stokastiske processer og køteori Stokastiske processer og køteori 9. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1 OPSAMLING EKSAKTE MODELLER Fordele: Praktiske til initierende analyser/dimensionering

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

Kræver generelt at diverse ventetider er eksponentialfordelte. Faste rammer for serverdiscipliner mv. Svært at modellere ikke-standard køsystemer.

Kræver generelt at diverse ventetider er eksponentialfordelte. Faste rammer for serverdiscipliner mv. Svært at modellere ikke-standard køsystemer. Opsamling eksakte modeller Fordele Praktiske til initierende analyser/dimensionering Ofte nemme at regne på. Kan bruges til at løse optimeringsopgaver, som ellers ville kræve snedige simulationsdesigns.

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Afsnit 6.1. Ligefordelinger, fra sidst Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Betingede sandsynligheder Aase D. Madsen

Betingede sandsynligheder Aase D. Madsen 1 Uge 12 Teoretisk Statistik 15. marts 2004 1. Betingede sandsynligheder Definition Loven om den totale sandsynlighed Bayes formel 2. Betinget middelværdi og varians 3. Kovarians og korrelationskoefficient

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro Uge 48 II Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori Endeligt udfaldsrum Udfaldsrum uden øvre

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Uge 10 Teoretisk Statistik 1. marts 2004

Uge 10 Teoretisk Statistik 1. marts 2004 1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Lineære transformationer, middelværdi og varians Helle Sørensen Uge 8, onsdag SaSt2 (Uge 8, onsdag) Lineære transf. og middelværdi 1 / 15 Program I formiddag: Fordeling

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

hvor a og b er konstanter. Ved middelværdidannelse fås videre

hvor a og b er konstanter. Ved middelværdidannelse fås videre Uge 3 Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge ) 3. Middelværdivektor, kovarians- og korrelationsmatrix 4. Summer af stokastiske variable 5.Den

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Normalfordelingen og transformation af kontinuerte fordelinger Helle Sørensen Uge 7, mandag SaSt2 (Uge 7, mandag) Normalford. og transformation 1 / 16 Program Paretofordelingen,

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen STATISTIK Skriftlig evaluering, 3. semester, mandag den 6. januar 004 kl. 9.00-13.00. Alle hjælpemidler er tilladt. Opgaveløsningen forsynes med navn og CPR-nr. OPGAVE 1 Et firma tuner biler. Antallet

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

StatDataN: Middelværdi og varians

StatDataN: Middelværdi og varians StatDataN: Middelværdi og varians JLJ StatDataN: Middelværdi og varians p. 1/33 Repetition Stokastisk variabel: funktion fra udfaldsrum over i de hele tal eller over i de reelle tal Ex: Ω = alle egetræer,

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Institut for Økonomi Aarhus Universitet Statistik 1, Forår 2001 Allan Würtz 4. April, 2001 En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Uniform fordeling Benyttes som model for situationer,

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Mat2SS Vejledende besvarelse uge 11

Mat2SS Vejledende besvarelse uge 11 MatSS Vejledende besvarelse uge Eksamen V99/00 opg. a Kønsfordelingen 996 den samme for de tre skoler Mænd Kvinder I alt København 5 = n x 56 = x 8 = n Odense 9 = n x 06 = x 5 = n Århus 0 = n x 40 = x

Læs mere

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr) DANMARKS TEKNISKE UNIVERSITET Side af 7 sider Skriftlig prøve, den: 0. maj 206 Kursus nr : 02405 Kursus navn: Sandsynlighedsregning Varighed : 4 timer Tilladte hjælpemidler: Alle Dette sæt er besvaret

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,

Læs mere

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 33B, Rum 9 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail: pbac@dtu.dk Efterår

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff Course 242/2323 Introducerende Statistik Forelæsning 3: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 22 Danmarks Tekniske Universitet 28 Lyngby Danmark

Læs mere

Stokastiske processer og køteori

Stokastiske processer og køteori Stokastiske processer og køteori 2. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1 STOKASTISK MODEL FOR KØSYSTEM Population Ankomst Kø Ekspedition Output Ankomstproces

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering Landmålingens fejlteori Lektion 3 Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition: Middelværdi og

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Repetition Stokastisk variabel

Repetition Stokastisk variabel Repetition Stokastisk variabel Diskret stokastisk variabel Udfaldsrum endelige eller tællelige mange antal elementer Sandsynlighedsfunktion f(x) er ofte tabellagt Udregning af sandsynligheder P( a < X

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Nanostatistik: Opgaver

Nanostatistik: Opgaver Nanostatistik: Opgaver Jens Ledet Jensen, 19/01/05 Opgaver 1 Opgaver fra Indblik i Statistik 5 Eksamensopgaver fra tidligere år 11 i ii NANOSTATISTIK: OPGAVER Opgaver Opgave 1 God opgaveskik: Når I regner

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff. Kursus 02402 Introduktion til Statistik Forelæsning 10: Statistik ved hjælp af simulering Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi

Læs mere

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4 02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4 Vejledende løsning 5.46 P (0.010 < error < 0.015) = (0.015 0.010)/0.050 = 0.1 > punif(0.015,-0.025,0.025)-punif(0.01,-0.025,0.025) [1] 0.1

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Teoretisk Statistik, 13 april, 2005

Teoretisk Statistik, 13 april, 2005 Poissonprocessen Teoretisk Statistik, 13 april, 2005 Setup og antagelser Fordelingen af X(t) og et eksempel Ventetider i poissonprocessen Fordeling af ventetiden T 1 til første ankomst Fortolkning af λ

Læs mere

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable IMM, 00--6 Poul Thyregod Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable Todimensionale stokastiske variable Lærebogens afsnit 4 introducerede sandsynlighedsmodeller formuleret

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Sandsynlighedsregning Oversigt over begreber og fordelinger

Sandsynlighedsregning Oversigt over begreber og fordelinger Tue Tjur Marts 2007 Sandsynlighedsregning Oversigt over begreber og fordelinger Stat. MØK 2. år Kapitel : Sandsynlighedsfordelinger og stokastiske variable En sandsynlighedsfunktion på en mængde E (udfaldsrummet)

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Stokastiske processer og køteori

Stokastiske processer og køteori Stokastiske processer og køteori 7. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1 OVERBLIK Sidste gang: M/M/(m, n m)-køsystemet: ligevægtsfordeling; performancestørrelser;

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Kursus 242 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 35/324 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail:

Læs mere

hvor y antages approksimeret ved normalfordeling med middelværdi y og varians va^r(y): y ± u 1-/2 # cv(y) # y = y(1 ± u 1-/2 # cv(y))

hvor y antages approksimeret ved normalfordeling med middelværdi y og varians va^r(y): y ± u 1-/2 # cv(y) # y = y(1 ± u 1-/2 # cv(y)) 1 Opgave II.1 a) Stikprøvevariansen er vidt forskellig for de fire varetyper, men denne absolutte størrelse er vanskelig at sammenligne på tværs af varetyper, da disse har vidt forskellige niveauer, målt

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative

Læs mere

02402 Løsning til testquiz02402f (Test VI)

02402 Løsning til testquiz02402f (Test VI) 02402 Løsning til testquiz02402f (Test VI) Spørgsmål 4. En ejendomsmægler ønsker at undersøge om hans kunder får mindre end hvad de har forlangt, når de sælger deres bolig. Han har regisreret følgende:

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Almindelige kontinuerte fordelinger

Almindelige kontinuerte fordelinger Almindelige kontinuerte fordelinger Den uniforme fordeling Symbol: X Uniform a,b Beskrivelse: Et tilfældigt tal mellem a og b. Støtte: V X a, b. Tæthedsfunktion: f x 1/ b a for x a,b Fordelingsfunktion:

Læs mere