Statistik for ankomstprocesser

Størrelse: px
Starte visningen fra side:

Download "Statistik for ankomstprocesser"

Transkript

1 Statistik for ankomstprocesser Anders Gorst-Rasmussen 20. september 2006 Resumé Denne note er en kortfattet gennemgang af grundlæggende statistiske værktøjer, man kunne tænke sig brugt til at vurdere rimeligheden af og sidenhen til at fastlægge en fornyelsesmodel for ankomstprocessen i et køsystem. Vi betragter et ikke nærmere specificeret køsystem, hvori {T n : n = 1,2,...} er en følge af ankomsttider (ankomstproces), og {U n : n N} er den tilhørende følge af interankomsttider, dvs. U 1 := T 1, U n := T n T n 1, n = 2,3,... I denne note skal vi udelukkende se på statistisk inferens for ankomstprocessen på baggrund af interankomsttider. Nærmere bestemt koncentrerer vi os i dette kursus om ankomstprocesser, som er fornyelsesprocesser, dvs. interankomsttider er uafhængige og identisk fordelte. I mindre tekniske termer kan disse antagelser formuleres som følger: 1. Hver kunde vælger sin ankomsttid uafhængig af de forudgående kunder. 2. Ankomstprocessen ser ens ud til alle tidspunkter, specielt er ankomstraten (gennemsnitligt antal ankomster per tidsenhed) er konstant over tid (stationaritet). Disse antagelser er typisk kun er grove approksimationer i dagligdags køsystemer. I et supermarked har folk tendens til at ankomme i klynger, alt imens ankomstraten varierer betydeligt i løbet af dagen; i et produktionssystem kan interankomsttiderne bedre antages uafhængige, men ofte vil ankomstraten variere i tid. På trods af den slags mangler, vil man ikke desto mindre ofte insistere på at anvende en fornyelsesmodel for ankomstprocessen, eksempelvis over tilpas små tidsrum, hvis der er tvivl om stationaritet. Begrundelsen er rimelig nok: fornyelsesmodellen er simplest mulige stokastiske model for ankomstprocessen i den forstand, at det er tilstrækkeligt at specificere interankomstfordelingen. Med en så simpel model er det 1

2 særligt let at simulere køsystemet mhp. at vurdere diverse performanceparametre. Endvidere rummer klassen af fornyelsesankomstprocesser den helt centrale stationære Poisson ankomstproces, under hvilken man i mange tilfælde kan udføre delvis eksakte analyser af køsystemet. Givet observationer fra en konkret ankomstproces er det derfor naturligt at undersøge vha. statistiske metoder, hvorvidt en fornyelsesmodel er en god model for ankomstprocessen og i bekræftende fald hvordan fornyelsesmodellen bør se ud i detaljer. Der skal tages stilling til følgende fire punkter: 1. Er stationaritetsantagelsen rimelig? 2. Er uafhængighedsantagelsen for interankomsttider rimelig? 3. Hvilken parametrisk klasse af fordelinger stammer interankomsttider fra? 4. Givet en rimelig parametrisk klasse af fordelinger, hvad er det bedste bud på parameterværdien for fordelingen af interankomsttider på baggrund af observationerne? I det følgende beskrives en række grundlæggende statistiske værktøjer til at håndtere hvert enkelt af ovenstående punkter. 1 Stationaritet Lad x 1,...,x n være observationer af en stokastisk proces {X n : n N}. En simpel men effektiv måde hvorpå man kan undersøge for stationaritet er ved at plotte observationer (i nærværende sammenhæng givet ved interankomsttider) mod deres indeks, dvs. plotte punkterne (i,x i ) for i = 1,...,n. Følgende er tegn på ikkestationaritet: 1. Trends eller skift i lokation over observationsnummer. 2. Skift i variation over observationsnummer. Hvis data er spredt jævnt omkring gennemsnittet uden af de ovenstående afvigelser, vil man typisk acceptere stationaritetsantagelsen. Se Figur 1 for eksempler. Man bør altid tage datakilden ind i overvejelserne, når man vurderer stationaritet. Ofte vil man på forhånd have en klar idé om, hvorvidt en ankomstproces er ikkestationær over et længere tidsinterval. Hvis det er tilfældet, bør man overveje at splitte datasættet af ankomsttider op i flere datasæt over mindre tidsintervaller, over hvilke man forventer stationaritet. Observationsfølgerne hørende til hvert tidsinterval kan derpå undersøges enkeltvis. 2

3 Stat. proces Ikkestat. proces Observation Observation Observationsnummer Observationsnummer FIGUR 1. Eksempler på plot af observationer mod indeks i en stationær (venstre) og ikkestationær (højre) stokastisk proces. Processen til venstre udviser ingen tydelige tegn på skift i lokation eller variation. Processen til højre udviser derimod periodisk trend. Endvidere er der et skift i variation omkring de sidste 20 observationer. 2 Uafhængighed af interankomsttider Et udbredt mål for afhængigheden mellem stokastiske variable er deres korrelation. Vi genkalder os først, at variansen af en stokastisk variabel X, hhv. kovariansen for to stokastiske variable X,Y, defineres som Var(X) := E(X EX) 2 = E(X 2 ) (E(X)) 2 ; Cov(X,Y) := E ( (X E(X))(Y EY) ) = E(XY) E(X)E(Y). Korrelationen mellem X,Y er da defineret som følger: (1) ρ(x,y) := Cov(X,Y) Var(X)Var(Y). Det kan vises, at korrelationen besidder følgende egenskaber: 1. ρ(x,y) ρ(x,y) = 1 Y = ax + b for konstanter a > 0 og b R. 3. ρ(x,y) = 1 Y = ax + b for konstanter a < 0 og b R. Iht. punkt 2-3 måler korrelationen den lineære afhængighed mellem X og Y : jo større (numerisk) korrelation, jo nærmere perfekt lineær er sammenhængen mellem X og Y. Negativ korrelation betyder, at X og Y har negativ samvariation jo større værdi af X, jo mindre værdi af Y. Positiv korrelation betyder, at X og Y har positiv samvariation jo større værdi af X, jo større værdi af Y. Hvis ρ(x,y) = 0, kaldes X og Y ukorrelerede. 3

4 y y x x2 y y x x4 FIGUR 2. Figurerne viser plot af observationer af stokastiske vektorer (X,Y). I alle tilfælde er ρ(x,y) = Kvalitativt forskellige former for afhængighed kan altså lede til samme korrelationskoefficient. Endvidere kan korrelationskoefficienten være stor, selvom afhængigheden er langt fra lineær (figuren nederst til højre) eller omvendt, korrelationskoefficienten kan være lille, selvom afhængigheden er meget tæt på lineær (figuren nederst til højre). Tommelfingerreglen at stor korrelation lineær sammenhæng bør anvendes varsomt i praksis. Som vist i Figur 2 kan andre og mere komplicerede sammenhænge end linearitet give anledning til stor korrelation. Bemærk at hvis X og Y er uafhængige, gælder E(XY) = E(X)E(Y) og dermed ρ(x,y) = 0 ifølge (1), dvs. X og Y er ukorrelerede. Det omvendte gælder ikke ukorrelerede variable er generelt ikke uafhængige (tjek selv ved at udregne korrelationen mellem stokastiske variable X og Y = X 2, når E(X) = 0). Til gengæld er korrelationen et meget parsimonisk mål for afhængighed (vi kan nøjes med ét tal), og giver sædvanligvis en rimelig idé om graden af afhængighed. Hvordan estimeres korrelationer ud fra data? Givet uafhængige observationer x 1,...,x n af en stokastisk variabel X kan variansen af X estimeres ved følgende: Var(X) = n 1 n (x i x i ) 2, x = n 1 n Hvis Y er en anden stokastisk variabel, fra hvilken vi har uafhængige observationer y 1,...,y n, kan kovariansen mellem X og Y estimeres ved Ĉov(X,Y) = n 1 n (x i x)(y i y), x = n 1 n Følgelig kan korrelationen mellem X og Y estimeres ved x i. x i, y = n 1 n y i. Ĉov(X,Y) n (2) ˆρ(X,Y) = = (x i x)(y i y) Var(X) Var(Y) n (x i x) 2 n (y i ȳ) 2. 4

5 Det kan vises, at ˆρ(X,Y) nærmer sig den sande korrelation ρ(x,y), når antallet af observationer går mod uendelig, dvs. ˆρ er en såkaldt konsistent estimator. Vi er interesserede i at anvende korrelationer til at vurdere afhængigheder i en følge af stokastisk variable, dvs. en stokastisk proces. Lad X := {X n : n N} være en sådan stokastisk proces. Til X knytter vi autokorrelationsfunktionen ρ(m,n) := ρ(x m,x n ), m,n N. Autokorrelationsfunktionen beskriver graden af afhængighed mellem givne observationer X m og X n i processen. Vi kan i princippet estimere ρ(m,n) ved estimatoren (2); det kræver imidlertid, at vi kan observere den stokastiske proces til samme tidspunkt mange gange, uafhængigt af hinanden. I praksis har man kun én observation for hvert tidspunkt, og man vil derfor typisk antage, at X er svagt stationær. Ved dette forstås, at E(X n ) og E(X n ) 2 er uafhængige af n. I så fald følger det af definitionen på korrelation og autokorrelation, at ρ(m, n) kun afhænger af differensen m n. Det kan så vises, at ρ(n) kan estimeres ved den empiriske autokorrelation givet ved (3) ˆρ(k) = n k (x i+k x)(x i x) n (x i x) 2, k = 0,1,...,n. Bemærk at ˆρ(0) = ρ(0) = 1 (en observation er altid perfekt korreleret med sig selv). Den uafhængige variabel k i (3) kaldes lag. Det gælder, at ˆρ(k) nærmer sig den sande lag-k autokorrelation ρ(k), når antallet af observationer n går mod uendelig. Bemærk at hvis lag k er tæt på antal observationer n, er der kun få observationer (n k sådanne) til at fastlægge ˆρ(k), jf. (3). De empiriske autokorrelationer for sådanne høje lags bør derfor tolkes varsomt. To eksempler på empiriske autokorrelationsfunktioner er givet i Figur 3. Når vi undersøger ankomstprocesser mhp. at opstille fornyelsesmodeller herfor, ønsker vi at vurdere, hvorvidt der er uafhængighed mellem interankomsttider. Generelt kan det vises, at hvis {X n : n N} er en (svagt stationær) stokastisk proces bestående af lutter uafhængige observationer, så gælder (4) n 1/2 ˆρ(k) approx N(0,1), for n stor, hvor N(0, 1) betegner standardnormalfordelingen. Denne normalapproksimation kan bruges til at konstruere konfidensgrænser for autokorrelationsfunktionen: givet n uafhængige observationer er et approksimativt (1 α)% konfidensinterval for ˆρ(k) givet ved [ z 1 α/2 n 1/2,z 1 α/2 n 1/2 ], hvor z a er a-fraktilen i standardnormalfordelingen, dvs. z a = Φ 1 (a), med Φ fordelingsfunktionen for standardnormalfordelingen. Af definitionen på et konfidensinterval (intervallet indeholder den sande parameter i (1 α) 100% af tilfældene) forventer vi i snit, at (1 α) 100% af de beregnede empiriske autokorrelationer ˆρ(k) for k > 0 ligger inden for konfidensgrænserne. Hvis det omtrentligt er tilfældet, vil vi typisk acceptere antagelsen om uafhængighed. 5

6 ACF IID obs ACF random walk ACF ACF Lag Lag FIGUR 3. Figuren til venstre viser et plot af ρ(k), når X består af uafhængigt standardnormalfordelte observationer. Figuren til højre viser et plot af ρ(k) for den stokastiske proces fastlagt iid ved X 0 = 0, X n = X n 1 + ε n, n > 1, ε n N(0,1) (random walk). I begge tilfælde er 95% konfidensbånd angivet ved de stiplede linier, beregnet ud fra sammenhængen i (4). I figuren til venstre accepteres antagelsen om uafhængighed (én ud af 20 autokorrelationer, dvs. præcis 5%, overskrider konfidensgrænsen). I figuren til højre afvises antagelsen om uafhængighed; observationerne er tydeligvis positivt korrelerede. 3 Fordeling af interankomsttider Forudsat at ankomstprocessen er stationær, og følgen af interankomsttiderne er blevet fundet uafhængige, er næste skridt at bestemme en model for fordelingen af interankomsttiderne. Vi forestiller os, at vi blandt en række forskellige fordelingstyper (eksponentialfordelingen, Erlangfordelingen etc.) ønsker at bestemme den type, som matcher data bedst. Til dette formål er den simpleste og ofte også mest informative metode at benytte en eller anden form for grafisk kontrol. Et formelt statistisk test for fordelingstype (goodness-of-fit test) kan være nyttigt i tvivlstilfælde og diskuteres kort til sidst i dette afsnit. Lad Y være en stokastisk variabel med fordelingsfunktion F, dvs. F(y) = P(Y y). Antag for nemheds skyld, at F er en kontinuert funktion. Så er fraktilfunktionen for F defineret som Q(p) := F 1 (p) for p [0,1], dvs. Q(p) er den værdi af den uafhængige variabel, for hvilken F krydser p. En sammenligning af Q med den empiriske fraktilfunktion beregnet ud fra data kan bruges til at vurdere, om data stammer fra F. Lad x 1,...,x n være en samling af uafhængige observationer af en stokastisk variabel X. Den empiriske fraktilfunktion for observationerne er defineret som Q n (p) := min{x : p F n (x)}, 6

7 hvor F n (x) er den empiriske fordelingsfunktion for x 1,...,x n, dvs. (5) F n (x) := antal observationer mindre end eller lig x. I fald X har fordelingsfunktion F, kan det vises, at Q n (x) nærmer sig Q(x) for ethvert x når n. Dvs. for n tilstrækkelig stor gælder, at Q n (x) Q(x). Under antagelsen at X har fordelingsfunktion F, vil punkterne i et plot af Q n (x) mod Q(x) ligge på tæt på linien y = x, uden systematiske afvigelser. Et sådant plot kaldes et QQ-plot (Quantile-Quantile plot). Konkret konstrueres QQ-plottet som et plot af punkterne (Q(i/n),y i ) for i = 1,...,n, hvor y 1 y n er observationerne x 1,...,x n ordnet efter størrelse. QQ plot Empiriske fraktiler Teoretiske fraktiler FIGUR 4. Et eksempel på et QQ-plot af interankomsttider mod fraktilerne i en eksponentialfordeling. Punkterne ligger tæt op ad og jævnt spredt om linien y = x. Vi slutter, at en eksponentialfordeling er en acceptabel model for disse data. Almindeligvis kender vi ikke F eksakt, men kun op til en eller flere ukendte parametre (parameteren i en eksponentialfordeling, middelværdi og varians i en normalfordeling etc.). I den slags tilfælde er det generelt nødvendigt at estimere parametre ud fra data, før man konstruerer sit QQ-plot. Der er dog visse vigtige undtagelser. Antag nemlig at punkterne i QQ-plottet af Q n (x) mod Q ligger omkring en rette linie y = ax+b. Dette gælder, hvis X har fordelingsfunktion F((x b)/a), dvs. X er fordelt som F pånær et skift i lokation b og skala a. Resultatet kan bruges til at vurdere visse fordelingstyper, uden at man behøver at estimere ukendte parametre for F. Her er to vigtige eksempler: 1. Antag at X eksponentialfordelt med parameter a. Hvis F er fordelingsfunktionen for en eksponentialfordelt stokastisk variabel med parameter 1, så har X fordelingsfunktion F(ax). Dvs. punkterne i et plot af Q n mod fraktilerne for F ligger omkring linien y = x/a. 7

8 2. Antag at X er normalfordelt med middelværdi b og varians a 2. Hvis F betegner fordelingsfunktionen for en standardnormalt stokastisk variabel, så har X fordelingsfunktion F((x b)/a). Dvs. punkterne i et plot af Q n mod fraktilerne hørende til F vil ligge omkring linien y = ax+b. Resultatet kan også bruges til at undersøge for lognormalfordelte observationer her skal logaritmen til observationerne ligge omkring linien y = ax + b. Et alternativ til QQ-plots er PP-plots (Probability-Probability plots). Her plottes den empiriske fordelingsfunktion F n (x) mod en teoretisk fordelingsfunktion F, hvis parametre evt. er estimeret på baggrund af data. Også her skal punkterne ligge omtrentligt på linien y = x, såfremt X er fordelt som F. I praksis konstrueres PPplottet som et plot af punkterne (i/n,f(y i )) for i = 1,...,n, hvor y 1 y n er observationerne x 1,...,x n ordnet efter størrelse. PP-plots diskriminerer bedst i områder, hvor der er meget sandsynlighedsmasse (dvs. omkring middelværdien) og dårligere i halen af fordelingen (hvor sandsynlighederne er meget tæt på 0 hhv. 1). QQ-plots diskriminerer derimod bedst i halerne af en fordeling og ringere i områder med høj sandsynlighedsmasse (hvor der er mange observationer klumpet sammen ). Valget af plot til at undersøge fordelingstype afhænger altså af, hvilket område af fordelingen, det er vigtigst at beskrive præcist. QQ plot PP plot Teoretiske fraktiler Teoretisk sandsynlighed Empiriske fraktiler Empirisk sandsynlighed FIGUR 5. QQ-plot og PP-plot af observationer fra en Erlangfordeling med formparameter 2 og skalaparameter 1/2 mod de teoretiske fraktiler/sandsynligheder i en eksponentialfordeling med parameter 1. Bemærk de systematiske afvigelser fra den rette linie y = x i begge plots observationerne er tydeligvis ikke eksponentialfordelte. Som et alternativ til QQ- og PP-plots, kan man udføre et formelt statistisk test for fordelingstype, et såkaldt goodness-of-fit test. Et sådant test kan være nyttigt i situationer, hvor det synes vanskeligt at afgøre fordelingstypen, eller hvor man ønsker præcis afklaring i form af en p-værdi snarere end mere løse overvejelser baseret på plots. I er formentlig stødt på dette test i et tidligere statistikkursus: givet 8

9 uafhængige observationer x 1,...,x n af en stokastisk variabel X ønsker vi at teste hypotesen H 0 mod alternativet H 1, hvor H 0 : observationerne stammer fra fordelingsfunktionen Fˆθ H 1 : observationerne stammer ikke fra Fˆθ. Her er Fˆθ en fordelingsfunktion, hvis parameter er estimeret ved ˆθ på baggrund af data, f.eks. ved maksimaliseringsestimation (se næste afsnit). Hypotesen H 0 kan undersøges ved først at definere intervaller [a j 1,a j ), j = 1,...,k, således at samtlige observationer er indeholdt i foreningsmængden af [a j 1,a j ) erne og derpå beregne det forventede antal observationer E i i hver [a j 1,a j ) under Fˆθ, dvs. E i = n ( Fˆθ (a j) Fˆθ (a j 1) ). Antag at parameteren for fordelingsfunktionen F har dimension c. Lad endvidere O j være antal observationer i intervallet [a j 1,a j ). Der gælder følgende X 2 := k (O i E i ) 2 approx χ 2 (k c 1), E i når n samt det forventede antal observationer per celle er tilstrækkelig stort. Teststørrelsen X 2 kaldes goodness-of-fit teststørrelsen. Som en tommelfingerregel kræves E i 5, for at ovenstående approksimation er gyldig. Ud fra teststørrelsen X 2 kan vi konstruere det ønskede test. Store værdier af X 2 er kritiske for H 0, dvs. med signifikansniveau α afvises hypotesen H 0, såfremt X 2 > χ 2 (α,k c 1), hvor χ 2 (α,k c 1) er (1 α) 100%-fraktilen i χ2 (k c 1)-fordelingen. Det er ikke muligt at angive generelt, hvor mange intervaller, som bør anvendes for at sikre den mest pålidelige testprocedure for goodness-of-fit testet. Tabel 1 er en oversigt over anbefalet størrelsesorden for antal intervaller for et givet antal observationer n. Tabellen er en gengivelse af tabellen p. 329 i Banks et. al. (2005), Discrete Event System Simulation, Prentice-Hall. Stikprøvestørrelse Antal intervaller 20 Brug ikke χ 2 -test >100 n n/5 TABEL 1. Anbefalet antal intervaller til brug ifm. χ 2 -testet for fordelingstype. 9

10 4 Parameterestimation Lad os antage, at stationaritetsantagelsen samt uafhængighedsantagelsen for interankomster er afklaret, samt at man har besluttet sig for en klasse af fordelinger for interankomsttiderne, dvs. man har besluttet sig for en statistisk model. Antag at den statistiske model kan beskrives ved en klasse af tæthedsfunktioner { f θ : θ Θ}, hvor θ er en ukendt parameter (f.eks. raten i en eksponentialfordeling eller vektoren bestående af middelværdi og varians i en normalfordeling). Vi ønsker nu at estimere værdien af θ på baggrund af data. En særligt udbredt form for estimation er maksimaliseringsestimation (eng: maximum likelihood estimation). Givet uafhængige observationer x 1,x 2,...,x n af en stokastisk variabel X og en samling af tæthedsfunktioner { f θ : θ Θ} er likelihoodfunktionen for θ defineret som L(θ) := n f θ (t i ). Maksimaliseringsestimatet for θ er defineret som den værdi af θ, der maksimaliserer likehoodfunktionen for data under den givne statistiske model, dvs. ˆθ ML := arg maxl(θ). Maksimaliseringsestimatet er altså den værdi af θ, som tildeler størst sandsynlighed til de observerede data under modellen. Maksimaliseringsestimatorer er særligt pæne estimatorer. Det kan f.eks. vises, at de under ganske generelle betingelser er approksimativt normalfordelte når n (muliggør konstruktion af konfidensintervaller for en parameter). Desuden spiller maksimaliseringsestimatorer en helt central rolle i konstruktionen af de såkaldte likelihood ratio tests til sammenligning af delmodeller i en givet statistisk model. Tabel 2 er en liste over maksimaliseringsestimatorer 1 for en række fordelingstyper, som man typisk støder på ifm. analyse af ankomstprocesser. Generelt er det ikke muligt at opskrive maksimaliseringsestimatorer på lukket form, og man må i stedet anvende numeriske metoder til maksimering af likelihoodfunktionen. Dette er eksempelvis påkrævet for Erlangfordelingen med ukendt form- og skalaparameter. 5 Opsummering hvad skal I huske? Følgende er en trin-for-trin oversigt over analyser, I bør udføre, når I forsøger at fitte fornyelsesmodeller til ankomstprocesser. 1 Det bemærkes, at maksimaliseringsestimatoren for variansen σ 2 i en normalfordeling faktisk er givet ved ˆσ 2 ML = (n 1)/n ˆσ 2 ; denne estimator er imidlertid ikke middelværdiret, forstået således at E( ˆσ ML ) = (n 1)/nσ 2 σ 2. Estimatoren ˆσ 2 er derimod middelværdiret og er derfor at foretrække. 10

11 Fordeling Tæthed Param. Maksimaliseringsestimator Eksponentialfordeling f(x) = ae ax a â = 1/ x Erlangfordeling f(x) = β r /(n 1)!x r 1 e x/β β ˆβ = x/r (kendt formparam.) Normalfordeling f(x) = (σ 2π) 1 e (x µ)2 /(2σ 2 ) µ,σ 2 ˆµ = x ˆσ 2 = (n 1) 1 n (x i x) 2 Lognormalfordeling f(x) = (xσ 2π) 1 e (ln(x) µ)2 /(2σ 2 ) µ,σ 2 Som for normalfordelingen; efter at have taget ln af data. TABEL 2. Liste over maksimaliseringsestimatorer for fordelinger, man typisk anvender for interankomsttider 1. Tjek stationaritet ved at plotte observationer (dvs. interankomsttider) mod observationsnummer. Hvis der ej er synlige skift i lokation eller variation, accepteres normalt antagelsen om stationaritet. Hvis ankomstprocessen ikke er stationær over hele det betragtede tidsinterval, gennemgå da punkt 2-4 over et eller flere mindre tidsintervaller, hvor processen kan antages approksimativt stationær. 2. Tjek uafhængighed vha. autokorrelationsplot. Brug konfidensbånd til at vurdere uafhængighedsantagelsen. Hvis ca. 5% eller færre af de estimerede autokorrelationer for lag større end 0 overskrider konfidensgrænsen, accepteres normalt antagelsen om uafhængighed. 3. Undersøg fordelingstype for interankomsttider. Det er en god idé først at undersøge, om eksponentialfordelingen kan bruges, da det leder til en særligt simpel og let fortolkelig ankomstproces, den stationære Poissonproces. Brug QQ-plots (eller PP-plots) hertil. Hvis punkterne i QQ-plottet ligger tæt op ad en ret linie med skæring i 0 uden systematiske afvigelser, kan observationerne antages at stamme fra en eksponentialfordeling. Hvis en eksponentialfordeling passer dårligt på data, kan det undersøges hvorvidt Erlang-, lognormalfordelingen eller en normalfordeling passer med data. Evt. kan andre fordelingstyper undersøges om nødvendigt. 4. Estimér parametre i fordelingen, f.eks. vha. maksimaliseringsestimation. Når tjeklisten er vel overstået, kan I bruge den estimerede ankomstproces i simulationsøjemed eller i nogle tilfælde til eksakte beregninger, i fald I kan beskrive køsystemet i termer af en passende analytisk håndtérbar model. 6 Statistik for ankomstprocesser i R Hverken Excel eller Matlab er specielt velegnede til at udføre de statistiske beregninger, som er beskrevet i denne note. Selv om de beskrevne plots principielt 11

12 kan laves i disse to programmer, bliver parameterestimation i unødvendigt teknisk. Til slige problemer er statistikværktøjet R et både bedre og nemmere valg. I kan hente programmet gratis på hjemmesiden Dokumentation for hovedfunktionerne i R kan findes på f.eks. følgende adresse: Følgende er et eksempel på, hvordan man kan udføre de fleste af analyserne i denne note givet data i en tekstfil data.txt, hvor hver række indeholder netop én ankomsttid. # Indlæs datasæt ank <- read.table("data.txt") # Antal observationer n<-nrow(ank) # Beregn interankomsttider inter.ank <- c(ank[1,1], diff(ank[,1])) # Plot af observationer for undersøgelse af stationaritet plot(1:n,inter.ank,xlab="observationsnummer", ylab="observation",type="l") # Plot af autokorrelation (m. 95% konfidensbånd) acf(inter.ank) # QQ-plot mod eksponentialfordeling teo<-qexp((1:n)/n) plot(sort(inter.ank),teo,xlab="observerede fraktiler", ylab="teoretiske fraktiler") abline(0,1) # PP-plot mod eksponentialfordeling teo<-pexp(sort(inter.ank)) plot((1:n)/n,teo,xlab="observerede sandsynligheder", ylab="teoretiske sandsynligheder") abline(0,1) # Parameterestimation for eksponentialfordeling. # Kræver at I har installeret biblioteket MASS library(mass) fitdistr(inter.ank,"exponential") 12

Stokastiske processer og køteori

Stokastiske processer og køteori Stokastiske processer og køteori 3. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1 SIDSTE GANG Ankomstproces T 1, T 2,... (ankomsttid per kunde) til køsystem. Modellér

Læs mere

Stokastiske processer og køteori

Stokastiske processer og køteori Stokastiske processer og køteori 9. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1 OPSAMLING EKSAKTE MODELLER Fordele: Praktiske til initierende analyser/dimensionering

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Kræver generelt at diverse ventetider er eksponentialfordelte. Faste rammer for serverdiscipliner mv. Svært at modellere ikke-standard køsystemer.

Kræver generelt at diverse ventetider er eksponentialfordelte. Faste rammer for serverdiscipliner mv. Svært at modellere ikke-standard køsystemer. Opsamling eksakte modeller Fordele Praktiske til initierende analyser/dimensionering Ofte nemme at regne på. Kan bruges til at løse optimeringsopgaver, som ellers ville kræve snedige simulationsdesigns.

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Betingede sandsynligheder Aase D. Madsen

Betingede sandsynligheder Aase D. Madsen 1 Uge 12 Teoretisk Statistik 15. marts 2004 1. Betingede sandsynligheder Definition Loven om den totale sandsynlighed Bayes formel 2. Betinget middelværdi og varians 3. Kovarians og korrelationskoefficient

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Uge 10 Teoretisk Statistik 1. marts 2004

Uge 10 Teoretisk Statistik 1. marts 2004 1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro Uge 48 II Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori Endeligt udfaldsrum Udfaldsrum uden øvre

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Institut for Økonomi Aarhus Universitet Statistik 1, Forår 2001 Allan Würtz 4. April, 2001 En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Uniform fordeling Benyttes som model for situationer,

Læs mere

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr) DANMARKS TEKNISKE UNIVERSITET Side af 7 sider Skriftlig prøve, den: 0. maj 206 Kursus nr : 02405 Kursus navn: Sandsynlighedsregning Varighed : 4 timer Tilladte hjælpemidler: Alle Dette sæt er besvaret

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,

Læs mere

Mat2SS Vejledende besvarelse uge 11

Mat2SS Vejledende besvarelse uge 11 MatSS Vejledende besvarelse uge Eksamen V99/00 opg. a Kønsfordelingen 996 den samme for de tre skoler Mænd Kvinder I alt København 5 = n x 56 = x 8 = n Odense 9 = n x 06 = x 5 = n Århus 0 = n x 40 = x

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 33B, Rum 9 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail: pbac@dtu.dk Efterår

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff Course 242/2323 Introducerende Statistik Forelæsning 3: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 22 Danmarks Tekniske Universitet 28 Lyngby Danmark

Læs mere

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition

Læs mere

Stokastiske processer og køteori

Stokastiske processer og køteori Stokastiske processer og køteori 2. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1 STOKASTISK MODEL FOR KØSYSTEM Population Ankomst Kø Ekspedition Output Ankomstproces

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering Landmålingens fejlteori Lektion 3 Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition: Middelværdi og

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff.

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 10: Statistik ved hjælp af simulering. Per Bruun Brockhoff. Kursus 02402 Introduktion til Statistik Forelæsning 10: Statistik ved hjælp af simulering Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Repetition Stokastisk variabel

Repetition Stokastisk variabel Repetition Stokastisk variabel Diskret stokastisk variabel Udfaldsrum endelige eller tællelige mange antal elementer Sandsynlighedsfunktion f(x) er ofte tabellagt Udregning af sandsynligheder P( a < X

Læs mere

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4 02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4 Vejledende løsning 5.46 P (0.010 < error < 0.015) = (0.015 0.010)/0.050 = 0.1 > punif(0.015,-0.025,0.025)-punif(0.01,-0.025,0.025) [1] 0.1

Læs mere

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable IMM, 00--6 Poul Thyregod Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable Todimensionale stokastiske variable Lærebogens afsnit 4 introducerede sandsynlighedsmodeller formuleret

Læs mere

Teoretisk Statistik, 13 april, 2005

Teoretisk Statistik, 13 april, 2005 Poissonprocessen Teoretisk Statistik, 13 april, 2005 Setup og antagelser Fordelingen af X(t) og et eksempel Ventetider i poissonprocessen Fordeling af ventetiden T 1 til første ankomst Fortolkning af λ

Læs mere

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol

Læs mere

Stokastiske processer og køteori

Stokastiske processer og køteori Stokastiske processer og køteori 7. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1 OVERBLIK Sidste gang: M/M/(m, n m)-køsystemet: ligevægtsfordeling; performancestørrelser;

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

02402 Løsning til testquiz02402f (Test VI)

02402 Løsning til testquiz02402f (Test VI) 02402 Løsning til testquiz02402f (Test VI) Spørgsmål 4. En ejendomsmægler ønsker at undersøge om hans kunder får mindre end hvad de har forlangt, når de sælger deres bolig. Han har regisreret følgende:

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R Helle Sørensen Uge 6, mandag SaSt2 (Uge 6, mandag) Tætheder og kont. fordelinger 1 / 19 Program Velkommen I dag:

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Almindelige kontinuerte fordelinger

Almindelige kontinuerte fordelinger Almindelige kontinuerte fordelinger Den uniforme fordeling Symbol: X Uniform a,b Beskrivelse: Et tilfældigt tal mellem a og b. Støtte: V X a, b. Tæthedsfunktion: f x 1/ b a for x a,b Fordelingsfunktion:

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Approksimation af binomialsandsynligheder, Afsnit 4.5 Multinomial fordeling, Afsnit 4.8 Negativ binomialfordeling, Afsnit 4.4 Poisson fordeling og Poisson process, Afsnit 4.6 Kontinuerte

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative

Læs mere

Ekstremregn i Danmark

Ekstremregn i Danmark Ekstremregn i Danmark Supplement til statistisk bearbejdning af nedbørsdata fra Spildevandskomiteens regnmålersystem 1979-96 Henrik Madsen August 2002 Miljø & Ressourcer DTU Danmark Tekniske Universitet

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kapitel 8.1-8.3 Tilfældig stikprøve (Random Sampling) Likelihood Eksempler på likelihood funktioner Sufficiente statistikker Eksempler på sufficiente statistikker 1 Tilfældig stikprøve Kvantitative

Læs mere

Teoretisk Statistik, 16. februar Generel teori,repetition

Teoretisk Statistik, 16. februar Generel teori,repetition 1 Uge 8 Teoretisk Statistik, 16. februar 2004 1. Generel teori, repetition 2. Diskret udfaldsrum punktssh. 3. Fordelingsfunktionen 4. Tæthed 5. Transformationer 6. Diskrete vs. Kontinuerte stokastiske

Læs mere

hvor y antages approksimeret ved normalfordeling med middelværdi y og varians va^r(y): y ± u 1-/2 # cv(y) # y = y(1 ± u 1-/2 # cv(y))

hvor y antages approksimeret ved normalfordeling med middelværdi y og varians va^r(y): y ± u 1-/2 # cv(y) # y = y(1 ± u 1-/2 # cv(y)) 1 Opgave II.1 a) Stikprøvevariansen er vidt forskellig for de fire varetyper, men denne absolutte størrelse er vanskelig at sammenligne på tværs af varetyper, da disse har vidt forskellige niveauer, målt

Læs mere

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Perspektiver i Matematik-Økonomi: Linær regression

Perspektiver i Matematik-Økonomi: Linær regression Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, email: jlj@imf.au.dk Perspektiver i Matematik-Økonomi: Linær regression p. 1/34 Program for i dag 1. Indledning: sammenhæng mellem

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

Introduktion til Statistiske Modeller for Finansielle Tidsserier. Forelæsningsnoter til Finansiel Økonometri

Introduktion til Statistiske Modeller for Finansielle Tidsserier. Forelæsningsnoter til Finansiel Økonometri Introduktion til Statistiske Modeller for Finansielle Tidsserier Forelæsningsnoter til Finansiel Økonometri Jesper Lund mail@jesperlund.com http://www.jesperlund.com 14. marts 2006 1 Indledning Formålet

Læs mere

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag I formiddag: Tætheder og fordelingsfunktioner kort resume fra i mandags og et par eksempler mere om sammenhængen

Læs mere

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data. Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data. 1 / 32 Motivation Eksempel: Savings = β 0 + β 1 Income + u Vi ved allerede, hvordan vi estimerer regresseionlinjen:

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Rune Haubo B Christensen (based on slides by Per Bruun Brockhoff) DTU Compute, Statistik og Dataanalyse Bygning

Læs mere

MM501 forelæsningsslides

MM501 forelæsningsslides MM501 forelæsningsslides uge 40, 2010 Produceret af Hans J. Munkholm bearbejdet af JC 1 Separabel 1. ordens differentialligning En generel 1. ordens differentialligning har formen s.445-8 dx Eksempler

Læs mere

Forelæsning 9: Inferens for andele (kapitel 10)

Forelæsning 9: Inferens for andele (kapitel 10) Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Fagplan for statistik, efteråret 2015

Fagplan for statistik, efteråret 2015 Side 1 af 7 M Fagplan for statistik, efteråret 20 Litteratur Kenneth Hansen & Charlotte Koldsø (HK): Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave, ISBN 9788741256047 HypoStat

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Forelæsning 8: Inferens for varianser (kap 9)

Forelæsning 8: Inferens for varianser (kap 9) Kursus 02402 Introduktion til Statistik Forelæsning 8: Inferens for varianser (kap 9) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby

Læs mere

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med Repetition: Varians af linear kombination Landmålingens fejlteori Lektion 5 Fejlforplantning - rw@math.aau.dk Antag X 1, X,..., X n er uafhængige stokastiske variable, og Y er en linearkombination af X

Læs mere

Statistik 1TS 2003 Obligatorisk opgave 1

Statistik 1TS 2003 Obligatorisk opgave 1 Afdeling for Statistik og Operationsanalyse Institut for Matematiske Fag, Københavns Universitet 4. marts 2003 Stat 1TS / EH Statistik 1TS 2003 Obligatorisk opgave 1 Formelle forhold: Opgaven stilles tirsdag

Læs mere

Modeller for ankomstprocesser

Modeller for ankomstprocesser Modeller for ankomstprocesser Eric Bentzen Institut for Produktion og Erhvervsøkonomi Handelshøjskolen i København November 2007 1 . Afsnit Indhold Side 1 Indledning 3 2 Ankomstprocessen 3 3 Servicesystemet

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller

Læs mere

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.

Læs mere

Opgaver i sandsynlighedsregning

Opgaver i sandsynlighedsregning Afdeling for Teoretisk Statistik STATISTIK Institut for Matematiske Fag Preben Blæsild Aarhus Universitet 9. januar 005 Opgaver i sandsynlighedsregning Opgave Lad A og B være hændelser således at P(A)

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Afsnit 3.3-3.5 Varians Eksempel: Forventet nytte Kovarians og korrelation Middelværdi og varians af summer af stokastiske variabler Eksempel: Porteføljevalg 1 Beskrivelse af fordelinger

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt.

Læs mere

CIVILINGENIØREKSAMEN Side?? af?? sider. Skriftlig prøve, den: 16. december 2004 Kursus nr : (navn) (underskrift) (bord nr)

CIVILINGENIØREKSAMEN Side?? af?? sider. Skriftlig prøve, den: 16. december 2004 Kursus nr : (navn) (underskrift) (bord nr) CIVILINGENIØREKSAMEN Side?? af?? sider Skriftlig prøve, den: 6. december 2004 Kursus nr : 02405 Kursus navn: Sandsynlighedsregning Tilladte hjælpemidler: Alle Dette sæt er besvaret af: (navn) (underskrift)

Læs mere