Statisk og Dynamisk Modellering af Incidens af Akut Myokardie Infarkt
|
|
- Anita Juhl
- 7 år siden
- Visninger:
Transkript
1 Aalborg Universitet Instituttet for Matematik, Fredrik Bajers Vej 7G, DK-9220 Aalborg Øst Statisk og Dynamisk Modellering af Incidens af Akut Myokardie Infarkt af Stefan Christensen Mat 6 - Januar 2006
2
3 Aalborg Universitet Instituttet for Matematik, Fredrik Bajers Vej 7G, DK-9220 Aalborg Øst TITEL: Statisk og Dynamisk Modellering af Incidens af Akut Myokardie Infarkt FORFATTER: Stefan Christensen VEJLEDER: Søren Lundbye-Christensen SEMESTER: MAT6 PROJEKTPERIODE: 2/ til 10/ ANTAL KOPIER: 10 ANTAL SIDER: 117 sider ANTAL SIDER I ALT: 129 sider SYNOPSIS Teori-delen af denne speciale-rapport omhandler generaliserede lineære modeller og state space modeller. For den generaliserede lineære model beskrives maksimum-likelihood estimation af parametre, inferens og modelkontrol. For den Gaussiske state space model, også kaldet den dynamiske lineære model, beskrives Kalman-filtrering, Kalman-udglatning og maksimum-likelihood estimation af ukendte parametre. Desuden beskrives en specifik type af state space modeller kaldet strukturelle tidsrække modeller. Derefter udvides teorien til state space modeller med observationsfordeling fra den eksponentielle familie eller dynamiske generaliserede lineære modeller. Der beskrives to forskellige metoder til at foretage Kalman-filtrering og -smoothing i en dynamisk generaliseret lineær model. Anvendelses-delen af specialet beskæftiger sig med analyse af Poisson-fordelte data for antallet af daglige indlæggelser som følge af første-gangs blodpropper i hjertet i perioden i Nordjyllands amt. Dataene analyseres ved hjælp af en Poisson regressionsmodel, en strukturel tidsrække model og en Poisson state space model. Dataene udviser sæsonvariation med toppunkter forår og efterår/vinter og lavpunkt om sommeren. Sæsonvariationen afhænger af alder men ikke af køn. Analysen med en Poisson state space model viser, at sæsonvariationen har ændret sig svagt i løbet af undersøgelsesperioden.
4
5 Forord Denne speciale-rapport omhandler generaliserede lineære modeller og state space modeller og er udarbejdet i perioden september 2004 til januar 2006 på Aalborg Universitet. I rapporten er kildehenvisninger markeret med [<kildenummer>], hvor kildenummeret er anført i litteraturlisten. Vektorer er symboliseret ved fed skrift, x, og matricer er repræsenteret ved dobbelt understregning, X. Jeg vil gerne takke min vejleder Søren Lundbye-Christensen. Jeg har nydt stor gavn af hans store faglige viden, engagement og smittende humør. Jeg vil også gerne takke Claus Dethlefsen for hans velvilje til at besvare mine spørgsmål i forbindelse med min anvendelse af program-pakken sspir i data-analysen. Aalborg den 10. januar Stefan Christensen i
6 ii
7 Indhold 1 Indledning 1 I Teori-del 3 2 Den Generaliserede Lineære Model Den eksponentielle familie af fordelinger Poisson-fordelte observationer Generaliserede lineære modeller Poisson-model Maksimum-likelihood estimation Maximum-likelihood estimation for Poisson-modellen Fordeling af maksimum-likelihood estimator Inferens Devians Test baseret på deviansen Wald-test iii
8 INDHOLD 2.5 Modelkontrol Standardiserede residualer Varianshomogenitet Seriel korrelation Fordelingstype Den Dynamiske Lineære Model Den dynamiske lineære model Betinget uafhængighed i den DLM Kalman-filtrering Kalman-udglatning Maksimum-likelihood estimation af ukendte parametre Strukturelle tidsrække modeller Filtrering og udglatning Modelkontrol StructTS Den Dynamiske Generaliserede Lineære Model Den dynamiske generaliserede lineære model Kalman-filtrering med konjugeret a priori fordeling Kalman-filtrering for Poisson-modellen Extended Kalman-filtrering og -smoothing Extended Kalman-filtrering og -smoothing for Poisson-modellen iv
9 INDHOLD v 4.4 sspir Estimation af parametre II Anvendelses-del 51 5 Introduktion til anvendelses-delen Processen bag dannelsen af en AMI Risikofaktorer Årsager til sæsonvariationen af AMI Ugedagsvariation af AMI Beskrivelse af datasæt Registrering af patienter Aldersstandardisering Resultater Problemformulering for data-analysen Data-analyse med Statisk Poisson Model Opstilling af model Modelreduktion Modelkontrol Varianshomogenitet Seriel korrelation Fordelingstype v
10 INDHOLD Kontrol ved simulering Resultater Trend Sæsonvariation Ugedagsvariation Opsamling Data-analyse med Strukturel Tidsrække Model Opstilling af model Valg af variansparametre Modelkontrol Varianshomogenitet Seriel korrelation Normalitet Resultater Opsamling Data-analyse med Dynamisk Poisson Model Opstilling af model Valg af variansparametre Modelkontrol Seriel korrelation Varianshomogenitet vi
11 INDHOLD vii Fordelingstype Resultater Trend Sæsonvariation Ugedagsvariation Opsamling Diskussion Opsamling af resultater fra data-analysen Trend Sæsonvariation Ugedagsvariation Diskussion af resultater Konklusion A Appendix 111 A.1 Den multivariable normalfordeling A.2 Linear Bayes estimation A.3 Store tals lov vii
12
13 Kapitel 1 Indledning Dette speciale består af en teori-del, en anvendelses-del samt et appendix. Teori-delen består af tre kapitler. Kapitel 2 omhandler den generaliserede lineære model. Modellens opbygning, maksimum-likelihood estimation af parametre, inferens og modelkontrol beskrives. I kapitel 3 beskrives den dynamiske lineære model, Kalman-filtrering og Kalman-udglatning. Desuden beskrives strukturelle tidsrække modeller, som er et special-tilfælde af den dynamiske lineære model, samt maksimum-likelihood estimation af ukendte parametre. I kapitel 4 udvides teorien for dynamiske modeller til det generelle ikke-normalfordelte tilfælde. Der beskrives to forskellige metoder til at udføre Kalman-filtrering. Den ene er Bayesiansk orienteret og bygger på teorien om konjugerede fordelinger samt linear Bayes estimation. Den anden metode, der beskrives, er extended Kalman-filtrering og -smoothing, som er baseret på at udlede en Gaussisk approksimation af modellen. Anvendelses-delen består af en analyse af et datasæt, der omhandler forekomsten af førstegangstilfælde (også kaldet incidensen) af akut myokardie infarkt (blodprop i hjertet - forkortet AMI) i Nordjyllands amt i perioden I kapitel 5 beskrives det, hvordan en AMI opstår, og hvilke mulige årsager der kan være til årstidsvariationen af AMI-incidens. Derudover beskrives datasættet. Kapitlet afrundes med en problemformulering for data-analysen. I kapitlerne 6, 7 og 8 anvendes teorien fra teori-delen i en analyse af datasættet med henholdsvis en statisk Poisson regressionsmodel, en strukturel tidsrække model og en dynamisk Poisson model. Anvendelses-delen afsluttes med en diskussion af resultaterne af data-analysen. 1
14 2 Indledning
15 Del I Teori-del 3
16
17 Kapitel 2 Den Generaliserede Lineære Model Generaliserede lineære modeller (GLM) blev udviklet af Nelder og Wedderburn, se [18], og er en generalisering af regression ved lineære normale modeller til tilfælde, hvor observationerne ikke nødvendigvis er normalfordelte. Mere præcist kan modellen anvendes til regression med observationer, der har en fordeling fra den eksponentielle familie. 2.1 Den eksponentielle familie af fordelinger Definition 2.1 En fordeling tilhører den eksponentielle familie af fordelinger, hvis den tilhørende tætheds-/sandsynlighedsfunktion kan skrives på formen f(y η, V ) = exp{[d(y)η a(η)]/v }b(y, V ), (2.1) hvor a, b og d er kendte funktioner, og a er to gange differentiabel. Størrelsen η kaldes den naturlige parameter, mens V 1 er en dispersions-parameter, som er inkluderet for at tage højde for de situationer, hvor den observerede varians af Y er større end forventet udfra den antagede fordeling af Y. Hvis d(y) = y siges (2.1) at være på kanonisk form. 5
18 Den Generaliserede Lineære Model Ved at udregne den momentfrembringende funktion kan den betingede middelværdi og varians af d(y ) udledes. Den momentfrembringende funktion for d(y ) er givet ved ψ(t) = E{exp[t d(y )]} = exp[t d(y)]f(y η, V )dy = exp[t d(y)] exp{[d(y)η a(η)] /V }b(y, V )dy = exp{[d(y)(η + tv ) a(η)] /V }b(y, V )dy = exp{[a(η + tv ) a(η)] /V } exp{[d(y)(η + tv ) a(η + tv )] /V }b(y, V )dy = exp{[a(η + tv ) a(η)] /V }. Det følger, at ψ (t) = a (η + tv ) exp{[a(η + tv ) a(η)] /V } = a (η + tv )ψ(t), og ψ (t) = V a (η + tv )ψ(t) + a (η + tv )ψ (t) = ψ(t){v a (η + tv ) + [a (η + tv )] 2 }. Ifølge teorien for momentfrembringende funktioner gælder der, at µ = E[d(Y )] = ψ (0) = a (η), (2.2) og E{[d(Y )] 2 } = ψ (0) = V a (η) + {E[d(Y )]} 2, hvoraf der følger, at Var[d(Y )] = E{[d(Y )] 2 } {E[d(Y )]} 2 = V a (η). (2.3) Af fordelinger, der tilhører den eksponentielle familie, kan nævnes gamma, binominal, Poisson og normalfordelingen. Da Poisson-fordelte observationer analyseres i anvendelses-delen af rapporten, vil den generelle teori for den GLM, der præsenteres i dette kapitel, løbende blive udledt for Poissontilfældet Poisson-fordelte observationer Lad Y være Poisson-fordelt med parameter, µ, det vil sige, µ angiver både middelværdien og variansen for Y. Da gælder der, at f(y µ) = µy exp( µ), y! 6
19 Den Generaliserede Lineære Model 7 for y = 0, 1,.... For at vise at sandsynlighedsfunktionen for en Poisson-fordeling kan skrives på formen (2.1), omskrives den til f(y µ) = exp(y ln µ µ). (2.4) y! For d(y) = y, η = ln µ, a(η) = exp(η), V = 1 og b(y, V ) = 1/y!, er (2.4) identisk med (2.1), hvilket vil sige, at Poisson-fordelingen tilhører den eksponentielle familie og er på kanonisk form. Det ses, at a (η) = a (η) = exp(η) = µ som forventet. 2.2 Generaliserede lineære modeller Definition 2.2 Den generaliserede lineære model er defineret ved 1. Uafhængige responsvariable Y 1, Y 2,..., Y n, der alle har den samme type fordeling fra den eksponentielle familie med tætheds-/sandsynlighedsfunktioner på kanonisk form f(y i η i, V i ) = exp{[y i η i a(η i )] /V i }b(y i, V i ). i = 1, 2,..., n. 2. Vektorer x 1,..., x n af forklarende variable, hvor x i R p er tilknyttet observationen Y i. Disse vektorer organiseres i en n p-dimensional matrix, X = x T 1... x T n, der svarer til designmatricen i en lineær normal model. 3. En parametervektor β R p, som består af koefficienterne for de forklarende variable. 4. En kendt, monoton og kontinuert link-funktion, g, for hvilken det gælder, at g(µ i ) = λ i = x T i β, (2.5) hvor µ i = E(Y i ). Det ses, at det ikke kan antages at middelværdiparameteren, µ i, er en lineær funktion af den lineære regressionskomponent, λ i, som i den lineære normal model. 7
20 Den Generaliserede Lineære Model Poisson-model Ved modellering af Poisson-data, som ikke kan være negative, benyttes ofte en log-lineær model således at g(µ i ) = ln µ i = x T i β µ i = exp(x T i β). Dermed sikres det, at middelværdierne af observationerne kun antager positive værdier. 2.3 Maksimum-likelihood estimation I dette afsnit beskrives maksimum-likelihood estimation af parametre i den GLM. Det følger af (2.1), at den simultane log-likelihoodfunktion for Y 1, Y 2,..., Y n er givet ved n l(β) = ln f(y i η i, V i ) = i=1 n {[y i η i a(η i )] /V i + ln b(y i, V i )} = i=1 n l i (β), (2.6) i=1 hvor l i (β) er log-likelihoodfunktionen for Y i. Score-funktionen er givet ved Det følger af (2.6) og (2.2), at S(β) = l(β) β = n i=1 l i (β) β = n i=1 l i (β) η i η i µ i µ i β. l i (β) η i = y i µ i V i. Ligeledes følger det af (2.2) og (2.3), at Endelig ses det af (2.5), at Tilsammen giver det, at / / η i µi 2 a(η i ) = 1 = 1 µ i η i ηi 2 = V i Var(Y i ). µ i β = µ i λ i λ i β = µ i λ i x i. S(β) = n y i µ i Var(Y i ) x µ i i. (2.7) λ i i=1 8
21 Den Generaliserede Lineære Model 9 Opfattes (2.7) som en definition på en stokastisk variabel defineret udfra de stokastiske y i er, ses det, at E[S(β)] = 0, (2.8) og at Var[S(β)] = ( ) 2 ( ) 2 n Var(Y i )x i x T µi i λ i n x i x T µi i λ i Var(Y i ) 2 =. Var(Y i ) i=1 i=1 Den negative afledte af S(β) kaldes informationsmatricen og er givet ved ( ) 2 I(β) = S β = S µ i n x i x T µi µ i β = i λ i = Var[S(β)]. (2.9) Var(Y i ) i=1 I nogle tilfælde kan maksimum-likelihood estimatoren, β, udledes ved at sættet udtrykket i (2.7) lig med nul og løse ligningen eksplicit, men ofte er det nødvendigt at beregne estimatoren ved hjælp af numeriske metoder. De fleste algoritmer bygger på Newton s metode. Lad β (0) være det indledende gæt af maksimum-likelihood estimatoren for β. Ved en Taylor-udvikling af S(β) omkring β (0) opnås, at ( β(0) ) ( β(0) ) ( S(β) S I β β (0)). Ved at sætte dette udtryk lig med nul og løse for β opnås en revideret værdi af maksimum-likelihood estimatoren β (1) = β (0) + I 1 ( β(0) ) ( β(0) ) S. (2.10) Derefter Taylor-udvikles S(β) omkring β (1) og proceduren gentages. Algoritmen terminerer, hvis β (k) β (k 1) β (k 1) ε, for et på forhånd valgt ε > 0. For at gøre algoritmen mere effektiv indføres ofte en konstant, c, således at opdateringsligningen bliver β (k) = β (k 1) + c I 1 ( β(k 1) ) ( β(k 1) ) S. Der findes forskellige metoder til at finde den optimale værdi af c, som ifølge [7], s. 143 oftest ligger mellem 0 og 1. Hvis c er for stor, er der risiko for, at maksimumspunktet for likelihoodfunktionen bliver overskredet ved opdatering af β (k). Problemet med at anvende en for lille værdi af c er naturligvis, at algoritmen skal køre længere, inden den konvergerer. Det kan være en god ide at lade værdien af c aftage for hver iteration af algoritmen. 9
22 Den Generaliserede Lineære Model Maximum-likelihood estimation for Poisson-modellen For Poisson-modellen i afsnit bliver udtrykket for scorefunktionen S(β) = n (y i µ i )x i, (2.11) i=1 idet µ i = exp(λ i) = exp(λ i ) = µ i, λ i λ i og Var(Y i ) = µ i. Det følger, at informationsmatricen er givet ved I(β) = n x i x T i µ i. (2.12) i=1 Givet et datasæt kan maksimum-likelihood estimatoren udledes ved at anvende Newton s algoritme Fordeling af maksimum-likelihood estimator Ved en Taylor-udvikling af S(β) omkring β opnås, idet S( β) = 0 pr. definition af maksimumlikelihood estimatoren, at S(β) S( β) I( β)(β β) = I( β)( β β). Det følger, at β β I 1 ( β)s(β), (2.13) og da E[S(β)] = 0, følger det umiddelbart, at E( β) β, hvilket betyder, at β er en asymptotisk central estimator for β. Da Var[S(β)] = I(β) ifølge (2.9), og I er symmetrisk, ses det, at Var( β β) I 1 ( β)var[s(β)]i 1 ( β) I 1 ( β). Idet β bliver normalfordelt for n ifølge [9] s. 44, følger det, at det approksimativt gælder, at β N p [β, I 1 ( β)] (2.14) for stort n. 10
23 Den Generaliserede Lineære Model Inferens Dette afsnit omhandler hypotese-test, som anvendes i forbindelse med modelmodifikation Devians Det kan undersøges, hvor godt en model beskriver data ved at sammenligne med den fulde model. I den fulde model er dataene fittet perfekt, hvilket vil sige, at β i = λ i = g(y i ), for i = 1, 2,..., n, og X = I n. Likelihood ratio størrelsen for en model er givet ved R = L( β f ) L( β), hvor β f angiver maksimum likelihood estimatoren af β i den fulde model. Det ses, at hvis R er tæt på 1, er det en indikation af, at modellen er næsten lige så god som den fulde, mens store værdier er kritiske. Deviansen er defineret ved D = 2 ln R = 2 [ ] l( β f ) l( β), (2.15) hvor l( β) = ln L( β). I det følgende udledes fordelingen af deviansen. Ligning (2.15) kan omskrives til D = 2{[l( β f ) l(β f )] [l( β) l(β)] + [l(β f ) l(β)]}. (2.16) Ved en Taylor-udvikling af l(β) omkring β fås det, at { [ 2[l( β) l(β)] 2 l( β) l( β) + S( β)(β β) 1 ] } 2 (β β) T I( β)(β β) Det følger af (2.14) og [6] s. 8, at = ( β β) T I( β)( β β). (2.17) ( β β) T I( β)( β β) = [ β E( β)] T [Var( β)] 1 [ β E( β)] χ 2 p. (2.18) Det følger, at de to første led i firkantede paranteser i (2.16) er χ 2 -fordelt med henholdsvis n og p frihedsgrader. Det tredje led, v = [l(β f ) l(β)], er en positiv konstant, der er tæt på nul, hvis modellen er næsten lige så god som den fulde. Hvis de to første led i (2.16) er uafhængige, og differensen mellem dem ikke er negativ, gælder det ifølge [6] s. 10, at D χ 2 (n p, v), hvor v er en ikke-centralitets parameter. 11
24 Den Generaliserede Lineære Model Devians for Poisson-modellen Det følger af (2.4), at n n n l(β) = y i ln µ i µ i ln y i!. i=1 i=1 i=1 Idet µ i angiver maksimum-likelihood estimatet for µ i, ses det, at n n n l( β) = y i ln µ i µ i ln y i!. i=1 i=1 i=1 I den fulde model er µ i = y i, hvilket vil sige, at n n n l( β f ) = y i ln y i y i ln y i!, i=1 i=1 i=1 idet 0 ln 0 defineres til at være lig med nul. Deviansen er givet ved [ n ] n D = 2[l( β f ) l( β)] = 2 y i ln(y i / µ i ) (y i µ i ) χ 2 n p. (2.19) i=1 i= Test baseret på deviansen Det kan undersøges om en model, m 1, er acceptabel i forhold til den fulde model ved at udregne deviansen for modellen. Hypotesen, der testes, er H 1 : β = β 1, hvor β 1 R p. Udfra χ 2 fordelingen og det valgte signifikansniveau, α, kan det bestemmes, hvilke værdier af deviansen der er kritiske for hypotesen. Hvis der fås en værdi, hvor sandsynligheden for at få en værdi, der er større, er mindre end α, er det en indikation af, at hypotesen er falsk. Antag at H 1 accepteres. Det kan testes, om m 1 kan reduceres til en simplere model, m 0, hvor m 0 er en undermodel af m 1. I dette tilfælde betragtes hypotesen H 0 : β = β 0, hvor β 0 R q, q < p, i forhold til hypotesen H 1. Dette gøres ved at beregne forskellen i maksimumlikelihood mellem de to modeller. Givet at devianserne D 1 og D 0 er uafhængige, gælder der, at 2[l( β 1 ) l( β 0 )] = 2[l( β f ) l( β 0 )] 2[l( β f ) l( β 1 )] = D 0 D 1 χ 2 p q. 12
25 Den Generaliserede Lineære Model Wald-test I afsnit blev det undersøgt om en model generelt kan reduceres, hvilket betyder, at en eller flere forklarende variable fjernes fra modellen. Dette svarer til at teste, om de tilhørende koefficienter kan sættes lig med nul. Nulhypotesen bliver H 0 : Cβ = 0, hvor C har fuld række-rang, s p, ifølge [9] s. 47. Hvis det skal testes, om β k = 0, består C af ene nuller undtagen i den k te søjle, som består af et-taller. Under H 0 er C β N s [0, CI 1 ( β)c T ]. Det følger af 2.18, at det approksimativt gælder, at (C β) T (CI 1 ( β)c T ) 1 (C β) χ 2 s, Ovenstående er en kvadratisk approksimation af devians-teststørrelsen og benævnes Wald-teststørrelsen. En mere generel definition af Wald-teststørrelsen er givet ved (C β ξ) T (CI 1 ( β)c T ) 1 (C β ξ) χ 2 s, (2.20) hvor ξ R s. I dette tilfælde testes hypotesen H : Cβ = ξ. En yderligere anvendelse af Wald-testen vil blive beskrevet i afsnit Modelkontrol Modelkontrollen har til formål at undersøge, om de antagelser, modellen er bygget på, er overholdt. I dette afsnit vil forskellige metoder til modelkontrol blive beskrevet Standardiserede residualer Betragt en række observationer Y 1, Y 2,..., Y n, hvor Y i har middelværdi, µ i, og varians, σi 2. Da er de standardiserede residualer givet ved r i = y i µ i. σi 2 13
26 Den Generaliserede Lineære Model De kan estimeres ved r i = y i µ i, σ 2 i hvor µ i og σ 2 i er maksimum-likelihood estimaterne for henholdsvis middelværdien og variansen af Y i. Hvis modellen er passende, og n er stor, er de estimerede standardiserede residualer tilnærmelsesvis uafhængige, og de har approksimativt middelværdi 0 og varians 1. Plots af de estimerede standardiserede residualer kan anvendes på flere måder i forbindelse med modelkontrol, hvilket vil blive beskrevet og illustreret i det følgende Varianshomogenitet Det kan undersøges, om de standardiserede residualer har en homogen varians på approksimativt 1 ved at plotte µ i mod r i. Følgende simulering viser et tilfælde af inhomogen varians. Betragt to datasæt med samme middelværdier men med henholdsvis Poisson variable, hvor variansen er lig med middelværdien, og afrundede normalfordelte variable, hvor variansen er konstant. Dette giver ved tilpasning af en Poisson model anledning til følgende to residualplots, hvoraf det baseret på Poisson variable viser et plot med homogen varians, mens det andet viser en inhomogen, "tragtformet" varians, idet variansen af residualerne bliver mindre i takt med, at de forventede værdier vokser. 14
27 Den Generaliserede Lineære Model 15 Standardiserede residualer Fittede værdier Standardiserede residualer Fittede værdier Figur 2.1: Residualplot af to datasæt fittet ved en Poisson-model. Øverst ses et plot af standardiserede residualer for Poisson-fordelte observationer, mens det nederste plot viser standardiserede residualer for normalfordelte observationer. I tilfælde af observationer med små middelværdier kan det være svært at kontrollere for inhomogen varians, hvilket er illustreret i figur
28 Den Generaliserede Lineære Model Standardiserede residualer Fittede værdier Standardiserede residualer Fittede værdier Figur 2.2: Residualplot af Poisson-fordelte observationer (øverst) og normalfordelte observationer (nederst) med lille intensitet fittet ved en Poisson-model. I tilfælde af en lille intensitet kan et boxplot, hvor residualerne inddeles i bokse, være behjælpeligt. Linien, der går igennem boksene, angiver medianen, mens boksens afgrænsninger svarer til første og tredje kvartil af dataene. De to udlæggere fra boksen har en længde på højst halvanden gange boksens længde og definerer omtrent 95% konfidensintervallet for dataene. Boxplottet har den fordel, at det skjuler den fjerlignende struktur i scatterplottet, der opstår ved gruppering af residualer, der svarer til observerede nuller, ettere o.s.v. Herved forhindres det, at øjemålet snydes. 16
29 Den Generaliserede Lineære Model 17 Standardiserede residualer Fittede værdier Standardiserede residualer Fittede værdier Figur 2.3: Boxplot af standardiserede residualer fra Poisson-fordelte observationer (øverst) og fra normalfordelte observationer (nederst) med lille intensitet fittet ved en Poisson-model. Boksen, der svarer til værdien 2.2 på x-aksen, består af residualer for observationer med fittede værdier i intervallet Boxplottet i figur 2.3 (nederst) viser, at variansen af de standardiserede residualer for de normalfordelte observationer bliver mindre i takt med, at intensiteten stiger Seriel korrelation En tidsrække består af en række observationer Y 1, Y 2,..., hvor Y t angiver observationen til tiden t. Ved tidsrække-data kan det undersøges, hvorvidt antagelsen om ukorrelerede residualer er overholdt ved at udregne autokorrelationen for de standardiserede residualer. Dette er dog besværliggjort ved, 17
30 Den Generaliserede Lineære Model at de estimerede residualer aldrig er helt ukorrelerede, hvilket skyldes, at de fittede værdier hver især er beregnet udfra alle observationerne og derfor er korrelerede. Denne korrelation er dog forsvindende for et stort datasæt. Den serielle korrelation mellem residualerne er givet ved ρ(k) = Cor(r t, r t+k ) = Cov(r t, r t+k ) Var(rt )Var(r t+k ) og er naturligvis lig med nul i teorien. Den k te empiriske autokovarianskoefficient for en stikprøve, y 1, y 2,..., y n, er givet ved n k ĝ(k) = ( r t r)( r t+k r)/(n k), t=1 hvor r er den empiriske middelværdi, n t=1 r t/n. Den k te empiriske autokorrelationskoefficient er da givet ved ρ(k) = ĝ k /ĝ 0, idet ĝ 0 er estimatet for Var(r t ) for alle t. Ifølge [5] s. 39 gælder det approksimativt for stort n og for normalfordelte observationer, at ρ(k) N (0, 1/n) under antagelse af, at residualerne er uafhængige. Det følger, at 95% konfidensintervallet for ρ(k) approksimativt er givet ved ( /n, /n). På figur 2.4 øverst ses et plot af en simuleret tidsrække af en Poisson-fordeling, hvor logaritmen til intensiteten følger en sinuskurve. Observationerne er fittet ved en log-lineær funktion af tiden. På figur 2.4 nederst ses det, at den serielle korrelation er signifikant. 18
31 Den Generaliserede Lineære Model * * * * * * * * * * * * * * * ** ** * * * * * * * ** * * * * * * * * * * * * ** * * * * * * * * * * ** ** * * ** * * * * ** * * * * ** * * * ** ** * * * ** ** ** ** ** * ** * ** ** * * * ** * * * ** * * * * * * * * * * * * ** * * * * ** * * * * * * ** * *** ** * ** * ** * * ** * * ** * * * * ** * * * * * ** * ** ** ** * * * * * * * * * * ** * * * * * * ** ** ** * ** * ** * * * ** * * * * ** * * ** * * ** * ** ** * ** * * * ** ** * ** * * * * * * * * * * * * * * * * ** ** * * * ** * ** * * * * * ** * ** ** ** * ** * * ** ** * ** *** ** * * ** ** ** * ** ** * * * ** * * * * ** * * * * * * ** * * * * * ** ** ** * ** * ** * ** ** ** ** * * * ** * * * * ** * * * * Series resid1 Empirisk autokorrelation k Figur 2.4: Øverst ses Poisson-fordelte observationer med forventede værdier, der følger en sinuskurve med periode 365 på log-skalaen, fittet ved en log-lineær funktion af tiden. Nederst ses den empiriske autokorrelation for residualerne. De stiplede linier angiver 95%-konfidensintervallet for autokorrelationen. Udseendet af autokorrelationsplottet i figur 2.4, skyldes, at langt hovedparten af de residualer, der ligger tæt på eller en sinus-svingning fra hinanden, har samme fortegn, hvilket medfører, at de er positivt korrelerede. Modsvarende har residualerne, der ligger en halv sinus-svingning fra hinanden, for det meste modsat fortegn og er dermed negativt korrelerede. I dette tilfælde skyldes den serielle korrelation ikke, at observationerne i sig selv er korrelerede men nærmere, at den valgte model giver en dårlig repræsentation af data. Serielt korrelerede residualer kan således skyldes en afhængighed mellem responsvariablen og en forklarende variabel, der ikke er erkendt eller målt. I dette tilfælde synes det at være en sæsonvariation i dataene, der ikke er erkendt. 19
32 Den Generaliserede Lineære Model Fordelingstype I dette afsnit beskrives metoder til at kontrollere, at observationernes fordeling er korrekt specificeret. Definition 2.3 Den empiriske fordelingsfunktion for uafhængige og ensfordelte stokastiske variable X 1, X 2,..., X n er givet ved F e (x) = 1 n n 1 Xi (x), i=1 hvor 1 Xi (x) = { 1 for Xi x 0 ellers Sætning 2.4 For uafhængige stokastiske variable X 1, X 2,..., X n med samme fordelingsfunktion F (x) gælder det, at lim F e(x) = F (x). n Bevis: Det følger af definition 2.3, at fordelingen af 1 Xi (x) er givet ved Det følger, at P [1 Xi (x) = 0] = P (X i > x) = 1 P (X i x) = 1 F (x) P [1 Xi (x) = 1] = P (X i x) = F (x). E[1 Xi (x)] = 0 [1 F (x)] + 1 F (x) = F (x). Da dette gælder for alle i {1, 2,..., n}, følger det af (A.4), at [ ( )] lim [P ( F 1 n e(x) F (x) < ε)] = lim P 1 n n Xi (x) F (x) n < ε = 1 for ethvert ε > 0. Dette er ækvivalent med, at lim F e(x) = F (x). n i=1 Det følger af sætning 2.4, at en metode til kontrol af fordelingstype er at se på de observationer, der har ca. samme middelværdi og varians og kontrollere, om de empiriske middelværdier og varianser svarer 20
33 Den Generaliserede Lineære Model 21 dertil. Det svarer til at bestemme den empiriske middelværdi af de observationer, y 1, y 2,..., y k, for hvilke der gælder, at µ t ξ ε, t = 1, 2,..., k, (2.21) for på forhånd valgte ε > 0 og ξ R, under antagelse af at observationerne har approksimativt ens varians, σ 2. Disse observationer kan antages approksimativt at have samme middelværdi, ξ, og det følger, at den empiriske middelværdi af y erne skal ligge tæt på ξ, og at den empiriske varians skal ligge tæt på σ 2, for stort k. En metode til yderligere kontrol er at foretage et såkaldt fraktilplot. Her kontrolleres ikke blot middelværdi og varians men også om den valgte type af fordeling er korrekt. Lad observationerne y 1, y 2,..., y k opfylde (2.21) for på forhånd valgte ε og ξ. Ved at ordne y i erne efter størrelse opnås at F e (y i ) = i/k. Dermed skal det ifølge sætning 2.4 gælde for stort k, at F (y i ) i ( ) i k y i F 1 = u i, k hvor u i benævner i/k-fraktilen for fordelingen af y i. Derved følger det, at et plot af y i mod u i skal følge en ret linie med skæring i origo og hældning 1, hvis fordelingen af y i erne er korrekt specificeret. Da F 1 (1) =, sættes u i ofte lig med F 1 [(i 0.5)/k]. I figur 2.5 øverst ses et fraktilplot af Poisson-fordelte observationer, der er korrekt specificeret. Det nederste plot i figur 2.5 viser et fraktilplot af Poisson-fordelte observationer, der er fejlspecificeret som normalfordelte. 21
34 Den Generaliserede Lineære Model y_i u_i y_i u_i Figur 2.5: Poisson-fraktilplot (øverst) og normal-fraktilplot (nederst) af simulerede Poisson-fordelte observationer. 22
35 Kapitel 3 Den Dynamiske Lineære Model I dette kapitel beskrives den dynamiske lineære model, Kalman-filtrering og Kalman-udglatning samt estimation af ukendte parametre. Desuden beskrives strukturelle tidsrække modeller, som er et special-tilfælde af den dynamiske lineære model. 3.1 Den dynamiske lineære model En tidsrække består af en serie observationer, Y 1, Y 2,..., hvor Y t angiver observationen til tiden t. En tidsrække beskrives sædvanligvis ikke af egentlige forklarende variable men af uobserverede komponenter som trend og sæsonvariation. En sådan model kunne have udseendet Y t = µ t + γ t + ε t, ε t N (0, σ 2 ), hvor µ t angiver trenden, γ t sæsonvariationen og ε t er et støjled med konstant varians, σ 2. Ved analyse af tidsrække-data er det ikke altid tilfredsstillende at anvende en model, hvor komponenterne som trend og sæsonvariation er deterministiske funktioner af tiden. En mere fleksibel og dynamisk model kan opnås ved at lade disse komponenter være stokastiske. Det vil sige, at f.eks. sæsonvariationen ændres gradvist på stokastisk vis fra periode til periode. Denne type modeller, hvor komponenterne er stokastiske, kaldes dynamiske lineære modeller (DLM) eller state space modeller. I en DLM kædes observationerne sammen med en ikke-observeret process, θ 0, θ 1,..., via en observationsligning, en tilstandsligning samt noget startinformation. 23
36 Den Dynamiske Lineære Model Definition 3.1 Den en-dimensionelle DLM er defineret ved Observationsligning: Y t = F T t θ t + ν t, ν t N (0, V t ) Tilstandsligning: θ t = G t θ t 1 + ω t, ω t N p (0, W t ) Startinformation: (θ 0 D 0 ) N p (m 0, C 0 ), hvor elementerne i ν t og ω t er både serielt og indbyrdes uafhængige samt uafhængige af (θ 0 D 0 ). Informationsmængden til tiden t er givet rekursivt ved D t = {D t 1, Y t }, hvor D 0 er informationsmængden bestående af F t, G t, V t og W t for alle t. Elementerne i modellen er kort beskrevet i nedenstående tabel. Element Y t θ t F t G t ν t ω t V t W t m t C t Beskrivelse Observation 1 p tilstandsvektor 1 p designvektor p p transitionsmatrix Observationsstøj 1 p systemfejlsvektor Observationsvarians p p systemvariansmatrix 1 p middelværdivektor p p variansmatrix Det antages indtil videre, at F t, G t, V t og W t er kendte. Startinformationen angiver fordelingen af θ t til tiden t = 0. Dette indikerer, at Y 1 ikke skal ses som begyndelsen på tidsrækken men derimod som fortsættelsen af en tidligere observeret tidsrække. I tilfælde af, at Y 1 rent faktisk er den første tilgængelige observation, er situationen mere vanskelig. I [25], hvor den DLM behandles udfra en Bayesiansk tilgang, anvendes notationen (θ 1 D 0 ) til at benævne a priori fordelingen af den første tilstandsvektor baseret på forudgående viden, der ikke inkluderer tidligere observationer. Set fra en ikke-bayesiansk/klassisk synsvinkel er det, at θ 1 kan have en fordeling, inden der er observeret nogen observationer meget kontroversielt. I [7], kapitel 5, beskrives metoder til at løse initialiseringsproblemet udfra en klassisk synsvinkel. 24
37 Den Dynamiske Lineære Model 25 Udfra definition 3.1 ses det, at θ t kan skrives ud som en linearkombination af systemfejlsvektorer og θ 0, som alle er multivariabelt normalfordelte. Det ses deraf, at θ t også er multivariabelt normalfordelt. Det følger, at Y t er normalfordelt, da den er givet ved en linearkombination af normalfordelte størrelser. Enhver linearkombination af elementerne i Y t og θ t er normalfordelt, og deraf følger det, at den fælles fordeling af Y t og θ t er multivariabelt normalfordelt. Dette vil blive anvendt i afsnit Betinget uafhængighed i den DLM Det ses udfra definition 3.1, at (Y t θ 0, θ 1,..., θ t,..., Y 1, Y 2,..., Y t 1, Y t+1,...) N (F T t θ t, V t ), (3.1) og at (θ t θ 0,..., θ t 1, Y 1,..., Y t 1 ) N p (G t θ t 1, W t ). (3.2) Det følger, at givet θ t er Y t uafhængig af θ s for s t, og af Y r for r t, samt at givet θ t 1 er θ t uafhængig af θ s for s < t 1 og af Y r for r < t. Dette motiverer, at den betingede uafhængighedsstruktur i en DLM kan beskrives ved en graf tilsvarende interaktionsgrafen for en grafisk model, se figur 3.1. For mere information om grafiske modeller, se [17]. Y t 2 Y t 1 Y t Y t+1 Y t+2 θ t 2 θ t 1 θ t θ t+1 θ t+2 Figur 3.1: Den betingede uafhængighedsstruktur i en DLM. 3.3 Kalman-filtrering Formålet med Kalman-filteret er at opdatere fordelingen af tilstandsvektoren i takt med, at nye observationer bliver tilgængelige. 25
38 Den Dynamiske Lineære Model Sætning 3.2 I en en-dimensionel DLM gælder følgende fordelinger. a priori til t: (θ t D t 1 ) N p (a t, R t ), (3.3) hvor a t = G t m t 1 og R t = G t C t 1 G T t + W t. Et-trins forudsigelse: (Y t D t 1 ) N (f t, Q t ), (3.4) hvor f t = F T t a t og Q t = F T t R t F t + V t. a posteriori til t: (θ t D t ) N p (m t, C t ), (3.5) hvor m t = a t + A t e t, C t = R t A t Q t A T t, A t = R t F t /Q t, og e t = Y t f t. Bevis: Beviset er baseret på [25] s Det vises ved induktion, at (3.5) er opfyldt, hvorved fordelingerne i (3.3) og (3.4) fremkommer som mellemresultater. Tilfældet t = 0 er opfyldt udfra definition 3.1. Antag at Det følger, at og at (θ t 1 D t 1 ) N p (m t 1, C t 1 ). (3.6) E(θ t D t 1 ) = E(G t θ t 1 D t 1 ) + E(ω t D t 1 ) = G t m t 1, Var(θ t D t 1 ) = Var(G t θ t 1 D t 1 ) + Var(ω t D t 1 ) = G t C t 1 G T t + W t, da θ t 1 og ω t er uafhængige givet D t 1. Da θ t og ν t ligeledes er uafhængige givet D t 1, udledes fordelingen i (3.4) på tilsvarende vis. Da Cov(Y t, θ t D t 1 ) = Cov ( F T t θ t + ν t, θ t D t 1 ) = Var(θt D t 1 )F t = R t F t = Q t A T t, gælder det, at den fælles fordeling for θ t og Y t givet D t 1 er givet ved ( ) [( ) ( )] θt Y t D at Rt A t Q t t 1 N p+1, f t Q t A T. Q t t 26
39 Den Dynamiske Lineære Model 27 Udfra den fælles fordeling kan den marginale fordeling for θ t givet Y t og D t 1 bestemmes ved hjælp af sætning A.1, og (3.5) fremkommer. Bevis af (3.5) ved hjælp af Bayes sætning. Set udfra et Bayesiansk synspunkt er det mere naturligt at opdatere fordelingen af θ t ved hjælp af Bayes sætning. Givet to stokastiske variable, X og Y, siger Bayes sætning, at f(x Y ) = f(y X)f(X). f(y ) Betragtet som en funktion af X alene opnås at Det følger, at f(x Y ) f(y X)f(X). f(θ t D t ) f(y t θ t, D t 1 )f(θ t D t 1 ). Det vil sige, at a posteriori tætheden af θ t er et produkt af to Gaussiske tætheder og er dermed selv Gaussisk. Middelværdi og varians for a posteriori fordelingen af θ t mangler at blive udledt. Det følger af (3.3), at Desuden ses det af definition 3.1, at Det følger, at f(θ t D t 1 ) exp[ (θ t a t ) T R 1 (θ t t a t )/2]. f(y t θ t ) exp[ (Y t F T t θ t ) 2 /2V t ]. 2 ln f(θ t D t ) = (θ t a t ) T R 1 (θ t t a t ) + (Y t F T t θ t ) 2 /V t + k 1, hvor k 1 er en konstant. Betragtet som en funktion af θ t kan ovenstående udtryk omskrives til 2 ln f(θ t D t ) = θ T t (R 1 t + F t F T t /V t )θ t 2θ T t (R 1 a t t + F t Y t /V t ) + k 2. (3.7) For en normalfordelt vektor Y med middelværdi, µ, og variansmatrix, V, gælder der, at 2 ln f(y ) = (Y µ) T V 1 (Y µ) + c 1 = Y T V 1 Y 2Y T V 1 µ + c 2, (3.8) hvor c 1 og c 2 er konstanter. Det følger derfor af (3.7), at Var(θ t D t ) = C t = (R 1 t + F t F T t /V t ) 1 = R t A t Q t A T t, 27
40 Den Dynamiske Lineære Model og at C 1 t E(θ t D t ) = R 1 a t + F t Y t /V t, t hvoraf det følger, at E(θ t D t ) = C t R 1 a t t + C t F t Y t /V t = a t + A t e t. Størrelsen e t = Y t f t benævnes et-trins prediktionsfejlen for observationen Y t. Der gælder, at e t er normalfordelt med middelværdi E(e t ) = E[E(e t D t 1 )] = E[E(F T t θ t + ν t F T t a t D t 1 )] = E(F T t a t F T t a t ) = 0, og varians Var(e t ) = Var(e t D t 1 ) = Var(Y t f t D t 1 ) = Var(Y t D t 1 ) = Q t. Følgende resultat er nyttigt i forbindelse med modelkontrol. Korollar 3.3 Elementerne i følgen af et-trins prediktionsfejl {e t } er indbyrdes uafhængige. Bevis: Der gælder, at e t = Y t E(Y t D t 1 ) er en linearkombination af Y 1,..., Y t. Ifølge korollar A.2 er e t uafhængig af Y 1, Y 2,..., Y t 1, hvoraf det følger, at e t er uafhængig af e 1, e 2,..., e t 1. Størrelsen A t betegnes den adaptive vektor til tiden t. Da m t = a t + A t e t, ses det, at størrelsen af elementerne i A t afgør, hvor stor indflydelse prediktionsfejlen har på a posteriori estimatet for θ t i forhold til a priori estimatet for tilstandsvektoren. Det ses, at A t = R t F t /Q t = R t F t /(F T t R t F t + V t ). (3.9) Udtrykket viser, at jo større observationsvariansen V t er i forhold til varianserne og kovarianserne i R t, jo mindre bliver elementerne i A t, hvilket vil sige, at indflydelsen af prediktionsfejlen på a posteriori estimatet for θ t bliver mindre. Dette stemmer godt overens med den intuitive forestilling, at jo mere usikker observationen Y t er i forhold til a priori estimatet af tilstandsvektoren, jo mindre indflydelse får Y t på a posteriori estimatet for tilstandsvektoren. 28
41 Den Dynamiske Lineære Model Kalman-udglatning Ofte er det hensigtsmæssigt at gå tilbage i tiden og estimere tidligere systemvektorer på ny. Dette gælder f.eks. i tilfælde, hvor effekten af en indtruffet hændelse eller sæsonvariationen for dataene ønskes analyseret. Fordelingen af θ t givet al tilgængelig information, D n, n > t, kaldes den Kalmanudglattede fordeling. Den udglattede fordeling bygger på mere information end den filtrerede og er derfor mere nøjagtig. Kalman-udglatning er beskrevet i [25], men fremstillingen her ligger tættere op ad [3] s Sætning 3.4 Den Kalman-udglattede fordeling af tilstandsvektoren er givet ved hvor og (θ t D n ) N p ( m t, C t ), (3.10) m t = m t + B t ( m t+1 a t+1 ), C t = C t + B t ( C t+1 R t+1 )B T t, m n = m n, Cn = C n. B t = C t G T t+1 R 1 t+1. Bevis: Beviset er pr. induktion. Ifølge Kalman-filteret er (θ n D n ) N p (m n, C n ), hvormed basistrinet er opfyldt. Med hensyn til induktionstrinet antag at (θ t+1 D n ) N p ( m t+1, C t+1 ). (3.11) Det mangler at blive vist, at (3.10) er opfyldt til tiden t. I det følgende udledes fordelingen af (θ t θ t+1, D n ), hvilket sammen med antagelsen i (3.11) muliggør, at fordelingen af (θ t D n ) kan bestemmes. Da det er vist i afsnit 3.2, at θ t er uafhængig af Y t+1,..., Y n givet θ t+1, gælder det, at (θ t θ t+1, D n ) = (θ t θ t+1, D t ). (3.12) 29
42 Den Dynamiske Lineære Model Herefter udledes den fælles fordeling af θ t og θ t+1 givet D t. Fra Kalman-filteret følger det, at og at Da opnås at (θ t D t ) N p (m t, C t ), (θ t+1 D t ) N p (a t+1, R t+1 ). Cov(θ t, θ t+1 D t ) = Cov(θ t, G t+1 θ t + ω t+1 D t ) = Cov(θ t, G t+1 θ t D t ) = C t G T t+1, ( θt θ t+1 ) D t Ved at anvende sætning A.1 følger det, at [ ( ) ( mt N 2p, a t+1 C t G t+1 C t C t G T t+1 R t+1 (θ t θ t+1, D n ) = (θ t θ t+1, D t ) N p (m t + B t (θ t+1 a t+1 ), C t B t R t+1 B T ). (3.13) t Det følger af (3.11), at og m t = E(θ t D n ) = E[E(θ t θ t+1, D n ) D n ] = m t + B t ( m t+1 a t+1 ), C t = Var(θ t D n ) = E[Var(θ t θ t+1, D n ) D n ] + Var[E(θ t θ t+1, D n ) D n ] = C t + B t ( C t+1 R t+1 )B T t. )]. 3.5 Maksimum-likelihood estimation af ukendte parametre Hidtil er det blevet antaget, at varianserne V t og W t, transitionsmatricen G t og designvektoren F t alle er kendte. I de fleste tilfælde afhænger disse størrelser delvist af ukendte parametre. Lad de ukendte parametre være indeholdt i vektoren, ψ. I det følgende opstilles likelihood-funktionen for ψ. Der gælder ved gentagen brug af Bayes sætning (se afsnit 3.3), at n L(ψ) = f(y t y t 1,..., y 1, ψ), t=1 30
43 Den Dynamiske Lineære Model 31 hvor n angiver antallet af observationer. Den betingede fordeling af Y t givet D t 1 er ifølge Kalmanfilteret givet ved (Y t D t 1 ) N (f t, Q t ), hvor f t og Q t afhænger af ψ. Det følger, at Dermed er L(ψ) = [ n (2πQ t ) 1/2 exp t=1 l(ψ) = ln L(ψ) = n 2 ln(2π) 1 2 ] n (Y t f t ) 2 /2Q t. t=1 n ln Q t 1 2 t=1 n (Y t f t ) 2 /Q t. (3.14) For at maksimere ovenstående log-likelihoodfunktion benyttes som regel en numerisk optimeringsprocedure som f.eks. Newton s algoritme, der er beskrevet i afsnit 2.3. I [7] s vises det, hvordan score-vektoren kan udregnes rekursivt givet en værdi af ψ. De ukendte størrelser bestemmes ved hjælp af Kalman-filteret og -smootheren. Numerisk beregning af informationsmatricen er vanskelig. I stedet kan den approksimeres ved den såkaldte BFGS metode, som er beskrevet kort i [7]. I mange tilfælde kan proceduren gøres simplere ved at estimere en af parametrene separat. Dette gælder i de tilfælde, hvor varianserne er givet ved t=1 V t = σ 2 V t, W t = σ 2 W t, C 0 = σ2 C 0, hvor σ 2 er en af de ukendte parametre i modellen. Det følger fra Kalman-filteret, at Q t = σ 2 Q t. Lad ψ = (ψ T, σ 2 ) T. Det følger, at l ( ψ, σ 2) = n 2 ln(2π) 1 2 n ln(σ 2 Q t ) 1 2 t=1 = n 2 ln(2π) n 2 ln σ2 1 2 n t=1 n (Y t f t ) 2 /σ 2 Q t t=1 ln Q t 1 2σ 2 n (Y t f t ) 2 /Q t. (3.15) Ideen er nu at bestemme maksimum-likelihood estimatet af σ 2 givet en specifik værdi af ψ. Derfor differentieres log-likelihoodfunktionen med hensyn til σ 2. l ( ψ, σ 2) σ 2 = n ( ) 1 2 n 2σ 2 + (Y 2σ 2 t f t ) 2 /Q t t=1 [ ] = 1 n σ n 2σ 2 (Y t f t ) 2 /Q t. Det ses, at ovenstående udtryk er lig med nul for σ 2 (ψ ) = 1 n t=1 t=1 n (Y t f t ) 2 /Q t = σ 2 (ψ ). (3.16) t=1 31
44 Den Dynamiske Lineære Model Ved at indsætte udtrykket for σ 2 (ψ) i (3.15) fremkommer profil log-likelihoodfunktionen l(ψ ) = n 2 [ln(2π) + 1] 1 2 n ln Q t n 2 ln σ 2 (ψ ). Dermed er log-likelihoodfunktionen blevet reduceret med en parameter i forhold til (3.14). Når ψ er blevet bestemt, indsættes denne i (3.16), hvorved maksimum-likelihood estimatet for σ 2 ( ψ ) fremkommer. t=1 3.6 Strukturelle tidsrække modeller Strukturelle tidsrække modeller er special-tilfælde af en DLM og blev først beskrevet af Andrew Harvey, se [13]. Den simpleste strukturelle tidsrække model er en local level model, som har observationsligningen Y t = µ t + ε t, ε t N (0, σ 2 ε), og hvor niveauet udvikler sig ved en random walk µ t+1 = µ t + ξ t, ξ t N (0, σ 2 ξ ). En mere kompliceret model fremkommer ved at tilføje en hældning til niveauet µ t+1 = µ t + κ t + ξ t, ξ t N (0, σξ 2 ). (3.17) Hældningen, κ t, er stokastisk og udvikler sig over tid ved en random walk; κ t+1 = κ t + ζ t, ζ t N (0, σζ 2 ). (3.18) En local level model tilføjet med en hældning givet ved ovenstående ligning kaldes for en local linear trend model. En basic structural model (BSM) er en local linear trend model, der er udvidet med et sæsonvariationsled. Observationsligningen får udseendet Y t = µ t + γ t + ε t, ε t N (0, σ 2 ε), hvor µ t er beskrevet som i local linear trend modellen, og γ t er sæsonvariations-komponenten, som er givet ved γ t+1 = γ t γ t 1 γ t s+2 + δ t, δ t N (0, σδ 2 ). (3.19) 32
45 Den Dynamiske Lineære Model 33 Størrelsen, s, angiver perioden for sæsonvariationen, f.eks. antallet af måneder i et år. Det ses, at hvis sæsonvariationen gøres deterministisk ved at sætte σδ 2 lig med nul, gælder det, at s 1 γ t j = 0. j=0 En positiv værdi af γ t angiver således, at niveauet for årstid nr. t ligger over gennemsnittet, mens en negativ værdi angiver, at det ligger under gennemsnittet. I dette tilfælde er sæsonvariationen altid den samme. Hvis sæsonvariations-komponenten derimod tillades at være dynamisk, adderer de s led til δ t, og sæsonvariationen er dermed kun konstant i middel og kan gradvist ændre sig. Sæsonvariationen kunne også beskrives ved en Fourier-række, som f.eks. γ t = d [γ c,j cos(τ j t) + γ s,j sin(τ j t)], j=1 hvor τ j = 2πj/s, og d angiver graden af Fourier-rækken. Det ses, at [ ] s d s s γ t = cos(τ j t) + γ s,j sin(τ j t) = 0. t=1 j=1 γ c,j t=1 Det stokastiske element tilføjes ved at lade γ c,j og γ s,j afhænge af tiden, således at de udvikler sig ved en random walk hvor δ c,j t t=1 γ c,j t+1 = γc,j t + δ c,j t, γ s,j t+1 = γs,j t + δ s,j t, og δ s,j t er normalfordelte med middelværdi nul og varians σ 2 δ Filtrering og udglatning Estimering af de uobserverede komponenter i en strukturel tidsrække model håndteres mest effektivt ved at skrive modellen i state space form. Dette gør det muligt at anvende Kalman-filteret og -smootheren på modellen. I dette afsnit udføres dette først for en local linear trend model og derefter for den mere komplicerede BSM. Definer θ t = (µ t, κ t ) T. Da svarer (3.17) og (3.18) netop til tilstandsligningen θ t = G t θ t 1 + ω t, ω t N (0, W t ), 33
46 Den Dynamiske Lineære Model hvor [ 1 1 ] [ σ 2 ξ 0 ] G t = 0 1, ω t = (ξ t, ζ t ) T, W t = 0 σ 2 ζ. Observationsligningen bliver Y t = F T t θ t + ν t, ν t N (0, V t ), hvor F t = (1, 0) T, ν t = ε t, og V t = σ 2 ε. (3.20) For en BSM udvides tilstandsvektoren til θ t = (µ t, κ t, γ t, γ t 1,..., γ t s+2 ) T. Transitionsmatricen er blokdiagonal med en blok for henholdsvis trenden og sæsonkomponenten. [ ] T G t =, S hvor [ 1 1 ] T = 0 1, og S = Det ses, at γ t sættes til minus summen af de foregående s 1 sæsonled, som forskydes en plads i θ t, således at γ t s+1 ikke længere er et element i vektoren. Systemfejls-vektoren er givet ved ω t = (ξ t, ζ t, δ t, 0,..., 0) T og har fordelingen ω t N (0, W t ), 34
47 Den Dynamiske Lineære Model 35 hvor I observationsligningen er σξ σζ σ W t = δ F t = (1, 0, 1, 0,..., 0) T,. mens ν t er uændret i forhold til (3.20). For tilfældet s = 4 opnås tilstandsligningen µ t κ t θ t = γ t = γ t γ t 2 µ t 1 κ t 1 γ t 1 γ t 2 γ t 3 + ξ t ζ t δ t 0 0 og observationsligningen Y t = [ ]θ t + ν t. Dermed er BSM-modellen bragt i state space form og Kalman-filteret og -smootheren kan anvendes på modellen til at estimere den betingede fordeling af tilstandsvektoren θ t givet data under forudsætning af, at varianserne for støjledene samt m 0 og C 0 er kendte Modelkontrol Modelkontrol af strukturelle tidsrække modeller kan baseres på de standardiserede prediktionsfejl r t = e t Qt, t = 1,..., n. (3.21) Det kan kontrolleres, om variansen af r t er homogen i to lige store dele af data-sættet ved hjælp af teststørrelsen H(k) = k t=k/2+1 r2 t k/2 t=1 r2 t F k/2,k/2 under antagelse af hypotesen, at variansen er homogen. Størrelsen k er et positivt, lige tal, der er mindre end eller lig med antallet af observationer. 35
48 Den Dynamiske Lineære Model Det er vist i afsnit 3.3, at prediktionsfejlene er serielt ukorrelerede. Det kan undersøges, om dette, samt antagelsen om normalitet, er overholdt StructTS StructTS er en funktion i programmet R, som anvendes til at modellere tidsrække-data ved en strukturel tidsrække model. Softwaren er udviklet af Brian Ripley, se [20]. Funktionen har udseendet StructTS(x, type=c("level","trend","bsm"),fixed=null) Nedenfor følger en forklaring af funktionens argumenter. x En vektor bestående af observationer fra en tidsrække, hvor en periode er defineret. type Kan være en local level model, local linear trend model eller en BSM. I en BSM beskrives sæsonvariationen ved (3.19). fixed En vektor som kan anvendes til at angive varianserne i modellen. Kun varianser, der er specificeret som "NA", estimeres ved maksimum-likelihood. Hvis vektoren ikke er anført som argument, estimeres samtlige varianser. Ved kald af funktionen foretages Kalman-filtrering af dataene, som derefter kan udglattes ved hjælp af kommandoen tssmooth. Dette giver et output, der viser de estimerede værdier af modellens komponenter for hvert datapunkt i tidsrækken, hvilket også illustreres i et plot. Figur 3.2 viser udviklingen af trenden, hældningen og sæsonvariationen for en BSM. Desuden kan de estimerede varianser for støj-ledene tilgås. 36
Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser
Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier
Læs mereI dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd
I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt
Læs mereKvantitative Metoder 1 - Forår Dagens program
Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer
Læs mereMLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som
MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,
Læs mereNoter til Specialkursus i videregående statistik
Noter til Specialkursus i videregående statistik Poul Thyregod IMM, februar 2005 Indhold Forord 6 1 Momenter og flerdimensionale stokastiske variable 7 1.0 Indledning............................. 7 1.1
Læs mereCenter for Statistik. Multipel regression med laggede responser som forklarende variable
Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der
Læs merePoul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k
Dagens program: Likelihoodfunktion, begreber : Mandag den 4. februar Den generelle lineære model score-funktion: første afledede af log-likelihood har middelværdien nul observeret information: anden afledede
Læs mereModule 4: Ensidig variansanalyse
Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2
Læs mereAnalysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Læs mereTema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Læs mereLøsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Læs mereMotivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser
Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren
Læs mereAntag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.
Simple fejlforplantningslov Landmålingens fejlteori Lektion 6 Den generelle fejlforplantningslov Antag X, X,, X n er n uafhængige stokastiske variable, hvor Var(X )σ,, Var(X n )σ n Lad Y g(x, X,, X n ),
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mere1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Læs mereDagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at
Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af
Læs mereForelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)
Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske
Læs mereKvantitative Metoder 1 - Efterår Dagens program
Dagens program Afsnit 6.1. Ligefordelinger, fra sidst Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler
Læs mereØkonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1
Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære
Læs mereØkonometri: Lektion 2 Multipel Lineær Regression 1/27
Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere
Læs mereLøsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Læs mereØkonometri: Lektion 6 Emne: Heteroskedasticitet
Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 32 Konsekvenser af Heteroskedasticitet Antag her (og i resten) at MLR.1 til MLR.4 er opfyldt. Antag MLR.5 ikke er opfyldt, dvs. vi har heteroskedastiske
Læs mereInstitut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med
Repetition: Varians af linear kombination Landmålingens fejlteori Lektion 5 Fejlforplantning - rw@math.aau.dk Antag X 1, X,..., X n er uafhængige stokastiske variable, og Y er en linearkombination af X
Læs mereOversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Læs mereOverheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.
Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.
Læs mereTænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.
Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og
Læs mereStatistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen
Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager
Læs mereStatistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
Læs mereAnvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
Læs mereModul 12: Regression og korrelation
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................
Læs mereEt eksempel på en todimensional normalfordeling Anders Milhøj September 2006
Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af
Læs mereNormalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Læs mereSimpel Lineær Regression: Model
Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]
Læs mereVi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.
Modellens parametre Mandag den 25 april Hierarkiske normalfordelingsmodeller Dagens program: Resume af ensidet variansanalysemodel med tilfældig effekt estimation af tilfældige effekter, fortolkning som
Læs mereRettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007
Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave
Læs mereI dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)
I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest
Læs mereProgram: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Læs mereForelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereLandmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen
Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,
Læs mereSandsynlighed og Statistik
36 Sandsynlighed og Statistik 6.1 Indledning Denne note beskriver de statistiske begreber og formler som man med rimelig sandsynlighed kan komme ud for i eksperimentelle øvelser. Alt er yderst korfattet,
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mereLogistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π
Læs mereAgenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede
Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereKursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen
Læs mere3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Læs mereDefinition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:
Læs mereDen todimensionale normalfordeling
Den todimensionale normalfordeling Definition En todimensional stokastisk variabel X Y siges at være todimensional normalfordelt med parametrene µ µ og når den simultane tæthedsfunktion for X Y kan skrives
Læs mere1 Regressionsproblemet 2
Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation
Læs mereLøsning til eksamen d.27 Maj 2010
DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1
Læs mereTema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Læs mereMindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning
1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3
Læs mereMultipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Læs mereØkonometri: Lektion 2 Multipel Lineær Regression 1/33
Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,
Læs meremen nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Læs mereDagens program: Andel døde musefostre som fkt af indgivet konc.: Eksponentielle familier af fordelinger: Toxitetsvurdering for kølevæske:
Dagens program: Mandag den 8. februar Generaliserede lineære modeller Motiverende eksempel, logistisk regression Eksponentielle dispersionsfamilier Generaliseret lineær model Estimation, fordeling af residualer
Læs mereRegneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)
Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen
Læs mereStatistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Læs mereDagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22
Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som
Læs mereTeoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.
Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt
Læs mereElementær sandsynlighedsregning
Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder
Læs mereOmrådeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30
Områdeestimator X (Ω, F) (X, E) x 01 01 P θ ν θ θ Θ 0000 1111 000000 111111 0000 1111 0000 1111 C(x) En områdeestimator er en afbildning C : X P(Θ).. p.1/30 Konfidensområde En områdestimator C : X P(Θ)
Læs mereSimpel Lineær Regression
Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige
Læs mereAnvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Læs mereProdukt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Læs mereBilag 7. SFA-modellen
Bilag 7 SFA-modellen November 2016 Bilag 7 Konkurrence- og Forbrugerstyrelsen Forsyningssekretariatet Carl Jacobsens Vej 35 2500 Valby Tlf.: +45 41 71 50 00 E-mail: kfst@kfst.dk Online ISBN 978-87-7029-650-2
Læs mereProgram. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18
Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)
Læs mereHypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0
Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt
Læs mereElementær sandsynlighedsregning
Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en
Læs mereLøsning til eksaminen d. 29. maj 2009
DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Læs mereØkonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1
Økonometri 1 Inferens i den lineære regressionsmodel 25. september 2006 Økonometri 1: F6 1 Oversigt: De næste forelæsninger Statistisk inferens: hvorledes man med udgangspunkt i en statistisk model kan
Læs mereProgram: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)
Læs mereØkonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion
Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,
Læs mereLandmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering
Landmålingens fejlteori Lektion 3 Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition: Middelværdi og
Læs mereLidt om fordelinger, afledt af normalfordelingen
IMM, 2002-10-10 Poul Thyregod Lidt om fordelinger, afledt af normalfordelingen 1 Introduktion I forbindelse med inferens i normalfordelinger optræder forskellige fordelinger, der er afledt af normalfordelingen,
Læs mereStokastiske processer og køteori
Stokastiske processer og køteori 3. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1 SIDSTE GANG Ankomstproces T 1, T 2,... (ankomsttid per kunde) til køsystem. Modellér
Læs mereNaturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereLandmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl
Landmålingens fejlteori Lektion 4 Vægtet gennemsnit Fordeling af slutfejl - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/36 Estimation af varians/spredning Antag X 1,...,X n stokastiske
Læs mereOm hypoteseprøvning (1)
E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;
Læs mere1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable
Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder
Læs mere02402 Vejledende løsninger til Splus-opgaverne fra hele kurset
02402 Vejledende løsninger til Splus-opgaverne fra hele kurset Vejledende løsning SPL3.3.1 Der er tale om en binomialfordeling med n =10ogp=0.6, og den angivne sandsynlighed er P (X =4) som i bogen også
Læs mereØkonometri: Lektion 6 Emne: Heteroskedasticitet
Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 34 Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Antag vi har model: Vi ønsker at teste hypotesen y = β 0 + β 1 x
Læs mereStatistik for ankomstprocesser
Statistik for ankomstprocesser Anders Gorst-Rasmussen 20. september 2006 Resumé Denne note er en kortfattet gennemgang af grundlæggende statistiske værktøjer, man kunne tænke sig brugt til at vurdere rimeligheden
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mereLandmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:
Læs mereStatistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge
Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange
Læs merePraktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser
Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag
Læs mereØkonometri Lektion 1 Simpel Lineær Regression 1/31
Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen
Læs mereLogistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder
Læs mereNote om Monte Carlo metoden
Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at
Læs mereOpgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Læs mereLøsning til prøveeksamen 1
IMM - DTU 020 Probability 2006-2-8 BFN/bfn Løsning til prøveeksamen Spørgsmål ) For en indikatorvariabel I A for hændelsen A gælder E(I A ) = P(A) (se for eksemepl side 68). Således er E(X) = P(N ) = =
Læs mereModule 12: Mere om variansanalyse
Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........
Læs mereµ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005
Hierarkiske generaliserede lineære modeller Lee og Nelder, Biometrika (21) 88, pp 987-16 Dagens program: Mandag den 2. maj Hierarkiske generaliserede lineære modeller - Afslutning Hierarkisk generaliseret
Læs mereLandmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3
Landmålingens fejlteori Repetition - Kontinuerte stokastiske variable Lektion 4 - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf10 Institut for Matematiske Fag Aalborg Universitet 29. april
Læs meret-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.
t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program (8.15-10): 1. repetition: fordeling af observatorer X, S 2 og t. 2. konfidens-intervaller, hypotese test, type I og type II fejl, styrke,
Læs mereIkke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Læs mereKapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan
Læs mereKursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:
Læs mere