Statisk og Dynamisk Modellering af Incidens af Akut Myokardie Infarkt

Størrelse: px
Starte visningen fra side:

Download "Statisk og Dynamisk Modellering af Incidens af Akut Myokardie Infarkt"

Transkript

1 Aalborg Universitet Instituttet for Matematik, Fredrik Bajers Vej 7G, DK-9220 Aalborg Øst Statisk og Dynamisk Modellering af Incidens af Akut Myokardie Infarkt af Stefan Christensen Mat 6 - Januar 2006

2

3 Aalborg Universitet Instituttet for Matematik, Fredrik Bajers Vej 7G, DK-9220 Aalborg Øst TITEL: Statisk og Dynamisk Modellering af Incidens af Akut Myokardie Infarkt FORFATTER: Stefan Christensen VEJLEDER: Søren Lundbye-Christensen SEMESTER: MAT6 PROJEKTPERIODE: 2/ til 10/ ANTAL KOPIER: 10 ANTAL SIDER: 117 sider ANTAL SIDER I ALT: 129 sider SYNOPSIS Teori-delen af denne speciale-rapport omhandler generaliserede lineære modeller og state space modeller. For den generaliserede lineære model beskrives maksimum-likelihood estimation af parametre, inferens og modelkontrol. For den Gaussiske state space model, også kaldet den dynamiske lineære model, beskrives Kalman-filtrering, Kalman-udglatning og maksimum-likelihood estimation af ukendte parametre. Desuden beskrives en specifik type af state space modeller kaldet strukturelle tidsrække modeller. Derefter udvides teorien til state space modeller med observationsfordeling fra den eksponentielle familie eller dynamiske generaliserede lineære modeller. Der beskrives to forskellige metoder til at foretage Kalman-filtrering og -smoothing i en dynamisk generaliseret lineær model. Anvendelses-delen af specialet beskæftiger sig med analyse af Poisson-fordelte data for antallet af daglige indlæggelser som følge af første-gangs blodpropper i hjertet i perioden i Nordjyllands amt. Dataene analyseres ved hjælp af en Poisson regressionsmodel, en strukturel tidsrække model og en Poisson state space model. Dataene udviser sæsonvariation med toppunkter forår og efterår/vinter og lavpunkt om sommeren. Sæsonvariationen afhænger af alder men ikke af køn. Analysen med en Poisson state space model viser, at sæsonvariationen har ændret sig svagt i løbet af undersøgelsesperioden.

4

5 Forord Denne speciale-rapport omhandler generaliserede lineære modeller og state space modeller og er udarbejdet i perioden september 2004 til januar 2006 på Aalborg Universitet. I rapporten er kildehenvisninger markeret med [<kildenummer>], hvor kildenummeret er anført i litteraturlisten. Vektorer er symboliseret ved fed skrift, x, og matricer er repræsenteret ved dobbelt understregning, X. Jeg vil gerne takke min vejleder Søren Lundbye-Christensen. Jeg har nydt stor gavn af hans store faglige viden, engagement og smittende humør. Jeg vil også gerne takke Claus Dethlefsen for hans velvilje til at besvare mine spørgsmål i forbindelse med min anvendelse af program-pakken sspir i data-analysen. Aalborg den 10. januar Stefan Christensen i

6 ii

7 Indhold 1 Indledning 1 I Teori-del 3 2 Den Generaliserede Lineære Model Den eksponentielle familie af fordelinger Poisson-fordelte observationer Generaliserede lineære modeller Poisson-model Maksimum-likelihood estimation Maximum-likelihood estimation for Poisson-modellen Fordeling af maksimum-likelihood estimator Inferens Devians Test baseret på deviansen Wald-test iii

8 INDHOLD 2.5 Modelkontrol Standardiserede residualer Varianshomogenitet Seriel korrelation Fordelingstype Den Dynamiske Lineære Model Den dynamiske lineære model Betinget uafhængighed i den DLM Kalman-filtrering Kalman-udglatning Maksimum-likelihood estimation af ukendte parametre Strukturelle tidsrække modeller Filtrering og udglatning Modelkontrol StructTS Den Dynamiske Generaliserede Lineære Model Den dynamiske generaliserede lineære model Kalman-filtrering med konjugeret a priori fordeling Kalman-filtrering for Poisson-modellen Extended Kalman-filtrering og -smoothing Extended Kalman-filtrering og -smoothing for Poisson-modellen iv

9 INDHOLD v 4.4 sspir Estimation af parametre II Anvendelses-del 51 5 Introduktion til anvendelses-delen Processen bag dannelsen af en AMI Risikofaktorer Årsager til sæsonvariationen af AMI Ugedagsvariation af AMI Beskrivelse af datasæt Registrering af patienter Aldersstandardisering Resultater Problemformulering for data-analysen Data-analyse med Statisk Poisson Model Opstilling af model Modelreduktion Modelkontrol Varianshomogenitet Seriel korrelation Fordelingstype v

10 INDHOLD Kontrol ved simulering Resultater Trend Sæsonvariation Ugedagsvariation Opsamling Data-analyse med Strukturel Tidsrække Model Opstilling af model Valg af variansparametre Modelkontrol Varianshomogenitet Seriel korrelation Normalitet Resultater Opsamling Data-analyse med Dynamisk Poisson Model Opstilling af model Valg af variansparametre Modelkontrol Seriel korrelation Varianshomogenitet vi

11 INDHOLD vii Fordelingstype Resultater Trend Sæsonvariation Ugedagsvariation Opsamling Diskussion Opsamling af resultater fra data-analysen Trend Sæsonvariation Ugedagsvariation Diskussion af resultater Konklusion A Appendix 111 A.1 Den multivariable normalfordeling A.2 Linear Bayes estimation A.3 Store tals lov vii

12

13 Kapitel 1 Indledning Dette speciale består af en teori-del, en anvendelses-del samt et appendix. Teori-delen består af tre kapitler. Kapitel 2 omhandler den generaliserede lineære model. Modellens opbygning, maksimum-likelihood estimation af parametre, inferens og modelkontrol beskrives. I kapitel 3 beskrives den dynamiske lineære model, Kalman-filtrering og Kalman-udglatning. Desuden beskrives strukturelle tidsrække modeller, som er et special-tilfælde af den dynamiske lineære model, samt maksimum-likelihood estimation af ukendte parametre. I kapitel 4 udvides teorien for dynamiske modeller til det generelle ikke-normalfordelte tilfælde. Der beskrives to forskellige metoder til at udføre Kalman-filtrering. Den ene er Bayesiansk orienteret og bygger på teorien om konjugerede fordelinger samt linear Bayes estimation. Den anden metode, der beskrives, er extended Kalman-filtrering og -smoothing, som er baseret på at udlede en Gaussisk approksimation af modellen. Anvendelses-delen består af en analyse af et datasæt, der omhandler forekomsten af førstegangstilfælde (også kaldet incidensen) af akut myokardie infarkt (blodprop i hjertet - forkortet AMI) i Nordjyllands amt i perioden I kapitel 5 beskrives det, hvordan en AMI opstår, og hvilke mulige årsager der kan være til årstidsvariationen af AMI-incidens. Derudover beskrives datasættet. Kapitlet afrundes med en problemformulering for data-analysen. I kapitlerne 6, 7 og 8 anvendes teorien fra teori-delen i en analyse af datasættet med henholdsvis en statisk Poisson regressionsmodel, en strukturel tidsrække model og en dynamisk Poisson model. Anvendelses-delen afsluttes med en diskussion af resultaterne af data-analysen. 1

14 2 Indledning

15 Del I Teori-del 3

16

17 Kapitel 2 Den Generaliserede Lineære Model Generaliserede lineære modeller (GLM) blev udviklet af Nelder og Wedderburn, se [18], og er en generalisering af regression ved lineære normale modeller til tilfælde, hvor observationerne ikke nødvendigvis er normalfordelte. Mere præcist kan modellen anvendes til regression med observationer, der har en fordeling fra den eksponentielle familie. 2.1 Den eksponentielle familie af fordelinger Definition 2.1 En fordeling tilhører den eksponentielle familie af fordelinger, hvis den tilhørende tætheds-/sandsynlighedsfunktion kan skrives på formen f(y η, V ) = exp{[d(y)η a(η)]/v }b(y, V ), (2.1) hvor a, b og d er kendte funktioner, og a er to gange differentiabel. Størrelsen η kaldes den naturlige parameter, mens V 1 er en dispersions-parameter, som er inkluderet for at tage højde for de situationer, hvor den observerede varians af Y er større end forventet udfra den antagede fordeling af Y. Hvis d(y) = y siges (2.1) at være på kanonisk form. 5

18 Den Generaliserede Lineære Model Ved at udregne den momentfrembringende funktion kan den betingede middelværdi og varians af d(y ) udledes. Den momentfrembringende funktion for d(y ) er givet ved ψ(t) = E{exp[t d(y )]} = exp[t d(y)]f(y η, V )dy = exp[t d(y)] exp{[d(y)η a(η)] /V }b(y, V )dy = exp{[d(y)(η + tv ) a(η)] /V }b(y, V )dy = exp{[a(η + tv ) a(η)] /V } exp{[d(y)(η + tv ) a(η + tv )] /V }b(y, V )dy = exp{[a(η + tv ) a(η)] /V }. Det følger, at ψ (t) = a (η + tv ) exp{[a(η + tv ) a(η)] /V } = a (η + tv )ψ(t), og ψ (t) = V a (η + tv )ψ(t) + a (η + tv )ψ (t) = ψ(t){v a (η + tv ) + [a (η + tv )] 2 }. Ifølge teorien for momentfrembringende funktioner gælder der, at µ = E[d(Y )] = ψ (0) = a (η), (2.2) og E{[d(Y )] 2 } = ψ (0) = V a (η) + {E[d(Y )]} 2, hvoraf der følger, at Var[d(Y )] = E{[d(Y )] 2 } {E[d(Y )]} 2 = V a (η). (2.3) Af fordelinger, der tilhører den eksponentielle familie, kan nævnes gamma, binominal, Poisson og normalfordelingen. Da Poisson-fordelte observationer analyseres i anvendelses-delen af rapporten, vil den generelle teori for den GLM, der præsenteres i dette kapitel, løbende blive udledt for Poissontilfældet Poisson-fordelte observationer Lad Y være Poisson-fordelt med parameter, µ, det vil sige, µ angiver både middelværdien og variansen for Y. Da gælder der, at f(y µ) = µy exp( µ), y! 6

19 Den Generaliserede Lineære Model 7 for y = 0, 1,.... For at vise at sandsynlighedsfunktionen for en Poisson-fordeling kan skrives på formen (2.1), omskrives den til f(y µ) = exp(y ln µ µ). (2.4) y! For d(y) = y, η = ln µ, a(η) = exp(η), V = 1 og b(y, V ) = 1/y!, er (2.4) identisk med (2.1), hvilket vil sige, at Poisson-fordelingen tilhører den eksponentielle familie og er på kanonisk form. Det ses, at a (η) = a (η) = exp(η) = µ som forventet. 2.2 Generaliserede lineære modeller Definition 2.2 Den generaliserede lineære model er defineret ved 1. Uafhængige responsvariable Y 1, Y 2,..., Y n, der alle har den samme type fordeling fra den eksponentielle familie med tætheds-/sandsynlighedsfunktioner på kanonisk form f(y i η i, V i ) = exp{[y i η i a(η i )] /V i }b(y i, V i ). i = 1, 2,..., n. 2. Vektorer x 1,..., x n af forklarende variable, hvor x i R p er tilknyttet observationen Y i. Disse vektorer organiseres i en n p-dimensional matrix, X = x T 1... x T n, der svarer til designmatricen i en lineær normal model. 3. En parametervektor β R p, som består af koefficienterne for de forklarende variable. 4. En kendt, monoton og kontinuert link-funktion, g, for hvilken det gælder, at g(µ i ) = λ i = x T i β, (2.5) hvor µ i = E(Y i ). Det ses, at det ikke kan antages at middelværdiparameteren, µ i, er en lineær funktion af den lineære regressionskomponent, λ i, som i den lineære normal model. 7

20 Den Generaliserede Lineære Model Poisson-model Ved modellering af Poisson-data, som ikke kan være negative, benyttes ofte en log-lineær model således at g(µ i ) = ln µ i = x T i β µ i = exp(x T i β). Dermed sikres det, at middelværdierne af observationerne kun antager positive værdier. 2.3 Maksimum-likelihood estimation I dette afsnit beskrives maksimum-likelihood estimation af parametre i den GLM. Det følger af (2.1), at den simultane log-likelihoodfunktion for Y 1, Y 2,..., Y n er givet ved n l(β) = ln f(y i η i, V i ) = i=1 n {[y i η i a(η i )] /V i + ln b(y i, V i )} = i=1 n l i (β), (2.6) i=1 hvor l i (β) er log-likelihoodfunktionen for Y i. Score-funktionen er givet ved Det følger af (2.6) og (2.2), at S(β) = l(β) β = n i=1 l i (β) β = n i=1 l i (β) η i η i µ i µ i β. l i (β) η i = y i µ i V i. Ligeledes følger det af (2.2) og (2.3), at Endelig ses det af (2.5), at Tilsammen giver det, at / / η i µi 2 a(η i ) = 1 = 1 µ i η i ηi 2 = V i Var(Y i ). µ i β = µ i λ i λ i β = µ i λ i x i. S(β) = n y i µ i Var(Y i ) x µ i i. (2.7) λ i i=1 8

21 Den Generaliserede Lineære Model 9 Opfattes (2.7) som en definition på en stokastisk variabel defineret udfra de stokastiske y i er, ses det, at E[S(β)] = 0, (2.8) og at Var[S(β)] = ( ) 2 ( ) 2 n Var(Y i )x i x T µi i λ i n x i x T µi i λ i Var(Y i ) 2 =. Var(Y i ) i=1 i=1 Den negative afledte af S(β) kaldes informationsmatricen og er givet ved ( ) 2 I(β) = S β = S µ i n x i x T µi µ i β = i λ i = Var[S(β)]. (2.9) Var(Y i ) i=1 I nogle tilfælde kan maksimum-likelihood estimatoren, β, udledes ved at sættet udtrykket i (2.7) lig med nul og løse ligningen eksplicit, men ofte er det nødvendigt at beregne estimatoren ved hjælp af numeriske metoder. De fleste algoritmer bygger på Newton s metode. Lad β (0) være det indledende gæt af maksimum-likelihood estimatoren for β. Ved en Taylor-udvikling af S(β) omkring β (0) opnås, at ( β(0) ) ( β(0) ) ( S(β) S I β β (0)). Ved at sætte dette udtryk lig med nul og løse for β opnås en revideret værdi af maksimum-likelihood estimatoren β (1) = β (0) + I 1 ( β(0) ) ( β(0) ) S. (2.10) Derefter Taylor-udvikles S(β) omkring β (1) og proceduren gentages. Algoritmen terminerer, hvis β (k) β (k 1) β (k 1) ε, for et på forhånd valgt ε > 0. For at gøre algoritmen mere effektiv indføres ofte en konstant, c, således at opdateringsligningen bliver β (k) = β (k 1) + c I 1 ( β(k 1) ) ( β(k 1) ) S. Der findes forskellige metoder til at finde den optimale værdi af c, som ifølge [7], s. 143 oftest ligger mellem 0 og 1. Hvis c er for stor, er der risiko for, at maksimumspunktet for likelihoodfunktionen bliver overskredet ved opdatering af β (k). Problemet med at anvende en for lille værdi af c er naturligvis, at algoritmen skal køre længere, inden den konvergerer. Det kan være en god ide at lade værdien af c aftage for hver iteration af algoritmen. 9

22 Den Generaliserede Lineære Model Maximum-likelihood estimation for Poisson-modellen For Poisson-modellen i afsnit bliver udtrykket for scorefunktionen S(β) = n (y i µ i )x i, (2.11) i=1 idet µ i = exp(λ i) = exp(λ i ) = µ i, λ i λ i og Var(Y i ) = µ i. Det følger, at informationsmatricen er givet ved I(β) = n x i x T i µ i. (2.12) i=1 Givet et datasæt kan maksimum-likelihood estimatoren udledes ved at anvende Newton s algoritme Fordeling af maksimum-likelihood estimator Ved en Taylor-udvikling af S(β) omkring β opnås, idet S( β) = 0 pr. definition af maksimumlikelihood estimatoren, at S(β) S( β) I( β)(β β) = I( β)( β β). Det følger, at β β I 1 ( β)s(β), (2.13) og da E[S(β)] = 0, følger det umiddelbart, at E( β) β, hvilket betyder, at β er en asymptotisk central estimator for β. Da Var[S(β)] = I(β) ifølge (2.9), og I er symmetrisk, ses det, at Var( β β) I 1 ( β)var[s(β)]i 1 ( β) I 1 ( β). Idet β bliver normalfordelt for n ifølge [9] s. 44, følger det, at det approksimativt gælder, at β N p [β, I 1 ( β)] (2.14) for stort n. 10

23 Den Generaliserede Lineære Model Inferens Dette afsnit omhandler hypotese-test, som anvendes i forbindelse med modelmodifikation Devians Det kan undersøges, hvor godt en model beskriver data ved at sammenligne med den fulde model. I den fulde model er dataene fittet perfekt, hvilket vil sige, at β i = λ i = g(y i ), for i = 1, 2,..., n, og X = I n. Likelihood ratio størrelsen for en model er givet ved R = L( β f ) L( β), hvor β f angiver maksimum likelihood estimatoren af β i den fulde model. Det ses, at hvis R er tæt på 1, er det en indikation af, at modellen er næsten lige så god som den fulde, mens store værdier er kritiske. Deviansen er defineret ved D = 2 ln R = 2 [ ] l( β f ) l( β), (2.15) hvor l( β) = ln L( β). I det følgende udledes fordelingen af deviansen. Ligning (2.15) kan omskrives til D = 2{[l( β f ) l(β f )] [l( β) l(β)] + [l(β f ) l(β)]}. (2.16) Ved en Taylor-udvikling af l(β) omkring β fås det, at { [ 2[l( β) l(β)] 2 l( β) l( β) + S( β)(β β) 1 ] } 2 (β β) T I( β)(β β) Det følger af (2.14) og [6] s. 8, at = ( β β) T I( β)( β β). (2.17) ( β β) T I( β)( β β) = [ β E( β)] T [Var( β)] 1 [ β E( β)] χ 2 p. (2.18) Det følger, at de to første led i firkantede paranteser i (2.16) er χ 2 -fordelt med henholdsvis n og p frihedsgrader. Det tredje led, v = [l(β f ) l(β)], er en positiv konstant, der er tæt på nul, hvis modellen er næsten lige så god som den fulde. Hvis de to første led i (2.16) er uafhængige, og differensen mellem dem ikke er negativ, gælder det ifølge [6] s. 10, at D χ 2 (n p, v), hvor v er en ikke-centralitets parameter. 11

24 Den Generaliserede Lineære Model Devians for Poisson-modellen Det følger af (2.4), at n n n l(β) = y i ln µ i µ i ln y i!. i=1 i=1 i=1 Idet µ i angiver maksimum-likelihood estimatet for µ i, ses det, at n n n l( β) = y i ln µ i µ i ln y i!. i=1 i=1 i=1 I den fulde model er µ i = y i, hvilket vil sige, at n n n l( β f ) = y i ln y i y i ln y i!, i=1 i=1 i=1 idet 0 ln 0 defineres til at være lig med nul. Deviansen er givet ved [ n ] n D = 2[l( β f ) l( β)] = 2 y i ln(y i / µ i ) (y i µ i ) χ 2 n p. (2.19) i=1 i= Test baseret på deviansen Det kan undersøges om en model, m 1, er acceptabel i forhold til den fulde model ved at udregne deviansen for modellen. Hypotesen, der testes, er H 1 : β = β 1, hvor β 1 R p. Udfra χ 2 fordelingen og det valgte signifikansniveau, α, kan det bestemmes, hvilke værdier af deviansen der er kritiske for hypotesen. Hvis der fås en værdi, hvor sandsynligheden for at få en værdi, der er større, er mindre end α, er det en indikation af, at hypotesen er falsk. Antag at H 1 accepteres. Det kan testes, om m 1 kan reduceres til en simplere model, m 0, hvor m 0 er en undermodel af m 1. I dette tilfælde betragtes hypotesen H 0 : β = β 0, hvor β 0 R q, q < p, i forhold til hypotesen H 1. Dette gøres ved at beregne forskellen i maksimumlikelihood mellem de to modeller. Givet at devianserne D 1 og D 0 er uafhængige, gælder der, at 2[l( β 1 ) l( β 0 )] = 2[l( β f ) l( β 0 )] 2[l( β f ) l( β 1 )] = D 0 D 1 χ 2 p q. 12

25 Den Generaliserede Lineære Model Wald-test I afsnit blev det undersøgt om en model generelt kan reduceres, hvilket betyder, at en eller flere forklarende variable fjernes fra modellen. Dette svarer til at teste, om de tilhørende koefficienter kan sættes lig med nul. Nulhypotesen bliver H 0 : Cβ = 0, hvor C har fuld række-rang, s p, ifølge [9] s. 47. Hvis det skal testes, om β k = 0, består C af ene nuller undtagen i den k te søjle, som består af et-taller. Under H 0 er C β N s [0, CI 1 ( β)c T ]. Det følger af 2.18, at det approksimativt gælder, at (C β) T (CI 1 ( β)c T ) 1 (C β) χ 2 s, Ovenstående er en kvadratisk approksimation af devians-teststørrelsen og benævnes Wald-teststørrelsen. En mere generel definition af Wald-teststørrelsen er givet ved (C β ξ) T (CI 1 ( β)c T ) 1 (C β ξ) χ 2 s, (2.20) hvor ξ R s. I dette tilfælde testes hypotesen H : Cβ = ξ. En yderligere anvendelse af Wald-testen vil blive beskrevet i afsnit Modelkontrol Modelkontrollen har til formål at undersøge, om de antagelser, modellen er bygget på, er overholdt. I dette afsnit vil forskellige metoder til modelkontrol blive beskrevet Standardiserede residualer Betragt en række observationer Y 1, Y 2,..., Y n, hvor Y i har middelværdi, µ i, og varians, σi 2. Da er de standardiserede residualer givet ved r i = y i µ i. σi 2 13

26 Den Generaliserede Lineære Model De kan estimeres ved r i = y i µ i, σ 2 i hvor µ i og σ 2 i er maksimum-likelihood estimaterne for henholdsvis middelværdien og variansen af Y i. Hvis modellen er passende, og n er stor, er de estimerede standardiserede residualer tilnærmelsesvis uafhængige, og de har approksimativt middelværdi 0 og varians 1. Plots af de estimerede standardiserede residualer kan anvendes på flere måder i forbindelse med modelkontrol, hvilket vil blive beskrevet og illustreret i det følgende Varianshomogenitet Det kan undersøges, om de standardiserede residualer har en homogen varians på approksimativt 1 ved at plotte µ i mod r i. Følgende simulering viser et tilfælde af inhomogen varians. Betragt to datasæt med samme middelværdier men med henholdsvis Poisson variable, hvor variansen er lig med middelværdien, og afrundede normalfordelte variable, hvor variansen er konstant. Dette giver ved tilpasning af en Poisson model anledning til følgende to residualplots, hvoraf det baseret på Poisson variable viser et plot med homogen varians, mens det andet viser en inhomogen, "tragtformet" varians, idet variansen af residualerne bliver mindre i takt med, at de forventede værdier vokser. 14

27 Den Generaliserede Lineære Model 15 Standardiserede residualer Fittede værdier Standardiserede residualer Fittede værdier Figur 2.1: Residualplot af to datasæt fittet ved en Poisson-model. Øverst ses et plot af standardiserede residualer for Poisson-fordelte observationer, mens det nederste plot viser standardiserede residualer for normalfordelte observationer. I tilfælde af observationer med små middelværdier kan det være svært at kontrollere for inhomogen varians, hvilket er illustreret i figur

28 Den Generaliserede Lineære Model Standardiserede residualer Fittede værdier Standardiserede residualer Fittede værdier Figur 2.2: Residualplot af Poisson-fordelte observationer (øverst) og normalfordelte observationer (nederst) med lille intensitet fittet ved en Poisson-model. I tilfælde af en lille intensitet kan et boxplot, hvor residualerne inddeles i bokse, være behjælpeligt. Linien, der går igennem boksene, angiver medianen, mens boksens afgrænsninger svarer til første og tredje kvartil af dataene. De to udlæggere fra boksen har en længde på højst halvanden gange boksens længde og definerer omtrent 95% konfidensintervallet for dataene. Boxplottet har den fordel, at det skjuler den fjerlignende struktur i scatterplottet, der opstår ved gruppering af residualer, der svarer til observerede nuller, ettere o.s.v. Herved forhindres det, at øjemålet snydes. 16

29 Den Generaliserede Lineære Model 17 Standardiserede residualer Fittede værdier Standardiserede residualer Fittede værdier Figur 2.3: Boxplot af standardiserede residualer fra Poisson-fordelte observationer (øverst) og fra normalfordelte observationer (nederst) med lille intensitet fittet ved en Poisson-model. Boksen, der svarer til værdien 2.2 på x-aksen, består af residualer for observationer med fittede værdier i intervallet Boxplottet i figur 2.3 (nederst) viser, at variansen af de standardiserede residualer for de normalfordelte observationer bliver mindre i takt med, at intensiteten stiger Seriel korrelation En tidsrække består af en række observationer Y 1, Y 2,..., hvor Y t angiver observationen til tiden t. Ved tidsrække-data kan det undersøges, hvorvidt antagelsen om ukorrelerede residualer er overholdt ved at udregne autokorrelationen for de standardiserede residualer. Dette er dog besværliggjort ved, 17

30 Den Generaliserede Lineære Model at de estimerede residualer aldrig er helt ukorrelerede, hvilket skyldes, at de fittede værdier hver især er beregnet udfra alle observationerne og derfor er korrelerede. Denne korrelation er dog forsvindende for et stort datasæt. Den serielle korrelation mellem residualerne er givet ved ρ(k) = Cor(r t, r t+k ) = Cov(r t, r t+k ) Var(rt )Var(r t+k ) og er naturligvis lig med nul i teorien. Den k te empiriske autokovarianskoefficient for en stikprøve, y 1, y 2,..., y n, er givet ved n k ĝ(k) = ( r t r)( r t+k r)/(n k), t=1 hvor r er den empiriske middelværdi, n t=1 r t/n. Den k te empiriske autokorrelationskoefficient er da givet ved ρ(k) = ĝ k /ĝ 0, idet ĝ 0 er estimatet for Var(r t ) for alle t. Ifølge [5] s. 39 gælder det approksimativt for stort n og for normalfordelte observationer, at ρ(k) N (0, 1/n) under antagelse af, at residualerne er uafhængige. Det følger, at 95% konfidensintervallet for ρ(k) approksimativt er givet ved ( /n, /n). På figur 2.4 øverst ses et plot af en simuleret tidsrække af en Poisson-fordeling, hvor logaritmen til intensiteten følger en sinuskurve. Observationerne er fittet ved en log-lineær funktion af tiden. På figur 2.4 nederst ses det, at den serielle korrelation er signifikant. 18

31 Den Generaliserede Lineære Model * * * * * * * * * * * * * * * ** ** * * * * * * * ** * * * * * * * * * * * * ** * * * * * * * * * * ** ** * * ** * * * * ** * * * * ** * * * ** ** * * * ** ** ** ** ** * ** * ** ** * * * ** * * * ** * * * * * * * * * * * * ** * * * * ** * * * * * * ** * *** ** * ** * ** * * ** * * ** * * * * ** * * * * * ** * ** ** ** * * * * * * * * * * ** * * * * * * ** ** ** * ** * ** * * * ** * * * * ** * * ** * * ** * ** ** * ** * * * ** ** * ** * * * * * * * * * * * * * * * * ** ** * * * ** * ** * * * * * ** * ** ** ** * ** * * ** ** * ** *** ** * * ** ** ** * ** ** * * * ** * * * * ** * * * * * * ** * * * * * ** ** ** * ** * ** * ** ** ** ** * * * ** * * * * ** * * * * Series resid1 Empirisk autokorrelation k Figur 2.4: Øverst ses Poisson-fordelte observationer med forventede værdier, der følger en sinuskurve med periode 365 på log-skalaen, fittet ved en log-lineær funktion af tiden. Nederst ses den empiriske autokorrelation for residualerne. De stiplede linier angiver 95%-konfidensintervallet for autokorrelationen. Udseendet af autokorrelationsplottet i figur 2.4, skyldes, at langt hovedparten af de residualer, der ligger tæt på eller en sinus-svingning fra hinanden, har samme fortegn, hvilket medfører, at de er positivt korrelerede. Modsvarende har residualerne, der ligger en halv sinus-svingning fra hinanden, for det meste modsat fortegn og er dermed negativt korrelerede. I dette tilfælde skyldes den serielle korrelation ikke, at observationerne i sig selv er korrelerede men nærmere, at den valgte model giver en dårlig repræsentation af data. Serielt korrelerede residualer kan således skyldes en afhængighed mellem responsvariablen og en forklarende variabel, der ikke er erkendt eller målt. I dette tilfælde synes det at være en sæsonvariation i dataene, der ikke er erkendt. 19

32 Den Generaliserede Lineære Model Fordelingstype I dette afsnit beskrives metoder til at kontrollere, at observationernes fordeling er korrekt specificeret. Definition 2.3 Den empiriske fordelingsfunktion for uafhængige og ensfordelte stokastiske variable X 1, X 2,..., X n er givet ved F e (x) = 1 n n 1 Xi (x), i=1 hvor 1 Xi (x) = { 1 for Xi x 0 ellers Sætning 2.4 For uafhængige stokastiske variable X 1, X 2,..., X n med samme fordelingsfunktion F (x) gælder det, at lim F e(x) = F (x). n Bevis: Det følger af definition 2.3, at fordelingen af 1 Xi (x) er givet ved Det følger, at P [1 Xi (x) = 0] = P (X i > x) = 1 P (X i x) = 1 F (x) P [1 Xi (x) = 1] = P (X i x) = F (x). E[1 Xi (x)] = 0 [1 F (x)] + 1 F (x) = F (x). Da dette gælder for alle i {1, 2,..., n}, følger det af (A.4), at [ ( )] lim [P ( F 1 n e(x) F (x) < ε)] = lim P 1 n n Xi (x) F (x) n < ε = 1 for ethvert ε > 0. Dette er ækvivalent med, at lim F e(x) = F (x). n i=1 Det følger af sætning 2.4, at en metode til kontrol af fordelingstype er at se på de observationer, der har ca. samme middelværdi og varians og kontrollere, om de empiriske middelværdier og varianser svarer 20

33 Den Generaliserede Lineære Model 21 dertil. Det svarer til at bestemme den empiriske middelværdi af de observationer, y 1, y 2,..., y k, for hvilke der gælder, at µ t ξ ε, t = 1, 2,..., k, (2.21) for på forhånd valgte ε > 0 og ξ R, under antagelse af at observationerne har approksimativt ens varians, σ 2. Disse observationer kan antages approksimativt at have samme middelværdi, ξ, og det følger, at den empiriske middelværdi af y erne skal ligge tæt på ξ, og at den empiriske varians skal ligge tæt på σ 2, for stort k. En metode til yderligere kontrol er at foretage et såkaldt fraktilplot. Her kontrolleres ikke blot middelværdi og varians men også om den valgte type af fordeling er korrekt. Lad observationerne y 1, y 2,..., y k opfylde (2.21) for på forhånd valgte ε og ξ. Ved at ordne y i erne efter størrelse opnås at F e (y i ) = i/k. Dermed skal det ifølge sætning 2.4 gælde for stort k, at F (y i ) i ( ) i k y i F 1 = u i, k hvor u i benævner i/k-fraktilen for fordelingen af y i. Derved følger det, at et plot af y i mod u i skal følge en ret linie med skæring i origo og hældning 1, hvis fordelingen af y i erne er korrekt specificeret. Da F 1 (1) =, sættes u i ofte lig med F 1 [(i 0.5)/k]. I figur 2.5 øverst ses et fraktilplot af Poisson-fordelte observationer, der er korrekt specificeret. Det nederste plot i figur 2.5 viser et fraktilplot af Poisson-fordelte observationer, der er fejlspecificeret som normalfordelte. 21

34 Den Generaliserede Lineære Model y_i u_i y_i u_i Figur 2.5: Poisson-fraktilplot (øverst) og normal-fraktilplot (nederst) af simulerede Poisson-fordelte observationer. 22

35 Kapitel 3 Den Dynamiske Lineære Model I dette kapitel beskrives den dynamiske lineære model, Kalman-filtrering og Kalman-udglatning samt estimation af ukendte parametre. Desuden beskrives strukturelle tidsrække modeller, som er et special-tilfælde af den dynamiske lineære model. 3.1 Den dynamiske lineære model En tidsrække består af en serie observationer, Y 1, Y 2,..., hvor Y t angiver observationen til tiden t. En tidsrække beskrives sædvanligvis ikke af egentlige forklarende variable men af uobserverede komponenter som trend og sæsonvariation. En sådan model kunne have udseendet Y t = µ t + γ t + ε t, ε t N (0, σ 2 ), hvor µ t angiver trenden, γ t sæsonvariationen og ε t er et støjled med konstant varians, σ 2. Ved analyse af tidsrække-data er det ikke altid tilfredsstillende at anvende en model, hvor komponenterne som trend og sæsonvariation er deterministiske funktioner af tiden. En mere fleksibel og dynamisk model kan opnås ved at lade disse komponenter være stokastiske. Det vil sige, at f.eks. sæsonvariationen ændres gradvist på stokastisk vis fra periode til periode. Denne type modeller, hvor komponenterne er stokastiske, kaldes dynamiske lineære modeller (DLM) eller state space modeller. I en DLM kædes observationerne sammen med en ikke-observeret process, θ 0, θ 1,..., via en observationsligning, en tilstandsligning samt noget startinformation. 23

36 Den Dynamiske Lineære Model Definition 3.1 Den en-dimensionelle DLM er defineret ved Observationsligning: Y t = F T t θ t + ν t, ν t N (0, V t ) Tilstandsligning: θ t = G t θ t 1 + ω t, ω t N p (0, W t ) Startinformation: (θ 0 D 0 ) N p (m 0, C 0 ), hvor elementerne i ν t og ω t er både serielt og indbyrdes uafhængige samt uafhængige af (θ 0 D 0 ). Informationsmængden til tiden t er givet rekursivt ved D t = {D t 1, Y t }, hvor D 0 er informationsmængden bestående af F t, G t, V t og W t for alle t. Elementerne i modellen er kort beskrevet i nedenstående tabel. Element Y t θ t F t G t ν t ω t V t W t m t C t Beskrivelse Observation 1 p tilstandsvektor 1 p designvektor p p transitionsmatrix Observationsstøj 1 p systemfejlsvektor Observationsvarians p p systemvariansmatrix 1 p middelværdivektor p p variansmatrix Det antages indtil videre, at F t, G t, V t og W t er kendte. Startinformationen angiver fordelingen af θ t til tiden t = 0. Dette indikerer, at Y 1 ikke skal ses som begyndelsen på tidsrækken men derimod som fortsættelsen af en tidligere observeret tidsrække. I tilfælde af, at Y 1 rent faktisk er den første tilgængelige observation, er situationen mere vanskelig. I [25], hvor den DLM behandles udfra en Bayesiansk tilgang, anvendes notationen (θ 1 D 0 ) til at benævne a priori fordelingen af den første tilstandsvektor baseret på forudgående viden, der ikke inkluderer tidligere observationer. Set fra en ikke-bayesiansk/klassisk synsvinkel er det, at θ 1 kan have en fordeling, inden der er observeret nogen observationer meget kontroversielt. I [7], kapitel 5, beskrives metoder til at løse initialiseringsproblemet udfra en klassisk synsvinkel. 24

37 Den Dynamiske Lineære Model 25 Udfra definition 3.1 ses det, at θ t kan skrives ud som en linearkombination af systemfejlsvektorer og θ 0, som alle er multivariabelt normalfordelte. Det ses deraf, at θ t også er multivariabelt normalfordelt. Det følger, at Y t er normalfordelt, da den er givet ved en linearkombination af normalfordelte størrelser. Enhver linearkombination af elementerne i Y t og θ t er normalfordelt, og deraf følger det, at den fælles fordeling af Y t og θ t er multivariabelt normalfordelt. Dette vil blive anvendt i afsnit Betinget uafhængighed i den DLM Det ses udfra definition 3.1, at (Y t θ 0, θ 1,..., θ t,..., Y 1, Y 2,..., Y t 1, Y t+1,...) N (F T t θ t, V t ), (3.1) og at (θ t θ 0,..., θ t 1, Y 1,..., Y t 1 ) N p (G t θ t 1, W t ). (3.2) Det følger, at givet θ t er Y t uafhængig af θ s for s t, og af Y r for r t, samt at givet θ t 1 er θ t uafhængig af θ s for s < t 1 og af Y r for r < t. Dette motiverer, at den betingede uafhængighedsstruktur i en DLM kan beskrives ved en graf tilsvarende interaktionsgrafen for en grafisk model, se figur 3.1. For mere information om grafiske modeller, se [17]. Y t 2 Y t 1 Y t Y t+1 Y t+2 θ t 2 θ t 1 θ t θ t+1 θ t+2 Figur 3.1: Den betingede uafhængighedsstruktur i en DLM. 3.3 Kalman-filtrering Formålet med Kalman-filteret er at opdatere fordelingen af tilstandsvektoren i takt med, at nye observationer bliver tilgængelige. 25

38 Den Dynamiske Lineære Model Sætning 3.2 I en en-dimensionel DLM gælder følgende fordelinger. a priori til t: (θ t D t 1 ) N p (a t, R t ), (3.3) hvor a t = G t m t 1 og R t = G t C t 1 G T t + W t. Et-trins forudsigelse: (Y t D t 1 ) N (f t, Q t ), (3.4) hvor f t = F T t a t og Q t = F T t R t F t + V t. a posteriori til t: (θ t D t ) N p (m t, C t ), (3.5) hvor m t = a t + A t e t, C t = R t A t Q t A T t, A t = R t F t /Q t, og e t = Y t f t. Bevis: Beviset er baseret på [25] s Det vises ved induktion, at (3.5) er opfyldt, hvorved fordelingerne i (3.3) og (3.4) fremkommer som mellemresultater. Tilfældet t = 0 er opfyldt udfra definition 3.1. Antag at Det følger, at og at (θ t 1 D t 1 ) N p (m t 1, C t 1 ). (3.6) E(θ t D t 1 ) = E(G t θ t 1 D t 1 ) + E(ω t D t 1 ) = G t m t 1, Var(θ t D t 1 ) = Var(G t θ t 1 D t 1 ) + Var(ω t D t 1 ) = G t C t 1 G T t + W t, da θ t 1 og ω t er uafhængige givet D t 1. Da θ t og ν t ligeledes er uafhængige givet D t 1, udledes fordelingen i (3.4) på tilsvarende vis. Da Cov(Y t, θ t D t 1 ) = Cov ( F T t θ t + ν t, θ t D t 1 ) = Var(θt D t 1 )F t = R t F t = Q t A T t, gælder det, at den fælles fordeling for θ t og Y t givet D t 1 er givet ved ( ) [( ) ( )] θt Y t D at Rt A t Q t t 1 N p+1, f t Q t A T. Q t t 26

39 Den Dynamiske Lineære Model 27 Udfra den fælles fordeling kan den marginale fordeling for θ t givet Y t og D t 1 bestemmes ved hjælp af sætning A.1, og (3.5) fremkommer. Bevis af (3.5) ved hjælp af Bayes sætning. Set udfra et Bayesiansk synspunkt er det mere naturligt at opdatere fordelingen af θ t ved hjælp af Bayes sætning. Givet to stokastiske variable, X og Y, siger Bayes sætning, at f(x Y ) = f(y X)f(X). f(y ) Betragtet som en funktion af X alene opnås at Det følger, at f(x Y ) f(y X)f(X). f(θ t D t ) f(y t θ t, D t 1 )f(θ t D t 1 ). Det vil sige, at a posteriori tætheden af θ t er et produkt af to Gaussiske tætheder og er dermed selv Gaussisk. Middelværdi og varians for a posteriori fordelingen af θ t mangler at blive udledt. Det følger af (3.3), at Desuden ses det af definition 3.1, at Det følger, at f(θ t D t 1 ) exp[ (θ t a t ) T R 1 (θ t t a t )/2]. f(y t θ t ) exp[ (Y t F T t θ t ) 2 /2V t ]. 2 ln f(θ t D t ) = (θ t a t ) T R 1 (θ t t a t ) + (Y t F T t θ t ) 2 /V t + k 1, hvor k 1 er en konstant. Betragtet som en funktion af θ t kan ovenstående udtryk omskrives til 2 ln f(θ t D t ) = θ T t (R 1 t + F t F T t /V t )θ t 2θ T t (R 1 a t t + F t Y t /V t ) + k 2. (3.7) For en normalfordelt vektor Y med middelværdi, µ, og variansmatrix, V, gælder der, at 2 ln f(y ) = (Y µ) T V 1 (Y µ) + c 1 = Y T V 1 Y 2Y T V 1 µ + c 2, (3.8) hvor c 1 og c 2 er konstanter. Det følger derfor af (3.7), at Var(θ t D t ) = C t = (R 1 t + F t F T t /V t ) 1 = R t A t Q t A T t, 27

40 Den Dynamiske Lineære Model og at C 1 t E(θ t D t ) = R 1 a t + F t Y t /V t, t hvoraf det følger, at E(θ t D t ) = C t R 1 a t t + C t F t Y t /V t = a t + A t e t. Størrelsen e t = Y t f t benævnes et-trins prediktionsfejlen for observationen Y t. Der gælder, at e t er normalfordelt med middelværdi E(e t ) = E[E(e t D t 1 )] = E[E(F T t θ t + ν t F T t a t D t 1 )] = E(F T t a t F T t a t ) = 0, og varians Var(e t ) = Var(e t D t 1 ) = Var(Y t f t D t 1 ) = Var(Y t D t 1 ) = Q t. Følgende resultat er nyttigt i forbindelse med modelkontrol. Korollar 3.3 Elementerne i følgen af et-trins prediktionsfejl {e t } er indbyrdes uafhængige. Bevis: Der gælder, at e t = Y t E(Y t D t 1 ) er en linearkombination af Y 1,..., Y t. Ifølge korollar A.2 er e t uafhængig af Y 1, Y 2,..., Y t 1, hvoraf det følger, at e t er uafhængig af e 1, e 2,..., e t 1. Størrelsen A t betegnes den adaptive vektor til tiden t. Da m t = a t + A t e t, ses det, at størrelsen af elementerne i A t afgør, hvor stor indflydelse prediktionsfejlen har på a posteriori estimatet for θ t i forhold til a priori estimatet for tilstandsvektoren. Det ses, at A t = R t F t /Q t = R t F t /(F T t R t F t + V t ). (3.9) Udtrykket viser, at jo større observationsvariansen V t er i forhold til varianserne og kovarianserne i R t, jo mindre bliver elementerne i A t, hvilket vil sige, at indflydelsen af prediktionsfejlen på a posteriori estimatet for θ t bliver mindre. Dette stemmer godt overens med den intuitive forestilling, at jo mere usikker observationen Y t er i forhold til a priori estimatet af tilstandsvektoren, jo mindre indflydelse får Y t på a posteriori estimatet for tilstandsvektoren. 28

41 Den Dynamiske Lineære Model Kalman-udglatning Ofte er det hensigtsmæssigt at gå tilbage i tiden og estimere tidligere systemvektorer på ny. Dette gælder f.eks. i tilfælde, hvor effekten af en indtruffet hændelse eller sæsonvariationen for dataene ønskes analyseret. Fordelingen af θ t givet al tilgængelig information, D n, n > t, kaldes den Kalmanudglattede fordeling. Den udglattede fordeling bygger på mere information end den filtrerede og er derfor mere nøjagtig. Kalman-udglatning er beskrevet i [25], men fremstillingen her ligger tættere op ad [3] s Sætning 3.4 Den Kalman-udglattede fordeling af tilstandsvektoren er givet ved hvor og (θ t D n ) N p ( m t, C t ), (3.10) m t = m t + B t ( m t+1 a t+1 ), C t = C t + B t ( C t+1 R t+1 )B T t, m n = m n, Cn = C n. B t = C t G T t+1 R 1 t+1. Bevis: Beviset er pr. induktion. Ifølge Kalman-filteret er (θ n D n ) N p (m n, C n ), hvormed basistrinet er opfyldt. Med hensyn til induktionstrinet antag at (θ t+1 D n ) N p ( m t+1, C t+1 ). (3.11) Det mangler at blive vist, at (3.10) er opfyldt til tiden t. I det følgende udledes fordelingen af (θ t θ t+1, D n ), hvilket sammen med antagelsen i (3.11) muliggør, at fordelingen af (θ t D n ) kan bestemmes. Da det er vist i afsnit 3.2, at θ t er uafhængig af Y t+1,..., Y n givet θ t+1, gælder det, at (θ t θ t+1, D n ) = (θ t θ t+1, D t ). (3.12) 29

42 Den Dynamiske Lineære Model Herefter udledes den fælles fordeling af θ t og θ t+1 givet D t. Fra Kalman-filteret følger det, at og at Da opnås at (θ t D t ) N p (m t, C t ), (θ t+1 D t ) N p (a t+1, R t+1 ). Cov(θ t, θ t+1 D t ) = Cov(θ t, G t+1 θ t + ω t+1 D t ) = Cov(θ t, G t+1 θ t D t ) = C t G T t+1, ( θt θ t+1 ) D t Ved at anvende sætning A.1 følger det, at [ ( ) ( mt N 2p, a t+1 C t G t+1 C t C t G T t+1 R t+1 (θ t θ t+1, D n ) = (θ t θ t+1, D t ) N p (m t + B t (θ t+1 a t+1 ), C t B t R t+1 B T ). (3.13) t Det følger af (3.11), at og m t = E(θ t D n ) = E[E(θ t θ t+1, D n ) D n ] = m t + B t ( m t+1 a t+1 ), C t = Var(θ t D n ) = E[Var(θ t θ t+1, D n ) D n ] + Var[E(θ t θ t+1, D n ) D n ] = C t + B t ( C t+1 R t+1 )B T t. )]. 3.5 Maksimum-likelihood estimation af ukendte parametre Hidtil er det blevet antaget, at varianserne V t og W t, transitionsmatricen G t og designvektoren F t alle er kendte. I de fleste tilfælde afhænger disse størrelser delvist af ukendte parametre. Lad de ukendte parametre være indeholdt i vektoren, ψ. I det følgende opstilles likelihood-funktionen for ψ. Der gælder ved gentagen brug af Bayes sætning (se afsnit 3.3), at n L(ψ) = f(y t y t 1,..., y 1, ψ), t=1 30

43 Den Dynamiske Lineære Model 31 hvor n angiver antallet af observationer. Den betingede fordeling af Y t givet D t 1 er ifølge Kalmanfilteret givet ved (Y t D t 1 ) N (f t, Q t ), hvor f t og Q t afhænger af ψ. Det følger, at Dermed er L(ψ) = [ n (2πQ t ) 1/2 exp t=1 l(ψ) = ln L(ψ) = n 2 ln(2π) 1 2 ] n (Y t f t ) 2 /2Q t. t=1 n ln Q t 1 2 t=1 n (Y t f t ) 2 /Q t. (3.14) For at maksimere ovenstående log-likelihoodfunktion benyttes som regel en numerisk optimeringsprocedure som f.eks. Newton s algoritme, der er beskrevet i afsnit 2.3. I [7] s vises det, hvordan score-vektoren kan udregnes rekursivt givet en værdi af ψ. De ukendte størrelser bestemmes ved hjælp af Kalman-filteret og -smootheren. Numerisk beregning af informationsmatricen er vanskelig. I stedet kan den approksimeres ved den såkaldte BFGS metode, som er beskrevet kort i [7]. I mange tilfælde kan proceduren gøres simplere ved at estimere en af parametrene separat. Dette gælder i de tilfælde, hvor varianserne er givet ved t=1 V t = σ 2 V t, W t = σ 2 W t, C 0 = σ2 C 0, hvor σ 2 er en af de ukendte parametre i modellen. Det følger fra Kalman-filteret, at Q t = σ 2 Q t. Lad ψ = (ψ T, σ 2 ) T. Det følger, at l ( ψ, σ 2) = n 2 ln(2π) 1 2 n ln(σ 2 Q t ) 1 2 t=1 = n 2 ln(2π) n 2 ln σ2 1 2 n t=1 n (Y t f t ) 2 /σ 2 Q t t=1 ln Q t 1 2σ 2 n (Y t f t ) 2 /Q t. (3.15) Ideen er nu at bestemme maksimum-likelihood estimatet af σ 2 givet en specifik værdi af ψ. Derfor differentieres log-likelihoodfunktionen med hensyn til σ 2. l ( ψ, σ 2) σ 2 = n ( ) 1 2 n 2σ 2 + (Y 2σ 2 t f t ) 2 /Q t t=1 [ ] = 1 n σ n 2σ 2 (Y t f t ) 2 /Q t. Det ses, at ovenstående udtryk er lig med nul for σ 2 (ψ ) = 1 n t=1 t=1 n (Y t f t ) 2 /Q t = σ 2 (ψ ). (3.16) t=1 31

44 Den Dynamiske Lineære Model Ved at indsætte udtrykket for σ 2 (ψ) i (3.15) fremkommer profil log-likelihoodfunktionen l(ψ ) = n 2 [ln(2π) + 1] 1 2 n ln Q t n 2 ln σ 2 (ψ ). Dermed er log-likelihoodfunktionen blevet reduceret med en parameter i forhold til (3.14). Når ψ er blevet bestemt, indsættes denne i (3.16), hvorved maksimum-likelihood estimatet for σ 2 ( ψ ) fremkommer. t=1 3.6 Strukturelle tidsrække modeller Strukturelle tidsrække modeller er special-tilfælde af en DLM og blev først beskrevet af Andrew Harvey, se [13]. Den simpleste strukturelle tidsrække model er en local level model, som har observationsligningen Y t = µ t + ε t, ε t N (0, σ 2 ε), og hvor niveauet udvikler sig ved en random walk µ t+1 = µ t + ξ t, ξ t N (0, σ 2 ξ ). En mere kompliceret model fremkommer ved at tilføje en hældning til niveauet µ t+1 = µ t + κ t + ξ t, ξ t N (0, σξ 2 ). (3.17) Hældningen, κ t, er stokastisk og udvikler sig over tid ved en random walk; κ t+1 = κ t + ζ t, ζ t N (0, σζ 2 ). (3.18) En local level model tilføjet med en hældning givet ved ovenstående ligning kaldes for en local linear trend model. En basic structural model (BSM) er en local linear trend model, der er udvidet med et sæsonvariationsled. Observationsligningen får udseendet Y t = µ t + γ t + ε t, ε t N (0, σ 2 ε), hvor µ t er beskrevet som i local linear trend modellen, og γ t er sæsonvariations-komponenten, som er givet ved γ t+1 = γ t γ t 1 γ t s+2 + δ t, δ t N (0, σδ 2 ). (3.19) 32

45 Den Dynamiske Lineære Model 33 Størrelsen, s, angiver perioden for sæsonvariationen, f.eks. antallet af måneder i et år. Det ses, at hvis sæsonvariationen gøres deterministisk ved at sætte σδ 2 lig med nul, gælder det, at s 1 γ t j = 0. j=0 En positiv værdi af γ t angiver således, at niveauet for årstid nr. t ligger over gennemsnittet, mens en negativ værdi angiver, at det ligger under gennemsnittet. I dette tilfælde er sæsonvariationen altid den samme. Hvis sæsonvariations-komponenten derimod tillades at være dynamisk, adderer de s led til δ t, og sæsonvariationen er dermed kun konstant i middel og kan gradvist ændre sig. Sæsonvariationen kunne også beskrives ved en Fourier-række, som f.eks. γ t = d [γ c,j cos(τ j t) + γ s,j sin(τ j t)], j=1 hvor τ j = 2πj/s, og d angiver graden af Fourier-rækken. Det ses, at [ ] s d s s γ t = cos(τ j t) + γ s,j sin(τ j t) = 0. t=1 j=1 γ c,j t=1 Det stokastiske element tilføjes ved at lade γ c,j og γ s,j afhænge af tiden, således at de udvikler sig ved en random walk hvor δ c,j t t=1 γ c,j t+1 = γc,j t + δ c,j t, γ s,j t+1 = γs,j t + δ s,j t, og δ s,j t er normalfordelte med middelværdi nul og varians σ 2 δ Filtrering og udglatning Estimering af de uobserverede komponenter i en strukturel tidsrække model håndteres mest effektivt ved at skrive modellen i state space form. Dette gør det muligt at anvende Kalman-filteret og -smootheren på modellen. I dette afsnit udføres dette først for en local linear trend model og derefter for den mere komplicerede BSM. Definer θ t = (µ t, κ t ) T. Da svarer (3.17) og (3.18) netop til tilstandsligningen θ t = G t θ t 1 + ω t, ω t N (0, W t ), 33

46 Den Dynamiske Lineære Model hvor [ 1 1 ] [ σ 2 ξ 0 ] G t = 0 1, ω t = (ξ t, ζ t ) T, W t = 0 σ 2 ζ. Observationsligningen bliver Y t = F T t θ t + ν t, ν t N (0, V t ), hvor F t = (1, 0) T, ν t = ε t, og V t = σ 2 ε. (3.20) For en BSM udvides tilstandsvektoren til θ t = (µ t, κ t, γ t, γ t 1,..., γ t s+2 ) T. Transitionsmatricen er blokdiagonal med en blok for henholdsvis trenden og sæsonkomponenten. [ ] T G t =, S hvor [ 1 1 ] T = 0 1, og S = Det ses, at γ t sættes til minus summen af de foregående s 1 sæsonled, som forskydes en plads i θ t, således at γ t s+1 ikke længere er et element i vektoren. Systemfejls-vektoren er givet ved ω t = (ξ t, ζ t, δ t, 0,..., 0) T og har fordelingen ω t N (0, W t ), 34

47 Den Dynamiske Lineære Model 35 hvor I observationsligningen er σξ σζ σ W t = δ F t = (1, 0, 1, 0,..., 0) T,. mens ν t er uændret i forhold til (3.20). For tilfældet s = 4 opnås tilstandsligningen µ t κ t θ t = γ t = γ t γ t 2 µ t 1 κ t 1 γ t 1 γ t 2 γ t 3 + ξ t ζ t δ t 0 0 og observationsligningen Y t = [ ]θ t + ν t. Dermed er BSM-modellen bragt i state space form og Kalman-filteret og -smootheren kan anvendes på modellen til at estimere den betingede fordeling af tilstandsvektoren θ t givet data under forudsætning af, at varianserne for støjledene samt m 0 og C 0 er kendte Modelkontrol Modelkontrol af strukturelle tidsrække modeller kan baseres på de standardiserede prediktionsfejl r t = e t Qt, t = 1,..., n. (3.21) Det kan kontrolleres, om variansen af r t er homogen i to lige store dele af data-sættet ved hjælp af teststørrelsen H(k) = k t=k/2+1 r2 t k/2 t=1 r2 t F k/2,k/2 under antagelse af hypotesen, at variansen er homogen. Størrelsen k er et positivt, lige tal, der er mindre end eller lig med antallet af observationer. 35

48 Den Dynamiske Lineære Model Det er vist i afsnit 3.3, at prediktionsfejlene er serielt ukorrelerede. Det kan undersøges, om dette, samt antagelsen om normalitet, er overholdt StructTS StructTS er en funktion i programmet R, som anvendes til at modellere tidsrække-data ved en strukturel tidsrække model. Softwaren er udviklet af Brian Ripley, se [20]. Funktionen har udseendet StructTS(x, type=c("level","trend","bsm"),fixed=null) Nedenfor følger en forklaring af funktionens argumenter. x En vektor bestående af observationer fra en tidsrække, hvor en periode er defineret. type Kan være en local level model, local linear trend model eller en BSM. I en BSM beskrives sæsonvariationen ved (3.19). fixed En vektor som kan anvendes til at angive varianserne i modellen. Kun varianser, der er specificeret som "NA", estimeres ved maksimum-likelihood. Hvis vektoren ikke er anført som argument, estimeres samtlige varianser. Ved kald af funktionen foretages Kalman-filtrering af dataene, som derefter kan udglattes ved hjælp af kommandoen tssmooth. Dette giver et output, der viser de estimerede værdier af modellens komponenter for hvert datapunkt i tidsrækken, hvilket også illustreres i et plot. Figur 3.2 viser udviklingen af trenden, hældningen og sæsonvariationen for en BSM. Desuden kan de estimerede varianser for støj-ledene tilgås. 36

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Noter til Specialkursus i videregående statistik

Noter til Specialkursus i videregående statistik Noter til Specialkursus i videregående statistik Poul Thyregod IMM, februar 2005 Indhold Forord 6 1 Momenter og flerdimensionale stokastiske variable 7 1.0 Indledning............................. 7 1.1

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k Dagens program: Likelihoodfunktion, begreber : Mandag den 4. februar Den generelle lineære model score-funktion: første afledede af log-likelihood har middelværdien nul observeret information: anden afledede

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n. Simple fejlforplantningslov Landmålingens fejlteori Lektion 6 Den generelle fejlforplantningslov Antag X, X,, X n er n uafhængige stokastiske variable, hvor Var(X )σ,, Var(X n )σ n Lad Y g(x, X,, X n ),

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Afsnit 6.1. Ligefordelinger, fra sidst Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 32 Konsekvenser af Heteroskedasticitet Antag her (og i resten) at MLR.1 til MLR.4 er opfyldt. Antag MLR.5 ikke er opfyldt, dvs. vi har heteroskedastiske

Læs mere

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med Repetition: Varians af linear kombination Landmålingens fejlteori Lektion 5 Fejlforplantning - rw@math.aau.dk Antag X 1, X,..., X n er uafhængige stokastiske variable, og Y er en linearkombination af X

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle. Modellens parametre Mandag den 25 april Hierarkiske normalfordelingsmodeller Dagens program: Resume af ensidet variansanalysemodel med tilfældig effekt estimation af tilfældige effekter, fortolkning som

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Sandsynlighed og Statistik

Sandsynlighed og Statistik 36 Sandsynlighed og Statistik 6.1 Indledning Denne note beskriver de statistiske begreber og formler som man med rimelig sandsynlighed kan komme ud for i eksperimentelle øvelser. Alt er yderst korfattet,

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Den todimensionale normalfordeling

Den todimensionale normalfordeling Den todimensionale normalfordeling Definition En todimensional stokastisk variabel X Y siges at være todimensional normalfordelt med parametrene µ µ og når den simultane tæthedsfunktion for X Y kan skrives

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Dagens program: Andel døde musefostre som fkt af indgivet konc.: Eksponentielle familier af fordelinger: Toxitetsvurdering for kølevæske:

Dagens program: Andel døde musefostre som fkt af indgivet konc.: Eksponentielle familier af fordelinger: Toxitetsvurdering for kølevæske: Dagens program: Mandag den 8. februar Generaliserede lineære modeller Motiverende eksempel, logistisk regression Eksponentielle dispersionsfamilier Generaliseret lineær model Estimation, fordeling af residualer

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30 Områdeestimator X (Ω, F) (X, E) x 01 01 P θ ν θ θ Θ 0000 1111 000000 111111 0000 1111 0000 1111 C(x) En områdeestimator er en afbildning C : X P(Θ).. p.1/30 Konfidensområde En områdestimator C : X P(Θ)

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Bilag 7. SFA-modellen

Bilag 7. SFA-modellen Bilag 7 SFA-modellen November 2016 Bilag 7 Konkurrence- og Forbrugerstyrelsen Forsyningssekretariatet Carl Jacobsens Vej 35 2500 Valby Tlf.: +45 41 71 50 00 E-mail: kfst@kfst.dk Online ISBN 978-87-7029-650-2

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1 Økonometri 1 Inferens i den lineære regressionsmodel 25. september 2006 Økonometri 1: F6 1 Oversigt: De næste forelæsninger Statistisk inferens: hvorledes man med udgangspunkt i en statistisk model kan

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,

Læs mere

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering Landmålingens fejlteori Lektion 3 Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition: Middelværdi og

Læs mere

Lidt om fordelinger, afledt af normalfordelingen

Lidt om fordelinger, afledt af normalfordelingen IMM, 2002-10-10 Poul Thyregod Lidt om fordelinger, afledt af normalfordelingen 1 Introduktion I forbindelse med inferens i normalfordelinger optræder forskellige fordelinger, der er afledt af normalfordelingen,

Læs mere

Stokastiske processer og køteori

Stokastiske processer og køteori Stokastiske processer og køteori 3. kursusgang Anders Gorst-Rasmussen Institut for Matematiske Fag Aalborg Universitet 1 SIDSTE GANG Ankomstproces T 1, T 2,... (ankomsttid per kunde) til køsystem. Modellér

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl Landmålingens fejlteori Lektion 4 Vægtet gennemsnit Fordeling af slutfejl - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/36 Estimation af varians/spredning Antag X 1,...,X n stokastiske

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset 02402 Vejledende løsninger til Splus-opgaverne fra hele kurset Vejledende løsning SPL3.3.1 Der er tale om en binomialfordeling med n =10ogp=0.6, og den angivne sandsynlighed er P (X =4) som i bogen også

Læs mere

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 34 Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Antag vi har model: Vi ønsker at teste hypotesen y = β 0 + β 1 x

Læs mere

Statistik for ankomstprocesser

Statistik for ankomstprocesser Statistik for ankomstprocesser Anders Gorst-Rasmussen 20. september 2006 Resumé Denne note er en kortfattet gennemgang af grundlæggende statistiske værktøjer, man kunne tænke sig brugt til at vurdere rimeligheden

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Løsning til prøveeksamen 1

Løsning til prøveeksamen 1 IMM - DTU 020 Probability 2006-2-8 BFN/bfn Løsning til prøveeksamen Spørgsmål ) For en indikatorvariabel I A for hændelsen A gælder E(I A ) = P(A) (se for eksemepl side 68). Således er E(X) = P(N ) = =

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........

Læs mere

µ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005

µ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005 Hierarkiske generaliserede lineære modeller Lee og Nelder, Biometrika (21) 88, pp 987-16 Dagens program: Mandag den 2. maj Hierarkiske generaliserede lineære modeller - Afslutning Hierarkisk generaliseret

Læs mere

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3 Landmålingens fejlteori Repetition - Kontinuerte stokastiske variable Lektion 4 - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf10 Institut for Matematiske Fag Aalborg Universitet 29. april

Læs mere

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t. t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program (8.15-10): 1. repetition: fordeling af observatorer X, S 2 og t. 2. konfidens-intervaller, hypotese test, type I og type II fejl, styrke,

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere