Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Relaterede dokumenter
Statistiske modeller

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Estimation. Kapitel 4

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Om hypoteseprøvning (1)

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

så siges modellen at være! domineret af µ. Hvis modellen er parametriseret P =

Den lineære normale model

Test af statistiske hypoteser

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Statistik og Sandsynlighedsregning 2

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistiske principper

Elementær sandsynlighedsregning

standard normalfordelingen på R 2.

Elementær sandsynlighedsregning

Kvantitative Metoder 1 - Forår 2007

Sandsynlighedsteori. Sandsynlighedsteori. Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et. Et Bayesiansk argument

Betingning med en uafhængig variabel

UDKAST. Indeks. approksimativt konfidensområde, 213, 221 approksimativt konkordansproblem, 34 approksimativt niveaukonstant teststørrelse, l x (θ), 73

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Statistik og Sandsynlighedsregning 2

Reeksamen 2014/2015 Mål- og integralteori

Eksamen 2014/2015 Mål- og integralteori

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave

Produkt og marked - matematiske og statistiske metoder

Et eksperiment beskrives af et udfaldsrum udstyret med et. alle mulige resultater af eksperimentet

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Kvantitative Metoder 1 - Forår Dagens program

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr)

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Vejledende besvarelser til opgaver i kapitel 14

Normalfordelingen og Stikprøvefordelinger

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Områdeestimation. Kapitel 7

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

1 Hb SS Hb Sβ Hb SC = , (s = )

Det asymptotiske scenarie

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Den lineære normale model

CIVILINGENIØREKSAMEN Side 1 af 16 sider. Skriftlig prøve, den: 27. maj 2011 Kursus nr : (navn) (underskrift) (bord nr)

Kapitel 4 Sandsynlighed og statistiske modeller

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Statistik II 4. Lektion. Logistisk regression

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

2 Gennemsnitligt indhold af aktivt stof i en tablet fra et glas med 200 tabletter

Kapitel 4 Sandsynlighed og statistiske modeller

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Teoretisk Statistik, 13 april, 2005

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

1 Palm teori. Palm teori 1

Estimation og konfidensintervaller

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 19. december 2018 Kursus nr : (navn) (underskrift) (bord nr)

Note om Monte Carlo metoden

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

StatDataN: Middelværdi og varians

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Statistik og Sandsynlighedsregning 2

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Fagplan for statistik, efteråret 2015

Løsning eksamen d. 15. december 2008

Statistik II 1. Lektion. Analyse af kontingenstabeller

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Nanostatistik: Opgaver

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Susanne Ditlevsen Institut for Matematiske Fag susanne

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 27. maj 2019 Kursus nr : (navn) (underskrift) (bord nr)

Teoretisk Statistik, 16. februar Generel teori,repetition

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Integration m.h.t. mål med tæthed

Nanostatistik: Test af hypotese

Estimation og usikkerhed

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Transkript:

Statistisk model Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål på (X, E). Modellen er parametriseret hvis der findes en parametermængde Θ og en surjektiv afbildning Θ P. Vi skriver normalt for parametriseringen. θ Θ ν θ P Vi foretrækker at parametriseringen er injektiv, og at Θ er en pæn mængde, f.eks. en åben delmænde af R k.

Udvidet statistisk model Vi forestiller os gerne ekstra ingredienser: X (Ω, F) (X, E, ν) frag replacements P θ ν θ θ Θ Man kan uden problemer antage at disse ekstra ingredienser eksisterer.

Statistikkens mål Lad P være en model på (X, E). Vi forestiller os at ét af disse sandsynlighedsmål er sandt, det vil sige er mekanismen bag eksperimentet. På baggrund af en observation af eksperimentet ønsker vi at drage inferens om det sande sandsynlighedsmål. Hvis modellen er parametriseret, drager man inferens om den sande parameter. Det betyder: at sige et eller andet, der i større eller mindre grad fastlægger positionen af den sande parameter.

Forskellige parametriseringer Man kan altid forestille sig mange forskellige parametriseringer af en statistisk model. PSfrag replacements P Θ Ξ

Forskellige parametriseringer Man kan altid forestille sig mange forskellige parametriseringer af en statistisk model. PSfrag replacements P Θ Ξ Hvis parametriseringerne er injektive, er der en eksplicit reparametrisering θ ξ(θ) så θ og ξ(θ) svarer til samme sandsynlighedsmål.

Ækvivarians Ækvivariansprincip: Når man drager inferens i en statistisk model P, må konklusionerne ikke afhænge af hvordan P er parametriseret. Ækvivariansprincippet er sundt - men forbavsende let at bryde.

Eksempel: simpel Poissonmodel Lad X 1, X 2,..., X n være uafhængige, reelle stokastiske variable, alle Poissonfordelte med middelværdi λ. Angiver en statistisk model med X - N 0 n (eller R n ). ν λ - Po(λ) Po(λ)... Po(λ) λ (0, ) Vi har brugt λ = EX i som parameter. Alternativ: brug nulsandsynligheden θ = P (X i = 0). Relation: θ = e λ.

Eksempel: simpel eksponentialmodel Lad X 1, X 2,..., X n være uafhængige, reelle stokastiske variable, alle eksponentialfordelte med middelværdi λ. Angiver en statistisk model med X - R n (eller (0, ) n ). ν λ - exp(λ) exp(λ)... exp(λ) λ (0, ) Vi har brugt λ = EX i som parameter. Alternativ: brug hazardrate Relation: r = 1 λ. r = lim t 0 P (X i (t, t + t) X i > t)

Eksempel: simpel møntkastmodel Lad X 1, X 2,..., X n være uafhængige 0-1 variable, alle med successandsynlighed p. Angiver en statistisk model med X - {0, 1} n (eller R n ). p (0, 1) Vi har brugt successandsynligheden p = P (X i = 1) som parameter. Alternativ: brug odds θ = P (X i = 1) P (X i = 0) = p 1 p Andet alternativ: brug log-odds ψ = log P (X i = 1) P (X i = 0)

Eksempel: møntkast i to grupper Lad X 1, X 2,..., X n og Y 1,..., Y m være uafhængige 0-1 variable. Antag at alle X erne har successandsynlighed p 1, mens Y erne har successandsynlighed p 2. Angiver en statistisk model med X - {0, 1} n+m (eller R n+m ). (p 1, p 2 ) (0, 1) 2

Eksempel: møntkast i to grupper Den primære interesse retter sig næppe mod hvad p 1 og p 2 er, men mod om de er ens. Alternativ parametrisering: q 1 = p 1 + p 2, q 2 = p 1 p 2 Nu retter interessen sig mod om q 2 = 0 - simpelt og godt. Vi kalder q 2 for interesseparameteren Vi kalder q 1 for en nuissance parameter Til gengæld er parametermængden ubehagelig.

Eksempel: simpel ikke-parametrisk model Lad X 1, X 2,..., X n være uafhængige, identisk fordelte reelle stokastiske variable, med ukendt fordeling µ. Angiver en statistisk model med X - R n ν µ - µ µ... µ µ Pr(R, B) - alle sandsynlighedsmål på R.

Bestemmelse af naturkonstanter: Reaktionstider 248 296 267 231 215 339 272 257 242 288 265 259 292 295 280 239 222 258 284 332 244 239 274 321 263 254 281 269 262 257 375 287 257 262 255 241 293 280 312 263 267 242 317 219 296 297 269 301 266 302 Antal 0 2 4 6 8 10 12 200 250 300 350 Reaktionstid (ms)

Bestemmelse af naturkonstanter: Reaktionstider Antal 0.000 0.004 0.008 0.012 200 250 300 350 Reaktionstid (ms) Tilføjet: tæthed for normalfordeling med middelværdi: 273 standardafvigelse: 31.7

Prediktion: Svenske narkomaner I 1979 havde man i Sverige følgende registrationer af narkomaner: Politi ja Politi nej Sundhed ja 607 1471 2078 Sundhed nej 3796 4403 Interessen retter sig mod de tomme celler i tabellen. Især mod det samlede antal narkomaner N.

Prediktion: Svenske narkomaner Capture-recapture model: N Poissonfordelt med middelværdi λ, Hver narkoman registreres i Sundhedsregisteret med sandsynlighed p. Hver narkoman registreres i Politiets register med sandsynlighed q. De to registringer sker uafhængigt af hinanden. Konsekvens: de tre observerede celletal er uafhængige, Poissonfordelte med middelværdi hhv. p q λ, p (1 q) λ, (1 p) q λ. Konklusion: λ 15073.

Forskel på grupper: Puslespilstider aktuar 20 28 37 42 44 47 60 63 67 75 90 119 198 238 265 300 300 300 300 300 300 300 mat-øk 40 42 60 108 112 135 154 158 187 189 191 205 230 246 252 291 300 300 300 300 300 300 300 300 300 300 300 g replacements P (X x) 0.0 0.2 0.4 0.6 0.8 1.0 0 50 100 150 200 250 300 350 x

Forskel på grupper: Puslespilstider Afskårne eksponentialfordelinger med λ = 264 hhv. λ = 334 g replacements P (X x) 0.0 0.2 0.4 0.5 0.6 0.8 1.0 0 50 100 150 200 250 300 350 x

Diagnostisk test Screeningsundersøgelse. Falsk negativ: P (Negativ Syg) = 0.05 Falsk positiv P (Positiv Rask) = 0.02 En patient undersøges, og den diagnostiske test viser et positivt resultat. Hvad så? 1) Tror vi at patienten har sygdommen? 2) Skal vi behandle patienten for sygdommen? 3) Hvilken evidens giver undersøgelsen for at patienten er syg?

Inferensmæssige spørgsmål Lad der være givet en paramteriseret statistisk model (ν θ ) θ Θ på (X, E) Estimation Hvilket θ Θ beskriver bedst observationen x? Konfidensområder Hvilke θ Θ beskriver observationen x næsten lige så godt som det bedste? Hypotesetest Hvis Θ 0 er en specielt udvalgt delmængde, kan vi så med rimelighed sige at det sande θ ligger i Θ 0? Modelkontrol Er der overhovedet nogen af θ erne der beskriver observationen x tilfredsstillende?

Parameterfølsomhed PSfrag replacements 0 2 4 6 8 X 0 2 4 6 8 PSfrag replacements 0 2 4 6 8 X 0 2 4 6 8

Parameterfunktion Lad P være en statistisk model på (X, E). Ofte er interessen rettet mod en parameterfunktion τ : P R Det vil sige: vi er ikke særligt interesserede i det sande ν, men nok i τ(ν). En god parameterfunktion er fortolkelig, hvilket som regel betyder at den kan udvides fra P til mange flere sandsynlighedsmål på X. Hvis θ ν θ er en injektiv parametrisering, vil enhver funktion Θ R være en parameterfunktion. Hvis parametriseringen ikke er injektiv, kan en funktion Θ R være ikke-identificerbar i modellen.