Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Statistisk model Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål på (X, E). Modellen er parametriseret hvis der findes en parametermængde Θ og en surjektiv afbildning Θ P. Vi skriver normalt for parametriseringen. θ Θ ν θ P Vi foretrækker at parametriseringen er injektiv, og at Θ er en pæn mængde, f.eks. en åben delmænde af R k.

Udvidet statistisk model Vi forestiller os gerne ekstra ingredienser: X (Ω, F) (X, E, ν) frag replacements P θ ν θ θ Θ Man kan uden problemer antage at disse ekstra ingredienser eksisterer.

Statistikkens mål Lad P være en model på (X, E). Vi forestiller os at ét af disse sandsynlighedsmål er sandt, det vil sige er mekanismen bag eksperimentet. På baggrund af en observation af eksperimentet ønsker vi at drage inferens om det sande sandsynlighedsmål. Hvis modellen er parametriseret, drager man inferens om den sande parameter. Det betyder: at sige et eller andet, der i større eller mindre grad fastlægger positionen af den sande parameter.

Forskellige parametriseringer Man kan altid forestille sig mange forskellige parametriseringer af en statistisk model. PSfrag replacements P Θ Ξ

Forskellige parametriseringer Man kan altid forestille sig mange forskellige parametriseringer af en statistisk model. PSfrag replacements P Θ Ξ Hvis parametriseringerne er injektive, er der en eksplicit reparametrisering θ ξ(θ) så θ og ξ(θ) svarer til samme sandsynlighedsmål.

Ækvivarians Ækvivariansprincip: Når man drager inferens i en statistisk model P, må konklusionerne ikke afhænge af hvordan P er parametriseret. Ækvivariansprincippet er sundt - men forbavsende let at bryde.

Eksempel: simpel Poissonmodel Lad X 1, X 2,..., X n være uafhængige, reelle stokastiske variable, alle Poissonfordelte med middelværdi λ. Angiver en statistisk model med X - N 0 n (eller R n ). ν λ - Po(λ) Po(λ)... Po(λ) λ (0, ) Vi har brugt λ = EX i som parameter. Alternativ: brug nulsandsynligheden θ = P (X i = 0). Relation: θ = e λ.

Eksempel: simpel eksponentialmodel Lad X 1, X 2,..., X n være uafhængige, reelle stokastiske variable, alle eksponentialfordelte med middelværdi λ. Angiver en statistisk model med X - R n (eller (0, ) n ). ν λ - exp(λ) exp(λ)... exp(λ) λ (0, ) Vi har brugt λ = EX i som parameter. Alternativ: brug hazardrate Relation: r = 1 λ. r = lim t 0 P (X i (t, t + t) X i > t)

Eksempel: simpel møntkastmodel Lad X 1, X 2,..., X n være uafhængige 0-1 variable, alle med successandsynlighed p. Angiver en statistisk model med X - {0, 1} n (eller R n ). p (0, 1) Vi har brugt successandsynligheden p = P (X i = 1) som parameter. Alternativ: brug odds θ = P (X i = 1) P (X i = 0) = p 1 p Andet alternativ: brug log-odds ψ = log P (X i = 1) P (X i = 0)

Eksempel: møntkast i to grupper Lad X 1, X 2,..., X n og Y 1,..., Y m være uafhængige 0-1 variable. Antag at alle X erne har successandsynlighed p 1, mens Y erne har successandsynlighed p 2. Angiver en statistisk model med X - {0, 1} n+m (eller R n+m ). (p 1, p 2 ) (0, 1) 2

Eksempel: møntkast i to grupper Den primære interesse retter sig næppe mod hvad p 1 og p 2 er, men mod om de er ens. Alternativ parametrisering: q 1 = p 1 + p 2, q 2 = p 1 p 2 Nu retter interessen sig mod om q 2 = 0 - simpelt og godt. Vi kalder q 2 for interesseparameteren Vi kalder q 1 for en nuissance parameter Til gengæld er parametermængden ubehagelig.

Eksempel: simpel ikke-parametrisk model Lad X 1, X 2,..., X n være uafhængige, identisk fordelte reelle stokastiske variable, med ukendt fordeling µ. Angiver en statistisk model med X - R n ν µ - µ µ... µ µ Pr(R, B) - alle sandsynlighedsmål på R.

Bestemmelse af naturkonstanter: Reaktionstider 248 296 267 231 215 339 272 257 242 288 265 259 292 295 280 239 222 258 284 332 244 239 274 321 263 254 281 269 262 257 375 287 257 262 255 241 293 280 312 263 267 242 317 219 296 297 269 301 266 302 Antal 0 2 4 6 8 10 12 200 250 300 350 Reaktionstid (ms)

Bestemmelse af naturkonstanter: Reaktionstider Antal 0.000 0.004 0.008 0.012 200 250 300 350 Reaktionstid (ms) Tilføjet: tæthed for normalfordeling med middelværdi: 273 standardafvigelse: 31.7

Prediktion: Svenske narkomaner I 1979 havde man i Sverige følgende registrationer af narkomaner: Politi ja Politi nej Sundhed ja 607 1471 2078 Sundhed nej 3796 4403 Interessen retter sig mod de tomme celler i tabellen. Især mod det samlede antal narkomaner N.

Prediktion: Svenske narkomaner Capture-recapture model: N Poissonfordelt med middelværdi λ, Hver narkoman registreres i Sundhedsregisteret med sandsynlighed p. Hver narkoman registreres i Politiets register med sandsynlighed q. De to registringer sker uafhængigt af hinanden. Konsekvens: de tre observerede celletal er uafhængige, Poissonfordelte med middelværdi hhv. p q λ, p (1 q) λ, (1 p) q λ. Konklusion: λ 15073.

Forskel på grupper: Puslespilstider aktuar 20 28 37 42 44 47 60 63 67 75 90 119 198 238 265 300 300 300 300 300 300 300 mat-øk 40 42 60 108 112 135 154 158 187 189 191 205 230 246 252 291 300 300 300 300 300 300 300 300 300 300 300 g replacements P (X x) 0.0 0.2 0.4 0.6 0.8 1.0 0 50 100 150 200 250 300 350 x

Forskel på grupper: Puslespilstider Afskårne eksponentialfordelinger med λ = 264 hhv. λ = 334 g replacements P (X x) 0.0 0.2 0.4 0.5 0.6 0.8 1.0 0 50 100 150 200 250 300 350 x

Diagnostisk test Screeningsundersøgelse. Falsk negativ: P (Negativ Syg) = 0.05 Falsk positiv P (Positiv Rask) = 0.02 En patient undersøges, og den diagnostiske test viser et positivt resultat. Hvad så? 1) Tror vi at patienten har sygdommen? 2) Skal vi behandle patienten for sygdommen? 3) Hvilken evidens giver undersøgelsen for at patienten er syg?

Inferensmæssige spørgsmål Lad der være givet en paramteriseret statistisk model (ν θ ) θ Θ på (X, E) Estimation Hvilket θ Θ beskriver bedst observationen x? Konfidensområder Hvilke θ Θ beskriver observationen x næsten lige så godt som det bedste? Hypotesetest Hvis Θ 0 er en specielt udvalgt delmængde, kan vi så med rimelighed sige at det sande θ ligger i Θ 0? Modelkontrol Er der overhovedet nogen af θ erne der beskriver observationen x tilfredsstillende?

Parameterfølsomhed PSfrag replacements 0 2 4 6 8 X 0 2 4 6 8 PSfrag replacements 0 2 4 6 8 X 0 2 4 6 8

Parameterfunktion Lad P være en statistisk model på (X, E). Ofte er interessen rettet mod en parameterfunktion τ : P R Det vil sige: vi er ikke særligt interesserede i det sande ν, men nok i τ(ν). En god parameterfunktion er fortolkelig, hvilket som regel betyder at den kan udvides fra P til mange flere sandsynlighedsmål på X. Hvis θ ν θ er en injektiv parametrisering, vil enhver funktion Θ R være en parameterfunktion. Hvis parametriseringen ikke er injektiv, kan en funktion Θ R være ikke-identificerbar i modellen.