Statistiske modeller

Størrelse: px
Starte visningen fra side:

Download "Statistiske modeller"

Transkript

1 Kapitel 2 Statistiske modeller Når man i praksis skal beskrive et eksperiment, så er situationen sjældent den, at man fuldt og fast tror på at mekanismen bag eksperimentet kan opsummeres i et bestemt sandsynlighedsmål. Snarere er der en række forhold omkring eksperimentet man er usikker på, og som man gerne vil lære noget om - det er dette ønske der begrunder at man i det hele taget udfører eksperimentet. Man tager højde for denne usikkerhed ved at angive en hel familie af sandsynlighedsmål, der hver især kan tænkes at være mekanismen bag eksperimentet. Definition 2.1 En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål på (X, E). Meningen bag denne definition er at et af sandsynlighedsmålene ν P er sandt, dvs. repræsenterer den virkelige mekanisme bag eksperimentet. Vi ved blot ikke hvilket ν der er sandt. Men på baggrund af eksperimentet håber vi at kunne sige noget om hvilket sandsynlighedsmål, der er det sande - vi ønsker at komme med udsagn der i større eller mindre grad lokaliserer det sande ν. Vi taler om at drage inferens om det sande sandsynlighedsmål. I kapitel 1 bestod den statistiske model simpelthen af ét sandsynlighedsmål. Typiske modeller har naturligvis mange flere sandsynlighedsmål, og der kan i så fald opstå 40

2 41 et problem med at tale om de forskellige mål. Det løser man gerne ved at parametrisere modellen, altså finde en surjektiv afbildning ν : Θ P hvor Θ er en parametermængde. Man skriver gerne ν θ i stedet for ν(θ). Den parametriserede model er så P = {ν θ θ Θ}. Man kan så tale om sandsynlighedsmålene i P ved i stedet at tale om parametrene, og dette sproglige skift gør livet meget nemmere for de fleste - at tale om sandsynlighedsmål forekommer de fleste at være meget abstrakt, at tale om parametre forekommer derimod konkret. Ofte bruger man pæne delmængder af R k som parametermængder, men i virkeligheden er der frit slag til at vælge mere abstrakte parametermængder. Eksempel 2.2 Lad P være en familie af sandsynlighedsmål på (X, E). Sæt Θ = P, og betragt parametriseringen ν ν. På denne måde har vi så at sige parametriseret P ved sig selv. Det er klart at parametriseringen i eksempel 2.2 ikke er særligt nyttig: den hjælper ikke på problemet med at formulere sig klart om sandsynlighedsmål, for den giver os kun mulighed for at erstatte udsagn om sandsynlighedsmål med udsagn om sandsynlighedsmål. Pointen er da også en anden: den anførte parametrisering demonstrerer at enhver statistisk model kan parametriseres, hvis blot vi er parate til at acceptere abstrakte parametermængder. Den modsatte side af mønten er at parametriseringen ikke er entydig: en konkret statistisk model kan altid parametriseres på mange, mange måder. Ofte kan man vælge en naturlig parametrisering, hvor parametrene har en umiddelbar, klar fortolkning sådan at udsagn om parametre på en gennemsigtig måde lader sig oversætte til udsagn om den virkelige verden. I andre tilfælde har parametriseringen mere karakter af matematisk bekvemmelighed, og i så fald kommer der let noget arbitrært over den valgte parametrisering. Uanset om parametriseringen er fortolkelig eller ej, må man ofte konstatere at dens brugbarhed er begrænset: den hjælper på forståelsen af visse aspekter af det udførte eksperiment. For forståelsen af andre aspekter kan en anden parametrisering imidlertid være at foretrække. Man kommer derfor ofte ud for at skulle reparametrisere modellen, altså at skulle gå fra en parametrisering til en anden. Men det skulle nødigt være sådan at de statistiske konklusioner man drager, afhænger af hvilken parametrisering af modellen der aktuelt er i brug. Sådanne overvejelser fører til det såkaldte

3 42 Kapitel 2. Statistiske modeller Ækvivariansprincip: Drager man inferens i en statistisk model (X, E, P) på baggrund af en observation x X, så bør resultatet ikke afhænge af hvordan P eventuelt er parametriseret. Man må naturligvis gerne udtrykke sine konklusioner ved hjælp af parametrene - ækvivariansprincippet siger blot at to statistikere, der har parametriseret modellen på hver sin måde, bør være enige om hvilke sandsynlighedsmål i modellen som er i konkordans med den gjorte observation, og hvilke der er i diskordans. Vi vil senere støde på en række andre moralske principper for hvordan man bør drage inferens. Som altid i spørgsmål hvor moral er involveret, er det nemmest at overholde disse principper hvis man ikke foretager sig noget som helst, men blot fromt mediterer over verdens ondskab i sin munkecelle. Som praktisk statistiker vil man ofte komme til at foretage sig ting, der bryder med f.eks. ækvivariansprincippet. Man skal blot være opmærksom på at en overtrædelse af disse principper er angribelig, og man bør derfor tilstræbe at overtrædelserne er så få og små som muligt. 2.1 Udvidet beskrivelse af en statistisk model For at lette italesættelsen af eksperimentet, ønsker vi som sædvanlig at udvide beskrivelsen ved at inddrage stokastiske variable. Udgangspunktet er en parametriseret statistisk model (ν θ ) θ Θ på et repræsentationsrum (X, E). Som det ses i figur 2.1 betyder den udvidede beskrivelse at vi indfører et uspecificeret baggrundsrum (Ω, F), en stokastisk variabel X : (Ω, F) (X, E) og en parametriseret statistisk model (P θ ) θ Θ på (Ω, F) med den egenskab at X(P θ ) = ν θ for alle θ Θ. (2.1) Vi kræver altså at uanset hvilket θ der er sandt, så skal fordelingen af X under det sande sandsynlighedsmål P θ være det sande ν θ. Denne udvidede beskrivelse af eksperimentet rejser et eksistensproblem. Det er ikke umiddelbart oplagt at der altid findes et baggrundsrum, en stokastisk variabel og en statistisk model på baggrundsrummet, der har de ønskede egenskaber. Det kunne i princippet være at kun udvalgte modeller lod sig repræsentere på denne måde. Men sådan er det ikke, i lemma 2.3 giver vi ud fra en model (ν θ ) θ Θ en eksplicit konstruktion af de øvrige dele af den udvidede beskrivelse. Konstruktionen er uinteressant i

4 2.1. Udvidet beskrivelse af en statistisk model 43 PSfrag replacements X (Ω, F) (X, E) P θ ν θ θ Θ Figur 2.1: En statistisk model for et eksperiment. Baggrundsrummet Ω repræsenterer de mulige verdensskæbner, X repræsenterer de mulige udfald af det konkrete eksperiment, og den stokastiske variabel X repræsenterer oversættelsen fra verdensskæbne til eksperimentets resultat. Skæbnens gudinde trækker verdensskæbnen efter et sandsynlighedsmål P θ med billedmål X(P θ ) = ν θ. Det sande θ Θ er ukendt, og det er statistikerens opgave at drage inferens om hvilket θ skæbnens gudinde har benyttet. sig selv, og der er altid mange andre udvidelser mulige - pointen er blot at vise at mindst én konstruktion altid er mulig. Lemma 2.3 Lad (ν θ ) θ Θ være en familie af sandsynlighedsmål på (X, E). Der findes da et målbart rum (Ω, F), en statistisk model (P θ ) θ Θ på (Ω, F) og en stokastisk variabel X : (Ω, F) (X, E) sådan at (2.1) er opfyldt. BEVIS: Sæt Ω = X og F = E. Definer den stokastiske variabel X : Ω X ved X(x) = x for alle x Ω. Med andre ord: X er simpelthen identitetsafbildningen X X. Definer endelig den statistiske model (P θ ) θ Θ på (Ω, F) ved at sætte P θ = ν θ for alle θ Θ. Vi ser nu at X(P θ ) = Id(ν θ ) = ν θ for alle θ Θ, præcis som ønsket.

5 44 Kapitel 2. Statistiske modeller 2.2 Eksempler på statistiske modeller Vi vil i dette afsnit give en række eksempler på statistiske modeller. I første omgang ser vi på modellerne som rent matematiske objekter, uden at bekymre os særligt om hvad de skal modellere. At kunne modellere de fænomener man i praksis er interesseret i, er nemlig i høj grad et spørgsmål om at have et tilstrækkeligt stort lager af modeller til sin rådighed. Eksempel 2.4 I den simple Poissonmodel har man n uafhængige reelle stokastiske variable X 1,..., X n, alle Poissonfordelte med den ukendte middelværdi λ > 0. Altså P(X i = n) = λn n! e λ for n N 0. (2.2) Denne model er ofte relevant, hvis hvert X i repræsenterer et optællingseksperiment, hvor man ikke på forhånd har en øvre grænse for resultatet. Den naturlige parametermængde er λ (0, ). Vi kan i princippet plombere parametermængden ved at tilføje parameteren 0, hvis vi opfatter Poissonfordelingen med middelværdi 0 som etpunktsmålet i 0. Men dette mål har en anden karakter end de rigtige Poissonfordelinger, f.eks. har det støtte i et enkelt punkt, mens de rigtige Poissonfordelinger har støtte på hele N 0. Derfor foretrækker vi at undlade at plombere modellen. Parameteren i (2.2) repræsenterer den gennemsnitlige værdi af målingerne. I visse sammenhænge lægger man større vægt på hvor mange af målingerne der er nul, og hvor mange der er større end nul. Det kan lede til at bruge punktsandsynligheden i nul, θ = P(X = 0), som parameter. I så fald bliver parametermængden (0, 1). De to parametriseringer er forbundet ved ligningen så i θ-parametriseringen bliver punktsandsynlighederne P(X i = n) = θ = e λ, (2.3) ( log θ)n n! θ for n N 0. (2.4) Ækvivariansprincippet betyder i denne sammenhæng, at hvis man på baggrund af de gjorte observationer x 1,..., x n er af den formening at middelværdien er λ, så bør man også mene at nulsandsynligheden er θ = e λ. Og omvendt: hvis man mener at

6 2.2. Eksempler på statistiske modeller 45 nulsandsynligheden er θ, så bør man også mene at middelværdien er p = log θ. Men hvis man ikke tænker sig om, kan man sagtens komme til at påstå at λ = 1 n n x i, i=1 θ = 1 n n 1 {0} (x i ). Her har man identificeret middelværdien med det empiriske gennemsnit og nulsandsynligheden med den empiriske frekvens af nulobservationer. Meget rimelige identificeringer begge to - men de to størrelser opfylder ikke relationen (2.3). Dette simple eksempel illustrerer hvor let man kan komme på kant med ækvivariansprincippet. Vi har formuleret den simple Poissonmodel ved hjælp af stokastiske variable, men insisterer man på at bruge definition 2.1 direkte, så er eksperimentets repræsentationsrum (N 0 n, P(N 0 n )), og modellen er (ν λ ) λ (0, ) hvor i=1 ν λ = Po(λ) Po(λ). Her betegner Po(λ) naturligvis Poissonfordelingen med middelværdi λ. Den oprindelige definition af en statistisk model, kræver altså at vi skriver produktrum og produktmål ned i en uendelighed. Hvorimod den udvidede beskrivelse med stokastiske variable, tillader os at slippe uden om disse notationsmæssige vanskeligheder. Eksempel 2.5 I den simple eksponentialfordelingsmodel har man n uafhængige reelle stokastiske variable X 1,..., X n, alle eksponentialfordelte med middelværdi λ > 0. Denne model er ofte relevant, hvis X i erne repræsenterer uafhængige observationer af overlevelsestider. Parametermængden i modellen er (0, ). En alternativ parametrisering af denne model benytter den såkaldte hazardrate r = 1 λ som parameter. I så fald har hvert X i tæthed re rx for x > 0. Pointen i denne parametrisering er at P(X i (t, t + t) X i > t) = 1 e t/λ t λ = r t, så hazardraten beskriver sandsynligheden for et dødsfald i et kort interval efter tid t, givet at dødsfaldet endnu ikke er indtrådt til tid t. I praktiske overlevelsessammenhænge har man ofte bedre fornemmelse for hazardrater end for middelværdier. Eksponentialfordelingen har en konstant hazardrate, forstået på den måde at ovenstående betingede sandsynlighed ikke afhænger af t. Derfor beskriver eksponentialfordelingen et overlevelsesforløb, der hverken har karakter af aldring, der ville udtrykke

7 46 Kapitel 2. Statistiske modeller sig ved en hazardrate der vokser med t, eller helbredelse, hvor hazardrate aftager med t. Man skal nærmere have radioaktive henfaldstider i tankerne end et menneskes levetid fra fødsel til død. Derimod kan overlevelse efter indtrædelse af en bestemt sygdom i visse tilfælde beskrives ved en simpel eksponentialfordelingsmodel. Eksempel 2.6 I den simple møntkastmodel (eller Bernoullimodel) har man n uafhængige reelle stokastiske variable X 1,..., X n der alle opfylder at P(X i = 1) = p, P(X i = 0) = 1 p, (2.5) for et ukendt p (0, 1). I princippet kan man godt plombere parametermængden med endepunkterne 0 og 1, (2.5) giver god mening for disse parameterværdier også. Men de resulterende fordelinger har en helt anden karakter end fordelingerne for p (0, 1) - de beskriver et deterministisk eksperiment, hvor man med sikkerhed får 0 eller med sikkerhed får 1 - og derfor foretrækker vi at udelade dem. I (2.5) bruger vi successandsynligheden som parameter. Et ofte anvendt alternativ er odds, θ = p 1 p, med tilhørende parametermængde θ (0, ). I en parametrisering ved odds bliver punktsandsynlighederne P(X i = 1) = θ 1 + θ, P(X i = 0) = θ. (2.6) Mange mennesker har lettere ved at fortolke odds end sandsynligheder. Det gælder især i lande hvor der væddes meget. Men det gælder også visse faglige miljøer: i medicinsk litteratur er odds en meget anvendt parameter. Endnu en mulig parametrisering er log odds, ψ = log θ, der leder til punktsandsynlighederne P(X i = 1) = eψ 1 + e ψ, P(X 1 i = 0) = 1 + e ψ, (2.7) for et ukendt ψ R. Denne parameter er matematisk bekvem, først og fremmest fordi parametermængden er hele den reelle akse, hvilket ofte er rart. Endvidere har log odds en behagelig symmetri, der ligestiller den positive og negative del af aksen: en numerisk stor ψ-værdi betyder at eksperimentet er næsten deterministisk.

8 2.2. Eksempler på statistiske modeller 47 Modellerne i eksempel 2.4, 2.5 og 2.6 beskriver uafhængige gentagelser af et simpelt forsøg. I praksis vil observationerne nok være gentagelser, men ikke under helt identiske omstændigheder. Ofte kan observationerne inddeles i forskellige grupper, og hovedinteressen i eksperimentet knytter sig til om der er forskel på grupperne. Eksempel 2.7 I modellen for møntkast med to mønter har man uafhængige reelle stokastiske variable X 1,..., X n, Y 1,..., Y m der opfylder at for i = 1,..., n og at P(X i = 1) = p 1, P(X i = 0) = 1 p 1, P(Y j = 1) = p 2, P(Y j = 0) = 1 p 2, for j = 1,..., m. Her er (p 1, p 2 ) en ukendt parameter i (0, 1) (0, 1). Interessen i denne model samler sig oftest om at undersøge om de to grupper er ens, altså om den sande parameter (p 1, p 2 ) opfylder at p 1 = p 2. Modellen kan f.eks. beskrive incidensen af en bestemt sygdom i to befolkningsgrupper. I epidemiologisk jargon kan p 1 repræsentere sandsynligheden for at få sygdommen i en gruppe individer, der er udsat for en speciel eksposition, f.eks. i form af en smittekilde eller i form af et farligt arbejdsmiljø, mens p 2 repræsenterer sandsynligheden for at få sygdommen i en kontrolgruppe, der ikke har fået den samme eksposition. Hvis p 1 = p 2 har ekspositionen ingen relation til sygdommen. Hvis p 1 > p 2 øger ekspositionen sandsynligheden for at udvikle sygdommen, mens ekspositionen ligefrem beskytter mod sygdommen hvis p 1 < p 2. Når man har et klart formuleret spørgsmål i tankerne, vil man ofte foretrække en parametrisering af modellen, der så at sige har spørgsmålet indbygget. I dette tilfælde handler det om at kunne formulere hvor meget de to grupper eventuelt afviger fra hinanden. Det kunne føre til at man valgte en parametrisering af formen q 1 = p 1 + p 1, q 2 = p 1 p 2, hvor fokus vil ligge på at drage inferens om q 2. Denne parametrisering er ikke specielt heldig, for parametermængden bliver den lidt underlige mængde {(q 1, q 2 ) q q 2 < 1}. Denne mængde er ikke en produktmængde, og det vanskeliggør inferens om interesseparameteren q 2. Et relateret problem er at hvis både p 1 og p 2 er tæt på nul, så bliver

9 48 Kapitel 2. Statistiske modeller q 2 også tæt på nul, uanset om p 1 og p 2 er ens eller ej. Ofte er man interesseret i meget små sandsynligheder, og så nytter det ikke noget at modelbeskrivelsen forhindrer af man kan se forskel. Et heldigere forsøg på en meningsfuld omformulering af modellen tager udgangspunkt i odds for de to grupper, θ 1 og θ 2, og erstatter dem med produkt og brøk, r 1 = θ 1 θ 2, r 2 = θ 1 θ 2. Parameteren r 2 kaldes naturligt nok odds ratio, og forkortes gerne OR. I denne formulering retter interessen sig mod om odds ratio er tæt ved 1 (de to grupper er sammenlignelige), tæt ved 0 (Y-observationerne har den største successandsynlighed) eller numerisk stor (X-observationerne har den største successandsynlighed). Odds ratio er fint i stand til at se forskel på meget små sandsynligheder - når man i medierne læser om at denne eller hin eksposition fordobler sandsynligheden for en eller anden sygdom, er der som regel tale om at en forsker har estimeret OR til 2, og det opfattes som et meningsfuldt (og ofte bekymrende) udsagn, selv om begge grupper gerne har meget små successandsynligheder. Parametriseringen ved hjælp af produkt og brøk af odds giver anledning til de forholdsvis komplicerede punktsandsynligheder r1 r 2 P(X i = 1) = 1 + 1, P(X i = 0) = r 1 r 2 1 +, r 1 r 2 for i = 1,..., n og P(Y j = 1) = r1 /r r 1 /r 2, P(Y j = 0) = r 1 /r 2, for j = 1,..., m. Til gengæld er parametermængden helt uproblematisk: (r 1, r 2 ) (0, ) (0, ). Ud fra et strengt matematisk synspunkt er parametriseringen stadig en smule utilfredsstillende, fordi den giver anledning til en vis asymmetri mellem grupperne, i og med at der er meget mere plads til OR værdier tæt ved uendelig end tæt ved nul. Men dette problem løses nemt ved at tage logaritmer: Hvis ψ 1 og ψ 2 er log odds for de to grupper, reparametriserer vi ved sum og differens, s 1 = ψ 1 + ψ 2 = log r 1, s 2 = ψ 1 ψ 2 = log r 2. Størrelsen s 2 kaldes selvfølgelig log odds ratio, og det spændende spørgsmål er hvorvidt log odds ratio er nul eller ej. Denne parametrisering behandler de to grupper

10 2.2. Eksempler på statistiske modeller 49 symmetrisk, den har parametermængde R 2, hvilket er så pænt som man kan forestille sig, og den tillader en eksplicit formulering af i hvilken grad de to grupper afviger fra hinanden. Det er klart at modellen for møntkast med to mønter kan udvides til møntkast med k mønter, hvis man ønsker at sammenligne k grupper. Tilsvarende er det klart hvordan de simple Poisson- og eksponentialfordelingsmodeller kan udvides fra at beskrive en homogen gruppe til at håndtere sammenligning af k grupper. Eksempel 2.8 I den simple normalfordelingsmodel har man n uafhængige reelle stokastiske variable, der alle er normalfordelt med middelværdi ξ R og varians σ 2 > 0. I visse lærebogseksempler betragter man σ 2 som kendt, og parametermængden er da R. I mere realistiske anvendelser er såvel middelværdi som varians ukendt, og parametermængden er da R (0, ). Denne model adskiller sig fra de tidligere derved at der er to parametre, der ikke optræder symmetrisk. Som regel er interessen kun rettet mod ξ, mens σ 2 kun inddrages i diskussionen i det omfang det er nødvendigt for at kunne udtale sig om ξ. I så fald kalder vi ξ for interesseparameteren, mens σ 2 kaldes en støjparameter eller en nuissance parameter. Eksempel 2.9 I den simple multivariate normalfordelingsmodel har man n uafhængige stokastiske variable X 1,..., X n med værdier i R k, sådan at X i er normalfordelt med middelværdi ξ R k og variansmatrix Σ. Parametermængden er altså produktet af R k og mængden af positivt definitte, symmetriske k k matricer! Der findes en lang række delmodeller. Man kan f.eks. kræve at ξ V hvor V R k er en passende delmængde - ofte et lineært underrum. Samtidig med at man lægger betingelser på middelværdien, kan man også angive en specifik variansstruktur. Man kan f.eks. kræve at Σ skal være på formen Σ = σ

11 50 Kapitel 2. Statistiske modeller for et σ 2 (0, ). Denne variansstruktur betyder at de enkelte komponenter af hvert X i er uafhængige med samme varians - men sikkert med hver sin middelværdi. Mere raffineret kan man kræve at 1 ρ... ρ ρ ρ 1... ρ ρ Σ = σ ρ ρ... 1 ρ ρ ρ... ρ 1 for et σ 2 (0, ) og et ρ ( 1, 1). Her kræver man at komponenterne i X i har samme varians σ 2 og en fast korrelation ρ. Bemærk at ρ i virkeligheden ikke kan varieres i hele ( 1, 1), for hvis ρ er tæt på -1 vil variansmatricen ikke være positivt semidefinit, og den er således ikke er en lovlig variansmatrix. Præcis hvilket ρ er, der er lovlige, afhænger af n. Også i den multivariate normalfordelingsmodel er middelværdien som regel interessantere end variansmatricen. Når man lægger restriktioner på variansstrukturen, er det for at simplificere og effektivisere inferensen om ξ - men det virker vel og mærke kun hvis variansstrukturen er specificeret korrekt. En forkert specificeret variansstruktur er ødelæggende for inferens om ξ, man kan simpelthen ikke stole på resultaterne. Eksempel 2.10 Et mere teoretisk eksempel er ligefordelingen med ukendt støtte. Her er X 1,..., X n uafhængige, identisk fordelte reelle stokastiske variable, alle ligefordelte på (0, θ), hvor θ (0, ) er ukendt. Eksemplet har en noget anden karakter end de hidtil angivne, blandt andet fordi enhver observation straks udelukker et stort antal parametre, nemlig alle de parametre der er mindre end den pågældende observation. Denne egenskab er usædvanlig, og den gør at modellen passer meget dårligt ind i den teori vi vil udvikle - den har noget ubehageligt patologisk over sig. Men disse patologier er for så vidt godartede: man kan estimere det sande θ meget præcist ud fra få observationer, langt præcisere end i sædvanlige modeller. Vi har kun lige skrabet overfladen for de simpleste modeller. Den statistiske litteratur er fuld af højt udviklede modeller med meget specialiserede anvendelser. De modeller vi har angivet her er på den anden side i al deres naivitet hjørnestenen i praktisk statistik. Parametermængden Θ for en parametriseret statistisk model vil sædvanligvis være en pæn åben delmængde af R k for et passende k. Men det er hensigtsmæssigt at tillade

12 2.3. Ikke-parametriske modeller 51 meget generelle parametermængder. Man kan f.eks. tænke sig en parametermængde Θ = {θ 1, θ 2 } bestående af to punkter. I så fald går det statistiske problem ud på at afgøre hvilket af de to sandsynlighedsmål der beskriver data bedst. Denne problemstilling er af teoretisk natur, den ligner ikke de udfordringer man stilles overfor i praksis. Men ved at analysere sådanne skrivebordseksempler kan man ofte få en indsigt, der kan hjælpe også i realistiske eksempler. Et andet eksempel på diskrete parametermængder, er de kombinatoriske strukturer, der er centrale i moderne biologi. Man kan f.eks. forsøge at konstruere et stamtræ for en lille gruppe beslægtede dyrearter på baggrund af målinger af forskellige genetiske markører. Hvis der er k arter involveret, kan parametermængden være alle træer (dvs. sammenhængende grafer uden kredse) med k hjørner, svarende til samtlige mulige stamtræer. Man kan også inkludere mere end k hjørner, svarende til at nogle af stamfædrene er uddøde. 2.3 Ikke-parametriske modeller I den anden ende af spektret har man de meget store parametermængder. I visse tilfælde kan man bruge Pr(R, B), mængden af alle sandsynlighedsmål på R. Eller sådan noget som Θ = { f M + (R, B) f dm = 1} (2.8) hvilket svarer til at vi inkluderer alle sandsynlighedsmål på den reelle akse, der har tæthed med hensyn til Lebesguemålet, i den statistiske model. Der er tradition for at tale om ikke-parametrisk statistik hvis parametermængden er uendeligdimensional. Det er en absurd sprogbrug, for som vi har set, kan alle modeller parametriseres. Derfor er de angiveligt ikke-parametriske modeller præcis lige så parametriserede som de parametriske modeller... Rimeligheden i sprogbrugen ligger i, at man ved meget store parametermængder ofte opgiver at forsøge at identificere parameteren i sig selv. Man fokuserer i stedet på et aspekt af parameteren. Hvis man bruger ν Pr(R, B) som parameter kan man f.eks. forsøge at identificere det sande ν s median, i stedet for at identificere hele det sande ν. Eksempel 2.11 Hvis vi siger at X 1,..., X n er uafhængige, identisk fordelte reelle stokastiske variable med ukendt fordeling µ, så har vi i virkeligheden specificeret en

13 52 Kapitel 2. Statistiske modeller statistisk model med parameter µ Pr(R, B). Dropper vi de stokastiske variable, er modellen (ν µ ) µ Pr(R,B) på Rn, hvor ν µ = µ µ. Hvis vi siger at X 1,..., X n, Y 1,..., Y m er uafhængige, reelle stokastiske variable, hvor X i erne alle har fordeling µ 1 mens Y j erne har fordeling µ 2, så har vi igen specificeret en statistisk model, denne gang parametriseret ved (µ 1, µ 2 ) Pr(R, B) Pr(R, B). I denne ramme kan man f.eks. interessere sig for om µ 1 = µ 2. Det er meget muligt at man kan finde en systematisk egenskab ved X i erne som Y j erne ikke deler, og dermed kan man måske afvise at µ 1 og µ 2 skulle være ens, uden at man behøver at udtale sig alt for præcist om hverken det ene eller det andet sandsynlighedsmål. Eksempel 2.12 Hvis vi siger at X 1,..., X n er uafhængige, identisk fordelte reelle stokastiske variable med en fordeling µ, hvorom vi ved at den har tæthed med hensyn til Lebesguemålet, altså at µ = f m hvor f Θ fra (2.8), så har vi specificeret en statistisk model. Målet med denne model kan være at estimere den sande tæthed f, hvilket kommer ud på at erstatte den empiriske fordelingsfunktion med en passende glat fordelingsfunktion der ligger i nærheden. Man taler om at udglatte observationerne. Medmindre man har rigtigt mange observationer, skal man ikke forvente sig at et sådant tæthedsestimat bliver særlig præcist. Men derfor kan det være en nyttig øvelse alligevel, ikke mindst i forbindelse med indledende eksplorativ dataanalyse. 2.4 Hvad skal man med en model? Ideen med en statistisk model er at parameteren repræsenterer de forhold ved eksperimentet som man gerne vil lære noget om. Parameteren symboliserer en deterministisk kraft i eksperimentet, og man kan derfor håbe at lære noget om parameteren ved at iagttage udfaldet af eksperimentet. Men eksperimentets resultat er ikke bestemt af parameteren alene, der er stokastiske forhold der gør at forskellige realisationer af eksperimentet vil give forskelligt resultat. Derfor opsummeres parameterens indflydelse på eksperimentet bedst i et sandsynlighedsmål.

14 2.4. Hvad skal man med en model? 53 Den videnskabelige interesse bag det udførte eksperiment kan have forskellige ambitionsniveauer, og det afspejler sig i den rolle den statistiske model spiller. Især i hvor nøjagtig en beskrivelse af virkeligheden modellen forventes at have - hvor godt modelfit der er tale om. 1) Bestemmelse af naturkonstanter. Hvis man har en omfattende viden om det undersøgte fænomen, kan den primære usikkerhed dreje sig om den numeriske størrelse af visse parametre. Dette kan være problemstillingen hvis man har udførlige teoretiske modeller for fænomenet, og en højt udviklet eksperimentel teknik, der gør det realistisk at bestemme en parameter med mange betydende cifre. Man kan f.eks. tænke på bestemmelse af forskellige stoffers varmeledningsevne eller lignende størrelser, som man ønsker at bestemme med meget stor præcision for at lade værdierne indgå i tabelværker. Eller man kan tænke på bestemmelse af koncentrationen af bestemte giftstoffer i grundvandet. Her er den statistiske model en integreret del af den videnskabelige problemstilling, og man må forlange et meget fint modelfit. 2) Prediktion. Man kan ønske at prediktere udfaldet af et nyt eksperiment på baggrund af allerede udførte. Man ønsker dels at komme med et konkret bud på det nye udfald, og dels at opstille nogle rammer som man kan være rimeligt sikker på at udfaldet vil holde sig indenfor. Prediktionsønsket er ofte knyttet til et kontrolaspekt, hvor man kan ændre på de eksperimentelle omstændigheder. Den virkelige problemstilling kan således være at man ønsker at få at vide hvordan der skal justeres på de eksperimentelle omstændigheder for at det nye eksperiment giver et resultat indenfor nogle på forhånd fastlagte rammer. Her er den statistiske model ofte noget man tvinger ned over eksperimentet uden den store teoretiske retfærdiggørelse. Men modellen skal være så udbygget at modelfittet er godt, hvis prediktionen skal have nogen værdi. 3) Påvisning af forskelle mellem grupper. Eksperimentet består ofte af en række deleksperimenter, der adskiller sig ved justeringen af de eksperimentelle omstændigheder. Herunder er vi specielt interesserede i en konkret faktor og dens mulige indvirkning på eksperimentet. De eksperimentelle enheder kan være ens, bortset fra den konkrete faktor, eller de kan være forskellige - i det sidste tilfælde må man forholde sig til effekten af andre faktorer, og man må korrigere for disse effekter. Hvis målet er at undersøge om den konkrete faktor overhovedet har indvirkning på eksperimentet, så er problemstillingen som regel kun sporadisk forstået teoretisk, og den statistiske model har begrænset troværdighed. Den er at betragte som en skabelon under diskussionen, formentlig med begrænset modelfit. Til gengæld skal skabelonen være robust overfor rystelser: De konklusioner som modellen tillader en at drage, skal ikke være følsomme overfor om modellens forudsætninger er opfyldt til punkt og prikke.

15 54 Kapitel 2. Statistiske modeller Tabel 2.1: Data fra eksperimentet fra eksempel En forsøgsperson har fået målt sin reaktionstid 50 gange - tiden er angivet i millisekunder. Eksempel 2.13 I et eksperiment, afholdt i forbindelse med kurset Statistik 1TS 2002, har man gentagne gange målt reaktionstiden for en bestemt forsøgsperson. Et signal blev afgivet efter en variabel stand by periode, og et meget nøjagtigt ur registrerede tidsrummet fra signalet blev afgivet til forsøgspersonen havde trykket på en knap. I tabel 2.1 er angivet 50 successive observationer. Antal Reaktionstid (ms) Figur 2.2: Et histogram over reaktionstidsmålingerne fra eksempel Et histogram af disse data er optegnet på figur 2.2. Man ser hovedparten af observationerne koncentreres i området ms, men der er både større og mindre observationer, fra 215 ms til 375 ms. Hvad skal man på denne baggrund mene om forsøgspersonens reaktionstid? Citationstegnene er nødvendige, for der er en betydelig variation i målingerne. Man kan vælge at hæfte sig ved de mindste målinger, ved

16 2.4. Hvad skal man med en model? 55 gennemsnitlige målinger eller ved de største målinger, og hvert fokus kan være relevant i forskellige sammenhænge. Men den egentlige reaktionstid er jo totaliteten af målingerne, og for at forstå denne totalitet, er det oplagt at prøve at fitte en tæthed til data, en tæthed med en eller måske to-tre parametre. De estimerede parametre kan så repræsentere forsøgspersonens reaktionstid. For den angivne data kan man få et ganske fint fit frem, ved at bruge en normalfordeling med middelværdi 273 og standardafvigelse Vores forsøgspersons reaktionstid kan nu let sammenlignes med andre personers - hvis disse personers reaktionstid vel og mærke også kan beskrives med en normalfordeling med standardafvigelse Hvis sammenligningspersonerne har andre standardafvigelser, bliver sammenligningen vanskeligere, for så giver det ikke mening at tale om hvem der er hurtigst. Og problemerne mangedobles hvis sammenligningspersonernes reaktionstid slet ikke kan beskrives ved en normalfordeling! Hele øvelsen giver kun mening hvis man kan få den samme klasse af fordelinger til at fitte alle personer, for ellers opsummeres personernes egenskaber ikke i parametrene. Eksempel 2.14 De britiske sundhedsmyndigheder forsøgte i begyndelsen af 1993 at få et overblik over omfanget af AIDS i England og Wales. Interessen var rettet mod de egentligt AIDS-syge, ikke mod de HIV-smittede. De praktiserende læger er forpligtiget til indberette alle AIDS-tilfælde til de centrale myndigheder, men der går ofte et betydeligt tidsrum fra diagnosen stilles, til tilfældet indberettes. Datamaterialet så ud som i tabel 2.2. For at opgøre epidemiens omfang må man komme med et meningsfuldt skøn over antallet af diagnosticerede, men endnu ikke indberettede tilfælde. Det drejer sig givetvis om flere hundrede patienter. Det er ikke så let at have en mening om hvor mange det drejer sig om, for det involverer både et skøn over hvordan indberetningen typisk forsinkes og et skøn over med hvilken hastighed epidemien spreder sig. Vi har således at gøre med et typisk eksempel på et prediktionsproblem, hvor man udfra visse observationer må gætte på hvordan endnu ikke gjorte observationer vil falde. En simpel model vil gå ud fra at forsinkelsesfrekvensen er ens fra år til år. Hvis der et år er 20% der afrapporteres øjeblikkeligt, 50% med en forsinkelse på ét kvartal og 30% med en forsinkelse på to kvartaler, så gælder noget lignende nok næste år, skønt det samlede antal syge i de to år ikke er ens. En model der baserer sig på denne ide, men som tillader at procentsatserne varierer en anelse fra år til år, er den multiplikative Poissonmodel, hvor antallet X i j af tilfælde, der er diagnosticeret i kvartal i,

17 56 Kapitel 2. Statistiske modeller Diagnose kvartal Forsinkelse i afrapportering (kvartaler) År Kvartal I alt Tabel 2.2: De indrapporterede AIDS-tilfælde i England og Wales i begyndelsen af I forsinkelse på 0 kvartaler betyder at tilfældet var indberettet mindre end 30 dage efter at diagnosen var stillet. og afrapporteret med j kvartalers forsinkelse følger en Poissonfordeling med middelværdi E X i j = e α i+β j. Parametrene i denne model er således 20 α er, ét for hvert kvartal i undersøgelsen, og 15 β er, svarende til en forsinkelse på 0, 1,..., 14+ kvartaler. Modellen er en hel del mere indviklet end en simpel Poissonmodel med k grupper. I dette tilfælde har vi grupper, hver gruppe med sin egen Poissonfordeling og kun bestående af én observation. Til gengæld deler de forskellige grupper parametre, på en måde der gør at man på baggrund af de faktiske observationer kan have en mere

18 2.4. Hvad skal man med en model? 57 eller mindre fornuftig mening om de endnu ikke indrapporterede tilfælde. Modellen er dog åben for en hel del kritik. Den tillader ikke at procentsatserne i forsinkelsen af indrapporteringerne ændres nævneværdigt fra år til år. Ved en sygdom som AIDS kunne man med god grund forestillesig at den offentlige opmærksomhed gør at indrapporteringen går hurtigere og hurtigere. Modellen tager heller ikke hensyn til eventuel sæsonvariation i indrapporteringen. Endelig skal det nævnes at den faktiske variation i procentsatserne for indrapportering er langt større end hvad den multiplikative Poissonmodel kan gøre rede for. Eksempel 2.15 I 2000 gennemførte man på kurset Statistik 1A på Københavns Universitet et eksperiment hvor man registrerede hvor lang tid en række studerende var om at lægge et bestemt puslespil. I eksperimentet deltog studerende fra forskellige studieretninger, og ideen bag eksperimentet var at benytte løsningstiderne for puslespillet som et proxymål for de forskellige faggruppers intelligens. De studerende fik højst fem minutter (dvs. 300 sekunder) til at lægge puslespillet, og lykkedes det ikke indenfor dette tidsrum, blev den pågældende student censureret. Puslespillet viste sig at være ganske vanskeligt, og omkring 33% af de studerende censureredes. De målte tider for mat-øk studerende og aktuar studerende er angivet i tabel 2.3. aktuar mat-øk Tabel 2.3: Data fra puslespilseksperimentet i eksempel Løsningstiden er angivet i sekunder. Observationen 300 betyder at observationen blev censureret, altså at den studerende ikke løste puslespillet på den berammede tid. Meningen med undersøgelsen var som sagt at sammenligne de to faggruppers intelligens. Det er klart at de faktiske tider ikke betyder noget for denne sammenligning - de er primært et udtryk for sværhedsgraden af det anvendte puslespil. Så de faktiske målinger betyder ingenting, det er kun forskellen mellem de to grupper der er relevant. Det er også klart at sammenkoblingen af intelligens og løsningstider for et puslespil

19 58 Kapitel 2. Statistiske modeller er enddog meget grovkornet. Eksperimentet er på ingen måde bakket op af psykologiske teorier om intelligens. På den anden side: hvis der er en dokumenterbar forskel på de to grupper, så har man fundet noget interessant, og det er svært at finde på anden fornuftig forklaring end noget intelligensrelateret - bryder man sig ikke om at kalde det generel intelligens, så kan man sikkert acceptere at kalde det kombinatorisk intelligens eller lignende. Et praktisk problem i denne sammenhæng udgøres af de mange censureringer, der gør at eksperimentet på én gang har en kontinuert og en diskret karakter. En simpel model kunne være at den eventuelt uobserverede tid Y til puslespillet faktisk er løst, er eksponentialfordelt med parameter λ (der hører så et λ til hver faggruppe). Den observerede tid X er X = min{y, 300}. Da har X en veldefineret fordeling, der blot ikke hører til standardfordelingerne. Fordelingsfunktionen for denne fordeling med λ = 264 er optegnet i figur 2.3 sammen med den empiriske fordelingsfunktion for aktuargruppen. Der er ikke tale om noget imponerende modelfit. PSfrag replacements P(X x) x Figur 2.3: Fordelingsfunktionen for en eksponentialfordeling med middelværdi 264, skåret af ved 300. Hertil er med stiplede linier tilføjet den empiriske fordelingsfunktion for puslespilsmålingerne for aktuargruppen fra eksempel 2.15.

20 2.5. Generelle inferensmæssige spørgsmål Generelle inferensmæssige spørgsmål Når man skal fortolke et eksperiment, så skal man holde tungen meget lige i munden, for ikke at blande en lang række næsten enslydende spørgsmål. Eksempel 2.16 Lad os betragte et diagnostisk test for en bestemt sygdom - man kan f.eks. tænke på resultatet af en screeningsundersøgelse. Den diagnostiske test er ikke ufejlbarlig. Den overser 5% af de tilfælde hvor sygdommen faktisk er til stede (man taler om falsk negative testresultater), mens den omvendt hævder at 2% af de raske patienter har sygdommen (såkaldt falsk positive testresultater). En patient undersøges, og den diagnostiske test viser et positivt resultat. Det er vigtigt at skelne mellem tre forskellige spørgsmål: 1) Tror vi at patienten har sygdommen? 2) Skal vi behandle patienten for sygdommen? 3) Hvilken evidens giver undersøgelsen for at patienten er syg? Tror vi på at patienten har sygdommen? Det kommer an på hvor udbredt sygdommen er i befolkningen. Hvis sygdommen er meget sjælden, vil hovedparten af de fundne positive resultater være falsk positive. Hvis f.eks. kun 1 promille af befolkningen har sygdommen, så vil 19 ud af 20 positive testresultater være falsk positive. Den naturlige reaktion på et positivt testresultat utvivlsomt være: det er nok endnu en falsk positiv. Hvis sygdommen er mere udbredt, vil hovedparten af de fundne positive testresultater derimod skyldes sygdom. Hvis 10% af befolkningen har den pågældende sygdom, så vil 17 ud af 20 positive testresultater skyldes at patienten faktisk er syg. Skal vi behandle patienten for sygdommen? Det kommer an på om sygdommen er farlig, om behandlingen er effektiv og om den har bivirkninger. Man må stille faren for at overbehandle raske patienter op mod faren for at underbehandle syge patienter. Hvis sygdommen er dødelig, behandlingen effektiv og uden bivirkninger, så vil man typisk behandle patienten med det positive testresultat, uanset om man tror på at vedkommende er syg eller ej. Måske er behandlingen endda så effektiv og skånsom (en sjælden kombination) at man vælger at behandle alle patienter uanset testresultat - så kalder man det gerne forebyggelse i stedet for det belastede ord behandling, der signalerer ubehag og bivirkninger

21 60 Kapitel 2. Statistiske modeller Tre forskellige statistiske skoler fokuserer på hver sit af de nævnte spørgsmål. Bayesianske statistikere fokuserer på spørgsmål 1, og forsøger at inkorporere så meget forhåndsviden som muligt i den statistiske analyse. Frekventistiske statistikere forsøger selvfølgelig også at forholde sig til forhåndsviden, men det sker gerne i en konkluderende fase efter den statistiske analyse. Der er to slags frekventistiske paradigmer. Indenfor Neyman-Pearson paradigmet, og især den heraf afledte decisionteori, beskæftiger man sig primært med spørgsmål 2. Man opstiller nyttefunktioner der repræsenterer nytten af de forskellige handlemuligheder, og opsøger den handlemulighed, der på baggrund af de observerede data giver størst mulig forventet nytte i fremtiden. En række af de begreber, der behandles i disse noter - i særdeleshed de mest matematiserede - giver bedst mening indenfor Neyman-Pearson paradigmet, men man må erkende at der ofte er noget verdensfjernt over ideen om at man kan angive eksplicitte nyttefunktioner. Det tredie paradigme føres tilbage til Fisher, og beskæftiger sig udelukkende med spørgsmål 3. I det aktuelle tilfælde ville man mene at brøken P(Positiv test Syg patient) P(Positiv test Rask patient) repræsenterer eksperimentets evidens for at patienten er syg. Tallet siger ikke i sig selv noget om hvorvidt patienten er syg, men det repræsenterer hvor meget man må ændre sin forventning om at man står med en syg patient, i det øjeblik man får det positive testresultat. Hvordan denne brøk kommer til verden, og hvordan den skal fortolkes, er hovedpunkterne i dette notesæt, der i alt væsentligt abonnerer på Fishers synspunkter. Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). Når man vil drage inferens om θ på baggrund af observationen x X, så kan vi principielt identificere en række forskellige spørgsmål: 1) Estimation. Hvilket θ Θ beskriver bedst observationen x? 2) Konfidensområder. Hvilke θ Θ beskriver observationen x næsten lige så godt som det bedste? 3) Hypotesetest. Hvis Θ 0 er en specielt udvalgt delmængde, kan vi så med rimelighed formode at det sande θ ligger i Θ 0?

22 2.6. Interesseparametre 61 Et fjerde emne, som egentlig ikke falder ind under overskriften inferens, men som man alligevel må stille sig i den forbindelse, er spørgsmålet om modelkontrol: er der overhovedet et θ Θ der på tilfredsstillende vis forklarer observationen? Disse fire spørgsmål er vævet ind i hinanden, og man besvarer dem i høj grad i sammenhæng. De blander alle et estimationsaspekt og et konkordansaspekt. Ikke alle modeller er lige effektive til at besvare disse spørgsmål. Nogle modeller har det på den måde at uanset hvilken parameter man ser på, angiver det resulterende sandsynlighedsmål mere eller mindre samme område i repræsentationsrummet X, som der hvor observationerne bør falde. I så fald vil vi sige at modellen har ringe parameterfølsomhed. Den modsatte situation er at hver parameter udpeger sit helt eget rimelighedsområde i X, altså at modellen har stor parameterfølsomhed. Jo større parameterfølsomhed, jo større viden om de kommende observationer får man af at kende den sande parameter. Disse begreber er forsøg illustreret på figur 2.4. En helt central pointe er, at denne slutningsvej kan vendes om: jo større parameterfølsomhed, jo mere får man at vide om parameteren af at få kendskab til observationerne! En model, der effektivt kan omsætte observationer til viden om parameteren, er altså en model med stor parameterfølsomhed. Vi skal senere støde på forskellige kvantificering af dette løse parameterfølsomhedsbegreb, der gerne benytter ordet information, og disse informationsbegreber er det helt centrale værktøj, når man skal beskrive modellens iboende kraft til at besvare ovenstående tre inferensmæssige spørgsmål. Om man i praksis evner at udnytte denne kraft, er anden sag. 2.6 Interesseparametre Lad P være en statistisk model på (X, E). En parametrisering (ν θ ) θ Θ af P siges at være injektiv hvis ν θ1 ν θ2 for alle θ 1 θ 2. I modsat fald siger vi at modellen er overparametriseret. I teoretiske overvejelser arbejder man som regel med injektive parametriseringer, men i praksis er mange modeller overparametriseret. Det volder færre problemer end man måske umiddelbart skulle tro. Der findes som regel let identificerbare delmængder Θ 0 Θ, sådan at (ν θ ) θ Θ0 er en injektiv parametrisering af den samme model. Dog er der ofte en hel del af den slags delmængder, alle med noget vist vilkårligt over sig, og det er ikke oplagt hvilken delmodel man skal benytte. Man taler om at der skal lægges et bånd på

23 62 Kapitel 2. Statistiske modeller PSfrag replacements X PSfrag replacements X Figur 2.4: Denne tegning skal anskueliggøre begrebet parameterfølsomhed. På begge tegninger er simuleret en række observationer fra sandsynlighedsmålene svarende til to forskellige parametre i en vis model, markeret med to plotsymboler. På tegningen til venstre ligger de to punktskyer stort set oven i hinanden, og det kan derfor være svært på baggrund af en enkelt observation at afgøre om man skal tro mest på den ene eller den anden parameter. På tegningen til højre ligger de to observationsskyer forholdsvis klart separeret, og man kan i de fleste tilfælde danne sig et relativt klart billede af hvilken parameter, der har givet anledning til en konkret observation. parameteren før den kan identificeres, og der er adskillige konventioner for hvordan sådanne bånd vælges. Eksempel 2.17 I den multiplikative Poissonmodel, som vi stødte på i eksempel 2.14, har man et rektangulært skema af stokastiske variable, X i j, i = 1,..., n, j = 1,..., m, eller eventuelt - som i eksempel kun et delskema heraf, og antagelsen er at variablene er uafhængige, Poissonfordelte med middelværdi EX i j = λ i j = e α i+β j. Fordelingen af hele skemaet af stokastiske variable er fastlagt hvis man kender (α 1,..., α n, β 1,..., β m ) R n+m. I rammen af eksempel 2.14 fortolker vi α i som en årseffekt, der styrer hvor mange syge der diagnosticeres i år i, mens β j fortolkes som en forsinkelseseffekt, der essentielt styrer om et diagnosticeret sygdomstilfælde, der ikke er indrapporteret efter j kvartaler, får udsat indrapporteringen endnu et kvartal.

24 2.6. Interesseparametre 63 Uanset hvor naturlig denne model forekommer, så er den klart overparametriseret. For ethvert c R vil parameteren (α 1 + c,..., α n + c, β 1 c,..., β m c) give nøjagtigt samme Poissonfordelinger som (α 1,..., α n, β 1,..., β m ). Et bånd der sikrer at alle parametrene kan identificeres er at kræve at α 1 = 0. Med dette bånd lægger år 1 en slags referenceniveau, og de øvrige α i er fortolkes som forskelle mellem år 1 og år i. Tilsvarende kan man fiksere et vilkårligt andet α i eller β j til nul - eller for den sags skyld til et hvilket som helst niveau, hvis man kun interesserer sig for at få identificerbare parametre, men er ligeglad med deres fortolkning. Et andet, mindre gennemskueligt bånd er at kræve at n α i = 0. i=1 Med denne konvention fortolkes de enkelte α i er som forskelle mellem år i og et fælles referenceniveau. Hvordan dette fælles niveau skal forstås, er ikke helt klart, det er bestemt af β j erne. For at hugge den knude over, og i det hele taget indføre symmetri mellem de to inddelingskriterier, indfører man som regel en ekstra overparametrisering, log λ i j = γ + α i + β j, i = 1,..., n, j = 1,..., m. Herefter kan man gøre i = 1, j = 1, til et referenceniveau ved α 1 = β 1 = 0. På den måde kommer γ til at svare til indrapporteringsniveauet i år 1 uden forsinkelse overhovedet, og α i erne og β j erne repræsenterer forskelle til dette niveau. Eller man kan kræve at n m α i = β j = 0, i=1 j=1 hvorefter γ må forstås som et fælles niveau, som α i erne og β j erne repræsenterer forskelle til.

25 64 Kapitel 2. Statistiske modeller Lad P være en statistisk model på (X, E). En parameterfunktion er en afbildning τ : P A fra modellen ind i en vilkårlig mængde A. Hvis P har en injektiv parametrisering (ν θ ) θ Θ hvor Θ R k så er en naturlig parameterfunktion koordinatprojektionen ned på førstekoordinaten, θ = (θ 1,..., θ k ) θ 1. Tilsvarende kunne man bruge de øvrige koordinatprojektioner. De enkelte komponenter af en parameter udgør således parameterfunktioner. Man bruger ofte den omvendte terminologi og taler om enhver parameterfunktion som en parameter. Det kan virke noget forvirrende, fordi den pågældende parameter kan være en indviklet funktion af det man i øvrigt kalder parameteren. Og endnu mere forvirrende er det måske i ikke-parametriske sammenhænge. Eksempel 2.18 I møntkastmodellen med to mønter, med successandsynlighed p 1 hhv. p 2, er det interessante spørgsmål ofte om p 1 = p 2, og kun i mindre grad hvad deres eventuelle fælles værdi måtte være. Man kan derfor fokusere på parameterfunktionen log odds ratio, givet ved ψ(p 1, p 2 ) = log p 1/(1 p 1 ) p 2 /(1 p 2 ), sådan som vi diskuterede det i eksempel 2.7. I det eksempel brugte vi log odds ratio som udgangspunkt for en komplet reparametrisering af modellen for møntkast med to mønter - men man kan også vælge at bibeholde den originale parametrisering, og så studere log odds ratio som en parameterfunktion. Som i møntkastmodellen med to mønter, kan de videnskabeligt interessante spørgsmål om det udførte eksperiment ofte besvares hvis man finder værdien af en vis parameterfunktion. De øvrige aspekter af modellen påkalder sig måske ikke samme opmærksomhed. Den udvalgte parameterfunktion omtales da som interesseparameteren. Hvis man er heldig, kan man finde en parametrisering af modellen (ν θ ) θ Θ sådan at Θ er en delmængde af en produktmængde A B, og hvor projektion θ = (ψ, κ) ψ simpelthen er den relevante interesseparameterfunktion. I så tilfælde opfattes κ naturligvis som en nuissance parameter. Men i andre tilfælde må man fastholde en mindre hensigtsmæssig parametrisering, og forsøge at sige noget om interesseparameteren ved en indirekte tilgang.

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål Statistisk model Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål på (X, E). Modellen er parametriseret hvis der findes en parametermængde Θ og

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/23 Statistisk hypotese PSfrag replacements

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/26 PSfrag replacements Statistisk

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål Hvad vi mangler fra onsdag Momenter som deskriptive størrelser Sandsynlighedsmål er komplicerede objekter de tildeler numeriske værdier til alle hændelser i en σ-algebra. Vi har behov for simplere, deskriptive

Læs mere

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag. Hvad vi mangler fra onsdag Vi starter med at gennemgå slides 34-38 fra onsdag. Slide 1/17 Niels Richard Hansen MI forelæsninger 6. December, 2013 Momenter som deskriptive størrelser Sandsynlighedsmål er

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20. Foldning af sandsnlighedsmål Lad µ og ν være to sandsnlighedsmål på (R, B). Fortolkning Lad φ : R R være φ(, ) = + for (, ) R. Lad X og Y være to reelle stokastiske variable defineret på (Ω, F, P). Definition

Læs mere

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R. Kombinant Lad (ν θ ) θ Θ være en statistisk model på (X, E). En kombinant er en afbildning hvor (Y, K) er endnu et målbart rum. R : X Θ Y Typisk taler vi om reelle kombinanter, hvor Y = R. Som regel forsøger

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

Eksamen 2014/2015 Mål- og integralteori

Eksamen 2014/2015 Mål- og integralteori Eksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål Ved bedømmelsen indgår de spørgsmål med samme vægt

Læs mere

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. Estimation Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. En estimator er en gætteregel.. p.1/22 Estimation X acements

Læs mere

Pointen med Funktioner

Pointen med Funktioner Pointen med Funktioner Frank Nasser 0. april 0 c 0080. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette er en

Læs mere

Sandsynlighedsteori. Sandsynlighedsteori. Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et. Et Bayesiansk argument

Sandsynlighedsteori. Sandsynlighedsteori. Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et. Et Bayesiansk argument Sandsynlighedsteori Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et sandsynlighedsmål, (, E, ν). Et eksperiment beskrives af et udfaldsrum udstyret med et sandsynlighedsmål,

Læs mere

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m. 1 Uge 11 Teoretisk Statistik 8. marts 2004 Kapitel 3: Fordeling af en stokastisk variabel, X Kapitel 4: Fordeling af flere stokastiske variable, X 1,,X m (på en gang). NB: X 1,,X m kan være gentagne observationer

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

1 Palm teori. Palm teori 1

1 Palm teori. Palm teori 1 Palm teori 1 1 Palm teori Lad X = {X(t)} t 0 være en stokastisk proces defineret på et måleligt rum (Ω, F), og lad T = {T n } n N0 være en voksende følge af ikke-negative stokastiske variable herpå. Vi

Læs mere

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30 Områdeestimator X (Ω, F) (X, E) x 01 01 P θ ν θ θ Θ 0000 1111 000000 111111 0000 1111 0000 1111 C(x) En områdeestimator er en afbildning C : X P(Θ).. p.1/30 Konfidensområde En områdestimator C : X P(Θ)

Læs mere

Et eksperiment beskrives af et udfaldsrum udstyret med et. alle mulige resultater af eksperimentet

Et eksperiment beskrives af et udfaldsrum udstyret med et. alle mulige resultater af eksperimentet Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et sandsynlighedsmål, (X, E, ν). Udfaldsrummet X indeholder alle mulige resultater af eksperimentet men ofte også yderligere elementer

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

En martingalversion af CLT

En martingalversion af CLT Kapitel 11 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,

Læs mere

så siges modellen at være! domineret af µ. Hvis modellen er parametriseret P =

så siges modellen at være! domineret af µ. Hvis modellen er parametriseret P = Kapitel 3 Likelihoodfunktionen Lad P være en statistisk model på (X, E). Hvis der findes et σ-endeligt mål µ på (X, E), således at ν µ for alle ν P, så siges modellen at være! domineret af µ. Hvis modellen

Læs mere

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 30. maj 2016 Kursus nr : (navn) (underskrift) (bord nr) DANMARKS TEKNISKE UNIVERSITET Side af 7 sider Skriftlig prøve, den: 0. maj 206 Kursus nr : 02405 Kursus navn: Sandsynlighedsregning Varighed : 4 timer Tilladte hjælpemidler: Alle Dette sæt er besvaret

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Reeksamen 2014/2015 Mål- og integralteori

Reeksamen 2014/2015 Mål- og integralteori Reeksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål. Ved bedømmelsen indgår de spørgsmål med samme vægt.

Læs mere

Uge 10 Teoretisk Statistik 1. marts 2004

Uge 10 Teoretisk Statistik 1. marts 2004 1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag I formiddag: Tætheder og fordelingsfunktioner kort resume fra i mandags og et par eksempler mere om sammenhængen

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag SaSt2 (Uge 6, onsdag) Middelværdi og varians 1 / 18 Program I formiddag: Tætheder og fordelingsfunktioner kort resume

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Lineære normale modeller (4) udkast

Lineære normale modeller (4) udkast E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Estimation Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev herefter

Læs mere

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl Landmålingens fejlteori Lektion 4 Vægtet gennemsnit Fordeling af slutfejl - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/36 Estimation af varians/spredning Antag X 1,...,X n stokastiske

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Hvorfor er normalfordelingen så normal?

Hvorfor er normalfordelingen så normal? Hvorfor er normalfordelingen så normal? Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet October 24, 2018 normalfordelingen så normal? October 24, 2018 1 / 13 Højde af kvinder Histogram

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Uafhængighed og reelle transformationer Helle Sørensen Uge 8, mandag SaSt2 (Uge 8, mandag) Uafh. og relle transf. 1 / 16 Program I dag: Uafhængighed af kontinuerte

Læs mere

standard normalfordelingen på R 2.

standard normalfordelingen på R 2. Standard normalfordelingen på R 2 Lad f (x, y) = 1 x 2 +y 2 2π e 2. Vi har så f (x, y) = 1 2π e x2 2 1 2π e y2 2, og ved Tonelli f dm 2 = 1. Ved µ(a) = A f dm 2 defineres et sandsynlighedsmål på R 2 målet

Læs mere

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/41 Landmålingens fejlteori - lidt om kurset

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Definition. Definitioner

Definition. Definitioner Definition Landmålingens fejlteori Lektion Diskrete stokastiske variable En reel funktion defineret på et udfaldsrum (med sandsynlighedsfordeling) kaldes en stokastisk variabel. - kkb@math.aau.dk http://people.math.aau.dk/

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt. Sammenhængsanalyser Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt. rygevaner som 45 årig * helbred som 51 årig Crosstabulation rygevaner

Læs mere

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Gruppeteori. Michael Knudsen. 8. marts For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel.

Gruppeteori. Michael Knudsen. 8. marts For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel. Gruppeteori Michael Knudsen 8. marts 2005 1 Motivation For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel. Eksempel 1.1. Lad Z betegne mængden af de hele tal, Z = {..., 2, 1, 0,

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen 1 Velkommen til kurset Teoretisk Statistik Lærer: Niels-Erik Jensen Plan for i dag: 1. Eks: Er euro'en skæv? 4. Praktiske informationer 2. Eks: Regressionsmodel (kap. 1) 5. Lidt om kursets indhold 3. Hvad

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Opgaver til kapitel 3

Opgaver til kapitel 3 Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Asymptotisk testteori

Asymptotisk testteori Kapitel 8 Asymptotisk testteori Vi vil nu beskæftige os med den asymptotiske teori for estimation under pæne hypoteser og for test af disse hypoteser. Vi skal især undersøge det forhold at hvis den fulde

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Nanostatistik: Opgaver

Nanostatistik: Opgaver Nanostatistik: Opgaver Jens Ledet Jensen, 19/01/05 Opgaver 1 Opgaver fra Indblik i Statistik 5 Eksamensopgaver fra tidligere år 11 i ii NANOSTATISTIK: OPGAVER Opgaver Opgave 1 God opgaveskik: Når I regner

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed... Indhold 1 Sandsynlighed 1 1.1 Sandsynlighedsbegrebet................................. 1 1.2 Definitioner........................................ 2 1.3 Diskret fordeling.....................................

Læs mere

Estimation. Kapitel 4

Estimation. Kapitel 4 Kapitel 4 Estimation Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). I dette kapitel skal vi diskutere, hvorledes man ud fra en given observation x X kan give et skøn over værdien af

Læs mere

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 29. maj 2015 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 29. maj 2015 Kursus nr : (navn) (underskrift) (bord nr) DANMARKS TEKNISKE UNIVERSITET Side af 7 sider Skriftlig prøve, den: 9. maj 05 Kursus nr : 0405 Kursus navn: Sandsynlighedsregning Varighed : 4 timer Tilladte hjælpemidler: Alle Dette sæt er besvaret af:

Læs mere

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t. t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program (8.15-10): 1. repetition: fordeling af observatorer X, S 2 og t. 2. konfidens-intervaller, hypotese test, type I og type II fejl, styrke,

Læs mere

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 33B, Rum 9 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail: pbac@dtu.dk Efterår

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

CIVILINGENIØREKSAMEN Side 1 af 16 sider. Skriftlig prøve, den: 27. maj 2011 Kursus nr : (navn) (underskrift) (bord nr)

CIVILINGENIØREKSAMEN Side 1 af 16 sider. Skriftlig prøve, den: 27. maj 2011 Kursus nr : (navn) (underskrift) (bord nr) CIVILINGENIØREKSAMEN Side af 6 sider Skriftlig prøve, den: 27. maj 20 Kursus nr : 02405 Kursus navn: Sandsynlighedsregning Tilladte hjælpemidler: Alle Dette sæt er besvaret af: (navn) (underskrift) (bord

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Statistisk Model Indhold Binomialfordeling Sandsynlighedsfunktion Middelværdi og spredning 1 Aalen: Innføring i statistik med medisinske eksempler

Læs mere

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Teoretisk Statistik, 16. februar Generel teori,repetition

Teoretisk Statistik, 16. februar Generel teori,repetition 1 Uge 8 Teoretisk Statistik, 16. februar 2004 1. Generel teori, repetition 2. Diskret udfaldsrum punktssh. 3. Fordelingsfunktionen 4. Tæthed 5. Transformationer 6. Diskrete vs. Kontinuerte stokastiske

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 5. undervisningsuge, onsdag

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Elementær Matematik. Mængder og udsagn

Elementær Matematik. Mængder og udsagn Elementær Matematik Mængder og udsagn Ole Witt-Hansen 2011 Indhold 1. Mængder...1 1.1 Intervaller...4 2. Matematisk Logik. Udsagnslogik...5 3. Åbne udsagn...9 Mængder og Udsagn 1 1. Mængder En mængde er

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R Helle Sørensen Uge 6, mandag SaSt2 (Uge 6, mandag) Tætheder og kont. fordelinger 1 / 19 Program Velkommen I dag:

Læs mere

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable 2.1 Sandsynlighedsbegrebet............................... 1 2.1.1

Læs mere

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 19. december 2018 Kursus nr : (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 19. december 2018 Kursus nr : (navn) (underskrift) (bord nr) DANMARKS TEKNISKE UNIVERSITET Side af 7 sider Skriftlig prøve, den: 9. december 08 Kursus nr : 0405 Kursus navn: Sandsynlighedsregning Varighed : 4 timer Tilladte hjælpemidler: Alle Dette sæt er besvaret

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med Repetition: Varians af linear kombination Landmålingens fejlteori Lektion 5 Fejlforplantning - rw@math.aau.dk Antag X 1, X,..., X n er uafhængige stokastiske variable, og Y er en linearkombination af X

Læs mere

Betingning med en uafhængig variabel

Betingning med en uafhængig variabel Betingning med en uafhængig variabel Sætning Hvis X er en reel stokastisk variabel med første moment og Y er en stokastisk variabel uafhængig af X, så er E(X Y ) = EX. Bevis: Observer at D σ(y ) har formen

Læs mere

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger Introduktion til Statistik Forelæsning 2: og diskrete fordelinger Oversigt 1 2 3 Fordelingsfunktion 4 Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere