Områdeestimation. Kapitel 7

Størrelse: px
Starte visningen fra side:

Download "Områdeestimation. Kapitel 7"

Transkript

1 Kapitel 7 Områdeestimation Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). I kapitel 4 definerede vi såkaldte punktestimatorer af parameteren θ. Disse estimatorer fungerer sådan at vi på baggrund af en observation x X gætter på en helt bestemt parameterværdi θ = t(x) som vores bud på den sande parameter. En mere forsigtig tilgang kunne være at gætte på en større mængde af mulige parametre, hvori vi regner med at finde den sande parameter. Det fører til definitionen af en områdeestimator, som er en afbildning C : X P(Θ). Til hvert punkt x X knytter vi altså en delmængde C(x) Θ. Principielt er det lovligt at C(x) = for visse x. Det betyder at man for sådanne observationer ikke har tiltro til nogen parameter overhovedet - hvis man gør en observation af den karakter, fører det naturligt til at man kasserer modellen. Hvis vi udfører forsøget med resultat x X, så kan vi finde det tilhørende områdeestimat C(x). Udfører vi forsøget en gang til, får vi en anden observation x X og dermed et andet områdeestimat C(x ). Vi ser at områdeestimatet er stokastisk, det er en transformation af den gjorte observation. For at understrege dette synspunkt kan vi skrive C(X). Der er dog ikke tale om nogen stokastisk variabel i sædvanlig forstand: C(X) har værdier i en mængde P(Θ) af mængder, og sådan et rum har ikke umiddelbart nogen σ-algebra. 201

2 202 Kapitel 7. Områdeestimation 7.1 Konfidensområder Lad som før (ν θ ) θ Θ være en statistisk model på (X, E), og lad C(X) være en områdeestimator for θ. Når man udfører eksperimentet et antal gange, må man forvente at C(X) vil indeholde den sande parameter i visse tilfælde og ikke i andre. Jo oftere C(X) indeholder den sande parameter, jo bedre er områdeestimatoren. Funktionen θ P θ (θ C(X)) (7.1) kaldes områdeestimatorens dækningsgrad. Vi siger at områdeestimatoren C er et (1 α)-konfidensområde (eller sikkerhedsområde) hvis dækningsgraden systematisk er større end 1 α, altså hvis P θ (θ C(X)) 1 α for alle θ Θ. (7.2) Hvis man skal sammenligne forskellige (1 α)-konfidensområder, vil man som regel foretrække dem for hvilke der gælder lighedstegn i (7.2) for alle θ Θ, eller i hvert fald for så mange θ som muligt. Ikke fordi det er dårligt med et ulighedstegn, tværtimod, men fordi man i så fald kommer til at undervurdere den faktiske dækningsgrad, når man kun hæfter sig ved den nedre grænse 1 α. Det er meget vigtigt at (7.2) læses rigtigt. Hvis α = 0.05 er påstanden, at der på forhånd er 95% sandsynlighed for at observere et konfidensområde der indeholder den sande parameter. Eller: hvis man udfører forsøget mange gange, vil den sande parameter ligge i det observerede konfidensområde i 95% af tilfældene. Påstanden er derimod ikke at man efter at have observeret x X kan sige at der er 95% sandsynlighed for at C(x) indeholder den sande parameter. Der er udkæmpet akademiske krige om disse formuleringer, og det er vigtigt at forstå forskellen: hvis man har gjort en observation x, så er C(x) entydigt og deterministisk bestemt. Måske er det sande θ med i C(x) og måske er det ikke med - vi kender ikke svaret, men spørgsmålet er ikke af statistisk natur, det er 100% deterministisk. Det giver ikke mening at komme med sandsynlighedsudsagn om det. I hvert fald ikke hvis man er frekventist. Indenfor det Bayesianske paradigme udtrykker sandsynligheder ikke frekvenser, men subjektiv tiltro til forskellige udsagn. For en Bayesianer giver det god mening at hævde at der er 95% sandsynlighed for at det sande θ ligger i C(x). Det betyder at han har en relativt høj tiltro til at den sande parameter ligger inde i det område han har beregnet. Han vil i øvrigt kalde området

3 7.1. Konfidensområder 203 et kredibilitetsområde fremfor et konfidensområde, men den definerende egenskab er i begge tilfælde (7.2). Frekventisten, på den anden side, tror ingenting, han påstår i stedet. Og han har en procedure der sikrer at han i de fleste tilfælde har ret i sin påståelighed. Forskellene i hvad man kan sige og ikke sige om konfidensområder udgør et af de mest iøjnefaldende skel mellem frekventistisk og Bayesiansk statistik, og i populære fremstillinger betragtes det nogen gange som den eneste forskel (hvad der er helt misforstået - forskellene stikker langt dybere, og berører alt hvad man siger). De fleste ikke-statistikere har det nemmest med Bayesianske konfidensområder! Det frekventistiske rap over fingrene, der uddeles til folk der siger at det observerede områdeestimat C(x) har 95% sandsynlighed for at indeholde den sande parameter, virker nærmest intolerant på mange. Da Neyman og Pearson indførte de abstrakte konfidensområder omkring 1930, var målet for så vidt ikke at ramme den sande parameter særligt præcist. Deres argument var at uanset hvor smalt eller bredt vi vælger et områdeestimat, så vil vi aldrig få at vide om den sande parameter i et konkret tilfælde ligger i området eller ej. Vi risikerer altid at tage fejl. Så deres mål var at opstille en regel for hvordan man skulle opføre sig, en regel der skulle sikre at man dummer sig så lidt som overhovedet muligt. Hvis en statistiker igennem et langt liv opstiller 95% konfidensområder i hvert eneste estimationsproblem han kommer ud i, og derefter gebærder sig som om den sande parameter ligger i hans konfidensområde, så vil han kun i hvert 20. eksperiment komme til at gå planken ud med en fejlagtig påstand. Mange andre statistikere, i særdeleshed Fisher, havde intet til overs for denne ide, der ikke fokuserer på den underliggende videnskabelige problemstilling, men på statistikerens renommé. Som vi skal se i afsnit 7.2 er det imidlertid muligt at knytte punktestimation og områdeestimation sammen på en måde så områdeestimatet belyser punktestimatets præcision. Brugt på den måde er konfidensområder ikke kontroversielle, de er tværtimod hjørnestenen i al praktisk statistik. Når man skal finde konfidensmængder, skal man altså finde de parametre som mere eller mindre passer med en given observation. Det springer i øjnene at det er den duale problemstilling til at finde konkordansmængder, hvor man jo søger de observationer der passer til en givet parameter. Denne intuitive dualitet kan formaliseres:

4 204 Kapitel 7. Områdeestimation Sætning 7.1 Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). Hvis vi for hvert θ Θ har et konkordansområde A(θ) for ν θ på niveau α, så er områdeestimatoren C : X P(Θ), givet ved et (1 α)-konfidensområde. C(x) := {θ Θ x A(θ)}, (7.3) BEVIS: Der gælder oplagt at θ C(x) x A(θ). Og dermed har vi for alle θ Θ at P θ (θ C(X)) = P θ (X A(θ)) = 1 α, præcis som ønsket. Vi vil ofte bruge en lidt mere generel konstruktion, hvor vi tager udgangspunkt i en kombinant R : Θ X Y. For hvert θ Θ ser vi på den stokastiske variabel R(θ, X), der har værdier i Y. Vi finder fordelingen af denne stokastiske variabel, under antagelse af at θ er den sande parameter, og konstruerer derudfra et konkordansområde A(θ) i Y på niveau 1 α. Det tilsvarende konfidensområde er C(x) = {θ Θ R(θ, x) A(θ)}. Samme argumentation som i sætning 7.1 fører til at den konstruerede områdeestimator har en dækningsgrad på 1 α. Teknikken bliver specielt simpel hvis man tager udgangspunkt i en pivot, altså en kombinant R : Θ X Y sådan at fordelingen af R(θ, X) under P θ ikke varierer med θ. I så fald vælger man en mængde B Y så P θ (R(θ, X) B) = 1 α. Hvilket θ der bruges her spiller ingen rolle på grund af pivotegenskaben. Da er et 1 α konfidensområde for θ. C(x) = {θ Θ R(θ, x) B}

5 7.1. Konfidensområder 205 Den typiske kombinant R : Θ X Y er selvfølgelig ikke en pivot. Men hvis Y = R kan man ofte modificere R til en ny kombinant R, der er en pivot. Mere præcist: Lad F θ være fordelingsfunktionen for R(θ, X) under P θ. Da er R (θ, x) = F θ ( R(θ, x) ) en ny kombinant, der er meget tæt beslægtet med den gamle. Hvis F θ er kontinuert, så er det et standardresultat at R (θ, X) under P θ er ligefordelt på (0, 1). Og dermed er R faktisk en pivot. Bortset fra ordvalget, er der ikke meget nyt i disse pivotkonstruktioner. I kapitel 1 blev alle konkordansområder konstrueret på baggrund af transformationer X R. Sådan går vi stadig frem, blot tillader vi at transformationen varierer fra θ til θ. Pivotbetingelsen er, som vi lige har set, en mindre vigtig teknisk detalje. Eksempel 7.2 Lad os betragte den simple eksponentialfordelingsmodel, hvor vi har uafhængige reelle stokastiske variable X 1,..., X n der hver især er eksponentialfordelt med en ukendt parameter λ > 0. Vi ønsker at fremstille et 95% konfidensområde for λ. For at kunne gøre regningerne konkrete antager vi at n = 10, og benytter data fra eksempel 3.1. Vi baserer først konstruktionen på kombinanten R 1 (λ, x 1,..., x n ) = 1 λ n n i=1 x i = x λ. Hvis λ er den sande parameter, så er X en Γ-fordelt variabel med formparameter n og skalaparameter λ, og derfor er R 1 (λ, X 1,..., X n ) en pivot: den er Γ-fordelt med formparameter n og skalaparameter 1/n. Lad os undtagelsesvist bruge et centralt konkordansområde for den pågældende Γ-fordeling, vi vælger det symmetriske område. Vi finder derfor 2.5% og 97.5% fraktilen for Γ-fordelingen med n = 10 frihedsgrader og skalaparameter 0.1, nemlig og Da bliver konkordansområdet svarende til parameter λ { A 1 (λ) = (x 1,..., x 10 ) < x } λ < Konfidensområdet svarende til en observation (x 1,..., x 10 ) fås da ved at løse uligheden < x λ <

6 206 Kapitel 7. Områdeestimation med hensyn til λ. Vi får altså ( ) x C 1 (x 1,..., x 10 ) = , x = (0.59 x, 2.09 x ) Med data fra eksempel 3.1 får vi x = og dermed konfidensområdet C 1 = (0.232, 0.827). Bemærk at den gennemsnitlige længde af dette konfidensområde er ( ) 1 E λ C 1 (X 1,..., X 10 ) = E λ X = 1.500λ Man kunne også basere konstruktionen på et venstrestillet konkordansområde for Γ-fordelingen, hvilket falder bedre i tråd med hvordan man plejer at behandle Γ- fordelinger. Vi finder 95% fraktilen for Γ-fordelingen med formparameter 10 og skalaparameter 0.1, nemlig Dermed bliver konkordansområdet A 2 (λ) = { (x 1,..., x 10 ) 0 < x } λ < , og ved at vende konstruktionen om, fås konfidensområdet ( ) x C 2 (x 1,..., x n ) = , = (0.64 x, ). Med data fra eksempel 3.1 får vi x = og dermed konfidensområdet C 2 = (0.252, ). De to konstruerede konfidensområder er nogenlunde enige nedadtil. Men det er kedeligt at C 2 er ubegrænset opadtil. Det er en fare ved etsidede konkordansområder at de nogle gange leder til sådanne ubehageligheder. Vi kunne starte forfra, og basere konstruktionen på kombinanten R 3 (λ, x 1,..., x n ) = n λ x (1) = n λ min(x 1,..., x n ). Hvis λ er den sande parameter, er X (1) eksponentialfordelt med parameter λ/n, og dermed er R 3 (λ, X 1,..., X n ) eksponentialfordelt med parameter 1, altså en pivot. Vi

7 7.1. Konfidensområder 207 finder 2.5% og 97.5% fraktilen for en standard eksponentialfordeling til hhv , og dermed er et symmetrisk konkordansområde A 3 (λ) = Konfidensområdet findes ved at løse med hensyn til λ, hvilket giver området { (x 1,..., x 10 ) < 10 x (1) λ < 10 λ x (1) < ( C 3 (x 1,..., x 10 ) = x (1) , x (1) } < Med data fra eksempel 3.1 får vi x (1) = og dermed konfidensområdet C 3 = (0.100, 14.8). Bemærk at den gennemsnitlige længde af dette konfidensområde er ( 1 E λ C 3 (X 1,..., X 10 ) = ) E λ n X (1) = 39.73λ Der er dramatisk forskel på kvaliteten af C 1 og C 3. Uanset det sande λ, vil C 3 typisk være faktor 25 længere end C 1! Det er således næsten tilfældet for de konkrete data. De to intervaller har samme dækningsgrad, så de vil lige ofte indeholde den sande parameter. Men de er ikke lige gode til at udelukke en falsk parameter λ 1. Vi ser at C 3 har uhyre svært ved at udelukke et λ 1 af samme størrelsesorden som den sande parameter. Mens C 1 vil kunne udelukke λ 1, medmindre den ligger meget tæt på den sande parameter. ). Eksempel 7.3 Betragt den simple normalfordelingsmodel, hvor X 1,..., X n er uafhængige reelle stokastiske variable, der hver især er N(ξ, σ 2 )-fordelt med ukendt middelværdi og varians. Vi ønsker at fremstille et 95% konfidensområde for parameteren (ξ, σ 2 ). Vi vil basere konstruktionen på kombinanten R(ξ, σ 2 ; x 1,..., x n ) = n x ξ σ 2.

8 208 Kapitel 7. Områdeestimation Hvis (ξ, σ 2 ) er de sande parametre, så er X en N(ξ, σ 2 /n)-fordelt variabel, og dermed er R standard normalfordelt. Idet 2.5% og 97.5% fraktilen for en standard normalfordeling er -1.96, hhv. 1.96, ser vi at et 95% konkordansområde for R er { A(ξ, σ 2 ) = (x 1,..., x n ) 1.96 < n x } ξ < σ 2 Vi finder det tilsvarende konfidensområde som C(x 1,..., x n ) = {(ξ, σ 2 ) R (0, ) 1.96 σ 2 Hvis vi snitter C(x 1,..., x n ) med et fast σ 2, får vi intervallet σ x 2 σ 1.96 n, x n. n < x ξ < 1.96 σ 2 n }. Det fulde område i parameterplanen er tegnet op i figur 7.1. Det er ikke et særligt tilfredsstillende konfidensområde, på baggrund af figuren er vi ikke i stand til at komme med meningsfulde udsagn, hverken om middelværdien eller om variansen. Problemet er naturligvis at den kombinant vi baserer konstruktionen på, ikke er særligt hensigtsmæssig. Den forsøger at måle hvor godt data passer med middelværdiparameteren, uden at tage hensyn til hvor godt data passer med variansparameteren. Problemet er langt hen ad vejen det samme som i eksempel 4.12, hvor minimering af en kvadratsum ikke tillod os at sige noget om variansparameteren. For diskrete fordelinger opstår der som sædvanlig problemer med at de ønskede ligninger ikke kan løses eksakt. Man søger da konkordansområder A(θ) der er så små som muligt, samtidig med at de opfylder Vi konstruerer igen konfidensområderne og vi ser at de opfylder P θ (X A(θ)) 1 α for alle θ Θ. C(x) = {θ Θ (θ, x) A} P θ (θ C(X)) = P θ (X A(θ)) 1 α for alle θ Θ. Det er næsten aldrig muligt at finde sådanne konfidensområder for diskrete fordelinger eksplicit, det må gøres numerisk. Bemærk endvidere at man sjældent kan finde pivoter.

9 7.1. Konfidensområder 209 PSfrag replacements σ ξ Figur 7.1: Konfidensområder for den simple normalfordelingsmodel med n = 10 på baggrund af en observation med x = 1. Eksempel 7.4 Lad os betragte møntkast-modellen, hvor vi har uafhængige reelle stokastiske variable X 1,..., X n med P(X i = 1) = p, P(X i = 0) = 1 p for i = 1,..., n, hvor p er en ukendt parameter. Vi ønsker at konstruere et 95% konfidensområde for p. Vi baserer konstruktionen på transformationen s(x 1,..., x n ) = x = n x i. Hvis p er den sande parameter, er X binomialfordelt med parametre (n, p). Vi kan numerisk lokalisere et symmetrisk konkordansområde A(p) for denne fordeling. Vi finder altså a(p) {0, 1,..., n} så i=1 P p (X < a(p)) < 0.025, P p (X a(p)) Tilsvarende finder vi b(p) {0, 1,..., n} så P p (X < b(p)) < 0.975, P p (X b(p))

10 210 Kapitel 7. Områdeestimation s p Dækningsgrad p Figur 7.2: Konfidensområder for binomialfordelingsmodellen med længde 25. Området svarende til en observation s er det vandrette stykke i højde s på tegningen til venstre. Højre tegning viser den faktiske dækningsgrad af disse intervalestimater. Bemærk at de lodrette streger i den højre tegning repræsenterer diskontinuiteter, der opstår efterhånden som punkter glider ind i og ud af A(p). Konkordansområdet er da A(p) = {a(p), a(p) + 1,..., b(p)} og konfidensområdet svarende til observationen X = s bliver C(s) = {p (0, 1) a(p) s b(p)}. Disse områder er for n = 25 optegnet i figur 7.2. På nabotegningen vises den faktiske dækningsgrad. Vi ser at den varierer en del med p, men at den holder sig over den nominelle værdi på 95%. Eksempel 7.5 Den naturlige model for fødselsdata fra eksempel 1.1, når vi ikke på forhånd lægger os fast på at der fødes lige mange drenge og piger, er at antallet af drenge er binomialfordelt med længde og ukendt sandsynlighedsparameter p (0, 1). Den naturlige estimator gennemsnitsestimator ˆp bliver i dette tilfælde ˆp = = Det forekommer overraskende nok ikke at være så frygteligt langt fra værdien 0.5, som vi i eksempel 1.1 blankt afviste skulle passe med data. Men vi kan belyse hvor præcist estimatet er, ved at anvende metoden fra eksempel 7.2.

11 7.2. Estimatorer og konfidensområder 211 Når man konstruerer et symmetrisk 95% konkordansområde A(p) for hvert p (0, 1) så viser det sig at er indeholdt i A(p) hvis og kun hvis p (0.511, 0.518). Altså er dette interval vores konfidensområde. Vi konstaterer at dette interval er ganske snævert - de mange observationer gør at det sande p er bestemt ret præcist. Vi konstaterer også at intervallet ikke indeholder 0.5. En mere kuriøs detalje er at intervallet ikke er helt symmetrisk omkring ˆp. 7.2 Estimatorer og konfidensområder Lad (ν θ ) θ Θ være en statistisk model på (X, E). De konfidensområder, vi har fundet indtil nu, har næsten alle haft samme karakter. Vi har som udgangspunkt taget en estimator t : X Θ af parameteren, og undersøgt fordelingen af t(x) under P θ. Denne fordeling har typisk (og forhåbentlig) været voldsomt θ-afhængig, men det har været muligt at fjerne θ-afhængigheden ved eksplicit manipulation. Vi har altså fundet en afbildning h : Θ Θ Y for en passende mængde Y, sådan at kombinanten R(θ, x) = h(θ, t(x)) (7.4) er en pivot. Når vi konstruerer et konfidensområde for θ på baggrund af denne pivot, kan resultatet fortolkes som et udsagn om vores tillid til estimatoren t. Hidtil har vi formuleret sådanne tillidsudsagn i termer af fordelingen af t(x) under det sande P θ. Men i ægte statistiske situationer kender vi jo ikke det sande θ, og derfor kender vi faktisk ikke den fordeling vi bør interessere os for. Et konfidensområde baseret på en pivot af formen (7.4) kræver derimod ikke kendskab til den sande parameter, den er et tillidsudsagn om t(x) udelukkende baseret på observationen x. I praktiske statistiske modeller er man uheldigvis sjældent i stand til eksplicit at angive fordelingen af en estimator, og man er slet ikke i stand til at manipulere parameterafhængigheden væk eksakt. Så det ligger tilsyneladende langt uden for mulighedernes grænse at præstere en pivot af formen (7.4). Men hvis man stiller sig tilfreds med approksimative konfidensintervaller, kan asymptotisk teori ofte redde en ud af suppedasen. Lad os et øjeblik antage at Θ = R.

12 212 Kapitel 7. Områdeestimation Vi har i mange situationer at t X N ( θ, σ 2 (θ) ) under P θ, (7.5) for en passende variansfunktion σ 2 (θ). Hvis t er maksimaliseringsestimatoren, er σ 2 (θ) forbundet med den inverse information, for andre typer estimatorer ser man at (7.5) er opfyldt med andre variansfunktioner. Udfra (7.5) får vi at t X θ σ 2 (θ) N(0, 1) under P θ. Med andre ord: (θ, x) t(x) θ σ 2 (θ) (7.6) er en approksimativ pivot, og vi kender oven i købet den fælles fordeling. Et oplagt bud på et 95% konfidensområde er derfor t(x) θ C 1 (x) = θ R 1.96 < σ 2 (θ) < (7.7) Præcis hvilken kvalitet dette konfidensområde har, afhænger af hvordan (7.5) skal forstås. Men hvis der er tale om en asymptotisk normalfordeling som i definition 5.9, så vil den tilsvarende følge af C 1 -områder have en dækningsgrad der konvergerer mod 95%. Hvis σ 2 (θ) er en kompliceret funktion af θ, kan det være meget vanskeligt at løse de nødvendige uligheder i (7.7). Man gør derfor nogle gange den antagelse at σ 2 (θ) sikkert er nogenlunde konstant, og at (7.6) derfor kan erstattes af (θ, x) t(x) θ σ 2 (t(x)). (7.8) Hvis det står til troende at denne størrelse er approksimativt N(0, 1)-fordelt, så kan man konstruere områdeestimatet C 2 (x) = θ R 1.96 < t(x) θ σ 2 (t(x)) < Her er det banalt at løse de nødvendige uligheder, og man finder at C 2 (x) = ( t(x) 1.96 σ 2 (t(x)), t(x) σ 2 (t(x)) ). (7.9)

13 7.2. Estimatorer og konfidensområder 213 Overgangen fra (7.7) til (7.8) er ikke uskyldig. Den fungerer kun, hvis σ 2 (θ) er essentielt konstant. I visse modeller, hvor den forventede information varierer voldsomt med parameteren, kan området (7.9), baseret på maksimaliseringsestimatorens asymptotiske fordeling, således have en faktisk dækningsgrad langt fra de nominelle 95% - og dækningsgraden kan udmærket blive værre og værre, jo flere observationer man gør! Ikke desto mindre anvendes (7.9) rutinemæssigt. For eksempel vil de konfidensintervaller som mange statistiske computerpakker producerer, ofte være baseret på en variant af (7.9). I praksis erstatter man ofte den approksimative pivot (7.6) med dens kvadrat (θ, x) (t(x) θ)2 σ 2, (θ) der er approksimativt χ 2 -fordelt med 1 frihedsgrad, og hvor store værdier er udtryk for diskordans. I så fald bliver C 1 (x) = { θ (t(x) θ) σ 2 (θ) }, (7.10) hvilket ved et nøjere eftersyn viser sig at være identisk med (7.7). Grunden til at vi foretrækker (7.10), er at denne formel lader sig generalisere til flerdimensionale parametre. Eksempel 7.6 Vi betragter igen den simple eksponentialfordelingsmodel, med uafhængige reelle stokastiske variable X 1,..., X n, der alle er eksponentialfordelt med ukendt parameter λ > 0. Vi har i eksempel 5.12 konstateret at hvis så er t(x) = x = 1 n t X N n i=1 x i ) (λ, λ2. n Baserer man regningerne på den approksimative pivot (λ, x 1,..., x n ) (x λ) 2 λ 2 /n kan man som en eksercits i andengradsligninger finde området {λ (x λ) 2 } x x λ 2 < 3.84 = /n , n n

14 214 Kapitel 7. Områdeestimation Med data fra eksempel 3.1 fås intervallet (0.245, 1.043) (7.11) hvilket er en anelse større (hvilket er dårligt!) end det bedste af de eksakte konfidensområder, der blev fundet i eksempel 7.2. Men denne områdeestimators faktiske egenskaber er ikke så dårlige, man kan regne sig frem til at for n = 10 er den faktiske dækningsgrad 95.5%, i fin overensstemmelse med de nominelle 95%. Hvis vi i stedet benytter den ekstra approksimation der fører til kombinanten (λ, x 1,..., x n ) (x λ) 2 x 2 /n får man uden videre det approksimative konfidensområde { (x λ) 2 } ( λ x 2 < 3.84 = x 1.96 x, x x ). /n n n Med data fra eksempel 3.1 fås (0.151, 0.642) (7.12) hvilket ligger dramatisk skævt placeret i forhold til (7.11). Man kan regne ud at de approksimationer der har ledt frem til (7.12) er så grove at denne områdeestimator for n = 10 i virkeligheden kun har en dækningsgrad på 90% - hvilket er længere væk fra den nominelle dækningsgrad på 95% end godt er. Når det går så galt, har det naturligvis at gøre med at antallet af observationer i dette eksempel er meget lavt. Hvis n = 200 er områdeestimatorens faktiske dækningsgrad 94.7%. Hvis vi vender os mod flerdimensionale modeller, hvor Θ R k, kan man gennemføre en analog argumentation, baseret på en estimator t : X Θ, hvis t X N (θ, Σ(θ)) under P θ, hvor Σ(θ) er en passende symmetrisk, positivt definit matrixfunktion. Da er (t X θ) T Σ(θ) 1 (t X θ) (7.13) approksimativt χ 2 -fordelt med k frihedsgrader, og således stort set en pivot. Argumenteres som tidligere, fører det til konfidensområdet C 1 (x) = { θ (t(x) θ) T Σ(θ) 1 (t(x) θ) < z k }, (7.14)

15 7.3. MLE og konfidensområder 215 hvor z k er 95% fraktilen for χ 2 -fordelingen med k frihedsgrader. Gentages springet fra (7.7) til (7.8) fås C 2 (x) = { θ (t(x) θ) T Σ(t(x)) 1 (t(x) θ) < z k }, (7.15) Som en eksercits i lineær algebra kan man vise, at C 2 (x) er en k-dimensional ellipsoide med centrum i t(x), og med akser der typisk ligger skævt i forhold til koordinatakserne. Den faktiske dækningsgrad af C 2 (x) er tvivlsom - men for en flerdimensional mængde at være, er området relativt nemt at finde og beskrive. 7.3 MLE og konfidensområder For en domineret model måler kvotientteststørrelsen Q(θ, x) = L x (θ) sup ϑ Θ L x (ϑ), på oplagt vis parameteren θ op mod maksimaliseringsestimatoren, og det er derfor naturligt at lade kvotientteststørrelsen danne baggrund for en kvalitetsvurdering af maksimaliseringsestimatoren. Kvotientteststørrelsen er sjældent pivot, men i princippet kan man finde konkordansområder af formen A(θ) = {x X Q(θ, x) > z θ }, hvor z θ erne vælges så de giver de rigtige dækningsgrader, hvorefter man vender konstruktionen om og finder konfidensområdet C(x) = {θ Θ Q(θ, x) > z θ }. (7.16) Eksempel 7.7 Lad os betragte den simple eksponentialfordelingsmodel, hvor vi har uafhængige reelle stokastiske variable X 1,..., X n der hver især er eksponentialfordelt med en ukendt middelværdi λ > 0. Vi har tidligere fundet loglikelihoodfunktionen der minimeres af l X1,...,X n (λ) = n log λ + X λ ˆλ = X n.

16 216 Kapitel 7. Områdeestimation Vi ser at Dermed er l X1,...,X n (ˆλ) = n log X n + n. ( 2 log Q(λ, X 1,..., X n ) = 2 n log λ + X λ n log X ) n n. Denne størrelse har ikke nogen kendt fordeling. Principielt kan vi for hvert λ - eller i hvert fald for passende mange λ er - finde et w λ, der løser P λ ( 2 log Q(λ, X 1,..., X n ) < w λ ) = 0.95, ved at simulere f.eks gentagelser af eksperimentet med λ som den sande parameter, udregne 2 log Q i hvert tilfælde, ordne disse 2 log Q-værdier, og udtage det værdi nr altså 95%-fraktilen i den empiriske fordeling af 2 log Q-værdier log Q Figur 7.3: Simulation af 2 log Q i en model med n = 10 uafhængige, eksponentialfordelte variable. Forsøget er gennemført, hvor variablene havde middelværdi 1, men andre middelværdier havde ført til præcis samme fordeling. Forsøget er gentaget gange. Den lodrette streg er placeret i 95%-fraktilen for den empiriske fordeling, nemlig Man må forvente at denne afskæringsværdi varierer en del med n - det gør den ikke i praksis, men det kan man ikke vide, før forsøget er gennemført. Det er nemt nok at skrive det relevante computerprogram, men køretiden vil være betydelig, fordi simulationerne principielt skal gentages for hvert λ for sig. Men et lille

17 7.3. MLE og konfidensområder 217 mirakel åbenbares: 2 log Q er faktisk en pivot i dette eksempel. En lille omskrivning viser at ( 2 log Q(λ, X 1,..., X n ) = 2 n log n n + X λ n log X ). λ Det vil sige at 2 log Q er en transformation af X λ. Eftersom transformationen hverken involverer observation eller parametre, og eftersom X λ er pivot, bliver 2 log Q også pivot. Og det betyder at man kun behøver at gennemføre simulationseksperimentet for et enkelt λ - man vil få samme afskæringsværdi for de øvrige λ er. l(λ) PSfrag replacements λ Figur 7.4: Et eksakt 95% konfidensområde for skalaparameteren λ i modellen for uafhængige, identisk fordelte eksponentialfordelte variable. Tegningen viser loglikelihoodfunktionen for λ, baseret på n = 10 og X = De to vandrette streger er afsat i henholdvis minimum og minimum plus z/2, hvor z = 3.90 er 95%-fraktilen i den empiriske fordeling af 2 log Q-værdier, fundet i figur 7.3. På figur 7.3 har vi optegnet resultaterne af et sådant simulationseksperiment, i en situation hvor n = 10. Simulationerne er gennemført med λ = 1, men andre λ- værdier ville naturligvis give anledning til samme fordeling af 2 log Q. Vi finder at den empiriske 95%-fraktil er Sættes det ind i (7.16) fås C(X 1,..., X 10 ) = { ( λ 2 10 log X λ 10 log X ) } < 3.90 λ De konkrete data fra eksempel 3.1, med n = 10 og X = 3.964, fører via den grafiske

18 218 Kapitel 7. Områdeestimation konstruktion i figur 7.4 til området (0.225, 0.795). Det lille mirakel i eksempel 7.7, hvor kvotientteststørrelsen viste sig at være pivot, indtræffer desværre næsten aldrig. I de fleste modeller vil en figur, der svarer til figur 7.4, få et et udseende som skitseret i figur 7.5. Afskæringskurven må findes ved simulationseksperimenter for hver parameter for sig. l(λ) PSfrag replacements λ Figur 7.5: En skematisk konstruktion af et eksakt 95% konfidensområde baseret på kvotientteststørrelsen, i en model hvor denne størrelse ikke er pivot. Den bølgede afskæringskurve er afsat som minimum plus z λ /2, hvor z λ er 95%-fraktilen i fordelingen af 2 log Q under P λ. Tegningen er ikke retvisende, i praksis er afskæringskurven næsten flad for de fleste modeller. Det er næppe muligt at følge dette program i praksis, i hvert fald ikke hvis parameteren er flerdimensional. Hvert simulationseksperiment vil jo tage tid, og for hvis parameteren er højdimensional, skal der gennemføres rigtig mange simulationseksperimenter. Problemet er at antallet af punkter i et ikke alt for groft gitter i R k eksploderer med k - dette fænomen kaldes gerne curse of dimensionality. Til alt held er figur 7.5 misvisende. Den faktiske afskæringskurve vil ikke være bølget, den vil stort set være flad. For 2 log Q er ofte approksimativt χ 2 -fordelt, se

19 7.3. MLE og konfidensområder 219 f.eks. sætning Hvis parametermængden Θ er en åben delmængde af R k, er det derfor ofte rimeligt at bruge et konfidensområde af formen C(x) = {θ Θ 2 log Q(θ, x) < z k }, eller som man oftest skriver i praksis, { C(X) = θ Θ l x (θ) < l x (ˆθ) + z } k 2, hvor z k er 95% fraktilen for χ 2 -fordelingen med k frihedsgrader. Den præcise begrundelse for at bruge dette område som konfidensområde må søges i asymptotisk teori, men f.eks. under betingelserne fra sætning 5.21, vil den faktiske dækningsgrad af området konvergere mod 95%, når antallet af observationer går mod uendeligt. En lidt anden måde at bruge den asymptotiske teori på, er at udnytte at Cramérs sætning eller en af dens generaliseringer giver os anledning til at tro at maksimaliseringsestimatoren ˆθ er veldefineret for de fleste potentielle observationer, og at ˆθ N ( θ, i(θ) 1). (7.17) Argumenterne i afsnit 7.2 leder os til at betragte størrelsen (ˆθ θ ) T i(θ) (ˆθ θ ), der kaldes Walds teststørrelse. Under P θ er denne størrelse approksimativt χ 2 - fordelt med k frihedsgrader hvor k er dimensionen af parametermængde Θ. Man kan få en kvalitetsvurdering af maksimaliseringsestimatoren ˆθ ved at konstruere det approksimative 95% konfidensområde C 1 (X) = {θ Θ (ˆθ θ ) T i(θ) (ˆθ θ ) } < z k, hvor z k er 95% fraktilen for en χ 2 -fordeling med k frihedsgrader. Om man vil bruge kvotientteststørrelsen eller Walds teststørrelse som udgangspunkt for konstruktionen af et konfidensområde, er lidt en smagssag - en stor del af besværet i beviset for sætning 5.21 bestod i at redegøre for at de to teststørrelser er stort set ens. Områderne vil som regel være sammenlignelige, men ikke helt identiske. Præcise argumenter for at foretrække det ene område frem for det andet, kunne basere sig på kvaliteten af χ 2 -approksimationen, men svaret er i så fald ikke systematisk: det

20 220 Kapitel 7. Områdeestimation varierer fra model til model, og fra asymptotisk scenario til asymptotisk scenario, om 2 log Q eller Walds teststørrelse er mest χ 2 -fordelt. De nødvendige regninger for at finde områdeestimatoren er i begge tilfælde komplicerede, og man forfalder ikke helt sjældent til at erstatte Walds teststørrelse med den såkaldte falske Waldteststørrelse, (ˆθ θ ) T i(ˆθ) (ˆθ θ ), der leder til et ellipseformet områdeestimat med ˆθ i centrum, C 2 (X) = {θ Θ (ˆθ θ ) T (ˆθ i(ˆθ) θ ) } < z k. Den faktiske dækningsgrad af disse ellipser er ofte tæt på de nominelle 95% - men den kan også være langt fra! Det er ganske vanskeligt at opstille asymptotiske scenarier, hvor man har kontrol over den falske Waldteststørrelses opførsel, i modsætning til 2 log Q eller den ægte Waldteststørrelse, der begge kan vises at være asymptotisk χ 2 -fordelte, i stort set alle de scenarier, hvor Cramérs sætning holder. Eksempel 7.8 Hvis X 1,..., X n er uafhængige, identisk fordelte Γ-fordelte variable med ukendt formparameter λ og ukendt skalaparameter β, så er loglikelihoodfunktionen n l X1,...,X n (λ, β) = nλ log β + n log Γ(λ) (λ 1) log X i + 1 n X i. β Vi fandt i eksempel 3.20 scorefunktionen n Dl X1,...,X n (λ, β) = n log β + nψ(λ) log X i ; nλ β 1 β 2 og observeret information nψ (λ) D 2 l X1,...,X n (λ, β) = n β i=1 i=1 n β nλ β β 3 ni=1 X i. i=1 n X i, Her betegner Ψ(λ) og Ψ (λ) henholdvis di- og trigammafunktionerne. Den forventede information bliver nψ n (λ) β i n (λ, β) =. n β nλ β 2 i=1

21 7.3. MLE og konfidensområder 221 Skønt den observerede information ikke er positivt definit, så ville den have været det, hvis vi havde parametriseret modellen en anelse anderledes. Hvis vi havde parametriseret ved formparameteren λ og den inverse skalaparameter 1 β, så ville tætheden have været på den eksponentielle form fra (6.3), og helt analogt med regningerne i den logistiske regressionsmodel ville vi se at den observerede information ikke ville afhænge af de gjorte observationer, hvilket ville være rigeligt til at sikre konveksitet at loglikelihoodfunktionen. I den parametrisering vi foretrækker - med formparameter og skalaparameter - er loglikelihoodfunktionerne ikke konvekse, men en eventuel løsning til likelihoodligningen vil svare til en løsning af likelihoodligningen i den eksponentielle parametrisering, og må derfor nødvendigvis være det globale minimum for likelihoodfunktionen. Likelihoodligningerne er log β + Ψ(λ) = 1 n n log X i i=1 βλ = 1 n De kan ikke løses eksplicit, men er ikke vanskelige at løse ved numeriske metoder (enten Newton-Raphson eller Fisher scoring, som man nu synes). I et konkret datasæt med n = 100 og summariske størrelser 1 n n log X i = i=1 (se eksempel 3.4) finder man løsningen og n i=1 1 n X i n X i = , (7.18) i=1 ˆλ = 7.38 ˆβ = 1.94, der så må udgøre maksimaliseringsestimatoren. Desuden findes den minimale værdi af loglikelihoodfunktionen til at være Derfor er konfidensområdet baseret på kvotientteststørrelsens asymptotiske fordeling { C(x 1,..., x n ) = (λ, β) l x1,...,x n (λ, β) < z }, 2 hvor z = 5.99 er 95%-fraktilen for en χ 2 -fordeling med to frihedsgrader. Dette område er tegnet op i figur 7.6, sammen med tilsvarende områder baseret på Walds teststørrelse og på den falske Waldteststørrelse.

22 222 Kapitel 7. Områdeestimation PSfrag replacements β λ Figur 7.6: Tre approksimative konfidensområder for parametrene i modellen for uafhængige, identisk fordelte Γ-fordelte variable. Tegningen er baseret på n = 100 simulerede variable med summariske størrelser givet ved (7.18). Det fuldt optrukne område er baseret på kvotientteststørrelsen, det stiplede område er baseret på Walds teststørrelse og det prikkede område er baseret på den falske Waldteststørrelse. De tre approksimative konfidensområder i figur 7.6 er nogenlunde sammenfaldende, men ikke helt. Når området baseret på kvotientteststørrelsen (eller på Walds teststørrelse) ikke er elliptisk, er der grund til at være på vagt overfor de nominelle dækningsgrader af områderne, baseret på asymptotiske fordelinger - de kan være vildledende. Argumenterne for de asymptotiske fordelinger er groft sagt baseret på at man ser bort fra den tredie afledede af loglikelihoodfunktionerne, og en manglende ellipticitet af det approksimative konfidensområde er en advarsel om at den tredie afledede alligevel spiller en vis rolle: enten er Cramérs sætning forkert for den studerede model eller også er den asymptotiske situation endnu ikke indtrådt - som regel vil man vælge den sidste fortolkning. Hvis vi konstruerede en tegning som figur 7.6, baseret på n = 1000 observationer og samme summariske størrelse som i (7.18), så ville de tre approksimative konfidensområder dels være meget mindre end dem man ser på figur 7.6, og dels være næsten uskelnelige. I et større simulationseksperiment blev der genereret uafhængige Γ-fordelte variable med sand formparameter 7 og sand skalaparameter 2. For n = 10, 100 og 1000 blev der genereret datasæt, for hvert datasæt blev de tre approksimative kon-

23 7.4. Konfidensområder for parameterfunktioner 223 fidensområder fundet, og det blev undersøgt om de indeholdt den sande parameter. Resultaterne er opsummeret i tabel 7.1. Den faktiske dækningsgrad for området baseret på kvotientteststørrelsen er imponerende tæt på de nominelle 95%, selv hvis datasættene kun indeholder n = 10 observationer hver. De faktiske dækningsgrader for de to andre områder er ikke helt så flotte, før datasættene bliver store. Til gengæld er dækningsgraden for disse to områder overraskende tæt på hinanden, i betragtning af at områderne er ganske forskellige, som det fremgår af figur 7.6. n 2 log Q Wald Falsk Wald Tabel 7.1: Dækningsgraden for tre approksimative konfidensområder for parametrene i modellen for uafhængige, identisk fordelte Γ-fordelte variable, undersøgt for datasæt af forskellig størrelse, men alle med sande parametre λ = 7, β = 2. Hver celle i tabellen er baseret på simulation af datasæt af den angivne størrelse. 7.4 Konfidensområder for parameterfunktioner I modeller, hvor parametermængden Θ er en delmængde af R k hvor k > 1, er man sjældent for alvor interesseret i at finde konfidensområder på den måde vi hidtil har beskrevet. Procedurerne leder ofte til komplicerede delmængder af R k, mængder som er svære at beskrive og som er svære for alvor at sige noget prægnant om. I praksis knytter den primære interesse sig næsten altid til en reel parameterfunktion τ : Θ R. Vi er da interesserede i en mængdefunktion D : X P(R) der opfylder at P θ (τ(θ) D(X)) = 1 α for alle θ. (7.19) Vi taler om et konfidensområde for parameterfunktionen τ. Hvis vi har en sådan mængdefunktion D, så vil C : X Θ givet ved C(x) = τ 1 (D(x)), være et almindeligt konfidensområde for hele parameteren θ.

24 224 Kapitel 7. Områdeestimation Hvis den primære interesse ligger i θ s 1. koordinat, og hvis vi har fundet en mængdefunktion D : X P(R) der opfylder (7.19), så vil den associerede almindelige konfidensmængde være C(x) = D(x) R k 1 - eller hvor meget af denne mængde, der nu er indeholdt i Θ. Det er klart at i så fald bruger vi al datakraften til at sige noget om θ s 1. koordinat, mens vi ingen restriktioner lægger på de øvrige koordinater. I praksis forsøger man gerne at lave et konfidensområde for en parameterfunktion τ udfra en pivot af formen R(θ, x) = Z(τ(θ), x) hvor Z : R X R er en vilkårlig afbildning. Som sædvanlig vælges et acceptområde B R sådan at P θ (R(θ, X) B) = 1 α for alle θ Θ. I så fald bliver det ønskede konfidensområde for τ. Thi D(x) = {η R Z(η, x) B} P θ (τ(θ) D(X)) = P θ (Z(τ(θ), X) B) = P θ (R(θ, X) B) = 1 α. Eksempel 7.9 Betragt den simple normalfordelingsmodel, hvor X 1,..., X n er uafhængige reelle stokastiske variable, der hver især er N(ξ, σ 2 )-fordelt med ukendt middelværdi og varians. Vi ønsker at fremstille et 95% konfidensområde for hver af parametrene ξ og σ 2. Lad os starte med følgende kombinant: R 1 (ξ, σ 2 ; x 1,..., x n ) = n (x ξ) S S D/(n 1). Hvis (ξ, σ 2 ) er de sande parametre, så er de to størrelser n σ 2 (X ξ) og SSD (n 1)σ 2 henholdsvis standard normalfordelt og χ 2 -fordelt med n 1 frihedsgrader og skalaparameter 1/(n 1). Eftersom de to størrelser er uafhængige, følger det at R 1 (ξ, σ 2 ; X 1,..., X n ) - der er brøken af de to - er t-fordelt med n 1 frihedsgrader. I særdeleshed afhænger denne fordeling ikke af de indgående parametre, og dermed er R 1 pivot!

25 7.4. Konfidensområder for parameterfunktioner 225 Endvidere ser vi at R 1 kun afhænger af parameteren (ξ, σ 2 ) gennem førstekoordinaten ξ. Et 95% konfidensområde for ξ er derfor { } n (x ξ) D 1 (x 1,..., x n ) = ξ R q < < q SSD/(n 1) = x SSD q n(n 1), x SSD + q n(n 1), hvor q er 97.5% fraktilen for t-fordelingen med n 1 frihedsgrader (vi har her brugt at t-fordelingen er symmetrisk om 0). For n stor er q Man kunne tilsvarende vælge en kombinant der kun afhænger af parameteren gennem σ 2, og på den måde producere et konfidensområde for σ 2. F.eks. R 2 (ξ, σ 2 ; x 1,..., x n ) = SSD/σ 2. Hvis (ξ, σ 2 er de sande parametre, er R 2 χ 2 -fordelt med n 1 frihedsgrader og skalaparameter 1, og altså pivot. Lad os forsøge at komme med en generel konstruktion af et konfidensområde for parameterfunktionen τ : Θ Ψ for en domineret statistisk model, baseret på en likelihoodtankegang. Først konstrueres profillikelihoodfunktionen L τ x (ψ) = sup L x (θ) θ:τ(θ)=ψ som et udtryk for hvor godt observationen x X og parameterfunktionsværdien ψ Ψ passer sammen. Den bedste overensstemmelse, altså den største værdi af L τ x, fås i ˆψ = τ(ˆθ), hvor ˆθ er maksimaliseringsestimatoren. En naturlig ide er da at vurdere ethvert ψ ved hjælp af en kvotientteststørrelse baseret på profillikelihoodfunktionen, L Q τ τ (ψ, x) = x(ψ) sup ψ Ψ L τ x(ψ ) = L τ x(ψ) L τ x( ˆψ). Bemærk at den maksimale værdi af profillikelihoodfunktionen er identisk med den maksimale værdi af den oprindelige likelihoodfunktion. Udtrykt direkte ved hjælp af den originale likelihoodfunktion, er kvotientteststørrelsen udfra profillikelihoodfunktionen derfor Q τ (ψ, x) = sup θ:τ(θ)=ψ L x(θ). sup θ L x (θ)

26 226 Kapitel 7. Områdeestimation Ved at se på (θ, x) Q τ (τ(θ), x) har vi skabt en kombinant der kun afhænger af parameteren θ gennem parameterfunktionen τ(θ), og som har en klar fortolkning: værdier tæt ved 1 opfattes på den måde at x og τ(θ) stemmer godt overens, værdier tæt ved 0 opfattes som manglende overensstemmelse. Bruger man denne kombinant til at konstruere konfidensområder, skal man for hvert θ finde et z θ (0, 1) så P θ ( Q τ (τ(θ), x) > z θ ) = 0.95, hvorefter konfidensområdet (i Θ) bliver C(x) = {θ Θ Q(τ(θ), x) > z θ }. Her dukker et væmmeligt problem op: hvis θ 1 og θ 2 er to parametre sådan at τ(θ 1 ) = τ(θ 2 ) men sådan at z θ1 og z θ2 er forskellige, så risikerer man at det ene θ er med i konfidensområdet, mens det andet ikke er med. I så fald har hele konstruktionen været forgæves, for C(x) har ikke form af en τ-originalmængde. Det er altså afgørende at θ z θ er konstant langs hver niveaukurve for τ. Indtil nu har pivotegenskaberne af kombinanterne kun været indført af bekvemmelighedsgrunde: for at gøre det praktisk muligt at omregne fra konkordansområder til konfidensområder. Men når man diskuterer konfidensområder for parameterfunktioner, bliver en vis pivothed essentiel, også ud fra et strengt teoretisk synspunkt: Fordelingen af kombinanten må for så vidt gerne variere med parameteren. Men ikke så længde vi kun varierer parameteren indenfor en niveaukurve for parameterfunktionen. Kombinanten skal så at sige være pivot på hver niveaukurve. At lede efter kombinanter, der kun afhænger af parameteren gennem en givet parameterfunktion τ, og som er pivote langs hver niveaukurve for τ, er ikke nogen nem opgave. Men så længe vi fokuserer på kvotientteststørrelser, så kommer asymptotisk teori ofte til undsætning. Der gælder nemlig følgende generalisering af sætning 5.22: Sætning 7.10 Lad Y 1,..., Y n være uafhængige identisk fordelte variable, hver med fordeling ν θ = f θ µ, hvor θ Θ. Antag at Θ er en åben delmængde af R k, og at τ : Θ R m er en parameterfunktion. Lad L τ være profillikelihoodfunktionen for τ,

27 7.4. Konfidensområder for parameterfunktioner 227 og lad Q τ være den tilsvarende kvotientteststørrelse. Under passende regularitetsforudsætninger vil 2 log Q τ (τ(θ 0 ), Y 1,..., Y n ) = 2 log L τ Y 1,...,Y n (τ(θ 0 )) L τ Y 1,...,Y n (τ(ˆθ n )) konvergere i fordeling mod en χ 2 -fordeling med m frihedsgrader under P θ0. Indholdet af sætning 7.10 er at kvotientteststørrelsen baseret på profillikelihoodfunktionen for τ - i hvert fald asymptotisk set - er en rigtig pivot, og ikke blot en pivot langs niveaukurver for τ. Bruges sætning 7.10 på den trivielle parameterfunktion θ θ, er påstanden den samme som i sætning Ligesom vores tidligere asymptotiske sætninger, kan konklusionen i sætning 7.10 opretholdes i en meget bred vifte af asymptotiske scenarier, ikke blot det her angivne. Eksempel 7.11 Lad X 1,..., X n være uafhængige, reelle stokastiske variable, alle Γ-fordelte med ukendt formparameter λ og ukendt skalaparameter β, og lad os konstruere et konfidensområde for formparameteren λ. For fast λ maksimeres likelihoodfunktionen (3.5) af ni=1 X i ˆβ(λ) =, n λ og dermed er profilloglikelihoodfunktionen for λ givet som l X1,...,X n (λ) = l X1,...,X n (λ, ˆβ(λ)) ( ni=1 ) X i n = nλ log + n log Γ(λ) (λ 1) log X i + nλ. n λ For datasættet bag figur 7.6, dvs. et datasæt med n = 100 og de summariske størrelser fra (7.18), er profilloglikelihoodfunktionen tegnet op på figur 7.7. Konfidensområdet aflæses ved samme grafiske konstruktion som i figur 7.4, og findes til at være (5.57, 9.56). Det er et noget mindre interval end projektionerne af de todimensionale konfidensområder i figur 7.6 ned på førstekoordinaten, så vi har faktisk fået bedre styr over i=1

28 228 Kapitel 7. Områdeestimation l PSfrag replacements λ Figur 7.7: Et approksimativt konfidensområde for formparameteren λ i modellen for uafhængige, identisk fordelte Γ-fordelte variable med ukendt form og skala. Tegningen viser profilloglikelihoodfunktionen for λ, baseret på n = 100 variable med summariske størrelser givet ved (7.18). De to vandrette streger er afsat i henholdsvis minimum og minimum plus z/2, hvor z er 95%-fraktilen for en χ 2 -fordeling med 1 frihedsgrad. λ på denne måde. Til gengæld har vi med λ-konfidensområdet helt undladt at sige noget der kan lokalisere det sande β. En tilsvarende konstruktion, hvor man finder et konfidensområde for skalaparameteren β, kan i princippet udføres. Men dels er det mindre interessant (skalaparameteren er ufortolkelig, hvis man ikke kender formparameteren), og dels er det en hel del sværere, for man kan ikke maksimere likelihoodfunktionen eksplicit i λ for fast β. Profillikelihoodfunktionen for β må således findes ved for hvert β at maksimere funktionen λ L X1,...,X N (λ, β) ved numeriske metoder. Det kan sagtens lade sig gøre, men er altså forholdsvis regnetungt. Et mere interessant - og lige så svært - problem, er at finde et konfidensområde for middelværdien α = βλ. Niveaukurverne for denne parameterfunktion er hyperbler i (λ, β)-planen, og et konfidensområde for α består altså af et bundt af disse hyperbler.

29 7.4. Konfidensområder for parameterfunktioner 229 Når man skal finde profillikelihoodfunktionen for α, skal man maksimere likelihoodfunktionen langs hver hyperbel. Denne form for optimering omtales gerne som maksimering under en glat bibetingelse, og skønt det er et område hvor computerteknologien har gjort betydelige fremskridt, er det en hel del sværere end at maksimere langs koordinatakser. Vi vælger derfor at reparametrisere likelihoodfunktionen i termer af formparameteren λ og middelværdien α. Den resulterende loglikelihoodfunktion bliver ( α ) n l X1,...,X n (λ, α) = nλ log + n log Γ(λ) (λ 1) log X i + λ n X i. λ α Profillikelihoodfunktionen for α kan heller ikke med dette udgangspunkt gives en lukket form. Men for hvert fast α er loglikelihoodfunktionen en funktion af een variabel, og en passende numerisk teknik giver anledning til en profilloglikelihoodfunktion som den i figur 7.8, der er konstrueret ud fra de samme data som figur 7.6. i=1 i=1 l PSfrag replacements α Figur 7.8: Et approksimativt konfidensområde for middelværdien α = βλ i modellen for uafhængige, identisk fordelte Γ-fordelte variable med ukendt form og skala. Tegningen viser profilloglikelihoodfunktionen for α, baseret på n = 100 variable med summariske størrelser givet ved (7.18). De to vandrette streger er afsat i henholdsvis minimum og minimum plus z/2, hvor z er 95%-fraktilen for en χ 2 -fordeling med 1 frihedsgrad. Konfidensområdet for α aflæses på figur 7.8 til at være (13.32, 15.40),

30 230 Kapitel 7. Områdeestimation hvilket er et ret snævert interval (midtpunkt ± 7%), en hel del snævrere end konfidensområdet for formparameteren λ (midtpunkt ± 25%). Middelværdien i en Γ-fordeling bestemmes altså ganske præcist, selv om man kun har forholdsvis få observationer til rådighed. Mens den ekstra information, der skal til for helt at fastlægge fordelingen, er langt sværere at få fat på, og kræver mange observationer. Dette forhold kan for så vidt aflæses af figur 7.6, hvor de todimensionale konfidensområders krumning kan opfattes som et udtryk for at disse områder forsøger at følge de hyperbler, hvorpå α er konstant - det lykkes ikke helt, men de gør et behjertet forsøg. Vi har set at det er ganske let at konstruere et approksimativt konfidensområde for en etdimensional parameterfunktion, når man først har optegnet profilloglikelihoodfunktionen. I praksis finder man naturligvis ikke disse områder ved at udføre grafiske konstruktioner med en lineal, man lader computeren om at beregne intervallerne. Alligevel er det vigtigt at man tegner grafen for profilloglikelihoodfunktionen, for tegningen giver mulighed for en grafisk kontrol af den asymptotiske procedure. Hvis profilloglikelihoodfunktionen har en markant skævhed omkring minimumspunktet, er det et advarselssignal, der fortæller at man skal være varsom med at tro på konfidensområdets nominelle dækningsgrad. Hvis funktionen derimod ligner et andengradspolynomium i hele det konstruerede interval omkring minimumspunktet, vil man være tilbøjelig til at stole på at den asymptotiske situation er indtrådt, og at konfidensområdets faktiske dækningsgrad er tæt på den nominelle. Figur 7.8 giver ingen anledning til nervøsitet på denne konto. Figur 7.7 har derimod en lille skævhed, der dog ikke for alvor rokker ved vores tillid til asymptotikken. Det var ikke på forhånd til at vide at 100 observationer er nok til at den asymptotiske situation er indtrådt i modellen med uafhængige Γ-fordelte variable - og som den manglende ellipticitet af konfidensområderne i figur 7.6 viser, er den asymptotiske situation da heller ikke indtrådt for alle formål. 7.5 Konfidensintervaller ved bootstrap I stedet for den lange række af approksimationer der ledte frem til en pivot, der er approksimativt χ 2 -fordelt, kunne man tage udgangspunkt i følgende noget simplere påstand: hvis τ : Θ R er en reel parameterfunktion, og hvis t : X Θ er en

31 7.5. Konfidensintervaller ved bootstrap 231 estimator for den fulde parameter, så er størrelsen (θ, x) τ(t(x)) τ(θ) (7.20) måske en approksimativ pivot. Vi har i hvert fald forsøgt at stabilisere førstemomentet Et umiddelbart bud kunne være at denne kombinant er approksimativt normalfordelt, men det behøver den ikke at være. Pointen er at hvis vi tror på at pivotegenskaben er opfyldt, så kan vi simulere den fælles fordeling frem. Vi vælger en parameter θ 1 Θ og behandler den som den sande parameter (i praksis vil man ofte lade θ 1 = t(x), sådan at θ 1 faktisk er et estimat af den virkelige sande parameter). Simuler nye datapunkter x 1,..., x N X frem, genereret som uafhængige observationer fra ν θ1. På baggrund af hver af disse falske observationer, reestimerer vi θ, og får estimater t(x 1 ),..., t(x N ). Og dermed får vi τ-estimater τ(t(x 1 )),..., τ(t(x N )). Hvis vi lokaliserer de empiriske 2.5% og 97.5%-fraktiler z 1 og z 2 i den empiriske fordeling af τ(t(x 1 )) τ(θ 1 ),..., τ(t(x N )) τ(θ 1 ), så kan et simpelt områdeestimat for τ nu være D(x) = {η R z 1 < τ(t(x)) η < z 2 } = (τ(t(x)) z 2, τ(t(x)) z 1 ). Denne tilgang til konfidensproblemet kaldes bootstrap. Bootstrap betyder støvlestrop, og begrebet refererer til historien om Baron von Münchausen, der reddede sig op af kviksand ved at hive i sine egne støvlestropper. På analog vis bruger vi her parameterestimatet t(x) (i form at θ 1 ) til at vurdere præcisionen af sig selv Det virker i første omgang urimeligt at man kan få noget fornuftigt ud af det. Men bemærk den ekstra påstand om at (7.20) er en pivot - det er den der får teknikken til at give mening. Hvorvidt denne påstand er rimelig, vil variere fra eksempel til eksempel. Som regel prøver man at basere konstruktionen på kombinanter, der i højere grad end (7.20) må formodes at være pivote, men sådanne kombinanter vil være problemspecifikke. Pointen er naturligvis at man ofte kan finde en næsten-pivot kombinant, og bootstrapteknikken har vist sig at fungere godt i en bred vifte af situationer, også selv om parameterestimatoren t er af tvivlsom kvalitet. Det er således meget populært at bootstrappe i ikke-parametriske eller semiparametriske modeller. Eksempel 7.12 Lad X 1,..., X n være uafhængige, identisk fordelte reelle stokastiske variable, med en ukendt fordeling µ. Vi ønsker at opstillet et 95% konfidensområde

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30 Områdeestimator X (Ω, F) (X, E) x 01 01 P θ ν θ θ Θ 0000 1111 000000 111111 0000 1111 0000 1111 C(x) En områdeestimator er en afbildning C : X P(Θ).. p.1/30 Konfidensområde En områdestimator C : X P(Θ)

Læs mere

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. Estimation Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. En estimator er en gætteregel.. p.1/22 Estimation X acements

Læs mere

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R. Kombinant Lad (ν θ ) θ Θ være en statistisk model på (X, E). En kombinant er en afbildning hvor (Y, K) er endnu et målbart rum. R : X Θ Y Typisk taler vi om reelle kombinanter, hvor Y = R. Som regel forsøger

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Statistik 1TS 2003 Obligatorisk opgave 1

Statistik 1TS 2003 Obligatorisk opgave 1 Afdeling for Statistik og Operationsanalyse Institut for Matematiske Fag, Københavns Universitet 4. marts 2003 Stat 1TS / EH Statistik 1TS 2003 Obligatorisk opgave 1 Formelle forhold: Opgaven stilles tirsdag

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål Statistisk model Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål på (X, E). Modellen er parametriseret hvis der findes en parametermængde Θ og

Læs mere

Estimation. Kapitel 4

Estimation. Kapitel 4 Kapitel 4 Estimation Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). I dette kapitel skal vi diskutere, hvorledes man ud fra en given observation x X kan give et skøn over værdien af

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/26 PSfrag replacements Statistisk

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave 3. februar 2012 Stat 1TS / EH Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i 2. udgave af

Læs mere

Trykfejlsliste - alle fejl Introduktion til matematisk statistik

Trykfejlsliste - alle fejl Introduktion til matematisk statistik 29. juni 2004 Stat 1TS / EH Trykfejlsliste - alle fejl Introduktion til matematisk statistik Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i noterne indtil nu. 4 5 Forkert:

Læs mere

så siges modellen at være! domineret af µ. Hvis modellen er parametriseret P =

så siges modellen at være! domineret af µ. Hvis modellen er parametriseret P = Kapitel 3 Likelihoodfunktionen Lad P være en statistisk model på (X, E). Hvis der findes et σ-endeligt mål µ på (X, E), således at ν µ for alle ν P, så siges modellen at være! domineret af µ. Hvis modellen

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/23 Statistisk hypotese PSfrag replacements

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Statistik 1TS 2005 Obligatorisk opgave 1

Statistik 1TS 2005 Obligatorisk opgave 1 9. marts 2005 Stat 1TS / EH Statistik 1TS 2005 Obligatorisk opgave 1 Formelle forhold: Opgaven stilles onsdag d. 9. marts 2005. Rapporten skal afleveres til mig personligt. Afleveringsfristen er tirsdag

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

Asymptotisk testteori

Asymptotisk testteori Kapitel 8 Asymptotisk testteori Vi vil nu beskæftige os med den asymptotiske teori for estimation under pæne hypoteser og for test af disse hypoteser. Vi skal især undersøge det forhold at hvis den fulde

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Test af statistiske hypoteser

Test af statistiske hypoteser Kapitel 8 Test af statistiske hypoteser De inferensmæssige procedurer, vi hidtil har beskæftiget os med, har haft til formål at lokalisere den sande parameter så godt som muligt, og at beskrive hvor mange

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Normalfordelingens venner og bekendte Helle Sørensen Uge 9, onsdag SaSt2 (Uge 9, onsdag) Normalfordelingens venner 1 / 20 Program Resultaterne fra denne uge skal bruges

Læs mere

Trykfejlsliste - alle fejl Asymptotisk teori

Trykfejlsliste - alle fejl Asymptotisk teori 9. januar 2005 Stat 2A / EH Trykfejlsliste - alle fejl Asymptotisk teori Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i 2A-noterne indtil nu. 9 1 Forkert: x C x ro alle

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Reeksamen 2014/2015 Mål- og integralteori

Reeksamen 2014/2015 Mål- og integralteori Reeksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål. Ved bedømmelsen indgår de spørgsmål med samme vægt.

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Taylors formel. Kapitel Klassiske sætninger i en dimension

Taylors formel. Kapitel Klassiske sætninger i en dimension Kapitel 3 Taylors formel 3.1 Klassiske sætninger i en dimension Sætning 3.1 (Rolles sætning) Lad f : [a, b] R være kontinuert, og antag at f er differentiabel i det åbne interval (a, b). Hvis f (a) = f

Læs mere

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20. Foldning af sandsnlighedsmål Lad µ og ν være to sandsnlighedsmål på (R, B). Fortolkning Lad φ : R R være φ(, ) = + for (, ) R. Lad X og Y være to reelle stokastiske variable defineret på (Ω, F, P). Definition

Læs mere

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Nanostatistik: Konfidensinterval

Nanostatistik: Konfidensinterval Nanostatistik: Konfidensinterval JLJ Nanostatistik: Konfidensinterval p. 1/37 Fraktilpåmindelse u p : Φ(u p ) = p, Φ( z ) = 1 Φ( z ) t p [f] : F t[f] (t p [f]) = p, F t[f] ( t ) = 1 F t[f] ( t ) F-fordeling:

Læs mere

Gruppeteori. Michael Knudsen. 8. marts For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel.

Gruppeteori. Michael Knudsen. 8. marts For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel. Gruppeteori Michael Knudsen 8. marts 2005 1 Motivation For at motivere indførelsen af gruppebegrebet begynder vi med et eksempel. Eksempel 1.1. Lad Z betegne mængden af de hele tal, Z = {..., 2, 1, 0,

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Normalfordelingen og transformation af kontinuerte fordelinger Helle Sørensen Uge 7, mandag SaSt2 (Uge 7, mandag) Normalford. og transformation 1 / 16 Program Paretofordelingen,

Læs mere

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation

Læs mere

Mat H /05 Note 2 10/11-04 Gerd Grubb

Mat H /05 Note 2 10/11-04 Gerd Grubb Mat H 1 2004/05 Note 2 10/11-04 Gerd Grubb Nødvendige og tilstrækkelige betingelser for ekstremum, konkave og konvekse funktioner. Fremstillingen i Kapitel 13.1 2 af Sydsæters bog [MA1] suppleres her med

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

En martingalversion af CLT

En martingalversion af CLT Kapitel 11 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske

Læs mere

Eksamen 2014/2015 Mål- og integralteori

Eksamen 2014/2015 Mål- og integralteori Eksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål Ved bedømmelsen indgår de spørgsmål med samme vægt

Læs mere

Estimation og konfidensintervaller

Estimation og konfidensintervaller Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål Hvad vi mangler fra onsdag Momenter som deskriptive størrelser Sandsynlighedsmål er komplicerede objekter de tildeler numeriske værdier til alle hændelser i en σ-algebra. Vi har behov for simplere, deskriptive

Læs mere

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag.

Hvad vi mangler fra onsdag. Vi starter med at gennemgå slides fra onsdag. Hvad vi mangler fra onsdag Vi starter med at gennemgå slides 34-38 fra onsdag. Slide 1/17 Niels Richard Hansen MI forelæsninger 6. December, 2013 Momenter som deskriptive størrelser Sandsynlighedsmål er

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag I formiddag: Tætheder og fordelingsfunktioner kort resume fra i mandags og et par eksempler mere om sammenhængen

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag SaSt2 (Uge 6, onsdag) Middelværdi og varians 1 / 18 Program I formiddag: Tætheder og fordelingsfunktioner kort resume

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag susanne

Susanne Ditlevsen Institut for Matematiske Fag    susanne Statistik og Sandsynlighedsregning 1 STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 7. undervisningsuge, mandag 1 Estimation og konfidensintervaller

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Uge 10 Teoretisk Statistik 1. marts 2004

Uge 10 Teoretisk Statistik 1. marts 2004 1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt

Læs mere

UDKAST. Indeks. approksimativt konfidensområde, 213, 221 approksimativt konkordansproblem, 34 approksimativt niveaukonstant teststørrelse, l x (θ), 73

UDKAST. Indeks. approksimativt konfidensområde, 213, 221 approksimativt konkordansproblem, 34 approksimativt niveaukonstant teststørrelse, l x (θ), 73 Indeks L x (θ), 72 Q(θ, x), 95 Π N, 190 Θ N, 190 χ 2 -fordeling, 13, 18, 20, 26, 32, 273 asymptotisk, 167, 168, 215, 216, 221, 229, 275 l x (θ), 73 ˆθ, 108 D-kæde, 84 S n, 286, 293 SSD, 114 X, 114 P, 151

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Lokal estimationsteori

Lokal estimationsteori Kapitel 5 Lokal estimationsteori 5.1 Konsistens Vores første delmål er at sikre at regularitetsbetingelserne medfører at den reskalerede konkordanskombinant med meget stor sandsynlighed har en positivt

Læs mere

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m. 1 Uge 11 Teoretisk Statistik 8. marts 2004 Kapitel 3: Fordeling af en stokastisk variabel, X Kapitel 4: Fordeling af flere stokastiske variable, X 1,,X m (på en gang). NB: X 1,,X m kan være gentagne observationer

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Uafhængighed og reelle transformationer Helle Sørensen Uge 8, mandag SaSt2 (Uge 8, mandag) Uafh. og relle transf. 1 / 16 Program I dag: Uafhængighed af kontinuerte

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Nanostatistik: Opgavebesvarelser

Nanostatistik: Opgavebesvarelser Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Betingning med en uafhængig variabel

Betingning med en uafhængig variabel Betingning med en uafhængig variabel Sætning Hvis X er en reel stokastisk variabel med første moment og Y er en stokastisk variabel uafhængig af X, så er E(X Y ) = EX. Bevis: Observer at D σ(y ) har formen

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1 Økonometri 1 Inferens i den lineære regressionsmodel 25. september 2006 Økonometri 1: F6 1 Oversigt: De næste forelæsninger Statistisk inferens: hvorledes man med udgangspunkt i en statistisk model kan

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,

Læs mere

Modelselektion Permeabilitet Permeabilitet Permeabilitet

Modelselektion Permeabilitet Permeabilitet Permeabilitet Modelselektion Permeabilitet Vi vil ud fra et eksempel diskutere de uhyggelige effekter af test-baseret modelselektion. Hvor lang tid er vand om at trænge igennem nyfremstillede byggeplader. Dag Dag Dag

Læs mere

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Binomialfordelingen. X ~ bin(n,p): X = antal succeser i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes. Uge 9 Teoretisk Statistik 23. februar 24 1. Binomialfordelingen 2. Den hypergeometriske fordeling 3. Poissonfordelingen 4. Den negative binomialfordeling 5. Gammafordelingen Binomialfordelingen X ~ bin(n,p):

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Matematisk modellering og numeriske metoder. Lektion 16

Matematisk modellering og numeriske metoder. Lektion 16 Matematisk modellering og numeriske metoder Lektion 16 Morten Grud Rasmussen 6. november, 2013 1 Interpolation [Bogens afsnit 19.3 side 805] 1.1 Interpolationspolynomier Enhver kontinuert funktion f på

Læs mere

Del I. Statistiske grundbegreber

Del I. Statistiske grundbegreber Del I Statistiske grundbegreber 1 2 Kapitel 1 Konkordans Vores behandling af teoretisk statistik vil tage udgangspunkt i følgende centrale problem: Et eksperiment beskrives ved et repræsentationsrum (X,

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Sandsynlighedsteori. Sandsynlighedsteori. Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et. Et Bayesiansk argument

Sandsynlighedsteori. Sandsynlighedsteori. Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et. Et Bayesiansk argument Sandsynlighedsteori Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et sandsynlighedsmål, (, E, ν). Et eksperiment beskrives af et udfaldsrum udstyret med et sandsynlighedsmål,

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Lidt om fordelinger, afledt af normalfordelingen

Lidt om fordelinger, afledt af normalfordelingen IMM, 2002-10-10 Poul Thyregod Lidt om fordelinger, afledt af normalfordelingen 1 Introduktion I forbindelse med inferens i normalfordelinger optræder forskellige fordelinger, der er afledt af normalfordelingen,

Læs mere

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t. t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program (8.15-10): 1. repetition: fordeling af observatorer X, S 2 og t. 2. konfidens-intervaller, hypotese test, type I og type II fejl, styrke,

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte

Læs mere

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k Dagens program: Likelihoodfunktion, begreber : Mandag den 4. februar Den generelle lineære model score-funktion: første afledede af log-likelihood har middelværdien nul observeret information: anden afledede

Læs mere

Maksimaliseringsestimation i praksis

Maksimaliseringsestimation i praksis Kapitel 6 Maksimaliseringsestimation i praksis Lærebogseksempler på statistiske modeller er gerne så simple at man er i stand til eksplicit at maksimere likelihoodfunktionen, og opnå lukkede udtryk for

Læs mere

Sandsynlighedsregning Oversigt over begreber og fordelinger

Sandsynlighedsregning Oversigt over begreber og fordelinger Tue Tjur Marts 2007 Sandsynlighedsregning Oversigt over begreber og fordelinger Stat. MØK 2. år Kapitel : Sandsynlighedsfordelinger og stokastiske variable En sandsynlighedsfunktion på en mængde E (udfaldsrummet)

Læs mere