Noter til E6. Del 2: Statistik. Jørgen Larsen

Størrelse: px
Starte visningen fra side:

Download "Noter til E6. Del 2: Statistik. Jørgen Larsen"

Transkript

1 Noter til E6 Del 2: Statistik Jørgen Larsen Marts 2004

2 Teksten er sat med skriften ved hjælp af pdfl A TEX. De fleste af tegningerne er fremstillet med METAPOST.

3 Indhold Indledning 3 2 Den statistiske model 5 2. Eksempler Opgaver Estimation 9 3. Maksimaliseringsestimatoren Eksempler Opgaver Hypoteseprøvning Kvotienttestet Eksempler Opgaver Nogle eksempler Rismelsbiller Lungekræft i Fredericia Ulykker på en granatfabrik Den flerdimensionale normalfordeling Flerdimensionale stokastiske variable Definition og egenskaber Lineære normale modeller 8 7. Estimation og test, generelt Enstikprøveproblemet Ensidet variansanalyse Bartletts test for varianshomogenitet Tosidet variansanalyse Regressionsanalyse Opgaver A En udledning af normalfordelingen 09 B Nogle resultater fra lineær algebra 3

4 2 Indhold C Tabeller 7 D Noter 25 Stikord 27

5 Indledning Hvor sandsynlighedsregningen handler om at opstille og analysere sandsynlighedsmodeller for tilfældighedsfænomener (samt om at etablere det fornødne begrebsapparat), handler disciplinen matematisk statistik grundlæggende om at etablere og undersøge metoder til at uddrage informationer af talmaterialer der er behæftede med en usikkerhed der antages at kunne beskrives med passende sandsynlighedsfordelinger, og disciplinen anvendt statistik handler om hvordan disse metoders indgår i konkrete typer af modelleringsprocesser. Den type af problemstillinger som det kommer til at handle om, kan kort skitseres således: Der foreligger et sæt tal x, x 2,..., x n der vil blive omtalt som observationerne (observationerne kunne f.eks. være resultaterne af 5 målinger af kviksølvindholdet i sværdfisk). Man opstiller en statistisk model gående ud på at observationerne er observerede værdier af stokastiske variable X, X 2,..., X n der har en eller anden nærmere præciseret simultan fordeling der er kendt pånær nogle få ukendte parametre (f.eks. kunne X-erne være uafhængige identisk normalfordelte med de to ukendte parametre µ og σ 2 ). Der er herefter tre hoved-problemstillinger:. Estimation. På grundlag af observationer plus model skal der udregnes et estimat (dvs. et skøn eller overslag) over de ukendte parametres værdier; estimatet skal naturligvis være så godt som muligt (i en eller anden forstand der skal præciseres nærmere). 2. Hypoteseprøvning. I forbindelse med den faglige problemstilling kan der være forskellige interessante statistiske hypoteser man ønsker at teste. En statistisk hypotese er et udsagn om at parameterstrukturen er simplere end først påstået (f.eks. at visse parametre er kendte eller er ens). 3. Modelkontrol. Statistiske modeller er ofte ikke det fjerneste»naturtro«i den forstand at de søger at efterligne de»virkelige«mekanismer der har frembragt observationerne. Arbejdet med tilpasning og kontrol af modellen og vurdering af modellens brugbarhed får derfor et anderledes indhold og en anderledes betydning end det er tilfældet ved så mange andre typer af matematiske modeller. 3

6 4 Indledning Ronald Aylmer Fisher ( ), engelsk statistiker og genetiker. Grundlæggeren af faget teoretisk statistik (i hvert fald faget i den udgave som præsenteres i nærværende noter). I 922 forklarede han formålet med statistiske metoder således: In order to arrive at a distinct formulation of statistical problems, it is necessary to define the task which the statistician sets himself: briefly, and in its most concrete form, the object of statistical methods is the reduction of data. A quantity of data, which usually by its mere bulk is incapabel if entering the mind, is to be replaced by relatively few quantities which shall adequately represent the whole, or which, in other words, shall contain as much as possible, ideally the whole, of the relevant information contained in the original data. Læsevejledning De tre teoriorienterede kapitler (Den statistiske model, Estimation og Hypoteseprøvning) består af en koncentreret tekst der skal læses langsomt, og nogle gennemgående eksempler der viser hvordan teorien tager sig ud når den anvendes på bestemte modeltyper eller modeller. Derefter følger et kapitel med nogle større eksempler, som i øvrigt også optræder (i en lidt anden garnering) i Imfufa-tekst 304. I de sidste 40 år har der i dansk matematisk statistik været en stærk tradition for at gøre meget ud af at benytte den rigtige matematiske formulering af de matematiske modeller. Dette gælder i ganske særlig grad for normalfordelingsmodeller som nemlig med stor fordel kan formuleres i lineær algebra-sprog. Denne tradition er det værd at holde ved lige, så derfor foregår hovedbehandlingen af normalfordelingsmodeller i et kapitel med overskriften Lineære normale modeller (kapitel 7); for god ordens skyld kommer der først et kapitel der giver en formel definition af den flerdimensionale normalfordeling. Som en service er der desuden et appendiks med visse resultater fra lineær algebra. Fodnoter markeres med fodnotesymboler så som stjerne og kors. Slutnoter markeres med tal ; selve slutnoterne står til sidst (side 25).

7 2 Den statistiske model Vi vil først give en forholdsvis abstrakt præsentation af begrebet en statistisk model og nogle af de tilhørende begrebdannelser, sidenhen kommer en række illustrative eksempler. Der foreligger en observation x = (x, x 2,..., x n ) som antages at være en observeret værdi af en stokastisk variabel X = (X, X 2,..., X n ) med værdier i observationsrummet X; mængden X er ofte R n eller N n 0. For hver værdi af en parameter θ tilhørende parameterrummet Θ har man et sandsynlighedsmål P θ på X. Disse P θ er er alle sammen kandidater til at være X s fordeling, og for (mindst) én værdi θ er det rigtigt at X s fordeling er P θ. Udsagnet»x er en observeret værdi af den stokastiske variabel X, og for mindst én værdi af θ Θ er det rigtigt at fordelingen af X er P θ «er (en formulering af) den statistiske model. Modelfunktionen er en funktion f : X Θ [ 0 ; + [ sådan at for hvert fast θ Θ er funktionen x f(x, θ) den sandsynligheds(tætheds)- funktion som X har hvis θ er den rigtige værdi af parameteren. Likelihoodfunktionen svarende til x er funktionen L : Θ [ 0 ; + [ givet ved L(θ) = f(x, θ). Likelihoodfunktionen kommer til at spille en central rolle i forbindelse med teorien for estimation af parametre og test af statistiske hypoteser. Hvis man kan skrive likelihoodfunktionen som L(θ) = g(x) h(t(x), θ) for passende valgte funktioner g, h og t, så siges t at være sufficient (eller at give en sufficient datareduktion). Sufficiensbegrebet er især interessant når t afbilder ind i et rum af meget mindre dimension end X, typisk R eller R 2. Bemærkninger:. Parametre betegnes ofte med græske bogstaver. 2. Parameterrummet Θ er normalt af meget mindre dimension end observationsrummet X. 3. Man vil sædvanligvis tilstræbe at parametriseringen er injektiv, dvs. at afbildningen θ P θ er injektiv. 4. Likelihoodfunktionen skal ikke summere eller integrere til. 5. Man opererer ofte med log-likelihoodfunktionen, dvs. logaritmen til likelihoodfunktionen. Man benytter som regel den naturlige logaritme. 5

8 6 Den statistiske model Punkt-notationen Hvis man har nogle indicerede værdier, f.eks. a, a 2,..., a n, bruger man som betegnelse for summen af dem det samme symbol, men med et punkt på indexets plads: nx a = a i i= Tilsvarende hvis der er mere end et index: og b i = X j b j = X i b ij b ij Lidt mere notation:. Undertiden har vi brug for at præcisere at L er likelihoodfunktionen hørende netop til x, og så vil vi skrive L(θ; x). 2. Symbolerne E θ og Var θ bruges når der er grund til at præcisere at middelværdien hhv. variansen udregnes med hensyn til den sandsynlighedsfordeling der svarer til parameterværdien θ, dvs. med hensyn til P θ. 2. Eksempler Enstikprøveproblemet for 0-variable I den generelle formulering af enstikprøveproblemet for 0-variable har man en observation x = (x, x 2,..., x n ) der antages at være en observeret værdi af en stokastisk variabel X = (X, X 2,..., X n ) med værdier i X = {0, } n. De enkelte X er antages at være uafhængige identisk fordelte 0-variable, og P(X i = ) = θ hvor θ er den ukendte parameter. Parameterrummet er Θ = [ 0 ; ]. Modelfunktionen er f(x, θ) = θ x ( θ) n x, (x, θ) X Θ, og likelihoodfunktionen er L(θ) = θ x ( θ) n x, θ Θ. Som det ses, afhænger likelihoodfunktionen kun af x gennem x, dvs. x er sufficient, eller mere præcist: funktionen der afbilder x over i x, er sufficient. [Læs fortsættelsen side 2.] Eksempel 2. Lad os sige at man har udført 7 gentagelser af et forsøg der har de to mulige udfald 0 og, og at man har opnået værdierne,, 0,,, 0, 0. Vi vil opstille en statistisk model herfor. Der foreligger observationen x = (,, 0,,, 0, 0) som antages at være en værdi af en 7-dimensional stokastisk variabel X = (X, X 2,..., X 7) med værdier i X = {0, } 7. De enkelte X i er antages at være uafhængige identisk fordelte 0-variable, og P(X i = ) = θ hvor θ er den ukendte parameter. Parameterrummet er Θ = [ 0 ; ]. Modelfunktionen er f(x, θ) = 7Y θ x i ( θ) x i = θ x ( θ) 7 x. i= Likelihoodfunktionen svarende til observationen x = (,, 0,,, 0, 0) er L(θ) = θ 4 ( θ) 3, θ [ 0 ; ].

9 2. Eksempler 7 Den simple binomialfordelingsmodel Binomialfordelingen fremkommer som fordelingen af en sum af uafhængige identisk fordelte 0-variable, så det vil næppe overraske at statistisk analyse af binomialfordelte observationer minder særdeles meget om statistisk analyse af 0-variable. Hvis Y er binomialfordelt med (kendt) antalsparameter n og ukendt sandsynlighedsparameter θ [ 0 ; ], er modelfunktionen f(y, θ) = ( n y ) θ y ( θ) n y hvor (y, θ) X Θ = {0,, 2,..., n} [ 0 ; ], og likelihoodfunktionen er ( ) n L(θ) = θ y ( θ) n y, θ [ 0 ; ]. y [Læs fortsættelsen side 22.] Eksempel 2.2 Hvis man i eksempel 2. ikke interesserede sig for udfaldene af de syv enkeltforsøg, men kun for det samlede antal er, så ville situationen være den at man havde en observation y = 4 af en binomialfordelt stokastisk variabel Y med antalsparameter n = 7 og ukendt sandsynlighedsparameter θ. Observationsrummet er X = {0,, 2, 3, 4, 5, 6, 7} og parameterrummet er Θ = [ 0 ; ]. Modelfunktionen er! f(y, θ) = 7 θ y ( θ) 7 y. y Likelihoodfunktionen svarende til observationen y = 4 er! L(θ) = 7 4 θ 4 ( θ) 3, θ [ 0 ; ]. f(y, θ) = θ y ( ) 7 θ y ( θ) 7 y y Eksempel 2.3 (Rismelsbiller I) I en del af et eksempel der omtales nærmere i afsnit 5., optræder 44 rismelsbiller (Tribolium castaneum) som udsættes for en bestemt dosis af insektgiften pyrethrum, hvorved 43 af dem dør i løbet af den fastsatte observationsperiode. Hvis vi går ud fra at billerne er»ens«og dør eller ikke dør af giften uafhængigt af hinanden, så kan vi tillade os at formode at antallet y = 43 er en observation af en binomialfordelt stokastisk variabel Y der har antalsparameter n = 44 og ukendt sandsynlighedsparameter θ. Den statistiske model er da givet ved modelfunktionen! 44 f(y, θ) = θ y ( θ) 44 y, (y, θ) {0,, 2,..., 44} [ 0 ; ]. y Likelihoodfunktionen svarende til observationen y = 43 er! 44 L(θ) = θ 43 ( θ) 44 43, θ [ 0 ; ]. 43 [Eksemplet fortsætter i eksempel 3. side 22.]

10 8 Den statistiske model Tabel 2. Skematisk opstilling ved sammenligning af binomialfordelinger gruppe nr s antal gunstige y y 2 y 3... y s antal ikke-gunstige n y n 2 y 2 n 3 y 3... n s y s i alt n n 2 n 3... n s Sammenligning af binomialfordelinger Man har observationer y, y 2,..., y s af stokastiske variable Y, Y 2,..., Y s der er indbyrdes uafhængige binomialfordelte således at Y j har antalsparameter n j (kendt) og sandsynlighedsparameter θ j [ 0 ; ]. Man kan med fordel tænke på observationerne som foreliggende i et skema som i tabel 2.. Modelfunktionen er s ( ) nj f(y, θ) = θ yj j ( θ j ) nj yj j= y j hvor parametervariablen θ = (θ, θ 2,..., θ s ) varierer i Θ = [ 0 ; ] s, og s observationsvariablen y = (y, y 2,..., y s ) varierer i X = {0,,..., n j }. Likelihoodfunktionen og log-likelihoodfunktionen svarende til y er L(θ) = konst ln L(θ) = konst 2 + s j= θ yj j ( θ j ) nj yj, j= s ( yj ln θ j + (n j y j ) ln( θ j ) ) j= hvor konst er produktet af de s binomialkoefficenter, og hvor konst 2 er ln(konst ). [Fortsættes side 22.] Eksempel 2.4 (Rismelsbiller II) Man har udsat nogle rismelsbiller for gift i forskellige koncentrationer, nemlig 0.20, 0.32, 0.50 og 0.80 mg/cm 2, og dernæst set hvor mange af billerne der var døde efter 3 dages forløb. (Giften strøs ud på gulvet hvor billerne færdes, derfor måles koncentrationen i mængde pr. areal.) Forsøgsresultaterne er vist i tabel 2.2. Man er interesseret i at undersøge om der er forskel på virkningen af de forskellige koncentrationer. Vi vil derfor opstille en statistisk model der gør en sådan undersøgelse mulig. Som i eksempel 2.3 vil vi antage at antal døde biller ved hver af de fire giftkoncentrationer kan opfattes som observerede værdier af binomialfordelte

11 2. Eksempler 9 Tabel 2.2 Rismelsbillers overlevelse ved forskellige giftdoser. koncentration antal døde antal ikke døde i alt stokastiske variable. Vi lader y j betegne antal døde biller og n j antal biller i alt ved koncentration nr. j, j =, 2, 3, 4. Den statistiske model er da at y = (y, y 2, y 3, y 4) = (43, 50, 47, 48) er en observeret værdi af en firedimensional stokastisk variabel Y = (Y, Y 2, Y 3, Y 4) hvor Y, Y 2, Y 3 og Y 4 er indbyrdes uafhængige binomialfordelte med antalsparametre n = 44, n 2 = 69, n 3 = 54 og n 4 = 50 og sandsynlighedsparametre θ, θ 2, θ 3 og θ 4. Modelfunktionen er f(y, y 2, y 3, y 4; θ, θ 2, θ 3, θ 4)! 44 = θ y ( θ ) 44 y y 54 y 3! θ y 3 3 ( θ 3) 54 y3! 69 θ y 2 2 ( θ 2) 69 y2 50 y 4 y 2! θ y 4 4 ( θ 4) 50 y 4. Log-likelihoodfunktionen svarende til observationen y er ln L(θ, θ 2, θ 3, θ 4) = konst + 43 ln θ + 0 ln( θ ) + 50 ln θ ln( θ 2) + 47 ln θ ln( θ 3) + 48 ln θ ln( θ 4). [Eksemplet fortsætter i eksempel 3.2 side 22.] Multinomialfordelingen Multinomialfordelingen er en generalisation af binomialfordelingen: I situationer hvor man har at gøre med n uafhængige gentagelser af et grundforsøg der kan resultere i et af to mulige udfald, vil antallet af gange man får den ene slags udfald, være binomialfordelt (jf. eksempel 2.0 i Del ). I situationer hvor man har at gøre med n uafhængige gentagelser af et grundforsøg der kan resultere i et af r mulige udfald ω, ω 2,..., ω r, kan man interessere sig for de stokastiske variable Y i der er lig antal gange man får udfaldet ω i, i =, 2,..., r. Den r-dimensionale stokastiske variabel Y = (Y, Y 2,..., Y r ) vil blive multinomialfordelt. Under de beskrevne omstændigheder er fordelingen af Y af formen P(Y = y) = ( ) r n θ yi i (2.) y y 2... y r i=

12 0 Den statistiske model når y = (y, y 2,..., y r ) er et sæt af ikke-negative heltal der summerer til n; parameteren θ = (θ, θ 2,..., θ r ) er et sæt af ikke-negative reelle tal der summerer til, og θ i er sandsynligheden for at grundforsøget giver udfaldet ω i. Størrelsen ( ) n n! = y y 2... y r r y i! er en såkaldt multinomialkoefficient og er lig med antallet af måder hvorpå man kan dele en mængde med n elementer op i r delmængder sådan at delmængde nr. i indeholder netop y i elementer, i =, 2,..., r. Sandsynlighedsfordelingen givet ved sandsynlighedsfunktionen (2.) omtales som multinomialfordelingen med r klasser (eller kategorier) og med antalsparameter n (som er et kendt tal) og sandsynlighedsparameter θ. [Læs fortsættelsen side 23.] Eksempel 2.5 (Torsk i Østersøen) Den 6. marts 96 fangede nogle havbiologer 69 torsk ved Lolland og undersøgte arten af blodets hæmoglobin i hver enkelt torsk. Senere på året fangede man desuden nogle torsk ved Bornholm og ved Ålandsøerne og undersøgte dem på samme måde. 2 Man mener at hæmoglobin-arten bestemmes af ét enkelt gen, og det som biologerne bestemte, var torskenes genotype for så vidt angår dette gen. Genet kan optræde i to udgaver som traditionen tro kaldes for A og a, og de mulige genotyper er da AA, Aa og aa. Den fundne fordeling på genotyper for hver af de tre lokaliteter ses i tabel 2.3. På hver geografisk lokalitet har man klassificeret et antal torsk i tre mulige klasser, så på hver lokalitet er der tale om en multinomialfordelingssituation. (Når der er tre klasser, taler man også om en trinomialfordeling.) Som grundmodel benytter vi derfor den model der siger at de tre observerede tripler y L = 0 y y 2L A = 0 30A, y 3L 2 y B = 0 y y 2B A = y 3B 0 20A, y Å y Å y 2Å y 3Å A = stammer fra hver sin multinomialfordeling med antalsparametre hhv. n L = 69, n B = 86 og n Å = 80 og med sandsynlighedsparametre hhv. 0 θ L 0 θ B 5 75 A. θ L θ 2L A, θ B θ 2B A, θ Å θ A 2Å. θ 3L θ 3B θ 3Å 0 θ Å

13 2. Eksempler Tabel 2.3 Genotypefordeling af torsk fra tre lokaliteter i Østersøen. AA Aa aa Lolland Bornholm Ålandsøerne i alt [Eksemplet fortsættes i eksempel 3.3 side 24.] Enstikprøveproblemet i Poissonfordelingen Den simpleste situation er som følger. Man har observationer y, y 2,..., y n af uafhængige identisk Poissonfordelte stokastiske variable Y, Y 2,..., Y n med parameter µ. Modelfunktionen er f(y, µ) = = n j= µ y j= µ yj y j! e µ e n nµ, y j! hvor µ 0 og y N n 0. Likelihoodfunktionen er og log-likelihoodfunktionen er [Læs fortsættelsen side 24.] L(µ) = konst µ y e nµ, ln L(µ) = konst + y ln µ nµ. Eksempel 2.6 (Hestespark) For hvert af de 20 år fra 875 til 894 har man for hvert af den prøjsiske armés 0 regimenter registreret hvor mange soldater der døde fordi de blev sparket af en hest. 3 Det vil sige at man for hvert af de 200»regiment-år«kender antal dødsfald som følge af hestespark. Man kan give en oversigt over disse tal ved at angive i hvor mange regimentår der var 0 dødsfald, i hvor mange der var dødsfald, i hvor mange der var 2, osv., dvs. man klassificerer regiment-årene efter antal dødsfald. Det viste sig at det største antal dødsfald pr. regiment-år var fire. Ved klassificeringen bliver der derfor fem klasser svarende til 0,, 2, 3 og 4 døde pr. år. De faktiske tal ses i tabel 2.4. Man må formode at det i høj grad var tilfældigheder der bestemte om en given soldat blev sparket til døde af en hest eller ej. Derfor er det også i høj grad

14 2 Den statistiske model Tabel 2.4 Antal dødsfald som følge af hestespark i den prøjsiske armé. antal dødsfald y antal regiment-år med y dødsfald tilfældigheder der har afgjort om et givet regiment i et givet år nu fik 0 eller eller 2 osv. døde som følge af hestespark. Set fra en passende stor»flyvehøjde«kan man måske godt finde på at antage at dødsfaldene indtræffer uafhængigt af hinanden og med samme intensitet året igennem, således at betingelsene for en Poissonfordelingsmodel er til stede. Vi vil derfor forsøge os med den statistiske model der siger at de 200 observationer y, y 2,..., y 200 er observationer af indbyrdes uafhængige identisk stokastiske variable Y, Y 2,..., Y 200 der er Poissonfordelte med parameter µ. [Eksemplet fortsætter i eksempel 3.4 side 25.] Ligefordeling på et interval Dette eksempel har så vidt vides ikke den store praktiske anvendelse, men det kan være nyttigt for at afprøve teorien. Antag at x, x 2,..., x n er observationer af indbyrdes uafhængige identisk fordelte stokastiske variable X, X 2,..., X n som er ligefordelte på intervallet ] 0 ; θ [ hvor θ > 0 er den ukendte parameter. Tæthedsfunktionen for X i er f(x, θ) = { /θ når x < θ 0 ellers, så modelfunktionen er f(x, x 2,..., x n, θ) = { /θ n når x max < θ 0 ellers. Her er x max = max{x, x 2,..., x n }. [Læs fortsættelsen side 25.] Enstikprøveproblemet i normalfordelingen Man har observationer y, y 2,..., y n af uafhængige identisk normalfordelte stokastiske variable med middelværdi µ og varians σ 2. Modelfunk-

15 2. Eksempler 3 tionen er f(y, µ, σ 2 ) = n j= 2πσ 2 exp ( 2 = (2πσ 2 ) n/2 exp 2σ 2 hvor y = (y, y 2,..., y n ) R n, µ R og σ 2 > 0. Standardomskrivninger giver at n (y j µ) 2 altså j= = = = n ( (yj y) + (y µ) ) 2 j= j= (y j µ) 2 ) σ 2 n (y j µ) 2 j= n n (y j y) 2 + 2(y µ) (y j y) + n (y µ) 2 j= n (y j y) 2 + n(y µ) 2, j= n (y j µ) 2 = j= n (y j y) 2 + n(y µ) 2. (2.2) j= Ved hjælp heraf får vi log-likelihoodfunktionen til ln L(µ, σ 2 ) (2.3) = konst n 2 ln(σ2 ) n 2σ 2 (y j µ) 2 = konst n 2 ln(σ2 ) 2σ 2 j= n (y j y) 2 j= n(y µ)2 2σ 2. Vi kan i øvrigt udnytte formel (2.2) til endnu et formål: hvis vi indsætter µ = 0, får vi n n n (y j y) 2 = yj 2 ny 2 = yj 2 n y2 j= j= dvs. summen af de kvadratiske afvigelser af y erne fra y kan udregnes ud fra summen af y erne og summen af kvadraterne på y erne. For at udregne likelihoodfunktionen behøver man altså ikke kende de enkelte observationer, det er nok at kende summen og summen af kvadraterne (dvs. stikprøvefunktionen t(y) = ( y, y 2 ) er sufficient (jf. side 5)). [Læs fortsættelsen side 25.] j=

16 4 Den statistiske model Tabel 2.5 Newcombs bestemmelser af lysets passagetid af en strækning på 7442 m. Tabelværdierne er passagetiden i 0 6 sek Eksempel 2.7 (Lysets hastighed) I årene foretog den amerikanske fysiker A.A. Michelson og den amerikanske matematiker og astronom S. Newcomb en række efter den tids forhold temmelig nøjagtige bestemmelser af lysets hastighed i luft. Deres metoder var baseret på Foucaults idé med at sende en lysstråle fra et hurtigt roterende spejl hen på et fjernt fast spejl som returnerer lysstrålen til det roterende spejl, hvor man måler dens vinkelforskydning i forhold til den oprindelige lysstråle. Hvis man kender rotationshastigheden samt afstanden mellem spejlene, kan man derved bestemme lyshastigheden. I tabel 2.5 er vist resultaterne af de 66 målinger som Newcomb foretog i perioden 24. juli til 5. september 882 i Washington, D.C. I Newcombs opstilling var der 372 m mellem det roterende spejl der var placeret i Fort Myer på vestbredden af Potomac-floden, og det faste spejl der var anbragt på George Washington-monumentets fundament. Den størrelse som Newcomb rapporterer, er lysets passagetid, altså den tid som det er om at tilbagelægge den pågældende distance. Af de 66 værdier i tabellen skiller to sig ud, nemlig 44 og 2, der synes at være outliers, altså tal der tilsyneladende ligger for langt væk fra flertallet af observationerne. I den efterfølgende analyse af tallene vil vi vælge at se bort fra de to nævnte observationer, og der indgår således kun 64 observationer i analysen. [Eksemplet fortsættes i eksempel 3.5 side 26.] Tostikprøveproblemet i normalfordelingen Man har to grupper af individer, og på hvert individ har man målt værdien af en bestemt variabel Y. Individerne i den ene gruppe hører ikke sammen med dem i den anden gruppe på nogen måde, de er uparrede. Der behøver heller ikke være lige mange observationer i de to grupper. Skematisk ser situationen sådan ud:

17 2. Eksempler 5 observationer gruppe y y 2... y j... y n gruppe 2 y 2 y y 2j... y 2n2 Her betegner y ij observation nr. j i gruppe nr. i, i =, 2. Grupperne har henholdsvis n og n 2 observationer. Vi vil gå ud fra at forskellen mellem observationer inden for en gruppe er tilfældig, hvorimod der er en systematisk forskel på to de grupper det er derfor at observationerne er inddelt i grupper! Endelig antages at y ij -erne er observerede værdier af uafhængige stokastiske variable Y ij som er normalfordelte med samme varians σ 2 og med E Y ij = µ i, j =, 2,..., n i, i =, 2. På denne måde beskriver de to middelværdiparametre µ og µ 2 den systematiske variation, dvs. de to gruppers niveauer, medens variansparameteren σ 2 (samt normalfordelingen) beskriver den tilfældige variation der altså er den samme i begge grupper (denne antagelse kan man eventuelt teste, se opgave 4.2 side 45). Modelfunktionen er 2 n i ( ) (y ij µ i ) 2 n f(y, µ, µ 2, σ 2 ) = exp 2πσ 2 i= j= 2 σ 2 hvor y = (y, y 2, y 3,..., y n, y 2, y 22,..., y 2n2 ) R n, (µ, µ 2 ) R 2 og σ 2 > 0; vi har her sat n = n + n 2. Den til (2.2) svarende spaltning af kvadratsummen er 2 n i (y ij µ i ) 2 = i= j= hvor y i = n n i j= 2 n i (y ij y i ) 2 + i= j= y ij er gennemsnittet i gruppe nr. i. Log-likelihoodfunktionen er 2 n i (y i µ i ) 2 ln L(µ, µ 2, σ 2 ) (2.4) = konst n 2 ln(σ2 ) 2 n i 2 2σ 2 (y ij y i ) 2 + n i (y i µ i ) 2. [Fortsættes side 27.] i= j= Eksempel 2.8 (C-vitamin) C-vitamin (ascorbinsyre) er et veldefineret kemisk stof som man sagtens kan fremstille industrielt, og man skulle tro at det industrielt fremstillede virker på nøjagtig samme måde som»naturligt«c-vitamin. For at undersøge om det nu også forholder sig sådan, har man foretaget et eksperiment med nogle marsvin (små gnavere). i= i=

18 6 Den statistiske model Man delte 20 nogenlunde ens marsvin op i to grupper, hvoraf den ene fik appelsinsaft, og den anden fik en tilsvarende mængde»kunstigt«c-vitamin. Efter seks ugers behandling målte man længden af fortændernes odontoblaster (det tandbensdannende væv). Man fik da disse resultater (i hver gruppe er observationerne ordnet efter størrelse): appelsinsaft: kunstigt C-vitamin: Man kan fastslå at der må være tale om en art tostikprøveproblem. Karakteren af observationerne gør at det ikke er urimeligt at forsøge sig med en normalfordelingsmodel af en slags, og det er alt i alt nærliggende at sige at der er tale om et»tostikprøveproblem med normalfordelte observationer«. Vi vil analysere observationerne ved brug af denne model, mere nøjagtigt vil vi undersøge om odontoblasternes middelvækst er den samme i de to grupper. [Eksemplet fortsætter som eksempel 3.6 side 28.] Simpel lineær regression Regressionsanalyse, der er en stor underafdeling inden for statistik, handler om at modellere middelværdistrukturen for (det som modellen opfatter som) de stokastiske variable ved hjælp af et større eller mindre antal kvantitative variable. Her ser vi på det simpleste tilfælde. Der foreligger et antal sammenhørende værdier (x i, y i ), i =, 2,..., n, hvor y i erne opfattes som observerede værdier af stokastiske variable Y, Y 2,..., Y n, og x i erne er såkaldte baggrundsvariable eller forklarende variable. Det er en væsentlig pointe at x erne ifølge modellen er ikke-stokastiske. Den simple lineære regressionsmodel går ud på at Y i erne er indbyrdes uafhængige normalfordelte stokastiske variable med samme varians σ 2 og med en middelværdistruktur af formen E Y i = α + βx i, eller sagt mere præcist: der findes konstanter α og β således at E Y i = α + βx i for alle i. Modellen indeholder således tre ukendte parametre, α, β og σ 2. Modelfunktionen er n ( f(y, α, β, σ 2 ) = exp (y i (α + βx i )) 2 ) i= 2πσ 2 2 σ 2 ( ) = (2πσ 2 ) n/2 exp n 2σ 2 (y i (α + βx i )) 2 hvor y = (y, y 2,..., y n ) R n, α, β R og σ 2 > 0. Log-likelihoodfunktionen er [Fortsættes side 28.] ln L(α, β, σ 2 ) = n 2 ln σ2 2σ 2 i= n (y i (α + βx i )) 2. (2.5) i=

19 2.2 Opgaver 7 Tabel 2.6 Forbes barometriske målinger. Kogepunktet er angivet i F, lufttrykket i inches Kviksølv. Kogepunkt Lufttryk Eksempel 2.9 (Forbes barometriske målinger) Som bekendt aftager lufttrykket med højden over havets overflade, og derfor kan et barometer benyttes som højdemåler. Da vands kogepunkt aftager med lufttrykket, kan man imidlertid også bestemme højden ved at koge vand. I 840erne og 850erne foretog den skotske fysiker James D. Forbes på 7 forskellige lokaliteter i Alperne og i Skotland en række målinger hvor han bestemte dels vands kogepunkt, dels luftens tryk (omregnet til lufttrykket ved en standardlufttemperatur). Resultaterne er vist i tabel 2.6. Hvis man på en tegning afsætter Lufttryk som funktion af Kogepunkt, ser man at der er en tydelig sammenhæng (figur 2., nederst). Man kunne derfor overveje at opstille en lineær regressionsmodel med Lufttryk som y og Kogepunkt som x. Hvis man konsulterer en fysiker, kan man dog få at vide at man i højere grad skulle forvente en lineær sammenhæng mellem Kogepunkt og logaritmen til Lufttryk, hvilket også bekræftes af en figur (figur 2., øverst), så vi vil i stedet prøve at beskrive data ved hjælp af en regressionsmodel hvor man som y bruger logaritmen til lufttrykket og som x kogepunktet. [Eksemplet fortsættes i eksempel 3.7 side 30.] 2.2 Opgaver Opgave 2. Gør rede for at binomialfordelingen faktisk er en instans af multinomialfordelingen.

20 8 Den statistiske model ln(lufttryk) Lufttryk Kogepunkt Figur 2. Forbes målinger: Lufttryk afsat mod Kogepunkt (nederst), og logaritmen til Lufttryk afsat mod Kogepunkt (øverst). Trykket er målt i inches Kviksølv, temperaturen i F. Opgave 2.2 Binomialfordelingen blev defineret som fordelingen af en sum af uafhængige identisk fordelte 0-variable (definition 2.0 side 9 i Del ). Overvej hvordan man kan generalisere denne definition til en definition af multinomialfordelingen som fordelingen af en sum af uafhængige variable.

21 3 Estimation En statistisk model er et udsagn om at det foreliggende datamateriale kan opfattes som en observation fra en bestemt sandsynlighedsfordeling der er specificeret pånær nogle få ukendte parametre. I dette kapitel skal vi beskæftige os med estimationsproblemet, dvs. det problem hvordan man ud fra model plus observationer skal bære sig ad med at udregne et skøn eller estimat over modellens ukendte parametre. Man kan ikke inden for matematikkens rammer deducere sig frem til en løsning, det er nødvendigt at inddrage et eller flere udefra kommende principper undervejs. Afhængigt af hvilke principper man vælger at gå ud fra, kan man få forskellige estimationsmetoder. I det følgende præsenterer vi den metode som man»plejer«at bruge her i landet (og i mange andre lande). Først lidt terminologi: En stikprøvefunktion er en funktion der er defineret på observationsrummet X (og som afbilder ind i R eller R n ). Hvis t er en stikprøvefunktion, er t(x) en stokastisk variabel; ofte skelner man ikke så voldsomt meget mellem t og t(x). En estimator er en stikprøvefunktion (eller stokastisk variabel) med værdier i parameterrummet Θ. Det er lidt underforstået at estimatoren skal være et nogenlunde godt bud på den sande værdi af parameteren. Et estimat er en værdi som estimatoren antager, dvs. hvis t (eller t(x)) er en estimator, så er t(x) et estimat. En central estimator for g(θ) (hvor g er en funktion defineret på Θ) er en estimator t med den egenskab at E θ (t(x)) = g(θ) for ethvert θ, dvs. en estimator som»i middel rammer rigtigt«. 3. Maksimaliseringsestimatoren Antag at der foreligger en observation x der antages at kunne beskrives med en statistisk model der er specificeret ved modelfunktionen f(x, θ). Hvis man skal vurdere de forskellige mulige θ-værdier for at finde en der kan udnævnes til at være et godt bud på»den sande værdi«, kunne man basere vurderingen på værdierne af likelihoodfunktionen L(θ) = f(x, θ): hvis L(θ ) > L(θ 2 ), så er θ et bedre bud på den sande værdi end θ 2 9

22 20 Estimation er; hvis man godtager dette ræsonnement, så må konsekvensen være at θ skal estimeres som den værdi θ der maksimaliserer L. Definition 3. Maksimaliseringsestimatoren er den funktion der til en observation x X leverer maksimumspunktet θ = θ(x) for likelihoodfunktionen svarende til x. Maksimaliseringsestimatet er den værdi som maksimaliseringsestimatoren antager. Ovenstående definition er naturligvis noget sjusket og ufuldstændig: der er ingen der siger at likelihoodfunktionen har netop ét maksimumspunkt, man kan godt komme ud for at der er flere maksimumspunkter, eller slet ingen. En lidt bedre definition kunne se sådan ud: Definition 3.2 Et maksimaliseringsestimat hørende til observationen x er et maksimumspunkt θ(x) for likelihoodfunktionen hørende til x. En maksimaliseringsestimator er en (ikke nødvendigvis overalt defineret) funktion af X ind i Θ der til en observation x leverer et maksimaliseringsestimat. Maksimaliseringsestimatoren er et bud på en generel metode til udregning af estimatorer. For at vurdere om det er et fornuftigt bud, kan man stille forskellige spørgsmål og se hvordan de besvares.. Hvor nemt er det at anvende metoden i konkrete modeller? Metoden går i praksis ud på at man skal finde maksimumspunkt(er) for funktionen L; at finde maksimumspunkter for en reel funktion er en almindelig og velforstået matematisk problemstilling som kan angribes (og løses) med standardmetoder. Det er i øvrigt oftest en fordel at bestemme θ som maksimumspunkt for log-likelihoodfunktionen ln L. Hvis ln L er en differentiabel funktion, skal maksimumspunkter i det indre af Θ som bekendt søges blandt løsningerne til ligningen D log L(θ) = Findes der matematiske sætninger om maksimaliseringsestimatorens egenskaber, f.eks. om eksistens og entydighed, og om hvor tæt θ ligger på θ? Ja, det gør der. Der findes en række generelle resultater om at når visse betingelser er opfyldt, og antallet af observationer går mod uendelig, så vil sandsynligheden for at der eksisterer et entydigt maksimaliseringsestimat, gå mod, og P θ ( θ(x) θ > ε) går mod 0 (for ethvert ε > 0). Når nogle flere betingelser er opfyldt, blandt andet skal Θ være en åben mængde, og de tre første afledede af ln L skal eksistere og opfylde visse regularitetsbetingelser, så gælder at for n er θ(x) asymptotisk normalfordelt med asymptotisk middelværdi θ og en

23 3.2 Eksempler 2 asymptotisk varians som er den inverse til E θ ( D 2 ln L(θ; X)) (og i øvrigt er E θ ( D 2 ln L(θ; X)) = Var θ (D ln L(θ; X))). (Ifølge et resultat der går under navnet Cramér-Rao uligheden, er dette den nedre grænse for variansen af en central estimator, så i den forstand er maksimaliseringsestimatoren asymptotisk optimal.) 3. Giver metoden estimater der ser fornuftige ud i de (få og simple) tilfælde hvor man er i stand til at overskue situationen? Det lader sig kun afgøre ved at se på eksempler. 3.2 Eksempler Enstikprøveproblemet for 0-variable [Fortsat fra side 6.] I den generelle formulering af modellen er log-likelihoodfunktionen og dens afledede ln L(θ) = x ln θ + (n x ) ln( θ), D ln L(θ) = x nθ θ( θ), D 2 ln L(θ) = x θ 2 n x ( θ) 2 når 0 < θ <. Hvis 0 < x < n, har ligningen D ln L(θ) = 0 den entydige løsning θ = x /n, og da den anden afledede er negativ, er dette det entydige maksimumspunkt. Hvis x = n, er L og ln L strengt voksende, og hvis x = 0, er L og ln L strengt aftagende, så også i disse tilfælde er der et entydigt maksimumspunkt der er givet ved θ = x /n. Vi er således nået frem til at maksimaliseringsestimatet for θ er den relative hyppighed af er og det er jo meget fornuftigt. Middelværdi og varians af estimatoren θ = θ(x) er, jf. eksempel 2.5 i Del og regnereglerne for middelværdi og varians, E θ θ = θ, Var θ θ = θ( θ)/n. Den generelle teori (jf. ovenfor) oplyser at for store n er [Læs fortsættelsen side 35.] E θ θ θ, Var θ θ ( ( Eθ D 2 ln L(θ, X) )) = ( ( X E θ θ 2 + n X ( θ) 2 = θ( θ)/n. ))

24 22 Estimation Den simple binomialfordelingsmodel [Fortsat fra side 7.] I den simple binomialfordelingsmodel er likelihoodfunktionen L(θ) = og log-likelihoodfunktionen ln L(θ) = ln ( ) n θ y ( θ) n y, θ [ 0 ; ] y ( ) n + y ln θ + (n y) ln( θ), θ [ 0 ; ]. y Pånær en konstant er denne funktion magen til den tilsvarende i enstikprøveproblemet med 0-variable. Vi kan derfor straks konstatere at maksimaliseringsestimatoren er θ = Y/n. Da Y har samme fordeling som X, er fordelingen af maksimaliseringsestimatoren den samme i de to modeller, specielt er også her E θ θ = θ og Varθ θ = θ( θ)/n. [Læs fortsættelsen side 35.] Eksempel 3. (Rismelsbiller I) [Fortsat fra eksempel 2.3 side 7.] I taleksemplet med q rismelsbiller er θ b = 43/ Den estimerede standardafvigelse er bθ( θ)/44 b = [Eksemplet fortsætter som eksempel 4. side 36.] Sammenligning af binomialfordelinger [Fortsat fra side 8.] Log-likelihoodfunktionen svarende til y er ln L(θ) = konst + s ( yj ln θ j + (n j y j ) ln( θ j ) ). (3.) j= Det ses at ln L er en sum af led der hver især (pånær en konstant) er en log-likelihoodfunktion fra en simpel binomialfordelingsmodel, og desuden optræder parameteren θ j kun i det j-te led. Vi kan derfor uden videre opskrive maksimaliseringsestimatoren som θ = ( θ, θ 2,..., θ s ) = ( Y, Y 2,..., Y ) s. n n 2 n s Da Y, Y 2,..., Y s er uafhængige, bliver estimatorerne θ, θ 2,..., θ s også uafhængige, og som i den simple binomialfordelingsmodel er E θ j = θ j og Var θ j = θ j ( θ j )/n j, j =, 2,..., s. [Læs fortsættelsen side 36.]

25 3.2 Eksempler 23 Eksempel 3.2 (Rismelsbiller II) [Fortsat fra eksempel 2.4 side 8.] I rismelsbille-eksemplet hvor hver gruppe (koncentration) har sin egen binomialfordelingsparameter, estimeres denne som brøkdel døde i den pågældende gruppe, dvs. ( θ b, θ b 2, θ b 3, θ b 4) = (0.30, 0.72, 0.87, 0.96). q De estimerede standardafvigelser er bθ j( θ b j)/n j, dvs. 0.04, 0.05, 0.05 og [Eksemplet fortsætter som eksempel 4.2 side 37.] Multinomialfordelingen [Fortsat fra side 9.] Hvis y = (y, y 2,..., y r ) er en observation fra en multinomialfordeling med r klasser, antalsparameter n og sandsynlighedsparameter θ, så er log-likelihoodfunktionen r ln L(θ) = konst + y i ln θ i. Parameteren θ skal estimeres som maksimumspunktet θ (i Θ) for ln L; parameterrummet Θ er mængden af talsæt θ = (θ, θ 2,..., θ r ) for hvilke θ i 0, i =, 2,..., r, og θ, θ 2,..., θ r =. Man ville vel umiddelbart formode at θ i skal estimeres ved y i /n, og det er da også det rigtige svar; men hvordan viser man det? Én mulighed er at benytte en af de generelle metoder til bestemmelse af ekstremum under bibetingelser. En anden mulighed er at vise at vores formodning er rigtig. Vi vælger den sidste mulighed og skal altså vise at hvis vi sætter θ i = y i /n, i =, 2,..., r, og θ = ( θ, θ 2,..., θ r ), så er ln L(θ) ln L( θ) for alle θ Θ. Det snedige trick der skal bruges hertil, er at ln t t for alle t (og med lighedstegn hvis og kun hvis t = ). Der gælder derfor r ln L(θ) ln L( θ) = y i ln θ i i= θ i r ( ) θi y i θ i = = i= i= i= r ( ) θ i y i y i /n y i r (nθ i y i ) i= = 0. Ulighedstegnet er skarpt medmindre θ i = θ i for alle i =, 2,..., r. [Fortsættes side 38.]

26 24 Estimation θ 2 θ θ 3 Figur 3. Sandsynlighedssimplexet i det tredimensionale rum, dvs. {(θ, θ 2, θ 3) [ 0 ; ] : θ + θ 2 + θ 3 = }. Eksempel 3.3 (Torsk i Østersøen) [Fortsat fra eksempel 2.5 side 0.] Hvis vi indskrænker os til at studere torskene ved Lolland, er opgaven at bestemme det punkt θ = (θ, θ 2, θ ) i det tredimensionale sandsynlighedssimplex (jf. figur 3.) som maksimaliserer log-likelihoodfunktionen ln L(θ) = konst + 27 ln θ + 30 ln θ ln θ 3. Ifølge det foregående er b θ = 27/69 = 0.39, b θ 2 = 30/69 = 0.43 og b θ 3 = 2/69 = 0.7. [Eksemplet fortsættes i eksempel 4.3 side 38.] Enstikprøveproblemet i Poissonfordelingen [Fortsat fra side.] Log-likelihoodfunktionen og dens to første afledede er ln L(µ) = konst + y ln µ nµ, D ln L(µ) = y µ n, D 2 ln L(µ) = y µ 2 når µ > 0. Hvis y > 0, har ligningen D ln L(µ) = 0 den entydige løsning µ = y /n, og da D ln L er negativ, er dette det entydige maksimumspunkt. Man ser desuden at formlen µ = y /n også giver maksimumspunktet i den situation hvor y = 0.

27 3.2 Eksempler 25 I Poissonfordelingen er variansen lig med middelværdien, så ifølge de sædvanlige regneregler er middelværdi og varians af estimatoren µ = Y /n E µ µ = µ, Var µ µ = µ/n. (3.2) Den generelle teori (jf. side 20) oplyser at for store n er E µ µ µ, Var µ µ ( ( E µ D 2 ln L(µ, Y ) )) ( ( )) Y = E µ µ 2 = µ/n. Eksempel 3.4 (Hestespark) [Fortsat fra eksempel 2.6 side.] I hestesparkeksemplet er y = = 22, så bµ = 22/200 = 0.6. Antallet af soldater i et givet regiment der i et givet år dør som følge af at være sparket af en hest, er altså (ifølge modellen) Poissonfordelt med en parameter der estimeres til 0.6. Den estimerede standardafvigelse på estimatet er p bµ/n = 0.06, jf. formel (3.2). Ligefordeling på et interval [Fortsat fra side 2.] Likelihoodfunktionen er L(θ) = { /θ n når x max < θ 0 ellers. Denne funktion antager ikke sit maksimum, men det er ikke desto mindre fristende at udnævne θ = x max til maksimaliseringsestimatet. Tingene ville se pænere ud hvis vi gik over til at betragte ligefordelingen på det afsluttede interval fra 0 til θ. Likelihoodfunktionen er ikke differentiabel i hele sit definitionsområde (som er ] 0 ; + [); de regularitetsbetingelser der sikrer at maksimaliseringsestimatoren er asymptotisk normalfordelt (side 20), er derfor ikke opfyldt, og θ = X max er da faktisk heller ikke asymptotisk normalfordelt. Enstikprøveproblemet i normalfordelingen [Fortsat fra side 2.] Ved at løse ligningen D ln L = 0 hvor ln L er log-likelihoodfunktionen (2.3), finder man maksimaliseringsestimaterne for µ og σ 2 til µ = y = n n y j, j=

28 26 Estimation σ 2 = n n (y j y) 2. j= Man plejer dog at benytte et andet estimat for variansparameteren σ 2, nemlig s 2 = n n (y j y) 2, j= hvilket hænger sammen med at s 2 er en central estimator; det fremgår af nedenstående sætning der er et specialtilfælde af sætning 7. side 8, jf. også afsnit 7.2. Sætning 3. Antag at X, X 2,..., X n er indbyrdes uafhængige identisk normalfordelte stokastiske variable med middelværdi µ og varians σ 2. Så gælder. Den stokastiske variabel X = n X j er normalfordelt med mid- n delværdi µ og varians σ 2 /n. j= 2. Den stokastiske variabel s 2 = n n (X j X) 2 er gammafordelt med formparameter f/2 og skalaparameter 2σ 2 /f hvor f = n, eller sagt på en anden måde: f/σ 2 s 2 er χ 2 -fordelt med f frihedsgrader. Heraf følger blandt andet at E s 2 = σ De to stokastiske variable X og s 2 er stokastisk uafhængige. j= Bemærkninger: Antallet af frihedsgrader for variansskønnet i en normalfordelingsmodel er typisk antal observationer minus antal estimerede frie middelværdiparametre; antallet af frihedsgrader fortæller noget om præcisionen af variansskønnet, jf. opgave 3.2. [Fortsættes side 40.] Eksempel 3.5 (Lysets hastighed) [Fortsat fra eksempel 2.7 side 4.] Hvis vi går ud fra at de 64 positive værdier i tabel 2.5 kan betragtes som observationer fra en og samme normalfordeling, så skal denne normalfordelings middelværdi estimeres til y = og dens varians til s 2 = 25.8 med 63 frihedsgrader. Det betyder at passagetidens middelværdi estimeres til ( ) 0 6 sek = sek, og passagetidens varians estimeres til 25.8 ( sek) 2 = (0 6 sek) 2

29 3.2 Eksempler 27 med 63 frihedsgrader, dvs. standardafvigelsen estimeres til p sek = sek. [Eksemplet fortsætter som eksempel 4.4 side 4.] Tostikprøveproblemet i normalfordelingen [Fortsat fra side 4.] Log-likelihoodfunktionen (2.4) antager sit maksimum i punktet (y, y 2, σ 2 ) hvor y og y 2 er gennemsnittene i de to grupper, og σ 2 = n 2 n i (y ij y i ) 2 i= j= (også her er n = n + n 2 ). Ofte anvender man ikke σ 2 som estimat over σ 2, men derimod s 2 0 = n 2 2 n i (y ij y i ) 2. i= j= Nævneren n 2, antallet af frihedsgrader, bevirker at estimatoren bliver central; det fremgår at nedenstående sætning der er et specialtilfælde af sætning 7. side 8, jf. også afsnit 7.3. Sætning 3.2 Antag at de stokastiske variable X ij er indbyrdes uafhængige normalfordelte med samme varians σ 2 og med E X ij = µ i, j =, 2,..., n i, i =, 2. Så gælder. De stokastiske variable X i = n i X ij, i =, 2, er normalfordelte n i j= med middelværdi µ i og varians σ 2 /n i. 2. Den stokastiske variabel s 2 0 = n 2 i= j= 2 n i (X ij X i ) 2 er gammafordelt med formparameter f/2 og skalaparameter 2σ 2 /f hvor f = n 2 og n = n + n 2, eller sagt på en anden måde: f/σ 2 s 2 0 er χ 2 -fordelt med f frihedsgrader. Heraf følger blandt andet at E s 2 0 = σ De tre stokastiske variable X, X 2 og s 2 0 er stokastisk uafhængige. Supplerende bemærkninger: Antallet af frihedsgrader for variansskønnet s 2 0 er antal observationer minus antal estimerede middelværdiparametre.

30 28 Estimation Tabel 3. C-vitamin-eksemplet: nogle beregnede størrelser. n står for antal observationer y, S for Sum af y-er, y for gennemsnit af y-er, f for antal frihedsgrader, SS for Sum af kvadratiske afvigelser ( Sum of Squared deviations ), og s 2 for variansestimater (s 2 = SS/f). n S y f SS s 2 appelsinsaft kunstigt C-vit sum gennemsnit En størrelse som y ij y i der er forskellen mellem den faktiske observation og det bedst mulige»fit«under den aktuelle model, kaldes undertiden for et residual. Derfor kaldes en størrelse som 2 n i (y ij y i ) 2 for en residualkvadratsum. i= j= [Fortsættes side 42.] Eksempel 3.6 (C-vitamin) [Fortsat fra eksempel 2.8 side 5.] Vi udregner forskellige hjælpestørrelser samt estimaterne over parametrene, se tabel 3.. Middelværdien i appelsinsaft-gruppen estimeres til 3.8 og i den gruppe der har fået det kunstige C-vitamin, til Den fælles varians estimeres til 3.68 med 8 frihedsgrader, og da hver af grupperne har 0 observationer, er den estimerede standardafvigelse på hver af de to middelværdiestimatorer p 3.68/0 =.7. [Eksemplet fortsætter som eksempel 4.5 side 44.] Simpel lineær regression [Fortsat fra side 6.] Vi skal bestemme estimater for parametrene α, β og σ 2 i den lineære regressionsmodel. Log-likelihoodfunktionen er opskrevet som formel (2.5). Vi kan spalte kvadratsummen på følgende måde: n ( yi (α + βx i ) ) 2 i= = = n ( (yi y) + (y α βx) β(x i x) ) 2 i= n n (y i y) 2 + β 2 (x i x) 2 i= 2β i= n (x i x)(y i y) + n(y α βx) 2, i=

31 3.2 Eksempler 29 idet de øvrige to dobbelte produkter fra kvadreringen af den treleddede størrelse summerer til 0. Ved omskrivningen har vi opnået at α kun optræder i det sidste led, og dette antager sin mindsteværdi 0 netop når α = y βx. De resterende led udgør en andengradsfunktion af β, og denne funktion antager sit minimum når differentialkvotienten er 0, dvs. (xi x)(y i y) når β = (xi x) 2. Konklusionen bliver således at maksimaliseringsestimaterne er β = n (x i x)(y i y) i= n (x i x) 2 i= α = y βx. (Det er her forudsat at (x i x) 2 ikke er 0, dvs. at ikke alle x erne er ens. Hvis alle x erne er ens, har det næppe nogen mening at prøve at estimere en funktion der skal vise hvordan y afhænger af x.) Den estimerede regressionslinje er (den linje hvis ligning er) y = α + βx. Den værdi af σ 2 der maksimaliserer log-likelihoodfunktionen, er σ 2 = n n (y i ( α + βx i )) 2. i= Som oftest angiver man dog i stedet det centrale variansestimat s 2 02 = n 2 n (y i ( α + βx i )) 2. i= der har n 2 frihedsgrader. Med betegnelsen SS x = n (x i x) 2 gælder følgende om estimatorernes fordeling (jf. sætning 7. side 8 og afsnit 7.6): Sætning 3.3. Estimatoren β er normalfordelt med middelværdi β og varians σ 2 /SS x. 2. a) Estimatoren α er normalfordelt med middelværdi α og varians σ 2 ( n + x2 SS x ). b) Estimatorerne / α og β er korrelerede; korrelationen mellem dem er + SS nx 2 x. i=

32 30 Estimation ln(lufttryk) Kogepunkt Figur 3.2 Forbes målinger: Datapunkter plus estimeret regressionslinje. 3. a) Estimatoren α + βx er normalfordelt med middelværdi α + βx og varians σ 2 /n. b) Estimatorerne α + βx og β er ukorrelerede. 4. Variansestimatoren s 2 02 er stokastisk uafhængig af middelværdiestimatorerne, og den er gammafordelt med formparameter f/2 og skalaparameter 2σ 2 /f hvor f = n 2, eller sagt på en anden måde: f/σ 2 s 2 02 er χ 2 -fordelt med f frihedsgrader. Heraf følger blandt andet at E s 2 02 = σ 2. Eksempel 3.7 (Forbes barometriske målinger) [Fortsat fra eksempel 2.9 side 7.] Som man ser af figur 2., er der et enkelt punkt der ser ud til af afvige temmelig meget fra det almindelige mønster, så vi vælger at se bort fra dette punkt og altså kun regne med de 6 resterende punkter. Man finder den estimerede regressionslinje til ln(lufttryk) = kogepunkt 0.95 og den estimerede varians er s 2 02 = med 4 frihedsgrader. figur 3.2 viser de observerede punkter og den estimerede linje. Umiddelbart ser det ud til at linjen beskriver punkterne udmærket. Hvis man skal have nogen praktisk fornøjelse af sådanne kogepunktsbestemmelser, skal man også kende sammenhængen mellem højde og lufttryk. Sålænge vi holder os til bjerghøjder, aftager lufttrykket eksponentielt med højden, og der gælder at hvis lufttrykket ved havets overflade er p 0 (f.eks hpa) og lufttrykket i højden h er p h, så er h 850 m (ln p 0 ln p h ).

33 3.3 Opgaver Opgaver Opgave 3. I eksempel 5.6 i Del argumenteres der for at antal mider på et æbleblad er negativt binomialfordelt. Opskriv modelfunktion og likelihoodfunktion, og udregn på baggrund af de foreliggende observationer estimater over parametrene i fordelingen. Opgave 3.2 Find variansen på variansestimatoren s 2 i enstikprøveproblemet i normalfordelingen. Opgave 3.3 Find middelværdien af maksimaliseringsestimatoren bσ 2 over variansen, når vi har at gøre med et enstikprøveproblem i normalfordelingen.

34 32

35 4 Hypoteseprøvning Antag at man opererer med en statistisk model som har en modelfunktion f(x, θ) hvor x X og θ Θ. En statistisk hypotese er en påstand om at den sande parameterværdi θ faktisk er beliggende i delmængden Θ 0 af Θ, formelt H 0 : θ Θ 0 hvor Θ 0 Θ. Den statistiske hypotese postulerer altså at man kan klare sig med en simplere model. Når man tester hypotesen, undersøger man hvordan hypotesen og de faktisk foreliggende observationer stemmer overens. Det foregår ved at man finder på eller vælger en endimensional stikprøvefunktion t kaldet en teststørrelse som er indrettet på en måde så den»måler«afvigelsen mellem observationer og hypotese. Herefter udregner man den såkaldte testsandsynlighed, dvs. sandsynligheden (forudsat at hypotesen er rigtig) for at få en værdi af X der stemmer dårligere overens (målt ved hjælp af t) med hypotesen end den foreliggende observation x gør; hvis overensstemmelsen er meget dårlig, så forkaster man hypotesen. Hele proceduren benævnes et test. 4. Kvotienttestet Ligesom likelihoodfunktionen kunne danne udgangspunkt for konstruktion af en estimator for θ, kan den bruges i forbindelse med hypoteseprøvning. Man kan nemlig benytte følgende generelle metode til at konstruere en teststørrelse.. Find maksimaliseringsestimatoren θ i grundmodellen og maksimaliseringsestimatoren θ under hypotesen, dvs. θ er et punkt hvor ln L er maksimal i Θ, og θ er et punkt hvor ln L er maksimal i Θ0. For at teste hypotesen sammenligner vi likelihoodfunktionens maksimale værdi under hypotesen med dens maksimale værdi i grundmodellen, dvs. vi sammenligner den bedste beskrivelse vi kan få af x under hypotesen, med den bedste beskrivelse vi kan få i grundmodellen. Det kan gøres med kvotientteststørrelsen Q = L( θ) L( θ) (4.) 33

Lineære normale modeller (4) udkast

Lineære normale modeller (4) udkast E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

STATISTIKNOTER Simple binomialfordelingsmodeller

STATISTIKNOTER Simple binomialfordelingsmodeller STATISTIKNOTER Simple binomialfordelingsmodeller Jørgen Larsen IMFUFA Roskilde Universitetscenter Februar 1999 IMFUFA, Roskilde Universitetscenter, Postboks 260, DK-4000 Roskilde. Jørgen Larsen: STATISTIKNOTER:

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger Uge 49 I Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Mat H /05 Note 2 10/11-04 Gerd Grubb

Mat H /05 Note 2 10/11-04 Gerd Grubb Mat H 1 2004/05 Note 2 10/11-04 Gerd Grubb Nødvendige og tilstrækkelige betingelser for ekstremum, konkave og konvekse funktioner. Fremstillingen i Kapitel 13.1 2 af Sydsæters bog [MA1] suppleres her med

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

IMFUFA TEKST NR 435 2004. TEKSTER fra ROSKILDE UNIVERSITETSCENTER BASISSTATISTIK. Jørgen Larsen 2004, 2005

IMFUFA TEKST NR 435 2004. TEKSTER fra ROSKILDE UNIVERSITETSCENTER BASISSTATISTIK. Jørgen Larsen 2004, 2005 TEKST NR 435 2004 BASISSTATISTIK Jørgen Larsen 2004, 2005 TEKSTER fra IMFUFA INSTITUT ROSKILDE UNIVERSITETSCENTER FOR STUDIET AF MATEMATIK OG FYSIK SAMT DERES FUNKTIONER I UNDERVISNING, FORSKNING OG ANVENDELSER

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Karakteristiske funktioner og Den Centrale Grænseværdisætning E6 efterår 1999 Notat 10 Jørgen Larsen 20. oktober 1999 Karakteristiske funktioner og Den Centrale Grænseværdisætning Karakteristiske funktioner som er nære slægtninge til Fourier-transformationen) er

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Sandsynlighedsregning Oversigt over begreber og fordelinger

Sandsynlighedsregning Oversigt over begreber og fordelinger Tue Tjur Marts 2007 Sandsynlighedsregning Oversigt over begreber og fordelinger Stat. MØK 2. år Kapitel : Sandsynlighedsfordelinger og stokastiske variable En sandsynlighedsfunktion på en mængde E (udfaldsrummet)

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Sandsynlighedsregning & Statistik

Sandsynlighedsregning & Statistik Jørgen Larsen Sandsynlighedsregning & Statistik for matematikstuderende 2006 Indhold Forord 5 Del I Sandsynlighedsregning 7 Indledning 9 Endelige udfaldsrum. Grundlæggende definitioner.....................

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag I formiddag: Tætheder og fordelingsfunktioner kort resume fra i mandags og et par eksempler mere om sammenhængen

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 9, 2015 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Hvad skal vi lave i dag?

Hvad skal vi lave i dag? p. 1/2 Hvad skal vi lave i dag? Eksempler på stokastiske variable. Ventetid på krone ved møntkast. Antal plat ved n kast. Antal radioaktive henfald. Ventetiden på en flyulykke. Udtrækning af tal i et interval.

Læs mere

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation

Læs mere

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/41 Landmålingens fejlteori - lidt om kurset

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Estimation: Kapitel 9.1-9.3 Estimation Estimationsfejlen Bias Eksempler Bestemmelse af stikprøvens størrelse Konsistens De nitioner påkonsistens Eksempler på konsistente og middelrette estimatorer

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen 1 Velkommen til kurset Teoretisk Statistik Lærer: Niels-Erik Jensen Plan for i dag: 1. Eks: Er euro'en skæv? 4. Praktiske informationer 2. Eks: Regressionsmodel (kap. 1) 5. Lidt om kursets indhold 3. Hvad

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag SaSt2 (Uge 6, onsdag) Middelværdi og varians 1 / 18 Program I formiddag: Tætheder og fordelingsfunktioner kort resume

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R Helle Sørensen Uge 6, mandag SaSt2 (Uge 6, mandag) Tætheder og kont. fordelinger 1 / 19 Program Velkommen I dag:

Læs mere

STATISTIKNOTER. Mindre matematisk-statistisk opslagsværk, indeholdende bl.a. ordforklaringer, resuméer og tabeller. Jørgen Larsen

STATISTIKNOTER. Mindre matematisk-statistisk opslagsværk, indeholdende bl.a. ordforklaringer, resuméer og tabeller. Jørgen Larsen STATISTIKNOTER Mindre matematisk-statistisk opslagsværk, indeholdende bla ordforklaringer, resuméer og tabeller Jørgen Larsen IMFUFA Roskilde Universitetscenter Februar 1999 IMFUFA, Roskilde Universitetscenter,

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Lidt om fordelinger, afledt af normalfordelingen

Lidt om fordelinger, afledt af normalfordelingen IMM, 2002-10-10 Poul Thyregod Lidt om fordelinger, afledt af normalfordelingen 1 Introduktion I forbindelse med inferens i normalfordelinger optræder forskellige fordelinger, der er afledt af normalfordelingen,

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Nanostatistik: Opgavebesvarelser

Nanostatistik: Opgavebesvarelser Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere