Det asymptotiske scenarie

Størrelse: px
Starte visningen fra side:

Download "Det asymptotiske scenarie"

Transkript

1 Kapitel 1 Det asymptotiske scenarie Den simpleste asymptotiske situation opstår hvis man har uafhængige, identisk fordelte variable Y 1,...,Y n med værdier i et målbart rum (Y,K). Man forestiller sig at fordelingen af Y erne afhænger af en parameterθ Θ, og man forestiller sig at størrelsen af eksperimentet, givet ved antallet af deleksperimenter n, principielt er under eksperimentatorens kontrol - forstået på den måde at han kan vælge at tilføje deleksperimenter, hvis han ikke synes at han har nok allerede. Frekvensfortolkningen af sandsynlighedsregningen giver at man på baggrund af disse gentagelser af det samme deleksperiment efterhånden bliver i stand til at identificere den bagvedliggende fordeling af Y erne ganske godt. Den praktiske måde at sige det på, er at man bliver bedre og bedre til at lokalisere det sande θ når n vokser. Målet for den asymptotiske analyse er at give en præcis beskrivelse af hvor meget bedre man bliver. Typisk foregår analysen ved at vi sammenbundter de første n variable, og ser på X n = (Y 1,...,Y n ), der har værdier i rummet (Y n,k n ). Hvis de enkelte Y er har fordelingλ θ, så har sammenbundtningen fordelingν n θ =λ θ n. Når man har sat denne ramme op, forstår man øjeblikkeligt at den er alt for restriktiv til at beskrive den virkelige verdens eksperimenter. Ethvert eksperiment, man kan finde på at underkaste en statistisk analyse, har et vist element af gentagelse i sig, og det er derfor altid naturligt at betragte det som opbygget af et (stort) antal deleksperimenter. Men meget ofte har deleksperimenterne forskellig fordeling. Eksperimentet 1

2 2 Kapitel 1. Det asymptotiske scenarie kan f.eks. handle om overlevelsestid fra hjertetransplantation til død - i så fald vil der nok være en ret markant forskel på de 40-årige patienter og de 80-årige. Der optræder næsten altid kovariater, størrelser der varierer mellem de forskellige deleksperimenter, og den statistiske analyses mål er netop at beskrive effekten af disse kovariater. Og det svarer i ovenstående tankegang til at vi må tillade at Y erne har forskellig fordeling. I visse tilfælde må man endda medgive at Y erne er så forskellige at de har værdier i hver deres rum. Man kan f.eks. forestille sig at Y n har værdier i (Y n,k m ), og at Y n s fordeling erλ n θ. I så fald har sammenbundtningen X n værdier i (Y 1... Y n,k 1... K n ), og den har fordelingν n θ =λ1 θ... λn θ. I andre sammenhænge er afvigelsen fra den primitive model med uafhængige, identisk fordelte gentagelser at deleksperimenterne er afhængige. Det kan f.eks. være det samme system man har målt på hen over tid. I så fald vil man ofte observere at målinger, der ligger tæt på hinanden i tid kun afviger lidt fra hinanden, mens målinger, der er taget med lang tids mellemrum afviger mere. Hvis man f.eks. måler luftens indhold af svovlpartikler, vil målingerne ikke variere meget fra sekund til sekund, mens de kan gå temmelig meget op og ned i løbet af et døgn - for ikke at tale om en måned. Et typisk eksempel kunne være et autoregressivt skema Y n+1 =µ+ρ(y n µ)+ǫ n+1 for n=0, 1, 2,..., hvor ǫ erne er uobserverede støjvariable, der er uafhængige og identisk fordelte, f.eks. normalfordelte med middelværdi 0 og ukendt variansσ 2. Her erµdet niveau som målingerne svinger omkring, og ρ er en størrelse der bestemmer hvor hurtigt målingerne er i stand til at ændre sig - man ser at Cov(Y n, Y n+1 )=ρ VY n, og målingerne er således ikke uafhængige medmindre ρ = 0. For at kunne give en generel diskussion af disse udvidelser af modellen med uafhængige, identisk fordelte gentagelser, fjerner vi helt de enkelte delekserimenter fra beskrivelsen. Vi vil helt generelt diskutere en følge af stokastiske variable X 1, X 2,..., defineret på det samme baggrundsrum (Ω,F) men med værdier i hver sit rum (X n,e n ). Det, der binder variablene sammen, er en fælles statistisk model (P θ ) θ Θ på baggrundsrummet. I praksis tænker vi påx n som et produktrum, og X n som en sammenbundtning af n deleksperimenter, men vi lader ikke denne produktstruktur optræde i formalismen. Vi forestiller os at vi observerer realisationer x 1 X 1, x 2 X 2,... af disse variable. De er trukket med det samme sandeθ, som vi i det følgende refererer til som θ, og vi forsøger på baggrund af disse observationer at drage inferens omθ. I de

3 3 X n (Ω,F) (X n,e n ) P θ X n+1 θ (X n+1,e n+1 ) Θ Figur 1.1: En grafisk fremstilling af det asymptotiske scenarie, med en følge af modeller, alle indiceret ved den samme paramtermængdeθ. Typisk er hvertx n et produktrum med n identiske kopier af et elementært rumy, og typisk er X n en sammenbundtning af n variable med værdier iy. fleste realistiske situationer er der en projektiv struktur, en samling afbildninger π n :X n X n 1 sådan at π n (X n )=X n 1 for alle n. Denne projektive struktur fremkommer typisk fordi X n er en sammenbundtning af flere deleksperimenter end X n 1, og man kan finde X n 1 ved simpelthen at slette de relevante deleksperimenter fra X n. Hvis der er en sådan projektiv struktur, så er der i virkeligheden kun én trækning involveret i sekvensen X 1, X 2,... Men vi stiller ikke noget formelt krav om at variablene er forbundet på denne måde. Det står os f.eks. frit for at forestille os at vi efter at have observeret X n kasserer alle de deleksperimenter der indgår, og lader X n+1 bestå af en sammenbundtning af n+1 nye deleksperimenter. Det lyder som en meget uøkonomisk - og for så vidt umoralsk - omgang med data, men formalismen protesterer ikke. Vi forsøger at drage inferens om det bagvedliggendeθ på baggrund af hver enkelt observation x 1, x 2,... Det kan f.eks. føre til en følge af estimater ˆθ 1, ˆθ 2,... Og vores opgave er dels at beskrive i hvilken forstand disse estimater bliver bedre og bedre,

4 4 Kapitel 1. Det asymptotiske scenarie og dels at pege på estimationsprincipper der sikrer omsætningen fra observation til viden om parameteren sker så effektivt som muligt. 1.1 Interesseparameteren Vi har hidtil ikke sagt noget om parametermængdenθ - og faktisk vil vi gerne undgå at sige noget, der kan lægge restriktioner på hvilke parametermængder, der kan bruges. Vi er fuldt ud rede til at acceptere atθer et uendeligdimensionalt funktionsrum, f.eks. Pointen er nemlig at vi ikke interesserer os særlig meget forθisig selv. Vi forestiller os derimod at vi har en parameterfunktion ψ :Θ R d, og vores egentlige mål at at drage inferens om den sandeψ-værdi, altsåψ =ψ(θ ). Der er et vist misbrug af notation involveret i denne formulering, fordi vi bruger bogstavetψ til både at betegne en afbildning, og til at betegne afbildningens værdier, men det vænner man sig hurtigt til. Når vi skriverψ, skal det sædvanligvis forstås som ψ(θ) for et eller andetθ. Eksempel 1.1 For en fuldt parametrisk model, altså en model hvorθ R d for et passende d, vil man som regel interessere sig for den fulde parameter, dvs. for parameterfunktionenψ:r d R d givet vedψ(θ)=θ. I denne sammenhæng erψ blot et forstyrrende formalistisk lag oven på det egentlige problem. Men man kan også forestille sig situationer hvorθ=θ 1 Θ 2, hvor hvertθ Θ altså kan skrivesθ=(α,β). I sådan et tilfælde kan interessen meget vel være rettet mod α, mens β betragtes som en nuissanceparameter. Det bygges ind i formalismen ved hjælp af parameterfunktionen ψ(α, β) = α. Et oplagt eksempel hvor den fulde parameter må deles op i en interesseparameter og en nuissanceparameter er sædvanlig lineær regression, Y i =α+β t i +ǫ i for i=1,...,n, hvorǫ erne er uafhængigen(0,σ 2 )-fordelte variable. Den fulde parameter er her triplet (α,β,σ 2 ), men typisk skænker man ikkeσ 2 megen opmærksomhed - hele interessen rettes mod middelværdiparametreneα ogβ.

5 1.1. Interesseparameteren 5 Eksempel 1.2 I overlevelsesanalyse, hvor målingerne per definition er positive, modellerer man ofte den såkaldte hazardrate. Det er en funktionλ:(0, ) (0, ), der ikke er Lebesgue integrabel. Den bestemmer en fordelingsfunktion ved formlen ( x ) F(x)=1 exp λ(u) du Man kan fortolke hazardrate på den måde atλ(x) x approksimativt er sandsynligheden for at patienten dør i tidsintervallet (x, x + x), betinget med at patienten ikke er død til tid x. Approksimationen er god, hvis x er lille. Der er to grunde til at man studerer overlevelse via hazardrate. Den ene er intuitiv - det svarer faktisk meget godt til hvordan vi tænker på risiko. Den anden er teknisk: overlevelseseksperimenter er altid fulde af censureringer, fordi man ikke kan vente med at analysere sine data indtil alle patienterne er døde. Og det er ikke så nemt at inkorporere censureringerne i en klassisk modelopbygning, baseret på tætheder. Hvorimod censureringer og hazardrate spiller meget fint sammen. Meget ofte har man overlevelsesmålinger Y 1, Y 2,...,Y n (nogle af dem eventuelt censurerede) med hver sin kovariat, t 1, t 2,...,t n, og målet vil da som regel være at beskrive hvordan kovariaterne påvirker overlevelsen. Man anvender da gerne en semiparametrisk model, hvor observationerne antages at være uafhængige med hver sin hazardrate, men hvor de forskellige hazardrates er knyttet sammen ved betingelsen 0 λ i (x)=e α t i λ 0 (x) for x>0, i=1,...,n. (1.1) Den såkaldte baseline hazardλ 0 er fælles for alle observationerne, men antages iøvrigt at være helt ukendt. Fordelingen er således parametriseret ved (α,λ 0 ), hvor første komponenten er et reelt tal, mens anden komponenten er en næsten vilkårlig funktion (0, ) (0, ). Man refererer gerne til (1.1) som antagelsen om proportionale hazardfunktioner, og det er naturligvis en kritisk antagelse, på samme måde som linearitetsantagelsen i lineær regression kan lede til fuldstændig absurde resultater hvis den er forkert. Men hvis antagelsen om proportionale hazardfunktioner er rigtig, så er al information om kovariaternes indflydelse placeret i parameteren α, og man kan derfor principielt forsøge at besvare undersøgelsens hovedspørgsmål uden at interessere sig for baselinehazard. I praksis bliver man selvfølgelig nødt til også at estimereλ 0, men man behøver måske ikke at gå særlig meget op i kvaliteten af dette estimat.

6 6 Kapitel 1. Det asymptotiske scenarie Som sagt gør vi en dyd af ikke at lægge begrænsninger på parametermængdenθ overhovedet. Det kan vi slippe afsted med, så længe vi ikke forsøger at drage inferens omθ. Til gengæld er vi nødt til at lægge visse antagelser på deψ-værdier, der kan optræde i analysen. Teknisk grundantagelse: BilledmængdenΨ=ψ(Θ) er en åben delmængde afr d. Overtrædelse af denne grundantagelse kan man ofte formulere sig ud af. Problemet kan være at ψ(θ) ikke har indre punkter, fordi mængden er for lavdimensional. Man kan f.eks. forestille sig at ψ(θ) er en kurve i planen, et essentielt etdimensionalt objekt, der selvfølgelig ikke kan være en åben delmængde afr 2. Hvis dette problem er opstået, et det fordi man har valgt et forkert euklidisk rum til sin analyse. Man kan som regel finde en afbildningρ:r d R d 1 ned i en lavere dimension, såρer injektiv påψ(θ), og såρψ(θ) er åben ir d 1. I så fald erstatter man blot den oprindelige parameterfunktion ψ med den modificerede parameterfunktion ρ ψ som udgangspunkt for analysen. Hvis man går til tekniske yderligheder, er den essentielle antagelse for så vidt ikke atψ(θ) skal være en åben delmængde af et euklidisk rum, men at det skal være en C 2 -mangfoldighed med en veldefineret dimension d 1. En kurve er en etdimensional mangfoldighed, hvad enten den ligger i planen eller i rummet. Et eksempel på en todimensional mangfoldighed er f.eks. kugleoverfladen S 2 inde ir 3 - denne mængde kan man ikke afbilde ned ir 2 på en injektiv måde, så hvis man vil se på det som en åben delmængde afr 2, må man fjerne mindst ét punkt. Mangfoldigheder er uhyre naturlige objekter ud fra et geometrisk synspunkt, men der er ikke tradition for at bruge dem som parametermængder i statistiske modeller - skønt der i visse sammenhænge kunne være betragtelige fordele ved det. I nogle modeller optræder der en mere ondartet overtrædelse af betingelsen om at ψ(θ) skal være åben. Det kan hænde atψ(θ) nok har masser af indre punkter (så dimensionen er rigtig), men også har randpunkter. Med lidt held kan man gøreθlidt mindre, og på den måde fjerne problemet. Analysen indskrænker sig alligevel til at komme med lokale udsagn om den sande parameter, og så længe vi ikke fjerner den sande parameter fraθ, så går det nok endda. Men i andre tilfælde er disse randpunkter en essentiel del af problemet, og kan ikke fjernes ved kosmetiske operationer.

7 1.2. Konkordanskombinant 7 Eksempel 1.3 Betragt en etsidet variansanalyse med tilfældige virkninger, altså en model af formen Y i j =α+z i +ǫ i j hvor i=1,...,n, j=1,...,m i. Her er Z erne uafhængigen(0,ν 2 )-fordelte, mensǫ erne er uafhængigen(0,σ 2 )- fordelte. Naturligvis er Z erne og ǫ erne også uafhængige af hinanden. Modellen finder anvendelse hvor man måler det samme på en række forsøgspersoner, og hvor man har gentagne målinger for i hvert fald nogle af disse personer. Grundniveauet for den i te person er størrelsenα+z i, og det modificeres så i de enkelte målinger med en støjvariabelǫ i j. Typisk vil man forestille sig at den såkaldte intersubjekt variabilitetν 2 (altså variationen mellem personerne) er væsentligt større end intrasubjekt variabilitetenσ 2 (altså variationen blandt målingerne for én og samme person). Den fulde parameter er i denne situation (α,ν 2,σ 2 ), hvorα R,ν 2 0 ogσ 2 > 0. Hvor man uden at blinke antager atσ 2 er strengt positiv, svarende til at der altid er en vis målestøj, så er en tilsvarende antagelse omν 2 ikke så indlysende. Faktisk retter der sig en speciel interesse mod tilfældetν 2 = 0, fordi det svarer til at der ikke er nogen personeffekt i målingerne. Så her er et tilfælde hvor parametermængden helt naturligt har randpunkter. Problemet spiller en vis rolle i praksis, fordi det naturlige kvotienttest for en hypotese om atν 2 = 0 ikke er asymptotiskχ 2 -fordelt med 1 frihedsgrader under hypotesen, sådan som man man plejer at se det, når man fjerner en étdimensional parameter. Fordelingen ligner nærmere en konveks kombination af enχ 2 -fordeling med 1 frihedsgrad og en etpunktsfordeling i 0. Test for om tilfældige virkninger kan fjernes fra en model volder generelt problemer for den asymptotiske teori. Denne type problemer vil ikke blive behandlet i disse noter. 1.2 Konkordanskombinant Til at vurdere samspillet mellem en observation x X n og enψ-værdi har vi en konkordanskombinant h n :X n Ψ R.

8 8 Kapitel 1. Det asymptotiske scenarie Der er ikke noget formelt krav om at disse konkordanskombinanter for forskellige n-værdier hænger sammen, men vi insisterer dog på at der findes en samlende fortolkning af dem. Typisk vil uligheden h n (x,ψ 1 )<h n (x,ψ 2 ) fortolkes på den måde atψ 1 er i bedre konkordans med observationen x endψ 2. Eksempel 1.4 Lad Y 1, Y 2,... være uafhængige, identisk fordelte stokastiske variable med værdier i (Y,K). Antag at P θ (Y i A)= f θ dµ, for et passendeσ-endeligt grundmålµ, og en passende familie af tætheder ( f θ ) θ Θ. Antag at parametermængdenθer en åben delmængde afr d, og lad os interessere os for den fulde parameter, altså for parameterfunktionenψ : R d R d givet ved ψ(θ) = θ. I det asymptotiske scenarie betragter vi sammenbundtningen X n = (Y 1,...,Y n ) med værdier i (X n,e n )=(Y n,k n ). Typiske konkordansfunktioner er likelihoodfunktionen n L y1,...,y n (θ)= f θ (y i ), og loglikelihoodfunktionen l y1,...,y n (θ)= A i=1 n log f θ (y i ). der naturligvis har modsatrettede fortolkninger, men indeholder samme information. Man kan opstille en likelihoodfunktion og en loglikelihoodfunktion i mange, mange andre modeller end i modeller for uafhængige, identisk fordelte observationer, og det er en generel anbefaling at man bruger en af disse funktioner som konkordanskombinant så ofte man kan slippe afsted med det. Men der findes modeller, hvor likelihoodtilgangen ikke er farbar. For nogle modeller findes der slet ikke nogen likelihoodfunktion. Det er typisk situationen for ikke-parametriske eller semiparametriske modeller. For andre af disse funktionsrumsmodeller findes likelihoodfunktionen måske nok i abstrakt forstand, men den bliver aldeles uhåndterlig fordi parametermængden er uendeligdimensional. i=1

9 1.2. Konkordanskombinant 9 En beslægtet problemstilling er at man i mange tilfælde ikke er indstillet på at modellere alle aspekter af det udførte forsøg. I overlevelsesforsøg som i eksempel 1.2 har man typisk ikke mod på at modellere censurmekanismerne, og man er derfor principielt ude af stand til at opstille en likelihoodfunktion. Men der kan også være problemer for endeligdimensionale modeller, hvor alt i princippet er modelleret. Man kan komme ud for at likelihoodfunktionen måske nok findes, men ikke kan skrives ned på nogen brugbar måde. Dette fænomen optræder f.eks. i modeller for stokastiske differentialligninger, hvor parametrene bestemmer hvordan en stokastiske proces udvikler sig over infinitesimale tidsrum, men hvor observationerne er gjort med ikke-infinitesimale mellemrum, f.eks. til tid 1, 2,... I en abstrakt forstand bestemmer parametrene hvordan processen bevæger sig i disse store tidsintervaller, men ikke på nogen eksplicit måde - man skal så at sige integrere den infinitesimale opførsel, og det kan være umuligt at gøre med konkrete formler. En anden situation, hvor likelihoodfunktionerne ofte ikke har noget brugbart konkret udtryk, finder man i modeller med skjulte variable. Vi en sådan model i eksempel 1.3. Mere generelt kan man f.eks. have uobserverede variable Z 1,...,Z k med simultan tæthed g θ (z 1,...,z k ) og observerede variable Y 1,...,Y n, hvor den betingede fordeling af (Y 1,...,Y n ) givet (Z 1,...,Z k ) er kendt - den kan have tæthed h θ (y 1,...,y n z 1,...,z k ). Likelihoodfunktionen for observationerne kan da i princippet skrives ned som et integral, L y1,...,y n (θ)= h θ (y 1,...,y n z 1,...,z k ) g θ (z 1,...,z k ) d(z 1,...,z k ), (1.2) men denne repræsentation er næppe særlig nyttig, medmindre man kan regne integralet ud. Skjulte variable er et meget udbredt fænomen i de mere avancerede statistiske modeller, hvor de kan forklæde sig under navne som random effects, frailty, state space variable og hierarkisk strukturerede modeller. Der bliver brugt mange kræfter i den videnskabelige litteratur på at forsøge at udnytte (1.2), også i situationer hvor man ikke eksplicit kan udregne integralet, men de anvendte teknikker er typisk meget modelspecifikke - man kan anvende saddelpunktsapproksimationer for integralet, man kan simulere sig frem til integralet ved hjælp af Monte Carlo teknikker, eller man kan forsøge at arbejde med integralet uevalueret gennem EM-teknikker. Men i mange situationer kan man også med succes vælge sig en anden konkordanskombinant, som måske ikke er teoretisk optimal, men som til gengæld leder til mere håndterlig matematik.

10 10 Kapitel 1. Det asymptotiske scenarie Endelig skal man også holde sig for øje at likelihoodfunktionen for nogle modeller for så vidt godt kan skrives eksplicit op, men at det kan volde praktiske problemer ar arbejde med den - f.eks. at få den maksimeret. Computere bliver større og kraftigere, og den numeriske analyse gør store fremskridt. Men det er stadig væk et problem at maksimere en funktion af 100 variable, især hvis den har en skov af lokale maksima. Samtidigt med at computerne bliver større er der en tilbøjelighed til at de anvendte modeller bliver større - måske vokser modellerne endda hurtigere end regnekraften. Og eftersom de ægte likelihoodfunktioner ofte er ganske irregulære med mange lokale ekstrema, kan der være store gevinster i at erstatte den ægte likelihoodfunktion med en regulariseret approksimation. Denne approksimation har næppe helt samme maksimum, men til gengæld undgår den måske hele floraen af lokale ekstrema. Eksempel 1.5 Hvis vi har uafhængige og identisk fordelte reelle observationer Y 1, Y 2,..., hver især med tæthed f θ, hvorθ Θ for en passende parametermængde Θ, så vil den primære interesse i mange situationer rette sig mod en reel parameterfunktion ψ : Θ R. En forholdsvis naturlig konkordanskombinant kan da være profillikelihoodfunktionen L y1,...,y n (ψ)= sup L y1,...,y n (θ), θ:ψ(θ)=ψ eller eventuelt den tilsvarende profilloglikelihoodfunktion. Man skal dog være opmærksom på at denne ide ofte fungerer bedre i teorien end i praksis, simpelthen fordi profillikelihoodfunktionen kan være uhyre vanskelig at finde eksplicit, og derfor kan den være svær at arbejde med. Eksempel 1.6 Hvis vi har uafhængige og identisk fordelte reelle observationer Y 1, Y 2,..., hver især med tæthed f θ, hvorθ=(θ 1,θ 2 ) Θ 1 Θ 2 for passendeθ 1 R d 1 ogθ 2 R d 2, og hvor interessen retter sig modψ(θ 1,θ 2 )=θ 1, så kan man konstruere en profillikelihoodfunktion som ovenfor ved for fastθ 1 at maksimere overθ 2. Men i nogle tilfælde vælger man i stedet at integrereθ 2 væk. Man konstruerer den såkaldte REML-likelihood (det står for REduced eller REstricted eller REsidual likelihood ved L y1,...,y n (θ 1 )= L y1,...,y n (θ 1,θ 2 ) dθ 2 for alleθ 1 Θ 1. Det er ikke så nemt at komme med intuitive ræsonementer for hvorfor REMLlikelihoodfunktione skulle være at foretrække frem for profillikelihoodfunktionen. Men undersøger man de tilhørende maksimaliseringsestimatorer vil man se at estimatoren baseret på REML-likelihoodfunktionen i visse tilfælde har mindre bias end

11 1.2. Konkordanskombinant 11 estimatoren baseret på profillikelihoodfunktionen. Det gælder specielt i varianskomponentmodeller, og i disse modeller er der udbredt enighed om at REML-estimation er det rigtige. Man skal dog være opmærksom på at REML-kriteriet har sine problematiske sider - det er f.eks. kraftigt afhængigt af den valgte paramterisering. Eksempel 1.7 Det er jævnligt forekommende at man har observationer Z, Y 1, Y 2,..., sådan at Y 1, Y 1,... er uafhængige og identiske fordelte betinget med Z. Hvis Z har tæthed z h θ (z) med hensyn til et grundmålµ, og hvis den betingede fordeling af Y i givet Z= z har tæthed y f θ (z, y), så er den fulde likelihoodfunktion for Z og de første Y er givet ved n L z,y1,...,y n (θ)=h θ (z) f θ (z, y i ). Hvis den funktionelle form af h er svært tilgængelig, eller hvis h afhænger af en del afθsom der kun er ringe information om i Y erne, så erstatter man ofte den fulde likelihoodfunktion med den betingede likelihoodfunktion i=1 Ľ z,y1,...,y n (θ)= n f θ (z, y i ). i=1 Der er en række andre situationer hvor betingede likelihoodfunktioner føles naturligere end fulde likelihoodfunktioner. Det gælder f.eks. ved analyse af Markov kæder, hvor man gerne betinger med værdien af den første observation. I denne situation vil den fulde likelihoodfunktion afhænge af den såkaldte begyndelsesfordeling. Men det er kun den første observationer, der indeholder nogen som helst information om denne begyndelesesfordeling. Fremfor at forsøge at forholde sig til begyndelsesfordelingen på et så tyndt datagrundlag, vælger man som regel at betinge problemet bort. Eksempel 1.8 Antag at Y 1, Y 2,... er reelle stokastiske variable, og at Y i = d a i j θ j +ǫ i j=1 for i=1,...,n, hvor a i j erne er kendte tal (kovariater), hvorθ 1,...,θ d er reelle parametre og hvor

12 12 Kapitel 1. Det asymptotiske scenarie ǫ i erne er reelle stokastiske variable med middelværdi 0. På vektorform kan vi skrive Y 1 a 11 a a 1d θ 1 ǫ 1 Y 2 a 21 a a 2d θ 2 ǫ 2 = Y n a n1 a n2... a nd θ d ǫ n Vi kan også vælge at udtrykke modellen på matrixform, X n = A n θ+ ǫ n, hvor X n er sammenbundtningen af de første n Y er, hvor A n er en n d matrix, der vokser med n ved at få tilføjet nye rækker, og hvor ǫ n er sammenbundtningen af de første nǫ er. Den fundamentale antagelse her er atθ=(θ 1,...,θ d ) ikke indgår i fordelingen af ǫ erne. Måske angiver vi en parametrisk model for fordelingen af ǫ erne, måske nøjes vi med en ikke-parametrisk specifikation. Vi skal blot have en måde at tale om fordelingen af samtlige sammenbundtede fejlvariable ǫ n på én gang. Lad os sige at det sker gennem parameteren ν, der kan antage værdier i en endeligdimensional mængde eller en uendeligdimensional mængde, som det nu må falde sig. Vi har altså en fuld parameter af formen (θ, ν). Pointen er at vi opfatter θ som interesseparameteren og ν som en nuissanceparameter. Bemærk at vi ikke har antaget at ǫ erne er uafhængige. Man kan sagtens forestille sig atǫ erne udgør en AR(1)-proces, ǫ n+1 =ρǫ n + W n+1 for n=1, 2,..., hvor W erne er uafhængige og identisk fordelte. Hvis vi antager at hvert W er N(0,β 2 )-fordelt, så erνidenne situation en sammenbundtning afρogβ 2 plus e- ventuelt en ekstra parameter, der bestemmer fordelingen afǫ 1. Vi har principielt heller ikke antaget atǫ erne er identisk fordelte. Der kan være mange grunde til at antage at støjen ændrer størrelse fra eksperiment til eksperiment, blot må man ikke henvise til den gængse intuition om at støjen er stor for store målinger. Denne forklaring bruges ellers implicit i mange teknologiske sammenhænge, hvor præcisionen af måleinstrumenter typisk opgives som et antal procent af den målte værdi. Hvis denne tankegang er relevant, så kan man ikke separere den fulde parameter i en del θ, der beskriver middelværdistrukturen, og en anden del ν, der beskriver fejlstrukturen - der vil være de samme parametre, der indgår begge steder.

13 1.2. Konkordanskombinant 13 En least squares kombinant er en kombinant af formen h n (y 1,...,y n,θ)= x n A n θ 2, hvor er en norm pår n, og hvor x n = (y 1,...,y n ). Det underforstås at kombinanten skal fortolkes sådan at små værdier er gode. Hvis man bruger den sædvanlige euklidiske norm taler man om en ordinary least squares (OLS) kombinant, bruger man andre normer taler man om en weighted least squares (WLS) kombinant. OLS kombinanten er især velegnet hvis ǫ erne er uafhængige og identisk fordelte - den er i særedelshed velegnet, hvis ǫ erne yderligere vides at være normalfordelte, men den kan med en vis succes bruges under mange andre antagelser om støjfordelingen, f.eks. t-fordelteǫ er. Hvis ǫ erne er uafhængige men ikke identisk fordelte, bruger man gerne WLS kombinanter dannet ud fra normer af formen x 2 = x T Bx, (1.3) hvor B er en diagonalmatrix med positive diagonalelementer. Diagonalelementernes variation skal i så fald udtrykke forskellen i størrelse af de enkelte ǫ er. Hvis ǫ erne er afhængige, kan man forsøge at bruge en WLS kombinant dannet udfra normen (1.3) med en mere indviklet symmetrisk, positivt definit matrix B. Man forsøger gerne at bruge en matrix der er proportional med den inverse variansmatrix for ǫ n hvis man kan komme af sted med det. Men generelt må man sige at det er et vanskeligt problem at finde en god WLS kombinant uden en uafhængighedsantagelse. Og derfor bruger man faktisk ofte OLS kombinanten, selv for afhængige støjvariable. Et robust alternativ til least squares kombinanterne, altså en kombinant der giver mindre vægt til de ekstreme observationer (og derfor ikke er helt så sårbart overfor regulære fejlobservationer) erl 1 -afstanden h n (y 1,...,y n,θ)= n y i i=1 d a i j θ j. Det er teknisk meget vanskeligere at arbejde medl 1 -afstande end medl 2 -afstande, og robuste kombinanter fører som regel ikke til eksplicitte formler for estimatorer etc. Men de spiller en stadig større rolle i den anvendte statistik. j=1

14 14 Kapitel 1. Det asymptotiske scenarie 1.3 M-estimatorer Ordet M-estimator bruges om en estimator, der fås frem ved at minimere en vilkårlig konkordanskombinant. Eller ved at maksimere, hvis det er det relevante at gøre i forhold til kombinantens fortolkning - der skelnes ikke så nøje mellem de to former for optimering, og M er et godt bogstav i begge sammenhænge. Men vi vil i almindelighed forestille os at der minimeres. Formelt definerer vi den globale M-estimator som en afbildning t n :X n Ψ der opfylder at h n (x, t n (x)) h n (x,ψ) for alleψ Ψ, i hvert fald for de x er hvor det kan lade sig gøre. Vi skal jo på en eller anden måde have skabt plads både til muligheden for flere minima, og til muligheden for at der ikke eksisterer noget minimum. Typisk bruger vi den stokastiske notation ˆψ n = t n (X n ). Eksempel 1.9 I eksempel 1.8 opstillede vi least squares kombinanter af formen h n (x,θ)=(x A n θ) T B n (x A n θ), hvor observationen x ligger ir n, hvor A n er en n d designmatrix, og hvor B n er en symmetrisk, positivt definit n n matrix. Klassisk lineær algebra tillader os at minimere denne kombinant eksplicit, og vi får at t n (x)= ( A n T B n A n ) 1An T B n x. Vores resultater handler desværre ikke altid om den globale M-estimator. Problemet er at argumenterne er baseret på en Taylorudvikling af kombinanten omkring den sande parameter, og denne Taylorudvikling har kun et relevant indhold tæt ved den sande parameter. Vi skal beskæftige os en del med den lokale M-estimator, der er den globale M-estimator, når parametermængden indskrænkes til en fast omegn af den sande parameter. Det er lidt af en tilsnigelse at kalde det en estimator, for det er ikke noget man kan regne ud - i praksis ved man jo ikke hvor den sande parameter ligger, og derfor kan man ikke indskrænke sit søgeområde til en omegn. Vi vil gøre hvad vi kan for at forbinde lokale og globale M-estimatorer. Dette tema kaldes global teori, og det viser sig at være overraskende vanskeligt. En ting, der

15 1.3. M-estimatorer 15 nogle gange redder os, er konveksitet af kombinanten - hvisψ h n (x,ψ) er konveks for alle x X n og for alle n, så vil et lokalt minimum automatisk være det globale minimum, og den lokale M-estimator vil således falde sammen med den globale M- estimator. Er den globale teori ikke helt tilfredsstillende, skal vi til gengæld se at teorien for den lokale M-estimator er et lyspunkt. Vores hovedsætninger har konklusioner, der ikke bør komme bag på nogen, der har en vis erfaring med praktisk statistik: Vi skal gøre rede for at den lokale M-estimator under visse regularitetsbetingelser er konsistent og asymptotisk normalfordelt, og vi skal gøre rede for at naturlige teststørrelser baseret på konkordanskombinanten (f.eks. kvotientteststørrelser) under yderligere regularitetsbetingelser er asymptotiskχ 2 -fordelte. Hvad der adskiller disse sætninger fra de moralske sætninger i Introduktion til Matematisk Statistik er at regularitetsbetingelserne her er eksplicitte, og at de (som vi skal se) faktisk kan kontrolleres i en bred vifte af eksempler.

16 16 Kapitel 1. Det asymptotiske scenarie

Det asymptotiske scenarie

Det asymptotiske scenarie Kapitel 5 Det asymptotiske scenarie Den simpleste asymptotiske situation opstår hvis man har uafhængige, identisk fordelte variable Y 1,..., Y n med værdier i et målbart rum (Y, K). Man forestiller sig

Læs mere

Trykfejlsliste - alle fejl Asymptotisk teori

Trykfejlsliste - alle fejl Asymptotisk teori 9. januar 2005 Stat 2A / EH Trykfejlsliste - alle fejl Asymptotisk teori Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i 2A-noterne indtil nu. 9 1 Forkert: x C x ro alle

Læs mere

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål Statistisk model Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål på (X, E). Modellen er parametriseret hvis der findes en parametermængde Θ og

Læs mere

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. Estimation Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. En estimator er en gætteregel.. p.1/22 Estimation X acements

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Asymptotisk testteori

Asymptotisk testteori Kapitel 8 Asymptotisk testteori Vi vil nu beskæftige os med den asymptotiske teori for estimation under pæne hypoteser og for test af disse hypoteser. Vi skal især undersøge det forhold at hvis den fulde

Læs mere

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30 Områdeestimator X (Ω, F) (X, E) x 01 01 P θ ν θ θ Θ 0000 1111 000000 111111 0000 1111 0000 1111 C(x) En områdeestimator er en afbildning C : X P(Θ).. p.1/30 Konfidensområde En områdestimator C : X P(Θ)

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Klassisk Taylors formel

Klassisk Taylors formel p. 1/17 Klassisk Taylors formel Sætning Lad f : (a, b) R være n gange differentiabel. For x 0, x (a, b) findes et ξ mellem x 0 og x der opfylder at f(x) = f(x 0 )+ f (x 0 ) 1! (x x 0 )+...+ f(n 1) (x 0

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

En martingalversion af CLT

En martingalversion af CLT Kapitel 11 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R. Kombinant Lad (ν θ ) θ Θ være en statistisk model på (X, E). En kombinant er en afbildning hvor (Y, K) er endnu et målbart rum. R : X Θ Y Typisk taler vi om reelle kombinanter, hvor Y = R. Som regel forsøger

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Estimation og konfidensintervaller

Estimation og konfidensintervaller Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag susanne

Susanne Ditlevsen Institut for Matematiske Fag    susanne Statistik og Sandsynlighedsregning 1 STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 7. undervisningsuge, mandag 1 Estimation og konfidensintervaller

Læs mere

Taylors formel. Kapitel Klassiske sætninger i en dimension

Taylors formel. Kapitel Klassiske sætninger i en dimension Kapitel 3 Taylors formel 3.1 Klassiske sætninger i en dimension Sætning 3.1 (Rolles sætning) Lad f : [a, b] R være kontinuert, og antag at f er differentiabel i det åbne interval (a, b). Hvis f (a) = f

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt

Læs mere

Lokal estimationsteori

Lokal estimationsteori Kapitel 5 Lokal estimationsteori 5.1 Konsistens Vores første delmål er at sikre at regularitetsbetingelserne medfører at den reskalerede konkordanskombinant med meget stor sandsynlighed har en positivt

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Dagens program. Praktisk information:

Dagens program. Praktisk information: Dagens program Praktisk information: Husk hjemmeopgaven i statistik Hypoteseprøvning kap. 11.2,11.3 og 11.8 Eksempel på test Styrkefunktionen kap. 11.2 Stikprøvens størrelse kap. 11.3 Likelihood ratio

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Bilag 7. SFA-modellen

Bilag 7. SFA-modellen Bilag 7 SFA-modellen November 2016 Bilag 7 Konkurrence- og Forbrugerstyrelsen Forsyningssekretariatet Carl Jacobsens Vej 35 2500 Valby Tlf.: +45 41 71 50 00 E-mail: kfst@kfst.dk Online ISBN 978-87-7029-650-2

Læs mere

Statistik 1TS 2003 Obligatorisk opgave 1

Statistik 1TS 2003 Obligatorisk opgave 1 Afdeling for Statistik og Operationsanalyse Institut for Matematiske Fag, Københavns Universitet 4. marts 2003 Stat 1TS / EH Statistik 1TS 2003 Obligatorisk opgave 1 Formelle forhold: Opgaven stilles tirsdag

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Regularitetsbetingelserne

Regularitetsbetingelserne Kapitel 4 Regularitetsbetingelserne Vi vender nu tilbage til det asymptotiske scenarie fra kapitel 1. Vi har stokastiske variable X n med værdier i (X n,e n ) - oftest er X n en sammenbundtning af flere

Læs mere

En martingalversion af CLT

En martingalversion af CLT Kapitel 9 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske variable,

Læs mere

Reeksamen 2014/2015 Mål- og integralteori

Reeksamen 2014/2015 Mål- og integralteori Reeksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål. Ved bedømmelsen indgår de spørgsmål med samme vægt.

Læs mere

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave 3. februar 2012 Stat 1TS / EH Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i 2. udgave af

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/23 Statistisk hypotese PSfrag replacements

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Estimation Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev herefter

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m Fejlstrata Vi forestiller os at V har 1) Et underrum L 2) Et indre produkt, 3) En ortogonal dekomposition V = W 1 +... + W m Underrummene W i kaldes fejlstrata. Typisk eksempel på en fejlstratumdekomposition:

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/26 PSfrag replacements Statistisk

Læs mere

Klassifikation. Kapitel 5

Klassifikation. Kapitel 5 Kapitel 5 Klassifikation Klassifikation er en speciel afart af det problem, der generelt kaldes prediktion. Man har to stokastiske variable X og Y på et fælles baggrundsrum (Ω,F, P) med værdier i henholdsvis

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Lineære normale modeller (4) udkast

Lineære normale modeller (4) udkast E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder Heteroskedasticitet 11. april 007 KM: F18 1 Oversigt: Heteroskedasticitet OLS estimation under heteroskedasticitet (W.8.1-): Konsekvenser af heteroskedasticitet for OLS Gyldige test

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

standard normalfordelingen på R 2.

standard normalfordelingen på R 2. Standard normalfordelingen på R 2 Lad f (x, y) = 1 x 2 +y 2 2π e 2. Vi har så f (x, y) = 1 2π e x2 2 1 2π e y2 2, og ved Tonelli f dm 2 = 1. Ved µ(a) = A f dm 2 defineres et sandsynlighedsmål på R 2 målet

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007 regressionsmodel 1 Dagens program Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5, E.2) Variansen

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

EKSAMEN Flerdimensional Analyse Sommer sider

EKSAMEN Flerdimensional Analyse Sommer sider EKSAMEN Flerdimensional Analyse Sommer 2008 5 sider Formaliteter Eksamen er en 24-timers eksamen, der udleveres mandag den 23/6-2008 klokken 0.00 og afleveres tirsdag den 24/6-2008 inden klokken 0.00.

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1 Økonometri 1 Inferens i den lineære regressionsmodel 25. september 2006 Økonometri 1: F6 1 Oversigt: De næste forelæsninger Statistisk inferens: hvorledes man med udgangspunkt i en statistisk model kan

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k Dagens program: Likelihoodfunktion, begreber : Mandag den 4. februar Den generelle lineære model score-funktion: første afledede af log-likelihood har middelværdien nul observeret information: anden afledede

Læs mere

Estimation af bilkøbsrelationen med nye indkomst- og formueudtryk

Estimation af bilkøbsrelationen med nye indkomst- og formueudtryk Danmarks Statistik MODELGRUPPEN Arbejdspapir* Edith Madsen 21. juli 1997 Estimation af bilkøbsrelationen med nye indkomst- og formueudtryk Resumé: Papiret præsenterer en reestimationen af fcb-relationen.

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative

Læs mere

Hypotesetests, fejltyper og p-værdier

Hypotesetests, fejltyper og p-værdier Hypotesetests, fejltyper og p-værdier Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet October 25, 2018 Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. MI 2007 Obligatorisk opgave 4

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. MI 2007 Obligatorisk opgave 4 NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. MI 2007 Obligatorisk opgave 4 Sættet består af 3 opgaver med ialt 15 delopgaver. Besvarelsen vil blive forkastet, medmindre der er gjort et

Læs mere

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle. Modellens parametre Mandag den 25 april Hierarkiske normalfordelingsmodeller Dagens program: Resume af ensidet variansanalysemodel med tilfældig effekt estimation af tilfældige effekter, fortolkning som

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Villa 2. maj 202 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Modelselektion Permeabilitet Permeabilitet Permeabilitet

Modelselektion Permeabilitet Permeabilitet Permeabilitet Modelselektion Permeabilitet Vi vil ud fra et eksempel diskutere de uhyggelige effekter af test-baseret modelselektion. Hvor lang tid er vand om at trænge igennem nyfremstillede byggeplader. Dag Dag Dag

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t. t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program (8.15-10): 1. repetition: fordeling af observatorer X, S 2 og t. 2. konfidens-intervaller, hypotese test, type I og type II fejl, styrke,

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Nasser 9. april 20 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her.

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Eksamen 2014/2015 Mål- og integralteori

Eksamen 2014/2015 Mål- og integralteori Eksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål Ved bedømmelsen indgår de spørgsmål med samme vægt

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Områdeestimation. Kapitel 7

Områdeestimation. Kapitel 7 Kapitel 7 Områdeestimation Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). I kapitel 4 definerede vi såkaldte punktestimatorer af parameteren θ. Disse estimatorer fungerer sådan at vi

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder 2 Specifikation og dataproblemer 2. maj 2007 KM2: F22 1 Program Specifikation og dataproblemer, fortsat (Wooldridge kap. 9): Betydning af målefejl Dataudvælgelse: Manglende observationer

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere