Det asymptotiske scenarie

Størrelse: px
Starte visningen fra side:

Download "Det asymptotiske scenarie"

Transkript

1 Kapitel 5 Det asymptotiske scenarie Den simpleste asymptotiske situation opstår hvis man har uafhængige, identisk fordelte variable Y 1,..., Y n med værdier i et målbart rum (Y, K). Man forestiller sig at fordelingen af Y erne afhænger af en parameter θ Θ, og man forestiller sig at størrelsen af eksperimentet, givet ved antallet af deleksperimenter n, principielt er under eksperimentatorens kontrol - forstået på den måde at han kan vælge at tilføje deleksperimenter, hvis han ikke synes at han har nok allerede. Frekvensfortolkningen af sandsynlighedsregningen giver at man på baggrund af disse gentagelser af det samme deleksperiment efterhånden bliver i stand til at identificere den bagvedliggende fordeling af Y erne ganske godt. Den praktiske måde at sige det på, er at man bliver bedre og bedre til at lokalisere det sande θ når n vokser. Målet for den asymptotiske analyse er at give en præcis beskrivelse af hvor meget bedre man bliver. Typisk foregår analysen ved at vi sammenbundter de første n variable, og ser på X n = (Y 1,..., Y n ), der har værdier i rummet (Y n, K n ). Hvis de enkelte Y er har fordeling λ θ, så har sammenbundtningen fordeling ν n θ = λ θ n. Når man har sat denne ramme op, forstår man øjeblikkeligt at den er alt for restriktiv til at beskrive den virkelige verdens eksperimenter. Ethvert eksperiment, man kan finde på at underkaste en statistisk analyse, har et vist element af gentagelse i sig, og det er derfor altid naturligt at betragte det som opbygget af et (stort) antal deleksperimenter. Men meget ofte har deleksperimenterne forskellig fordeling. Eksperimentet 47

2 48 Kapitel 5. Det asymptotiske scenarie kan f.eks. handle om overlevelsestid fra hjertetransplantation til død - i så fald vil der nok være en ret markant forskel på de 40-årige patienter og de 80-årige. Der optræder næsten altid kovariater, størrelser der varierer mellem de forskellige deleksperimenter, og den statistiske analyses mål er netop at beskrive effekten af disse kovariater. Og det svarer i ovenstående tankegang til at vi må tillade at Y erne har forskellig fordeling. I visse tilfælde må man endda medgive at Y eren er så forskellige at de har værdier i hver deres rum. Man kan f.eks. forestille sig at Y n har værdier i (Y n, K m ), og at Y n s fordeling er λ n θ. I så fald har sammenbundningen X n værdier i (Y 1... Y n, K 1... K n ), og den har fordeling ν n θ = λ1 θ... λn θ. I andre sammenhænge er afvigelsen fra den primitive model med uafhængige, identisk fordelte gentagelser at deleksperimenterne er afhængige. Det kan f.eks. være det samme system man har målt på hen over tid. I så fald vil man ofte observere at målinger, der ligger tæt på hinanden i tid kun afviger lidt fra hinanden, mens målinger, der er taget med lang tids mellemrum afviger mere. Hvis man f.eks. måler luftens indhold af svovlpartikler, vil målingerne ikke variere meget fra sekund til sekund, mens de kan gå temmelig meget op og ned i løbet af et døgn - for ikke at tale om en måned. Et typisk eksempel kunne være et autoregressivt skema Y n+1 = µ + ρ(y n µ) + ɛ n+1 for n = 0, 1, 2,..., hvor ɛ erne er uobserverede støjvariable, der er uafhængige og identisk fordelte, f.eks. normalfordelte med middelværdi 0 og ukendt varians σ 2. Her er µ det niveau som målingerne svinger omkring, og ρ er en størrelse der bestemmer hvor hurtigt målingerne er i stand til at ændre sig - man ser at Cov(Y n, Y n+1 ) = ρ VY n, og målingerne er således ikke uafhængige medmindre ρ = 0. For at kunne give en generel diskussion af disse udvidelser af modellen med uafhængige, identisk fordelte gentagelser, fjerner vi helt de enkelte delekserimenter fra beskrivelsen. Vi vil helt generelt diskutere en følge af stokastiske variable X 1, X 2,..., defineret på det samme baggrundsrum (Ω, F) men med værdier i hver sit rum (X n, E n ). Det, der binder variablene sammen, er en fælles statistisk model (P θ ) θ Θ på baggrundsrummet. I praksis tænker vi på X n som et produktrum, og X n som en sammenbundtning af n deleksperimenter, men vi lader ikke denne produktstruktur optræde i formalismen. Vi forestiller os at vi observerer realisationer x 1 X 1, x 2 X 2,... af disse variable. De er trukket med det samme sande θ, som vi i det følgende refererer til som θ, og vi forsøger på baggrund af disse observationer at drage inferens om θ. I de

3 49 X n (Ω, F) (X n, E n ) PSfrag replacements P θ X n+1 θ (X n+1, E n+1 ) Θ ν θ Figur 5.1: En grafisk fremstilling af det asymptotiske scenarie, med en følge af modeller, alle indiceret ved den samme paramtermængde Θ. Typisk er hvert X n et produktrum med n identiske kopier af et elementært rum Y, og typisk er X n en sammenbundtning af n variable med værdier i Y. fleste realistiske situationer er der en projektiv struktur, en samling afbildninger π n : X n X n 1 sådan at π n (X n ) = X n 1 for alle n. Denne projektive struktur fremkommer typisk fordi X n er en sammenbundtning af flere deleksperimenter end X n 1, og man kan finde X n 1 ved simpelthen at slette de relevante deleksperimenter fra X n. Hvis der er en sådan projektiv struktur, så er der i virkeligheden kun én trækning involveret i sekvensen X 1, X 2,.... Men vi stiller ikke noget formelt krav om at variablene er forbundet på denne måde. Det står os f.eks. frit for at forestille os at vi efter at have observeret X n kasserer alle de deleksperimenter der indgår, og lader X n+1 bestå af en sammenbundtning af n+1 nye deleksperimenter. Det lyder som en meget uøkonomisk - og for så vidt umoralsk - omgang med data, men formalismen protesterer ikke. Vi forsøger at drage inferens om det bagvedliggende θ på baggrund af hver enkelt observation x 1, x 2,.... Det kan f.eks. føre til en følge af estimater ˆθ 1, ˆθ 2,.... Og vores opgave er dels at beskrive i hvilken forstand disse estimater bliver bedre og bedre,

4 50 Kapitel 5. Det asymptotiske scenarie og dels at pege på estimationsprincipper der sikrer omsætningen fra observation til viden om parameteren sker så effektivt som muligt. 5.1 Interesseparameteren Vi har hidtil ikke sagt noget om parametermængden Θ - og faktisk vil vi gerne undgå at sige noget, der kan lægge restriktioner på hvilke parametermængder, der kan bruges. Vi er fuldt ud rede til at acceptere at Θ er et uendeligdimensionalt funktionsrum, f.eks. Pointen er nemlig at vi ikke interesserer os særlig meget for Θ i sig selv. Vi forestiller os derimod at vi har en parameterfunktion ψ : Θ R d, og vores egentlige mål at at drage inferens om den sande ψ-værdi, altås ψ = ψ(θ ). Der er et vist misbrug af notation involveret i denne formulering, fordi vi bruger bogstavet ψ til både at betegne en afbildning, og til at betegne afbildningens værdier, men det vænner man sig hurtigt til. Når vi skriver ψ, skal det sædvanligvis forstås som ψ(θ) for et eller andet θ. Eksempel 5.1 For en fuldt parametrisk model, altså en model hvor Θ R d for et passende d, vil man som regel interessere sig for den fulde parameter, dvs. for parameterfunktionen ψ : R d R d givet ved ψ(θ) = θ. I denne sammenhæng er ψ blot et forstyrrende formalistisk lag oven på det egenelige problem. Men man kan også forestille sig situationer hvor Θ = Θ 1 Θ 2, hvor hvert θ Θ altså kan skrives θ = (α, β). I sådan et tilfælde kan interessen meget vel være rettet mod α, mens β betragtes som en nuissanceparameter. Det bygges ind i formalismen ved hjælp af parameterfunktionen ψ(α, β) = α. Et oplagt eksempel hvor den fulde parameter må deles op i en interesseparameter og en nuissanceparameter er sædvanlig lineær regression, Y i = α + β t i + ɛ i for i = 1,..., n, hvor ɛ erne er uafhængige N(0, σ 2 )-fordelte variable. Den fulde parameter er her triplet (α, β, σ 2 ), men typisk skænker man ikke σ 2 megen opmærksomhed - hele interessen rettes mod middelværdiparametrene α og β.

5 5.1. Interesseparameteren 51 Eksempel 5.2 I overlevelsesanalyse, hvor målingerne per definition er positive, modellerer man ofte den såkaldte hazardrate. Det er en funktion λ : (0, ) (0, ), der ikke er Lebesgueintegrabel. Den bestemmer en fordelingsfunktion ved formlen ( x ) F(x) = 1 exp λ(u) du 0 Man kan fortolke hazardrate på den måde at λ(x) x approksimativt er sandsynligheden for at patienten dør i tidsintervallet (x, x + x), betinget med at patienten ikke er død til tid x. Approksimationen er god, hvis x er lille. Der er to grunde til at man studerer overlevelse via hazardrate. Den ene er intuitiv - det svarer faktisk meget godt til hvordan vi tænker på risiko. Den anden er teknisk: overlevelseseksperimenter er altid fulde af censureringer, fordi man ikke kan vente med at analysere sine data indtil alle patienterne er døde. Og det er ikke så nemt at indkorporere censureringerne i en klassisk modelopbygning, baseret på tætheder. Hvorimod censureringer og hazardrate spiller meget fint sammen. Meget ofte har man overlevelsesmålinger Y 1, Y 2,..., Y n (nogle af dem eventuelt censurerede) med hver sin kovariat, t 1, t 2,..., t n, og målet vil da som regel være at beskrive hvordan kovariaterne påvirker overlevelsen. Man anvender da gerne en semiparametrisk model, hvor observationerne antages at være uafhængige med hver sin hazardrate, men hvor de forskellige hazardrates er knyttet sammen ved betingelsen λ i (x) = e α t i λ 0 (x) for x > 0, i = 1,..., n. (5.1) Den såkaldte baseline hazard λ 0 er fælles for alle observationerne, men antages iøvrigt at være helt ukendt. Fordelingen er således parametriseret ved (α, λ 0 ), hvor første komponenten er et reel tal, mens anden komponenten er en næsten vilkårlig funktion (0, ) (0, ). Man refererer gerne til (5.1) som antagelsen om proportionale hazardfunktioner, og det er naturligvis en kritisk antagelse, på samme måde som linearitetsantagelsen i lineær regression kan lede til fuldstændig absurde resultater hvis den er forkert. Men hvis antagelsen om proportionale hazardfunktioner er rigtig, så er al information om kovariaternes indflydelse placeret i parameteren α, og man kan derfor principielt forsøge at besvare undersøgelsens hovedspørgsmål uden at interessere sig for baselinehazard. I praksis bliver man selvfølgelig nødt til også at estimere λ 0, men man behøver måske ikke at gå særlig meget op i kvaliteten af dette estimat.

6 52 Kapitel 5. Det asymptotiske scenarie Som sagt gør vi en dyd af ikke at lægge begrænsninger på parametermængden Θ overhovedet. Det kan vi slippe afsted med, så længde vi ikke forsøger at drage inferens om θ. Til gengæld er vi nødt til at lægge visse antagelser på de ψ-værdier, der kan optræde i analysen. Teknisk grundantagelse: Billedmængden Ψ = ψ(θ) er en åben delmængde af R d. Det er sjældent at se en overtrædelse af denne grundantagelse, og selv hvis man står med en overtrædelse, kan man som regel formulere sig ud af det. Problemet vil oftest være at ψ(θ) ikke har indre punkter, fordi mængden er for lavdimensional. Man kan f.eks. forestille sig at ψ(θ) er en kurve i planen, et essentielt etdimensionalt objekt, der selvfølgelig ikke kan være en åben delmængde af R 2. Hvis dette problem er opstået, et det fordi man har valgt et forkert euklidisk rum til sin analyse. Man kan som regel finde en afbildning ρ : R d R d 1 ned i en lavere dimension, så ρ er injektiv på ψ(θ), og så ρ ψ(θ) er åben i R d 1. I så fald erstatter man blot den oprindelige parameterfunktion ψ med den modificerede parameterfunktion ρ ψ som udgangspunkt for analysen. Hvis man går til tekniske yderligheder, er den essentielle antagelse for så vidt ikke at ψ(θ) skal være en åben delmængde af et euklidisk rum, men at det skal være en C 2 -mangfoldighed med en veldefineret dimension d 1. En kurve er en etdimensional mangfoldighed, hvad enten den ligger i planen eller i rummet. Et eksempel på en todimensional mangfoldighed er f.eks. kugleoverfladen S 2 inde i R 3 - denne mængde kan man ikke afbilde ned i R 2 på en injektiv måde, så hvis man vil se på det som en åben delmængde af R 2, må man fjerne mindst ét punkt. Mangfoldigheder er uhyre naturlige objekter ud fra et geometrisk synspunkt, men de spiller i praksis ikke rigtig nogen rolle som parametermængder i statistiske sammenhænge - åbne delmængder af euklidiske rum er fuldt tilstrækkelige. Så vi ville ikke have meget at bruge den vundne generalitet til, hvis vi nøjedes med at kræve at ψ(θ) skulle være en C 2 -mangfoldighed. Et andet problem der kan opstå i visse modeller, er at ψ(θ) nok har masser af indre punkter (så dimensionen er rigtig), men også har randpunkter. Med lidt held kan man gøre Θ lidt mindre, og på den måde fjerne problemet. Analysen indskrænker sig alligevel til at komme med lokale udsagn om den sande parameter, så sålænge vi ikke fjerner den sande parameter fra Θ, så går det nok endda. Men i andre tilfælde er disse randpunkter en essentiel del af problemet, og kan ikke fjernes ved kosmetiske operationer.

7 5.1. Interesseparameteren 53 Eksempel 5.3 Betragt en etsidet variansanalyse med tilfældige virkninger, altså en model af formen Y i j = α + Z i + ɛ i j hvor i = 1,..., n, j = 1,..., m i. Her er Z erne uafhængige N(0, ν 2 )-fordelte, mens ɛ erne er uafhængige N(0, σ 2 )- fordelte. Naturligvis er Z erne og ɛ erne også uafhænige af hinanden. Modellen finder anvendelse hvor man måler det samme på en række forsøgspersoner, og hvor man har gentagne målinger for i hvert fald nogle af disse personer. Grundniveauet for den i te person er størrelsen α + Z i, og det modificeres så i de enkelte målinger med en støjvariabel ɛ i j. Typisk vil man forestille sig at den såkaldte intersubjekt variabilitet ν 2 (altså variationen mellem personerner) er væsentligt større end intrasubjekt variabiliteten σ 2 (altså variationen blandt målingerne for én og samme person). Den fulde parameter er i denne situation (α, ν 2, σ 2 ), hvor α R, ν 2 0 og σ 2 > 0. Hvor man uden at blinke antager at σ 2 er strengt positiv, svarende til at der altid er en vis målestøj, så er en tilsvarende antagelse om ν 2 ikke så indlysende. Faktisk retter der sig en speciel interesse mod tilfældet ν 2 = 0, fordi det svarer til at der ikke er nogen personeffekt i målingerne. Så her er et tilfælde hvor parametermængden helt naturligt har randpunkter. Problemet spiller en vis rolle i praksis, fordi det naturlige kvotienttest for en hypotese om at ν 2 = 0 ikke er asymptotisk χ 2 -fordelt med 2 frihedsgrader under hypotesen, sådan som man umiddelbart ville forvente det. Fordelingen ligner nærmere en blanding af en χ 2 -fordeling med 2 frihedsgrader og en χ 2 -fordeling med 3 frihedsgrader. Test for om random effects kan fjernes fra en model volder generelt problemer for den asymptotiske teori. Denne type problemer vil ikke blive behandlet i disse noter. Til at vurdere samspillet mellem en observation x X n og en ψ-værdi har vi en konkordanskombinant h n : X n Ψ R. Der er ikke noget formelt krav om at disse konkordanskombinanter for forskellige n-værdier hænger sammen, men vi insisterer dog på at der findes en samlende fortolkning af dem. Typisk vil uligheden h n (x, ψ 1 ) < h n (x, ψ 2 ) fortolkes på den måde at ψ 1 er i bedre konkordans med observationen x end ψ 2.

8 54 Kapitel 5. Det asymptotiske scenarie Eksempel 5.4 Lad Y 1, Y 2,... være uafhængige, identisk fordelte stokastiske variable med værdier i (Y, K). Antag at P θ (Y i A) = f θ dµ, for et passende σ-endeligt grundmål µ, og en passende familie af tætheder ( f θ ) θ Θ. Antag at parametermængden Θ er en åben delmængde af R d, og lad os interessere os for den fulde parameter, altså for parameterfunktionen ψ : R d R d givet ved ψ(θ) = θ. I det asymptotiske scenarie betragter vi sammenbundtningen X n = (Y 1,..., Y n ) med værdier i (X n, E n ) = (Y n, K n ). Typiske konkordansfunktioner er likelihoodfunktionen n L y1,...,y n (θ) = f θ (y i ) og loglikelihoodfunktionen l y1,...,y n (θ) = A i=1 n log f θ (y i ),. i=1 der naturligvis har modsatrettede fortolkninger, men indeholder samme information. Man kan opstille en likelihoodfunktion og en loglikelihoodfunktion i mange, mange andre modeller end i modeller for uafhængige, identisk fordelte observationer, og det er en generel anbefaling at man bruger en af disse funktioner som konkordanskombinant så ofte man kan slippe afsted med det. Men der findes modeller, hvor likelihoodtilgangen ikke er farbar. For nogle modeller findes der slet ikke nogen likelihoodfunktion. Det er typisk situationen for ikke-parametriske eller semiparametriske modeller. For andre af disse funktionsrumsmodeller findes likelihoodfunktionen måske nok i abstrakt forstand, men den bliver aldeles uhåndterlig fordi parametermængden er uendeligdimensional. En beslægtet problemstilling er at man i mange tilfælde ikke er indstillet på at modellere alle aspekter af det udførte forsøg. I overlevelsesforsøg som i eksempel 5.2 har man typisk ikke mod på at modellere censurmekanismerne, og man er derfor principielt ude af stand til at opstille en likelihoodfunktion. Men der kan også være problemer for endeligdimensionale modeller, hvor alt i princippet er modelleret. Man kan komme ud for at likelihoodfunktionen måske nok findes, men ikke kan skrives ned på nogen brugbar måde. Dette fænomen optræder

9 5.1. Interesseparameteren 55 f.eks. i modeller for stokastiske differentialligninger, hvor parametrene bestemmer hvordan en stokastiske proces udvikler sig over infinitesimale tidsrum, men hvor observationerne er gjort med ikke-infinitesimale mellemrum, f.eks. til tid 1, 2,.... I en abstrakt forstand bestemmer parametrene hvordan processen bevæger sig i disse store tidsintervaller, man ikke på nogen eksplicit måde - man skal så at sige integrere den infinitesimale opførsel, og det kan være umuligt at gøre med konkrete formler. Et andet eksempel, hvor likelihoofunktionerne ikke har noget brugbart konkret udtryk, finder man i modeller med skjulte variable. Man kan f.eks. have uobserverede variable Z 1,..., Z k med simultan tæthed g θ (z 1,..., z k ) og observerede variable Y 1,..., Y n, hvor den betingede fordeling af (Y 1,..., Y n ) givet (Z 1,..., Z k ) er kendt - den kan have tæthed h θ (y 1,..., y n z 1,..., z k ). Likelihoodfunktionen for observationerne kan da i princippet skrives ned som et integral, L y1,...,y n (θ) = h θ (y 1,..., y n z 1,..., z k ) g θ (z 1,..., z k ) d(z 1,..., z k ) (5.2) men denne repræsentation er næppe særlig nyttig, medmindre man kan regne integralet ud. Skjulte variable er et meget udbredt fænomen i de mere avancerede statistiske modeller, hvor de kan forklæde sig under navne som random effects, frailty, state space variable og hierakisk strukturerede modeller. Det er en stor videnskabelig industri at forsøge at udnytte (5.2), også i situationer hvor man ikke eksplicit kan udregne integralet, men de anvendte teknikker er typisk meget modelspecifikke - man kan anvende saddelpunktsapproksimationer for integralet, man kan simulere sig frem til integralet ved hjælp af Monte Carlo teknikker, eller man kan forsøge at arbejde med integralet uevalueret gennem EM-teknikker. Men i mange situationer kan man også med succes vælge sig en anden konkordanskombinant, som måske ikke er teoretisk optimal, men som til gengæld leder til mere håndterlig matematik. Endelig skal man også holde sig for øje at likelihooodfunktionen for nogle modeller for så vidt godt kan skrives eksplicit op, men at det kan volde praktiske problemer at få den maksimeret. Computere bliver større og kraftigere, og den numeriske analyse gør store fremskridt. Men det er stadig væk et problem at maksimere en funktion af 100 variable, især hvis den har en skov af lokale maksima. Samtidigt med at computerne bliver større er der en tilbøjelighed til at de anvendte modeller bliver større - måske vokser modellerne endda hurtigere end regnekraften. Og eftersom de ægte likelihoodfunktioner ofte er ganske irregulære med mange lokale ekstrema, kan der være store gevinster i at erstatte den ægte likelihoodfunktion med en regulariseret approksimation. Denne approksimation har næppe helt samme maksimum, men til gengæld undgår den måske hele floraen af lokale ekstrema.

10 56 Kapitel 5. Det asymptotiske scenarie Eksempel 5.5 Hvis vi har uafhængige og identisk fordelte reelle observationer Y 1, Y 2,..., hver især med tæthed f θ, hvor θ Θ for en passende parametermængde Θ, så vil den primære interesse i mange situationer rette sig mod en reel parameterfunktion ψ : Θ R. En forholdsvis naturlig konkordanskombinant kan da være profillikelihoodfunktionen L y1,...,y n (ψ) = sup L y1,...,y n (θ), θ:ψ(θ)=ψ eller eventuelt den tilsvarende profilloglikelihoodfunktion. Man skal dog være opmærksom på at denne ide ofte fungerer bedre i teorien end i praksis, simpelthen fordi profillikelihoodfunktionen kan være uhyre vanskelig at finde eksplicit, og derfor kan den være svær at arbejde med. Eksempel 5.6 Antag at Y 1, Y 2,... er reelle stokastiske variable, og at Y i = d a i j θ j + ɛ i for i = 1,..., n, j=1 hvor a i j erne er kendte tal (kovariater), hvor θ 1,..., θ d er reelle parametre og hvor ɛ i erne er reelle stokastiske variable med middelværdi 0. På vektorform kan vi skrive Y 1 Y 2. Y n a 11 a a 1d a 21 a a 2d = a n1 a n2... a nd θ 1 θ 2. θ d Vi kan også vælge at udtrykke modellen på matrixform, X n = A n θ + ɛ n, ɛ 2 +. hvor X n er sammenbundtningen af de første n Y er, hvor A n er en n d matrix, der vokser med n ved at få tilføjet nye rækker, og hvor ɛ n er sammenbundtningen af de første n ɛ er. Den fundamentale antagelse her er at θ = (θ 1,..., θ d ) ikke indgår i fordelingen af ɛ erne. Måske angiver vi en parametrisk model for fordelingen af ɛ erne, måske nøjes vi med en ikke-parametrisk specifikation. Vi skal blot have en måde at tale om fordelingen af samtlige sammenbundtede fejlvariable ɛ n på én gang. Lad os sige at det sker gennem parameteren ν, der kan antage værdier i en endeligdimensional mængde ɛ 1 ɛ n.

11 5.1. Interesseparameteren 57 eller en uendeligdimensional mængde, som det nu må falde sig. Vi har altså en fuld parameter af formen (θ, ν). Pointen er at vi opfatter θ som interesseparameteren og ν som en nuissanceparamter. Bemærk at vi ikke har antaget at ɛ erne er uafhængige. Man kan sagtens forestille sig at ɛ erne udgør en AR(1)-proces, ɛ n+1 = ρ ɛ n + W n+1 for n = 1, 2,... hvor W erne er uafhængige og identisk fordelte. Hvis vi antager at hvert W er N(0, β 2 )-fordelt, så er ν i denne situation en sammenbundtning af ρ og β 2 plus eventuelt en ekstra parameter, der bestemmer fordelingen af ɛ 1. Vi har principielt heller ikke antaget at ɛ erne er identisk fordelte. Der kan være mange grunde til at antage at støjen ændrer størrelse fra eksperiment til eksperiment, blot må man ikke henvise til den gængse intuition om at støjen er stor for store målinger. Denne forklaring bruges ellers implicit i mange teknologiske sammenhænge, hvor præcisionen af måleinstrumenter typisk opgives som et antal procent af den målte værdi. Hvis denne tankegang er relevant, så kan man ikke separere den fulde parameter i en del θ, der beskriver middelværdistrukturen, og en anden del ν, der beskriver fejlstrukturen - der vil være de samme parametre, der indgår begge steder. En least squares kombinant er en kombinant af formen h n (y 1,..., y n, θ) = x A n θ 2 hvor er en norm på R n. Det underforstås at kombinanten skal fortolkes sådan at små værdier er gode. Hvis man bruger den sædvanlige euklidiske norm taler man om en ordinary least squares (OLS) kombinant, bruger man andre normer taler man om en weighted least squares (WLS) kombinant. OLS kombinanten er især velegnet hvis ɛ erne er uafhængige og identisk fordelte - den er i særedelshed velegnet, hvis ɛ erne yderligere vides at være normalfordelte, men den kan med en vis succes bruges under mange andre antagelser om støjfordelingen, f.eks. t-fordelte ɛ er. Hvis ɛ erne er uafhængige men ikke identisk fordelte, bruger man gerne WLS kombinanter dannet ud fra normer af formen x 2 = x T Bx, (5.3) hvor B er en diagonalmatrix med positive diagonalelementer. Diagonalelementernes variation skal i så fald udtrykke forskellen i størrelse af de enkelte ɛ er. Hvis ɛ erne er

12 58 Kapitel 5. Det asymptotiske scenarie afhængige, kan man forsøge at bruge en WLS kombinant dannet udfra normen (5.3) med en mere indviklet symmetrisk, positivt definit matrix B. Man forsøger gerne at bruge en matrix der er proportional med den inverse variansmatrix for ɛ n hvis man kan komme af sted med det. Men generelt må man sige at det er et vanskeligt problem at finde en god WLS kombinant uden en uafhængighedsantagelse. Og derfor bruger man faktisk ofte OLS kombinanten, selv for afhængige støjvariable. Et robust alternativ til least squares kombinanterne, altså en kombinant der giver mindre vægt til de ekstreme observationer (og derfor ikke er helt så sårbart overfor regulære fejlobservationer) er L 1 -afstanden h n (y 1,..., y n, θ) = n y i i=1 d a i j θ j Det er teknisk meget vanskeligere at arbejde med L 1 -afstande end med L 2 -afstande, og robuste kombinanter fører som regel ikke til eksplicitte formler for estimatorer etc. Men de spiller en stadig større rolle i den anvendte statistik. Teknisk grundantagelse: For alle n N og alle x X n er afbildningen ψ h n (x, ψ) to gange kontinuert differentiabel på hele Ψ. I det følgende vil vi ofte differentiere h n. Det skal altid forstås som differentation med hensyn til ψ. Skønt X n jo typisk er lig med R n, sådan at vi i princippet godt kunne differentiere med hensyn til observationen, vil vi aldrig finde anledning til at gøre det. Differentierer man en gang, fås den generaliserede scorefunktion, j=1 Dh n (x, ψ) Lin(R d, R d ) for alle x, ψ. Differentierer man en gang til, fås den generaliserede informationsfunktion, D 2 h n (x, ψ) Bil(R d, R d ; R) for alle x, ψ. Typisk sætter vi den stokastiske variable X n ind i disse funktioner, og ser på Dh n (X n, ψ) og D 2 h n (X n, ψ) der bedst betragtes om stokastisk valgte afbildninger Ψ Lin(R d, R d ) henholdsvis Ψ Bil(R d, R d ; R).

13 5.2. M-estimatorer M-estimatorer Ordet M-estimator bruges om en estimator, der fås frem ved at minimere en vilkårlig konkordanskombinant. Eller ved at maksimere, hvis det er det relevante at gøre i forhold til kombinantens fortolkning - der skelnes ikke så nøje mellem de to former for optimering, og M er et godt bogstav i begge sammenhænge. Men vi vil i almindelighed forestille os at der minimeres. Formelt definerer vi i vores ramme den globale M-estimator som en afbildning t n : X n Ψ der opfylder at h n (x, t n (x)) h n (x, ψ) for alle ψ Ψ, i hvert fald for de x er hvor det kan lade sig gøre. Vi skal jo på en eller anden måde have skabt plads både til muligheden for flere minima, og til muligheden for at der ikke eksisterer noget minimum. Typisk bruger vi den stokastiske notation ˆψ n = t n (X n ). Eksempel 5.7 I eksempel 5.6 opstillede vi least squares kombinanter af formen h n (x, θ) = (x A n θ) T B n (x A n θ), hvor observationen x ligger i R n, hvor A n er en n d designmatrix, og hvor B n er en symmetrisk, positivt definit n n matrix. Klassisk lineær algebra tillader os at minimere denne kombinant eksplicit, og vi får at t n (x) = ( A n T B n A n ) 1An T B n x. Vores resultater i det følgende handler desværre ikke altid om den globale M- estimator. Problemet er at argumenterne er baseret på en Taylorudvikling af kombinanten omkring den sande parameter, og denne Taylorudvikling har kun et relevant indhold tæt ved den sande parameter. Vi skal vise at der findes en lokal M-estimator, altså et lokalt minimum for kombinanten i nærheden af den sande parameter, og vi skal vise at denne lokale M-estimator opfører sig hensigtsmæssigt når n går mod. Om den lokale M-estimator er lig med den globale M-estimator, er en sag man må

14 60 Kapitel 5. Det asymptotiske scenarie undersøge i hver model for sig, og det er ofte en meget vanskelig ting at få styr på. En ting, der gerne redder os, er konveksitet af kombinanten - hvis ψ h n (x, ψ) er konveks for alle x X n og for alle n, så vil et lokalt minimum automatisk være det globale minimum, og den lokale M-estimator vil således falde sammen med den globale M-estimator. Vi kommer til at bruge en hel del forskellige definitioner af hvad vi mener med lokal, men det simpleste eksempel på en lokal M-estimator er følgende totrinsdefinition. Først finder vi samtlige lokale minima for konkordanskombinanten, LM(x) = {ψ ψ er et lokalt minimum for h n (x, ψ)},. Dernæst vælger vi det lokale minimum, der ligger tættest på den sande parameter, t n (x) = arg min ψ LM(x) ψ ψ. Vi skriver også gerne ˆψ n for t n (X). At kalde denne konstruktion for en estimator er naturligvis en stramning af flere årsager. For det første kan den umuligt regnes ud, uden hjælp fra Lykkens Gudinde: kun hun ved jo hvilket lokalt minimum, der er det rigtige. For det andet er der de sædvanlige problemer med entydighed og eksistens. For visse x er er LM(x) måske tom, for andre er der flere ψ er i LM(x), der ligger lige tæt ved ψ. Begge dele er panikobservationer, som vi må sikre os at der ikke er for mange af. For det tredie er det stort set umuligt at sikre sig at ˆψ n er målelig. Vi vil her følge den traditionelle måde at løse problemet på: vi lukker simpelthen øjnene for at det kan opstå... Der er i de senere år udviklet en teknisk korrekt måde at håndtere disse målelighedsproblemer på. Den består i at studere fordelingsteori for ikke-målelige stokastiske variable, noget der involverer begreber som ydre mål og ydre integraler. Det er nu ikke noget vi vil komme ind på overhovedet. 5.3 Reskalering Den fundamentale ide i vores behandling af M-estimatorer er studere kombinanterne h n gennem en n-afhængig reparametrisering. Et reskaleringsskema, eller en reskaleringssekvens, er en følge (A n ) n N af invertible, lineære afbildninger R d R d. I alle tilfælde uden undtagelse vil vi forestille os at A n for n, ja faktisk vil vi stramme kravet til at A n 1 0 for n. (5.4)

15 5.3. Reskalering 61 Eftersom I = A n A n 1 A n A n 1 følger det heraf at A n. Meningen med A n er at den skal udtrykke den hastighed hvormed vi opsamler information om parametrene. Det sædvanlige reskaleringsskema er A n ψ = n ψ for alle ψ R d. (5.5) der dels udtrykker at vi opsamler information om de forskellige parametre med samme hastighed (fordi A n er et mutiplum af I), og dels udtrykker at denne fælles hastighed er af størrelsesorden n (svarende til den sædvanlige normering i CLT). Men vi skal se en hel del andre reskaleringssekvenser i brug, i situationer hvor der optræder andre indlæringshastigheder end n og i særdeleshed i situationer hvor de forskellige parametre indgår så asymmetrisk i modellen at man ikke bliver klogere på dem i samme hastighed. Ud fra et givet reskaleringsskema (A n ) n N indfører vi de reskalerede konkordanskombinanter h n (x, ξ) = h n (x, ψ + A 1 n ξ). (5.6) Her er ψ den sande ψ-værdi, så det er selvfølgelig en fiktion at forestille sig at man kan konstruere disse reskalerede kombinanter - det kræver at man kender den sande parameter, og hvis man gjorde det, brugte man nok ikke kræfter på at estimere den. Man skal i stedet tænke at vi gennemfører analysen af de reskalerede konkordanskombinanter for alle de mulige værdier af den sande parameter. Hvis vi kan sige noget begavet om alle disse kombinanter, så får vi specielt sagt noget begavet om kombinanten dannet ud fra den sande sande parameter. PSfrag replacements ν θ Ψ ψ koordinater ξ koordinater Figur 5.2: En grafisk fremstilling af blow up ideen i (5.6). Vi fokuserer på en fast omegn af 0 i ξ-koordinaterne, transformerer den over i mindre og mindre omegne af ψ i ψ-koordinaterne ved hjælp af de affine afbildninger ξ ψ + A n 1 ξ. Vi studerer konkordanskombinanterne i disse små omegne af ψ ved at udtrykke dem i ξ-koordinater.

16 62 Kapitel 5. Det asymptotiske scenarie Man referer ofte til denne reskaleringside som et blow up. Man kan tænke sig at man studerer h n i en lille omegn af ψ ved at se i en slags mikroskop. Når n vokser, ændres billedet naturligvis, men det forsøger man at kompensere for ved at skrue højere og højere op for forstørrelsesgraden. Hvis man er heldig, kan man finde den helt rigtige hastighed at skrue på forstørrelsesgraden med, sådan at billedet i mikroskopets okular holder sig næsten konstant selv om n vokser. Definitionsmængden for de reskalerede konkordanskombinanter er ikke så nem at få fastlagt, men eftersom Ψ er en åben mængde der indeholder ψ, vil Ψ indeholde en lille kugle B(ψ, ɛ). Hvis vi lægger os fast på et bestemt c > 0 og ser på ξ B(0, c), så vil (ψ + A n 1 ξ) ψ A n 1 c. Når n er så stor at A n 1 c < ɛ, ser vi således at ξ h n (x, ξ) er veldfineret på hele kuglen ξ B(0, c). Og det gælder uanset hvor stort c vi har valgt - omend et stort c nok kræver at vi ser på meget store n-værdier. Ideen bag reskaleringen er at undersøge h n s opførsel i en meget lille omegn om den sande ψ-værdi, en omegn der mindskes når n vokser. Undersøgelsen foretages ved at blæse omegnen op, indtil den har fået en på forhånd fastlagt størrelse. Og i denne optik, kan det være at dette eller hint konvergerer. At der kan komme noget fornuftigt ud af det, illustreres nok bedst med et konkret eksempel. Eksempel 5.8 Lad Y 1, Y 2,... være uafhængige reelle stokastiske variable, alle med tæthed f θ med hensyn til Lebesguemålet. Vi antager at θ Θ, hvor Θ R er et åbent interval, og vi antager at f θ (x) er strengt positiv og C 3 som funktion af θ. Endelig antager vi at l y (θ) C for alle y R, θ Θ, hvor l y (θ) = log f θ (y) er loglikelihoodfunktionen baseret på en enkelt observation. Den naturlige konkordanskombinant i denne sammenhæng er loglikelihoodfunktionen n h n (y 1,..., y n, θ) = l yi (θ). Hvis vi reskalerer ved hjælp af standardskemaet (5.5), får vi den reskalerede kombinant n ( h n (y 1,..., y n, ξ) = l yi θ + ξ ). n i=1 i=1

17 5.3. Reskalering 63 Nuvel, det konvergerer sådan set ikke. Men lad os se på de tre første afledede: h n(y 1,..., y n, ξ) = 1 n ( l y n i θ + ξ ), n h n (y 1,..., y n, ξ) = 1 n i=1 n i=1 h n (y 1,..., y n, ξ) = 1 n 3/2 Bemærk at den tredie afledede opfylder at ( l y i θ + ξ ), n n i=1 ( l y i θ + ξ ). n h n (y 1,..., y n, ξ) 1 n 3/2 n C = C n. Den tredie afledede af den reskalerede kombinant går således uniformt mod 0. Hvis man laver en 2. ordens Taylorudvikling af h n ser man at den reskalerede kombinant i alt væsentligt er et andengradspolynomium, når n er stor, fordi restledet falder væk. Og hvilket andengradspolynomium taler vi så om? Hvis vi ser på den anden afledede i ξ = 0 som en stokastisk variabel, så er h n (Y 1,..., Y n, 0) = 1 n n i=1 l Y i (θ ). Her faldet det naturligt at bruge store tals lov, og vi ser at h n (Y 1,..., Y n, 0) P E θ l Y 1 (θ ) for n, hvis middelværdien på højre side eksisterer. Og det gør den i alle rimelige modeller. I notationen fra Stat 1TS er værdien i 1 (θ ), Fisher informationen baseret på en enkelt observation, regnet ud i den sande parameter. En tilsvarende analyse af den første afledede i ξ = 0 fortæller via Laplaces CLT at h n (Y 1,..., Y n, 0) = 1 n l n Y i (θ ) D Z for n, i=1 hvor Z N(0, i 1 (θ ). Her har vi udnyttet at i alle rimelige modeller er E θ l y 1 (θ ) = 0, mens V θ l y 1 (θ ) = i 1 (θ ). Vi kan opsummere disse observationer på den måde at h n (Y 1,..., Y n, ξ) h n (Y 1,..., Y n, 0) + Z ξ + i 1(θ ) 2 ξ 2.

18 64 Kapitel 5. Det asymptotiske scenarie De reskalerede kombinant i ξ = 0 vil givetvis divergere for n. Som sådan konvergerer den reskalerede kombinant derfor næppe. Men vi er alligevel i stand til at se at h n (Y 1,..., Y n, ξ) har et globalt minimum i ˆξ n Z/i 1 (θ ). Minimaet flytter sig fra realisation til realisation, men der er grund til at tro at ˆξ n approx N ( 0, 1 i 1 (θ ) Vi kan oversætte disse resultater til den oprindelige parameterskala. Når h n har et mimimum i ξˆ n, så må h n tilsvarende have sit minimum i ˆθ n = θ + ˆξ n n θ ). Z n i1 (θ ), Hermed har vi givet et plausibelt argument for at maksimaliseringsestimatoren eksisterer i denne model, og for at ˆθ n N(θ, 1 1 as n i 1 (θ )). Når det ikke er et rigtigt bevis, så er det udelukkende fordi vi har haft lidt løs hånd i approksimationerne - ræsonnementet kan sagtens gøres præcist, og det vil vi gøre i de kommende kapitler. Pointen på dette sted er primært at vise at med den rigtige reskalering, så vil den reskalerede kombinant opføre sig på en måde, så man kan se dens monotoniforhold. For den uskalerede kombinant vil såvel funktionen som dens afledede divergere, og det er svært at få overblik over noget som helst. PSfrag replacements h(x, ψ) h(x, ψ h(x, ξ) h(x, 0 ψ ξ Figur 5.3: En skitse af reskaleringens effekt. Til venstre er optegnet ψ h n (x, ψ) h n (x, ψ ). Denne funktion ændrer sig meget hurtigt, og den bliver mere og mere eksplosiv med stigende n. Til højre er tegnet ξ h n (x, ξ) h n (x, 0). Det markerede område svarer til det markerede område på den første tegning. Fordi området er blevet strukket ud, er det meget nemmere at se hvad funktionen gør.

19 5.3. Reskalering 65 For nogle af de fænomener vi skal studere, gør det en forskel om vi bruger et pænt reskaleringsskema eller om vi tillader et reskaleringsskema, der ændrer geometrien i situationen fundamentalt. Definition 5.9 En sekvens (A n ) n N af invertible lineære afbildninger på R d har begrænset distortion hvis for en passende konstant L. A n A n 1 L for alle n N, (5.7) Den norm, der indgår i definitionen af begrænset distortion, er i første omgang operatornormen. Men eftersom alle normer på Lin(R d, R d ) er ækvivalente, ser man at den konkrete norm faktisk ikke spiller nogen rolle. Hvis et skema af lineære afbildninger på R d opfylder (5.7) med en eller anden norm, vil den også opfylde (5.7) med en vilkårlig anden norm - det kræver blot en udskiftning af den øvre grænse L. Det er ganske heldigt at det forholder sig sådan, for operatornormen er ofte vanskelig at finde eksplicit, mens andre normer har en helt anderledes konkret karakter. Et bekvemt valg er ofte maksimumsnormen: Hvis den lineære afbildning A på R d repræsenteres af d d matricen A = (a i j ), er A = max a i j. i j Hvis man gerne vil have et eksplicit bånd mellem operatornormen og maksimumsnormen, kan man indse at A A d A for alle A Lin(R d, R d ), (5.8) men man plejer at nøjes med at væve med hånden og påberåbe sig den generelle ækvivalens af alle normer på endeligdimensionale vektorrum. Eksempel 5.10 Hvis (A n ) n N er standardskaleringsskemaet (5.5) på R d, så repræsenteres A n af matricen n n n

20 66 Kapitel 5. Det asymptotiske scenarie Vi finder således let maksimumsnormen A n = n. Da A 1 n repræsenteres af den inverse matrix 1 n n n. ser vi tilsvarende at A 1 n = 1 n. Og dermed er A n A n 1 = 1 for alle n N. Vi konkluderer at standardskaleringsskemaet har begrænset distortion. For lige præcis disse lineære afbildninger, der jo simpelthen består i multiplikation med en skalar, er maksimumsnormen og operatornormen identiske. Det er derfor ikke strengt nødvendigt at gå over maksimumsnormen i argumentet - men det er det i de fleste andre tilfælde. Eksempel 5.11 Betragt skaleringsskemaet (A n ) n N på R 2, hvor A n er givet ved matricen ( ) n 0. 0 n Her er A n = n. Vi finder den inverse matrix som 1 n n så A 1 n = n 1/2. Skaleringsskemaet opfylder dermed det fundamentale krav (5.4), men A n A 1 n = n n 1/2 = n 1/2, så skemaet har ubegrænset distortion. Eksemplet illustrerer meget godt de problemer der kan opstå i flere dimensioner, når forskellige koordinater må behandles forskelligt.

21 5.3. Reskalering 67 Tilsvarende kan vi betragte skaleringsskemaet (B n ) n N på R 2, hvor B n er givet ved matricen n 0. n 3/2 n Her er B n = n 3/2. Vi finder den inverse matrix som 1 n n n så B 1 n = n 1/2. Skaleringsskemaet opfylder dermed det fundamentale krav (5.4), men B n B 1 n = n 3/2 n 1/2 = n, så skemaet har ubegrænset distortion. Eksemplet illustrerer meget godt de problemer der kan opstå i flere dimensioner, når skaleringen blander koordinaterne. Den teknik, vi skal gennemgå, afhænger af at man kan finde et fornuftigt reskaleringsskema. Men kravene til dette skema er ikke særligt fintmærkende. I det store og hele skal skemaet kun bruges til at fange det nødvendige tempo i reskaleringen, og det præcise valg af lineære afbildninger i sekvensen er mindre afgørende. Eksempel 5.12 Hvis man i eksempel 5.8 forsøger sig med en reskaleringssekvens af formen A n ψ = a n ψ for et fastholdt a > 0, så får man den reskalerede konkordanskombinant n ( ȟ n (y 1,..., y n, ξ) = l yi θ + ξ ) a. n i=1 Også denne reskalerede kombinant har en tredieafledet der essentielt forsvinder når n er stor, og man regner sig frem til at ȟ n (y 1,..., y n, ξ) ȟ n (y 1,..., y n, 0) + W ξ + i 1(θ ) 2 a 2 ξ2, hvor W N(0, i 1(θ ) ). Denne grænsekombinant (eller hvad man nu skal kalde den) er a 2 formelt forskellig fra den, der dukkede op i eksempel 5.8. Men det er igen et konvekst andengradspolynomium, hvis minimum let lader sig finde som ˆξ n a2 W i 1 (θ ).

22 68 Kapitel 5. Det asymptotiske scenarie Oversætter vi tilbage til den oprindelige parameterskala, får vi at maksimaliseringsestimatoren ˆθ n er ˆθ n θ a W n i1 (θ ), og vi finder heraf den sædvanlige asymptotisk fordeling ( approx ˆθ n N θ, 1 ) 1 n i 1 (θ. ) Så forskellen på at bruge standardreskaleringsskemaet fra eksempel 5.8 og de let modificerede skemaer i dette eksempel, er udelukkende et spørgsmål om hvordan visse delresultater tager sig ud. Argumentationen forløber på samme måde for de forskellige reskaleringsskemaer, og den endelige konklusion - den asymptotiske fordeling af maksimaliseringsestimatoren - er de helt enige om. Vi skal se at konklusionen i eksempel 5.12 kan overføres til de fleste andre situationer: man kan skifte et reskaleringsskema ud med et andet, uden at det ændrer ved de essentielle konklusioner. Kravet er blot at det nye reskaleringsskema opfører sig på samme måde som det gamle for n. Den formelle måde at formulere dette krav på er følgende: Definition 5.13 To følger af invertible, lineære afbildninger (A n ) n N og (B n ) n N på R d er asymptotisk ækvivalente hvis der findes en invertibel lineær afbildning C så A n B n 1 C for n. (5.9) Beingelsen for asymptotisk ækvivalens ser en smule asymmetrisk ud i de to følger af lineære afbildninger. Men man overbeviser sig let om at hvis (5.9) er opfyldt, så vil B n A n 1 C 1 for n. Så asymmetrien forsvinder når man ser efter, på grund af kravet om grænsen C skal være invertibel. Lemma 5.14 Lad (A n ) n N og (B n ) n N være to følger af invertible, lineære afbildninger på R d. Hvis de to følger er asymtotisk ækvivalente, så gælder der at lim n A n 1 = 0 lim n B n 1 = 0.

23 5.3. Reskalering 69 BEVIS: Antag at A n B n 1 C og at A n 1 0 for n. I så fald vil B n 1 = A n 1 A n B n 1 A n 1 A n B n 1 0 for n, eftersom A n 1 0 og A n B n 1 C for n. Lemma 5.15 Lad (A n ) n N og (B n ) n N være to følger af invertible, lineære afbildninger på R d. Hvis de to følger er asymtotisk ækvivalente, og den ene følge har begrænset distortion, så har den anden følge også begrænset distortion. BEVIS: Antag at A n B n 1 C og at A-skemaet har begrænset distortion. Vi har at B n B n 1 = B n A n 1 A n A n 1 A n B n 1 B n A n 1 A n A n 1 A n B n 1. Hvis A n B n 1 C og hvis A-skemaet har begrænset distortion, ser vi at lim sup n B n B 1 n ( C C 1 ) lim sup A n A 1 n. n

24 70 Kapitel 5. Det asymptotiske scenarie

Det asymptotiske scenarie

Det asymptotiske scenarie Kapitel 1 Det asymptotiske scenarie Den simpleste asymptotiske situation opstår hvis man har uafhængige, identisk fordelte variable Y 1,...,Y n med værdier i et målbart rum (Y,K). Man forestiller sig at

Læs mere

Klassisk Taylors formel

Klassisk Taylors formel p. 1/17 Klassisk Taylors formel Sætning Lad f : (a, b) R være n gange differentiabel. For x 0, x (a, b) findes et ξ mellem x 0 og x der opfylder at f(x) = f(x 0 )+ f (x 0 ) 1! (x x 0 )+...+ f(n 1) (x 0

Læs mere

Trykfejlsliste - alle fejl Asymptotisk teori

Trykfejlsliste - alle fejl Asymptotisk teori 9. januar 2005 Stat 2A / EH Trykfejlsliste - alle fejl Asymptotisk teori Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i 2A-noterne indtil nu. 9 1 Forkert: x C x ro alle

Læs mere

Regularitetsbetingelserne

Regularitetsbetingelserne Kapitel 4 Regularitetsbetingelserne Vi vender nu tilbage til det asymptotiske scenarie fra kapitel 1. Vi har stokastiske variable X n med værdier i (X n,e n ) - oftest er X n en sammenbundtning af flere

Læs mere

Asymptotisk testteori

Asymptotisk testteori Kapitel 8 Asymptotisk testteori Vi vil nu beskæftige os med den asymptotiske teori for estimation under pæne hypoteser og for test af disse hypoteser. Vi skal især undersøge det forhold at hvis den fulde

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Taylors formel. Kapitel Klassiske sætninger i en dimension

Taylors formel. Kapitel Klassiske sætninger i en dimension Kapitel 3 Taylors formel 3.1 Klassiske sætninger i en dimension Sætning 3.1 (Rolles sætning) Lad f : [a, b] R være kontinuert, og antag at f er differentiabel i det åbne interval (a, b). Hvis f (a) = f

Læs mere

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål Statistisk model Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål på (X, E). Modellen er parametriseret hvis der findes en parametermængde Θ og

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

En martingalversion af CLT

En martingalversion af CLT Kapitel 11 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske

Læs mere

Lokal estimationsteori

Lokal estimationsteori Kapitel 5 Lokal estimationsteori 5.1 Konsistens Vores første delmål er at sikre at regularitetsbetingelserne medfører at den reskalerede konkordanskombinant med meget stor sandsynlighed har en positivt

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. Estimation Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. En estimator er en gætteregel.. p.1/22 Estimation X acements

Læs mere

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30 Områdeestimator X (Ω, F) (X, E) x 01 01 P θ ν θ θ Θ 0000 1111 000000 111111 0000 1111 0000 1111 C(x) En områdeestimator er en afbildning C : X P(Θ).. p.1/30 Konfidensområde En områdestimator C : X P(Θ)

Læs mere

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R. Kombinant Lad (ν θ ) θ Θ være en statistisk model på (X, E). En kombinant er en afbildning hvor (Y, K) er endnu et målbart rum. R : X Θ Y Typisk taler vi om reelle kombinanter, hvor Y = R. Som regel forsøger

Læs mere

5.3 Konvergens i sandsynlighed Konvergens i sandsynlighed 55. Hvis vi regner den karakteristiske funktion for X, v ud i argumentet 1, fås

5.3 Konvergens i sandsynlighed Konvergens i sandsynlighed 55. Hvis vi regner den karakteristiske funktion for X, v ud i argumentet 1, fås 5.3. Konvergens i sandsynlighed 55 BEVIS: Lad φ 1, φ 2,... og φ være de karakteristiske funktioner for X 1, X 2,... og X. Hvis vi regner den karakteristiske funktion for X, v ud i argumentet 1, fås φ X,v

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt

Læs mere

Reeksamen 2014/2015 Mål- og integralteori

Reeksamen 2014/2015 Mål- og integralteori Reeksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål. Ved bedømmelsen indgår de spørgsmål med samme vægt.

Læs mere

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/23 Statistisk hypotese PSfrag replacements

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/26 PSfrag replacements Statistisk

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

En martingalversion af CLT

En martingalversion af CLT Kapitel 9 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske variable,

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

Statistik 1TS 2003 Obligatorisk opgave 1

Statistik 1TS 2003 Obligatorisk opgave 1 Afdeling for Statistik og Operationsanalyse Institut for Matematiske Fag, Københavns Universitet 4. marts 2003 Stat 1TS / EH Statistik 1TS 2003 Obligatorisk opgave 1 Formelle forhold: Opgaven stilles tirsdag

Læs mere

Eksamen 2014/2015 Mål- og integralteori

Eksamen 2014/2015 Mål- og integralteori Eksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål Ved bedømmelsen indgår de spørgsmål med samme vægt

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave 3. februar 2012 Stat 1TS / EH Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i 2. udgave af

Læs mere

standard normalfordelingen på R 2.

standard normalfordelingen på R 2. Standard normalfordelingen på R 2 Lad f (x, y) = 1 x 2 +y 2 2π e 2. Vi har så f (x, y) = 1 2π e x2 2 1 2π e y2 2, og ved Tonelli f dm 2 = 1. Ved µ(a) = A f dm 2 defineres et sandsynlighedsmål på R 2 målet

Læs mere

Estimation og konfidensintervaller

Estimation og konfidensintervaller Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. MI 2007 Obligatorisk opgave 4

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. MI 2007 Obligatorisk opgave 4 NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. MI 2007 Obligatorisk opgave 4 Sættet består af 3 opgaver med ialt 15 delopgaver. Besvarelsen vil blive forkastet, medmindre der er gjort et

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

1 Beviser for fornyelsessætningen

1 Beviser for fornyelsessætningen Hvordan beviser man fornyelsessætningen? 1 1 Beviser for fornyelsessætningen I dette notat skal vi diskutere, hvorman man kan bevise fornyelsessætningen. Vi vil starte med at se på tilfældet, hvor ventetidsfordelingen

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag susanne

Susanne Ditlevsen Institut for Matematiske Fag    susanne Statistik og Sandsynlighedsregning 1 STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 7. undervisningsuge, mandag 1 Estimation og konfidensintervaller

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Sandsynlighedsteori. Sandsynlighedsteori. Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et. Et Bayesiansk argument

Sandsynlighedsteori. Sandsynlighedsteori. Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et. Et Bayesiansk argument Sandsynlighedsteori Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et sandsynlighedsmål, (, E, ν). Et eksperiment beskrives af et udfaldsrum udstyret med et sandsynlighedsmål,

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Estimation. Kapitel 4

Estimation. Kapitel 4 Kapitel 4 Estimation Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). I dette kapitel skal vi diskutere, hvorledes man ud fra en given observation x X kan give et skøn over værdien af

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m Fejlstrata Vi forestiller os at V har 1) Et underrum L 2) Et indre produkt, 3) En ortogonal dekomposition V = W 1 +... + W m Underrummene W i kaldes fejlstrata. Typisk eksempel på en fejlstratumdekomposition:

Læs mere

Exponentielle familer, ark 2

Exponentielle familer, ark 2 1 Exponentielle familer, ark 2 Eksponentielle familier OPGAVE 21 Beksriv den eksponentielle familie på (R, B) givet ved følgende data: V er R med det sædvanlige indre produkt, den kanoniske stikprøvefunktion

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

Punktmængdetopologi. Mikkel Stouby Petersen. 1. marts 2013

Punktmængdetopologi. Mikkel Stouby Petersen. 1. marts 2013 Punktmængdetopologi Mikkel Stouby Petersen 1. marts 2013 I kurset Matematisk Analyse 1 er et metrisk rum et af de mest grundlæggende begreber. Et metrisk rum (X, d) er en mængde X sammen med en metrik

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1 Økonometri 1 Inferens i den lineære regressionsmodel 25. september 2006 Økonometri 1: F6 1 Oversigt: De næste forelæsninger Statistisk inferens: hvorledes man med udgangspunkt i en statistisk model kan

Læs mere

Mat H /05 Note 2 10/11-04 Gerd Grubb

Mat H /05 Note 2 10/11-04 Gerd Grubb Mat H 1 2004/05 Note 2 10/11-04 Gerd Grubb Nødvendige og tilstrækkelige betingelser for ekstremum, konkave og konvekse funktioner. Fremstillingen i Kapitel 13.1 2 af Sydsæters bog [MA1] suppleres her med

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Gult Foredrag Om Net

Gult Foredrag Om Net Gult Foredrag Om Net University of Aarhus Århus 8 th March, 2010 Introduktion I: Fra Metriske til Topologiske Rum Et metrisk rum er en mængde udstyret med en afstandsfunktion. Afstandsfunktionen bruges

Læs mere

Pointen med Differentiation

Pointen med Differentiation Pointen med Differentiation Frank Nasser 20. april 2011 c 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk:

Læs mere

Bilag 7. SFA-modellen

Bilag 7. SFA-modellen Bilag 7 SFA-modellen November 2016 Bilag 7 Konkurrence- og Forbrugerstyrelsen Forsyningssekretariatet Carl Jacobsens Vej 35 2500 Valby Tlf.: +45 41 71 50 00 E-mail: kfst@kfst.dk Online ISBN 978-87-7029-650-2

Læs mere

Sandsynlighed og Statistik

Sandsynlighed og Statistik 36 Sandsynlighed og Statistik 6.1 Indledning Denne note beskriver de statistiske begreber og formler som man med rimelig sandsynlighed kan komme ud for i eksperimentelle øvelser. Alt er yderst korfattet,

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20.

Fortolkning. Foldning af sandsynlighedsmål. Foldning af tætheder. Foldning af Γ-fordelinger Eksempel: Hvis X og Y er uafhængige og. Sætning (EH 20. Foldning af sandsnlighedsmål Lad µ og ν være to sandsnlighedsmål på (R, B). Fortolkning Lad φ : R R være φ(, ) = + for (, ) R. Lad X og Y være to reelle stokastiske variable defineret på (Ω, F, P). Definition

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag I formiddag: Tætheder og fordelingsfunktioner kort resume fra i mandags og et par eksempler mere om sammenhængen

Læs mere

Lineære normale modeller (4) udkast

Lineære normale modeller (4) udkast E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

EKSAMEN Flerdimensional Analyse Sommer sider

EKSAMEN Flerdimensional Analyse Sommer sider EKSAMEN Flerdimensional Analyse Sommer 2008 5 sider Formaliteter Eksamen er en 24-timers eksamen, der udleveres mandag den 23/6-2008 klokken 0.00 og afleveres tirsdag den 24/6-2008 inden klokken 0.00.

Læs mere

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger enote 11 1 enote 11 Lineære differentialligningers karakter og lineære 1. ordens differentialligninger I denne note introduceres lineære differentialligninger, som er en speciel (og bekvem) form for differentialligninger.

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Module 1: Lineære modeller og lineær algebra

Module 1: Lineære modeller og lineær algebra Module : Lineære modeller og lineær algebra. Lineære normale modeller og lineær algebra......2 Lineær algebra...................... 6.2. Vektorer i R n................... 6.2.2 Regneregler for vektorrum...........

Læs mere

Affine rum. a 1 u 1 + a 2 u 2 + a 3 u 3 = a 1 u 1 + (1 a 1 )( u 2 + a 3. + a 3. u 3 ) 1 a 1. Da a 2

Affine rum. a 1 u 1 + a 2 u 2 + a 3 u 3 = a 1 u 1 + (1 a 1 )( u 2 + a 3. + a 3. u 3 ) 1 a 1. Da a 2 Affine rum I denne note behandles kun rum over R. Alt kan imidlertid gennemføres på samme måde over C eller ethvert andet legeme. Et underrum U R n er karakteriseret ved at det er en delmængde som er lukket

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag SaSt2 (Uge 6, onsdag) Middelværdi og varians 1 / 18 Program I formiddag: Tætheder og fordelingsfunktioner kort resume

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Et eksperiment beskrives af et udfaldsrum udstyret med et. alle mulige resultater af eksperimentet

Et eksperiment beskrives af et udfaldsrum udstyret med et. alle mulige resultater af eksperimentet Sandsynlighedsteori Et eksperiment beskrives af et udfaldsrum udstyret med et sandsynlighedsmål, (X, E, ν). Udfaldsrummet X indeholder alle mulige resultater af eksperimentet men ofte også yderligere elementer

Læs mere

Afstande, skæringer og vinkler i rummet

Afstande, skæringer og vinkler i rummet Afstande, skæringer og vinkler i rummet Frank Villa 2. maj 202 c 2008-20. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Sandsynlighedsregning Oversigt over begreber og fordelinger

Sandsynlighedsregning Oversigt over begreber og fordelinger Tue Tjur Marts 2007 Sandsynlighedsregning Oversigt over begreber og fordelinger Stat. MØK 2. år Kapitel : Sandsynlighedsfordelinger og stokastiske variable En sandsynlighedsfunktion på en mængde E (udfaldsrummet)

Læs mere

Skriftlig Eksamen Diskret Matematik (DM528)

Skriftlig Eksamen Diskret Matematik (DM528) Skriftlig Eksamen Diskret Matematik (DM528) Institut for Matematik & Datalogi Syddansk Universitet Tirsdag den 20 Januar 2009, kl. 9 13 Alle sædvanlige hjælpemidler (lærebøger, notater etc.) samt brug

Læs mere

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering Landmålingens fejlteori Lektion 3 Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition: Middelværdi og

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Pointen med Funktioner

Pointen med Funktioner Pointen med Funktioner Frank Nasser 0. april 0 c 0080. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette er en

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

MATEMATIK 11 Eksamensopgaver Juni 1995 Juni 2001, 4. fjerdedel

MATEMATIK 11 Eksamensopgaver Juni 1995 Juni 2001, 4. fjerdedel Juni 2000 MATEMATIK 11 Eksamensopgaver Juni 1995 Juni 2001, 4. fjerdedel Opgave 1. (a) Find den fuldstændige løsning til differentialligningen y 8y + 16y = 0. (b) Find den fuldstændige løsning til differentialligningen

Læs mere

8 Regulære flader i R 3

8 Regulære flader i R 3 8 Regulære flader i R 3 Vi skal betragte særligt pæne delmængder S R 3 kaldet flader. I det følgende opfattes S som et topologisk rum i sportopologien, se Definition 5.9. En åben omegn U af p S er således

Læs mere