Fejlstratummodeller. Kapitel 3

Størrelse: px
Starte visningen fra side:

Download "Fejlstratummodeller. Kapitel 3"

Transkript

1 Kapitel 3 Fejlstratummodeller Lad V være et endeligdimensionalt reelt vektorrum. En fejlstratummodel på V har tre ingredienser, hvoraf de to første svarer til hvad man har for lineære normale modeller: et ægte lineært underrum L V, kaldet middelværdiunderrummet, og et indre produkt,, kaldet den fundamentale præcision. Den tredie ingrediens er en familie af ikke-trivielle underrum W 1,...,W m af V, der dels står ortogonalt på hinanden (i den fundamentale præcision) og dels opfylder at W W m = V. (3.1) Der er altså tale om en ortogonal dekomposition af V. Den enkelte W i er kaldes fejlstrata, og samlingen af dem alle kaldes fejlstrata-dekompositionen. Principielt kan der være lige så mange strata det skal være, men det er yderst sjældent at støde på rimelige modeller med mere end to eller tre strata. Disse fejlstrata svarer i en vis forstand til de faktorer, der ligger under de tilfældige effekter i en varianskomponentmodel, omend oversættelsen er lidt kringlet. Rent sprogligt er det en besynderlighed at disse underrum kaldes strata, for den latinske betydning af dette ord har at gøre med lagdelinger. Når man taler om lag, ser man som regel en række parallelforskudt bånd for sig - men i Fishers klassiske terminologi for analyse af eksperimenter er de indgående strata ikke parallelsforskudte men ortogonale. I praksis mangler det sidste stratum i dekompositionen ofte: Man får givet underrum W 1,...,W m 1 der står ortogonalt på hinanden, og dem supplerer man med et reststratum W m så (3.1) bliver opfyldt. Kombineret med ortogonalitetsbetingelsen fastlægger denne relation entydigt at W m = ( m 1 i=1 W i). 61

2 62 Kapitel 3. Fejlstratummodeller I teoretiske ræsonementer er det praktisk at nummere de forskellige strata fortløbende. Men i anvendelserne er det ikke så naturligt. Strataene kommer som regel til verden ved brug af sætningen om ortogonal dekomposition af et flerfaktordesign, og derfor er det mere oplagt at indicere strata ved designets faktorer. Hvis der er behov for et reststratum kaldes det i så fald gerne W RESIDUAL eller W I. 3.1 Geometri og fejlstrata Lad V være et vektorrum med indre produkt, og med fejlstrata-dekomposition V= W W m. Det viser sig relevant at interessere sig for de underrum, der står geometrisk ortogonalt på hvert fejlstratum W 1,...,W m. Lemma 3.1 Lad V være et endeligdimensionalt vektorrum med et indre produkt,, og lad L 1, L 2 og W være tre parvist geometrisk ortogonale underrum. Da vil L 1 + L 2 stå geometrisk ortogonalt på W. BEVIS: Lad p 1 og p 2 være projektionerne ned L 1 og L 2, og lad r være projektionen ned i W. Det følger af den geometriske ortogonalitet af L 1 og L 2 at projektionen ned i L 1 + L 2 er givet som p 1 + p 2 p 1 p 2. På grund af den geometriske ortogonalitet vil r kommutere med både p 1 og p 2, og derfor er (p 1 + p 2 p 1 p 2 ) r= p 1 r+ p 2 r p 1 p 2 r=rp 1 + r p 2 rp 1 p 2 = r (p 1 + p 2 p 1 p 2 ), Altså kommuterer projektionen ned i L 1 + L 2 og projektionen ned i W, og de to rum er derfor geometrisk ortogonale ifølge lærebogens lemma Sætning 3.2 Lad V være et endeligdimensionalt vektorrum med et indre produkt, en ortogonal dekomposition V= W W m. Et underrum L Ver geometrisk ortogonalt på hvert stratum W 1,...,W m hvis og kun hvis det kan skrives hvor L i W i for alle i. L=L L m,

3 3.1. Geometri og fejlstrata 63 BEVIS: Antag først at L kan skrives som en sum L L m af underrum, hvor L i W i for alle i. Hvert L i står geometrisk ortogonalt på alle fejlstrata (det er indeholdt i ét stratum, og står ægte ortogonalt på de øvrige). Vi ser også at L i erne står ægte ortogonalt på hinanden, så en induktiv brug af lemma 3.1 sikrer at L L m står geometrisk ortogonalt på hvert fejlstratum. Antag omvendt at L står geometrisk ortogonalt på hvert fejlstratum. Sæt L i = L W i for i=1,...,m. Disse L i er ligger per definition inde i hver sit fejlstratum. Da L i L for alle i ser vi at L L m L. Udfordringen ligger i at vise den modsatte inklusion. Så tag x L. Hvis p er ortogonalprojektionen på L, så er p(x)= x. Men (3.1) medfører generelt at m x= r i (x) for alle x V, (3.2) i=1 og kombineres disse resultater får vi at x= p(x)= m r i p(x). Da L og W i er geometrisk ortogonale, er r i p projektionen ned i L W i = L i, og i særdeleshed er r i p(x) L i. Dermed har vi vist at x L L m. I arbejdet med at påvise at forskellige underrum står geometrisk ortogonalt på hvert stratum i en fejlstratumdekomposition kan man have god brug af følgende lemmaer: i=1 Lemma 3.3 Hvis L og U er geometrisk ortogonale underrum af V, så er L og U også geometrisk ortogonale. BEVIS: Lad p og q være projektionen ned i henholdsvis L og U. Da er 1 q projektionen ned i U. Den geometriske ortogonalitet af L og U sikrer ifølge lærebogens lemma at p og q kommuterer, så p(1 q)= p pq= p qp=(1 q)p. Vi konkluderer at projektionerne ned i L og U kommuterer, og derfor er de to underrum geometrisk ortogonale, igen ifølge lemma

4 64 Kapitel 3. Fejlstratummodeller Ved at kombinere med lemma 3.1 sikrer lemma 3.3 blandt andet at hvis L er geometrisk ortogonal på de parvist ortogonale underrum W 1,...,W m 1, så står L også geometrisk ortogonalt på reststratummet W m = ( m 1 i=1 W i). Lemma 3.4 Lad L og U være to underrum af V, og sæt G=L U. Hvis L og U er geometrisk ortogonale på hinanden, så er L U = L G. BEVIS: Lad p og q være projektionen ned i henholdsvis L og U. Vi ved da at pq er projektionen ned i G, og at 1 q er projektionen ned i U. Ifølge lemma 3.3 er L og U geometrisk ortogonale, og derfor er projektionen ned i L U lig med p(1 q) = p pq. Men ifølge lærebogens lemma er det også formeludtrykket for projektionen ned i L G. Eftersom projektioner fastholder elementer i det underrum, de projicerer ned på, må to underrum med identiske projektioner nødvendigvis være ens. Ud fra en ortogonal dekomposition V= W W m og den fundamentale præcision kan vi danne en række nye indre produkter. Lad r 1,...,r m være ortogonalprojektionerne ned i W 1,...,W m med hensyn til,, og ladω 2 = (ω 2 1,...,ω2 m ) (0, )m være en parameter. Der er tale om variansparametre, så traditionen byder at man skriver dem som størrelser i anden potens. Men potensen er blot tom dekoration, på samme måde som den potens man altid skriver på variansen i en almindelig etdimensional normalfordeling. Vi indfører en familie af indre produkter ved formlen x, y ω 2= m r i (x), r i (y) ω 2 i=1 i for x, y V. (3.3) Det er let at se at (3.3) for hvertω (0, ) m definerer en bilinearform, og at x, x ω 2= m r i (x), r i (x) = m r i (x) 2 0 for x V, ω 2 i=1 i i=1 ω 2 i fordi hvert led er ikke negativt. Og omvendt, hvis x, x ω 2= 0, så sikrer betingelsen om atω 2 i erne er ikke-negative at r i(x) =0for i=1,...,m. Dermed må r i (x)=0, og af (3.2) ser vi at x=0. Så (3.3) definerer vitterligt et indre produkt.

5 3.1. Geometri og fejlstrata 65 Ideen i en fejlstratummodel er at arbejde med regulære normale fordelinger med en ukendt præcision af formen (3.3). Forω 2 = (1,...,1) er det indre produkt, ω identisk med,, så det oprindelige indre produkt er ét blandt mange indre produkter vi så har at vælge mellem som præcision. Disse indre produkter er naturligvis uenige om mange ting, og modsat situationen i de lineære normale modeller er de i almindelighed også uenige om ortogonalprojektioner. Men hvis et underrum L har en passende geometrisk relation til fejlstrata-dekompositionen, så er alle de indre produkter faktisk enige om hvordan ortogonalprojektionen ned på L ser ud: Lemma 3.5 Lad V være et endeligdimensionalt vektorrum med et indre produkt, og en ortogonal dekomposition V= W W m. Lad L V være et underrum, og lad p være ortogonalprojektionen ned i L med hensyn til,. Hvis L står geometrisk ortogonalt på hvert stratum W 1,...,W m med hensyn til,,, så er p ortogonalprojektion ned i L med hensyn til hvert, ω 2. BEVIS: Hvis r i er ortogonalprojektionen ned i W i med hensyn til, så følger det af lærebogens lemma at p og r i kommuterer. Vi vil bevise at p er ortogonalprojektionen med hensyn til, ω 2 ved at vise at den opfylder de tre betingelser fra lærebogens sætning 10.7: at den har den rigtige billedmængde, at den er idempotent, og at den er selvadjungeret i forhold til, ω 2. De to første krav har ikke noget at gøre med det indre produkt, og da vi ved at p er ortogonalprojektionen ned i L med hensyn til mindst ét indre produkt, så må de være opfyldt. Så det er kun betingelse (10.7) der skal arbejdes med. Og den følger af kommuteringsrelationen. For alle x, y V gælder nemlig at p(x), y ω 2= = m r i p(x), r i (y) = i=1 ω 2 i m r i (x), p r i (y) = i=1 ω 2 i m pr i (x), r i (y) i=1 ω 2 i m r i (x), r i p(y) = x, p(y) ω 2. Der sted hvor linien bryder har vi udnyttet at p er selvadjungeret i forhold til,. Hvis L W i for et vist i, så står L geometrisk ortogonalt på samtlige fejlstrata - det står ægte ortogonalt på alle de strata det ikke er indeholdt i. I den situation kan lemmaet bruges. Specielt hvis L=W i, så lemmaet tillader os at konkludere at r i er ortogonalprojektionen ned i W i med hensyn til samtlige de indre produkter, ω 2. i=1 ω 2 i

6 66 Kapitel 3. Fejlstratummodeller Hvis alle de indre produkter er enige om hvordan ortogonalprojektionen ned i L ser ud og ligeledes om ortogonalprojektionen ned i W i, så er de også enige om hvorvidt ortogonalprojektionerne kommuterer. Og dermed kan udsagnet om at L står geometrisk ortogonalt på alle W i erne forstås med hensyn til et vilkårligt af de indre produkter. Ligesom det forhold at W i erne er ortogonale på hinanden kan forstås med hensyn til et vilkårligt af de indre produkter. Så skønt de forskellige indre produkter er uenige om mangt og meget, så er de dog enige om visse centrale geometriske forhold. Og derfor er man ofte lidt løs når man formulerer sig om ortogonalitet etc. - man underforstår at de forskellige indre produkter er enige om de forhold, man interesserer sig for. Det er nyttigt med en alternativ version af (3.3). Da r i er idempotent og selvadjungeret med hensyn til, har vi at r i (x), r i (y) = x, r i 2 (y) = x, r i (y) for alle x, y V, for i=1,...,m. Så vi ser at (3.3) kan skrives på formen x, y ω 2= x, m i=1 1 ω 2 i r i (y) for x, y V. (3.4) Denne repræsentation er hensigtsmæssig, fordi lineære afbildninger, der er linearkombinationer af r i erne, er nemme arbejde med. Da W i erne står vinkelret på hinanden er r i1 r i2 = 0 medmindre i 1 = i 2. For koefficientsæt (a 1,...,a m ), (b 1,...,b m ) R m gælder der derfor at m m m m a i r i b j r j = a i b j r i r j = a i b i r i i=1 j=1 i, j=1 Det følger af (3.2) at den identiske afbildning er en linearkombination af r i erne med koefficientsæt (1,..., 1). Og derfor kan vi nu se at i=1 m 1 r i i=1 ω 2 i 1 = m ω 2 i r i. (3.5) i=1

7 3.2. Hvad er en fejlstratummodel? Hvad er en fejlstratummodel? Definition 3.6 En fejlstratummodel på et endeligdimensionalt vektorrum V med middelværdiunderrum L V, grundlæggende præcision, og fejlstratum dekomposition V = W W m er den statistiske model der består af alle regulære normalfordelinger på V med centrumξ L og en præcision af formen, ω 2. De ukendte parametre i modellen er (ξ,ω 2 ) L (0, ) m. Hvis der kun er ét stratum i dekompositionen, må det pågældende stratum nødvendigvis være hele V. I så fald er fejlstratummodellen identisk med den lineære normale model med middelværdiunderrum L og grundlæggende præcision,. Så fejlstratummodeller er en udvidelse af klassen af lineære normale modeller til... Tja, til hvad? Det er overhovedet ikke klart hvad fejlstratummodeller med mere end ét stratum egentlig beskriver - selv i tilfældet hvor V=R I og hvor, er det sædvanlige indre produkt skal der tænkes en del, inden man kan komme frem til en rimelig forståelse af sådanne modeller. Som vi skal se, har mange fejlstratummodeller en indbygget absurditet, der gør at man umuligt kan få dem til at svare til rigtige eksperimenter. Så langt hen ad vejen skal man tænke på disse modeller som rent matematiske konstruktioner. Som sådan viser de sig uhyre vellykkede som vi skal se, skønt det i sig selv måske ikke er et overbevisende argument for at beskæftige sig med dem. Men i visse tilfælde viser det sig at der er en forbindelse til varianskomponentmodeller. I disse tilfælde kan man bruge fejlstratumformuleringen til at finde eksplicitte formler for estimatorer og teststørrelser i varianskomponentmodellerne, og endnu vigtigere: man kan finde eksplicitte fordelingsresultater. Når man kan knytte forbindelsen mellem de to modeltyper, så tillader fejlstratummodellernes bekvemme matematiske struktur os at analysere de langt mere fortolkelige varianskomponentmodeller til bunds. Koblingen er sjælden - men den giver os mulighed for at få en ide om hvordan vi bør gebærde os i mere generelle varianskomponentmodeller.

8 68 Kapitel 3. Fejlstratummodeller Sætning 3.7 Lad X være en stokastisk variabel med værdier ir I, der følger en fejlstratummodel hvor den grundlæggende præcision er det sædvanlige indre produkt, x, y = x i y i, og med fejlstratumdekompositionr I = W W m. Da er X regulært normalfordelt med variansmatrix m V X= ω 2 l R l (3.6) hvor R 1,...,R m er projektionsmatricerne hørende til strataene W 1,...,W m. i I l=1 BEVIS: Den alternative repræsentation (3.4) af præcisionen giver i denne ramme at m x, y ω 2=x T 1 R l y for x, y RI. Det følger af lærebogens sætning 9.42 at variansmatricen for X er l=1 ω 2 l m 1 V X= R l l=1 ω 2 l 1. Identificeringen af denne inverse matrix med matricen i (3.6) følger af (3.5). I situationer hvor man kun får givet W 1,...,W m 1 og må finde W m som et reststratum, så er det ofte naturligt at udnytte at R m = I (R R m 1 ) og skrive (3.6) på formen m 1 V X=ω 2 m I+ (ω 2 l ω 2 m ) R l (3.7) l=1 Eksempel 3.8 Lad f : I Fvære en faktor, lad L F være det tilhørende faktorunderrum. Vi ser på fejlstratumdekompositionen givet ved W 1 = L F og reststratummet W 2 = L F. I lærebogens formel (12.9) blev projektionsmatricen R ned på L F regnet ud til at være 1 hvis f (i)= f (i )= j R i i = n F ( j) 0 ellers,

9 3.2. Hvad er en fejlstratummodel? 69 hvor n F ( j) er gruppestørrelserne. Vi kan finde kovarianserne i fejlstratummodellen ved at sætte ind i (3.7), og får at ω 2 2 +ω2 1 ω2 2 hvis i=i, f (i)= j n F ( j) Cov(X i, X i )= ω 2 1 ω2 2 n F ( j) hvis i i, f (i)= f (i )= j 0 hvis f (i) f (i ) Hvis de forskellige grupper har forskellig størrelse, så har denne variansstruktur den bizarre egenskab at variansen på enkeltmålingerne varierer fra gruppe til gruppe. Variansen på en enkelt måling bliver mindre jo flere målinger man tager i samme gruppe. Det giver overhovedet ingen praktisk mening. Jo flere målinger man tager i en gruppe, jo mindre varians på gruppegennemsnittet, det er klart. Men det er stort set umuligt at tænke et scenarium igennem hvor det giver mening at variabiliteten på enkeltmålingerne skulle afhænge af om man tager andre målinger eller ej. Så denne fejlstratummodel har ikke nogen chance for at svare til noget praktisk og fortolkeligt medmindre faktoren F er balanceret. Men hvis F er balanceret, med n observationer per gruppe, så ser vi at V X er blokdiagonal, sådan at hver gruppe har sin egen n n diagonalblok, og disse blokke hver især er 1+λ λ... λ Σ j =ω 2 2 λ 1+λ... λ λ λ... 1+λ hvor λ= ω2 1 ω2 2 nω 2 2 (3.8) Vi genkender den variansstruktur vi så p. 36 for en varianskomponentmodel med et tilfældigt intercept. Sammenhængen mellem fejlstratumparametrene (ω 2 1,ω2 2 ) og varianskomponentparametrene (ν 2,σ 2 ) er σ 2 =ω 2 2, ν2 = ω2 1 ω2 2 n. (3.9) Her ser vi det lidt forbløffende fænomen af intercept-variansenν 2 tilsyneladende godt kan være negativ. Det giver selvfølgelig ingen mening. Sagen er at de to modeller ikke er 100% identiske: varianskomponentmodellen er en delmodel af fejlstratummodellen, svarende til parameterrestriktionen {( ) } ω 2 1,ω 2 2 0<ω 2 2 ω 2 1.

10 70 Kapitel 3. Fejlstratummodeller Man siger at varianskomponentmodellen er indlejret i en fejlstratummodel - men husk: det gælder kun under forudsætning af at det tilfældige intercept svarer til en balanceret faktor. I en varianskomponentmodellen kunne vi ikke få negative korrelationer mellem observationerne i de enkelte grupper. Men i fejlstratummodellen er korrelationerne ρ= λ 1+λ = ω 2 1 ω2 2 ω 2 1 +, (n 1)ω2 2 og det kan variere frit helt ned til 1 n 1. Vi kan ikke få vilkårligt negative korrelationer (det ville stride mod at variansmatricen skulle være positivt definit), men fejlstratummodellen tillader visse negative korrelationer. Man kan skændes om hvorvidt det er godt eller skidt. Men det er væsentligt at holde sig for øje at der er denne forskel på modelklasserne, for den forklarer visse besynderligheder ved fordelingen af teststørrelser, også i mere generelle varianskomponentmodeller. Vi vil nu finde mere generelle betingelser, der sikrer at varianskomponentmodeller kan indlejres i fejlstratummodeller. Lemma 3.9 Lad f : I F være en balanceret faktor med n F observationer per gruppe. Lad B være effektmatricen for det tilfældige F-intercept, og lad P være projektionen ned på L F i det sædvanlige indre produkt. Der gælder at BB T = n F P. (3.10) BEVIS: Vi ved at B i j =δ( f (i), j), P ii = 1 n F δ( f (i), f (i )) så det er blot et spørgsmål om at gange ud og kontrollere. Vi ser at (BB T ) ii = B i j B i j= δ( f (i), j)δ( f (i ), j)=δ( f (i), f (i )). j F j F Resultatet kan styrkes til at være hvis-og-kun-hvis: hvis effektmatricen B for det tilfældige intercept svarende til faktoren F opfylder at BB T er proportional med en projektion, så er F balanceret, projektionen har billedrum L F, og proportionalitetsfaktoren er gruppestørrelsen.

11 3.2. Hvad er en fejlstratummodel? 71 Sætning 3.10 LadG={G 1,..., G m } være et -stabilt system af balancerede faktorer på indexmængden I. Antage at disse faktorer er parvist geometrisk ortogonale og at den identiske faktor I er med i G. En varianskomponentmodel med tilfældige intercepts (G 1, 1),...,(G m, 1) kan indlejres i en fejlstratummodel med fejlstratumdekompositionr I = W W m hvor W l = L Gl for l=1,...,m. G G:G<G l L G BEMÆRK: W 1,...,W m er netop den sædvanlige ortogonale dekomposition hørende til designetg. Antagelsen om at I skal være med i designet betyder mest noget for notationen. Hvis vi har et design hvor I ikke er med, kan vi jo bare tilføje den - I er jo balanceret og står geometrisk ortogonalt på alting, så tilføjelsen ødelægger hverken minimumsstabilitet eller geometrisk ortogonalitet. Til gengæld sikrer tilføjelsen at R I = L I kan skrives som en sum af alle W erne. Strengt taget er sætningens formulering ikke helt præcis: Er designet tilstrækkeligt ubehageligt, kan man komme ud for at W l ={0} for en eller flere faktorer. Et sådant W l skal principielt fjernes fra fejlstratadekompositionen. BEVIS: Vi har antaget at I er med i designet, lad os sige I= G m. Varianskomponentmodellen har varians m 1 V X=σ 2 I+ ν 2 l B l B T l, hvor B 1,..., B m 1 er effektmatricerne hørende til de forskellige tilfældige intercepts. Da faktorerne er balancerede giver lemma 3.9 at l=1 m 1 V X=σ 2 I+ ν 2 l n l P l, hvor n l er gruppestørrelsen for G l, og hvor P l er projektionen ned i L Gl. Lad W 1,...,W m 1 være den sædvanlige ortogonale dekomposition hørende tilgog lad Q 1,..., Q m 1 være de ortogonale projektioner ned i W l -rummene. Fra lærebogens sætning ved vi at P l = for l=1,...,m 1. s:g s G l Q s Sættes det ind i variansen, ser vi at m 1 V X=σ 2 I+ ν 2 l n l l=1 s:g s G l Q s l=1 m 1 =σ2 I+ n l ν 2 l Q s, s=1 l:g s G l

12 72 Kapitel 3. Fejlstratummodeller Under antagelse af at W 1,...,W m er ikke-trivielle, genkender vi her variansstrukturen fra (3.7). Vi ser endda at identificeringen mellem varianskomponentparametrene (σ 2,ν 2 1,...,ν2 m 1 ) og fejlstratumparametrene (ω2 1,...,ω2 m) er givet ved ω 2 m =σ2, ω 2 s ω2 m = l:g s G l n l ν 2 l for s=1,...,m 1. (3.11) Bemærk hvordan (3.11) sammen med betingelsen om atν 2 l 0 lægger en række bånd på de fejlstratumparametre, der svarer til en varianskomponentmodel. Der er således tale om en indlejring, og ikke om en identificering af de to modeller. Sætning 3.10 ser vanskelig ud, men når den finder anvendelse, er oversættelsen mellem fejlstratummodel og varianskomponentmodel som regel ikke særlig indviklet. I mange tilfælde har man kun ét tilfældigt intercept, og der diskuterede vi oversættelsen i eksempel 3.8. I andre tilfælde har man to tilfældige intercepts, svarende til en grov og en fin faktor, der begge er balancerede. Tofaktortilfældet med G 1 < G 2 giver og parameteridentificeringen W 1 = L G1, W 2 = L G2 L G1, W 3 = L G 2, ω 2 1 =σ2 + n 1 ν n 2ν 2 2, ω2 2 =σ2 + n 2 ν 2 2, ω2 3 =σ2 Man kan også få simple oversættelsesformler frem for hierarkiske modeller af højere orden, men den type modeller støder man sjældent på i praksis. Man kan i visse tilfælde indlejre varianskomponentmodeller med tilfældige virkninger, der ikke er intercepts, i fejlstratummodeller. Men det er svært at gøre systematisk, og i de fleste tilfælde kan det slet ikke lade sig gøre: det kræver en høj grad af balance, ligesom for de tilfældige intercepts. 3.3 Estimation i fejlstratum modeller Vi husker at den centrale observation i likelihoodanalysen af den lineære normale model var at skønt de forskellige indre produkter der indgår i modellerne er uenige om mangt og meget, så er de faktisk enige om hvad ortogonalprojektioner er. Det var denne observation der gjorde det muligt at anvende spaltningssætningen så effektivt.

13 3.3. Estimation i fejlstratum modeller 73 Som vi så i lemma 3.5 gælder der en reduceret variant af af det samme i fejlstratummodeller, og det gør at likelihoodanalysen faktisk forløber lige så glat for disse modeller. I det følgende betragter vi en stokastisk variabel X med værdier i et vektorrum V. Dette vektorrum er udstyret med et fundamentalt indre produkt,, med en fejlstratumdekomposition V= W W m og med et middelværdiunderrum L, og antagelsen er at X følger en fejlstratummodel med disse ingredienser. Ortogonalprojektionen ned på L kaldes p, ortogonalprojektionen ned på W 1,...,W m kaldes r 1,...,r m. Vi sætter endvidere L i = L W i for hvert i. Da L og W i er antaget at være geometrisk ortogonale, gælder der at L i = r i (L). Sætning 3.11 Antag at X følger en regulær normalfordeling med centrumξ L og præcision, ω 2. Så vil r i (X) følge en regulær normalfordeling på W i med centrum r i (ξ) og præcision 1, ω 2 Wi W i. Og de stokastiske variable r 1 (X),...,r m (X) er indbyrdes i uafhængige. BEVIS: Det følger direkte af spaltningssætningen, når vi observerer at, ω 2, har samme restriktion til W i W i. 1 ω 2 i og Sætning 3.12 Antag at middelværdiunderrummet L står geometrisk ortogonalt på hvert stratum W 1,...,W m, og at intet stratum er helt indeholdt i L. Så gælder der med sandsynlighed 1 at maksimaliseringsestimatoren er entydigt bestemt som ˆξ= p(x), ω2 j = r j(x) r j p(x) 2 dim W j. (3.12) BEVIS: Lad e 1,...,e n være en ortonormal basis for V med hensyn til,, sådan at hvert e i er indeholdt i et stratum W j. Vi kan f.eks. finde denne basis ved at vælge en ortonormal basis for hvert af W j erne, og samle dem. Bemærk at e i erne står vinkelret på hinanden med hensyn til alle de fabrikerede indre produkter, ω 2. Ved at henvise til lærebogens lemma 9.18 kan vi opskrive likelihoodfunktion for fejlstratummodellen, når vi brugerλ V =φ(m n ) som grundmål (hvorφer koordinat-

14 74 Kapitel 3. Fejlstratummodeller transformationenr n V bestemt af e 1,...,e n ). Den er ni=1 L(ξ,ω 2 1,...,ω 2 e i ω 2 m )= (2π) n/2 e 1 2 X ξ 2 ω 2 = = ni=1 1 ω j 1 (2π) n/2 e 2 X p X 2 ( 1 2π ) n/2 m j=1 ω 2 e 1 2 p X ξ 2 ω 2 ( ) d 1 j /2 e 1 2 X p X 2 ω ω 2 2 e 1 2 p X ξ 2 ω 2 j hvor p er projektionen ned i L md hensyn til, ω 2, og hvor d j = dim W j. Bemærk at eftersom L er antaget at være geometrisk ortogonal på alle strata, har vi faktisk at p er projektionen ned på L ikke blot med hensyn til det konkrete, ω 2, men også med hensyn til alle de andre, og i særdeleshed med hensyn til,. For fastω 1 2,...,ω m 2 kan vi maksimere overξved at sætte Dermed er profillikelihoodfunktionen L(ω 1 2,...,ω m 2 )= hvilket åbenlyst maksimeres af ( 1 2π ˆξ= p X. ) n/2 m j=1 ω 2 j = r j(x) r j p(x) 2 ( ) d 1 j /2 e 1 2 r jx r j p X 2 /ω 2 j ω 2 j d j som ønsket. Bemærk at p, (r 1 r 1 p),...,(r m r m p) er projektioner ned i henholdsvis L, W 1 (W 1 L),..., W m (W m L). Disse rum er indbyrdes vinkelrette med hensyn til, såvel som med hensyn til alle de fabrikerede indre produkter, ω 2. Ifølge spaltningssætningen har vi derfor at er uafhængige. ˆξ= p(x), ω 2 1,..., ω2 m

15 3.3. Estimation i fejlstratum modeller 75 Det følger endvidere af spaltningssætningen at r j (1 p)x er regulært normalfordelt på Z j = W j (W j L) med centrum r j (1 p)ξ= r j (ξ ξ)=0 og en præcision, der er restriktionen af, ω 2 til Z j Z j. Dermed er r j (1 p)x 2 ω 2 χ 2, d f= dim Z j, skala=1 Men eftersom r j (1 p)x W j ser vi at Konklusionen er at r j (1 p)x 2 ω 2 = 1 ω j 2 r j(1 p)x 2. r j (1 p)x χ 2, d f= dim Z j, skala=ω j 2, hvoraf vi slutter at ω 2 j χ 2, d f= dim Z j, skala= ω j 2, dim W j Vi konstaterer at de lineære normale modellers klassiske problem med en bias på maksimaliseringsestimatoren af variansen følger med over til fejlstratummodellerne, og vi fristes til at erstatte maksimaliseringsestimatoren med ω 2 i= r i(x) r i p(x) 2, (3.13) dim W i dim L i der erχ 2 -fordelt med dim W i dim L i frihedsgrader som før, men med en ny skalaparameterω 2 i / dim W i dim L i. Vi ser at ω 2 i er central. Vi har fundet (3.13) ved en ad hoc justering af ML-estimatoren. Men vi kan også give et mere teoretisk funderet argument, baseret på REML-princippet:

16 76 Kapitel 3. Fejlstratummodeller Sætning 3.13 Antag at middelværdiunderrummet L står geometrisk ortogonalt på hvert stratum W 1,...,W m, og at intet stratum er helt indeholdt i L. Så gælder der med sandsynlighed 1 at REML-estimatoren er entydigt bestemt som ξ= p(x), ω 2 j = r j(x) r j p(x) 2. (3.14) dim W j dim L j BEVIS: Lad e 1,...,e k være en ortonormalbasis for L med hensyn til,, med den egenskab at hvert e i ligger i et af rummene L j = L W j. Lad m L være det tilhørende Lebesguemål på L. Vi kan finde den integrerede likelihood forω 2 = (ω 2 1,...,ω2 m ) som L X (ω 2 1,...,ω2 m )= L(ξ,ω 2 1,...,ω2 m ) dm L(ξ) ( ) n/2 m 1 = 2π j=1 ( ) n/2 m 1 = 2π j=1 ( 1 ω j 2 ( ) d 1 j /2 e 1 2 X p X 2 ω ω 2 2 e 1 2 p X ξ 2 ω 2 dm L (ξ) j ) d j /2 e 1 2 X p X 2 ω 2 e 1 2 p X ξ 2 ω 2 dm L (ξ) hvor vi har udnyttet den form af likelihoodfunktionen som vi udledte i beviset for sætning Vi kan bruge transformationsinvarians af m L og derefter lemma 9.18 fra lærebogen til at slutte at e 1 2 p X ξ 2 ω 2 dm L (ξ)= Hvis e i L j0 så er e 1 2 ξ 2 ω 2 dm L (ξ)= (2π) k/2 ki=1. e i ω 2 e i 2 ω 2 = m r j e i, r j e i ω 2 j=1 j = e i, e i ω 2 j 0 = 1 ω 2 j 0 Dermed er e 1 2 p X ξ 2 ω 2 dm L (ξ)=(2π) k/2 og vi ender med at ( ) n/2 m 1 L X (ω 2 1 1,...,ω2 m)= π j=1 ω 2 j m j=1 (ω 2 j )dim L j/2 (d j dim L i )/2 e X p X ω 2 /2

17 3.3. Estimation i fejlstratum modeller 77 Maksimeringen af denne funktion forløber som maksimeringen af profillikelihoodfunktionen i beviset for sætning 3.12, og vi får ω 2 j = r j(x) r j p(x) 2 = dim W j dim L j dim L j dim W j dim L j ω2 j Det er klart at REML-estimatet afξer px præcis som MLE. Eksempel 3.14 Lad os se på den tosidede variansanalyse med tilfældig blokvirkning, sådan som den blev diskuteret i eksempel 2.3. Situationen er at vi har to faktorer T, svarende til skammeltypen, og B, svarende til personen. Vi antager at X er normalfordelt pår I med E X L T, og vi antager at V X=σ 2 I+ν 2 B B B T B hvor B B er effektmatricen hørende til (B, 1) - med andre ord er B B den sædvanlige designmatrix for B-faktoren. Da B er balanceret (der er fire observationer per person) kan denne varianskomponentstruktur ifølge sætning 3.10 indlejres i en fejlstratummodel med strata W 1 = L B og W 2 = L B. De tilhørende stratumprojektioner er r 1=p B og r 2 = 1 p B. Da T og B udgør et balanceret design er L T og W 1 geometrisk ortogonale. Det følger automatisk af lemma 3.3 at L T også står geometrisk ortogonalt på W 2. Så vi kan ifølge sætning 3.13 finde REML-estimatorerne ved at sætte ind i (3.14): ˆξ= p T X, ω 2 1 = p B(X) p 1 (X) 2 Bemærk at B 1, ω 2 2 = (X p B(X)) (p T (X) p 1 (X)) 2 ( I B ) ( T 1) ω 2 2 = X p T+B(X) 2 I dim(l B + L T ), hvilket præcis er variansestimatet i den tosidede variansanalyse med faste effekter. Oversættelsen (3.9) fortæller at det også er estimatet afσ 2, når blok-effekten betragtes som tilfældig. For estimation af målestøjen spiller det således ingen rolle om vi opfatter blok-effekten som fast eller tilfældig. For de konkrete data angiver vi ˆξ ved de fire gruppegennemsnit ˆα Alm = 8.556, ˆα Lav = , ˆα Etb = , ˆα Pne =

18 78 Kapitel 3. Fejlstratummodeller Vi finder endvidere at X 2 = 3959, p T (X) 2 = , p B (X) 2 = , p 1 (X) 2 = Heraf udregner vi ω 2 1 = 8.31, ω2 2 = 1.21 Det kan ved hjælp af (3.9) oversættes til varianskomponentparametrene σ 2 = 1.21, ν 2 = Sætning 3.12 og sætning 3.13 fortæller tilsammen at i visse varianskomponentmodeller, nemlig dem som kan opfattes som fejlstratummodeller, er REML-estimation en langt bedre ide end ML-estimation. ML-estimation er fejlvisende, REML-estimation er retvisende. Det er svært at sige noget generelt om i hvilken grad REML-estimation er en god ide for alle mulige ubalancerede varianskomponentmodeller. Men der er ingen grund til at forestille sig at ML-estimation kommer til at fungere bedre når man gør designet ubalanceret. Med dette argument i ryggen har man en vis teoretisk begrundelse for altid at bruge REML-princippet når man skal estimere i varianskomponentmodeller. 3.4 Test i fejlstratummodeller Hvis L L er to underrum af V, der begge står geometrisk ortogonalt på hvert fejlstratum, kan man ønske at teste en hypotese om atξ L op mod den større model atξ L. Det vil vi gøre ved hjælp af et klassisk kvotienttest, hvor vi danner brøken Q af den maksimerede likelihoodfunktion inden for og uden for hypotesen. Det er ligesom i de lineære normale modeller: selv om man har konstateret at simpel ML-estimation ikke er verdens bedste ide, så tester man alligevel ved hjælp af den maksimerede likelihoodfunktion. Og lige som i de lineære normale modeller så kan man i fejlstratummodeller reformulere kvotienttestet ved hjælp af en F-størrelse, der faktisk er F-fordelt når hypotesen er sand. Derfor vælger man selvfølgelig denne variant af testet, fremfor den generelle asymptotiske tilgang, hvor man sammenligner 2 log Q med enχ 2 -fordeling.

19 3.4. Test i fejlstratummodeller 79 Den maksimerede likelihoodfunktion er ifølge regningerne i sætning 3.12 ) n/2 m d j /2 1 sup ξ,ω 2 ( 1 L(ξ,ω 2 1,...,ω2 m )=sup L(ω 2 1,...,ω2 m )= ω 2 2π ( ) n/2 1 m = e n/2 1 2π ω 2 j j=1 d j /2 j=1 ω j 2 e d j/2 Dermed kan kvotientteststørrelsen for et test af hypotesen om atξ L findes som m ω 2 d j /2 j Q= j=1 ω 2 j hvor ω 2 j betegner MLE afω2 j under modellenξ L, mens ω2 j er MLE under hypotesenξ L. Lad os udlede referencefordelingen i en simpel situation, der dækker næsten alle praktiske tilfælde. Lad Vi antager at L opfylder at L j = L W j, L j = L W j. L j = L j for alle j j 0. (3.15) Det medfører at p r j = p r j for alle j j 0, hvor p er projektionen ned på L. Derfor er ω 2 j = r jx r j px 2 = r jx r j p X 2 = ω2 d j d j for j j 0 j Og kvotientteststørrelsen kollapser derfor til ω 2 j Q= 0 ω 2 j 0 d j0 /2 = r j 0 X r j0 px 2 r j0 X r j0 p X 2 d j0 /2 = 1 1+ r j 0 px r j0 p X 2 r j0 X r j0 px 2 Ifølge de sædvanlige argumenter kan kvotienttestet derfor gennemføres ved hjælp af d j0 /2 F= r j 0 px r j0 p X 2 /(dim L j0 dim L j 0 ) r j0 X r j0 px 2 /(dim W j0 dim L j0 (3.16)

20 80 Kapitel 3. Fejlstratummodeller der under hypotesen er F-fordelt med (dim L j0 dim L j 0, dim W j0 dim L j0 ) frihedsgrader med store værdier kritiske. Man siger at (3.15) lader os gennemføre testet i j 0 -stratumet. For en varianskomponentmodel, der kan indlejres i fejlstratummodel, er det naturligt at bruge (3.16) til at teste middelværdihypoteser, skønt det faktisk ikke er helt ækvivalent med kvotienttestet i varianskomponentmodellen selv (når man maksimerer likelihoodfunktionen for fejlstratummodellen kan man havne i en parameter, der ikke er med i den indlejrede varianskomponentmodel). Når man bruger (3.16) er tricket er at man starter med at udregne den ortogonale dekomposition med hensyn til et stort design, der indeholder alle faktorer i problemet - faste såvel som tilfældige samt eventuelle ikke-trivielle minima. Hvordan man udnytter en sådan ortogonal dekomposition forklares bedste ved hjælp af et eksempel. Eksempel 3.15 Lad os fortsætte med den tosidede variansanalyse med tilfældig blokvirkning som i eksempel Vi har som udgangspunkt et design for de faste effekter, opsummeret i diagrammet T 1 hvor T repræsenterer treatmenteffekten, og et design for de tilfældige effekter, opsummeret i diagrammet I B hvor B repræsenterer blokeffekten. For at kunne bruge sætning 3.12 og sætning 3.13 skal vi have at intet fejlstratum kan være indeholdt i et relevant middelværdiunderrum. Den type degeneration kan opstå på forskellige indviklede måder, men som et mindstekrav skal man i hvert fald sikre sig at ingen af de tilfældige effekter er grovere end en af de faste effekter. I dette tilfælde skal vi altså kontrollere at T< I og at B ikke er grovere end T. Vi kan indlejre varianskomponentmodellen i en fejlstratummodel ved hjælp af sætning 3.10 hvis designet af tilfældige effekter opfylder forskellige betingelser. Man vil typisk ikke undersøge -stabilitet og geomtrisk ortogonalitet på dette trin, for det følger af den grundigere undersøgelse vi laver om lidt - men i øvrigt kan det jo ses med et halvt øje i dette tilfælde, fordi de to faktorer i det tilfældige design er sammenlignelige. Hvad man derimod skal kontrollere på dette trin, er at de tilfældige faktorer alle er balancerede. Det gælder trivielt at I er balanceret med én observation per gruppe, så det væsentlige er om B er balanceret.

21 3.4. Test i fejlstratummodeller 81 Når man har kontrolleret det, så ser man på et fælles design af alle faste og tilfældige effekter. Dette design er et regnemæssigt redskab, og ikke noget der har selvstændig interesse. Vi kan gøre med det hvad vi vil. Og en af de ting man som regel gør, er at tilføje faktorer nok til at sikre at dette fælles-design er -stabilt. I dette tilfælde får man B I 1 T under antagelse af at B T= 1. Fremgangsmåde er nu at man gennemfører en ortogonal dekomposition af fælles-designet. For at kunne gøre det, må man naturligvis undersøge om alle effekter, faste såvel som tilfældige, er parvist geometrisk ortogonale, og man må sørge for at have tilføjet de nødvendige minima. Lad rummene i den ortonale dekompostion være V I, V T, V B og V 1. Pointen er at alle relevante rum kan opbygges som summer af disse V-byggeklodser. Vi ser f.eks. at de to fejlstrata er W B = L B = V B + V 1 og W I = L B = V T+ V I, og at de to middelværdiunderrum vi kunne finde på at interessere os for, er L T = V T + V 1 og L 1 = V 1. Når vi vil undersøge om man kan teste en fast effekt væk, så skal vi finde det store og det lille middelværdiunderrums fællesmængde med de forskellige strata. Hvis de forskellige strata er numererede, så kan vi skrive L i = L W i uden fare for misforståelse. Men når vi har indiceret strata ved hjælp af faktorer, så er der et notationsproblem. Vi kan ikke bruge L B som betegnelse for L W B, for L B har allerede en betydning som faktorunderrummet hørende til faktoren B. Vi vælger derfor at skrive L (B) for fællesmængden L W B og så videre. Med denne notation og med L=L T ser vi at L (B) = L W B = (V 1 + V T ) (V 1 + V B )=V 1 L (I) = L W I = (V 1 + V T ) (V T + V I )=V T

22 82 Kapitel 3. Fejlstratummodeller Tilsvarende ser vi med L = L 1 at L (B) = L W B = V 1 (V 1 + V B )=V 1 L (I) = L W I = V 1 (V T + V I )=(0) hvor den sidste fællesmængde er nul-vektorrummet, fordi de to rum der tages fællesmængde af, står ortogonalt på hinanden. Eftersom L (B) = L (B) og L (I) L (I) ser vi at testet kommer til at foregå i I-strataet. Vi skriver F-størrelsen op: F= p L W 2 (X) p L W 2 (X) 2 /(dim L W 2 dim L W 2 ) p W2 (X) p L W2 (X) 2 /(dim W 2 dim L W 2 ) = Q T X 2 / dim V T Q I X 2 / dim V I, hvor Q erne som sædvanlig er ortogonalprojektionerne ned i V-rummene. Det skal holdes op mod en F fordeling med (dim V T, dim V I ) frihedsgrader. Bemærk at vi kan skrive (p T (X) p 1 (X)) 0 2 /( T 1 0) F= (X p B (X)) (p T (X) p 1 (X)) 2 /(( I B ) ( T 1)) Til vores forbløffelse konstaterer vi at denne størrelse er identisk med den teststørrelse vi finder i den tosidede variansanalyse med faste effekter, når vi tester en hypotese om en ren B-effekt op mod den additive model B+T. Fra et testsynspunkt spiller det altså i denne sammenhæng ingen rolle om vi opfatter B som fast eller tilfældig. For de konkrete data fra eksempel 2.3 finder vi F= Det skal holdes op imod en F-fordeling med (24, 3) frihedsgrader, hvilket giver en p-værdi på , og vi forkaster hypotesen med et brag. Eksempel 3.16 At udvikle en ny medicin er en kompliceret proces, der løber gennem mange faser. Det er f.eks. vigtigt at kunne måle koncentrationen af det aktive stof et bestemt sted i patientens krop, sådan at man kan arbejde med at skabe den rigtige koncentration. En sådan in-situ måling kan være vanskelig at opnå og det kan kræve et selvstændigt delprojekt at udvikle en pålidelig målemetode. Vi vil her beskrive et sådan delprojekt, der blev gennemført på Novo Nordisk i begyndelsen af 90 erne som en fase i udviklingen af et blodfortyndende medikament.

23 3.4. Test i fejlstratummodeller 83 Den klassiske aktive ingrediens i blodfortyndende medicin er en klasse af stoffer, der kaldes heparin. Det virker ved at binde sig til de røde blodlegemer på en måde så de forhindres i at klumpe. Ideeen bag det nye medikament var at man ud over en lav-vægts heparin med navnet tinzaparin tilsatte heparinase, et enzym der skulle effektivisere heparinens binding til de røde blodlegemer. Det var afgørende at kunne lave in-situ målinger af koncentrationen af heparinase, og der blev udviklet en kompliceret ny metode. Som et trin i processen skulle denne målemetode valideres, og det er valideringseksperimentet vi gennemgår her. Validering betyder i denne sammenhæng at man fremstiller række opløsninger med en kendt koncentration af heparinase, og undersøger i hvilken grad denne koncentration kan reproduceres af målemetoden. En nøjere analyse viser at der er adskillige fejlkilder i processen. Det er et generelt kemisk faktum at det er svært at måle koncentrationen af enzymer, og man må derfor forvente en betydelig målestøj. Men det er også vanskeligt at ramme en bestemt koncentration når man fremstiller referenceopløsningerne. Den faktiske koncentration kan være følsom over for små deltaljer i fremstillingen. Endelig er der et specifikt problem for denne undersøgelse, nemlig at måleapparaturet ikke var stabilt, men med jævne mellemrum skulle nulstilles. Problemet er at apparaturet giver et udslag også når der ingenting er at måle på, og dette baggrundsudslag ændrer sig med tiden. Nulstillingen blev opfattet som ganske problematisk, for der var ingen garanti for at man rent faktisk kunne gennemføre den ens fra gang til gang. På baggrund af en analyse af de forskellige fejlkilder anstillede man et eksperiment hvor man på én gang undersøgte målefejlen, fremstillingsfejlen og nulstillingsfejlen. Det giver et ret komplekst design Ikke mindst fordi fremstillingsfejlen er bygget op af adskillige bidrag, hvis relative betydning man også ønskede at kvantificere. Nulstillingsfejlen undersøgte man ved at gennemføre eksperimentet i små blokke med kun fire målinger i hver. De fire målinger kunne gennemføres så tilpas hurtigt at man vurderede at nulstillingsfejlen ikke ændrede sig i den tid. Efter hver blok gennemførte man en omhyggelig ny nulstilling. Fremstillingsfejlen undersøgte man ved en omhyggeligt gennemtænkt plan for hvad der skulle måles på i hver af disse små blokke. Fremstillingen forløb i tre trin. I første trin udvalgte man et heparinase-fabrikat (ud af to mulige) og et tinzaparin-fabrikat (ud af fire mulige). I andet trin blandede en laborant heparinase og tinzaparin til den ønskede koncentration var opnået - målet var i hvert enkelt forsøg at ramme en koncentration på 100 ng/ml. Der medvirkede to laboranter i eksperimentet, og et delmål var at undersøge om der var forskel på deres vurdering af hvornår den rigtige koncentration blev ramt. I det tredie trin tilsattes en

24 84 Kapitel 3. Fejlstratummodeller katalysator, der var nødvendig for overhovedet at få måleprocessen til at fungere. Der var to mulige katalysatorer. Eksperimentet forløb i praksis i otte serier, der hver bestod af to nulpunkts-blokke. I hver serie indgik én laborant og heparin fra af ét fabrikat. I serien blandede laboranten den udvalgte heparin med tilstrækkelig mængde tinzaparin af hver af de fire fabrikater, til den ønskede koncentration skønnedes nået. Hver af disse fire blandinger blev delt i to, sådan at man nu havde otte blandinger, der parvis var ens. Den ene halvdel blev tilsat den ene katalysator, den anden halvdel den anden katalysator. I seriens første blok målte man på de fire opløsninger med den ene katalysator, i seriens anden blok målte man på de fire opløsninger med den anden katalysator. Det er grafisk beskrevet på figur 3.1. De konkrete målinger er anført i tabel 3.2 og 3.3. Figur 3.1: Grafisk fremstilling af én måleserie. I hver serie indgår én laborant og én slags heparin. Laboranten blander heparinen med fire forskellige slags tinzparin, repræsenteret ved de fire farver. Hver blanding deles i to, der får tilsat hver sin slags katalysator. De skraverede felter repræsenterer én katalysator, de uskraverede en anden. Målingerne med samme slags katalysator udgør en blok med hensyn til nulpunktsjusteringen af apparaturet. Dette forsøg er et af de i praksis relativt sjælde tilfælde, hvor det er naturligt at modellere med krydsede tilfældige effekter. De interessante tilfældige effekter kommer, fordi flere målinger deler komponenter. Blandinger fremstillet af præcis det samme materiale af præcis den samme laborant vil formentlig veksle lidt fra dag til dag - den slags er vi vant til, og vi plejer at inkludere denne variation i målestøjen. Men i dette tilfælde er der to målinger, der involverer samme fysiske blanding, og de må dele en afvigelse fra normen. Der er derfor en tilfældig effekt svarende til den konkrete blanding. Tilsvarende er der en tilfældig effekt svarende til nulpunktsjusteringerne - de målinger der er foretaget med en bestemt nulpunktsjustering deler en vis fejl. Vi kunne indføre navne til de faktorer, der svarer til disse gruppeinddelinger. Men vi kan også observere at sådanne nye faktorer i praksis bliver identiske med produktfaktorerne Serie Tinzaparin og Serie Katalysator. Man skal måske lige vænne sig til den form for navngivning: når vi siger at der er en tilfældig effekt af Serie Katalysator

25 3.4. Test i fejlstratummodeller 85 så har det overhovedet ikke noget at gøre med at at Serie vekselvirker med Katalysator - den tilfældige effekt skyldes nulstillingen af måleapparaturet. Man kan diskutere om det er naturligt også at inddrage Serie som en tilfældig effekt. Man vil ikke umiddelbart forvente at effekten er særlig kraftig, fordi eksperimentet foregår under meget kontrollerede omstændigheder, hvor alle involverede gør sig u- mage. Men efter som Serie er minimum af de to produktfaktorer Serie Katalysator og Serie Tinzaparin, som vi vil have med som tilfældige effekter, så er vi faktisk nødt til at inkludere Serie som en tilfældig effekt hvis vi vil kunne indlejere varianskomponentmodellen i en fejlstratummodel ved hjælp af sætning Vi får derfor følgende faktorstruktudiagram for de tilfældige effekter: I Serie Katalysator Serie Tinzaparin Serie Vi ser at de tre tilfældige faktorer hver især er balancerede, med henholdsvis 4, 2 og 8 målinger per gruppe. Man kontrollerer også let at de to produktfaktorer er geometrisk ortogonale. Så modellen kan indlejres i en fejlstratummodel. I denne model får vi det kombinerede faktorstrukturdiagram I Serie Katalysator Serie Tinzaparin Katalysator Laborant Serie 1 Heparinase Tinzaparin Man kontrollerer at de fire faste faktorer er parvist balancerede, og at de tre faktorer Katalysator, Tinzaparin og Serie har et balanceret produkt. Så det store design er

26 86 Kapitel 3. Fejlstratummodeller minimumsstabilt og geometrisk ortogonalt. Hvis V som sædvanlig betegne den ortogonale dekomposition for det fælles design, kan vi finde de relevante regnestørrelser som i tabel 3.1. dim L PX 2 dim V QX Katalysator Laborant Heparinase Tinzaparin Serie Serie Katalysator Serie Tinzaparin I Tabel 3.1: Regnestørrelser i den ortogonale dekomposition De fire fejlstrata, der fås ud fra den ortogonale dekomposition af designet med tilfældige effekter, kan udtrykkes ved hjælp af den ortogonale dekomposition for det fælles design, W Serie = V Serie + V Laborant + V Heparinase + V 1 W Serie Katalysator= V Serie Katalysator+ V Katalysator W Serie Tinzaparin= V Serie Tinzaparin+ V Tinzaparin W I = V I Lad os starte med middelværdiunderrummet med de fire faste effekter eller, som man normalt ville skrive det: L=L Katalysator + L Laborant + L Heparinase + L Tinzaparin H : Katalysator + Laborant + Heparinase + Tinzaparin så er det fra den måde strataene skrives som summer af V-rum nemt at se at de faste effekter Heparinase og Laborant skal testes i Serie-stratummet, mens Katalysator skal testes i Serie Katalysator-stratummet og Tinzaparin skal testes i Serie Tinzaparin-stratummet. Rækkefølgen af testene er nogenlunde ligegyldig, for test i forskellige strata influerer ikke på hinanden. Så det eneste man kan komme i tvivl om, er om man skal forsøge at fjerne Laborant før Heparinase eller omvendt.

27 3.4. Test i fejlstratummodeller 87 For fuldstændighedens skyld angiver vi teststørrelserne. Et test af om Katalysator kan fjernes får teststørrelse F= Q Katalysator 2 / dim V Katalysator Q Serie Katalysator 2 / dim V Serie Katalysator = der er 95.2% fraktil i F-fordelingen med (1, 7) frihedsgrader. Vi forkaster altså at Katalysator kan fjernes med p-værdien 4.8% - omend vi passer på med ikke at udtale os alt for skråsikkert i denne sammenhæng. Et test af om Tinzaparin kan fjernes får teststørrelse F= Q Tinzaparin 2 / dim V Tinzaparin Q Serie Tinzaparin 2 / dim V Serie Tinzaparin = der er 99.5% fraktil i F-fordelingen med (3, 21) frihedsgrader. Vi forkaster altså meget klart at Tinzaparin kan fjernes med p-værdien 0.5%. Så der er altså forskel på de fire typer Tinzaparin. Et test af om Laborant kan fjernes når Heparinase er med i modellen får teststørrelse F= Q Heparinase 2 / dim V Heparinase Q Serie 2 / dim V Serie = mens et test af om Heparinase kan fjernes når Laborant er med i modellen får teststørrelse F= Q Laborant 2 / dim V Laborant Q Serie 2 / dim V Serie = der begge skal slås op i F-fordelingen med (1, 5) frihedsgrader. Testene accepteres med p-værdierne 75.7% og 52.8%. Man burde nok fjerne en af effekterne, og på den baggrund undersøge om man kan fjerne den anden - det ændrer en lille smule på teststørrelser og p-værdier, men det ændrer intet på konklusionen om at begge effekter kan fjernes. Vi kan estimere de fire stratum-varianser i slutmodellen (altså uden Laborant og Heparinase, men med Katalysator og Tinzaparin) ved hjælp af de centrale REML-

28 88 Kapitel 3. Fejlstratummodeller formler som ω 2 Serie= Q SerieX 2 + Q Laborant X 2 + Q Heparinase X 2 dim V Serie + dim V Laborant + dim V Heparinase = ω 2 Serie Katalysator= Q Serie KatalysatorX 2 dim V Serie Katalysator ω 2 Serie Tinzaparin= Q Serie TinzaparinX 2 dim V Serie Tinzaparin = = 66.3 ω 2 I = Q IX 2 dim V I = 24.7 Varianserne af de tilfældige effekter løser ligningssystemet ω 2 I =σ2 ω 2 Serie ω2 I = n Serieν 2 Serie + n Serie Tinzaparinν 2 Serie Tinzaparin + n Serie Katalysatorν 2 Serie Katalysator ω 2 Serie Tinzaparin ω2 I = n Serie Tinzaparinν 2 Serie Tinzaparin ω 2 Serie Katalysator ω2 I = n Serie Katalysatorν 2 Serie Katalysator Idet gruppestørrelserne som tidligere anført er 4, 2 og 8, løses dette ligningssystem nemt, og vi får σ 2 = 24.7 ν 2 Serie= 5.7 ν 2 Serie Katalysator= 57.5 ν 2 Serie Tinzaparin= 20.7 Som forventet er variansen hørende til Serie ikke stor, hvorimod variansen hørende til Serie Katalysator, der jo dækker over nulpunktsjusteringen, er ganske betragtelig - den er over dobbelt så stor som målestøjenσ 2.

29 3.4. Test i fejlstratummodeller 89 Serie Heparinase Laborant Katalysator Tinzaparin Respons 1 1 A A A A A A A A A A A A A A A A B B B B B B B B B B B B B B B B Tabel 3.2: Målinger af heparinasekoncentration. Fortsættes næste side.

30 90 Kapitel 3. Fejlstratummodeller Serie Heparinase Laborant Katalysator Tinzaparin Respons 5 2 A A A A A A A A A A A A A A A A B B B B B B B B B B B B B B B B Tabel 3.3: Målinger af heparinasekoncentration. Fortsat fra forrige side.

Fejlstratummodeller. Kapitel 3

Fejlstratummodeller. Kapitel 3 Kapitel 3 Fejlstratummodeller Lad V være et endeligdimensionalt reelt vektorrum. En fejlstratummodel på V har tre ingredienser, hvoraf de to første svarer til hvad man har for lineære normale modeller:

Læs mere

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m

Fejlstrata. Vi forestiller os at V har. 1) Et underrum L. 2) Et indre produkt, 3) En ortogonal dekomposition V = W W m Fejlstrata Vi forestiller os at V har 1) Et underrum L 2) Et indre produkt, 3) En ortogonal dekomposition V = W 1 +... + W m Underrummene W i kaldes fejlstrata. Typisk eksempel på en fejlstratumdekomposition:

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Faktorforsøg. Antag at X i, i I, er uafhængige reelle variable og at. for alle i I. En faktor er en afbildning. hvor F er en mængde af labels.

Faktorforsøg. Antag at X i, i I, er uafhængige reelle variable og at. for alle i I. En faktor er en afbildning. hvor F er en mængde af labels. Faktorforsøg Antag at X i, i I, er uafhængige reelle variable og at X i N (ξ i, σ 2 ) for alle i I En faktor er en afbildning f : I F hvor F er en mængde af labels. En faktor deler observationerne ind

Læs mere

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt

Læs mere

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30 Områdeestimator X (Ω, F) (X, E) x 01 01 P θ ν θ θ Θ 0000 1111 000000 111111 0000 1111 0000 1111 C(x) En områdeestimator er en afbildning C : X P(Θ).. p.1/30 Konfidensområde En områdestimator C : X P(Θ)

Læs mere

Additive hypoteser i flerfaktorforsøg

Additive hypoteser i flerfaktorforsøg Additive hypoteser i flerfaktorforsøg Et design er et system af faktorer, G = {G 1,...,G m } Hertil hører et underrum af R I og en hypotese L G = m L Gi, i=1 H G : ξ L G Udfordring: Forstå hvad udsagnet

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Taylors formel. Kapitel Klassiske sætninger i en dimension

Taylors formel. Kapitel Klassiske sætninger i en dimension Kapitel 3 Taylors formel 3.1 Klassiske sætninger i en dimension Sætning 3.1 (Rolles sætning) Lad f : [a, b] R være kontinuert, og antag at f er differentiabel i det åbne interval (a, b). Hvis f (a) = f

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Module 1: Lineære modeller og lineær algebra

Module 1: Lineære modeller og lineær algebra Module : Lineære modeller og lineær algebra. Lineære normale modeller og lineær algebra......2 Lineær algebra...................... 6.2. Vektorer i R n................... 6.2.2 Regneregler for vektorrum...........

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

Asymptotisk testteori

Asymptotisk testteori Kapitel 8 Asymptotisk testteori Vi vil nu beskæftige os med den asymptotiske teori for estimation under pæne hypoteser og for test af disse hypoteser. Vi skal især undersøge det forhold at hvis den fulde

Læs mere

En martingalversion af CLT

En martingalversion af CLT Kapitel 11 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Den generelle lineære model

Den generelle lineære model Kapitel 10 Den generelle lineære model Den generelle lineære normale model, eller blot den lineære normale model, er en matematisk abstraktion af en række af de mest anvendte statistiske modeller: etsidet

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Lineære normale modeller (4) udkast

Lineære normale modeller (4) udkast E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse

Læs mere

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k Dagens program: Likelihoodfunktion, begreber : Mandag den 4. februar Den generelle lineære model score-funktion: første afledede af log-likelihood har middelværdien nul observeret information: anden afledede

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

standard normalfordelingen på R 2.

standard normalfordelingen på R 2. Standard normalfordelingen på R 2 Lad f (x, y) = 1 x 2 +y 2 2π e 2. Vi har så f (x, y) = 1 2π e x2 2 1 2π e y2 2, og ved Tonelli f dm 2 = 1. Ved µ(a) = A f dm 2 defineres et sandsynlighedsmål på R 2 målet

Læs mere

Reeksamen 2014/2015 Mål- og integralteori

Reeksamen 2014/2015 Mål- og integralteori Reeksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål. Ved bedømmelsen indgår de spørgsmål med samme vægt.

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/23 Statistisk hypotese PSfrag replacements

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Del II. Den lineære normale model

Del II. Den lineære normale model Del II Den lineære normale model 301 302 Kapitel 9 Normalfordelinger på vektorrum Vi vil i dette kapitel give en fremstilling af teorien for normalfordelinger (også kaldet Gaussiske fordelinger) på endeligdimensionale

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Lokal estimationsteori

Lokal estimationsteori Kapitel 5 Lokal estimationsteori 5.1 Konsistens Vores første delmål er at sikre at regularitetsbetingelserne medfører at den reskalerede konkordanskombinant med meget stor sandsynlighed har en positivt

Læs mere

EKSAMEN Flerdimensional Analyse Sommer sider

EKSAMEN Flerdimensional Analyse Sommer sider EKSAMEN Flerdimensional Analyse Sommer 2008 5 sider Formaliteter Eksamen er en 24-timers eksamen, der udleveres mandag den 23/6-2008 klokken 0.00 og afleveres tirsdag den 24/6-2008 inden klokken 0.00.

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

π er irrationel Frank Nasser 10. december 2011

π er irrationel Frank Nasser 10. december 2011 π er irrationel Frank Nasser 10. december 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold 1 Introduktion

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/26 PSfrag replacements Statistisk

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Dagens program. Praktisk information:

Dagens program. Praktisk information: Dagens program Praktisk information: Husk hjemmeopgaven i statistik Hypoteseprøvning kap. 11.2,11.3 og 11.8 Eksempel på test Styrkefunktionen kap. 11.2 Stikprøvens størrelse kap. 11.3 Likelihood ratio

Læs mere

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata 1 Intoduktion Før man springer ud i en øvelse om paneldata og panelmodeller, kan det selvfølgelig være rart at have en fornemmelse af, hvorfor de er så vigtige i moderne mikro-økonometri, og hvorfor de

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag susanne

Susanne Ditlevsen Institut for Matematiske Fag    susanne Statistik og Sandsynlighedsregning 1 STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 7. undervisningsuge, mandag 1 Estimation og konfidensintervaller

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Eksamen 2014/2015 Mål- og integralteori

Eksamen 2014/2015 Mål- og integralteori Eksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål Ved bedømmelsen indgår de spørgsmål med samme vægt

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål Statistisk model Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål på (X, E). Modellen er parametriseret hvis der findes en parametermængde Θ og

Læs mere

Vægte motiverende eksempel. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægtet model. Vægtrelationen

Vægte motiverende eksempel. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægtet model. Vægtrelationen Vægte motiverende eksempel Landmålingens fejlteori Lektion 4 Vægtet gennemsnit Fordeling af slutfejl - kkb@mathaaudk Institut for Matematiske Fag Aalborg Universitet Højdeforskellen mellem punkterne P

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Tidligere Eksamensopgaver MM505 Lineær Algebra

Tidligere Eksamensopgaver MM505 Lineær Algebra Institut for Matematik og Datalogi Syddansk Universitet Tidligere Eksamensopgaver MM55 Lineær Algebra Indhold Typisk forside.................. 2 Juni 27.................... 3 Oktober 27..................

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder Heteroskedasticitet 11. april 007 KM: F18 1 Oversigt: Heteroskedasticitet OLS estimation under heteroskedasticitet (W.8.1-): Konsekvenser af heteroskedasticitet for OLS Gyldige test

Læs mere

Lineær Algebra, TØ, hold MA3

Lineær Algebra, TØ, hold MA3 Lineær Algebra, TØ, hold MA3 Lad mig allerførst (igen) bemærke at et vi siger: En matrix, matricen, matricer, matricerne. Og i sammensætninger: matrix- fx matrixmultiplikation. Injektivitet og surjektivitet

Læs mere

En martingalversion af CLT

En martingalversion af CLT Kapitel 9 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske variable,

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Den todimensionale normalfordeling

Den todimensionale normalfordeling Den todimensionale normalfordeling Definition En todimensional stokastisk variabel X Y siges at være todimensional normalfordelt med parametrene µ µ og når den simultane tæthedsfunktion for X Y kan skrives

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Estimation og konfidensintervaller

Estimation og konfidensintervaller Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,

Læs mere

Kapitel 13 Reliabilitet og enighed

Kapitel 13 Reliabilitet og enighed Kapitel 13 Reliabilitet og enighed Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 Version 11. april 2011 1 / 23 Indledning En observation er sammensat af en sand værdi og en målefejl

Læs mere

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med Repetition: Varians af linear kombination Landmålingens fejlteori Lektion 5 Fejlforplantning - rw@math.aau.dk Antag X 1, X,..., X n er uafhængige stokastiske variable, og Y er en linearkombination af X

Læs mere

Klassisk Taylors formel

Klassisk Taylors formel p. 1/17 Klassisk Taylors formel Sætning Lad f : (a, b) R være n gange differentiabel. For x 0, x (a, b) findes et ξ mellem x 0 og x der opfylder at f(x) = f(x 0 )+ f (x 0 ) 1! (x x 0 )+...+ f(n 1) (x 0

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Affine rum. a 1 u 1 + a 2 u 2 + a 3 u 3 = a 1 u 1 + (1 a 1 )( u 2 + a 3. + a 3. u 3 ) 1 a 1. Da a 2

Affine rum. a 1 u 1 + a 2 u 2 + a 3 u 3 = a 1 u 1 + (1 a 1 )( u 2 + a 3. + a 3. u 3 ) 1 a 1. Da a 2 Affine rum I denne note behandles kun rum over R. Alt kan imidlertid gennemføres på samme måde over C eller ethvert andet legeme. Et underrum U R n er karakteriseret ved at det er en delmængde som er lukket

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl Landmålingens fejlteori Lektion 4 Vægtet gennemsnit Fordeling af slutfejl - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf13 Institut for Matematiske Fag Aalborg Universitet 1/1 Vægtet

Læs mere

Lineær Algebra eksamen, noter

Lineær Algebra eksamen, noter Lineær Algebra eksamen, noter Stig Døssing, 20094584 June 6, 2011 1 Emne 1: Løsninger og least squares - Løsning, ligningssystem RREF (ERO) løsninger Bevis at RREF matrix findes Løsninger til system (0,

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Eksempel , opg. 2

Eksempel , opg. 2 Faktorer En faktor er en gruppering/inddeling af målinger/observationer pga. Tilsigtede variationer i en eller flere forsøgsparametre Nødvendige (potentielle) blok-effekter såsom gentagne målinger på samme

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Estimation af bilkøbsrelationen med nye indkomst- og formueudtryk

Estimation af bilkøbsrelationen med nye indkomst- og formueudtryk Danmarks Statistik MODELGRUPPEN Arbejdspapir* Edith Madsen 21. juli 1997 Estimation af bilkøbsrelationen med nye indkomst- og formueudtryk Resumé: Papiret præsenterer en reestimationen af fcb-relationen.

Læs mere

Trykfejlsliste - alle fejl Asymptotisk teori

Trykfejlsliste - alle fejl Asymptotisk teori 9. januar 2005 Stat 2A / EH Trykfejlsliste - alle fejl Asymptotisk teori Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i 2A-noterne indtil nu. 9 1 Forkert: x C x ro alle

Læs mere

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Program 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Ensidet variansanalyse: analyse af grupperede data Nedbrydningsrate for tre typer af opløsningsmidler (opgave 13.8 side 523) Sorption

Læs mere

Skriftlig eksamen Vejledende besvarelse MATEMATIK B (MM02)

Skriftlig eksamen Vejledende besvarelse MATEMATIK B (MM02) SYDDANSK UNIVERSITET ODENSE UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Vejledende besvarelse MATEMATIK B (MM2) Fredag d. 2. januar 22 kl. 9. 3. 4 timer med alle sædvanlige skriftlige

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Egenskaber ved Krydsproduktet

Egenskaber ved Krydsproduktet Egenskaber ved Krydsproduktet Frank Nasser 23. december 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere