Normalfordelingsmodeller med hierarkisk variation

Størrelse: px
Starte visningen fra side:

Download "Normalfordelingsmodeller med hierarkisk variation"

Transkript

1 Kapitel 5 Normalfordelingsmodeller med hierarkisk variation Hidtil har vi hovedsageligt kun betragtet modeller med ét niveau af tilfældig variation (gentagelsesvariation). I mange af de situationer, man møder i praksis, vil en sådan modellering imidlertid tydeligt være for stærk en simplificering af den naturlige variation i data. Ofte udtages nogle forsøgsobjekter (personer, produktioner, forsøgsdage, testmateriale etc.) tilfældigt fra en større population af objekter (første trin), og dernæst foretages en række målinger (andet trin) for hvert af disse objekter. Variationen er således hierarkisk. I dette afsnit vil vi diskutere nogle simple normalfordelingsmodeller for hierarkisk variation. Vi vil tage udgangspunkt i en generalisering af envejsmodellen (ensidet variansanalyse) til en model med tilfældig effekt, og beskrive varians- kovariansforhold under denne model (afsnit ). Den væsentligste forskel fra den systematiske model er, at under den hierarkiske model er observationer i samme gruppe korrelerede. I afsnit 5.4 betragtes testet for en forsvindende effekt, og i afsnit 5.5 diskuteres estimation af modellens systematiske (faste) parametre, nemlig den fælles middelværdi og de to varianser (hhv variansen indenfor grupper og variansen mellem grupper). I den balancerede situation kan man benytte de simple momentestimater, men hvis data er ubalancerede (forskelligt antal observationer i de forskellige grupper) kompliceres estimationen idet gruppe- 213

2 gennemsnittene har forskellige varianser (præcisioner). I afsnit 5.6 diskuteres estimation (prædiktion) af de tilfældige effekter ved brug af et likelihoodprincip, og begrebet Bedste lineære centrale prædiktor (BLUP) indføres. I afsnit 5.7 genoptages den generelle diskussion af hierarkiske modeller, og begreberne apriorifordeling og aposteriorifordeling introduceres. Dette begrebsapparat benyttes i afsnit 5.9 til at indføre en såkaldt empirisk Bayes løsning til estimation af de tilfældige effekter, og det vises at BLUP-estimatet kan fortolkes som et empirisk Bayesestimat. Afsnit 5.8 viser eksempler på brug af SAS-procedurer til analyse af envejsmodeller, og endelig giver afsnit 5.10 nogle yderligere simple eksempler på modeller for hierarkisk variation. I kapitel 6 vil vi introducere en generel formulering af lineære normalfordelingsmodeller med hierarkisk variation. 5.1 Betingede, simultane og marginale fordelinger Vi indleder med en introduktion af nogle begreber fra sandsynlighedsregningen: Betragt to stokastiske variable X og Y med den simultane tæthedsfunktion f xy (x, y). For kontinuerte fordelinger definerer den simultane tæthedsfunktion en flade i det tredimensionale rum. Sandsynligheden for at få værdier af X og Y ietområde af xy-planen bestemmes som volumenet under fladen i det pågældende område. Specielt gælder altså at x= y= f xy (x, y)dydx =1 Tæthederne for de marginale fordelinger af X og Y bestemmes ved f X (x) = f Y (y) = y= x= 214 f xy (x, y)dy f xy (x, y)dx

3 Den marginale fordeling af X angiver sandsynlighederne for at få bestemte værdier af X uden hensyn til værdien af Y (og tilsvarende for den marginale fordeling af Y ). Vi kan nu definere de betingede fordelinger. Den betingede fordeling af Y givet X = x er fordelingen med tæthed h(y x) = f xy(x, y) f X (x) (5.1) Den betingede fordeling udtrykker således de relative værdier af f xy (x, y) for fastholdt værdi, x, af første koordinat. Størrelsen f X (x) i nævneren tjener blot til at sikre at h(y x)dy =1. Tilsvarende har den betingede fordeling af X givet Y = y tætheden g(x y) = f xy(x, y) f Y (y) (5.2) Af (5.2) fås f xy (x, y) =f Y (y)g(x y), der indsat i (5.1) fører til hvor f X (x) = h(y x) = g(x y)f Y(y) f X (x) y= g(x y)f Y (y)dy (5.3) I sammenhænge, hvor f Y (y) udtrykker en såkaldt subjektiv fordeling (evt udartet), kaldes resultatet (5.3) for Bayes sætning, benævnt efter den engelske præst, Thomas Bayes. Hans efternavn udtales [Bæ js]. I sådanne sammenhænge kaldes fordelingen f Y (y) afy for apriorifordelingen,og den betingede fordeling med tætheden h(y x)kaldesaposteriorifordelingen efter observation af X = x. Modellen (og sætningen) dukker naturligt op i forbindelse med hierarkiske modeller, hvor den variable X symboliserer en ikke-observerbar tilstand (state) eller parameter, der er knyttet til det udvalgte forsøgsobjekt, mens Y symboliserer de observerede størrelser. I sådanne situationer vil man ofte 215

4 kunne beskrive den betingede fordeling af Y for givet tilstand (x), og man vil have observationer af den marginale fordeling af Y. Derimod er det netop ikke muligt at observere X erne og derfor heller ikke fordelingen f X (x). I afsnit 5.7 og 5.9 vil vi betragte brugen af (5.3) i sådanne situationer, hvor apriorifordelingen f Y (y) har en frekvensfortolkning Lidt om betingede og marginale middelværdier og varianser Vi minder om formlen, der relaterer betingede og marginale middelværdier og varianser, sætning 1.2.1, side 8: Lad X, Y og Z være endimensionale stokastiske variable. Da gælder: E[X] = E Y [ E[ X Y]] V[X] = E Y [ V[ X Y]]+V Y [E[X Y]] (5.4) COV[X, Z] = E Y [ COV[X, Z] Y ]+COV Y [ E[ X Y ], E[ Z Y ]] Der gælder tilsvarende relationer for flerdimensionale fordelinger: E[X] = E Y [ E[X Y]] D[X] = E Y [ D[X Y]]+D Y [E[X Y]] (5.5) COV[X, Z] = E Y [ COV[X, Z Y ]]+COV Y [ E[X Y ], E[Z Y ]] For senere reference anføres et eksplicit resultat for den flerdimensionale normalfordeling: Sætning Marginale og betingede fordelinger for flerdimensional normalfordeling Betragt den flerdimensionale stokastiske variable X [ ] X1 X = X 2 og antag, at X følger en flerdimensional normalfordeling med E[X 1 ]=µ 1 og E[X 2 ]=µ 2 og [ X1 D X 2 ] [ Σ11 Σ = 12 Σ 21 Σ ]

5 Da gælder, at de marginale fordelinger af X 1 og X 2 er normalfordelinger, X 1 N(µ 1, Σ 11 ) og X 2 N(µ 2, Σ 22 ) og endvidere er den betingede fordeling af X 1 givet X 2 = x 2 ligeledes en normalfordeling med E[X 1 X 2 = x 2 ] = µ 1 +Σ 12 Σ 1 22 (x 2 µ 2 ) D[X 1 X 2 = x 2 ] = Σ 1 11 Σ 12Σ 1 22 Σ 21 hvor Σ 1 22 fortolkes som en generaliseret invers, hvis Σ 22 ikke har fuld rang. Udtrykket for E[X 1 X 2 = x 2 ] betegnes undertiden regressionen af X 1 på X Envejsanalyse, tilfældig model Eksempel Vi indleder med et eksempel til støtte for den abstrakte gennemgang: Eksempel Balancerede data, variansanalyseskema Data er fra J.M. Cameron: The use of Components of Variance in preparing schedules for sampling of baled wool, [34]. Råuld indeholder varierende mængder af fedt og andre urenheder, der må fjernes før den videre forarbejdning. Prisen - og værdien - af råulden afhænger af den mængde ren uld, der opnås efter omhyggelig rensning. Renheden af råulden udtrykkes som den rene uld i procent af vægten af råulden. Med henblik på at vurdere forskellige stikprøveplaner til estimation af renheden af et parti bestående af adskillige baller uld har U.S. Customs Laboratory, Boston, blandt andet udtaget 4 prøver tilfældigt fra hver af 7 baller uruguyansk uld. Prøveresultaterne er angivet i tabel

6 Tabel 5.1: Renheden i % ren uld af 4 prøver fra hver af 7 baller uruguyansk uld. Balle nr. Prøve Balle gennemsnit Model Da de enkelte baller blot er tilfældigt udvalgt blandt samlingen af baller, bruger vi en tilfældig model: Vi antager at Y ij µ i N(µ i,σ 2 ), (5.6) hvor vi i modsætning til den systematiske model, beskriver gruppeniveauet µ i som en realisation af en stokastisk variabel. µ i N(µ 0,σb 2 ), (5.7) hvor µ i erne antages indbyrdes uafhængige, og Y ij antages at være indbyrdes uafhængige i den betingede fordeling af Y ij for givet µ i. I lighed med den systematiske model formuleres modellen ofte som en additiv model for observationerne Y ij ved Y ij = µ 0 + α i + ɛ ij, (5.8) med ɛ ij N(0,σ 2 )ogα i N(0,σ 2 b ), hvor ɛ ij er indbyrdes uafhængige, og α i ligeledes er indbyrdes uafhængige og endelig er α i erne uafhængige af ɛ ij. 218

7 Da det ofte vil være af interesse at betragte forholdet mellem de to varianser, indfører vi symbolet γ for dette forhold, γ = σ 2 b /σ2 (5.9) Parameteren γ udtrykker således inhomogeniteten mellem grupper i forhold til gruppernes interne variation. Vi vil ofte bruge betegnelsen signal/støj forholdet for parameteren γ. Den tilfældige model vil være rimelig i situationer, hvor interessen ikke er indskrænket til alene de betragtede forsøgsomstændigheder (grupper), men hvor disse omstændigheder snarere opfattes som repræsentative for en større samling (population) af varierende forsøgsomstændigheder, principielt udtaget tilfældigt fra denne population. Vi siger ofte, at vi har hierarkisk variation, eller at vi har en hierarkisk model, svarende til at vi har en tilfældig variation mellem grupper (underordnet den konstante faktor), og gentagelsen inden for grupper er underordnet inddelingen i grupper. Til illustration af forskellen mellem den tilfældige og den systematiske model bemærker vi yderligere, at analysen af den systematiske model lægger vægt på vurderingen af resultaterne i de enkelte grupper, µ i, og eventuelle forskelle, µ i µ h,på resultaterne i specifikke grupper, mens analysen af den tilfældige model i første række sigter mod at beskrive variationen mellem grupperne, V[µ i ]=σ 2 b Marginale og simultane fordelinger Sætning Marginale fordelinger i den tilfældige model for ensidet variansanalyse Den marginale fordeling af Y ij er en normal fordeling med COV[Y ij,y hl ] = E[Y ij ] = µ 0 (5.10) σb 2 +σ2 for (i, j) =(h, l) σb 2 for i = h, j l 0 for i h 219

8 Bemærkning 1 Observationer fra samme gruppe er korrelerede Vi bemærker, at der en positiv kovarians mellem observationer fra samme gruppe. Denne positive kovarians udtrykker netop, at observationer inden for en gruppe vil afvige i samme retning fra den marginale middelværdi µ 0, nemlig i retning mod den pågældende gruppemiddelværdi. Korrelationskoefficienten ρ = σ2 b σ 2 b + σ2 = γ 1+γ (5.11) der beskriver korrelationen indenfor gruppe, benævnes ofte intraklassekorrelationen. Bemærkning 2 Korrelations- og dispersionsmatrix for observationer fra samme gruppe Betragter vi observationssættet svarende til den i tegruppesomenn i -dimensional søjlevektor, Y i1 Y i2 Y i =. har vi, at korrelationsmatricen i den marginale fordeling af Y i er en equikorrelationsmatrix (se Introduktion til fordelinger med anvendelse i statistik, afsnit 0.2.1) af formen 1 ρ... ρ ρ 1... ρ E ni =(1 ρ)i ni +ρj ni =..... (5.12). ρ ρ... 1 hvor J ni er en n i n i -dimensional matrix bestående af lutter ettaller Observationssættene Y i,i=1,2,...,k kan således beskrives som k uafhængige observationer af en n i dimensional variabel Y i N ni (µ,σ 2 I ni +σb 2J n i ), Y ini 220

9 dvs at dispersionsmatricen for Y i er V i = D[Y i ]=E[(Y i µ)(y i µ) ] = σb 2 + σ2 σb 2... σb 2 σb 2 σb 2 +σ2... σb σb 2 σb 2... σb 2 +σ2 (5.13) En sådan matrix betegnes undertiden en sammensat symmetrisk matrix (eng. compound symmetric). Bemærkning 3 Kovariansstruktur for hele observationssættet Opstiller vi samtlige observationer i én søjle, organiseret efter grupper, ser vi, at den N N-dimensionale dispersionsmatrix D[Y] er V=D[Y] = Blok diag{v i } (5.14) hvor V i er givet ved (5.13) Tilsvarende finder man, at korrelationsmatricen for hele observationssættet er en N N-dimensional blokmatrix med matricerne E ni i diagonalen, og nuller udenfor, hvilket illustrerer, at observationer fra forskellige grupper er uafhængige, mens observationer fra samme gruppe er korrelerede. Bemærkning 4 Simultan fordeling af gruppegennemsnittene Vi bemærker endelig, at den simultane fordeling af gruppegennemsnittene er karakteriseret ved COV[Y i, Y h ] = { σ 2 b +σ 2 /n i for i = h 0 ellers (5.15) Detvilsige,atdekgruppegennemsnit Y i, i = 1,2,...,k er indbyrdes uafhængige, og variansen på gruppegennemsnittet, V[Y i ] =σ 2 b +σ 2 /n i = σ 2 (γ +1/n i ) omfatter både variansen på den tilfældige komponent, γ i, og residualvariansen på gennemsnittet. 221

10 En forøgelse af stikprøvestørrelsen i de enkelte grupper vil således forøge præcisionen ved bestemmelse af gruppeforventningsværdien α i,menvariationen mellem de enkelte gruppeforventningsværdier formindskes naturligvis ikke ved denne gennemsnitsdannelse. 5.4 Test af homogenitetshypotese Vi sætter som sædvanlig sak 1 = k n i (y ij y i )) 2 (5.16) i=1 j=1 y = n i y i /N (5.17) i sak 2 = k n i (y i y) 2 (5.18) i=1 (5.19) Endvidere indfører vi 1 w i (γ) = 1+n i γ (betydningen af w i (γ) fremgår af at V[Y i ] =σ 2 /w i (γ)). (5.20) Den hypotese, at de varierende forsøgsomstændigheder er uden påviselig indflydelse på observationerne, formuleres under den tilfældige model som H II : σ 2 b =0. (5.21) Hypotesen testes ved at sammenligne varianskvotienten Z = SAK 2/(k 1) SAK 1 /(N k) (5.22) med fraktilerne i en F(k 1,N k)-fordeling. Der gælder Test af homogenitetshypotese i den tilfældige mo- Sætning del 222

11 Under modellen givet ved (5.6) og (5.7) har kvotienttestet for hypotesen (5.21) det kritiske område hvor z er givet ved (5.22) C = {z z >F(k 1,N k) 1 α } I det balancerede tilfælde, n 1 = n 2 =...=n k =n,gælder Z (1 + nγ)f(k 1,N k) (5.23) Bemærkning 1 Konfidensinterval for varianskvotienten I det balancerede tilfælde, n 1 = n 2 =... = n k = n, kan man benytte (5.23) til at konstruere et konfidensinterval for varianskvotienten γ. Ved benyttelse af (5.23) finder man, at et 1 α konfidensinterval for γ, dvs. et interval (γ L,γ U ), der tilfredsstiller P[γ L <γ<γ U ]=1 α fås ved at benytte γ L = 1 n ( ) Z 1 F(k 1,N k) 1 α/2 og (5.24) γ U = 1 ( ) Z 1 n F(k 1,N k) α/2 hvor Z er givet ved (5.22). Eksempel Balancerede data, variansanalyseskema Vi udfører nu beregninger til en ensidet variansanalyse for uldballeeksemplet, og får variansanalyseskemaet Variation SAK f s 2 = SAK/f E[S 2 ] Mellem baller σ 2 +4σ 2 b Indenfor baller σ 2 223

12 Udfører vi et test for hypotesen H II : σb 2 = 0, finder vi teststørrelsen z = =1.76 < F 0.95(6, 21)=2.57 Det kan således ikke afvises - ved test på et 5 % niveau - at variationen mellem renheden af ballerne ikke overstiger den interne variation i ballernes renhed. Ønsker vi et 95 % konfidensinterval for varianskvotienten γ = σb 2/σ2 finder vi ved benyttelse af (5.24), at intervallet er bestemt som γ L = 1 ( ) ( ) = F(6, 21) = 0.11 γ U = 1 ( ) ( ) = 2.53, 4 F(6, 21) idet F(6, 21) =1/F(21, 6) Estimation af faste parametre Sætning Maksimum-likelihood estimater for parametrene under den tilfældige model Under modellen givet ved (5.6) og (5.7) er maximum-likelihood estimaterne for µ, σ 2 og σ0 2 = σ2 γ bestemt ved a) For i n2 i (y i y ) 2 <sak 1 +sak 2 fås µ = y = i n i y i /N σ 2 = (sak 1 + sak 2 )/N (5.25) og γ = 0 (5.26) b) For i n2 i (y i y ) 2 >sak 1 +sak 2 bestemmes estimaterne som løsning til µ = k n i w i ( γ)y i /W ( γ) (5.27) i=1 224

13 σ 2 = 1 k N {sak 1 + n i w i ( γ)(y i µ ) 2 } (5.28) i=1 = k n 2 i w i ( γ) 2 (y i µ) /W 2 ( γ) (5.29) i=1 { sak 1 + k n i w i ( γ)(y i µ) }/N 2 i=1 hvor w i (γ) er givet ved (5.20) og W (γ) = k n i w i (γ). (5.30) i=1 Løsningen til (5.27) til (5.29) bestemmes ved iteration. Bevis: Resultatet følger ved at betragte logaritmen til likelihoodfunktionen baseret på den marginale fordeling af observationssættet. Denne bliver - på nær en additiv konstant - l(µ, σ 2,γ) = sak 1 2σ 2 1 2σ 2 N 2 log(σ2 )+ 1 2 k n i w i (γ)(y i µ) 2 i=1 k log(w i (γ)) (5.31) Bemærkning 1 Maksimum-likelihood estimatet µ er et vejet gennemsnit af gruppegennemsnittene Vi ser af (5.27), at µ er et vejet gennemsnit af gruppegennemsnittene, y i, med estimaterne for de marginale præcisioner som vægte. Der gælder nemlig i=1 σ 2 n i w i (γ) =σ 2 /V[Y i ] V[Y i ] =σ 2 0 +σ 2 /n i = σ2 n i (1 + n i γ)=σ 2 /{n i w i (γ)} 225

14 Hvis eksperimentet er balanceret, d.v.s. n 1 = n 2 = =n k, bliver alle vægtene ens, og man får det simple resultat, at µ blot er det simple gennemsnit af gruppegennemsnittene. Bemærkning 2 Estimatet for σ 2 udnytter også variationen mellem grupper Vi bemærker, at estimatet for σ 2 ikke kun er baseret på variationen indenfor grupper, sak 1, men estimatet udnytter desuden kendskabet til variationen imellem grupper, idet nemlig E[(Y i µ) 2 ]=V[Y i ]=σ 2 /{n i w i (γ)} hvorfor leddene (y i µ) 2 indeholder information, såvel om σ 2, som information om γ. Bemærkning 3 Estimatet for σ 2 er ikke nødvendigvis centralt Vi bemærker endvidere, at - som vanligt ved ML-estimatet- er estimatet for σ 2 ikke nødvendigvis centralt. I stedet for maksimum-likelihood estimatet benytter man derfor undertiden et estimat baseret på likelihoodfunktionen svarende til fordelingen af residualerne, det såkaldte REML-estimat, svarende til at man benytter profillikelihood en (efter bortmaximering af µ 0 ) og korrigerer profillikelihood en med den observerede Fisher information for µ 0. Se fx. Pawitan [24] side 440 ff. Da estimatet således fås ved at betragte fordelingen af residualerne kaldes det et REsidual Maximum Likelihood-estimat. Nogle forfattere bruger betegnelsen Restricted Maximum Likelihood-estimat. Sætning Momentestimater (variansanalyseestimater) i den tilfældige model Under modellen givet ved (5.6) og (5.7) finder man momentestimaterne for parametrene µ 0,σ 2 og σ0 2 ved 226

15 µ 0 = Y σ 2 = SAK 1 /(N k) (5.32) σ 0 2 = SAK 2/(k 1) SAK 1 /(N k) = SAK 2/(k 1) σ 2 n 0 n 0 hvor den vægtede gennemsnitlige gruppestørrelse n 0 er givet ved n 0 = k 1 n i ( k 1 n2 i / k 1 n i) k 1 = ( )/ i N n2 i (k 1) (5.33) N Bevis: E[SAK 1 /(N k)] = σ 2 og E[SAK 2 /(k 1)] = σ 2 + n 0 σ 2 0 Bemærkning 1 Centrale estimatorer for varianskvotient i balanceret tilfælde I det balancerede tilfælde, n 1 = n 2 = =n k =n, kan vi angive eksplicitte centrale estimatorer for γ og w(γ) = 1/(1 + nγ). Der gælder w = SAK / 1 SAK2 k(n 1) k 3 og (5.34) γ = 1 { SAK2 / } SAK1 n k 1 k(n 1) 2 1 (5.35) er centrale estimatorer for henholdsvis w(γ) =1/(1 + nγ) og for γ = σ 2 b /σ2 227

16 Bevis: Følger ved at bemærke, at SAK 1 σ 2 χ 2 (k(n 1)) og SAK 2 {σ 2 /w(γ)}χ 2 (k 1) er indbyrdes uafhængige med E[SAK 1 /{k(n 1)}] = σ 2 E[{k(n 1) 2}/SAK 1 ] = 1/σ 2 E[SAK 2 /(k 1)] = σ 2 /w(γ) E[(k 3)/SAK 2 ] = w(γ)/σ 2 Bemærkning 2 Maximum-likelihood-estimater i det balancerede tilfælde I det balancerede tilfælde, n 1 = n 2 = =n k afhænger vægtene 1 w i (γ) = 1+nγ ikke af i, og (5.27) bliver k µ = y i+ /k = y ++, i=1 altså netop momentestimatet. Hvis (n 1)sak 2 >sak 1 svarer maksimum-likelihood estimatoren til et indre punkt i parameterrummet. Ligningerne (5.28) og (5.29) til bestemmelse af σ 2 og γ = σ0/σ 2 2 bliver Nσ 2 = sak nγ sak 2 med løsningen N n 1+nγ sak 2 k = sak nγ sak 2 σ 2 = sak 1 N k γ = 1 [ ] sak2 n k σ 1 2 dvs. σ 0 2 = sak 2/k σ 2 n 228

17 5.6 Estimation af de tilfældige effekter, BLUPestimation Det kan undertiden være af interesse at bestemme et estimat for de tilfældige effekter (ballemiddelværdierne). Hvis vi også opfatter de tilfældige effekter som parametre, kan vi opskrive likelihood en svarende til alle parametrene som L= 1 σ N exp L(µ 0,σ 2,γ,µ)=f(y µ)f(µ) { sak 1 + i (y } i µ i ) 2 1 exp 2σ 2 (γσ 2 ) k2/2 hvorfor vi får log-likelihood en { i (µ } i µ 0 ) 2 2γσ 2 l(µ 0,σ 2,γ,µ)= (N/2) log(σ 2 ) sak 1 + i (y i µ i ) 2 2σ 2 (k/2) log(γσ 2 ) i (µ i µ 0 ) 2 2γσ 2 Differentieres med hensyn til µ i finder vi l(µ 0,σ 2,γ,µ)= n i(y i µ i ) µ i µ, µ i σ 2 γσ 2 derernulfor ( ni µ i σ + 1 ) = n i 2 γσ 2 σ 2y i + 1 γσ 2µ 0 (5.36) Ligningerne skal løses sammen med (5.27) til (5.29) ved iteration. Det ses, at løsningen tilfredsstiller n i γ +1 µ i = n iγy i + µ 0 γσ 2 γσ 2 dvs altså µ i = n iγ n i γ +1 y 1 i+ n i γ+1 µ 0 (5.37) µ i = ( ) 1 w i (γ) y i + w i (γ)µ 0 229

18 dvs estimatet for µ i er et vejet gennemsnit mellem de individuelle gennemsnit y i og det fælles gennemsnit µ 0 med vægtene (1 w i (γ)) og w i (γ), hvor 1 w i (γ) = (5.38) 1+n i γ Løsningen kaldes den bedste lineære centrale prædiktor, BLUP (best linear predictor). For en anvendelse af dette estimat og en populær forklaring se fx Betegnelsen Best linear unbiased skyldes at estimatoren minimerer E [ ( B i E[B i ]) 2] blandt alle lineære (i observationerne) estimatorer, B i, der er centrale (unbiased) for E[B i ], dvs som opfylder E[ B i ]=E[B i ]. 5.7 Lidt mere om hierarkiske modeller Generelt Definition Apriori- aposteriorifordeling Betragt en statistisk model for observationssættet X 1,X 2,...,X n givet ved familien af tætheder {f(x 1,x 2,...,x n θ)} θ Θ (5.39) hvor Θ R k. Antag at fordelingen af X 1,X 2,...,X n for en fastholdt værdi af θ har tætheden f(x 1,x 2,...,x n θ) og antag yderligere, at parameteren θ kan opfattes som en stokastisk variabel med tætheden w(θ) Undertiden kaldes fordelingen af θ med tætheden w( ) for strukturfordelingen, eller evt. apriorifordelingen af θ. 230

19 Den betingede fordeling af θ givet X 1 = x 1,X 2 = x 2,...,X n = x n kaldes aposteriorifordelingen af θ efter observation af X 1 = x 1,X 2 = x 2,...,X n = x n. Fordelingen kan bestemmes ved Bayes sætning (5.3). I mange situationer vil det være sådan, at at X 1,X 2,...,X n er betinget uafhængige af θ i den simultane fordeling af X 1,X 2,...,X n og θ. Idesimpleste af disse vil det yderligere være sådan, at for fastholdt værdi af θ vil X 1,X 2,...,X n være uafhængige identisk fordelte gentagelser. I sådanne tilfælde gælder at den simultane fordeling af X 1,X 2,...,X n for fastholdt θ har tætheden n f(x 1,x 2,...,x n θ)= g(x i θ) (5.40) i=1 hvor g( θ) angiver tætheden for den i te observation. Sådanne tilfælde kan f.eks. være situationer, hvor parameteren θ varierer i en population i overensstemmelse med apriorifordelingen w(θ), og hvor en måling, X af θ er behæftet med en målefejl svarende til fordelingen g(x θ). Modellen (5.40) svarer da til at der foretages n uafhængige målinger X 1,X 2,...,X n af en forelagt population. Modellen (5.40) kan også beskrive en situation, hvor en proces genererer en serie af produktenheder hvor den i te produktenhed karakteriseres ved X i. De enkelte produktenheder genereres uafhængigt af hinanden i overensstemmelse med en fordeling med tæthed g(x θ), hvor parameteren θ varierer fra produktion til produktion i overensstemmelse med aprioritætheden w(θ). I begge disse situationer kan det være af interesse - ikke blot at beskrive aposteriorifordelingen af θ efter observation af en stikprøve x 1,x 2,...,x n, men også at beskrive fordelingen af fremtidige observationer fra den betragtede population. Definition Prædiktiv fordeling Lad den simultane fordeling af θ, X 1,X 2,...,X n og X 1,X 2,...,X r være sådan, at for givet θ er X 1,X 2,...,X n,x 1,X 2,...,X r er indbyrdes uafhængige og identisk fordelte med en tæthed g( θ), dvs. de variable X 1,X 2,...,X r er frembragt af det samme θ som de variable X 1,X 2,...,X n. 231

20 Antag at θ er en stokastisk variabel med tætheden w(θ). Den prædiktive fordeling af X j for givet X 1 = x 1,X 2 = x 2,...,X n = x n,er da fordelingen med tæthed g 1 (x x 1,x 2,...,x n )= g(x θ)w 1 (θ x 1,x 2,...,x n )ν{dθ} (5.41) Θ hvor w 1 (θ x 1,x 2,...,x n ) angiver aposterioritætheden af θ efter observation af X 1 = x 1,X 2 =x 2,...,X n =x n. Lad Z = r j=1 X j, og lad den betingede fordeling af Z for fastholdt θ have tætheden g (r) (z θ). Den prædiktive fordeling af Z = r j=1 X j for givet X 1 = x 1,X 2 =x 2,...,X n =x n er da fordelingen med tæthed g (r) 1 (z x 1,x 2,...,x n )= g (r) (z θ)w 1 (θ x 1,x 2,...,x n )dν{θ} (5.42) Θ hvor w 1 (θ x 1,x 2,...,x n ) som før angiver aposterioritætheden af θ efter observation af X 1 = x 1,X 2 =x 2,...,X n =x n. På tilsvarende måde defineres den prædiktive fordeling af Y = X = Z /r for givet X 1 = x 1,X 2 =x 2,...,X n =x n som fordelingen med tæthed g [r] 1 (y x 1,x 2,...,x n )= Θ g [r] (y θ)w 1 (θ x 1,x 2,...,x n )ν{dθ} (5.43) hvor g [r] (y θ) angiver tætheden i den den betingede fordeling af Y = r j=1 X j /r for fastholdt θ. Den prædiktive fordeling af X for givet x 1,x 2,...,x n er således den marginale fordeling af X svarende til at man bruger aposteriorifordelingen af θ efter observation af X 1 = x 1,X 2 = x 2,...,X n = x n. som strukturfordeling ( apriorifordeling ) af θ Aposteriorifordeling svarende til normal-normal fordeling For modellen (5.6) kan man vise, at hvis vi kender µ 0, σ 2 og γ, såerden betingede fordeling af µ i = µ 0 + u i efter observation af gennemsnittet ȳ i fra 232

21 den i te gruppe en normalfordeling (aposteriorifordelingen) med middelværdi E[µ i Y i =ȳ i ]= µ 0/σ 2 b + n iȳ i /σ 2 1/σ 2 b + n i/σ 2 altså et vejet gennemsnit af apriorimiddelværdi µ 0 og stikprøvegennemsnit, med de tilsvarende præcisioner (reciprokke varianser) som vægte. Det kan også skrives: E[µ i Y i =ȳ i ]= µ 0/γ + n i ȳ i = w n m +(1 w n ) x 1/γ + n i med w =1/(1 + nγ). Variansen i aposteorifordelingen er σ 2 apost = V[µ i Y i =ȳ i ]= 1 σ 2 b 1 + n i σ 2 = Og den er meget nemmere at gennemskue, hvis man skriver den som præcisionen 1 = 1 + n i σapost 2 σb 2 σ 2 Altså: aposterioripræcision er summen af aprioripræcision og stikprøvepræcision Eller, udtrykt ved signal/støjforhold, γ, hvorγ apriori = σb 2/σ2 og γ aposteriori = σaposteriori 2 /σ2 1 1 = + n i γ aposteriori γ apriori og µ aposteori = w n µ apriori +(1 w n )ȳ i (5.44) med w n = analogt til BLUP-estimatet (5.37). 1 1+nγ apriori 233

22 Bemærkning 1 Uddybende bemærkninger På grund af normalfordelingens udbredte anvendelse, vil vi uddybe fortolkningen af aposteriorifordelingen og den prædiktive fordeling. Vi lader x 1,x 2,...,x n betegne stikprøveresultatet fra en given gruppe (µ, σ 2 ) betegne middelværdi og varians for observationer fra den pågældende gruppe X 1,X 2,...,X r gruppe betegne observationer fra en fremtidig stikprøve fra denne Vi antager, at X 1,X 2,...,X n og X 1,X 2,...,X r for fastholdt µ er indbyrdes uafhængige N(µ, σ 2 )-fordelt med samme µ, ogatµ N(m, σb 2)medσ2 b =γσ2. Samvariationen mellem X i og X j Vi minder om, at der gælder (Sætning 5.3.1) COV[X i,x j ] = E[COV[X i,x j µ]] + COV[E[X i µ], E[X j µ]] = 0+V[µ]=σb 2 hvorfor vi har intraklyngekorrelationen 1 ρ Xi,X j = 1+σ 2 /σb 2 = γ 1+γ Samvariationen mellem X og µ Idet X =(X 1 +X X n )/n, har vi den betingede forventningsværdi og varians E[X µ]=µ; V[X µ]=σ 2 /n Den marginale forventningsværdi og varians er og kovariansen mellem X og µ er E[X] =µ 0 ; V[X]=σ 2 b +σ2 /n COV[X,µ]=E[COV[X,µ] µ]+cov[e[x µ],µ]=0+cov[µ, µ] =σ 2 b hvorfor vi har korrelationskoefficienten mellem stikprøvegennemsnit, X og gruppeparameter, µ ρ X,µ = 1 1+σ 2 /(nσ 2b ) = 1 1+1/(nγ) = 1 w n 234

23 med w n =1/(1 + nγ) For n vil ρ X,µ 1. Aposteriorifordelingen af µ givet X = x karakteriseres ved regressionen E[µ X = x] = m+(1 w n )( x m) V[µ X = x] = 1 σ2 1/σb 2 = + n/σ2 n (1 w n) For n vil E[µ X = x] x,, og V[µ X = x] 0. Samvariationen mellem X og X I modellen symboliserer X gennemsnittet af r fremtidige observationer, hidrørende fra den samme gruppe, som de allerede kendte værdier af X (d.v.s. med den samme ukendte værdi af µ ). Efter observation af X 1 = x 1,X 2 =x 2,...,X n =x n beskrives vores viden om µ ved aposteriorifordelingen af µ som beskrevet ovenfor, hvorfor den prædiktive fordeling af totalen Z + = X 1 + X 2 + +Z r er en N(rm 1,rσ 2 +r 2 σ 2 1 )- fordeling, nemlig den marginale fordeling af summen af r observationer under hensyntagen til den opdaterede viden om µ. Korrelationen mellem X og X i den simultane fordeling af X og X er ρ X,X = 1 1+σ 2 /(nσ 2b ) 1+σ 2 /(rσ 2b ) = 1 1+1/(nγ) 1+1/(rγ) = 1 wn 1 w r Den prædiktive fordeling af X svarende til X = xkan da fortolkes som regressionen af X på xi den simultane fordeling af X og Y (hvor vi har bortintegreret µ). E[X X = x] = m+(1 w n )( x m) V[X X = x] = σ2 p + 1 σ2 1/σb 2 = + n/σ2 p + σ2 n (1 w n) 5.8 I SAS SAS-INSIGHT kan ikke klare tilfældige modeller, så vi må i gang med procedurerne. 235

24 Ved GLM Eksempel Balancerede data, beregning ved SAS-proceduren GLM Betragt situationen i eksempel og antag at data er indlæst i de variable renh, balle og prove, ialt 28 observationer. SAS programmet PROC GLM ; CLASS balle prove ; MODEL renh = balle ; RANDOM balle ; RUN; definerer de variable balle og prove som klassifikationsvariable, og angiver modelformlen svarende til en balleeffekt: MODEL renh = balle Endelig i sætningen RANDOM balle ; erklæres balleeffekten som tilfældig. Programmet resulterer i følgende udskrift: General Linear Models Procedure p.1 Class Level Information Class Levels Values BALLE PROVE Number of observations in data set =

25 General Linear Models Procedure p.2 Dependent Variable: RENH Source DF Sum of Squares F Value Pr > F Model Error Corrected Total R-Square C.V. RENH Mean Source DF Type I SS F Value Pr > F BALLE General Linear Models Procedure p.3 Source BALLE Type I Expected Mean Square Var(Error) + 4 Var(BALLE) Man genfinder det sædvanlige variansanalyseskema i udskriftens p.2. (Da der kun optræder én forklarende variabel, er der ingen forskel på typeiogtype III kvadratafvigelser). Rubrikken Model refererer til kvadratafvigelsessummen sak 2 svarende til den betragtede model (som her kun indeholder faktoren Balle). Rubrikken Error refererer til variationen indenfor baller (sak 1 ). Under oversskriften RENH Mean er angivet gennemsnittet af renhedsmålingerne. Testet for hypotesen σb 2 = 0 er det samme som testet for balleeffekt i den systematiske model. Denne teststørrelse er anført såvel i variansanalyseskemaet, som på en separat linie længere nede i udskriften. Alle disse størrelser ville også blive udskrevet, selv om man ikke havde angivet specifikationen RANDOM balle. Udskriftens side 3 er et resultat af denne specifikation. Udskriften viser, at den gennemsnitlige variation hidrørende fra baller (sak 2 /(k 1)) har forventningsværdien E[SAK 2 /(k 1)] = σ 2 +4σb 2 237

26 (jvf beviset for sætning 5.5.2). Herved kan σb 2 estimeres som i eksempel Eksempel Ubalancerede data, beregning ved SAS-proceduren GLM For sætttet af ubalancerede data vil programmet PROC GLM ; CLASS balle prove ; MODEL renh = balle ; RANDOM balle ; RUN; give udskriften: General Linear Models Procedure p.2 Dependent Variable: RENH Source DF Sum of Squares F Value Pr > F Model Error Corrected Total R-Square C.V. RENH Mean Source DF Type I SS F Value Pr > F BALLE General Linear Models Procedure p.3 Source BALLE Type I Expected Mean Square Var(Error) Var(BALLE) Udskriftens struktur adskiller sig ikke fra udskriften fra de balancerede data. Vi bemærker specielt, at udskriftens side 3 viser, at den anførte gennemsnitlige variation hidrørende fra baller (sak 2 /(k 1)) har forventningsværdien E[SAK 2 /(k 1)] = σ σ 2 b 238

27 (jvf beviset for sætning 5.5.2), dvs n 0 = Idet σ 2 = /15 = får man derfor momentestimatet σ b 2 =( )/ = Mixed Proceduren er direkte rettet mod analyse af blandede normalfordelingsmodeller, dvs lineære modeller, der både indeholder systematiske og tilfældige komponenter. Proceduren kan derfor specielt benyttes til at udføre en ensidet variansanalyse i den tilfældige model. Proceduren giver mulighed for at vælge mellem maksimum-likelihood estimatorerne (Sætning 5.5.1) og estimatorer bestemt ved maksimering af likelihoodfunktionen svarende til residualerne, (REML)-estimaterne (se side 226) Eksempel Balancerede data, maksimum-likelihood estimation ved SAS-proceduren MIXED Programmet: PROC MIXED METHOD=ML ASYCOV ; CLASS balle prove; MODEL renh = ; RANDOM balle ; RUN; kalder procedure MIXED. Nøgleordet METHOD =ML angiver, at man ønsker maksimum-likelihood estimaterne, og ordet ASYCOV angiver, at man ønsker den asymptotiske varians-kovariansmatrix for estimaterne. I procedure MIXED specificeres kun de systematiske (såkaldte fixed ) effekter i modelformlen. Det eneste systematiske led i den tilfældige model for den ensidede variansanalyse er interceptleddet, som altid er underforstået i modelspecifikationen. Modelformlen bliver derfor blot MODEL renh=, der angiver, at den afhængige variable er renh. 239

28 Sætningen RANDOM balle angiver de tilfældige komponenter i modellen. Her altså blot den variable balle. Proceduren giver anledning til følgende udskrift: The MIXED Procedure Class Level Information Class Levels Values BALLE PROVE til kontrol af de indlæste specifikationer. Endvidere udskrives iterationsforløbet: The MIXED Procedure ML Estimation Iteration History Iteration Evaluations Objective Criterion Convergence criteria met. Da data er balancerede, behøves kun én iteration. Derefter udskrives estimaterne for σ 2 b og σ2 : Covariance Parameter Estimates (MLE) Cov Parm Estimate BALLE Residual

29 De to varianser σb 2 og σ2 kaldes kovariansparametre, da modellen jo er karakteriseret ved dispersionsmatricen, V, (5.14) Udskriftens første søjle Ratio angiver det estimerede forhold γ mellem variansen svarende til den tilfældige effekt og residualvariansen. I søjlen Estimate angives estimaterne σ 0 2 (svarende til BALLE) og σ2 (svarende til residualvariansen). Søjlen Z angiver σ 0 2 V[ σ 0 2] og den tilsvarende størrelse for residualvariansen. Såfremt den sande varians er nul, vil Z approximativt følge en standardiseret normalfordeling, og man kan derfor bruge Z til et approximativt test for en hypotese σb 2 = 0, og evt. også enhypoteseσ2 =0. Størrelsen Pr > Z angiver netop testsandsynligheden svarende til dette test. Hypotesen forkastes for små værdier af Pr > Z. Som en konsekvens af ordren ASYCOV udskrives: Asymptotic Covariance Matrix of Estimates Cov Parm Row COVP1 COVP2 BALLE Residual Estimatet er den inverse observerede informationsmatrix. Den inverse observerede informationsmatrix beregnes som 2 gange den inverse Hessianmatrix i maksimumspunktet. Endelig udskrives et resume af tilpasningen, The MIXED Procedure Model Fitting Information for RENH Description Value Observations Log Likelihood Akaike s Information Criterion Schwarz s Bayesian Criterion Log Likelihood

30 Vi noterer således, at værdien af log likelihood, og tilsvarende af -2 log likelihood udskrives. Disse værdier kan eventuelt bruges i mere komplicerede situationer, hvor man har en række hierarkisk organiserede hypoteser. Eksempel Balancerede data, REML estimation ved SASproceduren MIXED Såfremt vi i stedet havde benyttet residual-likelihood funktionen til estimationen ved procedurekaldet PROC MIXED METHOD=REML ASYCOV ; CLASS balle prove; MODEL renh = ; RANDOM balle ; RUN; havde vi fået estimaterne Covariance Parameter Estimates (REML) Cov Parm Estimate BALLE Residual med de tilsvarende varians-kovariansestimater: Asymptotic Covariance Matrix of Estimates Cov Parm Row COVP1 COVP2 BALLE Residual Vi ser, at REML-estimatet for σ 2 er det samme, som ML-estimatet, men REML-estimatet for σb 2 er større end ML-estimatet, svarende til at MLestimatet ikke korrigerer for frihedsgraderne i estimationen af σb

31 5.9 Empirisk Bayes estimation, BLUP estimation Bestemmelsen af aposteriorifordelingen i afsnit er baseret på en fuldt specificeret apriorifordeling. Såfremt apriorifordelingen blot afspejler beslutningstagerens subjektive tiltro til chancen for forekomst af forskellige parameterværdier, kan man naturligvis fortolke apriorifordelingen som indeholdende al tilgængelig information om aprioriusikkerheden på parameteren, men til gengæld vil aposteriorifordelingen også kun have en subjektiv fortolkning. I mange tilfælde vil apriorifordelingen imidlertid have en frekvensfortolkning, og parametrene i apriorifordelingen kan estimeres fra statistiske data, således som det er illustreret i de foregående afsnit. Det er klart, at parametrene i apriorifordelingen er behæftet med en vis estimationsusikkerhed, og man kan derfor overveje, i hvilket omfang denne estimationsusikkerhed overføres til aposteriorifordelingen. Det følger af resultatet i afsnit 5.7.2, at såfremt antallet af observationer svarende til en bestemt parameterværdi vokser mod uendeligt, da vil aposteriorifordelingen snævre sig sammen omkring denne parameterværdi, såfremt blot apriorifordelingen har tillagt positiv sandsynlighed til denne værdi. Når bare antallet af observationer svarende til en bestemt parameterværdi er stort nok, er det åbenbart ikke særlig betydningsfuldt, om apriorifordelingen er nøjagtigt bestemt, da en klassisk estimator i dette tilfælde vil give et nøjagtigt skøn over parameterværdien. For at illustrere situationen svarende til et mere begrænset antal observationer vil vi betragte den simultane estimation af gruppeparametrene i den simple normalfordelingssituation. Antag at vi har observationerne X ij,i =1,2,.., k; j =1,2..., n, hvorindex i angiver hvilken gruppe, der har frembragt observationen, og index j angiver gentagelsen indenfor gruppe. Vi antager at observationerne indenfor en gruppe er indbyrdes uafhængige og identisk fordelt, X ij θ i N(θ i,σ 2 ), 243

32 svarende til den sædvanlige model hvor ɛ ij er indbyrdes uafhængige, ɛ ij N(0,σ 2 ). X ij = θ i + ɛ ij (5.45) Vi ønsker nu at estimere de k parametre θ i ved en funktion d( ) =(d 1 ( ),d 2 ( ),...,d k ( )) af observationssættet X. Vi indfører betegnelsen L(θ,d(X)) = 1 kσ 2 k (θ i d i (X)) 2 (5.46) for den gennemsnitlige estimationsfejl, når de sande værdier er (θ 1,θ 2,...θ k ), når observationssættet antager værdien X, og man benytter estimatoren d( ) =(d 1 ( ),d 2 ( ),...,d k ( )). Vi har normeret med σ 2 for at gøre målet for estimationsfejlen invariant under skalatransformationer af X. Det er naturligt at udjævne effekten af den tilfældige variation af X for fastholdte værdier af θ ved at betragte den forventede gennemsnitlige estimationsfejl R(θ,d)=E X θ [L(θ,d(X))] (5.47) Såfremt det yderligere antages, at θ varierer tilfældigt, nemlig at θ i er uafhængige og θ i N(µ, γσ 2 ), kan man passende betragte den apriori forventede gennemsnitlige estimationsfejl i=1 η((µ, γ),d)=e θ [R(θ,d)], (5.48) der angiver den forventede gennemsnitlige estimationsfejl under hensyntagen såvel til den tilfældige variation af X som af θ. Såfremt parametrene µ, γ og σ 2 var kendt, ville man vælge en estimator, d( ) således at η((µ, γ),d) blev mindst mulig. Der gælder 244

33 Sætning Bayesløsning ved simultan estimation Lad fordelingen af observationssættet X være givet ved (5.45), hvor ɛ ij N(0,σ 2 ) er uafhængige, og θ i N(µ, γσ 2 ) er indbyrdes uafhængige og uafhængige af ɛ ij. Da antager η((µ, γ),d) sit minimum for d = d B,hvor d B i (X)= θ B i =wµ +(1 w)x i. i =1,2,...,k (5.49) med w = 1 1+nγ og X i. = n X ij /n; i =1,2,...,k (5.50) j=1 Der gælder η((µ, γ),d B )= 1 n nγ 1+nγ = 1 n (1 w) (5.51) Til sammenligning betragter vi nu den estimator, man ville benytte under modellen med systematiske gruppeeffekter, nemlig maksimum likelihood estimatoren θi ML = X i. for gruppeparameteren θ i, Der gælder d ML i (X)= θ i ML = X i. i =1,2,...,k (5.52) Sætning Aprioriestimationsfejlen for ML-estimatoren Under antagelserne fra Sætning er η((µ, γ),d ML )=R(θ,d ML )= 1 n hvor maksimum likelihood estimatoren d ML er givet ved (5.52). ML Under den systematiske model har ML-estimatoren, θ i, de egenskaber, der sædvanligvis kræves af en god estimator: estimatoren er central og variansminimal, men alligevel (eller måske netop derfor) er aprioriforventningen af den gennemsnitlige estimationsfejl større end for estimatoren θ i B. 245

34 Den stokastiske sammenhæng mellem de enkelte θ i, som er specificeret i apriorifordelingen af θ, udtrykker at parameterværdierne ikke varierer vilkårligt, men at de i gentagne stikprøver vil gruppere sig omkring µ i overenstemmelse med hyppighederne i en normalfordeling med varians γσ 2. Bayesestimatoren θ B i = wµ +(1 w) θ ML i θ ML i udnytter denne information ved at trække de fundne gruppegennemsnit ind mod tyngdepunktet µ. Det kan vises, at krympningsfaktoren, 1 w, ML er bestemt som koefficienten til θ i regressionen af θ på θ i idensimultane fordeling af θ og. Vi har nemlig θ ML i 1 w = COV[ θ, θ] V[ θ] = V[E[ θ θ]] E[V[ θ θ]] + V[E[ θ θ]] = nγ 1+nγ Det kan vises, at η((µ, γ),d B )=(1 w)η((µ, γ),d ML ) (5.53) der udtrykker, at reduktionen i den apriori forventede gennemsnitlige estimationsfejl ved at benytte Bayesestimatoren d B i stedet for maksimum likelihood estimatoren d ML er proportional med krympningsfaktoren (1 w). Jo stærkere krympning, dvs jo mindre værdi af (1 w), desto større er effekten ved at benytte Bayesestimatoren. Dette er ikke overraskende, da krympningsfaktoren (1 w) jo netop er lille, når variansen mellem parameterværdierne θ er lille i forhold til måleusikkerheden σ 2 /n ved bestemmelsen af de enkelte parameterværdier. Såfremt man ikke kender apriorifordelingens parametre (µ, γ), kan man udnytte hele observationssættet X til estimation af µ, γ og σ 2,således som det er beskrevet i afsnit 5.5. Man har µ = X.. = 1 k k X i., σ 2 = SAK 1 /{k(n 1)} i=1 med SAK 1 σ 2 χ 2 (k(n 1)) og SAK2 σ 2 (1 + nγ)χ 2 (k 1). 246

35 Idet SAK 1 og SAK 2 er uafhængige, og [ ] k 3 1 E = SAK 2 σ 2 (1 + nγ) finder vi, at [ ] σ 2 E SAK 2 /(k 3) Vi vil imidlertid indføre estimatoren σ 2 = = SAK 1 k(n 1) nγ = w. (5.54) og benytte σ 2 ŵ = (5.55) SAK 2 /(k 3) Vi bemærker, at ŵ kan udtrykkes ved den sædvanlige F -teststørrelse som ŵ = k 3 k 1 Indsættes µ og ŵ i udtrykket k(n 1) k(n 1) F. E[θ i X i. ]=wµ +(1 w)x i. for aposterioriforventningsværdien fås estimatoren d EB i (X)= θ i EB = ŵ µ +(1 ŵ)x i. (5.56) Estimatoren kaldes en empirisk Bayes-estimator, da den udnytter et estimat for apriorifordelingen baseret på den empiriske (den observerede) fordeling af X i.. Egenskaberne ved den empiriske Bayes-estimator fremgår af Sætning Apriori estimationsfejlen for den empiriske Bayesestimator Under antagelserne fra sætning er η((µ, γ),d EB )= 1 ( ) 2(k 3) 1 n {k(n 1) + 2}(1 + nγ) 247

36 Bemærkning 1 Den forventede estimationsfejl for den empiriske Bayesestimator er mindre end for maksimum likelihood estimatoren Ved sammenligning med sætning ser vi, at såfremt k>3, vil den empiriske Bayesestimator d EB have en mindre apriori forventet estimationsfejl, end maksimum likelihood estimatoren d ML. Jo mindre værdi af γ, desto større er forskellen mellem de apriori forventede estimationsfejl for de to estimatorer. Det kan iøvrigt vises, at også den forventede estimationsfejl R(θ,d EB ) < R(θ,d ML ) se f.eks. Efron og Morris (1972 a). Vi bemærker endelig, at estimatet ŵ for w ikke nødvendigvis er mindre end 1. Estimatoren d EB kan derfor forbedres ved at tvinge estimatet for w til at være mindre end 1. Der gælder således, at η((µ, γ), d EB ) <η((µ, γ),d EB ) hvor d EB fremkommer af d EB ved at erstatte ŵ med { ŵ for ŵ<1 ŵ + = 1 for ŵ 1 Eksempel Simultan estimation af ballemiddelværdier Til illustration af de foregående betragtninger vil vi betragte data fra eksempel og antage at formålet er at estimere renheden i hver af de 7 undersøgte baller. I eksemplet fandt vi sak 1 = , sak 2 = , σ 2 = sak 1 /23 = ; sak 2 /4= Ved indsættelse i (5.55) fås ŵ =5.7162/ = De 7 estimater for ballernes renhed kan da bestemmes ved (5.56). Figuren illustrererer betydningen af krympningsfaktoren w for de 7 individuelle renhedsestimater. For w = 0 føres man til at bruge de 7 individuelle ballegennemsnit, for w = 1 føres man til det fælles gennemsnit. 248

37 Ballegennemsnit x i 61 Balle 7 Balle 5 Balle 6 Balle 2 Balle 4 Balle 3 Balle ŵ Krympningsfaktor w.. Fælles gennemsnit Vi har sak 1 = , sak 2 = , σ 2 = sak 1 /23 = sak 2 /4= hvorfor ŵ =5.7162/ = BLUP I PROC MIXED I PROC MIXED beregnes de såkaldte Empiriske Best Linear Unbiased Predictors, EBLUP, for de tilfældige effekter, γ, (som i det væsentlige er empirisk Bayes estimater) ved i RANDOM sætningen at vælge optionen (efter en slash) SOLUTION, se hjælp funktionen. Man skal bare lige passe på, hvis man har flere faktorer af random effects, så man hellere læse manualen om Mixed Linear Models Flere eksempler på hierarkisk variation for normalfordelingsmodeller Som nævnt oplever man ofte at dataindsamlingen inducerer en hierarkisk variation i data. En sådan ekstra variation kan optræde som en forstyrrende effekt, eller man kan netop være interesseret i at beskrive denne effekt. I det følgende gives eksempler på begge situationer. 249

38 Analyse af blokforsøg Eksempel på forstyrrende tilfældig effekt Antag nu, at vi i balleeksemplet havde analyseret de to første prøver (nr 1 og 2) med én metode (A), og de sidste prøver (nr. 3 og 4, hvis de ellers var der) med en anden metode (B), og at hele undersøgelsen gik ud på at undersøge forskellen mellem de to metoder. Hvis nu der bare havde været en prøve med hver metode fra hver balle havde det jo været det parvise t-test fra statistik 1. Så havde vi bare beregnet differensen mellem de to prøver fra hver balle, og undersøgt om denne differens kunne tænkes at stamme fra en normalfordeling med middelværdi nul(vedett-testpå differenserne, D i N(δ, σd 2 )). Herved havde vi jo elimineret variationen mellem baller ved vurdering af differensen. (Vi havde brugt hver balle som sin egen kontrol). I forsøgsplanlægningslitteraturen siger man, at ballen udgør en blok. Datasættet uldmetode indeholder en variant af ulddatasættet, nemlig samme ubalancerede udpluk som uldopg, men nu er prøverne antaget analyseret ved to metoder, og værdierne for metode B er fremkommet ved at addere 2 til de oprindelige målinger. Programstumpen PROC MIXED DATA= uldmetode ASYCOV ; CLASS BALLE PROVE metode ; MODEL renh = metode / s ; RANDOM BALLE ; RUN; udfører en analyse svarende til modellen hvor δ k angiver metodeeffekten. Y ijk = µ 0 + u i + δ k + ɛ ijk, (5.57) Optionen s for solution i modellen for den systematiske effekt bevirker, at metodestimaterne udskrives. 250

39 Teststørrelsen bruger netop estimatet over σ 2 som nævner. Tilsvarende udføres et type-3 test for forskellen mellem metoder. I denne situation med kun to metoder giver det samme resultat, som testet for effekten af metode A. Hvis vi havde brugt flere metoder, ville type 3 testet vurdere forskellen under ét, mens testene under solution ville vurdere afvigelsen af hver metode fra referencemetoden for sig. Vi kunne også have bedt om estimaterne for balleeffekterne ved at skrive s i random sætningen PROC MIXED DATA= uldmetode ASYCOV ; CLASS BALLE PROVE metode ; MODEL renh = metode / s ; RANDOM BALLE / s ; RUN; Og vi kunne selvfølgelig også bede om de prædikterede værdier (der nu tager hensyn til den benyttede metode) PROC MIXED DATA= uldmetode ASYCOV ; CLASS BALLE PROVE metode ; MODEL renh = metode / s outp = pred ; RANDOM BALLE / s ; RUN; PROC PRINT DATA=pred; RUN; Der er mange varianter af sådanne blokstrukturer, split-plot, repeated measurements jvf hjælp siderne og bogen om PROC MIXED Varierende regressionslinier Eksempel på interessant varianskomponent I den oprindelige variant af balleeksemplet (uden de to metoder A og B) var vi netop interessseret i at beskrive den tilfældige variation σb 2 mellem baller. Datasættet ramus indeholder vi samhørende værdier af alder og ramushøjde for fem drenge. Data er udvalgte data fra Elston og Grizzle (1962). 251

40 Nedenstående tabel viser samhørende værdier af højden af kæbebenet (ramus) i [mm] og alderen i [år] hos 5 drenge i aldersgruppen 8-10 år. For hver dreng er ramushøjden registreret fire gange, nemlig ved alder 8, 8 1/2, 9 og 9 1/2 år. Tabel over samhørende værdier af ramus højde ( i mm.) og alder for 5 drenge. Alder i år 8 8 1/ /2 Dreng reduceret alder x i = alder β i1 β i A B C D E snit Data er vist grafisk i nedenstående figur 252

41 For eksemplets skyld vil vi modellere disse data med en regressionsmodel (selv om en model, der tilgodeså, at tilvæksten kun kan være positiv måske ville være mere passende). Vi formulerer modellen Y ij = β i1 + x ij β i2 + ɛ ij,i=1,2,...,5; j =1,2,3,4, hvor Y ij angiver den registrerede ramushøjde i [mm] hos den i te dreng ved den reducerede alder x ij,oghvorɛ ij antages uafhængige identisk normaltfordelte N(0,σ 2 ). 253

42 Vi har altså modelmatricen X = hvorfor (X X) 1 = med X X = ( ( Skønnene over de individuelle regressionkoefficienter β i beregnet ved β i = (X X) 1 X y i er anført i tabellen. Hvis vi kun havde været interesseret i disse fem drenge, kunne vi vælge en systematisk model med fem regressionslinier med hver sin intercept og hver sin hældning, dvs RAMUS = DRENG ALDER DRENG*ALDER og det giver da stærk mistanke om at disse fem drenge er forskellige (altså forskellige hældninger og forskellige intercepter). Men nu opfatter vi dem bare som en stikprøve af drenge, så vi vil modellere dem ved en tilfældig model. Observationssættet for den i te modelleres ved ) Y i = Xβ i + ɛ i,i=1,2,...,k hvor β i N 2 (β 0,σ 2 Γ), ɛ i N n (0,σ 2 I n ), (5.58) og hvor β i, β j er indbyrdes uafhængige for i j, ogɛ i og ɛ j er indbyrdes uafhængige for i j, og endvidere β i og ɛ j er uafhængige. Kovariansmatricen Γ angiver kovariansmatricen i populationsfordelingen af intercepter og hældninger (med målestøjen σ 2 trukket ud som en faktor. Marginal fordeling Den marginale fordeling af Y i er givet ved Y i N n (Xβ 0,σ 2 {I n +XΓX }), 254 )

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle. Modellens parametre Mandag den 25 april Hierarkiske normalfordelingsmodeller Dagens program: Resume af ensidet variansanalysemodel med tilfældig effekt estimation af tilfældige effekter, fortolkning som

Læs mere

Overdispersion, dispersionsparameter: Dagens program, Mandag den 4. april :

Overdispersion, dispersionsparameter: Dagens program, Mandag den 4. april : Overdispersion, dispersionsparameter: Dagens program, Mandag den 4. april : udvidelse til modeller med overdispersion, quasi-likelihood, dvs alle knapperne i Metode menuen Hierarkiske normalfordelingsmodeller

Læs mere

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable IMM, 00--6 Poul Thyregod Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable Todimensionale stokastiske variable Lærebogens afsnit 4 introducerede sandsynlighedsmodeller formuleret

Læs mere

2 Opgave i hierarkiske normalfordelingsmodeller

2 Opgave i hierarkiske normalfordelingsmodeller IMM, 2005-04-04 Poul Thyregod Flere rotter Datasættet Metal indeholder resultaterne fra en forsøgsserie, der havde til formål at bestemme toxiteten af et metalsalt (Nikkel). Ved forsøget benyttede man

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Noter til Specialkursus i videregående statistik

Noter til Specialkursus i videregående statistik Noter til Specialkursus i videregående statistik Poul Thyregod IMM, februar 2005 Indhold Forord 6 1 Momenter og flerdimensionale stokastiske variable 7 1.0 Indledning............................. 7 1.1

Læs mere

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k Dagens program: Likelihoodfunktion, begreber : Mandag den 4. februar Den generelle lineære model score-funktion: første afledede af log-likelihood har middelværdien nul observeret information: anden afledede

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kontinuerte fordelinger Simultane fordelinger Kovarians og korrelation Uafhængighed Betingede fordelinger - Middelværdi og varians - Sammenhæng med uafhængighed 1 Figur 1: En tæthedsfunktion

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Den todimensionale normalfordeling

Den todimensionale normalfordeling Den todimensionale normalfordeling Definition En todimensional stokastisk variabel X Y siges at være todimensional normalfordelt med parametrene µ µ og når den simultane tæthedsfunktion for X Y kan skrives

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

hvor a og b er konstanter. Ved middelværdidannelse fås videre

hvor a og b er konstanter. Ved middelværdidannelse fås videre Uge 3 Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge ) 3. Middelværdivektor, kovarians- og korrelationsmatrix 4. Summer af stokastiske variable 5.Den

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Program 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Ensidet variansanalyse: analyse af grupperede data Nedbrydningsrate for tre typer af opløsningsmidler (opgave 13.8 side 523) Sorption

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Afsnit 6.1. Ligefordelinger, fra sidst Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Lidt om fordelinger, afledt af normalfordelingen

Lidt om fordelinger, afledt af normalfordelingen IMM, 2002-10-10 Poul Thyregod Lidt om fordelinger, afledt af normalfordelingen 1 Introduktion I forbindelse med inferens i normalfordelinger optræder forskellige fordelinger, der er afledt af normalfordelingen,

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Generelle lineære mixede modeller

Generelle lineære mixede modeller Kapitel 6 Generelle lineære mixede modeller 6.0 Introduktion De hierarkiske lineære normalfordelingsmodeller, vi betragtede i det foregående afsnit, er specialtilfælde af en generel klasse af modeller,

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte

Læs mere

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med Repetition: Varians af linear kombination Landmålingens fejlteori Lektion 5 Fejlforplantning - rw@math.aau.dk Antag X 1, X,..., X n er uafhængige stokastiske variable, og Y er en linearkombination af X

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1 (a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

µ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005

µ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005 Hierarkiske generaliserede lineære modeller Lee og Nelder, Biometrika (21) 88, pp 987-16 Dagens program: Mandag den 2. maj Hierarkiske generaliserede lineære modeller - Afslutning Hierarkisk generaliseret

Læs mere

Introduktion til GLIMMIX

Introduktion til GLIMMIX Introduktion til GLIMMIX Af Jens Dick-Nielsen jens.dick-nielsen@haxholdt-company.com 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006 Dagens program Økonometri Den simple regressionsmodel 5. september 006 Den simple lineære regressionsmodel (Wooldridge kap.4-.6) Eksemplet fortsat: Løn og uddannelse på danske data Funktionel form Statistiske

Læs mere

Poul Thyregod, 2. maj Specialkursus vid.stat. foraar exp µ β/(1 + β), som netop er kernen i en Gammafordeling med formparameteren

Poul Thyregod, 2. maj Specialkursus vid.stat. foraar exp µ β/(1 + β), som netop er kernen i en Gammafordeling med formparameteren Hierarkisk model for Poisson fordeling med overdispersion Dagens program: Mandag den 2. maj Hierarkiske generaliserede lineære modeller Eksempel: hierarkisk Poissonfordelingsmodel Eksempel: hierarkisk

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning Fejlforplantning Landmålingens fejlteori Lektion 5 Fejlforplantning - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf13 Landmåling involverer ofte bestemmelse af størrelser som ikke kan

Læs mere

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,

Læs mere