III ÜLDINE LINEAARNE MUDEL

Relaterede dokumenter
Wilcoxoni astaksummatest (Wilcoxon Rank-Sum Test )

PUUDE LOENDAMINE. Teema 7.3 (Lovász: Ch 8) Jaan Penjam, Diskreetne Matemaatika II: Puude loendamine 1 / 55

Analüütiline geomeetria

ÕPIOBJEKT Binaarsete tunnuste analüüsimeetodid

5. TERMODÜNAAMIKA ALUSED

Arvu mõiste kujunemise alused

TARTU RIIKLIK ÜLIKOOL MATEMAATILISE ANALÜÜSI PRAKTIKUM

Üldinfo. Me teeme elu kasutajate jaoks lihtsamaks, arendades pidevalt töökindlaid ja pika elueaga süsteeme.

Lisakonstruktsioonid geomeetrias

Optimeerimine. Pidu, silindrilkäik ja pank. Lauri Tart

POOLJUHTIDE F00S1KA ALUSED

Peatükk 1. Arvuteooria

PHP II. Ivari Horm Ivari Horm,

ANALÜÜTILISE GEOMEETRIA PRAKTIKUM

Uus pärimisseadus: vastuvõtusüsteem vs loobumissüsteem muinasajast tänapäeva

DVD loomise tarkvara võrdlemine

6. Peatükk. KEEMILISE SIDEME OLEMUS. MOLEKULIDE MOODUSTUMINE

EESTI VABARIIGI ÜLEMNÕUKOGU XII KOOSSEISU 78., ERAKORRALINE ISTUNGJÄRK

21. TÕRV Ajalugu, valmistamine ja kasutamine.

Voltmeetri sisendtakistus on ideaaljuhul väga suur: R sis Voltmeetrit võib lülitada pinge mõõtmiseks paralleelselt mistahes vooluringi osaga.

Vi sætter. (Signal støj- forhold) Poul Thyregod, 25. april Specialkursus vid.stat. foraar Lad Y i angiver observationer fra i te udtagne balle.

Rüdiger Dorn. Spela till sista tärningen!

ELEMENTAARMATEMAATIKA

8. Peatükk. AINETE AGREGAATOLEKUD. VEDELIKUD

Haigekassa lepingupartnerite rahulolu

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

VÕLAKIRJA TINGIMUSED. võlakiri nr Aktsiavõlakiri Euroopa 2012

8. Peatükk. VEDELIKUD

M45, M60, M80 M45E, M60E, M80E, M90E

Procedure 2(b) (obvious errors in a number of language versions)

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

SISSEJUHATUS ORGAANILISSE KEEMIASSE

Hvorfor bøvle med MIXED

Rakenduspedagoogika opik

Lugeda tuleb kõikjal ja nähtavalt

Module 12: Mere om variansanalyse

TALLINN A. H. Tammsaare tee 116, Pärnu mnt 69, Tartu mnt 63 TARTU Rüütli 11, Riia 9 PÄRNU Hospidali 3 NARVA Energia 2

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

5. RÕHK JA ÜLESLÜKKEJÕUD

PAKENDI INFOLEHT: INFORMATSIOON KASUTAJALE. Clopidogrel HEXAL 75 mg õhukese polümeerikattega tabletid Klopidogreel

Module 4: Ensidig variansanalyse

3. ENERGIA JA SOOJUSHULK

11. KONDENSEERITUD AINE

A.-S. OSKAR KILGAS TRIKO0-, PITSI- JA SUKAVABRIK TALLINN, VOLTA TÄN. 3. TEL.: KONTOR LADU

Euroopa. Infovihik noortele

Vejledning for montering og vedligehold

tähelepanuväärset naist elvi reiner ja Mai Sipelgas

ELEKTROONIKA KOMPONENDID

ISC0100 KÜBERELEKTROONIKA

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Lembitu vaim : õppida.


MESINIK MESINDUSE INFOLEHT. Trükise väljaandmist toetab Euroopa Liit Eesti Mesindusprogrammi raames

Kvantitative metoder 2

1. VIHIK. Materjalid ja nende omadused ning üldised nõuded müürile ja müüritöödele. AS Columbia-Kivi Vana-Kastre Tartu maakond

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Detecting variance-controlling genes

Töö Nr. 6. Vee hapnikusisalduse, elektrijuhtivuse ja ph määramine. (2013.a.)

ZUBRIN NÜÜD ON VALU LEEVENDAMISEKS KAKS TEED

ORGAANILINE KEEMIA II osa

Eesti Muusikaakadeemia kontserdid veebruaris 2003

اقرأ EESTI MOSLEMITE KUUKIRI. juuni 2013 / RAŽAB ŠABAAN 1434

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Tingimus Põhjus +/- Kaugemal Maa kuumast tuumast - Õhuke atmosfäärikiht + Päike on lähemal -

Asabitsüklilised ühendid valu leevendamiseks ja kesknärvisüsteemi häirete ravimiseks

Module 9: Residualanalyse

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Mart Kuurme FÜÜSIKA TÖÖVIHIK. 8. klassile. Fyysika TV 8. klassile.indd , 10:59:49

Õpetaja kui teadmiste edastaja, terapeut ja ämmaemand

Kui räägitakse töökohtade loomisest siis tekib mul küsimus miks peaks keegi tegema oma tootmisüksuse Vigalasse?

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Overdispersion, dispersionsparameter: Dagens program, Mandag den 4. april :

Module 3: Statistiske modeller

Andres Lahe. Ehitusmehaanika. Varrassüsteemi mehaanika. b x k l/2 l. Tallinn 2003

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

PAKENDI INFOLEHT: INFORMATSIOON KASUTAJALE. PRADAXA 75 mg kõvakapslid PRADAXA 110 mg kõvakapslid dabigatraaneteksilaat

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Simpel Lineær Regression: Model

KOLMAPÄEV, 10. NOVEMBER 2010

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

I KOHALEJÕUDMINE TERMOPÜÜLID. Termopüülid Delfi Atika Maraton

FÜÜSIKA AINEKAVA gümnaasiumi 10. klassile

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Kasutusjuhend NIBE F1226

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

k normalfordelte observationsrækker (ensidet variansanalyse)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

MODALVERBERNE SKULLE OG MÅTTE I SKØNLITTERÆR OVERSÆTTELSE FRA DANSK TIL ESTISK

Linear regression. Statistical modelling. Gilles Guillot. September 17,

See auto võiks olla päriselt sinu!

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

KA VUHOONE EASY-UP 2x6 KARKA I KOKKUPANEKU JUHEND

2 Opgave i hierarkiske normalfordelingsmodeller

APPENDIX B Member States' specific guidelines on Cost Contribution Arrangements

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Transkript:

VL.09 Loomade aretusväärtuse hindamine ja aretusprogrammid III ÜLDINE LINEAARNE MUDEL 3. PÕHIMÕISED Üldise lineaarse mudeli rakendamiseks jagatakse registreeritud tunnused kahte ossa uuritavateks e sõltuvateks tunnusteks (need, mille käitumine huvi pakub) ja argument- e sõltumatuteks tunnusteks e faktoriteks (need, mille mõju uuritavatele tunnustele soovitakse selgitada). Definitsiooni kohaselt on üldine lineaarne mudel (inglise keeles general linear model, GLM) uurija poolt eeldatav faktorite ja uuritavate tunnuste vahekorra üldskeem (mudel), mille detailid tuleb hinnata algandmetest (valimist). Üldise lineaarse mudeli alusel tehtud järeldused on õiged kui a) uuritav mudel vastab tegelikkusele on õigesti paika pandud faktorite olemus ja vahekord; b) kehtivad vajalikud matemaatilised eeldused (normaaljaotus, vaatluste sõltumatus jm). änu oma lihtsusele ja tõsiasjale, et faktorite (ja nende funktsioonide) mõjude lineaarne kombinatsioon vastab ligilähedaselt tegelikkusele paljudel reaalsetel analüüsidel ning sobib lähendama lineaarsest märksa keerulisemaid funktsioone, on üldine lineaarne mudel tänapäeva eluteadustes enim rakendatav matemaatilise statistika meetod. Iga üldise lineaarse mudeli püstitamine eeldab kolme asja mudeli esitust faktorite mõjude summana, uuritava tunnuse ja faktorite keskväärtuste ning dispersioonimaatriksite struktuuri fikseerimist vastavalt andmestiku ülesehitusele ja faktorite olemusele, ning tõenäosusjaotuslike eelduste tegemist mudeli liikmete kohta võimaldamaks määrata hinnangute täpsust ja kontrollida hüpoteese. 3. ÜLDISE LINEAARSEE MUDELIE JA FAKORIE LIIGIUS 3.. Diskreetsed ja pidevad faktorid Faktortunnuse erinevaid väärtusi nimetatakse tasemeteks e nivoodeks (inglise keeles levels). Iga faktor jaguneb vastavalt oma tasemete iseloomule diskreetseks või pidevaks, arvuliseks (kvantitatiivne) või klassifitseerivaks (kvalitatiivne). Näiteks on lehma sünniaasta, laktatsioon jne diskreetsed arvulised faktorid; farm tasemetega (väärtustega) 'Vorbuse', 'Ülenurme' jne on diskreetne klassifitseeriv faktor; laktatsiooni pikkus, piimatoodang, pekipaksus jne (mõõdetud tunnused) on aga pidevad faktorid. Üldine lineaarne mudel on dispersioonanalüüsi, regressioonanalüüsi või kovariatsioonanalüüsi mudel vastavalt sellele, kas faktorid on diskreetsed, pidevad või esineb mõlemaid. 3.. Faktorite vahekord mudelis Faktorid on lihtsad ja tuletatud. Lihtsate faktorite väärtused on vahetult mõõdetud või registreeritud, tuletatud faktorid moodustatakse lihtsatest. üüpilised tuletatud faktorid on interaktsioonid e. koosmõjud ning arvuliste faktorite korrutised. Näiteks on farm, isa ja laktatsiooni pikkus lihtsad faktorid; farm*isa (koosmõju) ja laktatsioon*laktatsioon (arvulise faktori kõrgem järk) aga tuletatud faktorid. Praktikas on faktorite vahel sageli ka alluvusseosed. Faktor A allub faktorile B, kui A iga nivoo (tase) esineb koos vaid ühe B nivooga (joonis 3.). Näiteks võime me tavaliselt lugeda farmi allutatuks maakonnale; kui iga ema on ristatud kindla isaga, on ema allutatud isale. Faktorid A ja B on ristseoses, kui A iga nivoo kombineerub (saab põhimõtteliselt kombineeruda) B kõigi nivoodega (joonis 3.). anel Kaart EMÜ VL tanel.kaart@emu.ee 008

3. Üldine lineaarne mudel Näiteks kui viiel aastal on uuritud pullide tütarde jõudlusandmeid ja igal pullil on igal aastal tütreid, on pull ja aasta ristseoses; kui aga igal aastal on valitud uued pullid, allub pull aastale. B B A Joonis 3.. Alluvusseoses faktorid A Joonis 3.. Ristseoses faktorid 3..3 Juhuslikud ja fikseeritud faktorid Sõltuvalt uurija eesmärkidest ja analüüsitavatest andmetest omistatakse igale faktorile kindel tüüp juhuslik või fikseeritud. Fikseeritud faktoril on: a) vähe nivoosid, b) iga nivoo pakub iseseisvat huvi ja on valitud mittejuhuslikult, c) andmetes on või saavad põhimõtteliselt olla esindatud kõik nivood. Seetõttu käsitletakse fikseeritud faktorite tasemetele vastavaid efekte kui konstante. Juhuslikul faktoril on a) potentsiaalselt väga palju (lõpmatu hulk) nivoosid, b) andmetes on neist esindatud juhuslik valim, c) huvi pakub kõigi (ka andmetes esindamata) nivoode keskmine mõju e see, kui suur osa uuritava tunnuse koguvarieeruvusest on kirjeldatud antud faktori poolt. Juhuslike faktorite tasemetele vastavaid efekte käsitletakse kui mingi teoreetilise jaotusega juhuslike suuruste realiseerunud väärtusi, kus selle teoreetilise jaotuse näol mõistetakse üldjuhul normaaljaotust. Näiteks, kui andmestik sisaldab kümne spetsiaalselt valitud isaslooma järglaste andmeid, loetakse isa mõju (faktor isa ) fikseerituks, kuna me soovime võrrelda just antud isasid ega soovi teha järeldusi teiste isade kohta. Kui aga huvi pakub isa kui geneetilise faktori üldine mõju ja järglased on valitud juhuslikult, siis loetakse isa mõju juhuslikuks. See, kas faktor on juhuslik või fikseeritud, ei kajastu mudeli võrrandis, küll aga sõltuvad sellest mudeli liikmete keskväärtused ja dispersioonid ning seeläbi ka mõjude hinnangud ja nende statistiline olulisus. Vastavalt sellele, kas üldine lineaarne mudel sisaldab üksnes fikseeritud faktoreid, üksnes juhuslikke faktoreid või siis mõlemaid, nimetatakse kasutatavat mudelit kas fikseeritud mudeliks (fixed model), juhuslikuks mudeliks (random model) või segamudeliks (mixed model). Aretusväärtuste ja teiste geneetiliste parameetrite hindamisel rakendatakse just viimast. 3..4 asakaalus ja mittetasakaalus andmed (mudelid) asakaalus (balanced) andmed on sellised, kus kõigil faktorite ja nende kombinatsioonide tasemetel on sooritatud võrdne arv mõõtmisi/vaatlusi/vmt. Mittetasakaalus (unbalanced) andmed on sellised, kus vastupidiselt tasakaalulisele juhule ei vasta kõigile faktorite tasemetele võrdne arv objekte. Andmete mittetasakaalulisus tähendab vähegi keerulisema struktuuriga mudelite puhul ligikaudsete arvutusmeetodite kasutamist, mistõttu tulemused ei olla enam ühesed.

VL.09 Loomade aretusväärtuse hindamine ja aretusprogrammid Näide 3.. Järgnevalt toodud andmetabeleist esimene kujutab tasakaalus ja teine mittetasakaalus andmestikku. Esimeses on mõlemast majandist ühepalju eesti holsteini ja eesti punast tõugu lehmi, lisaks on ühepalju kõikvõimalikke majandite, tõugude ja laktatsioonide kombinatsioone. eise andmestiku korral pole enamus nimetatud tingimustest täidetud. asakaalus andmed Mittetasakaalus andmed Farm õug Laktatsioon Farm õug Laktatsioon Põlula EHF Põlula EHF Põlula EHF Põlula EHF Põlula EHF 3 Põlula EPK Põlula EPK Põlula EPK Põlula EPK Põlula EPK Põlula EPK 3 Põlva EHF Põlva EHF Põlva EHF Põlva EHF Põlva EHF Põlva EHF 3 Põlva EHF 3 Põlva EPK Põlva EPK Põlva EPK Põlva EPK 3 Põlva EPK 3 3.3 ÜLDISE LINEAARSE MUDELI ESIUSED 3.3. Mudeli esitus objektiviisi Mudeli objektiviisi esitamisel avaldatakse igal objektil mõõdetud väärtus üldkeskmise (nn vabaliikme), objektile vastavate mõjude ja konkreetse objekti omapära e faktoritega kirjeldamata jääva osa summana. Kasutatakse selleks indeksite abi: igale faktorile omistatakse põhiindeks (harilikult i, j, k, l, ), mis näitab iga objekti kohta just temale omase faktori taseme mõju, peale selle tähistab üks lisaindeks objekti (mõõtmist) ennast. Faktorite koosmõjude korral kirjutatakse indeksiks mõlema faktori indeksid, allutatud faktorite puhul tuuakse tavaliselt faktori enese põhiindeksi järel sulgudes ära kõigi nende faktorite indeksid, millele antud faktor allub. Näide 3.. Uuritavaks tunnuseks on tallede võõrutusmass ja analüüsi eesmärgiks on võrrelda ühes lambafarmis kasutatud kahte isa. Objektiivsemate tulemuste huvides soovitakse arvestada ka talle soo, pesakonna suuruse ja ema vanuse kui diskreetsete faktorite ning võõrutusvanuse kui pideva faktori mõjudega. Andmed on kirjas järgnevas tabelis. Sugu Pesakonna Ema Võõrutusmasvanus kood Võõrutus- Isa suurus vanus 3 8 9 05 7 39 90 05 6 4 86 05 8 5 0 05 6 4 86 05 3 3 7 07 4 30 5 07 3 3 0 07 3 6 07 07 Üldise lineaarse mudeli võib toodud ülesande püstituse korral esitada järgmiselt: yijklm = µ + Ii + S j + Pk + El + b * vijklm + eijklm, (3.) anel Kaart EMÜ VL tanel.kaart@emu.ee 008 3

3. Üldine lineaarne mudel kus parameetrit µ võib mõista kui nö keskmist tallede 00 päeva kehamassi (mis siiski ei pruugi võrduda aritmeetilise keskmisega, sest on tegelikult faktorite keskmine mõju); y ijklm tähistab objektil m sooritatud mõõtmist e antud juhul m. talle 00 päeva kehamassi (ülejäänud indeksid fikseerivad täpselt ära vaatlusaluse talle isa, sünniaasta jne), m =,...,9 ; I i tähistab isa i mõju, i = 05,07 ; S j märgib soo j mõju, j =, ; P k on pesakonna suuruse k mõju, k =,,3 ; E l on ema vanuse l mõju, l = 3,4,6,7,8 ; v ijklm tähistab konkreetse talle võõrutusvanust ja b on võõrutusmassi lineaarset sõltuvust võõrutusvanusest iseloomustav regressioonikordaja; e ijklm on talle m omapära (e juhuslik viga). 3.3. Üldine lineaarne mudel maatrikskujul Üldiste lineaarsete mudelite maatrikskujul esitamiseks kasutatakse eriliste maatriksite abi, mis seostavad iga objekti just temal sooritatud mõõtmistega või temale vastava faktori tasemega. Selliseid maatrikseid, mille ridade arv võrdub uuritud objektide arvuga ja veergude arv mudelist hinnatavate efektide arvuga, nimetatakse plaani- e disainimaatriksiteks. Regressioonivõrrand kirja panduna objekti i kohta, näeb maatrikskujul esitatuna välja järgmiselt kus y = ( y y yn) ja e = ( e e en) on vastavalt funktsioontunnuse väärtuste ja prognoosi- β = ( µ b) on hinnatavate parameetrite vektor ja plaanimaatriks X = ( x x xn) vigade vektorid, yi = µ + bxi + ei, y = Xβ + e, (3.) sisaldab ühte veergu kummagi hinnatava parameetri tarvis esimene, ühtedest koosnev veerg tähendab, et kõigil objektidel mõõdetud uuritava tunnuse väärtusi püütakse prognoosida sama keskmise µ abil, teine, argumenttunnuse väärtusi sisaldav veerg seob igal objektil mõõdetud uuritava tunnuse väärtuse läbi kordaja b just temale vastava argumenttunnuse väärtusega. Dispersioonanalüüsi korral koosneb plaanimaatriks vaid nullidest ja ühtedest mingile objektile vastavas reas ja faktori tasemele vastavas veerus on, kui mõõtmine antud objektil on sooritatud just sellel tasemel, ja 0 vastupidisel juhul. Näiteks ühefaktorilise dispersioonanalüüsi mudel on maatriksite abil esitatav kujul y = Xβ + e <=> y = µ + α + e ij i ij y µ n 0 0 e α y 0 n 0 e = α +. y n 0 0 nq e n α q Siin n i tähistab faktori i-ndale tasemele vastavate objektide arvu, q on faktori tasemete arv ( i =,..., q ), ni on ühtedest koosnev i n -vektor: ni = ( ), ja 0 on sobiva dimensiooniga nullidest koosnev ni tk vektor. Kovariatsioonanalüüsi mudel, milles on nii mittearvulisi kui ka arvulisi faktortunnuseid, sisaldab plaanimaatriksis nii nulle ja ühtesid sisaldavaid veerge kui ka pidevate argumenttunnuse väärtusi. Seega kujutab üldise lineaarse mudeli maatriksesitus enesest tavalise lineaarvõrranditesüsteemi maatriksesitust (vt pt..6), kus kordajate maatriksi rollis on plaanimaatriks, tundmatud parameetrid on koondatud vektorisse β ja vabaliikmete veerg moodustub vahest y e. 4

VL.09 Loomade aretusväärtuse hindamine ja aretusprogrammid Näide 3.3. Paneme näite 3. mudeli (3.) kirja ka maatrikskujul (3.). Vektor y on tallede võõrutusmasside vektor kujul y = ( 39 4 5 4 3 30 3 6). Plaanimaatriks X sisaldab ühte rida iga vaatluse ja ühte veergu iga vektoris β kirjas oleva mudeli parameetri kohta. Paneme esmalt kirja hinnatavate parameetrite vektori β, mis sisaldab 4 elementi (parameetrite tähistused on üle võetud sama mudeli objektiviisi esitusest): β = ( µ I05 I07 S S P P P3 E3 E4 E6 E7 E8 b) Plaanimaatriks X, mis seob iga vaatluse just temale vastava faktori tasemega või väärtusega, näeb praeguse tallede järjestuse korral välja järgmine: 0 0 0 0 0 0 0 0 9 0 0 0 0 0 0 0 0 90 0 0 0 0 0 0 0 0 86 0 0 0 0 0 0 0 0 0 X = 0 0 0 0 0 0 0 0 86 (3.3) 0 0 0 0 0 0 0 0 7 0 0 0 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 07 (parema jälgitavuse huvides on erinevatele faktoritele vastavad blokid eraldatud püstjoontega). Juhuslike vigade vektor on kujul e = ( e e e3 e4 e5 e6 e7 e8 e9). Näitamaks, et eelnevalt defineeritud plaanimaatriks tõepoolest iga talle võõrutusmassi just temale vastavate faktorite tasemetega seob, asendame kõik väljakirjutatud vektorid ja maatriksid mudelisse (3.) ning sooritame korrutustehte Xβ. ulemuseks saame maatriksvõrduse µ + 05 + + 3 + 8 + *9 39 µ + I05 + S + P + E7 + b*90 4 µ + I05 + S + P + E6 + b*86 5 µ + I05 + S + P + E8 + b*0 4 = µ + I05 + S + P + E6 + b *86 3 µ + I07 + S + P + E3 + b*7 30 µ I07 S P E4 b*5 3 6 I S P E b e e e3 e4 + e 5. e 6 + + + + + e7 µ + I07 + S + P + E3 + b*0 e8 µ + I07 + S + P + E3 + b*07 e9 3.3.3 Üldine lineaarne segamudel maatrikskujul Juhul, kui üldine lineaarne mudel sisaldab nii fikseeritud kui ka juhuslikke faktoreid (tegu on segamudeliga) esitatakse need eraldi liidetavatena jagades kaheks nii hinnatavate parameetrite vektori kui ka plaanimaatriksi: y = Xβ + Zu + e, (3.4) siin β ja u tähistavad vastavalt fikseeritud ja juhuslike efektide vektoreid ning X ja Z vastavaid plaanimaatrikseid. Näide 3.4. Oletame nüüd, et näites 3. vaadeldud jäärade alusel soovitakse iseloomustada isa kui geneetilise faktori üldist mõju ning konkreetsed jäärad on valimisse sattunud juhuslikult. Sellisel juhul tuleb isa mõjusid käsitleda juhuslike efektidena ning mudeli võib välja kirjutada valemi (3.4) alusel: anel Kaart EMÜ VL tanel.kaart@emu.ee 008 5

3. Üldine lineaarne mudel µ 0 0 0 0 0 0 0 9 S 0 e S 39 0 0 0 0 0 0 0 90 0 e 4 0 0 0 0 0 0 0 86 P 0 e3 5 0 0 0 0 0 0 0 0 P 0 e4 4 0 0 0 0 0 0 0 86 P 3 I05 = + 0 + e 5. (3.5) 3 0 0 0 0 0 0 0 7 3 07 E 0 I e 6 4 30 0 0 0 0 0 0 0 5 E u 7 0 e E6 3 0 0 0 0 0 0 0 0 0 e8 E7 6 0 0 0 0 0 0 0 07 0 9 8 e E y X b Z e β 3.4 KESKVÄÄRUSED JA DISPERSIOONID Üldise lineaarse mudeli esituse teine osa seisneb mudeli juhuslike liikmete keskväärtuste ja dispersioonimaatriksite defineerimises (et fikseeritud mõjusid käsitletakse konstantsetena, ei ole nende keskväärtuste ja dispersioonide leidmisel mõtet vt keskväärtuse ja dispersiooni omadused, punkt..). Igas lineaarses mudelis on vähemalt kaks juhuslikku liiget (mis eeldatakse traditsiooniliselt käituvat vastavalt normaaljaotuse seaduspäradele) uuritav tunnus, kui populatsiooni juhuslikul väljavõtul (valimil) sooritatud mõõtmiste tulemusi koondav suurus, ja juhuslik viga. Juhul, kui mudel sisaldab faktoritena üksnes fikseeritud mõjusid, on need kaks ka mudeli ainsad mittekonstantsed ja seega mittenullilist dispersiooni omavad suurused. On loomulik eeldada, et juhuslike vigade keskväärtus võrdub nulliga: E( e) = 0. Uuritava tunnuse keskväärtus avaldub fikseeritud mudeli (3.) korral kujul E( y) = E( Xβ + e) = E( Xβ) + E( e) = Xβ ja dispersioonimaatriks võrdusena var( y) = var( Xβ + e) = var( Xβ) + var( e) = var( e) Segamudeli (3.4) korral tuleb arvesse võtta ka juhuslike efektide keskväärtust ja varieeruvust. Analoogselt juhuslike vigadega on ka juhuslike faktorite puhul loomulik eeldada nende keskmiste mõjude nulliga võrdumist: E( u) = 0, mistõttu uuritava tunnuse keskväärtus jääb endiselt määratuks üksnes fikseeritud mõjude poolt: E( y) = E( Xβ + Zu + e) = E( Xβ) + E( Zu) + E( e) = Xβ. Dispersioonide defineerimisel tuleb arvestada ka juhuslike mõjude varieeruvusega, mistõttu var( y) = var( Xβ + Zu + e) = 0 + var( Zu) + var( e) cov( Zu, e ) = Z var( u) Z + var( e) 0 Eelnevas võrduste reas on eeldatud, nagu üldiste lineaarsete mudelite teoorias tavaks, et faktorite mõjud ja juhuslikud vead on sõltumatud: cov( u, e ) = 0. uues sisse tähistused V = var( y ), G = var( u ) ja R = var( e ) saame segamudeli (3.4) keskväärtused ja kovariatsioonistruktuuri määrata maatriksitena ja y Xβ E u = 0 e 0 0. (3.6) (3.7) y ZGZ + R GZ R var u = ZG G 0. (3.8) e R 0 R raditsioonilises segamudelis eeldatakse, et nii kõik objektid kui ka kõik juhuslikud efektid on omavahel sõltumatud, mistõttu on nii jääkdispersioonimaatriks R kui ka juhuslike efektide dispersioonimaatriks G diagonaalmaatriksid: 6

VL.09 Loomade aretusväärtuse hindamine ja aretusprogrammid R = I σ, (3.9) G = I aσ u, (3.0) siin n tähistab uuritavate objektide arvu ja a juhusliku faktori tasemete arvu (enam kui ühe juhusliku faktori korral on maatriks G blokkdiagonaalne igale faktorile vastab tema tasemete arvule vastava dimensiooniga diagonaalmaatriks). Dispersioone σ e ja valemeis (3.9) ja (3.0) nimetatakse dispersioonikomponentideks (variance components), sest nad kujutavad enesest vaatluste dispersiooni komponente: var( yi) = σu + σ e. n e Näide 3.5. Paneme kirja mudeli (3.5) kovariatsioonimaatriksid (isade mõjusid käsitleme juhuslike efektidena). Vastavalt valemitele (3.9) ja (3.0) saame, et σ e 0 0 0 0 0 0 0 0 0 σ e 0 0 0 0 0 0 0 0 0 σ 0 0 0 0 0 0 e 0 0 0 σ e 0 0 0 0 0 var( e) = R = 0 0 0 0 σ e 0 0 0 0, 0 0 0 0 0 σ 0 0 0 e 0 0 0 0 0 0 e σ 0 0 0 0 0 0 0 0 0 σ e 0 0 0 0 0 0 0 0 0 σ e Valemist (3.8) järeldub, et var ( y) = V = ZGZ + R, seega 0 var( u σ u ) = 0. (3.) 0 σ e 0 0 0 0 0 0 0 0 0 0 σ e 0 0 0 0 0 0 0 0 0 0 σ 0 0 0 0 0 0 e 0 0 0 0 σ e 0 0 0 0 0 σ 0 0 0 0 0 u V = 0 0 0 0 0 0 + 0 0 0 0 σ e 0 0 0 0 0 0 0 0 0 0 0 σ e 0 0 0 0 0 0 0 0 0 0 σ e 0 0 0 0 0 0 0 0 0 0 σ e 0 0 0 0 0 0 0 0 0 0 σ e σ + σ σ σ σ = + 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 e u u u u σ e + σ e + σ e + 0 0 0 0 0 σ e 0 0 0 0 σ e + 0 0 0 0 σ e + 0 0 0 0 σ e + 0 0 0 0 σ e + Viimasest maatriksist ilmneb ka, et vaatluste dispersioonid esituvad summana var( yi) = σu + σ e ja kovariatsioonid kujul σ u, kui i j ja loomad i ja j on sama isa järglased, cov( yi, y j) = 0, kui i j ja loomad i ja j on erinevate isade järglased. Märkus: käsitledes isade mõjusid fikseeritutena, avaldub vaatluste dispersioonimaatriks seosena (3.6), millest omakorda järeldub, et var( yi) = σ e ja cov( yi, y j) = 0, kui i j.. anel Kaart EMÜ VL tanel.kaart@emu.ee 008 7

3. Üldine lineaarne mudel 3.5 EELDUSED JA KISENDUSED 3.5. Jaotused Üldiste lineaarsete mudelite analüüsil eeldatakse uuritava(te) tunnus(t)e jaotumist vastavalt normaaljaotuse seaduspäradele (pt.3.). Matemaatiliselt väljendudes tähendab see, et vektor y on normaaljaotusega keskväärtusega Xβ ja dispersioonimaatriksiga V: y ~ N( Xβ, V ). aolise eelduse puhul on garanteeritud, et vähimruutude printsiibil (pt.4.) leitud efektide hinnangud on tõepoolest väikseima varieeruvusega, osutub võimalikuks faktorite mõjude täpsuse ja statistilise olulisuse kontrollimine (F-test dispersioon- ja regressioonanalüüsil) ning suurima tõepära meetodi (pt.4.) rakendamine dispersioonikomponentide ja seeläbi ka päritavuse ja geneetiliste korrelatsioonide hindamiseks. 3.5. Kovariatsioonistruktuur raditsioonilisel üldiste lineaarsete mudelite analüüsil (nagu näiteks ka tavalise regressioon- ja dispersioonanalüüsi korral) eeldatakse dispersioonimaatriksite diagonaalset kuju. Segamudelite tarvis on selline lihtne kovariatsioonistruktuur defineeritud seostega (3.9) ja (3.0). Et aga tegelikkus (uuritava(te) tunnus(t)e varieeruvus) sageli nii triviaalselt kirjeldatav pole, leiab reaalsete andmete analüüsil kasutust suur hulk rohkem või vähem keerukaid dispersioonistruktuure, mis on faktorite mõjude ja juhuslike vigade sõltumatuse eeldusel kokkuvõtvalt esitatavad dispersioonimaatriksina (3.8). Fikseeritud mudelite puhul on levinuimad kõiksugu korduvate mõõtmiste analüüsi mudelid, kus püütakse arvesse võtta ühel ja samal objektil sooritatud mõõtmistele vastavate mudeli jääkide korrelleeritust. Näide 3.6. Olgu meil uuritavaiks objektideks lehmad, kellel kõigil on fikseeritud esimese kolme laktatsiooni piimatoodangud (väljavõte andmetabelist ID Lakt. Piim, kg on toodud teksti paremas servas). 3396 49 Ükskõik, milliste faktortunnuste mõju me ka uurida tahame, on loomulik eeldada, et sama lehma piimatoodangud ei ole sõltumatud. Mudelisse saab viimase kirja panna jääkdispersiooni- 3396 3 660 3396 5857 maatriksi R struktuuri abil, kus endiselt vastab kõigile vaatlustele juhuslike vigade dispersioon σ e, aga lisaks võib 3990 3990 306 3934 defineerida (ja lasta arvutil ka andmetest hinnata) samale loomale vastavate mudeli jääkliikmete vahelist varieeruvust peegeldava dispersioonikomponendi σ, misjärel jääkdispersioonimaatriks esitub kompaundsümmeetrilisel kujul σ e + σ σ σ 0 0 0 σ σ e + σ σ 0 0 0 σ σ σ e + σ 0 0 0 R = 0 0 0 σ e + σ σ σ. 0 0 0 σ σ e + σ σ 0 0 0 σ σ σ e + σ 3990 3 57 4390 473 4390 330 4390 3 958 Sammu võrra keerulisema dispersioonistruktuuri saame, kui eeldame, et mida suurem on mõõtmiste ajaline vahe, seda nõrgem on nende vaheline seos, ehk antud näite puhul. ja. laktatsiooni toodangud on omavahel tugevamini seotud, kui. ja 3. laktatsiooni toodangud. Üks võimalus seda mudelisse kirja panna on kasutada jääkdispersioonimaatriksi defineerimisel esimest järku autoregressiivset struktuuri kujul 8

VL.09 Loomade aretusväärtuse hindamine ja aretusprogrammid ρ ρ 0 0 0 ρ ρ 0 0 0 ρ ρ 0 0 0 R = σ e 0 0 0 ρ ρ, 0 0 0 ρ ρ 0 0 0 ρ ρ kus parameetrit ρ võib mõista kui ühe ja sama looma järjestikuste vaatluste vahelist autokorrelatsioonikordajat, ρ <. Segamudelite puhul tuleb arvestada ka juhuslike faktorite mõjude võimaliku korreleeritusega, mis tähendab dispersioonimaatriksi G struktuuri erinevust traditsioonilisest diagonaalsest kujust (3.0). Loomade aretuses väljendub see enamasti kõikvõimalike sugulussidemete matemaatilisel kujul väljendamises ja mudelisse kaasamises taolisel kovariatsioonistruktuuri defineerimisel põhineb näiteks aretusväärtuste prognoosimine looma mudelist (pt 7.). 3.5.3 äisastakuga ja mitte täisastakuga mudelid, reparametriseerimistingimused Üldine lineaarne mudel on täisastakuga, kui täisastakuga (kõik read-veerud lineaarselt sõltumatud, pööratav, pt..7) on tema plaanimaatriksi transponeeritud maatriksi ja plaanimaatriksi enese korrutismaatriks, näiteks X X. Nagu järgmisest peatükist nähtub, kujutab just taoline korrutismaatriks enesest mudeli parameetrite hindamiseks konstrueeritud võrrandi kordajatemaatriksit. Mudeli parameetrid on üheselt hinnatavad üksnes täisastakuga mudeli korral, sest vaid siis leidub kasutataval kordajatemaatriksil ühene pöördmaatriks; mitte täisastakuga mudeli korral on erinevaid parameetrite hinnanguid palju (teoreetiliselt lõpmatu arv). avalise fikseeritud mudeli (3.) korral piisab mudeli parameetrite üheseks hinnanguks ka plaanimaatriksi enese veergude lineaarsest sõltumatusest. äisastakuga on näiteks regressioonanalüüsi mudel, sest plaanimaatriksi ühtedest koosnev vabaliikmele vastav veerg pole üldjuhul mingi lineaarkombinatsiooni tulemusena teisendatav argumenttunnuse väärtuste veeruks. Näide 3.7. Püstitades näite 3. alusel lihtsa lineaarse regressioonimudeli prognoosimaks tallede võõrutusmassi võõrutusvanuse abil, saame regressioonivõrrandi maatrikskujul kus y = Xβ + e, 9 90 86 0 86 µ X = ja β =. 7 b 5 0 07 Plaanimaatriksi X veeruastak on, sest vabaliikmele ja regressioonikordajale vastavad veerud on lineaarselt sõltumatud, ja seega on parameetervektor β üheselt hinnatav. äisastakuga pole aga dispersioonanalüüsi mudel, sest näiteks mistahes faktori kõigile tasemetele vastavate veergude summeerimine annab tulemuseks ühtedest koosneva vabaliikmele vastava veeru. Seega pole ka dispersioonanalüüsi korral mudeli parameetrite ühene hindamine võimalik. Lahenduseks on hinnata mudeli parameetrite funktsioone, mis on üheselt hinnatavad (nn hinnatavad funktsioonid estimable functions, vt pt 3.6.) või kasutada mudeli parameetrite reparametriseerimist. Viimane tähendab parameetritele mingi lisakitsenduse rakendamist, mille all võib mõista näiteks iga faktortunnuse viimase taseme mõju nulliga võrdsustamist ja teiste tasemete mõjude hindamist selle anel Kaart EMÜ VL tanel.kaart@emu.ee 008 9

3. Üldine lineaarne mudel suhtes (kasutab näiteks statistikapakett SAS ja kasutatakse ka antud õppevahendi järgnevais näidetes) või traditsioonilisema reparametriseerimistingimusena iga faktori mõjude summa nulliga võrdsustamist. Seejuures peab selliseid lisakitsendusi olema sama palju, kui on plaanimaatriksis lineaarselt sõltuvaid veerge. Näide 3.8. Mudel (3.) näites 3. ei ole täisastakuga, sest plaanimaatriksi 0 0 0 0 0 0 0 0 9 0 0 0 0 0 0 0 0 90 0 0 0 0 0 0 0 0 86 0 0 0 0 0 0 0 0 0 X = 0 0 0 0 0 0 0 0 86 0 0 0 0 0 0 0 0 7 0 0 0 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 07 veeruastak on 9, mis on väiksem maatriksi X veergude arvust (4) veergude lineaarne sõltuvus ilmneb selles, et näiteks kõigi diskreetsete faktorite korral annavad neile vastavad plaanimaatriksi veerud summeeritult., vabaliikmele vastava ühtedest koosneva veeru (siit tuleb 4 lineaarselt sõltuvat veergu), lisaks saame näiteks 9. ja 0. veeru summana 3. veeru (3-4 aastased emad on vaid isa 07 järglastel ja samas ei ole antud jäära paaritatud ühegi eakama utega). Faktorite mõjude üheseks hindamiseks on vajalik teatud kitsenduste püstitamine. Näiteks võime nõuda kõigi faktorite korral nende mõjude summa nulliga võrdumist ( I05 + I07 = 0, S + S = 0, P + P + P3 = 0, E3 + E4 + E6 + E7 + E8 = 0 ) või siis iga faktori viimase efekti nulliga võrdumist ( I 07 = 0, S = 0, P 3 = 0, E 8 = 0 ) ning lisaks ka veel kas ema vanuse efekti E 3 või E 4 nulliga võrdumist. 3.6 FIKSEERIUD EFEKIDE HINDAMINE (BLUE) 3.6. Vähimruutude hinnangud Faktorite mõjud mudelist (3.) hinnatakse vähimruutude meetodil, st et parameetervektori β hinnang β valitakse selliselt, et mudeli vigade ruudud oleks minimaalsed. Maatrikskujul on vähimruutude tingimus mudeli (3.) tarvis väljendatav seosena min( e e) = min( y Xβ) ( y Xβ) = ( y Xβ) ( y Xβ ). β Hinnangu β avaldamiseks tuleb mudeli (3.) vigade ruutude summast β e e = ( y Xβ) ( y Xβ) = y y y Xβ β X y + β X Xβ = y y β X y + β X Xβ võtta tuletis β järgi ja võrdsustada tulemus nulliga. Diferentseerimise tagajärjel saame = + e e β X y X Xβ ning viimase avaldise nulliga võrdsustamisest järeldub, et millest ( X Xβ ) = X y, (3.) = ( ) β X X X y. (3.3) Võrrand (3.) on tuntud kui normaalvõrrand (normal equation) ja hinnang (3.3) kujutab enesest parameetervektori β vähimruutude hinnangut (OLS, ordinary least squares), mis diagonaalse võrdsete dispersioonikomponentidega jääkdispersioonimaatriksi (3.9) korral on parim nihketa lineaarne hinnang (BLUE, best linear unbiased estimator). Sõna parim hinnangu nimetuses tähendab, et tegu on täpseima e väikseima dispersiooniga var( β β ) hinnanguga (efektiivse hinnanguga, pt.4.3) ning sõna nihketa märgib hinnangu nn keskmist õigsust (süstemaatilise vea puudumist). Kui meil on aga tegu keerulisema kovariatsioonistruktuuriga, kus V = R = var( e ) ei ole võrdsete dispersioonikomponentidega diagonaalmaatriks, siis pole ka valemiga (3.3) defineeritud hinnang 0

VL.09 Loomade aretusväärtuse hindamine ja aretusprogrammid enam BLUE parameetervektorile β. Hädast aitab välja kaval teisendus. Nimelt, kui teame dispersioonimaatriksit V, mis tänu dispersiooni definitsioonile on alati positiivselt määratud ja / / / mistõttu leiduvad ka V ja selline maatriks V, et V = V V, võime võrrandi (3.) mõlemaid / pooli vasakult korrutada maatriksiga V, saades tulemuseks mudeli / / / V y = V Xβ + V e. * / ähistades y = V * / y, X = V * / X ja e = V e saame viimase mudeli esitada võrrandina kusjuures * * * y = Xβ + e, (3.4) * * / / / / / / / V = var( e ) = var( V e) = V var( e) V = ( V V )( V V ) = I. V * Et nüüd on meil dispersioonimaatriks V diagonaalsel kujul, nagu on vaja BLUE esitamiseks valemi (3.3) abil, rakendame viimast mudelile (3.4) ja saame parameetervektori hinnangu kujul * * * * β = ( X X ) X y = ( X V X) X V y. (3.5) Viimast hinnangut nimetatakse üldistatud vähimruutude hinnanguks (GLS, generalized least squares). Juhul, kui analüüsitav mudel ei ole täisastakuga, ei ole normaalvõrrandi kordajate maatriksid X X ja X V X (vastavalt tavalise ja üldistatud vähimruutude hinnangu puhul) pööratavad ja kasutada tuleb üldistatud pöördmaatrikseid. Vähimruutude hinnangud (3.3) ja (3.5)saavad siis üldisemad kujud β = ( X X) X y (3.6) ja ( ) I β = X V X X V y. (3.7) I Näide 3.9. Vaatleme edasi tallede võõrutusmassi andmestikku ja hindame talle isa, soo, pesakonna suuruse, ema vanuse ning võõrutusvanuse kui fikseeritud faktorite mõjud. Garanteerimaks hinnangute ühesust võrdsustame nulliga iga faktori viimase efekti ( I 07 = 0, S = 0, P 3 = 0, E 8 = 0 ) ning lisaks ka veel ema vanuse efekti E 4. Ülejäänud efektide hindamiseks paneme kirja täisastakuga (ilma nulliga võrdsustatud efektidele * vastavate veergudeta) plaanimaatriksi X : 0 0 0 0 0 9 0 0 0 90 0 0 0 86 0 0 0 0 0 0 = 0 0 0 0 7 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0 07 * X 0 0 0 0 86. Et meil vaatluste dispersioonimaatriks on diagonaalsel kujul, V = I 9σ e, ja plaanimaatriks * X on täisveeruastakuga, saame faktorite mõjude vektori hindamiseks kasutada valemit (3.3): β * = ( µ I ) 05 S P P E E6 E7 b anel Kaart EMÜ VL tanel.kaart@emu.ee 008

3. Üldine lineaarne mudel µ I05 0 0 0 0 0 9 0 0 0 0 S 0 0 0 90 0 0 0 0 0 0 0 86 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 86 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0 0 0 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 9 90 86 0 86 7 5 0 07 b 0 0 0 0 0 07 * P P = E 3 E 6 E 7 * b * X 44,0 0 0 0 0 39 0,5 0 0 0 0 4 0,0 0 0 0 0 0 0 0 5,5 0 0 4 =,0. 0 0 0 0 0 0 3 8,5 0 0 0 0 0 0 0 30 6,5 0 0 0 0 0 0 0 0 3 6,0 9 90 86 0 86 7 5 0 07 6 0,5 * X Peale kitsenduste lisamist saame mudeli (3.) parameetrite hinnangud kujul P =,0 = P3 0,0 E 3 8,5 E 0 4 y µ I 44,0 05 0,5 I07 0 S 0,0 S 0 P,5 β. (3.8) E 6,5 6 E 6,0 7 0 E 8 0,5 b Võrreldes lihtsalt faktorite tasemete kaupa leitud keskmiste võõrutusmassidega (vt tabelit näite lõpus) hakkab silma jäärade paremusjärjestuse muutus kui järglaste keskmiste väärtuste alusel võinuks eelistada jäära numbriga 07, siis peale teiste faktorite mõjude arvesse võtmist on ilmselge hoopis jäära nr 05 paremus. Andmetabelist (pt 3.3.) põhjust otsides hakkab eelkõige silma, et jäära nr 07 järglased on võõrutatud hiljem ja saanud seega kauem aega kasvada (positiivset seost võõrutusvanuse ja võõrutusmassi vahel näitab ka regressioonikordaja positiivne väärtus, b = 0,5 ), lisaks on jääraga 07 paaritatud nooremaid ja, arvestades aretuse loogilist tendentsi, ehk seetõttu ka järglastele kiiremat kasvu tagavaid uttesid. Jäärade mõjude hindamine mudeli (3.) abil võimaldab kõigi nende seostega arvestada. NB! Eelnevalt välja pakutud hüpoteetilisi seoseid ei maksa võtta puhta kullana, sõnastatud on järeldused lihtsalt illustreerimaks tulemuste tõlgendamisvõimalusi. eaduslike järelduste tegemiseks on antud andmestik liiga väike ja, nagu nähtub järgnevate peatükkide lõpus läbirehkendatud näidetest, seeläbi ka ülitundlik üksikväärtuste ning mudeli mistahes modifikatsioonide suhtes. X

VL.09 Loomade aretusväärtuse hindamine ja aretusprogrammid Faktorite tasemed ja neile vastavad keskmised võõrutusmassid Isa Sugu Pesakonna suurus Ema vanus 05 6,8 9, 35,0 3 9,3 07 9,5 6,5 6,7 4 30,0 3,0 6 4,0 7 39,0 8 3,5 3.6. Hinnatavad funktsioonid Olgugi, et üldjuhul parameetervektor β ise ei ole üheselt hinnatav, on seda hulk tema elementide lineaarkombinatsioone k β, viimaseid nimetatakse hinnatavateks funktsioonideks (estimable functions). Hinnatavuse olulisemad omadused lineaarsete mudelite korral on, et. vabaliige µ ei ole üheselt hinnatav (va regressioonanalüüsi korral);. erinevused ühe faktori tasemete vahel on üheselt hinnatavad tingimusel, et mudelis puuduvad selle ja teiste faktorite vahelised interaktsioonid ning uuritava faktori tasemete mõjud ei kattu mõne teise faktori tasemete mõjudega; 3. sisulist tähendust omavad üksnes hinnatavate funktsioonide väärtused. Näide 3.0. Et tallede võõrutusmassi mõjutavate faktorite tasemete hinnangute ei ole üheselt hinnatavad, saame hinnangutele β (3.8) lisaks leida suure hulga erinevaid hinnanguid. Näiteks järgmised hinnangute vektorid on saadud kasutades erinevaid reparametriseerimistingimusi või rakendades erinevaid üldistatud pöördmaatrikseid valemis (3.6): µ I 05 3,5 I 0,0 07 S 0,5 0,0 0,0 P,5 S P,0 β = =, 3 0,0 P E 3 E 4 E 6 E E b 0,0 8,5 6,5 6,0 0,0 7 8 0,5 Hinnatavad funktsioonid on näiteks µ I 05 5,5 I,0 07 S 0,0 0,0 0,0 P,5 S P,0 β 3 = =, 3 0,0 P E 0,0 3 E 8,5 4 6,5 E6 6,0 E 7 0,0 E 8 0,5 b ( ) k µ I 05 9,8 I,4 07 S,3 4,9 4,9 P,6 S P 5, β 4 = = jne. 3 3, P E 3,6 3 E 4,9 4 0,53 E6 9,0 E 7 7,0 E 8 0,5 b 0 0 0 0 0 0 0 0 0 0 0 0 β = S S = 0 mis hindab sugude vahelist erinevust ja on sama väärtusega mistahes parameetrite hinnangute vektori β korral, või ( 0 0 0 0 0 0 0 0 0 0 0 0 ) β = P P =, 3 k mis hindab kahe- ja kolmetallelisest pesakonnast pärit tallede võõrutusmasside erinevust ja on jällegi ühene mistahes parameetrite hinnangute vektori β korral. Küll aga ei ole üheselt hinnatav jäärade vaheline erinevus, sest jäära nr 05 mõju kattub ema vanuste 3 ja 4 mõjudega ning jäära nr 07 efekti ei ole võimalik üheselt eristada ema vanuste 6-8 mõjudest., anel Kaart EMÜ VL tanel.kaart@emu.ee 008 3

3. Üldine lineaarne mudel 3.6.3 Vähimruutkeskmised Vähimruutkeskmised (VRK; LSM, least square means), mis sageli tuuakse ära teadusartiklites ja mille hindamisvõimalust pakuvad paljud statistikaprogrammid, on oma olemuselt tegelikult hinnatavad parameeterfunktsioonid. Nende laialdane kasutamine on tingitud sellest, et ühelt poolt on tegu tõepoolest lihtsalt mõistetavate uuritava tunnuse keskmiste väärtustega faktorite tasemete alusel moodustatud gruppides, teiselt poolt on aga vähimruutkeskmiste hindamise meetod märksa täiuslikum võrreldes tavaliste aritmeetiliste keskmiste arvutamisega VRK-d leitakse baseeruvana mudelil ja on korrigeeritud mudelis sisalduvate segavate faktorite mõjude suhtes ega ole tundlikud vaatluste arvu erinevusele võrreldavais gruppides (seetõttu erinevad vähimruutkeskmised üldjuhul tavalistest keskmistest). Näide 3.. Illustreerime vähimruutkeskmiste leidmist tallede võõrutusmassi näite varal. Et jäära nr 05 mõju kattub ema vanuste 3 ja 4 mõjudega ning jäära nr 07 efekti ei ole võimalik üheselt eristada ema vanuste 6-8 mõjudest, ei ole antud andmete ja mudeli korral vähimruutkeskmiste kui üheste parameeterfunktsioonide hindamine võimalik. Lahendusena tuleb kõne alla kas andmete juurde kogumine, ühe kahest faktorist, isa või ema vanus, mudelist väljajätmine või kolmanda lahendusena ema vanuse pidevaks argumendiks kuulutamine. Viimasel juhul avaldub mudel (3.) modifitseeritud kujul järgmiselt: yijkm = µ + Ii + S j + Pk + b * evijkm + b * vijkm + eijkm (3.9) kus ev ijkm tähistab konkreetse talle ema vanust ja b on ema vanuse ja talle võõrutusmassi vaheline regressioonikordaja. Plaanimaatriks X on siis kujul 0 0 0 0 8 9 0 0 0 0 7 90 0 0 0 0 6 86 0 0 0 0 8 0 X = 0 0 0 0 6 86 0 0 0 0 3 7 0 0 0 0 4 5 0 0 0 0 3 0 0 0 0 0 3 07 ning SAS-i reparametrisatsiooni kasutades leitud hinnangud avalduvad vektorina µ I 5, 05,5 I 07 0 S 5, S 0 β = P = 7,6. (3.0) P 9,8 P 0 3,6 b 0, b Esimene asi, mis saadud hinnanguid vaadates silma hakkab, on erinevus varem leitutest isade paremusjärjestus muutus vastupidiseks, varem võrdsetest soo mõjudest osutus nüüd suuremaks jäärtallede (sugu ) efekt jne. Arvestades aga näiteandmestiku väiksust ja tallede võõrutusmassi suhteliselt suurt varieeruvust ei ole selles midagi imestada ka üks vaatlus (näiteks võõrutusmass 39 kg 90-päevasel tallel) ja/või mudeli muutus mõjutavad parameetrite hinnanguid märkimisväärselt. Suurema andmestiku korral ei pruugi teostatud mudeli lihtsustus ülejäänud faktorite mõjusid sedavõrd muuta. Oluline on aga, et nüüd on meil üheselt hinnatav isadevaheline erinevus ( I 05 I 07 =,5 ) ja ka kõikvõimalikud vähimruutkeskmised. Viimased koos arvutusvalemitega (ja võrdluseks ka tavalised aritmeetilised keskmised) on toodud järgnevas tabelis. 4

VL.09 Loomade aretusväärtuse hindamine ja aretusprogrammid Efekt x VRK I 05 6,8 LSM( I 05) = µ + I 05 + ( S + S) + 3 ( P + P + P3 ) + b ev + b v = 5,,5 + (5, + 0) + 3 (7, 6 + 9,8 + 0) +, 6 5,3 0, 04, 4 = 0,8 I 07 9,5 LSM( I 07) = µ + I 07 + ( S + S) + 3 ( P + P + P3 ) + b ev + b v = 5, + 0 + (5, + 0) + 3 (7, 6 + 9,8 + 0) +, 6 5,3 0, 04, 4 = 33,35 S 9, LSM( S ) = µ + ( I 05 + I07) + S + 3 ( P + P + P3 ) + b ev + b v = 9,69 S 6,5 LSM( S ) = µ + ( I 05 + I07) + S + 3 ( P + P + P3 ) + b ev + b v = 4,49 P 35,0 LSM( P ) = µ + ( I05 + I07) + ( S + S) + P + b ev + b v = 35,55 P 6,7 LSM( P ) = µ + ( I05 + I07) + ( S + S) + P + b ev + b v = 7,77 P 3,0 LSM( P ) = µ + ( I 05 + I07) + ( S + S) + P3 + b ev + b v = 7,94 3.7 JUHUSLIKE FAKORIE REALISEERUNUD VÄÄRUSE PROGNOOSIMINE (BLUP) Et juhuslikud efektid pole konstandid, nagu fikseeritud efektid, vaid kujutavad enesest mingist jaotusest pärinevaid juhusliku suuruse (juhusliku faktori) realiseerunud väärtusi, tuleb nende hindamisel arvestada ka selle jaotuse dispersiooniga (ehk teisiti väljendatuna, juhuslike efektide poolt määratud osaga uuritava tunnuse koguvarieeruvusest). Mudeli (3.4) korral tähendab see dispersioonimaatriksite (3.8) teadmist. Juhul, kui dispersioonimaatriks (3.8) on teada, avaldub juhuslike faktorite realiseerunud väärtuste u parim lineaarne nihketa prognoos (BLUP, best linear unbiased prediction) kujul u = GZ V ( y Xβ ), (3.) kus β = ( X V X) X V y on fikseeritud efektide üldine vähimruutude hinnang. Seejuures tehakse siin ingliskeelses kirjanduses selget vahet sõnadel hinnang (estimate) ja prognoos (prediction) hinnatakse midagi fikseeritut, konstantset, prognoositakse aga midagi, mille ilmnemine sõltub juhusest. Valemi (3.) tuletamine ei ole enam nii elementaarne, kui pt-s 3.6. saadud vähimruuthinnangud fikseeritud efektidele; sügavama huvi korral võib vähimruutude meetodil põhineva tuletuse leida näiteks L. R. Schaeffer'i loengukonspekti 7. peatükist (http://www.aps.uoguelph.ca/~lrs/animals/) ning juhuslike efektide normaaljaotuse eeldusel ja suurima tõepära meetodil baseeruva tuletuse J. N. Jørgenseni loengukonspekti 6. peatükist (http://kursus.kvl.dk/shares/aab/300_materials/literature/ biometric.htm). Fikseeritud efektide hindamine ning juhuslike efektide prognoosimine valemite (3.7) ja (3.) alusel nõuab vaatluste dispersioonimaatriksi V (3.8) pöördmaatriksi leidmist, milline operatsioon võib vähegi suurema andmestiku korral problemaatiliseks kujuneda. Üks 0. sajandi suurimaid segamudelite ja aretusteooria arendajaid C. Henderson pakkus 950. aastal välja normaalvõrrandile (3.) sarnase maatriksvõrduse, mis võimaldab korraga leida nii BLUE(β) kui ka BLUP(u) ja seda ilma vaatluste dispersioonimaatriksit pööramata. änapäeval tuntaksegi järgnevat maatriksvõrrandit Hendersoni segamudeli võrrandina (või lihtsalt segamudeli võrrandina, inglise keeles mixed model equation, MME): X R X X R Z β X R y = Z R X Z R Z + G u Z R y. (3.) raditsioonilise segamudeli korral, kus vealiikmele ja juhuslikele efektidele vastavad dispersioonimaatriksid R ja G esituvad kujul (3.9) ja (3.0), on võrrand (3.) kirjutatav ka kujul X X X Z β X y σ e = + σ u Z X Z Z I u Z y. (3.3) Kuna praktikas sageli dispersioonimaatrikseid võrrandis (3.) või dispersioonikomponente võrrandis (3.3) teada pole, tuleb need enne efektide prognoosimist andmetest hinnata, misjärel tehakse anel Kaart EMÜ VL tanel.kaart@emu.ee 008 5

3. Üldine lineaarne mudel segamudeli võrrandis asendused G = G ja R = R (ehk σu = σu ja σe = σe ). On tõestatud, et juhul, kui uuritav tunnus on sümmeetrilise jaotusega (näiteks normaaljaotusega), on selliselt saadud fikseeritud efektide hinnangud ning juhuslike efektide prognoosid nihketa hinnangud BLUE(β)-le ja BLUP(u)-le. Segamudeli võrrandis on juhuslikele efektidele vastavad read/veerud lineaarselt sõltumatud ega vaja hinnangu ühesuseks erinevalt fikseeritud efektidest lisakitsenduste rakendamist (lisakitsendused võivad olla endiselt vajalikud fikseeritud efektide hindamisel). Andmaks pisut ettekujutust, mis vahe on faktori mõjude hinnanguil sõltuvalt sellest, kas käsitleda faktorit fikseerituna või juhuslikuna, vaatleme lihtsaimat dispersioonanalüüsi mudelit, mis sisaldab vaid vabaliiget µ ja üht diskreetset faktorit u: yij = µ + ui + eij. (3.4) Käsitledes faktorit u fikseerituna, võime parima lineaarse nihketa hinnangu [valem (3.3)] faktori u tasemele u i kirjutada kujul ui = y i. µ, (3.5) ni kus yi. = n i j= yij ja n i tähistab vaatluste arvu faktori i. tasemel seega on vaid üht faktorit sisaldava dispersioonanalüüsi mudeli korral iga faktori mõju hinnanguks temale vastavate uuritava tunnuse väärtuste aritmeetilise keskmise erinevus üldkeskmisest µ. Lugedes aga u juhuslikuks, avaldub tema i. taseme mõju u i parim lineaarne nihketa prognoos (3.) seosena i u uɶ i = n σ ( y i. σ ) e + n µ iσ. (3.6) u Valemite (3.5) ja (3.6) võrdlemisel hakkab silma, et juhuslike efektide hinnangud on alati väiksemad, võrreldes fikseeritud efektide hinnangutega (sest ni /( σe + niσ u) ). Seejuures kehtib intuitiivselt mõistetav loogika mida tugevam on faktori mõju, seda sarnasemad on fikseeritud ja juhusliku mudeli eeldusel leitud efektide hinnangud (seda suurem on dispersioonikomponendi väärtus võrreldes jääkvarieeruvusega σ e ). Samuti nähtub valemeist (3.5) ja (3.6), et faktori i. tasemel sooritatud mõõtmiste arvu n i suurenedes väheneb erinevus selle taseme mõju hinnangute u i ja uɶ i (leituna vastavalt kas fikseeritud või juhuslikust mudelist) vahel. Näide 3.. Käsitleme nüüd mudeliga (3.9) kirjeldatud tallede võõrutusmassi näiteanalüüsis jäära mõju juhuslikuna (andmestikus oleva kahe jäära efektid kujutavad enesest vaid juhuslikku väljavõtet kõigist võõrutusmassi geneetilist determineeritust väljendavaist jäärade mõjudest). Mudeli fikseeritud ja juhuslikele efektidele vastavad plaanimaatriksid on 0 0 0 8 9 0 0 0 0 7 90 0 0 0 0 6 86 0 0 0 0 8 0 0 X = 0 0 0 6 86 ja Z = 0 0 0 0 3 7 0 0 0 0 4 5 0 0 0 0 3 0 0 0 0 0 3 07 0 ning hinnatavate parameetrite vektorid esituvad kujul µ S S P I05 β = P ja u =. I07 P 3 b b 6

VL.09 Loomade aretusväärtuse hindamine ja aretusprogrammid Üheste lahendite saamise huvides võrdsustame nulliga fikseeritud faktorite viimaste tasemete mõjud ( S = 0, P 3 = 0 ) ning eemaldame neile vastavad veerud plaanimaatriksist X, saades maatrikstehete läbiviimisel kasutatava plaanimaatriksi 0 0 8 9 0 7 90 0 6 86 0 0 8 0 = 0 3 7 0 4 5 0 0 3 0 0 0 3 07 * X 0 0 6 86. Et juhuslike efektide u ja e dispersioonimaatriksid on diagonaalsel kujul (3.), on mudeli parameetrid hinnatavad segamudeli võrrandist (3.3). Viimase rakendamiseks vajaliku dispersioonikomponentide suhte σ e saame avaldada tallede võõrutusmassi päritavusest h, lugedes viimase teadaolevaks (päritavusest, kui oluliseimast populatsiooni geneetilisest parameetrist, lähemalt peatükis 4..; järgmine valem on saadud seose (4.9) teisendamise tulemusena): Võttes h = 0,, saame σ e = 9. σ e = 4 h. h Seega avaldub segamudeli võrrandi (3.3) kordajate maatriksi parem alumine nurk Z Z + σ e I kujul 0 0 0 0 0 0 0 0 0 5 9 0 4 0 0 + + 9 = = 0 0 0 0 0 0 0 4 9 0 3 0 + 0 0 0 ning kogu segamudeli võrrand on peale plaanimaatriksite korrutamistehete sooritamist väljakirjutatuna järgmine: 5 5 3 8 536 3 S 46 0 0 00 P 70 6 3 0 6 30 649 3 3 P 60 48 8 0 30 9 4808 35 3 b = 3. 940 536 00 649 4808 076 454 486 b 6544 5 3 3 35 454 4 0 I05 34 4 3 3 486 0 3 I07 8 9 5 6 48 940 5 4 µ 5 Selle võrrandi lahendina saame parameetrite hinnangute vektori µ,83 S 3,94 P 4,93 P 6,5 b = 0,6. b 0,06 0,03 0,03 I 05 I 07 anel Kaart EMÜ VL tanel.kaart@emu.ee 008 7

3. Üldine lineaarne mudel Võrreldes fikseeritud mudelist saadud hinnangutega (3.0) on ootuspäraselt vähenenud jääradevaheline erinevus on ju jäära mõjuga seletatav võõrutusmasside erinevus 9 korda väiksem juhusliku vea arvele jäänud varieeruvusest, mis, nagu nähtus valemeist (3.5) ja (3.6), toob kaasa väiksemad juhuslike jääraefektide hinnangud. Loomulikult muutusid tänu mudeli muutmisele mingil määral ka fikseeritud efektide hinnangud, aga faktorite tasemete järjestus jäi endiseks jäärtallede võõrutusmass on suurem; suurima võõrutusmassiga on üksiktalled, seejärel kaksik- ja kolmiktalled; ema vanuse kasvades suureneb ka tallede võõrutusmass; muutus üksnes võõrutusvanuse ja -massi vahelist lineaarset seost iseloomustava regressioonikordaja märk (selleski ei ole aga midagi iseärast arvestades kordaja nullilähedast väärtust ja uuritava andmestiku väiksust). Eelnevas näites rakendatud mudelit, kus ainsa uuritava tunnuse geneetilist determineeritust väljendava juhusliku faktorina vaadeldakse isa ning ülejäänud faktorid on fikseeritud ja kirjeldavad mittegeneetilisi e nn keskkonnamõjusid, nimetatakse põllumajandusloomade aretuses isa mudeliks (inglise keeles sire model). Lähemalt isa mudelist ja ka teistest segamudeli rakendustest geneetiliste parameetrite hindamisel 7. peatükis. 3.8 DISPERSIOONIKOMPONENIDE HINDAMINE Nii fikseeritud efektide hindamine üldistatud vähimruutude meetodil (3.7), juhuslike efektide parim lineaarne nihketa prognoos (3.) kui ka Hendersoni segamudeli võrrandi (3.) või (3.3) lahendamine eeldab dispersioonikomponentide kaudu defineeritud dispersioonimaatriksite teadmist. Nagu nähtus eelneva peatüki näitest, piisab sageli ka dispersioonikomponentide suhte või mõne populatsiooni geneetilise parameetri väärtuse teadmisest. Samas aga ei ole meil kuidagi võimalik teada dispersioonikomponentide suhet kõigi ette tulla võivate tunnuste või mudelite korral ning ka meie poolt analüüsitava populatsiooni geneetiline struktuur ei pruugi vastata teadaolevate geneetiliste parameetritega kirjeldatud populatsioonile. Valede dispersiooniparameetrite kasutamisega kaasnevad aga ka valed mõjuhinnangud ja seeläbi näiteks ka valed otsused tuleviku strateegiate osas. Dispersioonikomponentide hindamiseks on välja töötatud hulk erinevaid meetodeid. Nende mitmesus on tingitud sellest, et vähegi keerulisema mudeli puhul ei ole võimalik välja kirjutada dispersioonikomponentide parimate omadustega analüütilisi lahendeid, kasutada tuleb kas teatud lihtsustavaid eeldusi või siis ligilähedasi matemaatilisi arvutusmeetodeid. Meetodite matemaatiline keerukus on ka põhjuseks, miks üldiste lineaarsete segamudelite rakenduste tudeerimisel dispersioonikomponentide hindamine kõrvale jäetakse. Samas baseerub peatükis 4 tutvustatavate peamiste populatsioonigeneetiliste parameetrite hindamine enamasti just dispersioonikomponentide hindamisel. Juhul, kui arvutuste lõppeesmärgiks on juhuslike faktorite realiseerunud väärtuste (näiteks loomade aretusväärtuste) prognoosimine, eelistatakse tänu dispersioonikomponentide hinnangute võimalikule mitteühesusele kasutada sageli teistes uuringutes või ka teoreetiliste arutelude tulemusena leitud väärtusi (nii tegime ka meie eelmise peatüki näites, lugedes teadaolevaks tallede võõrutusmassile vastava dispersioonikomponentide suhte). Andmete tasakaalulisuse (vt pt 3..4) ja vaatluste sõltumatuse eeldusel on dispersioonikomponentide hinnangud leitavad tavalise dispersioonanalüüsi abil. Mittetasakaalulise andmestiku ja keerulisema kovariatsioonistruktuuri korral on kõige universaalsemaks osutunud REML-meetod. 3.8. Dispersioonanalüüsi meetod (ANOVA-meetod) Võtame vaatluse alla ühefaktorilise dispersioonanalüüsi mudeli (3.4). Eeldame et faktor u on juhuslik ning et efektid u i ja e ij on sõltumatud ja normaaljaotusega. Samuti eeldame, et faktoril u on a taset, igal tasemel on sooritatud täpselt n mõõtmist ning kokku on mõõtmisi N = an. Dispersioonanalüüsi arvutused koondatakse nn dispersioonanalüüsi tabelisse, mis vaatlusaluse mudeli tarvis on toodud tabelis 3.. 8

VL.09 Loomade aretusväärtuse hindamine ja aretusprogrammid abel 3.. Dispersioonanalüüs tabel mudeli (3.4) korral Varieeruvuse Ruutude summa * Vabadusastmete allikas arv Faktor u Jääk i... Keskruut a y y SS( u) = a MS( u) = SS( u) a i= n N a n a yi. SS( e) = yij N a MS( e) = SS( e) N a i= j = i= n * n a n siin yi. = yij ja y.. = y j= i= j= ij Keskruudu ooteväärtus nσ u + σ e σ e ANOVA-hinnangud dispersioonikomponentidele ooteväärtustega: ja ja σ = ( ) ( ) n u [ MS u MS e ] e ( ) σ = MS e. σ e saadakse, võrdsustades keskruudud nende Mittetasakaaluliste andmete ja ühefaktorilise dispersioonanalüüsi mudeli (3.4) korral on juhusliku faktori poolt määratud osa uuritava tunnuse varieeruvusest, σ, ANOVA-meetodil hinnatav valemist u σ = ( ) ( ), d u [ MS u MS e ] a kus d = N n i ja n a N i= i tähistab mõõtmiste arvu faktori u tasemel i. 3.8. REML-meetod REML-meetod sobib dispersioonikomponentide hindamiseks ükskõik millise dispersioonistruktuuriga mudelite korral, kusjuures tasakaalulise traditsioonilise segamudeli korral on dispersioonikomponentide REML-hinnangud võrdsed ANOVA-hinnangutega. Lühend REML tähendab kitsendatud e jääkide e vähendatud suurima tõepära meetodit (REstricted e REsidual e REduced Maximum Likelihood method) ja baseerub nagu suurima tõepära meetodid ikka mingi teoreetilise jaotuse tõepärafunktsioonil (vt ka pt.4.). Üldise lineaarse mudeli (3.4) korral on selleks teoreetiliseks jaotuseks normaaljaotus y ~ N( Xβ, V ). Kitsendatud suurima tõepära meetodi idee seisneb selles, et kuigi üldine lineaarne mudel sisaldab kaht tüüpi hinnatavaid parameetreid fikseeritud faktorite efekte ja juhuslike faktorite dispersiooniparameetreid püütakse viimaste hindamiseks teisendada esialgset mudelit kujule, kus juhuslike faktorite mõjudest tingitud varieeruvus oleks sama, aga fikseeritud faktorite mõju võrduks nulliga. Sellisel juhul on kogu arvutusprotsess suunatud dispersioonikomponentide hindamisele, mis peaks garanteerima täpsemad hinnangud võrreldes tavalise suurima tõepära meetodiga (ML, Maximum Likelihood method), mis hindab samaaegselt nii fikseeritud faktorite mõjusid kui ka dispersioonikomponente. Mudeli (3.4) teisendust võib esitada korrutisena K y = K Xβ + K Zu kus maatriks K on defineeritud selliselt, et K X = 0, mistõttu K y N( 0, K VK ). eisendatud mudeli vasakut poolt K y võib mõista ka kui fikseeritud efektide poolt kirjeldamata jäänud osa uuritavast tunnusest y e erinevust (jääki) fikseeritud efektide poolt kirjeldatu ja uuritava tunnuse y tegelike väärtuste vahel (siit ka nimetus REsidual ML method). REML-meetodi korral maksimeeritakse teisendatud uuritava tunnuse logaritmiline tõepärafunktsioon l( V; y) = ln πk VK y K( K VK) K y (3.7) dispersiooniparameetrite suhtes, võttes selleks funktsioonist (3.7) esimest järku osatuletise hinnatava parameetri suhtes, võrdsustades tulemuse nulliga ning lahendades tulemuseks ongi dispersiooniparameetri REML-hinnang. Üldjuhul ei ole dispersioonikomponentide hinnangute analüütiline leidmine võimalik, logaritmilise tõepärafunktsiooni maksimeerimise tulemusena saadakse keeruline maatriksvõrdus anel Kaart EMÜ VL tanel.kaart@emu.ee 008 9

3. Üldine lineaarne mudel tr ( ) = ( ) ( ) K VK K ZiZi K y K K VK K ZiZi K K VK K y, kus mudeli dispersiooniparameetrid sõltuvad üksteisest ja ka juhuslike faktorite realiseerunud väärtustest (maatriks Z i koosneb i.-le juhuslikule faktorile vastavatest plaanimaatriksi Z veergudest). Üksikute parameetrite hinnangute leidmiseks kasutatakse ligikaudseid järkjärgulise lähendamise e iteratsioonimeetodeid: algselt (nn nullsammul) antakse mudeli parameetritele mingid algväärtused, neist lähtuvalt leitakse. sammul kõigi parameetrite uued hinnangud, seejärel lähtutakse. sammul parameetrite hinnangute arvutamisel juba. sammul leitutest jne igal järgneval sammul kasutatakse eelmisel sammul leitud hinnanguid; protsess koondub parameetrite lõplikeks hinnanguteks, kui mingil sammul leitud hinnangute erinevus eelneval sammul leitutest on piisavalt väike. Algoritme, mida sellisel ligikaudsel arvutamisel kasutatakse, on jälle rohkem kui üks mõni neist koondub väiksema, mõni suurema arvu sammude järel; teisalt ei pruugi enamasti kiiremini koonduvad algoritmid mõnel juhul üleüldse koonduda kõik see teeb dispersioonikomponentide hindamise veel keerulisemaks. 3.9 ÜLESANDED Järgnev tabel sisaldab andmeid 7 lehma piimatoodangu, isa, vanuse ja karja kohta. Loom Isa Vanus Kari oodang 7 7000 4 3 7 6600 6 5 6 6800 7 5 4 700 8 3 3 8000 9 3 8300 0 5 8900. Lugedes kõik faktorid fikseerituteks, pange kirja üldine lineaarne mudel hindamaks isa, vanuse ja karja mõju piimatoodangule, seejuures käsitlege isa ja karja diskreetsete faktoritena ning vanust pidava faktorina a. objektiviisi; b. maatrikskujul, pannes kirja ka plaanimaatriksi X.. Pange kirja mudeli dispersioonimaatriksid G, R ja V, lugedes isa mõju juhuslikuks. 3. Lugedes kõik faktorid fikseerituteks, hinnake nende mõjud vähimruutude meetodil (3.3), kasutades SAS-i reparametriseerimistingimusi. 4. Leidke isadele ja karjadele vastavad vähimruutkeskmised. 5. Lugedes isa mõjud juhuslikuks ja võttes piimatoodangu päritavuseks h = 0,5, leidke Hendersoni segamudeli võrrandi (3.3) abil fikseeritud efektide hinnangud ja juhusliku faktori Isa realiseerunud väärtuste prognoosid. 0