Opgaver til Kapitel 3 Hvis en opgave indeholder data, vil et sasprogram, der indlæser data være til rådighed i kataloget statbib/atskurser/stat1/opgaver/kapitel_03 For eksempel vil data til opgave 3.1 være på filen opgave_01a.sas, og et mere omfattende sasprogram vil være på filenopgave_01b.sas. Programmerne vil også være tilgængelige via en internetbrowser på adressen http://home.imf.au.dk/statbib/atskurser/stat1/opgaver/kapitel_03/ Opgave 3.1 Til kontrol af en løbende produktion af kobbertråd udtages med mellemrum 9 stykker tråd af ens længde. Vægten, angivet i gram, af sådanne 9 stykker findes nedenfor: 15.957 15.961 15.952 15.934 15.953 15.940 15.944 15.947 15.943 1) Undersøg, om vægten kan anses for at være normaltfordelt. De følgende spørgsmål besvares under antagelse af normalitet. Standardberegningerne for de 9 observationer giver S = 143.531 USS = 2289.017033 2) Man tilstræber en standardproduktion svarende til en gennemsnitlig vægt på 15.943 g. Giver målingerne anledning til indgreb i processen? 3) Angiv et 95% konfidensinterval for variansen på målingerne. 4) Kan variansen anses for at være 0.000074? Opgave 3.2 Man er interesseret i at sammenligne to metoder til at bestemme indholdet af CaO i klippestykker. Derfor er indholdet af CaO bestemt i ni klippestykker med begge metoder. Metode 1 Metode 2 differens 10.4 10.6 0.2 9.9 9.7 0.2 9.1 8.8 0.3 9.6 8.9 0.7 8.5 8.4 0.1 7.4 6.8 0.6 8.1 7.9 0.2 6.6 6.3 0.3 7.2 6.6 0.6 193
194 OPGAVER 1) Vis, at det kan antages, at differensen mellem bestemmelsen af CaO indholdet med de to metoder på samme klippestykke er normalfordelt. 2) Giver de to metoder samme bestemmelse af CaO indholdet? 3) Angiv et 95% konfidensinterval for differensernes middelværdi. I nedenstående tabel er givet nogle standardberegninger, som eventuelt kan bruges ved besvarelsen af opgaven. n S USS Metode 1 9 76.8 669.16 Metode 2 9 74.0 625.56 Differens 9 2.8 1.52 Opgave 3.3 Det påstås ofte, at dobbeltmålinger af en fysisk størrelse udført af samme person viser en tendens til, at det første måleresultat påvirker det andet. For at undersøge dette, delte man på tilfældig måde 20 prøver af et pulver i to grupper på hver 10 prøver. Prøverne indeholdt en smule varierende mængde af et bestemt stof B. En laborant fik udleveret de første 10 prøver og blev bedt om at udføre dobbeltbestemmelser af procentindholdet af B. Resultaterne var: måling pr_1 pr_2 pr_3 pr_4 pr_5 pr_6 pr_7 pr_8 pr_9 pr_10 1 5.25 6.10 5.70 5.76 5.00 6.04 5.49 5.33 4.84 5.89 2 5.17 6.19 5.61 5.67 4.94 6.02 5.55 5.42 4.94 5.81 Derefter blev hver prøve i den anden gruppe delt i to lige store portioner og de 20 prøver, der derved fremkom, blev givet til laboranten i tilfældig orden på en sådan måde, at han ikke var i stand til at identificere sammenhørende prøver. Resultaterne var nu: måling pr_1 pr_2 pr_3 pr_4 pr_5 pr_6 pr_7 pr_8 pr_9 pr_10 3 4.79 5.61 5.33 5.86 5.42 4.91 5.83 5.85 5.25 5.01 4 4.80 5.55 5.03 6.11 5.32 5.04 6.02 5.77 5.39 5.22 Hvordan belyser disse målinger den anførte påstand? Angiv målemetodens usikkerhed. Opgave 3.4 Lad x 1,...,x n være en observationsrække fra Poissonfordelingen med parameter λ(> 0), det vil sige fra den diskrete fordeling, der har sandsynlighedsfunktionen po(x;λ) = e λ λ x x!, x = 0,1,2,.... 1) Angiv likelihood funktionen, log likelihood funktionen og likelihood ligningen. 2) Vis, at løsningen til likelihood ligningen er: x = 1 n n i=1 og vis, at løsningen maksimerer likelihood funktionen. x i,
OPGAVER 195 3) Angiv maksimum likelihood estimatoren for λ, og angiv sandsynligheden for, at maksimum likelihood estimatet eksisterer. 4) Betragt hypotesen H 0 : λ = λ 0 og vis, at likelihood ratio testoreren for H 0 er: Q(x) = (nλ 0 /x ) x exp( nλ 0 + x ). 5) Vis, at Q som funktion af x er strengt voksende for x nλ 0 og strengt aftagende for x nλ 0. 6) Antag, at n = 5,λ 0 = 3, og at x i = 20. Angiv de observationer der er mere eller ligeså kritiske for H 0 som x i = 20, og beregn testssandsynligheden. Opgave 3.5 Lad x være en observation fra en binomialfordeling med sandsynlighedsparameter π ( ]0,1[) og antalsparameter n ( N), det vil sige fra den diskrete fordeling, der har sandsynlighedsfunktionen ( ) n b(x;n,π) = π x (1 π) n x, x {0,1,...,n}. x 1) Angiv likelihood funktionen, log likelihood funktionen og likelihood ligningen. 2) Angiv maksimum likelihood estimatet for π og angiv sandsynligheden for at maksimum likelihood estimatet eksisterer. 3) Betragt hypotesen H 0 : π = π 0 = 1/2 og angiv likelihood ratio testoren for H 0. 4) Antag, at n = 10 og x = 1. Angiv de observationer der er mere end eller ligeså kritiske for H 0 som x = 1, og angiv testsandsynligheden. 5) Betragt dernæst hypotesen H 0 : π = π 0 = 1/4, og antag at n = 10 og x = 1. Angiv de observationer der er mere end eller ligeså kritiske for H 0 som x = 1, og angiv testsandsynligheden. Opgave 3.6 Betragt den kontinuerte fordeling på R 2 med tætheden f(x,y;θ) = 1 1 θ 2π exp(θxy x2 + y 2 ), 2 (x,y) R 2, (3.121) hvor θ er en ukendt parameter i intervallet ( 1,1). Lad (x 1,y 1 ),...,(x n,y n ) betegne realisationer af uafhængige og identisk fordelte stokastiske variable med en fordeling givet ved tætheden i (3.121). 1) Angiv likelihood funktionen, og vis at log likelihood funktionen er l(θ) = nlog(2π)+ n 2 log(1 θ 2 )+θ i y i i=1x 1 2 Vis dernæst, at likelihood ligningen er hvor SP xy = n i=1 x iy i. n θ 1 θ 2 = 1 n SP xy, n i=1x 2 i 1 2 n i=1 y 2 i.
196 OPGAVER 2) Vis, at maksimum likelihood estimatet er ˆθ = 1+ 1+4(SP xy /n) 2. 2SP xy /n 3) Man ønsker at teste hypotesen H 0 : θ = θ 0. Angiv likelihood ratio teststørrelsen Q for H 0. 4) Man interesserer sig nu specielt for θ 0 = 0, det vil sige H 0 : θ = 0. Man tager en stikprøve med n = 25 observationer, hvor SP xy = 11. Find ˆθ og test H 0. Opgave 3.7 Lad x 1,...,x n være en observationsrække fra N(µ,σ 2 ) fordelingen. 1) Vis, at likelihood ratio teststørrelsen Q(x) for hypotesen H 0 : σ 2 = σ 2 0 er hvor Q(x) = r n 2 e n 2 (r 1), r = ˆσ 2 /σ 2 0 = 1 n n i=1 (x i x ) 2 /σ 2 0. 2) Vis, at likelihood ratio testet forkaster for store og små værdier af r. I noterne side 68 baserer vi også testet for H 0 på r og beregner testsandsynligheden som ε(r) = 2F χ 2 ( f)/ f ( n n 1 r) for n n 1 r < χ2 0.5 ( f)/ f 2(1 F χ 2 ( f)/ f ( n 1 n n r)) for (3.122) n 1 r χ2 0.5 ( f)/ f, hvor f = n 1. Dette er ikke testsandsynligheden i likelihood ratio testet. 3) Find testsandsynligheden ved (3.122) og i likelihood ratio testet for H 0, når n = 10 og r = 2.11364. (Vink Q(2.11364) = Q(0.36943)) 4) Samme spørgsmål som i 3) for n = 13 og r = 2. (Vink Q(2) = Q(0.40638)) Opgave 3.8 Betragt modellen med to uafhængige normalfordelte observationsrækker med samme varians.
OPGAVER 197 1) Vis påstandene side 93: Vi skal ikke i detaljer komme ind på, hvordan man finder estimaterne for parametrene, men kun nævne, at maksimum likelihood estimaterne for µ 1 og µ 2 er gennemsnittene i de to observationsrækker, altså henholdsvis x 1 og x 2, mens maksimum likelihood estimatet for σ 2 er.... ˆσ 2 = SSD 1 n = SSD (1) + SSD (2) n 1 + n 2. 2) Vis, at t testet side 94 for H 0µ : µ 1 = µ 2 er ækvivalent med likelihood ratio testet. Opgave 3.9 For at undersøge den atmosfæriske forurening er indholdet af SO 2 (i ppm) i luften bestemt i henholdsvis et kystområde og byområde. Analyser disse data: Kyst: 0.8 2.1 1.2 0.5 0.1 By: 25.0 15.0 5.0 14.0 5.0 22.0 2.0 17.0 Opgave 3.10 Med et halvt års mellemrum blev der foretaget to slamprøver på et rensningsanlæg. Kromindholdet (i mg Cr/kg tørstof) i de to prøver blev bestemt ved en række målinger, som er gengivet nedenfor sammen med antallet af målinger n, summen S og kvadratsummen USS af målingerne. prøve kromindhold (mg Cr/kg tørstof) n S USS 1 19.9 19.3 19.7 20.5 19.5 20.3 19.9 7 139.1 2765.19 2 20.5 21.3 20.1 20.7 20.9 5 103.5 2143.25 I det følgende kan det antages, at for hver af prøverne kan målingerne af kromindholdet betragtes som en normalfordelt observationsrække. 1) Vis, at det kan antages, at variansen af kromindholdet er den samme i de to prøver. 2) Angiv estimat og 95% konfidensinterval for differensen mellem middelværdien af kromindholdet i de to prøver, og undersøg, om det kan antages, at middelværdien er den samme i de to prøver.
198 OPGAVER På samme tidpunkt, som den anden prøve blev foretaget, foretog man på et andet rensningsanlæg et række målinger på en slamprøve med følgende resultater (i mg Cr/kg tørstof) 18.5 19.8 22.6 19.7 20.8 3) Undersøg om der er forskel på middelværdien af kromindholdet i de to prøver, der blev foretaget samtidigt på de to rensningsanlæg. Opgave 3.11 Institut for Idræt ved Københavns Universitet arrangerer hvert år et atletikstævne for de 1. års studerende. Atletiklærer Mikkel Sørensen har stillet nogle af resultaterne for årene 1998 og 1999 til rådighed. Det er af interesse at vide om resultaterne for de to år er forskellige eller ej. Resultaterne af pigernes længdespring er vist i tabellen nedenfor. år længde i m 1998 3.72 3.65 3.90 3.74 3.32 4.22 3.58 4.56 3.65 2.99 3.91 3.65 3.65 3.88 3.65 4.20 1999 4.32 3.79 3.53 3.54 4.27 3.75 4.21 3.66 4.58 3.73 5.18 3.00 3.91 3.52 Standardberegninger findes i tabellen nedenfor. Analyser data. n S USS 1998 16 60.27 229.0119 1999 14 54.99 219.8343 Opgave 3.12 Udled likelihood ratio testet for ens varianser i k uafhængige normalfordelte observationsrækker, det vil sige for reduktionen fra modellen til modellen I (3.48) er 2lnQ gengivet. M 0 : X i j N(µ i,σ 2 i ), M 1 : X i j N(µ i,σ 2 ), j = 1,...,n i, i = 1,...,k, j = 1,...,n i, i = 1,...,k Opgave 3.13 Vis, at F-testet side 153 for hypotesen H 02 : µ i = α + βt i i modellen M 1 : X i j N(µ i,σ 2 ) er ækvivalent med likelihood ratio testet. Opgave 3.14 Vis, at t-testet baseret på teststørrelsen t(x) = ˆβ β 0 s 2 02 /SSD t for hypotesen H 03 : β = β 0 i modellen M 2 : X i N(α + βt i,σ 2 ) er ækvivalent med likelihood ratio testet.
OPGAVER 199 Opgave 3.15 (Prediktionsintervaller) Når vi ud fra nogle data og en model for de pågældende data forsøger at udtale os om værdien af en ny observation kalder vi det prediktion. Vi forsøger ikke at angive en enkelt værdi, men derimod et interval, hvor observationen vil falde med en specificeret sandsynlighed, for eksempel et 95% prediktionsinterval. Betragt en normalfordelt observationsrække, X i N(µ,σ 2 ), i = 1,...,n, og lad Y betegne en stokastisk variabel, som er uafhængig af X 1,...,X n og N(µ,σ 2 ) fordelt. 1) Vis, at og dermed at uligheden Y X s(x) t(n 1), 1+1/n X t 1 α/2 (n 1)s(X) 1+1/n < Y < X +t 1 α/2 (n 1)s(X) 1+1/n (3.123) holder med sandsynlighed 1 α. Intervallet (3.123) med de observerede værdier fra stikprøven indsat er et 1 α prediktionsinterval. 2) Overvej hvilken betydning størrelsen n af den stikprøve, som bruges til estimation af modellens parametre har, og sammenlign med konfidensintervallet for middelværdien. 3) Betragt en lineær regressionsmodel som i Afsnit 3.3 og angiv et 1 α prediktionsinterval for en ny uafhængig observation med værdien t af den forklarende variabel. Opgave 3.16 (Middelværdi og varians af lineær transformation af vektor af stokastiske variable) Lad X = (X 1,...,X n ) være en n-dimensional søjlevektor af stokastiske variable. Vi vil benytte notationen X (µ,σ) (3.124) til at angive, at EX = µ og at Var X = Σ. Her er µ = (EX 1,...,EX n ) og Cov(X 1,X 1 ) Cov(X 1,X n ) Var X = Σ =... Cov(X n,x 1 ) Cov(X n,x n ) 1) Vis, at ξ + BX (ξ + Bµ,BΣB ), hvor ξ er en k-dimensional vektor og B er en k n matriks.
200 OPGAVER Opgave 3.17 (Multipel regression) Lad de stokastiske variable X i,i = 1,...,n, være indbyrdes uafhængige med fordeling: X i N(t i β,σ 2 ), hvor t i er en søjlevektor af k forklarende variable, og β er en søjlevektor af k ukendte parametre. Lad T være n k matricen, hvor i te række er t i t 1. T = t ị, og antag yderligere, at k < n og at T har fuld rang k. Man skriver kort modellen: t n X N(T β,σ 2 I n ), hvor notationen fra forrige opgave er suppleret med et N til at vise, at koordinaterne i X er normalfordelt. I det følgende betegner x den observerede værdi af den stokastiske vektor X. 1) Opskriv likelihood funktionen for modellen og vis, at likelihood ligningen for β er T T β = T x og at løsningen er ˆβ = (T T) 1 T x. 2) Vis, at den anden afledede af log likelihood funktionen med hensyn til β er T T 1 σ 2, som er negativ definit, så løsningen til likelihood ligningen er et maksimumspunkt for likelihood funktionen. 3) Bemærk, at vektoren af estimerede middelværdier (også kaldet predikterede værdier) er og at ˆx = T(T T) 1 T x ˆx N(T β,σ 2 T(T T) 1 T ) Matricen H = T(T T) 1 T kaldes hat matricen, fordi den sætter hat på x. Bemærk, at H er den ortogonale projektion på underrummet, som udspændes af søjlerne i T. 4) Vis, at maksimum likelihood estimatet for σ 2 er ˆσ 2 = 1 n x (I n T(T T) 1 T )x.
OPGAVER 201 5) Vis, at vektoren af residualer er r = x T ˆβ = (I n T(T T) 1 T )x, og at r N(0,σ 2 (I n T(T T) 1 T )). 6) Vis, at fordelingen for maksimum likelihood estimatet for β er ˆβ N(β,σ 2 (T T) 1 ). Opgave 3.18 (Konkrete eksempler på formulering af model som multipel regression.) Alle de modeller for normalfordelte data vi hidtil har betragtet kan skrives på formen fra Opgave 3.17. 1) Én observationsrække. Angiv T og fordelingen for residualer og ˆβ. Bemærk, at residualerne ikke er uafhængige. 2) k observationsrækker. Angiv T og fordelingen for residualer og ˆβ. Bemærk, at når der er forskelligt antal observationer i hver observationsrække, er residualerne ikke identisk fordelt. 3) Lineær regression. Angiv T og fordelingen for residualer og ˆβ. (I denne formulering indeholder β både afskæringen α og hældningskoefficienten, som vi tidligere har kaldt β.) Opgave 3.19 Data i opgaven stammer fra J.D. Forbes (1857). Further experiments and remarks on the measurement of heights by the boiling point water. Transactions of the Royal Society of Edinburgh, 21, 135-143, men vi benytter kun et udpluk på 31 observationer, som blev præsenteret i S. Weisberg (1985). Applied regression Analysis, 2. udgave, John Wiley and Sons. Data består af 31 sammenhørende værdier af atmosfærisk tryk og vands kogepunkt målt i Himalaya. Vi skal opfatte vands kogepunkt som forklarende variabel og trykket som respons. Data og et SAS program, der indlæser data, ligger på adressen http://home.imf.au.dk/statbib/atskurser/stat1/opgaver/kapitel_03/opgave_19a. sas Et SAS program, der laver relevante tegninger og beregninger ligger på adressen http://home.imf.au.dk/statbib/atskurser/stat1/opgaver/kapitel_03/opgave_19b. sas Beregninger og tegninger til denne opgave er så omfattende, at det kun er realistisk at løse den ved hjælp af SAS. 1) Tegn tryk op mod temperatur. 2) Afhænger trykket lineært af temperaturen?
202 OPGAVER 3) Er en kvadratisk sammenhæng bedre? 4) Lav en tegning af data og middelværdi i den valgte model, hvor også 95% konfidensinterval for middelværdien er angivet. 5) Lav en tegning af data og middelværdi i den valgte model, hvor også 95% prediktionsinterval for en ny observation er angivet. Opgave 3.20 Data i denne opgave stammer fra en større undersøgelse af caries hos skolebørn og angiver fordelingen af antal DMF-tænder (tænder med huller efter caries samt udtrukne og plomberede tænder) blandt 12-årige drenge fra 4 forskellige vandværksdistrikter. Samtidig med indsamlingen af disse data undersøgte man fluorindholdet i vandet fra de fire vandværker. De gennemsnitlige fluorionkoncentrationer er gengivet i sidste række i Tabel 3.13 som ppm F (mg fluorion pr. kg.). Tabellen viser fordelingen af antal DMF-tænder og kvadratroden af antal DMF-tænder blandt 12-årige drenge i fire vandværksdistrikter. Fluorindholdet i vandet fra de fire vandværker er ligeledes angivet. I tabellen er observationerne sorteret efter størrelse. Man har for eksempel i Vejen fundet 3 12-årige drenge, som havde 4 DMF-tænder, 4 drenge, som havde 6 DMF-tænder, og således videre. Formålet med undersøgelsen er at belyse, om drikkevandets fluorindhold påvirker antallet af DMF-tænder. Teoretiske overvejelser antyder, at man kan forvente, at kvadratroden af antal DMF-tænder er normalfordelt. 1) Undersøg ved hjælp af fraktildiagrammer, om kvadratroden af antal DMF-tænder hos 12-årige drenge i de fire vandværksdistrikter kan anses for at være normalfordelt. På baggrund af undersøgelsen i 1) kan man ikke afvise, at man kan anse kvadratroden af antal DMF-tænder for at være normalfordelt. I resten af opgaven skal man derfor analysere kvadratroden af antallet af DMF-tænder. I tabeller i slutningen af opgaven er angivet nogle beregnede størrelser, som kan benyttes ved besvarelsen. 2) Undersøg, om variansen på kvadratroden af antallet af DMF-tænder kan anses for at være den samme for de fire vandværksdistrikter. 3) Undersøg, om kvadratroden af antallet af DMF-tænder afhænger lineært af fluorindholdet i drikkevandet. 4) Undersøg, om kvadratroden af antal DMF-tænder er uafhængig af fluorindholdet i drikkevandet. Antal observationer, summer og kvadratsummer for kvadratroden af antal DMF-tænder for de fire vandværksdistrikter er givet i nedenstående tabel. i n S USS 1 39 127.91 434.8519 2 122 379.42 1233.2858 3 40 90.84 219.0978 4 45 90.05 193.0717 Sum 246 688.22 2080.3072
OPGAVER 203 Antal Kvadratroden Vejen Slagelse Næstved Næstved DMF- tænder af antal hjælpe- gamle DMF- tænder vandværk vandværk 0 0.00 1 1 1.00 1 2 1.41 1 6 8 3 1.73 2 5 3 4 2.00 3 8 6 13 5 2.24 8 3 7 6 2.45 4 7 7 8 7 2.65 2 8 4 2 8 2.83 1 13 3 9 3.00 2 7 4 2 10 3.16 5 14 1 11 3.32 2 10 12 3.46 5 8 13 3.61 4 12 1 14 3.74 4 4 15 3.87 7 16 4.00 2 7 17 4.12 3 2 18 4.24 2 1 19 4.36 1 20 4.47 21 4.58 2 Fluorindholdet i drikkevandet ppm F 0.05 0.34 1.20 1.90 Tabel 3.13 DMF-tænder hos 12 årige drenge i fire vandværksdistrikter. Standardberegninger til brug for regressionsanalyse er gengivet i nedenstående tabel. Kvadratroden af Fluorindholdet antal DMF-tænder i drikkevandet x t n 246 S 688.22 176.93 U SS 2080.3072 234.2507 SP 415.5013 Opgave 3.21 Data til denne opgave stammer fra det et studie af Nobilis frøhvepsen, som er udført af Trine Iversen. Nobilis frøhvepsen er en knap én centimeter lang hveps, som om foråret lægger æg i Nobilis granens frø. Hver kogle indeholder 5-600 frø, og i hvert frø kan der kun ligge ét æg. Ægget
204 OPGAVER udvikles til larve og larven æder alt, hvad der er i frøet. Larven bliver i frøet til om efteråret, hvor den udvikles til en voksen hveps, der klækker fra frøet. Et forår er et antal kogler indsamlet. For at få et skøn over, hvor mange af frøene, der indeholder en larve, tages et røngtenbillede af 100 frø fra hver kogle, og antallet af frø med larver tælles. Dette tal divideret med 100 kaldes infektionshyppigheden, p in f, af koglen. På baggrund af teoretiske overvejelser vil man forvente, at den transformerede infektionshyppighed x in f = sin 1 ( p in f ) er approksimativt normalfordelt med konstant varians. Det vil blive delvist kontrolleret i løbet af opgaven. Et af formålene med studiet var at undersøge, om der var sammenhæng mellem fysiske kendetegn ved koglerne og infektionshyppigheden. Vi skal her kun se på diameteren, som blev målt i millimeter med en nøjagtighed på 5 mm. På grund af den dårlige målenøjagtighed blev der kun målt fire forskellige diametre: 40 mm, 45 mm, 50 mm og 55 mm. 1) På baggrund af ovenstående spørgsmål, skal man opstille og kontrollere en model, som kan bruges til at besvare de følgende spørgsmål. I slutningen af opgaven er angivet nogle beregnede størrelser som kan benyttes til besvarelse af opgaven. 2) Vis, at det kan antages, at variansen på x in f ikke afhænger af diameteren. 3) Undersøg, om det kan antages, at middelværdien af x in f afhænger lineært af diameteren. 4) Angiv estimater og konfidensintervaller i slutmodellen. Diameter Antal observationer SSD (i) f (i) Variansskøn 40 15 0.26264 14 0.01876 45 18 0.23869 17 0.01404 50 22 0.27033 21 0.01287 55 11 0.19889 10 0.01989 Ialt 66 0.97055 62 0.01565 x in f Diameter S 51.50 3115 U SS 41.6492 148725 SP 2403.65 Opgave 3.22 Data til denne opgave er en del af en større undersøgelse af forekomsten af svampe i hedejord, og specielt en gruppe, der vokser i tilknytning til lyngrødderne og benævnes Mykorrhiza.
OPGAVER 205 På et hedeareal vælges 5 punkter tilfældigt og en jordcylinder udtages med et jordbor. Rødderne udvaskes og svampe i rødderne kvantificeres i mikroskop og procentdelen af rodceller med svampe gøres op. For at undersøge en eventuel årstidsvariation er denne høst af rødder gentaget fire gange på et år. Høst 1 er udtaget i oktober 1992, høst 2 i februar 1993, høst 3 i maj 1993 og høst 4 i august 1993. Hedejorden består af to karakteristiske jordlag, mor og blegsand. Hele proceduren er udført to gange, så rødder er høstet både i morlaget og i blegsandslaget. I Tabel 3.14 er gengivet data fra morlaget og i Tabel 3.15 er gengivet data fra blegsandslaget. Mykorrhiza procent i morlaget Høst 1 Høst 2 Høst 3 Høst 4 37.00 42.00 46.75 38.00 44.50 31.00 43.50 47.50 47.25 43.25 37.50 28.25 47.50 46.75 50.50 35.50 45.75 37.25 47.50 39.75 Tabel 3.14 Data fra morlaget. Mykorrhiza procent i blegsandslaget Høst 1 Høst 2 Høst 3 Høst 4 43.75 52.00 47.50 34.25 40.50 47.00 45.00 51.25 49.75 38.75 38.50 38.25 39.00 41.00 51.25 39.50 39.50 41.50 55.00 41.50 Tabel 3.15 Data fra blegsandslaget. Nærmere undersøgelser viser, at det kan antages, at Mykorrhiza procenterne fra samme høsttidspunkt og samme jordlag er uafhængige observationer fra samme normalfordeling. I beregningerne må benyttes resultaterne af beregningsskemaerne, som er gengivet sidst i opgaven. I første omgang betragtes kun data fra morlaget og dermed kun beregningsskemaet i Tabel 3.16. 1) Vis, at det kan antages, at variansen på Mykorrhiza procenten ikke afhænger af høsttidspunktet. 2) Vis, at det kan antages, at middelværdien af Mykorrhiza procenten ikke afhænger af høsttidspunktet. En tilsvarende analyse for blegsandslaget leder frem til den samme model, nemlig at variansen på Mykorrhiza procenten ikke afhænger af høsttidspunktet, og at middelværdien af Mykorrhiza procenten ikke afhænger af høsttidspunktet.
206 OPGAVER Responsvariabel: Mykorrhiza procent Gruppevariabel: TID Beregningsskema: Estimeret Gennemi ni Si USSi Si2/ni SSDi fi varians snit 1 5 222.000 9931.1250 9856.8000 74.3250 4 18.58125 44.4000 2 5 200.250 8168.6875 8020.0125 148.6750 4 37.16875 40.0500 3 5 225.750 10290.5625 10192.6125 97.9500 4 24.48750 45.1500 4 5 189.000 7338.6250 7144.2000 194.4250 4 48.60625 37.8000 -------------------------------------------------------------==================== 20 837.000 35729.0000 35213.6250 515.3750 16 32.21094 Tabel 3.16 Standardberegninger for morlaget. Responsvariabel: Mykorrhiza procent Gruppevariabel: TID Beregningsskema: Estimeret Gennemi ni Si USSi Si2/ni SSDi fi varians snit 1 5 212.500 9110.6250 9031.2500 79.3750 4 19.84375 42.5000 2 5 220.250 9817.8125 9702.0125 115.8000 4 28.95000 44.0500 3 5 237.250 11415.0625 11257.5125 157.5500 4 39.38750 47.4500 4 5 204.750 8545.1875 8384.5125 160.6750 4 40.16875 40.9500 -------------------------------------------------------------=================== 20 874.750 38888.6875 38375.2875 513.4000 16 32.08750 Tabel 3.17 Standardberegninger for blegsandslaget. 3) Undersøg, om variansen er den samme for Mykorrhiza procenten i morlaget og i blegsandslaget. 4) Undersøg, om middelværdien af Mykorrhiza procenten er den samme i morlaget og i blegsandslaget. Opgave 3.23 I en række tilfælde finder vi likelihood ligningen og angiver en løsning, som vi postulerer maksimerer likelihood funktionen. Det kræver dog altid en overvejelse, og i mange modeller er det langt fra trivielt at vise, at løsninger til likelihood ligningen er maksimum likelihood estimater. 1) Én normalfordelt observationsrække med kendt varians. Vis, at log likelihood funktionen (3.25) side 82 antager sit globale maksimum for µ = x. 2) Én normalfordelt observationsrække. Vis, at (µ,σ 2 ) = ( x, ˆσ 2 ), som er angivet side 83, er et punkt hvor log likelihood funktionen (3.26) antager sit globale maksimum.
OPGAVER 207 3) Lineær regression. Vis, at løsningerne, ( ˆα, ˆβ), til likelihood ligningerne (3.55) side 140 er et punkt, hvor likelihood funktionen (3.54) antager sit globale maksimum. (Vink: Det er en fordel at omparametrisere til parametrene (µ,β), hvor µ = α + β t.) Opgave 3.24 Antag, at X er en kontinuert stokastisk variabel (k = 1) med tæthedsfunktion og lad Y = h(x), hvor h er en (strengt) monoton og differentiabel reel funktion. Vis, at tæthedsfunktionen for Y er: Opgave 3.25 Vis følgende resultater: f Y (y) = h (h 1 (y)) 1 f X (h 1 (y)), y supp f Y. (3.125) 1) Vis, at funktionen γ( ; α, λ) i (3.92) er en tæthedsfunktion for α > 0 og λ > 0, og endvidere at funktionen er strengt aftagende for α 1, mens den er unimodal for α > 1 med maksimum i x = (α 1)/λ. 2) 3) 4) 5) X Γ(α,λ) og c > 0 cx Γ(α,λ/c) (3.126) X 1 Γ(α 1,λ) X 2 Γ(α 2,λ) X 1 + X 2 Γ(α 1 + α 2,λ) (3.127) X Γ(α,λ) EX = α/λ og VarX = α/λ 2 (3.128) σ 2 χ 2 ( f) = Γ( f/2,1/(2σ 2 )) og σ 2 χ 2 ( f)/ f = Γ( f/2, f/(2σ 2 )) 6) χ 2 (2) er eksponentialfordelingen med middelværdi 2. Opgave 3.26 Vis formel (3.98), det vil sige U N(0,1) U 2 χ 2 (1). Opgave 3.27 Udled tætheden for t-fordelingen med f frihedsgrader. Opgave 3.28 Udled tætheden for F-fordelingen med ( f 1, f 2 ) frihedsgrader. Opgave 3.29 Vis formel (3.115) (eller (3.116)). Opgave 3.30 Udled tætheden for fordelingen B(α 1,α 2 ).