STATISTIKNOTER Simple normalfordelingsmodeller

Størrelse: px
Starte visningen fra side:

Download "STATISTIKNOTER Simple normalfordelingsmodeller"

Transkript

1 STATISTIKNOTER Simple ormalfordeligsmodeller Jørge Larse IMFUFA Roskilde Uiversitetsceter Februar 1999

2 IMFUFA, Roskilde Uiversitetsceter, Postboks 260, DK-4000 Roskilde. Jørge Larse: STATISTIKNOTER: Simple ormalfordeligsmodeller IMFUFA tekst r. 304b/ sider ISSN Dette hæfte er e del af udervisigsmaterialet til et kursus i statistik og statistiske modeller. Udervisigsmaterialet omfatter bladt adet følgede titler: a. Simple biomialfordeligsmodeller b. Simple ormalfordeligsmodeller c. Simple Poissofordeligsmodeller d. Simple multiomialfordeligsmodeller e. Midre matematisk-statistisk opslagsværk, ideholdede bl.a. ordforklariger, resuméer og tabeller Om kurset og kursusmaterialet ka bladt adet siges at år det er et geemgåede tema at påpege at likelihoodmetode ka beyttes som et overordet pricip for valg af estimatorer og teststørrelser, er det bladt adet begrudet i at likelihoodmetode har mage egeskaber der fra et matematisk-statistisk syspukt ases for øskelige, at likelihoodmetode er meget udbredt og yder stor aerkedelse ikke midst i Damark), og at det i al almidelighed er værd at gøre opmærksom på at ma også ide for faget statistik har overordede og strukturerede begreber og metoder; år kursusmaterialet er skrevet på dask og ikke for eksempel på scietific Eglish ), er det for at bidrage til at vedligeholde traditioere for hvorda og at ma ka tale om slige emer på dask, og så sadelig også fordi dask er det sprog som forfattere og vel også de forvetede læser er bedst til; år hæftere forude de sædvalige simple modeller, metoder og eksempler også ideholder eksempler der er væsetligt sværere, er det for at atyde ogle af de retiger ma ka arbejde videre i, og for at der ka være lidt udfordriger til de krævede læser.

3 Idhold 1 Normalfordelige Udledig af ormalfordelige Egeskaber ved ormalfordelige Opgaver Estikprøveproblemet i ormalfordelige Estimatio af µ og σ Test af hypotese om middelværdie Histogrammer og fraktildiagrammer Opgaver Tostikprøveproblemer i ormalfordelige Tostikprøveproblemet med uparrede observatioer Tostikprøveproblemet med parrede observatioer Opgaver Esidet variasaalyse Estimatio af parametree Hypotese om es grupper Bartletts test for variashomogeitet Opgaver Simpel lieær regressiosaalyse Præsetatio af modelle Estimatio af parametree Parameterestimateres middelfejl E ade formulerig af modelle Modelkotrol Test af hypoteser om liies parametre Opgaver Multipel lieær regressiosaalyse Estimatio af parametree Modelkotrol Udvælgelse af baggrudsvariable Opgaver Stikord 97 3

4 4 Idhold 8 De»maglede«figurer 99

5 1 Normalfordelige Ma har meget ofte brug for e type sadsylighedsfordeliger der ka beskrive hvorda måliger varierer tilfældigt omkrig et bestemt iveau, år det skal være såda at de faktisk observerede værdier lige så godt tilfældigvis ka være lidt over som lidt uder det teoretisk rigtige iveau. For at kue fide frem til sådae fordeliger må vi præcisere lidt øjere hvad det er der søges. Fordeligere skal beyttes til at beskrive de tilfældige variatio af måliger af lægder, masser, kocetratioer osv., altsamme størrelser der måles på e kotiuert skala. Første pukt i problempræciserige er derfor: Der søges e type kotiuerte fordeliger. Fordeligere skal beskrive de tilfældige variatio omkrig et vist iveau. Dette iveau skal idgå som e parameter µ, så modelfuktioe skal derfor være e fuktio af både e observatiosvariabel x og e parametervariabel µ: Modelfuktioe er f x; µ). Parametere µ skal beskrive hvor på talliie fordelige er beliggede, og e ædrig af parameterværdie skal svare til e forskydig af sadsylighedsfordelige he ad talliie ude at fordeliges form i øvrigt ædres. Mere præcist vil vi atage at Fordelige svarede til parameterværdie µ fås ved at forskyde fordelige svarede til parameterværdie 0 stykket µ, dvs. f x; µ) = f x µ; 0) hvor µ i pricippet ka atage alle mulige værdier. Dee betigelse udtrykker ma også på de måde at µ skal være e positiosparameter. Disse tre betigelser er ikke ok til at fastlægge fordelige, så ma er ødt til at stille ogle flere krav. Vi vil stille e statistisk betigelse, e betigelse der hadler om hvorda ma skal aalysere data fra de søgte fordelig: Da parametere µ skal beskrive det iveau hvoromkrig observatioere fordeler sig, ka ma mee at det må være rimeligt at de ukedte parameter µ skal estimeres ved geemsittet af observatioere. Da det tillige er et geemgåede pricip at ma altid skal beytte maksimaliserigsestimater, vil vi stille følgede krav: 5

6 6 Normalfordelige Maksimaliserigsestimatet for µ skal være geemsittet af observatioere. I æste afsit viser vi at disse betigelser fører frem til de såkaldte ormalfordelig med middelværdiparameter µ og variasparameter σ 2, det vil sige fordelige med tæthedsfuktio f x; µ,σ 2 ) = 1 exp 1 x µ) 2 ) 2πσ 2 2 σ 2, x R. 1.1 Udledig af ormalfordelige Vi vil i dette afsit gøre rede for at ormalfordelige faktisk er svaret på øsket om e type kotiuerte fordeliger på de reelle akse således at fordeligere er parametriseret med e positiosparameter, og således at maksimaliserigsestimatet for positiosparametere er geemsittet af observatioere. Det går for sig på dee måde: 1. Modelfuktioe hørede til et forsøg med é observatio kaldes som ævt f x; µ). Modelfuktioe svarede til et forsøg med observatioer x 1, x 2,..., x er da f x i ; µ), så likelihoodfuktioe er Lµ) = f x i ; µ). 2. Da der skal være tale om e positiosparameter må der gælde at f x; µ) = f x µ; 0) = f 0 x µ), hvor f 0 er brugt som e kort betegelse for f ; 0). Likelihoodfuktioe ka derfor skrives som Lµ) = f 0 x i µ), og log-likelihoodfuktioe er tilsvarede l Lµ) = l f 0 x i µ). 3. Vi har stillet som krav at l L skal atage si maksimale værdi i puktet µ = x. Hvis vi desude går ud fra at f 0 og dermed også l L er e pæ differetiabel fuktio, så er de afledede l L) lig 0 i dette maksimumspukt: l L) x) = 0.

7 1.1 Udledig af ormalfordelige 7 4. Af udtrykket for l L fås l L) µ) = = l f 0 ) x i µ) gx i µ), hvor g er e kort betegelse for l f 0 ). Kravet om at maksimaliserigsestimatet skal være lig geemsittet x, betyder derfor at fuktioe g skal opfylde betigelse gx i x) = ) 5. Fiduse er u at formel 1.1) skal gælde for alle valg af x 1, x 2,..., x, og ved at idsætte ogle tilpas sedigt valgte x-er ka ma få at vide hvorda fuktioe g ødvedigvis må se ud. a) Ved at vælge = 2 og x 2 = x 1 = y hvorved x = 0) fås af formel 1.1) at g y) + gy) = 0, dvs. for vilkårligt y. Specielt er g0) = 0. g y) = gy) 1.2) b) Ved at vælge = k + 1 og lade de k første x-er være es og lade geemsittet være 0, mere præcist ved at vælge x 1 = x 2 =... = x k = y og x k+1 = ky, fås at k g y) + gk y) = 0, der ved brug af formel 1.2) ka formuleres som gk y) = k gy) 1.3) gældede for vilkårligt y og k = 1, 2, 3,.... Ved at bruge formel 1.2) edu e gag ka ma u slutte at formel 1.3) gælder for vilkårlige reelle tal y og for vilkårlige hele tal k. c) I formel 1.3) ka vi vælge y = j / k hvor j og k er heltal. Derved fås at g j) = k g j / k ), dvs. at g j / k ) = 1 / k g j). Me vi ka også vælge y = 1 og k = j i formel 1.3), og derved får vi g j) = j g1). Alt i alt er dermed g j / k ) = j / k g1), hvilket vi formulerer såda: for alle ratioale tal y. gy) = y g1) 1.4) = g1) y Medmidre g skal være e gaske overordetlig usædvalig fuktio, er det såda at år formel 1.4) gælder for alle ratioale tal y, så gælder de også for alle reelle tal y. Vi vil gå ud fra at formel 1.4) gælder for alle

8 8 Normalfordelige y, og vi er altså så ået frem til at fuktioe g er e almidelig lieær fuktio: for e passede valgt kostat c. gx) = c x 6. Da g blot var e kort betegelse for fuktioe l f 0 ), ka vi deræst fide f 0 : Hvis l f 0 ) x) = c x, så er l f 0 x) = 1 2 c x2 + kostat, dvs. f 0 x) = kostat exp 2 1 c x2). 7. Dee fuktio f 0 skal være e sadsylighedstæthed hvilket vil sige at de skal være ikke-egativ og itegrere til 1, altså + f 0 x)dx = 1. For at dette sidste skal kue lade sig gøre må kostate c ødvedigvis være positiv; traditioe tro omdøber vi c til 1/σ 2 hvorved tæthedsfuktioe får udseedet f 0 x) = kostat exp 2 1 x 2 ) σ 2. De betigelse at f 0 skal itegrere til 1 fastlægger kostate; ma ka vise at de skal være 1/ 2πσ 2. Dermed har vi fudet at 1 f 0 x) = exp 1 x 2 ) 2πσ 2 2 σ 2 og dermed f x; µ) = f 0 x µ) = 1 2πσ 2 exp 1 2 x µ) 2 8. Det opridelige problem bestod i at fide e type fordeliger hvor der idgik e positiosparameter µ. I de fude løsig optræder imidlertid også e størrelse σ 2 der er kommet id i billedet som e itegratioskostat. Dee størrelse udæver vi til e parameter, og samtidig omdøbes f x; µ) til f x; µ,σ 2 ): f x; µ,σ 2 ) = 1 2πσ 2 exp 1 2 σ 2 x µ) 2 Der gælder at for ethvert valg af µ R og σ 2 > 0 er dette e sadsylighedstæthedsfuktio, emlig for ormalfordelige med positiosparameter eller middelværdiparameter) µ og kvadratisk skalaparameter eller variasparameter) σ 2, kort N µ,σ 2 ). σ 2 ). ).

9 1.2 Egeskaber ved ormalfordelige 9 Resultatet af oveståede udlediger er således at hvis vi er på jagt efter e type kotiuerte sadsylighedsfordeliger hvor der optræder e positiosparameter, og hvis vi forlager at dee positiosparameter skal estimeres ved geemsittet af observatioere, så er ormalfordeliger de eeste type fordeliger der ka komme på tale. Stregt taget har vi ikke vist at ormalfordeligere faktisk har de øskede egeskab, me det kommer i det følgede.) Normalfordeliger kaldes også Gauß-fordeliger. K.F.Gauß ) beyttede ormalfordeliger til at beskrive bl.a. astroomiske måligers tilfældige fra de sade værdi. I værket Theoria Motus Corporum Coelestium i Sectioibus Coicus Arbietium dvs. Teori om de himmelske legemers bevægelser i keglesit omkrig sole) argumeterede ha for ormalfordelige på e måde der meget liger de der er beyttet her. 1.2 Egeskaber ved ormalfordelige Her gives e oversigt ude beviser) over forskellige egeskaber ved ormalfordelige: Normalfordelige med parametre µ og σ 2, kort N µ,σ 2 )-fordelige, er de sadsylighedsfordelig på de reelle talakse R som har tæthedsfuktioe f x; µ,σ 2 ) = 1 2πσ 2 exp 1 2 x µ) 2 Her ka parametere µ være et vilkårligt reelt tal og parametere σ 2 et vilkårligt positivt tal. Parametere µ er e positiosparameter, dvs. hvis X er N µ,σ 2 )-fordelt og a e kostat, så vil a + X være N a + µ,σ 2 )-fordelt. Desude er µ middelværdie i N µ,σ 2 )-fordelige. Edvidere er µ mediae i N µ,σ 2 )-fordelige. Parametere σ 2 er e kvadratisk skalaparameter, hvilket vil sige at hvis X er N 0,σ 2 )-fordelt og b e kostat, så vil bx være N 0, b 2 σ 2 )-fordelt. Desude er σ 2 variase i N µ,σ 2 )-fordelige, og dermed er σ stadardafvigelse i N µ,σ 2 )-fordelige. Udertide kaldes 1/σ 2 for præcisioe i fordelige, fordi 1/σ 2 er et udtryk for hvor sævert fordelige er kocetreret om si middelværdi. Hvis X er N µ,σ 2 )-fordelt, så vil a + bx være N a + bµ, b 2 σ 2 )-fordelt; her beteger a og b kostater. De ormerede ormale fordelig er N 0, 1)-fordelige. Des tæthed beteges ofte ϕ: σ 2 ). ϕx) = 1 2π exp 1 2 x2 ), x R.

10 10 Normalfordelige Figur 1.1 Tæthedsfuktioer for ormalfordeliger med middelværdi 0 og varias hhv. 0.5, 1, 2, 4 og 8. Des kumulerede fordeligsfuktio beteges tilsvarede Φ, dvs. Φu) er sadsylighede for at e N 0, 1)-variabel er midre ed eller lig u: Φu) = = u ϕx) dx 1 2π u E N µ,σ 2 )-variabel har tæthedsfuktio x 1 σ ϕ x µ σ og kumuleret fordeligsfuktio ) x µ x Φ. σ exp 1 2 x2 ) dx. Hvis α er et tal mellem 0 og 1 så har ligige Φu) = α etop é løsig, emlig α-fraktile u α i de ormerede ormale fordelig. Ved at lægge fem til fraktilere fås de såkaldte probits dvs. probability uits): ) probitα) = u α + 5. I statistiske tabelværker fides tabeller over Φu) og over fraktilere u α eller u α + 5.

11 1.3 Opgaver Opgaver Opgave 1.1 Diskutér om det vil være rimeligt at beytte ormalfordeligsmodeller med uafhægige observatioer) i de situatioer der kort atydes her: 1. Bredde af kraiet på 20 toårige grøladske seharer faget ved Sødre Strømfjord e bestemt sommer. 2. Vidstyrke kl. 12 på e bestemt lokalitet på 50 på hiade følgede dage. 3. Vægte af 100 tilfældigt udvalgte sild ladet i Gilleleje e bestemt dag. 4. Kocetratioe af NO x kl ved Nørreport Statio hver dag i ovember måed. 5. Høstudbyttet på hver af 10 forsøgsparceller à 500 m 2 ) med e y sort viterbyg. 6. Vægte af levere i 27 fem uger gamle forsøgsmus. 7. Atal yregistrerede AIDS-tilfælde i Damark i hver af 12 på hiade følgede måeder. 8. Atal yregistrerede leukæmi-tilfælde i Damark i hver af 12 på hiade følgede måeder. 9. Levetide af 50 elektriske 40W pærer af samme fabrikat. 10. Det årlige atal trafikulykker i Købehav og Frederiksberg kommuer hvor cyklister er idbladet, for hvert af åree Opgave 1.2 Løs ved hjælp af passede tabeller følgede delopgaver: 1. Fid 25%-fraktile i de ormerede ormalfordelig N 0, 1). 2. Fid 75%-fraktile i de ormerede ormalfordelig N 0, 1). 3. Fid et iterval af forme [ x, x] som ideholder 50% af sadsylighedsmasse i de ormerede ormalfordelig N 0, 1). 4. Fid et iterval af forme [ x, x] som ideholder 95% af sadsylighedsmasse i de ormerede ormalfordelig N 0, 1). 5. Hvor stor e del af sadsylighedsmasse i de ormerede ormalfordelig N 0, 1) er ideholdt i itervallet [ 1, 1]? Opgave 1.3 Løs ved hjælp af passede tabeller følgede delopgaver:

12 12 Normalfordelige 1. Udtryk 25%-fraktile i ormalfordelige N µ,σ 2 ) ved µ og σ Udtryk 75%-fraktile i ormalfordelige N µ,σ 2 ) ved µ og σ Agiv et iterval af forme [µ x, µ + x] som ideholder 50% af sadsylighedsmasse i ormalfordelige N µ,σ 2 ). 4. Agiv et iterval af forme [µ x, µ + x] som ideholder 95% af sadsylighedsmasse i ormalfordelige N µ,σ 2 ). 5. Hvor stor e del af sadsylighedsmasse i ormalfordelige N µ,σ 2 ) er ideholdt i itervallet [µ σ, µ + σ]? TIP: Udyt evetuelt Opgave 1.2 Opgave 1.4 Geerelt er e α-fraktil i e fordelig et tal x α med de egeskab at brøkdele α af fordelige ligger til vestre for x α. Fid α-fraktile x α i N µ,σ 2 )-fordelige udtrykt ved µ, σ 2 og ved α-fraktile u α i de ormerede ormalfordelig. TIP: Værdie af de kumulerede fordeligsfuktio for N µ,σ 2 )) udreget i x α skal være lig α. De kumulerede fordeligsfuktio ka udtrykkes ved Φ.

13 2 Estikprøveproblemet i ormalfordelige Normalfordelige blev i Kapitel 1 udledt i forbidelse med søgige efter e fordelig hvor positiosparametere estimeres ved geemsittet af observatioere. Vi magler imidlertid at gøre rede for at ormalfordelige faktisk har dee eftertragtede egeskab, me det vil ske i ideværede Kapitel som led i behadlige af»estikprøveproblemet i ormalfordelige«. Estikprøveproblemet i ormalfordelige hadler om e ekelt stikprøve, altså et atal uafhægige observatioer, y 1, y 2,..., y, fra e N µ,σ 2 )-fordelig. Parametree µ og σ 2 er ukedte, og problemet er at bestemme estimater over dem og måske teste hypoteser om dem. E ade side af sage er modelkotrolproblemet, dvs. spørgsmålet om hvorda ma vurderer om observatioere u også med rimelighed ka beskrives som værede ormalfordelte. Eksempel 2.1 Lysets hastighed) I åree foretog de amerikaske fysiker A.A.Michelso og de amerikaske matematiker og astroom S.Newcomb e række efter de tids forhold temmelig øjagtige bestemmelser af lysets hastighed i luft. Deres metoder var baseret på Foucaults idé med at sede e lysstråle fra et hurtigt roterede spejl he på et fjert fast spejl som returerer lysstråle til det roterede hvor ma måler des vikelforskydig i forhold til de opridelige lysstråle. Hvis ma keder rotatioshastighede samt afstade mellem spejlee, ka ma derved bestemme lyshastighede. I Tabel 2.1 er vist resultatere af de 66 måliger som Newcomb foretog i periode 24. juli til 5. september 1882 i Washigto, D.C. I Newcombs opstillig var der 3721 m Tabel 2.1 Newcombs bestemmelser af lysets passagetid af e strækig på 7442 m. Tabelværdiere er passagetide i 10 6 sek

14 14 Estikprøveproblemet i ormalfordelige mellem det roterede spejl der var placeret i Fort Myer på vestbredde af Potomac-flode, og det faste spejl der var abragt på George Washigto-moumetets fudamet. De størrelse som Newcomb rapporterer, er lysets passagetid, altså de tid som det er om at tilbagelægge de pågældede distace. Af de 66 værdier i Tabel 2.1 skiller to sig ud, emlig 44 og 2, der syes at være»outliers«, altså tal der tilsyeladede ligger for lagt væk fra flertallet af observatioere. Det er altid et vaskeligt spørgsmål at afgøre om det er forsvarligt at se bort fra»outliere«. I aalyse af tallee i Tabel 2.1 vil vi vælge at se bort fra de to ævte observatioer således at vi ku har at gøre med 64 observatioer. I de geerelle situatio foreligger der størrelser y 1, y 2,..., y der atages at være observerede værdier af stokastiske variable Y 1, Y 2,..., Y som er uafhægige idetisk N µ,σ 2 )-fordelte; her er µ og σ 2 ukedte parametre. Modelfuktioe er f y 1, y 2,..., y ; µ,σ 2 ) = = 1 2πσ 2 exp πσ 2 ) exp ) y j µ) 2 1 2σ 2 σ 2 y j µ) 2 ).2.1) Likelihoodfuktioe svarede til observatioere y 1, y 2,..., y er derfor Lµ,σ 2 ) = kostat σ 2 ) /2 exp 1 2σ 2 y j µ) 2 ). 2.2) 2.1 Estimatio af µ og σ 2 Vi vil bestemme maksimaliserigsestimatere for µ og σ 2. Af udtrykket for likelihoodfuktioe ses at ligegyldigt hvilke værdi σ 2 måtte have, så er de bedste µ-værdi, altså de µ-værdi som maksimaliserer µ Lµ,σ 2 ), de værdi som miimaliserer kvadratsumme y j µ) 2. Ved at beytte formle for kvadratet på e toleddet størrelse ka kvadratsumme omskrives på

15 2.1 Estimatio af µ og σ 2 15 følgede måde hvor y beteger geemsittet af y-ere: altså y j µ) 2 = = = = = y j y) + y µ) ) 2 y j y) 2 + 2y j y)y µ) + y µ) 2) y j y) 2 + y j y) 2 + 2y µ) y j y) 2 + y µ) 2, y j µ) 2 = 2y j y)y µ) + y µ) 2 y j y) + y µ) 2 y j y) 2 + y µ) ) Heraf ses at kvadratsumme er midst etop år µ er lig med y. Derfor er maksimaliserigsestimatet for µ faktisk geemsittet af observatioere, ˆµ = y, således som det jo også var take at det skulle være. Herefter ka ma bestemme maksimaliserigsestimatet for σ 2 som maksimumspuktet for fuktioe σ 2 Ly,σ 2 ), og ma fider at de atager sit maksimum år σ 2 har værdie ˆσ 2 = 1 y j y) 2. Imidlertid beytter ma som regel ikke dette estimat over σ 2, me derimod s 2 = 1 1 y j y) 2, 2.4) hvor divisore 1 i dee forbidelse kaldes for atallet af frihedsgrader for variasestimatet s 2. Eksempel 2.2 Lysets hastighed, fortsat) Hvis vi går ud fra at de 64 positive værdier i Tabel 2.1 ka betragtes som observatioer fra e og samme ormalfordelig, så skal dee ormalfordeligs middelværdi estimeres til y = og des varias til s 2 = 25.8 med 63 frihedsgrader. Det betyder at passagetides middelværdi estimeres til ) 10 6 sek = sek

16 16 Estikprøveproblemet i ormalfordelige og passagetides varias estimeres til sek) 2 = sek) 2 med 63 frihedsgrader, dvs. stadardafvigelse estimeres til sek = sek. Beregigstips og -tricks Når ma skal udrege e kokret s 2 -værdi, ka ma aturligvis bare idsætte talværdiere i formel 2.4), det vil sige først udrege geemsittet y, så trække det fra alle y j -ere og kvadrere og summere, og til sidst dividere med 1. Hvis ma reger med hådkraft/lommereger, er det imidlertid ofte e fordel at udytte at summe af de kvadratiske afvigelser ka omskrives på følgede måde: y j y) 2 = = = y 2 j 2y iy + y 2) y 2 j y2 ) 2 y 2 j 1 y j. Summe af de kvadratiske afvigelser ka altså udreges ved at ma først fider summe og summe af kvadratere af observatioere, og så idsætter dem i oveståede forholdsvis simple formel. 1 Bemærk dog at metode er temmelig følsom overfor afrudigsfejl fordi de eder med at ma skal trække to ofte meget store positive tal fra hiade). Metode illustreres med et eksempel der samtidig omtaler edu et par smarte tricks. Betragt følgede kostruerede!) talmateriale: y 1 = y 2 = y 3 = y 4 = y 5 = y 6 = y 7 = Når vi her skal udrege geemsittet y af y j -ere, er det smart at idføre et såkaldt beregigsulpukt a, f.eks. a = , og så udrege y som 1 Mage lommeregere har e»statistikkap«σ+) der gør det let at udrege y og s 2. Lommeregere beytter tre hukommelsesregistre hvor de gemmer heholdsvis, y og y 2. Når ma idtaster et tal og trykker på Σ+-taste, opdateres de tre registre. Til sidst trykker ma på ogle passede taster, og lommeregere udreger y på de oplagte måde og s 2 ved hjælp af de her præseterede formel.

17 2.1 Estimatio af µ og σ 2 17 a + y a. Med det omtalte valg af a bliver y a = )/7 = 23 7 = , og dermed y = Summe af de kvadratiske afvigelser ædres ikke år ma trækker det samme tal a fra alle y j -ere fordi det etop drejer sig om afvigelser). Ved beregige ka vi derfor lade som om observatioere er tallee y j a, altså 1, 3, 2, 1, 8, 3, 5; summe af disse tal fadt vi ovefor til 23, og summe af deres kvadrater er = 113 så summe af de kvadratiske afvigelser af y j -ere eller af y j a-ere) er = ; edelig er så s 2 = = Me hvad u hvis observatioere havde været f.eks gage midre: y 1 = y 2 = y 3 = y 4 = y 5 = y 6 = y 7 = Så ville geemsittet ligeledes være blevet 10 6 gage midre, og s 2 ville være blevet = gage midre, altså y = og s 2 = Hvorfor beyttes s 2? Det ka der argumeteres for på forskellige måder. Det lettest hådterlige og forståelige argumet er at s 2 i modsætig til ˆσ 2 ) er e cetral estimator over σ 2, hvilket vil sige at middelværdie af de stokastiske variabel s 2 er lig σ 2, altså E s 2 = σ 2, således at estimatore»i middel«rammer de rigtige værdi. Bevis for at s 2 er cetral: Atag at Y 1, Y 2,..., Y er uafhægige N µ,σ 2 )-variable. Der gælder at Y j Y) 2 = = Y j µ) 2 + 2Y j µ)µ Y) + µ Y) 2) Y j µ) 2 Y µ) 2. Ved at tage middelværdi fås idet vi udervejs beytter at EY) = µ og VarY) = σ 2 /): dvs. E Y j Y) 2 = E EY j µ) 2 EY µ) 2 = VarY) VarY) = 1)VarY) = 1)σ 2, ) 1 1 Y j Y) 2 = σ 2.

18 18 Estikprøveproblemet i ormalfordelige Mod dette argumet ka ma idvede at det er baseret på et yt pricip pricippet om cetrale estimatorer) der tilsyeladede blot er hetet id på scee til dee lejlighed. Hvis likelihoodmetode virkelig skal være oget der er værd at beskæftige sig med, så burde ma kue basere si argumetatio udelukkede på de. Det ka ma også til e vis grad, og det skal u atydes hvorda. De to parametre µ og σ 2 i ormalfordelige opfattes sædvaligvis ikke som værede ligestillede. Ma plejer at tæke på middelværdiparametere µ som de primære da de jo beskriver de systematiske variatio, emlig det iveau hvorom observatioere fordeler sig, hvorimod variasparametere σ 2 der»ku«beskriver de tilfældige variatio, kommer i ade række. Som e kosekves heraf ka ma mee at ma ikke skal estimere de to parametre samtidigt, me at ma først skal estimere µ og deræst σ 2. Ma skal derfor til estimatioe af σ 2 ku beytte det der er tilbage af iformatioe i) talmaterialet efter at ma først har estimeret µ. Hvis der f.eks. foreligger de fem observatioer 3.2, 5.7, 2.1, 7.4, 3.1 som tækes at stamme fra e N µ,σ 2 )-fordelig, så estimeres først de»væsetlige«parameter µ ved geemsittet )/5 = 21.5/5 = 4.3. Deræst skal ma estimere σ 2 der skal beskrive de tilfældige variatio omkrig iveauet 4.3. Da det u ka siges at være givet at de fem værdier skal have geemsit 4.3, dvs. at de fem afvigelser fra geemsittet skal summere til 0, så er der på si vis ku fire forskellige afvigelser. Når ma skal estimere variase der jo er de forvetede kvadratiske afvigelse af e observatio fra middelværdie), bliver det derfor som summe af de kvadratiske afvigelser divideret med fire: ) ) ) ) ) 2) /4 = 1.1) ) ) 2) /4 = 19.08/4 = 4.77 Ma siger at der er fire frihedsgrader fordi år det er fixeret at de fem observatioer skal have et bestemt geemsit f.eks. 4.3), så ka ma vælge fire af de fem afvigelser fra geemsittet frit. Oveståede argumet for at dividere summe af de kvadratiske afvigelser med 1 i stedet for med ka jo roligt siges at være oget løst og upræcist, me det ka faktisk godt præciseres. Det forhold at variasparametere σ 2 tækes at spille e uderordet rolle i forhold til middelværdiparametere µ, og at dette skal afspejles i de måde parametree skal estimeres på, ka formaliseres på følgede måde: Ma skal først estimere µ på sædvalig måde, me deræst skal ma estimere σ 2 i de betigede model hvor ma betiger med ˆµ, altså med y. Estimatet over σ 2 skal være maximum likelihood estimatet, me ma skal vel at mærke beytte likelihoodfuktioe svarede til de betigede fordelig af Y 1, Y 2,..., Y givet at Y er lig med y. Hvis det skal gå bare ogelude matematisk korrekt til, er det ikke oget simpelt problem at bestemme dee betigede fordelig det skyldes at der er tale om kotiuerte fordeliger. Me hvis ma i al aivitet reger med at der gælder ogelude det samme som for diskrete fordeliger, blot med tæthedsfuktioer i stedet for sadsylighedsfuktioer, så skulle de betigede tæthedsfuktio være tæthedsfuktioe for Y 1, Y 2,..., Y tæthedsfuktioe for Y. Da Y 1, Y 2,..., Y er uafhægige N µ,σ 2 )-variable, vil geemsittet Y være N µ,σ 2 /)-fordelt. Derfor bliver de betigede tæthedsfuktio ) ) 1 exp 1 2πσ 2 2σ 2 y j µ) 2 1 2πσ 2 / exp 1 2 y µ) 2 ) σ 2 / = kostat σ 2 ) 1 2 exp 1 2σ 2 y j y) 2 ) Opfattet som fuktio af σ 2 skulle dette så være de betigede likelihoodfuktio hvor i øvrigt µ meget bekvemt er forsvudet ud af billedet), altså de likelihoodfuktio der skal beyttes ved estimatio af σ 2. De betigede likelihoodfuktio er e fuktio af é variabel σ 2, og ma fider.

19 2.2 Test af hypotese om middelværdie 19 at de atager sit maksimum i ét pukt, emlig år σ 2 har værdie s 2. Der gælder altså at i de betigede model er størrelse s 2 = 1 1 y j y) 2 et maximum likelihood estimat over σ Test af hypotese om middelværdie Ma er udertide iteresseret i at udersøge om de foreliggede data er foreelige med e atagelse om at de teoretiske middelværdi µ har e bestemt værdi f.eks. 0). Mere formelt øsker ma at teste de statistiske hypotese H 0 : µ = µ 0 hvor µ 0 er et kedt tal. Hypoteser om parametre i ormalfordeliger testes pricipielt på samme måde som alle adre statistiske hypoteser, emlig ved brug af et kvotiettest der sammeliger likelihoodfuktioes maksimale værdi uder hypotese med de maksimale værdi overhovedet uder de give model. Likelihoodfuktioe er givet i formel 2.2) på side 14, og des maksimale værdi er Ly, ˆσ 2 ). Uder H 0 er likelihoodfuktioe L 0 σ 2 ) = Lµ 0,σ 2 ) og de atager si maksimumsværdi år σ 2 er lig med ˆσ 2 = 1 Kvotietteststørrelse bliver derfor Q = Lµ 0, ˆσ 2 ) Ly, ˆσ 2 ) = ˆσ 2 ) /2 ˆσ 2 exp y j µ 0 ) 2. y j µ 0 ) 2 2 ˆσ 2 y j y) 2 2 ˆσ 2 = = y j µ 0 ) 2 y j y) 2 y j µ 0 ) 2 y j y) 2 /2 /2 exp 2 ) 2 ).

20 20 Estikprøveproblemet i ormalfordelige Her omskrives kvadratsumme i tællere ved hjælp af formel 2.3) på side 15 med µ erstattet af µ 0 ), og ma får Q = = = = y j y) 2 + y µ 0 ) 2 y j y) y µ 0) 2 y j y) y µ 0) 2 1)s /2 ) /2 y µ 0 s 2 / ) 2 Størrelse y µ 0 )/ s 2 / plejer ma at betege t: og med dee betegelse har vi at Q = t = y µ 0 s 2 /, ) /2 1 + t2. 1 /2 /2 Nu er det jo såda at små værdier af Q tyder på at hypotese H 0 ikke er foreelig med data, og det ses at små Q-værdier er esbetydede med t-værdier lagt fra 0, dvs. med store t -værdier. Ma ka derfor beytte t som teststørrelse i stedet for Q, hvilket er praktisk da t er lettere at berege ed Q. Udertide kaldes t-teststørrelse for Studet s t fordi W.S.Gosset der skrev de første artikel om t-testet i 1908), skrev uder pseudoymet Studet. Bemærk at t-teststørrelse også ud fra e umiddelbar betragtig forekommer at være e foruftig teststørrelse idet de måler afvigelse y µ 0 mellem de observerede og de teoretiske middelværdi i forhold til s 2 / som er de estimerede middelfejl på på y dvs. stadardafvigelse på y). Når ma har fudet værdie af teststørrelse t, er æste skridt i testprocedure at bestemme testsadsylighede, altså sadsylighede for at få e mere ekstrem værdi af teststørrelse ed de faktisk opåede, forudsat at hypotese H 0 er rigtig. E matematisk sætig fortæller at år H 0 er rigtig, så følger t-størrelse e bestemt fordelig, emlig e såkaldt t-fordelig med f = 1 frihedsgrader; frihedsgradsatallet i t-fordelige arves fra frihedsgradsatallet for variasestimatet s 2 i ævere. 2 2 Når H 0 er er rigtig, afhæger fordelige af t hverke af µ 0 eller af σ 2, hvilket er bekvemt da vi jo ikke keder de øjagtige værdier heraf..

21 2.3 Histogrammer og fraktildiagrammer 21 I statistiske tabelværker ka ma fide tabeller over fraktiler i t-fordelige, og ved hjælp af sådae tabeller er det let at bestemme testsadsyligheder i t-testet. Ma skal dog være opmærksom på at e»mere ekstrem t-værdi«som oftest vil sige e t-værdi således at t > t obs, dvs. t > t obs eller t < t obs. Ma vil altså forkaste hypotese både hvis t obs er meget stor og hvis de er meget lille. 3 Der gælder at t-fordelige er symmetrisk omkrig 0, hvilket medfører at og dermed P 0 t > tobs ) = P 0 t < tobs ) P 0 t > tobs ) = 2 P 0 t > tobs ). Eksempel 2.3 Lysets hastighed, fortsat) I vore dage er e meter pr. defiitio de strækig som lyset i vacuum geemløber på 1/ sekud, hvoraf følger at lysets hastighed er meter pr. sekud. Med dee hastighed vil lyset være τ 0 = sekuder om at tilbagelægge strækige på de 7442 meter. Størrelse τ 0 svarer til e tabelværdi på τ ) 24.8) 10 3 = 23.8, så det ville være iteressat at udersøge om de foreliggede data er foreelige med hypotese om at de ukedte middelværdi µ har værdie µ 0 = Derfor vil vi teste de statistiske hypotese H 0 : µ = Vi har tidligere fudet at y = og s 2 = 25.8, så t-teststørrelse er t = /64 = 6.2. Da der ikke er oge grud til at tro at der ku skulle kue forekomme afvigelser i é retig, skal testet være tosidet. Testsadsylighede er derfor sadsylighede for at få t-værdier som ete er større ed 6.2 eller midre ed 6.2. Ved tabelopslag ka ma fide at i t-fordelige med 63 frihedsgrader er 99.95%-fraktile lidt over 3.4, dvs. der midre ed 0.05% sadsylighed for at få e værdi som er større ed 6.2, og testsadsylighede er dermed midre % = 0.1%. E så lille testsadsylighed betyder at ma må forkaste hypotese. Newcombs måliger af lysets passagetid stemmer altså ikke overes med hvad vi i dag ved om lysets hastighed. Vi ser at Newcombs passagetider er e smule for store, og da de lyshastighed vi her har beyttet, er lysets hastighed i vacuum, ka oget af forklarige være at lyset bevæger sig e smule lagsommere i luft ed i vacuum. 2.3 Histogrammer og fraktildiagrammer For at få e idé om modelles rimelighed vil ma ofte i et»estikprøveproblem i ormalfordelige«tege histogrammer og fraktildiagrammer. 3 Et sådat test kaldes et tosidet test, i modsætig til et esidet test der reger med at de»ekstreme«afvigelser ku ka være til de ee side, f.eks. de positive, så at ma ku forkaster hvis de observerede t-værdi er meget stor.

22 22 Estikprøveproblemet i ormalfordelige Figur 2.1 Histogram over 64 målte værdier af lysets passagetid. De idtegede kurve er tæthede for ormalfordelige med parametre y = og s 2 = Histogrammer Et histogram over et sæt observatioer y 1, y 2,..., y fås på følgede måde: 1. Iddel observatiosakse i et atal delitervaller, gere lige store, såda at der ikke er oge observatioer i itervaledepuktere. 2. Tæl op hvor mage observatioer der er i hvert iterval. 3. Teg rektagler hvis grudflader er delitervallere, og hvis arealer er lig med de brøkdel af observatioere som ligger ide for det pågældede deliterval. Hvis der er a observatioer i et iterval af lægde l, skal rektaglets højde være a/l.) 4. Histogrammet skal lige tæthedsfuktioe for de formodede sadsylighedsfordelig her e ormalfordelig). Det er derfor e god idé at idtege de estimerede fordeligs tæthedsfuktio i samme figur som histogrammet, se Figur 2.1. Ved udarbejdelse af et histogram ka det være lidt af et kuststykke at vælge de rigtige itervaliddelig således at fluktuatioere bliver passede udglattet ude at tæthedes form bliver alt for udjævet. Hvis itervallere er for korte, bliver fluktuatioere ikke udglattet ok, er de for lage, sker der e for stor udjævig af tæthedes form. Ma ka godt opskrive defiitioe på et histogram over et sæt observatioer y 1, y 2,..., y lidt mere formelt: 1. I det område hvor observatioere falder vælges delepukter der som regel bør være ækvidistate) x 0 < x 1 < x 2 <... < x m hvor x 0 er midre ed de midste og x m større ed de største af y-observatioere. 2. Bestem atallet j af y-er i det j-te iterval som er ]x j 1, x j ]). 3. Defier de stykkevis kostate fuktio h som hy) = j / x j x j 1 år y ]x j 1, x j ], 0 år y x 0 eller y > x m. Så er histogrammet svarede til de valgte iddelig) over observatioere y 1, y 2,..., y gaske simpelt grafe for h.

23 2.3 Histogrammer og fraktildiagrammer 23 Figur 2.2 Fraktildiagram over 64 målte værdier af lysets passagetid. Fraktildiagrammer Når ma har et sæt observatioer y 1, y 2,..., y, beytter ma traditioelt betegelse y 1), y 2),..., y ) for de ordede observatioer, dvs. y-ere stillet op i voksede rækkefølge. Nu er det såda at hvis alle de observerede y-er er forskellige, så er brøkdele i 1)/ af observatioere stregt midre ed tallet y i), og brøkdele i/ af dem er midre ed eller lig med tallet y i). Som et kompromis ka ma da sige at brøkdele i 0.5)/ af dem er midre ed tallet y i), med adre ord er y i) e i 0.5 -fraktil i de empiriske fordelig. Geerelt defieres e α-fraktil i e fordelig som et tal y α med de egeskab at brøkdele α af fordelige ligger til vestre for y α. Et fraktildiagram er kort fortalt e tegig hvor ma afsætter teoretiske fraktiler mod empiriske fraktiler. Hvis y-ere er observatioer fra N µ,σ 2 )- fordelige, så er de teoretiske fordeligsfuktio fuktioe y Φ y µ σ ) side 10). Derfor fider ma de teoretiske α-fraktil y α ved at løse ligige Φ y α µ σ ) = α, hvilket giver y α = µ + σ Φ 1 α). De pukter hvis førstekoordiater er de empiriske fraktiler, og hvis adekoordiater er de tilsvarede teoretiske fraktiler, det vil sige puktere med koordiater ) y i), µ + σ Φ 1 i 0.5 ), i = 1, 2,...,, bør da ligge ogelude omkrig e ret liie geem 0, 0) med hældig 1. Dette er esbetydede med at puktere med koordiater ) y i), Φ 1 i 0.5 ), i = 1, 2,...,, ligger ogelude omkrig de rette liie geem µ, 0) med hældig 1/σ. Kokret fremstiller ma fraktildiagrammet ved at idtege puktere ) y i), Φ 1 i 0.5 ), i = 1, 2,..., i et koordiatsystem hvor ma desude idteger de rette liie geem y, 0) med hældig 1/s; fuktioe Φ 1 fides tabelleret i statistiske tabelværker og er e stadardfuktio i statistikprogrammer til computere. Med sadsylighedspapir ka ma fremstille fraktildiagrammer med hådkraft uhyre let og ude at skulle bekymre sig om fuktioe Φ 1 de er emlig idbygget i sadsylighedspapiret). Sadsylighedspapiret er idrettet på de måde at ordiatakse har to skalaer: e probit-skala som er ækvidistat og går fra kap 2 til godt 8, og e ikke-ækvidistat) sadsylighedsskala med sadsyligheder i procet, gåede fra 0.05 til Ma afsætter u puktere

24 24 Estikprøveproblemet i ormalfordelige Tabel 2.2 Data til Opgave y i), i 0.5 ) idet ma beytter sadsylighedsskalae på ordiatakse; hvis tallee er ormalfordelte, skal puktere fordele sig omkrig de rette liie der ka idteges ved at beytte probit-skalae på ordiatakse og lade liie gå geem puktere y s, 4), y, 5), y + s, 6) osv. Figur 2.2 viser et fraktildiagram over de 64 målte værdier af lysets passagetid. Såvel histogrammet side 22) som fraktildiagrammet viser, at det ikke er gaske urimeligt at atage at måleresultatere er ormalfordelte. 2.4 Opgaver Opgave 2.1 Tallee i Tabel 2.2 ka opfattes som et»estikprøveproblem«i ormalfordelige. Vi beteger tallee y 1, y 2,..., y = 18). 1. Udreg geemsittet y af observatioere. 2. Udreg summe af kvadratiske afvigelser y j y) 2 på to måder, a) dels på de»umiddelbare«måde, dvs. udreg de 18 differeser y j y, kvadrér differesere og summér dem, b) dels ved at beytte det sedige trick fra side Udreg variasskøet og skøet over stadardafvigelse. 4. Stadardafvigelse på geemsittet y er 1/ gage stadardafvigelse på y-ere. Udreg de estimerede stadardafvigelse på geemsittet. Stadardafvigelse på geemsittet kaldes ofte middelfejle på y.) 5. Med hvor mage cifre bør ma agive værdie af y? Opgave 2.2 Kviksølv i sværdfisk) Sværdfisk ka være e kuliarisk oplevelse, me de er sudest år de ikke ideholder alt for mage tugmetaller. I e udersøgelse af sværdfisk på det

25 2.4 Opgaver 25 Tabel 2.3 Opgave 2.2: Kviksølvidhold ppm) i 115 sværdfisk, de ordede observatioer amerikaske marked har ma målt kviksølvidholdet i 115 tilfældigt udvalgte sværdfisk og fået resultatere i Tabel Ifølge de amerikaske sudhedsmydigheder bør kosumfisk ikke ideholde over 1 ppm kviksølv. De fisk der sælges via de autoriserede salgskaaler, ka ma kotrollere med stikprøvekotroller), og ma ka så kassere de partier der ideholder for meget kviksølv. Imidlertid sælges der også e del fisk ude om kotrolmydighedere i USA reger ma med ca. 25%. Ma er iteresseret i at vide hvorda ma skal vælge kassatiosgræse for de 75% kotrollerede fisk for at opå at geemsitsidholdet af kviksølv i de fisk der år frem til forbrugere, bliver 1 ppm eller deruder). Hvis ma skal kue berege dee græse, er ma ødt til at kede fordelige af kviksølvidhold i sværdfisk. 1. Det ville være bekvemt hvis observatioere kue beskrives ved e ormalfordelig, så det øsker ma at udersøge. a) Udreg estimatere y og s 2 over µ og σ 2. b) Teg et histogram over kviksølvidholdet i de 115 sværdfisk. Idteg skitsemæssigt) de fittede ormalfordeligstæthed dvs. tæthede for ormalfordelige med parametre y og s 2 ). c) Teg et fraktildiagram f.eks. på sadsylighedspapir). Idteg de rette liie der svarer til de fittede ormalfordelig. 2. I de opridelige aalyse af tallee gik ma ud fra at kviksølvkocetratioe i sværdfisk var logaritmisk ormalfordelt, hvilket betyder at logaritme til kocetratioere er ormalfordelt. Diskutér dee formodig. TIP: Summe af observatioere er , og summe af kvadratere er For logaritme de aturlige logaritme) til observatioere er de tilsvarede tal og Lee & Krutchkoff 1980): Mea ad variace of partially-trucated distributios. Biometrics 36,

26 26 Estikprøveproblemet i ormalfordelige Tabel 2.4 Data til Opgave 2.4: 20 eksempler på udfald af stokastiske variable Y 1, Y 2,..., Y 10 frembragt af e ormalfordeligs-tilfældighedsmekaisme med middelværdi 5 og varias 3. y 1 y 2 y 3 y 4 y 5 y 6 y 7 y 8 y 9 y 10 y s Opgave 2.3 fortsættelse af Opgave 2.2; svær) Løs det der er det overordede problem i Opgave 2.2, emlig hvorda skal ma fastsætte kassatiosgræse for de 75% af fiskee der kotrolleres hvis ma vil opå at forbrugere i geemsit højst udsættes for e kviksølvbelastig på 1 ppm. Opgave 2.4 Tabel 2.4 ideholder 20 stikprøver y 1, y 2,..., y 10 fra e ormalfordelig med parametre µ = 5 og σ 2 = Hvorda fordeler de ekelte stikprøvers estimerede middelværdier y sig omkrig de teoretiske middelværdi µ = 5? 2. Ma ka bevise at geemsittet af N µ,σ 2 )-fordelte størrelser ka opfattes som e observatio fra N µ,σ 2 /)-fordelige. De 20 geemsit y 1, y 2,..., y 20 skulle altså være observatioer fra e ormalfordelig med middelværdi 5 og varias 3/10. Ser det ud til at passe? a) Udreg geemsittet y = y 1 + y y 20 ) /20 og de empiriske varias på y i 1 -ere, dvs. yi y ) Giver det cirka 5 og 0.3? 20

27 2.4 Opgaver 27 b) Teg et fraktildiagram over y 1, y 2,..., y Udreg for hver af de 20 stikprøver t-teststørrelse for hypotese µ = 5. Hvorda fordeler t-værdiere sig? Udreg de 20 testsadsyligheder. Hvor mage af dem er uder 5%? Er tigee som ma skulle forvete og hvad skulle ma egetlig forvete? 4. I realitete foreligger der jo 200 observatioer fra e og samme ormalfordelig. Skitsér hvorda ma ud fra disse 200 observatioer kue teste hypotese om at de teoretiske middelværdi er lig 5.

28 28

29 3 Tostikprøveproblemer i ormalfordelige E ofte forekommede situatio er at der foreligger måliger af e bestemt egeskab hos et atal idivider der på forhåd vides at tilhøre forskellige grupper. Alt afhægigt af karaktere af måligere ka ma så beytte de ee eller ade eller tredje statistiske model/metode for dels at beskrive, dels at sammelige de pågældede grupper. I dette kapitel skal vi diskutere metoder der ka beyttes, år der på hvert idivid er målt é ekelt talværdi, talværdie opfattes som værede e værdi på e kotiuert måleskala, ma vælger at beskrive de tilfældige variatio med e ormalfordelig. Når betigelsere er formuleret i vediger som»opfattes som værede«og»vælger at beskrive«, skyldes det at ormalfordelige ofte beyttes også i situatioer hvor ma kue pege på adre mere rigtige fordeliger. Tit er der e eller to forholdsvis gode grude til alligevel at beytte ormalfordelige. De ee grud er De Cetrale Græseværdisætig der siger at summer af et større atal stokastiske variable uder visse milde omstædigheder med god tilærmelse er ormalfordelt, og de størrelser ma laver statistiske modeller for, er etop tit sådae summer. De ade grud er ret pragmatisk: Normalfordeligsmodeller er fra et matematisk-statistisk syspukt særdeles»pæe«i de forstad at år ma i ormalfordeligsmodeller beytter de geerelle statistiske pricipper, så bliver resultatet æste altid pæe og simple metoder der ofte er lette at forstå og giver emme og forståelige udregiger osv. Som følge heraf er ormalfordeligsmodeller studeret og beskrevet i alle detaljer, og ma ka for det meste fide e teoretisk geemreget model der passer til es behov. Hvori består problemet? Atag at der er tale om e situatio hvor ma på hvert af et atal»idivider«har målt værdie af e bestemt variabel Y. Idivider skal her forstås i meget bred forstad: det ka bl.a. være persoer, forsøgsdyr, jordlodder eller f.eks. de ekelte realisatioer af forsøget»målig af lysets hastighed«. Idividere er opdelt i grupper ud fra ogle kriterier som er kedt på forhåd ide forsøget starter), og som ikke afhæger af hvilke værdi Y u måtte have. I de statistiske model for Y-ere vil ma rege med at de forskel der er mellem 29

30 30 Tostikprøveproblemer i ormalfordelige Y-værdiere hos) idividere ide for e bestemt gruppe, er tilfældig, og at de forskel der er mellem forskellige grupper, er systematisk. E ormalfordeligsmodel til dee situatio er da idrettet på de måde at de systematiske forskel mellem grupper beskrives ved hjælp af middelværdiparametre, og de tilfældige forskel ide for grupper beskrives ved hjælp af dels ormalfordelige, dels variasparametre i ormalfordelige. Det statistiske problem består tit i at ma øsker at sammelige gruppere for at vurdere om de systematiske forskel mellem dem er sigifikat, dvs. om de forskel der er mellem gruppere, er stor målt i forhold til de tilfældige variatio ide for de ekelte grupper. Ma øsker derfor at kue måle forskelle mellem gruppere med e målestok der er kalibreret efter størrelse af de tilfældige variatio ide for gruppere. Det ma egetlig er iteresseret i, er altså iformatio om middelværdiparametree. Me for at der ka være e veldefieret målestok at måle dem med, må ma først sikre sig at det har meig at tale om de tilfældige variatio ide for grupper. Derfor ma i må modelle gøre de atagelse som udertide ka testes) at der er variashomogeitet, dvs. at de forskellige grupper har samme variasparameter. 1 Hermed er problemet beskrevet i geerelle vediger. I reste af dette kapitel og i Kapitel 4 skal vi se hvorda det ka løses. Der er traditio for at ma giver e særlig omtale af de situatio hvor der er to grupper der skal sammeliges, så det gør vi også her. 3.1 Tostikprøveproblemet med uparrede observatioer Ma har to grupper af»idivider«, og på hvert idivid har ma målt værdie af e bestemt variabel Y. Idividere i de ee gruppe hører ikke samme med dem i de ade gruppe på oge måde, de er uparrede. Der behøver heller ikke være lige mage observatioer i de to grupper. Skematisk ser situatioe såda ud: gruppe observatioer 1 y 11 y y 1 j... y 11 2 y 21 y y 2 j... y 22 Her beteger y i j observatio r. j i gruppe r. i, i = 1, 2. Gruppere har heholdsvis 1 og 2 observatioer. Vi vil gå ud fra at forskelle mellem observatioer ide for e gruppe er tilfældig, hvorimod der er e systematisk forskel på to de grupper det er derfor at observatioere er iddelt i grupper! Edelig atages at y i j -ere er observerede værdier af uafhægige stokastiske variable Y i j som er ormalfordelte med samme varias σ 2 og med middelværdier 1 Ma ka dog klare sig med e atagelse om at grupperes variasparametre er kedte påær e kostat faktor.

31 3.1 Tostikprøveproblemet med uparrede observatioer 31 heholdsvis µ 1 og µ 2, kort Y 1 j N µ 1,σ 2 ) Y 2 j N µ 2,σ 2 ). På dee måde beskriver de to middelværdiparametre µ 1 og µ 2 de systematiske variatio, dvs. de to gruppers iveauer, medes variasparametere σ 2 samt ormalfordelige) beskriver de tilfældige variatio der altså er de samme i begge grupper dee atagelse ka ma evetuelt teste, se side 35). Estimatio af µ 1 og µ 2 Estimater over de ukedte middelværdiparametre µ 1 og µ 2 fides ved maximum likelihood metode, altså som de værdier der maksimaliserer likelihoodfuktioe Lµ 1, µ 2,σ 2 ) = = 1 1 2πσ 2 exp πσ 2 ) exp ) y 1 j µ 1 ) 2 1 2σ 2 σ y 1 j µ 1 ) πσ 2 exp y 2 j µ 2 ) 2 )) ) y 2 j µ 2 ) 2 hvor = er det samlede atal observatioer. Det ses at hvis σ 2 er fast, så er det at maksimalisere likelihoodfuktioe L med hesy til µ 1 og µ 2 det samme som det at miimalisere kvadratsumme 1 y 1 j µ 1 ) og de opgave er som vi skal se, let at løse. y 2 j µ 2 ) 2, Vi lader y i betege geemsittet i gruppe i, y i = 1 i i y i j. Det sedige trick er u følgede omskrivig af det j-te led fra gruppe 1 vi beytter formle for kvadratet på e toleddet størrelse): y 1 j µ 1 ) 2 = y 1 j y 1 ) + y 1 µ 1 ) ) 2 = y 1 j y 1 ) 2 + 2y 1 j y 1 )y 1 µ 1 ) + y 1 µ 1 ) 2. Når vi summerer over j, bliver summe af de dobbelte produkter 0 fordi summe af afvigelsere fra y 1 er 0, så, σ 2 1 y 1 j µ 1 ) 2 = = 1 1 y 1 j y 1 ) y 1 µ 1 ) 2 y 1 j y 1 ) y 1 µ 1 ) 2.

32 32 Tostikprøveproblemer i ormalfordelige Fra gruppe 2 kommer der et tilsvarede bidrag, så alt i alt ka de kvadratsum der skal miimaliseres, skrives som 1 y 1 j µ 1 ) y 2 j µ 2 ) 2 = 1 y 1 j y 1 ) y 2 j y 2 ) y 1 µ 1 ) y 2 µ 2 ) 2. Det ses at de værdier af µ 1 og µ 2 der gør kvadratsumme midst, er µ 1 = y 1 og µ 2 = y 2. Vi har dermed fudet at maksimaliserigsestimatere for gruppemiddelværdiere µ 1 og µ 2 er gruppegeemsittee y 1 og y 2. Estimatio af σ 2 Maksimaliserigsestimatet ˆσ 2 for σ 2 ka bestemmes som maksimumspuktet for fuktioe σ 2 Ly 1, y 2,σ 2 ) ; ma fider at ˆσ 2 = 1 1 y 1 j y 1 ) y 2 j y 2 ) 2 ). E størrelse som y i j y i der er forskelle mellem de faktiske observatio og det bedst mulige fit uder de aktuelle model, kaldes udertide for et residual. 2 Derfor kaldes e størrelse som 1 y 1 j y 1 ) y 2 j y 2 ) 2 for e residualkvadratsum, og ma ka sige at maksimaliserigsestimatet ˆσ 2 for σ 2 er lig med residualkvadratsumme divideret med atallet af observatioer. Som regel beytter ma imidlertid et adet estimat over σ 2, emlig residualkvadratsumme divideret med atallet af frihedsgrader 2 atal observatioer mius atal estimerede middelværdiparametre), dvs. ma estimerer variase ved s 2 0 = y 1 j y 1 ) y 2 j y 2 ) 2 ) Ma begruder bruge af s 2 0 frem for ˆσ 2 på ligede måde som i Estikprøveproblemet i ormalfordelige, se side Et residual betyder: oget der er til rest..

33 3.1 Tostikprøveproblemet med uparrede observatioer 33 Hypotese µ 1 = µ 2 For at vurdere om der er e sigifikat forskel på de to gruppers middelværdier, testes de statistiske hypotese H 0 : µ 1 = µ 2. Når hypotese H 0 er rigtig, er der tale om et»estikprøveproblem«med = observatioer, så vi ved fra Kapitel 2 at de fælles værdi af middelværdiparametere estimeres ved det totale geemsit y = 1 ) 1 2 y 1 j + y 2 j, maksimaliserigsestimatet over variasparametere σ 2 er ˆσ 2 = 1 2 i y i j y) 2, det variasestimat ma som regel beytter, er s 2 01 = = i y i j y) 2 y 1 j y) y 2 j y) 2 ), med 1 frihedsgrader. Kvotietteststørrelse for H 0 er Q = Ly, y, ˆσ 2 ) Ly 1, y 2, ˆσ 2 ) hvor L er defieret på side 31. Når ma idsætter udtrykkee for estimatere i Q, bliver det udtryk som exp skal avedes på, simpelthe /2, både i tæller og æver; udtrykket for Q ka derfor reduceres til Q = = ˆσ 2 ˆσ ) /2 y 1 j y) 2 + y 1 j y 1 ) y 2 j y) 2 y 2 j y 2 ) 2 /2.

34 34 Tostikprøveproblemer i ormalfordelige Næverkvadratsumme er lig 2)s 2 0. Tællerkvadratsumme ka omskrives på følgede måde hvor vi udervejs beytter at y = 1 y y 2 )/ ): 1 y 1 j y) 2 + = = 2 y 2 j y) 2 1 y1 j y 1 ) + y 1 y) ) y2 j y 2 ) + y 2 y) ) 2 1 y 1 j y 1 ) y 1 y) y 2 j y 2 ) y 2 y) 2 = 2)s y 1 y) y 2 y) 2 ) = 2)s y 1 y 2 ) 2 1 y y 2 ) = 2)s y 1 y 2 ) Med betegelse ) 2 t = y 1 y 2 s ) ka Q derfor udtrykkes som Q = ) /2 1 + t2. 2 Det ses at Q er e aftagede fuktio af t, dvs. små Q-værdier er esbetydede med store t -værdier, så ma skal forkaste H 0 hvis t er stor. Ma plejer at beytte t Studet s t) som teststørrelse fordi de har e umiddelbart forståelig fortolkig: de måler differese mellem de to middelværdiestimater y 1 y 2 ) i forhold til de estimerede stadardafvigelse på dee differes. 3 Testsadsylighede, dvs. sadsylighede for at få et sæt observatioer der harmoerer dårligere med H 0 ed de foreliggede observatioer, bestemmes som 4 ε = P 0 t > tobs ) = P 0 t > tobs eller t < t obs ) = 2 P 0 t > tobs ), 3 Det var et ræsoemet af dee art der førte Gosset alias Studet ) til i 1908 at foreslå e teststørrelse der æste er vore dages Studet s t. 4 Dette test er tosidet fordi de ekstreme t-værdier er på begge sider af 0, og det er det ma som oftest bruger. Me e sjælde gag er ma i e situatio hvor ma er aldeles sikker på at hvis ikke µ 1 = µ 2, så er lad os sige) µ 1 < µ 2, de modsatte ulighed er utækelig, og i så fald vil ma ku forkaste H 0 hvis t er lagt fra 0 og egativ. Ma foretager da et esidet test og udreger testsadsylighede som P 0 t < t obs ).

35 3.1 Tostikprøveproblemet med uparrede observatioer 35 hvor det sidste lighedsteg er e kosekves af at t-fordelige er symmetrisk om 0. Hvis H 0 er rigtig, så følger t e såkaldt t-fordelig med 2 frihedsgrader frihedsgradsatallet arves fra variasskøet s 2 0 ), og dee fordelig fides i statistiske tabeller. Hvis t f beteger e stokastisk variabel som er t-fordelt med f frihedsgrader, så ka testsadsylighede altså fides som Test for variashomogeitet ε = 2 P t 2 > t obs ). I det foregåede er vi gået ud fra at observatioere i de ee gruppe har samme varias som observatioere i de ade gruppe. Dee atagelse ka ma imidlertid godt teste. Det foregår på de måde at ma opstiller de lidt geerellere model der tillader variasere at være forskellige, og i de model tester ma så om variasere ka atages at være es. De lidt geerellere model geerellere ed på side 31) er Y 1 j N µ 1,σ 2 1 ) Y 2 j N µ 2,σ 2 2 ). Nu ka ma opstille sie likelihoodfuktioer og estimere parametree og teste hypotese H : σ1 2 = σ 2 2. Det viser sig at kvotietteststørrelse er e fuktio af hvor s 2 i = 1 i 1 i R = s2 1 s 2, 2 y i j y i ) 2 er variasskøet med i 1 frihedsgrader) i gruppe i, i = 1, 2. Ma plejer at beytte R som teststørrelse, og ma skal forkaste hypotese om es variaser hvis R ete er meget større ed 1 eller meget midre ed 1, dvs. der er tale om et tosidet test. Som testsadsylighed beyttes sadsylighede for at få e R-værdi der ligger ude for itervallet med edepukter R obs og 1/R obs, så testsadsylighede er hvis R obs > 1 så hvis R obs < 1 så ε = P 0 R > Robs ) + P0 R < 1 R obs = P 0 R > Robs ) + P0 1 R > R obs ε = P 0 R < Robs ) + P0 R > 1 = P 0 1 R > 1 R obs R obs ) ) ) + P 0 R > 1 R obs ), ).

36 36 Tostikprøveproblemer i ormalfordelige Der gælder at år hypotese om variashomogeitet er rigtig, så vil R følge de såkaldte F-fordelig med f 1, f 2 ) frihedsgrader hvor f 1 og f 2 er atal frihedsgrader for s 2 1 og s2 2. Da ma har tabeller over fraktiler i F-fordelige, er det let at bestemme testsadsylighede ε. Hvis ma yderligere udytter e særlig egeskab ved F-fordeliger, emlig at hvis R følger F f1, f 2 -fordelige, så vil 1/R følge F f2, f 1 -fordelige, så ka fremgagsmåde forsimples til 1. Lad s 2 max og s 2 mi betege heholdsvis det største og det midste af tallee s 2 1 og s Lad R = s 2 max/s 2 mi. 3. Så er testsadsylighede lig sadsylighede for værdier større ed R obs f 1, f 2 ) frihedsgrader + sadsylighede for værdier større ed R obs f 2, f 1 ) frihedsgrader, i F-fordelige med i F-fordelige med altså ) ) ε = P F f1, f 2 R obs + P F f2, f 1 R obs. Et eksempel Eksempel 3.1 C-vitami) C-vitami ascorbisyre) er et veldefieret kemisk stof som ma sagtes ka fremstille i laboratoriet og i idustrie), og ma ka jo i si aivitet forestille sig at virkige i de meeskelige orgaisme af det»kustige«c-vitami er præcis lige så god som virkige af det i ature forekommede. For at udersøge om det u også forholder sig såda har ma foretaget et eksperimet, ikke med meesker me med marsvi små gavere). Ma delte 20 ogelude es marsvi op i to grupper hvoraf de ee fik appelsisaft, og de ade fik e tilsvarede mægde»kustigt«c-vitami. Efter seks ugers behadlig målte ma lægde af fortæderes odotoblaster det tadbesdaede væv). Ma fik da disse resultater i hver gruppe er observatioere ordet efter størrelse): appelsisaft: kustigt C-vitami: Ma ka fastslå at der må være tale om e art tostikprøveproblem. Karaktere af observatioere gør at det ikke er urimeligt at forsøge sig med e ormalfordeligsmodel af e slags, og det er alt i alt ærliggede at sige at der er tale om et»tostikprøveproblem med uparrede ormalfordelte observatioer«. Vi vil aalysere observatioere ved brug af dee model, mere øjagtigt vil vi udersøge om odotoblasteres middelvækst er de samme i de to grupper. Tabel 3.1 er et regeskema der viser hvorda ma ka foretage udregigere med»hådkraft«se også side 16f). Hvis ma blot vil opsummere resultatere, gør ma det ofte i form af e tabel som de der er vist i Tabel 3.2.

37 3.1 Tostikprøveproblemet med uparrede observatioer 37 Tabel 3.1 C-vitami-eksemplet: regeskema. Appelsisaft Kustigt C-vitami y y 2 y y sum y i 131.8/10 = /10 = 8.00 y 2 y)2 s 2 i s 2 0 t = = = ) ) = ) = = Da metode til sammeligig af middelværdiere i de to grupper forudsætter at de to grupper har samme varias, ka ma evetuelt også teste hypotese om variashomogeitet se side 35). Testet er baseret på variaskvotiete R = s2 appelsisaft s 2 kustigt = = Dee værdi skal sammeholdes med F-fordelige med 9, 9) frihedsgrader i et tosidet test. Tabelopslag viser at 95%-fraktile er 3.18 og 90%-fraktile 2.44; der er derfor mellem 10 og 20 procets chace for at få e værre R-værdi selv om hypotese er rigtig, og på dette grudlag vil vi ikke afvise atagelse om variashomogeitet. De fælles varias estimeres til s 2 0 = med 18 frihedsgrader. Vi ka u gå over til det egetlige, emlig at teste om der er sigifikat forskel på to gruppers iveauer. Til det formål udreges t-teststørrelse t = ) = = De fude værdi skal sammeholdes med t-fordelige med 18 frihedsgrader. I dee fordelig er 99.5%-fraktile 2.878, hvoraf vi ka slutte at der er midre ed 1% chace

38 38 Tostikprøveproblemer i ormalfordelige Tabel 3.2 C-vitami-eksemplet: ogle beregede størrelser. står for atal observatioer y, S for Sum af y-er, y for geemsit af y-er, f for atal frihedsgrader, SS for Sum af kvadratiske afvigelser Sum of Squared deviatios ), og s 2 for variasestimater SS/ f ). gruppe S y f SS s 2 appelsisaft kustigt C-vit sum geemsit for at få e værdi umerisk større ed Koklusioe bliver derfor at der er e klart sigifikat forskel mellem de to grupper. Som det ses af tallee, består forskelle i at de»kustige«gruppe har midre odotoblastvækst ed appelsigruppe. Kustigt C-vitami syes altså ikke at virke så godt som det aturlige. 3.2 Tostikprøveproblemet med parrede observatioer Som title på Afsit 3.1 lader ae, er der også et tostikprøveproblem med parrede observatioer. Situatioe er her at observatioere hører samme på to ledder: dels hører hver observatio til e af to mulige grupper, dels hører observatioere samme to og to, de er parrede. Typiske eksempler er måliger på ogle forsøgsdyr eller -persoer) af e bestemt variabel før og efter e behadlig; de to grupper består da af heholdsvis måligere før og måligere efter, og observatioere er parrede idet ma véd hvilke måliger der stammer fra hvilke idivider. Vi viser situatioe skematisk: gruppe r. 1 2 par r. 1 y 11 y 12 par r. 2 y 21 y 22. par r. i y i1 y i2. par r. r y r1 y r2 Der er r observatiospar, og det i-te par består af y i1 og y i2. Ved opbygige af e statistisk model bør ma aturligvis udytte de iformatio der ligger i at vi véd hvilke observatioer der hører samme. Ma kue forestille sig at det forholdt sig på de ekle måde at forskelle mellem de»sade«værdi af e gruppe 2-målig og de»sade«værdi af de tilsvarede gruppe 1-målig havde de samme værdi δ for alle parree. Der er....

39 3.2 Tostikprøveproblemet med parrede observatioer 39 Tabel 3.3 Atal ekstra søvtimer ved behadlig med hyoscyami hydrobromid. perso dextro- laevo altså ikke oget i veje for at de ekelte par ka være voldsomt forskellige, blot forskelle mellem de to medlemmer af et par er de samme påær tilfældige afvigelser) for alle par. Hvis det forholder sig på dee måde, er der e uhyre simpel måde at aalysere tallee på: ma udreger differesere d i = y i2 y i1 og udersøger om de fordeler sig tilfældigt omkrig 0. Hvis ma er parat til at atage at differesere d 1, d 2,..., d er observatioer fra e ormalfordelig med middelværdi δ og varias σ 2, så er vi tilbage ved et estikprøveproblem i ormalfordelige, og så er det bare at slå tilbage til Kapitel 2. Eksempel 3.2 Sovemidler) Det kemiske stof hyoscyami hydrobromid ka avedes som sovemiddel. Stoffet fides imidlertid i to udgaver, d-hyoscyami hydrobromid og l-hyoscyami hydrobromid, 5 og ma er iteresseret i at fide ud af om de to udgaver er lige gode. Derfor har ma udført e forsøgsrække hvor ma på 10 forsøgspersoer har bestemt stofferes søvforlægede virkig. I Tabel 3.3 er vist det geemsitlige atal ekstra søvtimer pr. at for hver perso, dels ved behadlig med d-udgave, dels ved behadlig med l-udgave af stoffet. Da der er tale om at ma på ogle forsøgspersoer har målt effekte af først e, så e ade behadlig, vil det være ærliggede at søge at aalysere talmaterialet ved hjælp af e model af type»tostikprøveproblem med parrede observatioer«. Derfor bestemmes differesere mellem virkigere af laevo- og dextroudgave af stoffet, se Tabel 3.4. Vi vil opfatte tallee i Tabel 3.4 som et»estikprøveproblem i ormalfordelige«, og spørgsmålet om de to stoffer virker lige godt ka da præciseres til spørgsmålet om tallees middelværdi er sigifikat forskellig fra 0. Dette ka testes som e statistisk hypotese. Geemsittet af differesere i tabelle er d = 1.58 timer, og estimatet over variase på differesere er s 2 = 1.51 timer 2 med 9 frihedsgrader), svarede til at de estimerede stadardafvigelse er s = 1.23 timer. De estimerede stadardafvigelse på geemsittet er dermed s 2 / = 1.51/10 timer = 0.39 timer. Edvidere bliver 5 l = laevo = vestre, d = dextro = højre agiver til hvilke side stoffet afbøjer polariseret lys).

40 40 Tostikprøveproblemer i ormalfordelige Tabel 3.4 Differeser mellem l- og d-hyoscyami hydrobromids søvforlægede virkig. perso differes timer) t-teststørrelse t = d 0 s 2 / = 1.58 timer 0.39 timer = I t-fordelige med 9 frihedsgrader er 99.5%-fraktile 3.25 og 99.9%-fraktile 4.29, så testsadsylighede ligger et sted mellem 0.2% og 1%. Der er således gaske klart sigifikas, dvs. de to stoffer virker sigifikat forskelligt og som ma ser er l-stoffet det mest virksomme). Dette var så et eksempel på et tostikprøveproblem med parrede observatioer, me hvad var der sket hvis ma af vavare var kommet til at aalysere det som om der var tale om uparrede observatioer? De t-størrelse ma så ville udrege, var e ade. Tællere ville være de samme fordi differese mellem geemsittee er lig geemsittet af differesere. Det variasestimat der skulle beyttes i ævere, er estimatet over de fælles varias i de to grupper, og det udreges til s 2 0 = timer2 med 18 frihedsgrader, og teststørrelse ville derfor blive t = 1.58 timer ) = timer = Dee gag ville vi få 18 frihedsgrader i t-fordelige, og det vil sige at 95%-fraktile er 1.73 og 97.5%-fraktile Der ville altså være et sted mellem 5% og 10% chace for at få e mere ekstrem t-størrelse ed 1.86, og ma vil derfor almideligvis sige at t obs = 1.86 ikke er sigifikat stor. Dette test ville således ikke vise oge sigifikat forskel på de to stoffer. Grude til at de to aalyser giver forskellige resultater, er at der er e temmelig stor forskel på forsøgspersoere: I de først beyttede model parrede observatioer) elimieres e stor del af persoforskellee ved at ma går over til at aalyserer differesere. Til gegæld får variasestimatet ku 9 frihedsgrader. I de ade model uparrede observatioer) skal al forskelle mellem persoer beskrives af variasparametere fordi forskelle mellem persoer i dee omgag udelukkede ases for tilfældig), og til gegæld får variasestimatet hele 18 frihedsgrader. På de ade side idebærer det at hvis der er stor forskel mellem persoer, så bliver variasestimatet også stort.

41 3.2 Tostikprøveproblemet med parrede observatioer 41 Datamaterialet til dette eksempel er meget berømt fordi det blev beyttet til et illustrativt eksempel i dé artikel hvor t-testet i estikprøveproblemet) blev itroduceret Studet 1908): The Probable Error of a Mea. Biometrika 6, 1-25). Artikle er skrevet af W.S.Gosset der arbejdede som biometriker ved Guiessbryggeriere og beyttede Studet som sit om de plume.

42 42 Tostikprøveproblemer i ormalfordelige Tabel 3.5 Opgave 3.1: Varmemægde i calorier) for at smelte 1 g is med e begydelsestemperatur på 0.72, bestemt ved to forskellige metoder. Tabel 3.6 Opgave 3.2: De maksimale procetdel af blodpladere der klumper sig samme efter e give påvirkig. Metode A Metode B før efter Opgaver Opgave 3.1 Is s smeltevarme) Ma øsker at sammelige to forskellige metoder A og B) til bestemmelse af is s smeltevarme. Eksperimeter har givet resultatere i Tabel 3.5. Udersøg om der er sigifikat forskel på de to metoder. TIP: Udregigere bliver lettere hvis ma idfører et passede beregigsulpukt. Opgave 3.2 Rygig og blodpropper) På 11 forsøgspersoer har ma taget blodprøver før og efter de røg e cigaret, og ma har så udersøgt blodpladeres tedes til at klumpe sig samme sådae klumper ka udvikle sig til regulære blodpropper). Resultatere ses i Tabel 3.6. Udersøg om resultatere tyder på at rygig påvirker blodpladeres tedes til at klumpe sig samme. Der er øjesyligt tale om et tostikprøveproblem af e slags; der ka så være tale om parrede eller uparrede observatioer. Det ka være illustrativt at forsøge sig med begge slags modeller. Hvad er forskelle? Argumetér for at de ee af dem er mere rigtig ed de ade.) Opgave 3.3 Ma har foretaget ogle forsøg med mus for at fide ud af om de to forskellige former for jerioer Fe 2+ og Fe 3+ optages med forskellig hastighed i orgaisme. Dette er af betydig år ma skal sammesætte kosttilskud eksempelvis vitamipiller) til meesker. Som led i et større forsøg har ma givet 18 mus Fe 2+ og 18 adre mus Fe 3+, i begge tilfælde i 1.2 millimolar opløsiger idgivet oralt. Jeratomere var radioaktivt mærkede således at det var muligt at måle hvor meget jer der

43 3.3 Opgaver 43 Tabel 3.7 Opgave 3.3: Procetdel optaget jer samt titalslogaritme til procetdel optaget jer, for 18 mus der har fået Fe 2+ og 18 mus der har fået Fe 3+. De ekelte søjler ideholder de ordede observatioer. y log 10 y Fe 2+ Fe 3+ Fe 2+ Fe sum sum af kvadrater blev optaget i muse i løbet af et fastsat stykke tid. Tabel 3.7 viser hvor stor e procetdel af de tilførte mægde jer der blev optaget af muse. 1. Ved data af dee type ka ma erfarigsmæssigt ofte beskrive logaritme til observatioere med e ormalfordelig. Udersøg om det er rimeligt at gøre det i dette tilfælde. 2. Udersøg om data tyder på at Fe 2+ og Fe 3+ optages på samme måde sammelig for eksempel de to stikprøver af logaritmerede måliger). 3. Ma vil plalægge et yt forsøg af samme slags, blot med et adet atal mus. Det ye forsøg skal kue afgøre om der er e reel forskel på 0.1 på de logaritmiske skala) mellem Fe 2+ - og Fe 3+ -optagelse. I de forbidelse ka ma vælge at sige at»e reel forskel på 0.1«skal betyde at hvis tællere i t-teststørrelse, altså differese mellem middeltallee, er større ed eller lig 0.1 eller midre ed eller lig 0.1), så vil testsadsylighede blive midre ed eller lig 5%»der er sigifikas på iveau 5%«). Spørgsmålet er hvor mage mus der skal beyttes: Omsæt oveståede præciserig af»e reel forskel på 0.1«til matematik, og få derved e ulighed der ka løses med hesy til de ubekedte»atal mus«.

44 44 Tostikprøveproblemer i ormalfordelige Det således plalagte forsøg skulle agiveligt kue afgøre om der er e reel forskel på 0.1. Diskutér hvilke status ma skal tillægge e såda»afgørelse«.

45 4 Esidet variasaalyse Sammeligig af to ormalfordelte stikprøver er omtalt i Kapitel 3. Ma kommer dog ofte ud for at skulle sammelige mere ed to stikprøver, og derfor er ma ødt til også at have metoder til det såkaldte k-stikprøveproblem, dvs. de situatio hvor der foreligger k grupper af ormalfordelte observatioer, og hvor ma øsker at vurdere om der er e sigifikat forskel på disse k grupper se side 29 for e geerel formulerig af problemet). De metode der beyttes for at sammelige middelværdiere i k grupper af ormalfordelte observatioer, kaldes måske lidt overraskede) for esidet variasaalyse. Eksempel 4.1 Dækigsgrad for Fuglegræs) På dyrkede marker er ukrudt jo pr. defiitio e utig, og ladmade ka overveje om ha skal sprøjte mod de slags ukrudt ha aser for værst. Me år ma fjerer é slags ukrudt, ka det være at det ikke bare er afgrøde der derved får forbedrede vækstforhold, me også de resterede ukrudtsarter! Måske er det e ligefrem fordel at have så mage forskellige ukrudtsarter som muligt fordi de så ka holde hiade i skak. For at udersøge ukrudtsplaters idbyrdes kokurrece på e kormark har ma udført et større forsøg der består i at på forskellige dele af e stor mark luger ma på et bestemt tidspukt forskellige ukrudtsarter bort, og derefter ser ma hvorledes reste af artere så trives. 1 Mere præcist er marke delt op i 16 jordlodder som er delt id i fire grupper med hver fire lodder. De første gruppe er e kotrolgruppe hvor itet luges bort, me i hver af gruppere to, tre og fire luges é bestemt ukrudtsart bort heholdsvis Serle pileurt, Fuglegræs og Hvidmelet gåsefod). É gag før og tre gage efter bortlugige registrerer ma hvilke plater der er på de forskellige lodder og i hvor stor udstrækig. De første registrerig skal tjee til at fastlægge det iveau som de seere udviklig skal måles ud fra. De fire grupper er fordelt på marke i et romersk kvadrat: De fire lodder der udgør e gruppe, er altså placeret fire helt forskellige steder på marke; derved har ma e chace for at kue tage højde for evetuelle variatioer i jordbud og mikroklima heover marke. Forsøget har givet et stort talmateriale som ka aalyseres på mage måder. Her skal vi ku se på e ekelt detalje i forbidelse med fastlæggelse af et udgagsiveau på grudlag af de første registrerig. Vi vil studere forekomste af Fuglegræs, Stellaria media, ved de første registrerig, se Tabel 4.1. Registrerige foregår ved hjælp af et rektagulært gitteret med 416 gitterpukter med fem cetimeters afstad; gitterettet RUC. 1 A. Greefort, C.S.F. Jese & S. Jeppese 1987): Plater og plater imellem. Biologispeciale, 45

46 46 Esidet variasaalyse Tabel 4.1 Dækigsgrader for Fuglegræs ved første registrerig. gruppe dækigsgrader placeres på jordlodde hvorefter ma i hvert gitterpukt ser efter om der fides oget af e Fuglegræs-plate eller ej. Som mål for dækigsgrade for arte beyttes atallet af gitterpukter hvor arte blev registreret. Dækigsgrade bliver på dee måde et helt tal mellem 0 og 416. Da de første registrerig udførtes ide der blev foretaget oge bortlugig, ka der ikke på dette tidspukt være tale om oge behadligseffekt lugigseffekt). De forskelle der er på loddere og på gruppere, må alee skyldes»startbetigelsere«, dvs. de lokale variatioer i jordbud og klima og de forskellige atal plater af de pågældede art som der u tilfældigvis var på de ekelte områder af marke. Da ma øsker at vurdere hvorda behadligere påvirker gruppere, ka det være af iteresse at få e idé om hvor forskellige eller hvor es) gruppere egetlig er ved forsøgets start. Hvis gruppere emlig er stort set es, ka ma bestemme et fælles startiveau hvorudfra de seere udviklig ka vurderes, me hvis der er e sigifikat forskel mellem gruppere, så er ma ødt til at vurdere hver gruppes udviklig ud fra des eget startiveau. Derfor vil vi gere sammelige de fire grupper og vurdere om forskelle mellem gruppere er stor i forhold til de tilfældige variatio ide for gruppere. De statistiske model: Da observatioere er fremkommet som e sum af et vist atal 01-størrelser svarede til om plate er fraværede eller til stede i det pågældede gitterpukt, kue ma mee at det smager lidt af e biomialfordeligssituatio eller evetuelt e Poissofordeligssituatio da er temmelig stor). Hertil ka ma idvede at ikke alle biomialfordeligsbetigelsere er opfyldt idet de ekelte 01- størrelser æppe er uafhægige med samme sadsylighed for»1«, og det ka medføre e større tilfældig variatio ide for de ekelte grupper ed hvad biomialfordelige ka forklare. Ma ka derfor idet ma går let he over at der er tale om diskrete observatioer, forsøge sig med e ormalfordeligsmodel, hvor ma jo ved hjælp af variasparametere ka modellere de tilfældige variatio særskilt. Vi vil beytte e statistisk model der går ud på at observatioer i samme gruppe opfattes som observatioer fra e og samme ormalfordelig, og at de fire grupper har hver deres ormalfordelig. Det statistiske problem er da at udersøge om de fire ormalfordeliger ka tækes at være es.

47 4.1 Estimatio af parametree 47 Det geerelle k-stikprøveproblem i ormalfordelige ka formuleres på følgede måde: Der foreligger ogle observatioer y som er ordet i k grupper med i observatioer i gruppe r. i, i = 1, 2,..., k; observatio r. j fra gruppe r. i beteges y i j. Skematisk ser det såda ud: gruppe observatioer 1 y 11 y y 1 j... y 11 2 y 21 y y 2 j... y i y i1 y i2... y i j... y ii k y k1 y k2... y k j... y kk Vi går ud fra at forskelle mellem observatioere ide for e gruppe er tilfældig, hvorimod der er e systematisk forskel mellem gruppere. Vi går edvidere ud fra at y i j -ere er observerede værdier af uafhægige stokastiske variable Y i j. De tilfældige variatio vil vi beskrive ved hjælp af e ormalfordelig, og det skal derfor alt i alt være såda at Y i j er ormalfordelt med middelværdi µ i og varias σ 2, kort Y i j N µ i,σ 2 ). 4.1) Herved beskriver middelværdiparametree µ 1, µ 2,..., µ k de systematiske variatio, emlig de ekelte gruppers iveauer, medes variasparametere σ 2 samt ormalfordelige) beskriver de tilfældige variatio ide for gruppere. De tilfældige variatio atages at være de samme i alle gruppere, og dee atagelse ka ma udertide teste, se Afsit Estimatio af parametree Estimatio af µ 1, µ 2,..., µ k De ukedte middelværdiparametre µ 1, µ 2,..., µ k i grudmodelle 4.1) estimeres ved hjælp af maximum likelihood metode, altså som de værdier der maksimaliserer likelihoodfuktioe Lµ 1, µ 2,..., µ k,σ 2 ) = = k i 1 2πσ 2 exp πσ 2 ) exp 1 2σ 2 ) y i j µ i ) 2 k σ 2 i y i j µ i ) 2 ) 4.2) hvor = k er det samlede atal observatioer. Det ses at hvis σ 2 er fast, så er det at maksimalisere likelihoodfuktioe L med hesy til

48 48 Esidet variasaalyse µ 1, µ 2,..., µ k det samme som det at miimalisere kvadratsumme og de opgave er let at løse: k i y i j µ i ) 2, Vi lader y i betege geemsittet i gruppe i, y i = 1 i formle for kvadratet på e toleddet størrelse fås y i j µ i ) 2 = y i j y i ) + y i µ i ) ) 2 i y i j. Ved at beytte = y i j y i ) 2 + 2y i j y i )y i µ i ) + y i µ i ) 2 ; år vi her holder i fast og summerer over j, så bliver summe af de dobbelte produkter 0 fordi i edelig også summerer over i, får vi k i y i j y i ) er lig med 0 ifølge defiitioe af y i ; hvis vi y i j µ i ) 2 = k i y i j y i ) 2 + k i y i µ i ) ) Opgave er at miimalisere vestreside; me de µ-er der miimaliserer vestreside, er de samme som dem der miimaliserer de ade kvadratsum på højreside, og de bliver midst mulig, emlig 0, etop år µ i er lig y i, i = 1, 2,..., k. Vi har dermed fudet at maksimaliserigsestimatet for de i-te gruppes middelværdi er lig med geemsittet af observatioere i gruppe, ˆµ i = y i. Estimatio af σ 2 Maksimaliserigsestimatet ˆσ 2 for σ 2 ka bestemmes som maksimumspuktet for fuktioe Ma fider at σ 2 Ly 1, y 2,..., y k,σ 2 ). ˆσ 2 = 1 k i y i j y i ) 2. E størrelse som y i j y i der er forskelle mellem de faktiske observatio og det bedst mulige fit uder de aktuelle model, kaldes for et residual, og ˆσ 2 ka derfor beskrives som værede residualkvadratsumme divideret med atallet af observatioer. Som regel beytter ma imidlertid et adet estimat over σ 2, emlig residualkvadratsumme divideret med atallet af frihedsgrader k atal observatioer mius atal estimerede parametre), dvs. ma beytter variasestimatet s 2 0 = 1 k k i y i j y i ) 2.

49 4.2 Hypotese om es grupper 49 Tabel 4.2 Fuglegræseksemplet: ogle beregede størrelser. i i i i y i = y i j y i y i j y i ) sum geemsit s 2 0 = = Ma begruder bruge af s 2 0 frem for ˆσ 2 på ligede måde som i Estikprøveproblemet i ormalfordelige, se side 17. Sammefattede har vi altså at middelværdiparametere µ i i de i-te gruppe estimeres ved geemsittet y i af observatioere i gruppe, grupperes fælles varias σ 2 estimeres ved residualkvadratsumme divideret med atallet af frihedsgrader, s 2 0 = med k frihedsgrader. 1 k k i y i j y i ) 2 4.4) I Tabel 4.2 er vist de værdier ma fider i Fuglegræs-eksemplet. 4.2 Hypotese om es grupper I dette afsit skal vi beskæftige os med spørgsmålet om hvorda ma udersøger om de k grupper ka atages at have samme middelværdi. Opgave er således at teste hypotese H 0 om at der ikke er oge sigifikat forskel mellem gruppere, også kaldet hypotese om homogeitet mellem grupper: H 0 : µ 1 = µ 2 =... = µ k. Ofte er det ikke H 0 ma er iteresseret i, me des egatio: at der er e sigifikat forskel mellem gruppere, fordi ma har et øske eller et håb om at kue vise at gruppere ikke er es. Når det alligevel er H 0 ma tester og ikke des egatio, så hæger det samme med to geerelle træk ved formulerig og test af statistiske hypoteser: 1. De hypoteser ma ka teste, er altid hypoteser der består i e forsimplig af de aktuelle grudmodel typisk tester ma at ogle parametre er es, mes grudmodelle tillader dem at være forskellige.

50 50 Esidet variasaalyse 2. Det er iformativt at forkaste e hypotese: Vi får at vide at der er e sigifikat uoveresstemmelse mellem hypotese og observatioer. Derimod viser det ofte igetig at få accepteret e hypotese: Det ka være at ma simpelt he bare har for få observatioer til at kue afsløre oget som helst. Vi skal u se hvorda ma tester hypotese H 0 om es middelværdier. Ma ka gå frem efter de sædvalige opskrift, dvs. opstille e kvotietteststørrelse der sammeliger likelihoodfuktioes maksimale værdier hhv. uder H 0 og uder grudmodelle. Vi ved fra side 49 at likelihoodfuktioe maksimaliseres af værdiere y 1, y 2,..., y k, ˆσ 2 hvor ˆσ 2 = 1 k i y i j y i ) 2. Deræst skal vi fide ud af hvilke værdier der maksimaliserer likelihoodfuktioe uder H 0 : Når H 0 er rigtig, er der tale om et estikprøveproblem, og fra Kapitel 2 ved vi at de fælles middelværdi µ estimeres ved det totale geemsit y = 1 k i y i j, maksimaliserigsestimatet over de fælles varias σ 2 er kvadratafvigelsessumme omkrig y divideret med, dvs. ˆσ 2 = 1 k i y i j y) 2, det variasskø ma som regel bruger, er med 1 frihedsgrader. s 2 01 = 1 1 Kvotietteststørrelse for H 0 er k i y i j y) 2 Q = Ly, y,..., y, ˆσ 2 ) Ly 1, y 2,..., y k, ˆσ 2 ), hvor L er defieret på side 47. Når ma idsætter udtrykkee for estimatere i Q, så bliver det udtryk som exp skal avedes på gaske ekelt /2, både i

51 4.2 Hypotese om es grupper 51 tæller og æver, så udtrykket for Q ka reduceres til ˆσ 2 ) /2 Q = ˆσ 2 = k k i i y i j y) 2 y i j y i ) 2 /2 For at kue omforme Q yderligere skal vi bruge følgede omskrivig der fås af formel 4.3) på side 48 hvis ma erstatter µ i med y: k i y i j y) 2 = k i y i j y i ) 2 +. k i y i y) 2, 4.5) dvs. de totale kvadratsum der beskriver y i j -eres variatio om det totale geemsit y, spaltes op i e sum af et bidrag der beskriver»variatioe ide for gruppere«og et bidrag der beskriver»variatioe mellem gruppere«. Parallelt med opspaltige af kvadratsumme har vi opspaltige 1 = k) + k 1) af frihedsgradere, og ved at dividere kvadratsummere med de tilsvarede atal frihedsgrader får vi variasestimater der beskriver forskellige variatioer: Variatioe omkrig totalgeemsittet dvs. ekeltobservatioeres variatio omkrig totalgeemsittet) beskrives af s 2 01 = 1 1 som er variasestimatet uder H 0. k i y i j y) 2 Variatioe ide for grupper dvs. ekeltobservatioeres variatio omkrig deres respektive gruppegeemsit) beskrives af s 2 0 = 1 k k i y i j y i ) 2 som er variasestimatet i grudmodelle formel 4.4) på side 49). Variatioe mellem grupper dvs. gruppegeemsittees variatio omkrig det totale geemsit) beskrives af s 2 1 = = 1 k 1 k i y i y) 2 k 1 k 1 i y i y) 2.

52 52 Esidet variasaalyse Me vi skal videre med omskrivige af udtrykket for Q. Ved hjælp af formel 4.5) ka vi omskrive Q til Q = = 1 + k k i i y i y) 2 y i j y i ) k ) /2 1)s2 1 k)s 2, 0 /2 hvilket viser at Q er e mootot aftagede fuktio af størrelse F = s2 1 s 2 0 således at store værdier af F svarer til små værdier af Q og dermed er teg på at H 0 bør forkastes. Som teststørrelse for H 0 beytter ma i praksis altid F. Ma ka forstå F som forholdet mellem variatioe mellem grupper og variatioe ide for grupper. Ma forkaster hypotese om homogeitet mellem grupper år variatioe mellem grupper er væsetligt større ed variatioe ide for grupper. Ma ka bevise at F-teststørrelse følger de såkaldte F-fordelig med frihedsgrader k 1, k), forudsat at hypotese H 0 er rigtig. Derfor ka testsadsylighede ε = P 0 F > Fobs ) bestemmes som ε = P F k 1, k > F obs ) der let fides ved hjælp af e tabel over fraktiler i F-fordelige. Vi har hermed løst de opgave der gik ud på at sammelige k grupper af ormalfordelte observatioer. Ma ka sige at F-teststørrelse sammeliger to variasestimater, og derfor kaldes aalysemetode for e variasaalyse; da observatioere er iddelt efter ét kriterium emlig hvilke gruppe de tilhører), kaldes aalyse for esidet variasaalyse. Det er kutyme at give e oversigt over e variasaalyse i et såkaldt variasaalyseskema. Tabel 4.3 er et variasaalyseskema for Fuglegræs-eksemplet. Eksempel 4.2 Fuglegræs, koklusio) Tabel 4.3 viser variasaalyseskemaet for esidet variasaalyse i Fuglegræs-eksemplet. Det ses at F-teststørrelse bliver 3.9, og dee værdi skal sammeholdes med fraktilere i F-fordelige med frihedsgrader 3 og 12; i dee fordelig er 95%-fraktile 3.49 og 97.5%-fraktile 4.47, så testsadsylighede er kap 4%. På de baggrud vil ma sædvaligvis være stemt for at forkaste hypotese om es middelværdier i gruppere. Ma må altså kostatere at de fire grupper syes at være forskellige allerede ide ma begyder at give dem hver deres behadlig. Det ka virke overraskede, me det må hæge samme med at der på forhåd er betydelige forskelle på de ekelte dele af marke. Når ma sidehe skal udersøge hvorda behadligere virker, er ma ødt til at tage hesy til dee forskellighed.,

53 4.3 Bartletts test for variashomogeitet 53 Tabel 4.3 Fuglegræs-eksemplet: Variasaalyseskema. f står for atal frihedsgrader, SS for Sum af kvadratiske afvigelser, s 2 = SS/ f. variatio f SS s 2 test ide for grupper mellem grupper /34.46=3.9 total Bartletts test for variashomogeitet I ormalfordeligsmodeller er det e forudsætig for e meigsfuld sammeligig af forskellige gruppers middelværdiparametre at gruppere har samme varias. 2 I dette afsit skal vi omtale et test der ka avedes år ma øsker at vurdere om et atal grupper af ormalfordelte observatioer ka atages at have samme varias, det vil sige om der er variashomogeitet. Testet ka ikke beyttes hvis e af gruppere ku ideholder e ekelt observatio, og for at ma skal kue avede de tilærmede fordelig af teststørrelse, skal hver gruppe ideholde midst seks observatioer, eller rettere: i hver ekelt gruppe skal variasestimatet have midst fem frihedsgrader. De geerelle situatio er stadig de der blev præseteret på side 47, og vi øsker i dee omgag at teste atagelse om at gruppere har samme variasparameter σ 2. De måde ma ka gribe et sådat problem a på, er at ma idlejrer de statistiske model i e større model, og så tester ma på helt sædvalig vis om ma ka reducere de store model til de opridelige model. I det aktuelle tilfælde idlejrer vi de opridelige model 4.1) fra side 47 i e større model der tillader gruppere at have hver deres ege varias, emlig modelle Y i j N µ i,σ 2 i ). Deræst tester vi 4.1) som e hypotese i forhold til de ye grudmodel. De hypotese der skal testes, hadler ku om e del af modelles parametre, og for så at sige at slippe af med de parametre der ikke har oget med hypotese at gøre altså med µ i -ere), ka ma teste hypotese i de betigede fordelig givet de estimerede middelværdiparametre. 3 Hvis ma omskriver kvotietteststørrelse i de ævte betigede fordelig, år ma frem til at ma ka beytte følgede størrelse Bartletts teststørrelse) som teststørrelse for hypotese om variashomogeitet: k B = f i l s2 i s 2 ; 4.6) 0 2 Ma ka evetuelt klare sig med e atagelse om at grupperes variaser er af forme: e ukedt fælles parameter gaget med e kedt kostat der ka afhæge af gruppe). 3 Dette hæger samme med at ma måske også bør estimere variasparametree i dee betigede fordelig, se side 17.

54 54 Esidet variasaalyse her beteger si 2 estimatet over variase σi 2 af frihedsgrader for si 2, dvs. i de i-te gruppe, og f i er atallet si 2 = 1 i y f i j y i ) 2, i f i = i 1, og s 2 0 er det sædvalige estimat over de fælles varias σ 2 formel 4.4) på side 49). Bemærk i øvrigt at s 2 0 er et vægtet geemsit af s2 i -ere med frihedsgradere som vægte, s 2 0 = 1 k f f i si 2, hvor f = f 1 + f f k er atallet af frihedsgrader for s 2 0. Teststørrelse B som i virkelighede er e 2 l Q-størrelse) er altid et positivt tal, og store værdier af B er sigifikate, dvs. tyder på at hypotese om variashomogeitet er forkert. Hvis hypotese er rigtig, er B ogelude χ 2 - fordelt med k 1 frihedsgrader, således at det er let at bestemme de omtretlige testsadsylighed som ) ε = P χ 2 k 1 B obs. Dee χ 2 -approksimatio er god år alle f i -ere er store; som tommelfigerregel siger ma at de alle skal være midst 5. Hvis der ku er to grupper dvs. k = 2), ka ma alterativt teste hypotese om variashomogeitet med et test baseret på forholdet mellem de to variasestimater; dette er omtalt i forbidelse med tostikprøveproblemet i ormalfordelige, se side 35. Dette tostikprøvetest er ikke baseret på oge χ 2 - approksimatioer, så det har ige restriktioer på atallee af frihedsgrader.) Eksempel 4.3 Fuglegræs: test for variashomogeitet) Som illustratio udreges Bartletts teststørrelse i Fuglegræs-eksemplet. Vi udvider det tidligere regeskema i Tabel 4.2 og får Tabel 4.4. Derefter ka vi udrege B obs : B obs = = l l + 3 l l Betigelse om at alle f i -ere skal være midst fem er ikke opfyldt idet de alle er tre), så det er begræset hvor χ 2 -fordelt B ka forvetes at være; me hvis vi ser lidt stort på det, så skulle B altså være ca. χ 2 -fordelt med 4 1 = 3 frihedsgrader år hypotese om variashomogeitet er rigtig. I χ 2 3-fordelige er 80%-fraktile 4.64 og 90%-fraktile 6.25, således at uder forudsætig af at hypotese er rigtig, er der i størrelsesordee 10% sadsylighed for at få e værre B-værdi ed de opåede; på dette grudlag ka vi ikke forkaste hypotese om variashomogeitet. ) 4.4 Opgaver Opgave 4.1 Sammeligig af gødskigsmetoder) I et dyrkigsforsøg vil ma udersøge hvorda to gødskigsmetoder virker. Ma har dyrket 10 plater med de ee metode, 10 med de ade, og 10

55 4.4 Opgaver 55 Tabel 4.4 Fuglegræseksemplet: ogle beregede størrelser. står for atal observatioer y, S for Sum af y-er, y for geemsit af y-er, f for atal frihedsgrader, SS for Sum af kvadratiske afvigelser Sum of Squared deviatios ), og s 2 for variasestimat SS/ f ). gruppe S y f SS s sum geemsit Tabel 4.5 Opgave 4.1: Tørstofidhold i g) i plater uder forskellige dyrkigsbetigelser, samt visse hjælpestørrelser til beregigere. kotrol metode A metode B sum sum af kvadrater plater som e kotrolgruppe uder»sædvalige«omstædigheder. Efter e bestemt vækstperiode er platere høstet, og ma har målt tørstofidhold i hver af dem. De opåede resultater fremgår af Tabel 4.5. Aalysér talmaterialet. Opstil e passede statistisk model, estimér parametree, test relevate hypoteser; ka ma foretage modelkotrol?) Opgave 4.2 Etocetricisme) E forsker ved Columbia Uiversity ville udersøge om det amerikaske skolesystems itegratio af bør af forskellig race gav sig udslag i at børee fik forskellige holdiger til deres ege og til adre racer. Ha udsatte derfor fire grupper af bør for e etocetricisme-test der måler i hvilke grad det ekelte bar foretrækker at omgås og respektere bør af samme etiske gruppe som det selv frem for bør af adre etiske grupper. Et bar får altså et højt etocetricisme-tal hvis det i høj grad foretrækker kammerater af si ege race.)

56 56 Esidet variasaalyse Tabel 4.6 Opgave 4.2: Etocetricisme-tal for fire grupper af bør. 1. sorte bør i bladede skoler: hvide bør i bladede skoler: sorte bør i adskilte skoler: hvide bør i adskilte skoler: De fire grupper af bør er 1. sorte bør i bladede skoler, 2. hvide bør i bladede skoler, 3. sorte bør i adskilte skoler, 4. hvide bør i adskilte skoler. Der er udersøgt 50 bør fra hver gruppe. Resultatere fremgår af Tabel 4.6. Aalysér talmaterialet. Datamaterialets størrelse gør det muligt også at vurdere rimelighede af e atagelse om at observatioere i de ekelte grupper er uafhægige ormalfordelte observatioer.) TIP: Hjælpestørrelser til beregigere: sum sum af kvadrater sorte bør i bladede skoler hvide bør i bladede skoler sorte bør i adskilte skoler hvide bør i adskilte skoler Opgave 4.3 Kylligers vækst) Ma har foretaget e forsøgsrække med kylliger for at bedømme virkige af et formodet vækstfremmede hormo. Forsøget ka tækes opbygget på følgede måde: De eksperimetelle ehed består af et atal kylliger der lever i samme høsehus og får samme kost; måleresultatet er de geemsitlige vægt af de fuldvokse fugle. De eksperimetelle eheder er iddelt i tre grupper: é gruppe får ormal kost kotrolgruppe),

57 4.4 Opgaver 57 Tabel 4.7 Opgave 4.3: Geemsitlig vægt i pud) af de fuldvokse fugle i hver af de i alt 24 eksperimetelle eheder. kotrol lav dosis høj dosis Tabel 4.8 Opgave 4.3: Nogle hjælpestørrelser til beregigere. gruppe atal sum sum af kvadrater kotrol lav dosis høj dosis sum é gruppe får ormal kost plus hormoet i lav dosis, é gruppe får ormal kost plus hormoet i høj dosis. Hver gruppe ideholder otte eksperimetelle eheder. Resultatet af forsøget ses i Tabel 4.7. Udersøg ved hjælp af esidet variasaalyse om ma ka sige at det tilsatte hormo faktisk virker vækstfremmede. TIP: Beyt evetuelt Tabel 4.8. Udersøgelse bør suppleres med forskellige former for modelkotrol. Ma ka således kotrollere atagelse om variashomogeitet ved hjælp af Bartletts test. Hvilke muligheder er der for grafiske tests af ormalfordeligsatagelse?

58 58

59 5 Simpel lieær regressiosaalyse Regressiosaalyse hadler om at udersøge, hvorda e målt størrelse afhæger af e eller flere såkaldte baggrudsvariable. Atag at der foreligger et statistisk datamateriale som er fremkommet ved at ma på hvert af et atal»idivider«f.eks. forsøgspersoer eller forsøgsdyr eller ekelt-laboratorieforsøg osv.) har målt værdie af et atal størrelser variable). E af disse størrelser idtager e særstillig idet ma emlig gere vil»beskrive«eller»forklare«dee størrelse ved hjælp af de øvrige. Tit kalder ma de variabel der skal beskrives, for y, og de variable ved hjælp af hvilke ma vil beskrive, for x 1, x 2,..., x p. Adre betegelser fremgår af følgede oversigt: x 1, x 2,..., x p baggrudsvariable uafhægige variable forklarede variable y modelleret variabel afhægig variabel forklaret variabel resposvariabel Her skitseres et par eksempler: 1. Læge observerer de tid y som patiete overlever efter at være blevet behadlet for sygdomme, me læge har også registreret e mægde baggrudsoplysiger om patiete, så som kø, alder, vægt, detaljer om sygdomme osv. Nogle af baggrudsoplysigere ka måske ideholde iformatio om hvor læge patiete ka forvetes at overleve. 2. I e række ogelude es i-lade har ma bestemt mål for lugekræftforekomst, cigaretforbrug og forbrug af fossilt brædstof, altsamme pr. idbygger. Ma ka da udæve lugekræftforekomst til y-variabel og søge at»forklare«de ved hjælp af de to adre variable der så får rolle som forklarede variable. 3. Ma øsker at udersøge et bestemt stofs giftighed. Derfor giver ma det i forskellige kocetratioer til ogle grupper af forsøgsdyr og ser hvor mage af dyree der dør. Her er kocetratioe x e uafhægig variabel hvis værdi eksperimetator bestemmer, og atallet y af døde er de afhægige variabel. E statistisk model i de slags situatioer skal bladt adet 59

60 60 Simpel lieær regressiosaalyse udtrykke middelværdie af y-variable som e simpel og»pæ«fuktio af de forklarede variable, og agive hvilke sadsylighedsfordelig der skal beskrive y-eres tilfældige variatio. I det følgede skal vi beskæftige os med modeller hvor de tilfældige variatio beskrives af e ormalfordelig og hvor middelværdie ka skrives som e liearkombiatio af to eller flere) ukedte parametre med de forklarede variable som koefficieter. De slags modeller ka geerelt formuleres på følgede måde: For hvert idivid i = 1, 2..., ) foreligger der dels e målig af e størrelse y på e kotiuert måleskala), dels værdier af p baggrudsvariable x 1, x 2,..., x p. For hvert i har ma altså de p + 1 tal x i1, x i2,..., x ip, y i, hvor y i beteger de værdi af y der er målt på det i-te idivid, og hvor x i j beteger værdie af de j-te baggrudsvariabel hos idivid r. i. Modelle er da at tallee y 1, y 2,..., y opfattes som observerede værdier af uafhægige ormalfordelte stokastiske variable Y 1, Y 2,..., Y hvor Y i N β 0 + p x i j β j,σ 2 ) = N β 0 + x i1 β 1 + x i2 β x ip β p,σ 2 ). Her er koefficietere β 0, β 1, β 2,..., β p ukedte parametre der fastlægger hvorda middelværdie bestemmes kvatitativt ud fra de forklarede variable, og variasparametere σ 2 beskriver de tilfældige variatio omkrig middelværdie. De geerelle model omtales ærmere i kapitlet om multipel lieær regressiosaalyse, me vi skal først og fremmest udersøge det vigtige specialtilfælde simpel lieær regressiosaalyse. 5.1 Præsetatio af modelle Reste af dette kapitel hadler om de situatio hvor der foreligger et atal talpar x, y), og hvor ma øsker at opstille e statistisk model for y-ere; x- ere skal idgå i modelle på de måde at middelværdie af Y ka skrives som α + βx for passede valg af parametree α og β. Skematisk ser det såda ud hvis der er talpar og par r. i beteges x i, y i ): baggrudsvariabel observatio x 1 y 1 x 2 y 2. x Vi formulerer e statistisk model for y-ere på følgede måde:. y

61 5.1 Præsetatio af modelle 61 tallee y 1, y 2,..., y er observerede værdier af ogle stokastiske variable Y 1, Y 2,..., Y ; de stokastiske variable Y 1, Y 2,..., Y er uafhægige og ormalfordelte med samme varias σ 2 ; tallee x 1, x 2,..., x betragtes som faste tal de er altså ikke i dee model) observerede værdier af stokastiske variable; middelværdie af de i-te målig ka skrives som α + βx i, dvs. som e liearkombiatio af to ukedte parametre α og β og med koefficietere 1 og x i : E Y i = α + βx i, i = 1, 2,...,. Dee model ka kort skrives som Y i N α + βx i,σ 2 ). 5.1) Modelle beskriver y-eres systematiske variatio ved hjælp af parametree α og β og de kedte kostater x 1, x 2,..., x ; de beskriver de tilfældige variatio ved hjælp af ormalfordelige og de ukedte variasparameter σ 2. Modelle kaldes e simpel lieær regressiosaalyse-model, og β kaldes regressioskoefficiete. De to størrelser x og y idgår på vidt forskellig måde i modelle, og det er derfor ikke ligegyldigt hvad ma lader være x og hvad y. I ogle tilfælde er det gaske klart hvad der er»observatio«, og hvad der er»baggrudsvariabel«, me i adre tilfælde er det i høj grad et valg ma træffer. Her kommer to eksempler der illustrerer de to muligheder. Eksempel 5.1 Fædre og søer) I slutige af 1800-tallet opstod i Eglad faget biometri, et fag i græseområdet mellem hvad vi i vore dage forstår ved) statistik og biologi. De emer biometrikere tog op, var i høj grad emer med forbidelse til de ye og kotroversielle arvelighedslære idet de håbede at kue fide bekræftelser på og umeriske beskrivelser af evolutiosteorie. Desude var ogle af biometrikere meget optaget af de almidelige debat om de sociale problemer i samfudet og de var store), og de måtte derfor gøre sig overvejelser over hvad arvelighedslære kue fortælle om samfudets udviklig. Biometrikere F. Galto ) spekulerede over det tilsyeladede almidelige forfald: hvorda kue det være at fremragede fædre ikke fik tilsvarede fremragede søer eller var det bare oget ma sytes?). Nu er det vaskeligt at fide et mål for»fremragede-hed«, så Galto gav sig til at udersøge højde i stedet. Ha forastaltede e større idsamlig af data om medlemmer af britiske familier. 1 Galto foretog det vi utildags kalder e regressiosaalyse, og ha fadt at høje fædre geemsitligt fik søer der ikke var så høje som de selv, me dog lå over geemsittet i befolkige. Omvedt fik små fædre geemsitligt søer der var højere ed dem selv, me dog lå uder geemsittet i befolkige. Dee tilsyeladede 1 Ha idsamlede data om bladt adet øjefarve, gemyt, kusteriske ever, sygdomme, valg af ægtefælle, frugtbarhed, og altså højde.

62 62 Simpel lieær regressiosaalyse Tabel 5.1 Fædre og søer: Fordelige af 1078 par af far og sø efter faderes højde og søes højde. Højdere er agivet i iches. Faderes højde S ø e s h ø j d e ærme sig det geemsitlige så Galto som e tilbagegag og kaldte det derfor e regressio. 2 3 I Tabel 5.1 er gegivet et talmateriale som to adre biometrikere idsamlede, idet de for 1078 par af far og sø registrerede faderes højde og søes højde. Tabelle skal læses på de måde at der f.eks. var syv tilfælde ud af de 1078 hvor fadere var 67 iches og søe 65 iches. Der er tale om e situatio med = 1078 talpar x, y), me det er ikke ude videre klart at de ee af de to højder er e»baggrudsvariabel«og de ade e»observatio«, faktisk må ma vel sige at de er»observatioer«begge to. Alligevel ka ma vælge at opfatte f.eks. faderes højde som»baggrudsvariabel«og søes højde som»observatio«og så foretage e såkaldt»regressio af søes højde på faderes højde«; det ka ma vælge at gøre hvis ma er iteresseret i at udersøge hvorda ma ka forudsige, prædiktere, søes højde ud fra faderes. Eksempel 5.2 Kvælig af hude) Ma ved at hypoxi edsat ilttilførsel til hjere) ka bevirke at der daes forskellige skadelige stoffer i hjere, og det ka i værste fald medføre alvorlige hjereskader. Hypoxi ka bladt adet forekomme ved fødsler.) Ma er derfor iteresseret i at udvikle e simpel metode til at afgøre om der har være hypoxi og i givet fald hvor læge. Ma har udført e række forsøg for at udersøge om kocetratioe af hypoxati i cerebrospialvæske ka beyttes som hypoxiidikator. 2 regressio betyder tilbagegag. 3 Vi ka altså takke Galto for betegelse regressiosaalyse. Det er vistok også ham der skal have ære for at have udbredt betegelse ormalfordelige om ormalfordelige.

63 5.2 Estimatio af parametree 63 Tabel 5.2 Kvælig af hude: Måliger af hypoxatikocetratio til de fire forskellige tidspukter. I hver gruppe er observatioere ordet efter størrelse. varighed mi) kocetratio µmol/l) Syv hude er uder bedøvelse) blevet udsat for iltmagel ved sammepresig af luftrøret, og hypoxatikocetratioe måltes efter 0, 6, 12 og 18 miutters forløb. Det var af forskellige grude ikke muligt at foretage måliger på alle syv hude til alle fire tidspukter, og det ka heller ikke afgøres hvorda måliger og hude hører samme. Resultatere af forsøget er vist i Tabel 5.2. Ma ka askue situatioe på de måde at der foreligger = 25 par sammehørede værdier af kocetratio og varighed. Varighedere er kedte størrelser de idgår i forsøgsplae hvorimod kocetratioere ka betragtes som observerede værdier af stokastiske variable: tallee er ikke es fordi der er e vis biologisk variatio og e vis forsøgsusikkerhed, og det ka passede modelleres som tilfældig variatio. Det er derfor ærliggede at søge at modellere tallee ved hjælp af e regressiosmodel med kocetratio som y-variabel og varighed som x-variabel. Ma ka aturligvis ikke på forhåd vide om varighede i sig selv er e hesigtsmæssig forklarede variabel. Måske viser det sig at ma bedre ka beskrive kocetratioe som e lieær fuktio af logaritme til varighede ed som e lieær fuktio af selve varighede, me det betyder blot at der er tale om e lieær regressiosmodel med logaritme til varighede som forklarede variabel. Der melder sig u forskellige spørgsmål: 1. Hvorda estimerer ma de idgåede parametre α, β og σ 2? 2. Hvorda vurderer ma om e model af forme 5.1) giver e foruftig beskrivelse af datamaterialet? 3. Hvorda tester ma hypoteser om parametree? 5.2 Estimatio af parametree Vi estimerer α og β ved maximum likelihood metode der på grud af ormalfordeligsatagelse er det samme som e midste kvadraters metode, og vi estimerer σ 2 som residualkvadratsumme divideret med atallet af frihedsgrader. Estimatio af α og β Parametree α og β estimeres ved at maksimalisere de til grudmodelle 5.1) hørede likelihoodfuktio

64 64 Simpel lieær regressiosaalyse Lα, β,σ 2 ) = = 1 exp 1 2πσ πσ 2 ) exp yi α + βx i ) ) 2 σ 2 1 2σ yi 2 α + βx i ) ) ) 2. Det fremgår heraf at de bedste estimater over α og β er de værdier der miimaliserer kvadratsumme yi α + βx i ) ) ) Disse værdier ka ma ete bestemme ved hjælp af stadardmetoder til bestemmelse af ekstremumspukter for fuktioer af to variable, eller ma ka søge at slippe lettere om ved det ved at foretage sedige omskriviger af kvadratsumme på ligede måde som ved estimatio i estikprøveproblemet side 15), i tostikprøveproblemet side 31) og i esidet variasaalyse side 48). Vi prøver med de sedige omskrivig: Det er hesigtsmæssigt at operere med x-eres og y-eres afvigelser fra deres geemsit x og y. Derfor omskrives kvadratsumme 5.2) således: yi α + βx i ) ) 2 = yi y) + y α + βx)) βx i x) ) 2 = y i y) 2 5.3) + y α + βx) ) 2 + β 2 x i x) 2 2β x i x)y i y), idet de øvrige to dobbelte produkter fra kvadrerige af de treleddede størrelse bliver 0. Omskrivige har ført til et udtryk hvor α ku optræder i ét led, emlig y α + βx)) 2, og dette led atager si midsteværdi 0 etop år α er lig y βx. Deræst skal vi bestemme β så det miimaliserer summe af de tre øvrige led, dvs. miimaliserer udtrykket eller kort β 2 x i x) 2 2β x i x)y i y) + β 2 SS x 2βSP xy + SS y y i y) 2

65 5.2 Estimatio af parametree 65 hvor vi har beyttet de ofte avedte betegelser SS x hhv. SS y for sum af kvadratiske afvigelser af x-er hhv. y-er, og SP xy for sum af produkter af afvigelser af x-er og y-er. 4 Udtrykket β 2 SS x 2βSP xy + SS y er e adegradsfuktio af β, og da koefficiete til β 2 er positiv, så har fuktioe ét miimumspukt, og det fides ved at differetiere og sætte de afledede lig 0; ma får da at β estimeres ved ˆβ = SP xy SS x. Ifølge betragtigere ovefor er det dertil svarede bedste valg af α ˆα = y ˆβ x. Hermed har vi løst estimatiosproblemet for så vidt agår α og β. De estimerede regressiosliie er liie hvis ligig er) y = ˆα + ˆβx. Udertide, især år ma skal udføre beregigere mere eller midre med hådkraft, ka ma have forøjelse af et adet udtryk for ˆβ eller måske sarere for SP xy og SS x. Ved almidelige og lette formelmaipulatioer fider ma følgede formler, hvor hver gag det første lighedsteg er defiitioslighedsteget og det adet viser det alterative udtryk: ) ) SP xy = x i x)y i y) = x i y i, SS x = SS y = Estimatio af σ 2 x i x) 2 = y i y) 2 = x i y i 1 x 2 i 1 y 2 i 1 ) 2 x i, ) 2 y i. Variasestimatet er som altid residualkvadratsumme divideret med atallet af frihedsgrader: 1. Residualkvadratsumme får vi ved at erstatte α og β med udtrykkee for) ˆα og ˆβ i kvadratsumme 5.2), så de er yi ˆα + ˆβx i ) ) 2. Hvis ma i stedet idsætter i udtrykket 5.3) og reducerer, får ma et alterativt udtryk for residualkvadratsumme, emlig y i y) 2 ˆβ 2 x i x) 2 = SS y ˆβ 2 SS x = SS y SP2 xy. SS x 4 SS = Sum of Squared deviatios, SP = Sum of Products.

66 66 Simpel lieær regressiosaalyse 2. Atallet af frihedsgrader er 2 fordi der er observatioer og der er estimeret 2 middelværdiparametre. Variase σ 2 estimeres derfor ved s 2 02 = = yi ˆα + ˆβx i ) ) 2 SS y SP2 xy SS x ). 5.4) Eksempel 5.3 Fædre og søer, fortsat fra side 62) Vi vil udrege»regressioe af søes højde på faderes højde«, dvs. vi vil bruge søes højde som y og faderes højde som x i e lieær regressio. På grudlag af tallee i Tabel 5.1 udreges først ogle hjælpestørrelser, se Tabel 5.3, og ved hjælp af disse udreges SP xy = SS x = SS y = ) ) x i y i 1 x i y i = ) 2 xi 2 1 x i = ) 2 yi 2 1 y i = De estimerede regressioskoefficiet er = , = = , ˆβ = SP xy /SS x = / = 0.514, og de estimerede skærig med ordiatakse er ˆα = y ˆβx = Regressiosmodelle aviser altså følgede relatio: Residualkvadratsumme er = søs højde = fars højde. SS y SP 2 xy/ss x = / = så de estimerede varias er s 2 02 = /1078 2) = med 1076 frihedsgrader. Der er aturligvis også de mulighed at udrege regressioe af faderes højde på søes højde. Ma vil da få fars højde = søs højde og e estimeret varias på s 2 02 = 5.495, ligeledes med 1076 frihedsgrader. Som det ses, er det ikke ligegyldigt hvilke af de to højder ma beytter som x og hvilke som y.

67 5.3 Parameterestimateres middelfejl 67 Tabel 5.3 Fædre og søer: Hjælpestørrelser til beregigere. Sum af faders højde søs højde faders højde faders højde søs højde søs højde faders højde søs højde Afrudigsfejl De forskellige formeludtryk for SP xy, SS x, SS y og s 2 02 er allesamme lige rigtige set fra et matematisk syspukt. Me hvis ma tæker på dem som forskrifter for hvorda ma skal rege tigee ud, så har de hver deres fordele og ulemper. Hvis ma f.eks. skal udrege s 2 02, så er formle ) s = SS y SP2 xy 2 SS x praktisk fordi de viser hvorda ma fider s 2 02 ud fra tre tal som ma formetlig allerede har reget ud i ade forbidelse; me formle er upraktisk fordi de idebærer at ma skal trække to ofte æste lige store positive tal SS y og SP 2 xy/ss x ) fra hiade, og det betyder at det hele let ka ede i afrudigsfejl såfremt ma ikke har reget med tilstrækkeligt mage cifre i mellemregigere. Omvedt er formle s 2 02 = 1 2 yi ˆα + ˆβx i ) ) 2 ikke ær så følsom over for afrudigsfejl, me de er til gegæld besværlig at rege ud fordi der skal ma udrege de prædikterede værdier ˆα + ˆβx i, derpå de tilsvarede residualer, og edelig summe af de kvadrerede residualer. Morale må derfor være at ete skal ma være dove me tæke sig om, eller også skal ma rege meget, me så behøver ma ikke tæke sig om. 5.3 Parameterestimateres middelfejl Regressiosaalyse er i udpræget grad et forsøg på at modellere kvatitative sammehæge, og derfor er det ikke tilstrækkeligt blot at udrege parameterestimatere, ma skal også skaffe sig e idé om hvor præcise de er. Når ma tester hypoteser, foregår det ved at ma udreger værdie af e passede valgt teststørrelse der fugerer som et mål for hvor godt de foreliggede observatioer stemmer overes med hypotese. Derefter bestemmer ma de såkaldte testsadsylighed der er sadsylighede for at få et sæt observatioer der stemmer dårligere overes med hypotese ed de faktiske

68 68 Simpel lieær regressiosaalyse observatioer gør. Når ma overhovedet ka tale om e såda sadsylighed, er det takket være de statistiske model; de statistiske model fortæller emlig at observatioere ka opfattes som observerede værdier af stokastiske variable der følger e ærmere agivet sadsylighedsfordelig, og ma ka derfor sige at de statistiske model sætter os i stad til at sammelige de faktiske observatioer med alle de adre sæt observatioer ma også kue have fået idet ma tager hesy til, med hvilke sadsyligheder de forekommer. E ade side af dette at»sammelige med hvad ma ellers kue have fået«er bestemmelse af estimatoreres middelfejl. Et estimat er jo reget ud på grudlag af de faktiske observatioer, me ved hjælp af de statistiske model ka ma få svar på spørgsmålet: hvilke adre talværdier af estimatet kue ma også have fået og med hvilke sadsyligheder. For da estimatet er e fuktio af observatioere, og da observatioere opfattes som observerede værdier af stokastiske variable, så ka estimatet også opfattes som e observeret værdi af e vis stokastisk variabel, estimatore, hvis sadsylighedsfordelig ma i pricippet ka fide. Ofte er ma edda ku iteresseret i at vide ide for hvilke græser størstedele af sadsylighedsmasse er beliggede, og til det brug udreger ma de såkaldte middelfejl, dvs. estimatores stadardafvigelse. Som e tommelfigerregel gælder emlig at itervallet middelværdie plus/mius to gage stadardafvigelse afgræser ca. 95% af sadsylighedsmasse 5, og i de forstad er middelfejle et direkte mål for hvor uøjagtigt estimatet er. 6 Vi skal ikke komme ærmere id på hvorda ma år frem til formeludtryk for middelfejl, me her er ogle resultater for de lieære regressiosmodel: 1. Middelfejle på ˆβ er σ 2 /SS x. 2. a) Middelfejle på ˆα er σ x2 SS x ). b) Estimatorere / ˆα og ˆβ er korrelerede; korrelatio mellem dem er SS x. x 2 3. a) Middelfejle på ˆα + ˆβx er σ 2 /. b) Estimatorere ˆα + ˆβx og ˆβ er ukorrelerede. Disse udtryk er de teoretiske middelfejl hvori optræder de teoretiske varias σ 2 på Y. Da vi ikke keder parametere σ 2, må vi i stedet idsætte et estimat over de, f.eks. s 2 02, og derved få de estimerede middelfejl. Af udtrykket for middelfejle på ˆβ ses at det er e fordel at x-værdiere ligger spredt over et stort iterval for så bliver SS x stor og middelfejle derved lille. À propos middelfejl ka det være værd at æve at middelfejle på e estimator s 2 over variasparametere σ 2 i e ormalfordeligsmodel er lig 5 Det er især rigtigt hvis estimatore er ormalfordelt. 6 Eksempel: Hvis ma har udreget ˆβ til og middelfejle på ˆβ til 0.3, så véd ma at ca. 95% af alle de adre ˆβ-værdier ma også kue have fået, ligger i et iterval af lægde 1.2 emlig itervallet β ± 2 0.3), og deraf bør ma bl.a. drage de kosekves at ˆβ ikke skal agives med tre decimaler, me ku med é.

69 5.4 E ade formulerig af modelle 69 σ 2 2/ f, hvor f er atallet af frihedsgrader for s 2. Deraf ses hvorda variasestimatet bliver bedre jo flere frihedsgrader det har. 5.4 E ade formulerig af modelle I de opridelige formulerig af de lieære regressiosmodel var der tale om et atal»uspecificerede«talpar x, y). Ofte er det såda at der foreligger flere måliger af y for hvert x det er for eksempel tilfældet i eksemplet med kvælig af hude). Det gør ikke spor at der er flere talpar med det samme x, me udertide er det hesigtsmæssigt at otatioe ka idfage dette forhold, bl.a. år ma vil lave regeopskrifter der er overkommelige at beytte med»hådkraft«. Vi præseterer derfor u e ade formulerig af de lieære regressiosmodel. Skematisk ser situatioe såda ud: baggrudsvariabel x 1 x 2 x 3. x k observatioer y 11 y y 11 y 21 y y 22 y 31 y y 33. y k1 y k2... y kk hvor det u er såda at værdiere x 1, x 2,..., x k af baggrudsvariable x er forskellige; hørede til de i-te x-værdi er der de i observatioer y i1, y i2,..., y ii ; det samlede atal observatioer er = k. Regressiosmodelle 5.1) skrives u som Y i j N α + βx i,σ 2 ). De tidligere idførte hjælpestørrelser SP xy, SS x og SS y side 65) er i de ye otatio SP xy = = SS x = = SS y = = k i x i x)y i j y) = k i x i y i 1 k i k i x 2 i 1 k i k x i x) 2 = y i j y) 2 i y 2 i j 1 ) ) k k i x i i y i, k i x i x) 2 ) 2 k i x i, ) 2 k i y i k i x i x)y i y)

70 70 Simpel lieær regressiosaalyse Tabel 5.4 Kvælig af hude: beregigsskema. x-værdiere er varighed i miutter, y-værdiere er kocetratio i µmol/l. i i x i y i i x i i y i i x i y i i x 2 i i yi 2 j sum hvor der er beyttet følgede betegelser: y i = 1 i y = 1 x = 1 i y i j er geemsittet af y-ere hørede til x i, k k i y i j = 1 i x i = 1 Parameterestimatere er stadig k i y i er totalgeemsittet af y-ere, og k i x i er geemsittet af x-ere. ˆβ = SP xy SS x, ˆα = y ˆβx, og s = 2 yi ˆα + ˆβx i ) ) 2 ) 1 = SS y SP2 xy. 2 SS x Bemærkigere om afrudigsfejl side 67) er stadig aktuelle. Eksempel 5.4 Kvælig af hude, fortsat fra side 63) Vi vil atage at hypoxatikocetratioe ka beskrives ved e lieær regressiosmodel med hypoxivarighede som uafhægig variabel. Dee atagelse vil blive udersøgt ærmere i e seere fortsættelse af eksemplet, se side 74.) Vi lader x 1, x 2, x 3 og x 4 betege de fire tidspukter 0, 6, 12 og 18 mi, og vi lader y i j betege de j-te kocetratiosværdi til tid x i. Med de idførte betegelser ka de tidligere foreslåede statistiske model for talmaterialet formuleres som Y i j N α + βx i,σ 2 ). Vi vil udrege værdiere af estimatere ˆα, ˆβ og s 2 02 over modelles parametre. Ma ka selvfølgelig overlade regearbejdet til e datamat, me det er på de ade side

71 5.4 E ade formulerig af modelle 71 ikke uoverkommeligt at gøre det med hådkraft. Idledigsvis udreges forskellige hjælpestørrelser mm., se Tabel 5.4. Heraf fås de estimerede regressioskoefficiet til ˆβ = SP xy SS x = k k ) k ) i x i y i 1 i x i i y i k k ) 2 i xi 2 1 i x i = µmol l 1 mi 1 = 0.61 µmol l 1 mi 1, og det estimerede skærigspukt med ordiatakse til ˆα = y ˆβ x µmol l 1 = 25 = 1.4 µmol l µmol l 1 mi mi 25 Variase estimeres ved s 2 02 = ) 1 SS y SP2 xy. 2 SS x Her er SS y = k i y 2 i j 1 k ) 2 i y i = /25) µmol 2 l 2 = µmol 2 l 2, og SP 2 xy SS x = µmol2 l 2 = µmol 2 l 2, så residualkvadratsumme er ) µmol 2 l 2 = µmol 2 l 2 og s 2 02 = µmol 2 l 2 = 4.85 µmol 2 l 2, svarede til e estimeret stadardafvigelse på 2.2 µmol/l. Middelfejle på ˆβ er jf. side 68) s 2 02 = SS x µmol l 1 mi 1 = 0.06 µmol l 1 mi 1,

72 72 Simpel lieær regressiosaalyse og middelfejle på ˆα er ) 1 + x2 s 2 SS 02 = x ) /25) µmol l = 0.7 µmol l 1. Størrelse af de to middelfejl viser at det er passede at agive ˆβ med to og ˆα med é decimal, så vi må kokludere at de estimerede regressiosliie er y = 1.4 µmol l µmol l 1 mi 1 x. 5.5 Modelkotrol Ved simpel lieær regressiosaalyse er de første og vigtigste form for modelkotrol de uhyre simple: at lave e tegig. I et koordiatsystem afsætter ma puktere x i, y i ), ma idteger de estimerede regressiosliie og ser efter om puktere fordeler sig passede tilfældigt omkrig liie. E tegig ka som regel også afsløre hvad der i givet fald måtte være galt med de lieære regressiosmodel. Tit ka ma også foretage et umerisk test for om de lieære regressiosmodel er brugbar. Det foregår ved at ma idlejrer regressiosmodelle i e større model, og derefter tester ma på helt sædvalig vis regressiosmodelle som e hypotese i forhold til de større model. E ødvedig forudsætig for at dette ka lade sig gøre er at der er flere y-er til det samme x; for ma bærer sig emlig ad på de måde at ma iddeler y-ere i grupper beståede af y-er med samme x, og som de»større model«beytter ma e esidet variasaalysemodel. Vi skal u se hvorda det ærmere går for sig. Det følgede skal læses som e fortsættelse af Afsit 5.4. Regressiosmodelle Y i j N α + βx i,σ 2 ) idlejres i e større model, emlig i de esidede variasaalysemodel med k grupper svarede til de k iveauer af x: Y i j N µ i,σ 2 ). Vi beytter så dee model som grudmodel og tester de førstævte model som e hypotese i forhold hertil, det vil sige vi tester hypotese H 2 : µ i = α + βx i. Teststørrelse for at teste H 2 er i pricippet e kvotiet Q mellem to likelihoodfuktiosværdier, me på samme måde som i forbidelse med esidet variasaalyse ka Q omskrives til e kvotiet F mellem to s 2 -størrelser. Før

73 5.5 Modelkotrol 73 vi specificerer disse størrelser ærmere er det hesigtsmæssigt at opskrive følgede spaltig af regressiosmodelles residualkvadratsum: k i yi j ˆα + ˆβx i ) ) 2 = k i y i j y i ) 2 + k i yi ˆα + ˆβx i ) ) 2 5.5) dee opspaltig følger af formel 4.3) på side 48 ved at erstatte µ i med ˆα + ˆβx i ); de tilsvarede opspaltig af frihedsgradere er 2 = k) + k 2). Formel 5.5) viser hvorda residualkvadratsumme der ka siges at beskrive de samlede variatio omkrig regressiosliie, deles op i e sum af e kvadratsum vedrørede variatioe ide for grupper og e kvadratsum vedrørede grupperes variatio omkrig regressiosliie, se også Figur 5.1. Ved at dividere kvadratsummere med deres frihedsgrader fås s 2 -størrelsere: dels de tidligere idførte s 2 02 med 2 frihedsgrader side 70) og s2 0 med k frihedsgrader side 49), dels s 2 2 = k 1 k 2 i yi ˆα + ˆβx i ) ) 2. Teststørrelse for hypotese H 2 om at gruppemiddelværdiere faktisk ligger på e ret liie, er F = s2 2 s 2 0 det vil sige grupperes variatio omkrig liie målt i forhold til variatioe ide for gruppere. Store værdier af F er sigifikate, og hvis H 2 er rigtig, vil F følge F-fordelige med frihedsgrader k 2 og k således at testsadsylighede ε er givet som ε = P F k 2, k > F obs ) der bestemmes ved hjælp af e tabel over F-fordelige. Hvis ε er meget lille og F dermed er sigifikat stor), så må vi forkaste liearitetshypotese H 2. Så står vi tilbage med de esidede variasaalysemodel Y i j N µ i,σ 2 ) hvor parametree µ 1, µ 2,..., µ k estimeres ved y 1, y 2,..., y k og hvor parametere σ 2 estimeres ved s 2 0 med k frihedsgrader. Hvis ε ikke er meget lille og F dermed ikke er sigifikat stor), så ka vi godtage de lieære regressiosmodel Y i j N α + βx i,σ 2 ) hvor parametree α og β estimeres ved ˆα og ˆβ og hvor parametere σ 2 estimeres ved s 2 02 med 2 frihedsgrader jf. side 70).

74 74 Simpel lieær regressiosaalyse variatio ide for grupper: samlet variatio omkrig regressiosliie: k i yi j ˆα + ˆβx i ) ) 2 2 frihedsgrader k i y i j y i ) 2 k frihedsgrader grupperes variatio omkrig regressiosliie: k i yi ˆα + ˆβx i ) ) 2 k 2 frihedsgrader regressiosliies variatio: k i ˆα + ˆβx i ) y ) 2 variatio mellem grupper: k i y i y) 2 k 1 frihedsgrader 1 frihedsgrad de totale variatio: k i y i j y) 2 1 frihedsgrader Figur 5.1 Skematisk oversigt over ogle af de i kapitlet forekommede kvadratsummer med tilhørede frihedsgrader. Bemærk i øvrigt, at kvadratsumme vedrørede grupperes variatio omkrig liie ifølge formel 5.5) ka skrives som k i yi ˆα + ˆβx i ) ) 2 = k i yi j ˆα + ˆβx i ) ) k 2 i y i j y i ) 2 ; det ka være praktisk ved udregiger. Eksempel 5.5 Kvælig af hude, fortsat) Vi vil udersøge om det ka atages at hypoxatikocetratioe afhæger lieært af hypoxies varighed. Da vi er i e situatio hvor der er e del y-er til hvert x, er det muligt at udføre det umeriske test for modelle. Vi har tidligere side 70 ff) bestemt de talværdier der i givet fald er de bedste esti-

75 5.5 Modelkotrol 75 Figur 5.2 Kvælig af hude: Sammehørede værdier af hypoxatikocetratio og hypoxivarighed, samt de estimerede regressiosliie. Tabel 5.5 Kvælig af hude: Nogle hjælpestørrelser til beregigere. i i i i y i j y i f i y i j y i ) 2 si sum geemsit mater over parametree, og derved fået de estimerede regressiosliie til y = 1.4 µmol l µmol l 1 mi 1 x. I Figur 5.2 er idteget dels sammehørede værdier af varighed og kocetratio, dels de estimerede regressiosliie. Efter tegige at dømme er de lieære regressiosmodel ikke helt he i vejret. I håbet om at kue bestyrke troe på modelle vil vi udføre det umeriske test for de lieære model. Som midlertidig grudmodel vil vi beytte e esidet variasaalysemodel baseret på de fire grupper bestemt af x-ere. Idledigsvis udreges forskellige hjælpestørrelser mm., se Tabel 5.5. Det fremgår bladt adet at de kvadratsum der beskriver variatioe mellem grupper, er med 21 frihedsgrader. På side 71 fadt vi regressiosmodelles residualkvadratsum til med 23 frihedsgrader, så kvadratsumme hørede til grupperes variatio omkrig regressiosliie er = med = 2 frihedsgrader. Teststørrelse for hypotese om at gruppemiddelværdiere ligger på e ret liie, er da F = 10.18/ /23 = = 1.06 der skal sammeliges med F-fordelige med 2 og 21 frihedsgrader, og i dee fordelig er der mere ed 30% sadsylighed for at få e værdi som er større ed de observerede der altså på ige måde er sigifikat. Vi har således fået bekræftet liearitetshypotese. Traditioelt opsummerer ma udregiger og testresultater i et variasaalyseskema, se Tabel 5.6. Variasaalysemodelle såvel som de lieære regressiosmodel forudsætter at der er variashomogeitet, så det ka ma jo også teste. Vi idsætter s 2 -værdiere fra Tabel 5.5 i Bartletts teststørrelse og får B = = l l + 4 l ) l 4.82

76 76 Simpel lieær regressiosaalyse Tabel 5.6 Kvælig af hude: Variasaalyseskema vedrørede test af liearitetshypotese. I skemaet står f for atal frihedsgrader, SS for sum af kvadratiske afvigelser, og s 2 = SS/ f. variatio f SS s 2 test ide for grupper grupperes var. omkrig regr.liie /4.82=1.06 samlet variatio omkrig regr.liie der skal sammeliges med χ 2 -fordelige med k 1 = 3 frihedsgrader. Tabelopslag viser at der er over 10% chace for at få e større B-værdi ed værdie 5.5 som derfor ikke er sigifikat stor. Med adre ord ka vi opretholde atagelse om variashomogeitet. Alt i alt er der således ikke oget der taler imod at vi beskriver hypoxidataee med e lieær regressiosmodel med hypoxivarighed som uafhægig variabel og hypoxatikocetratio som afhægig variabel. 5.6 Test af hypoteser om liies parametre Ma ka aturligvis teste hypoteser om regressiosliies parametre. Fremgagsmåde er de samme som altid: først estimeres parametree uder hypotese, deræst udreges kvotiete Q mellem de to maksimale likelihoodfuktiosværdier, og edelig bestemmes sadsylighede for at få et værre sæt observatioer, dvs. et sæt observatioer der giver et midre Q. Som ved alle adre tests af hypoteser der har med middelværdier i ormalfordelige at gøre, ka Q omskrives til e F-størrelse der er mere praktisk at have med at gøre, og år der er tale om hypoteser om e ekelt parameter, ka ma som e yderligere forsimplig beytte e t-teststørrelse der måske er mere forståelig. Vi skal ikke her komme id på de ærmere detaljer, me blot forklare hvorda teststørrelsere kommer til at se ud i disse specielle tilfælde. Hypotese β = 0 Hvis ma vil teste hypotese H 3 : β = 0 om at regressioskoefficiete er 0, dvs. y afhæger ikke lieært) af x, så bliver F-teststørrelse F = s 2 3 /s2 02 hvor s 2 02 er det bedste variasestimat uder de aktuelle model, se side 66, og hvor s 2 3 = 1 1 k i ˆα + ˆβx i ) y ) 2 = ˆβ 2 SS x = SP 2 xy/ss x er de såkaldte regressiosliies variatio. Store værdier af F er sigifikate. Der gælder at F = t 2 hvor t = ˆβ s 2 02 /SS x

77 5.6 Test af hypoteser om liies parametre 77 er estimatet ˆβ over β divideret med de estimerede stadardafvigelse dvs. de estimerede middelfejl) på ˆβ, jf. side 68. Ma ka sige at t-størrelse måler hvor lagt ˆβ ligger fra de formodede værdi 0 år ma beytter middelfejle som målestok. Store værdier af t er sigifikate. Ma ka bevise at uder H 3 vil t være t-fordelt med det atal frihedsgrader som s 2 02 har, dvs. med 2 frihedsgrader. Det betyder at testsadsylighede ka fides ved hjælp af tabeller over t-fordelige som ε = P t 2 > t obs ) = 2 P t 2 > t obs ). Hvis ma vil beytte F som teststørrelse, er ε = PF 1, 2 > F obs ).) Hvis hypotese H 3 ka godkedes, skal ma udrege et revideret estimat over α og et forbedret estimat over variase σ 2. Hypotese H 3 betyder at de forklarede variabel x ikke er ødvedig, me at alle Y-er har samme middelværdi α, dvs. der er tale om et estikprøveproblem. Uder H 3 er estimatet over α derfor totalgeemsittet y, og estimatet over σ 2 er s 2 03 = 1 1 k i y i j y) 2. Hypotese α = 0 Udertide følger det af de faglige problemstillig at liie skal gå geem 0, 0), dvs. at α = 0, i adre situatioer ka ma være iteresseret i at teste hypoteser om α blot for at å til e så simpel beskrivelse af data som muligt. Hvis ma øsker at teste hypotese H 4 : α = 0 om at liie går geem 0, 0), ka det gøres med F-teststørrelse F = s 2 4 /s2 02, hvor s2 4 er»kvadratsumme«ss x ˆα 2 SS x + x 2 divideret med sit frihedsgradsatal 1, og s2 02 er variasestimatet uder liearitetshypotese. Store værdier af F er sigifikate. Der gælder at F = t 2 hvor t = s 2 02 ˆα ) 1 + SS x2 x er forholdet mellem estimatet ˆα over α og de estimerede middelfejl på ˆα. Store værdier af t er sigifikate. Ma ka bevise at uder H 4 vil t følge t-fordelige med samme atal frihedsgrader som variasestimatet i ævere, dvs. 2 frihedsgrader. Det betyder at testsadsylighede ka fides ved hjælp af tabeller over t-fordelige som ε = P t 2 > t obs ) = 2 P t 2 > t obs ). Hvis hypotese H 4 ka godkedes, skal ma udrege et revideret estimat over regressioskoefficiete β og et forbedret estimat over σ 2. Det ye estimat

78 78 Simpel lieær regressiosaalyse over β bliver ˆβ = k i x i y i k i xi 2 og estimatet over σ 2 bliver s 2 04 = = k k i ) 2 y i j ˆβx i i y 2 i j ˆβ 2 k i x 2 i ). 5.7 Opgaver Opgave 5.1 Ascombe s data) I Tabel 5.7 er vist fire forskellige sæt af til formålet kostruerede) talpar x, y) der ka uderkastes e lieær regressiosaalyse. 1. Hvis ma ikke tækte ærmere over det, kue ma måske fide på at bære sig ad som om tallee y 1, y 2,..., y 11 i et givet datasæt var observerede værdier af uafhægige stokastiske variable Y 1, Y 2,..., Y 11 hvor Y i var ormalfordelt med middelværdi α + βx i og varias σ 2. Udreg for hvert datasæt estimatere ˆα, ˆβ og s 2 02 over parametree α, β og σ Lav for hvert datasæt et såkaldt scatterplot, dvs. e tegig med puktere x i, y i ), og idteg de estimerede regressiosliie. 3. Hvad ka ma lære heraf? Opgave 5.2 Forbes barometriske måliger) Som bekedt aftager lufttrykket med højde over havets overflade, og derfor ka et barometer beyttes som højdemåler. Imidlertid ka ma også bestemme højde ved at koge vad fordi vads kogepukt aftager med lufttrykket. I 1840ere og 1850ere foretog de skotske fysiker James D. Forbes på 17 forskellige lokaliteter i Alpere og i Skotlad e række måliger hvor ha bestemte dels vads kogepukt, dels luftes tryk omreget til lufttrykket ved e stadardlufttemperatur). Resultatere er vist i Tabel Lufttrykket er agivet i iches Hg. Nutildags måles lufttryk i hpa hektopascal = millibar). Hvorda omreger ma lufttrykkee til hpa? Kogepuktere er agivet i F. Hvorda omreger ma dem til C? TIP: Der gælder at 1 ich = 2.54 cm og 760 mm Hg = hpa. Edvidere svarer 0 C til 32 F og 100 C til 212 F.

79 5.7 Opgaver 79 Tabel 5.7 Ascombe s data opgave 5.1). datasæt 1 datasæt 2 datasæt 3 datasæt 4 x y x y x y x y Tabel 5.8 Forbes barometriske måliger opgave 5.2). Kogepuktet er agivet i F, lufttrykket i iches Kviksølv. Kogepukt Lufttryk

80 80 Simpel lieær regressiosaalyse 2. Meige med eksperimetet er at udersøge om og hvorda ma ka forudsige lufttrykket og dermed højde over havet) på grudlag af e bestemmelse af vads kogepukt. Lav et scatterplot for at se om det skulle være muligt. 3. Bestem de rette liie der fitter puktere bedst. Idteg de estimerede liie i figure. Hvorda passer liie til puktere? 4. Fysikere ka fortælle os at det æppe er lufttrykket selv der afhæger lieært af kogepuktet, me sarere logaritme til lufttrykket. 7 Derfor ka ma forsøge sig med logaritme til lufttrykkee i stedet for. Bliver det bedre af det? Hvis ma skal have oge praktisk forøjelse af sådae kogepuktsbestemmelser, er ma ødt til at kede de rigtige sammehæg mellem højde og lufttryk. Sålæge vi holder os til bjerghøjder, aftager lufttrykket ekspoetielt med højde, og der gælder at hvis lufttrykket ved havets overflade er p 0 f.eks hpa) og lufttrykket i højde h er p h, så er h 8150 m l p 0 p h. Opgave 5.3 Pattedyrs legemsvægt og hjerevægt) Ma kue umiddelbart forestille sig at store dyr har e større hjere ed små dyr eller er det måske de mere itelligete dyr der har de store hjerer? Tabel 5.9 viser de geemsitlige legemsvægt og de geemsitlige hjerevægt for et atal pattedyr. Dyree er ordet efter legemsvægt. Opgave går ud på at udersøge hvorda hjeres vægt afhæger af legemsvægte. 1. Hvorda vil et scatterplot af hjerevægt mod legemsvægt dvs. med legemsvægt som x og hjerevægt som y) se ud? Ma vil få e mere overskuelig fremstillig af tallee ved at afsætte logaritme til hjerevægt mod logaritme til legemsvægt, se Figur Nogle biologer meer at der kue tækes at gælde e relatio af type hjerevægt = kostat legemsvægt 2/3. 5.6) Begrudelse skulle være at hjeres størrelse og dermed vægt er proportioal med dyrets overflade der skal være erveforbidelser ud til alle pukter på overflade), hvorimod legemets vægt er proportioal med dyrets rumfag. Da overflade er proportioal med rumfag 2/3, år ma alt i alt til formel 5.6). 7 Der er med god tilærmelse e lieær sammehæg mellem logaritme til trykket og de reciprokke af de absolutte temperatur T. For tal i de størrelsesorde som vi her har med at gøre, er T 1 imidlertid stort set e lieær fuktio af T.

81 5.7 Opgaver 81 Tabel 5.9 Legemsvægt og hjerevægt for 62 pattedyrearter. art legemsvægt kg) hjerevægt g) afrikask elefat asiatisk elefat giraf hest ko okapi gorilla svi æsel brasiliask tapir jaguar gråsæl meeske kæmpebæltedyr får chimpase gråulv kæguro ged rådyr bavia husarabe rhesusabe vaskebjør rød ræv grø marekat gulbuget murmeldyr klippegrævlig a ibæltet bæltedyr pugodder polarræv kat myrepidsvi kai trægrævlig b ordamerikask opossum kuskus a Procavia habessiica b Dedrohyrax fortsættes) a) Præcisér dette argumet. TIP: Hvis ma havde et matematisk model-dyr som var kugleformet eller terigeformet, så kue ma let fide både dets overflade og dets rumfag. Hvad med»rigtige«dyr?

82 82 Simpel lieær regressiosaalyse fortsat) art legemsvægt kg) hjerevægt g) geette plump-lori bævereger marsvi afrikask kæmpepugrotte arktisk jordeger a børstesvi pidsvi klippegrævlig b ørkepidsvi atabe chichilla rotte galago muldvarpegaver guldhamster træspidsmus eger østamerikask muldvarp stjeremuldvarp bisamrotte stor bru flagermus mus lille bru flagermus lille korthalet spidsmus a Citellus Spermophilus) udulatus ablusus b Heterohyrax brucci b) Hvis formel 5.6) gælder, hvilke sammehæg er der da mellem logaritme til hjerevægt og logaritme til legemsvægt? Hvorda harmoerer formodige 5.6) med de observerede data? Det har æppe meig at udrege e teststørrelse for hvad er de statistiske model? Me til orieterig ka det oplyses at hypotese H : β = β 0 i de sædvalige regressiosmodel testes med t = β β 0 der er t-fordelt med 2 frihedsgrader.) s 2 02 /SS x 3. Hvorda ka ma i almidelighed fide de bedste rette liie med e give hældig β 0? TIP: y = α + β 0 x y β 0 x = α. 4. Fid i det kokrete eksempel de bedste rette liie i log-log figure) med hældig 2/3 og idteg de. TIP: Geemsittet af værdiere af llegemsvægt) er og geemsittet af værdiere af lhjerevægt) er

83 5.7 Opgaver lhjerevægt) mod llegemsvægt) l h j e r e v æ g t ) llegemsvægt) Figur 5.3 Logaritme til hjerevægt afsat mod logaritme til legemsvægt. Opgave 5.4 Hydrolyserig af urea i sedimeter) Talmaterialet til dee opgave stammer fra e udersøgelse af sedimeter fra Norsmide Fjord, foretaget af Bete Lómstei, Istitut for geetik og økologi, Århus Uiversitet. Formålet med udersøgelse var at bestemme de rate hvormed urea CONH 2 ) 2 ) hydrolyseres til NH + 4 og CO 2 i sedimetet fra fjorde. E del af udersøgelse bestod i at ma idsprøjtede e spormægde af radioaktivt mærket urea, 14 CONH 2 ) 2, i et atal sedimetkerer, og derefter målte ma til forskellige tidspukter hvor meget 14 CO 2 der udskiltes på det pågældede tidspukt. Der blev idsprøjtet 14 CONH 2 ) 2 i 20 sedimetkerer, og efter heholdsvis 28.5, 72, 109 og 141 miutters forløb udtog ma fem af disse kerer og målte de specifikke aktivitet af 14 CO 2. Måleresultatere ses i Tabel 5.10 hvor 14 CO 2 - aktivitete agives i dpm disitegratios per miute) pr. µl porevadsprøve. I Tabel 5.11 er opgivet forskellige hjælpestørrelser, og Tabel 5.12 viser dele af) et variasaalyseskema; idholdet af disse tabeller ka måske være til hjælp ved besvarelse af edeståede spørgsmål. 1. Lav e tegig der viser de faktiske måleresultater efter de forskellige atal miutters forløb. 2. Udersøg ved hjælp af e esidet variasaalyse om der er sigifikat forskel på de specifikke aktivitet efter de forskellige atal miutters for-

84 84 Simpel lieær regressiosaalyse løb. 3. Ma har e formodig om at de specifikke aktivitet afhæger lieært af tide. Estimér regressiosliie og idteg de i figure. 4. Da der er flere måliger til hvert tidspukt, ka ma udføre et umerisk test for om de specifikke aktivitet afhæger lieært af tide. Gør det. 5. Hvor stor er middelfejle på de estimerede parametre?

85 5.7 Opgaver 85 Tabel 5.10 Opgave 5.4: De specifikke aktivitet i sedimetprøver efter forskellige atal miutters forløb. tid x specifik aktivitet y Tabel 5.11 Opgave 5.4: Nogle hjælpestørrelser. i i x i i y i i x i y i i xi 2 yi 2 j j y i j y i ) 2 j sum Tabel 5.12 Opgave 5.4: Dele af et variasaalyseskema. Variatio f SS s 2 ide for grupper mellem grupper total ide for grupper grupperes variatio omkrig regressiosliie omkrig regressiosliie regressiosliie total

86 86

87 6 Multipel lieær regressiosaalyse Ofte øsker ma at opbygge e regressiosmodel der iddrager mere ed é forklarede variabel. Vi vil derfor u betragte de situatio hvor der for hvert af et atal»idivider«foreligger dels e observatio y, dels værdier x 1, x 2,..., x p af p baggrudsvariable: Til idivid r. i hører observatioe y i og værdiere x i1, x i2,..., x i p af de forklarede variable. Skematisk ser det såda ud: baggrudsvariable observatio x 11 x x 1p y 1 x 21 x x 2p y x 1 x 2... x p y De statistiske model for y-ere idrettes på følgede måde: Tallee y 1, y 2,..., y er observerede værdier af de stokastiske variable Y 1, Y 2,..., Y. De stokastiske variable Y 1, Y 2,..., Y er uafhægige og ormalfordelte med samme varias σ 2. x-ere betragtes som faste tal de er altså ikke observerede værdier af stokastiske variable. Middelværdie af de i-te målig ka skrives som α + x i1 β 1 + x i2 β x ip β p, dvs. som e liearkombiatio af p + 1 ukedte parametre α, β 1, β 2,..., β p med koefficietere x i1, x i2,..., x ip : E Y i = α + p x i j β j, i = 1, 2,...,. Af æstetiske grude idfører ma gere e ekstra baggrudsvariabel x 0 der er lig med 1 for alle i, og samtidig kalder ma α for β 0. Så ka ma emlig skrive p p α + x i j β j som x i j β j, og modelle ka kortfattet formuleres som j=0 E Y i = p x i j β j j=0 87

88 88 Multipel lieær regressiosaalyse eller bedre Y i N p j=0 x i j β j,σ 2 ). 6.1) Dee model er e såkaldt multipel lieær regressiosmodel. De beskriver y- eres systematiske variatio ved hjælp af de p + 1 parametre β 0, β 1, β 2,..., β p plus de kedte kostater x i j, og de beskriver de tilfældige variatio ved hjælp af ormalfordelige og variasparametere σ Estimatio af parametree Som altid estimeres modelles parametre ved at maksimalisere likelihoodfuktioe der i dette tilfælde er Lβ 0, β 1, β 2,..., β p,σ 2 ) 1 = exp 1 p 2πσ 2 2σ 2 y i j=0 ) 1 = exp 1 2πσ 2 2σ 2 y i ) 2 x i j β j p j=0 ) 2 x i j β j. Heraf ses at de bedste estimater over β-ere er dem der miimaliserer kvadratsumme ) p 2 y i x i j β j. j=0 De geerelle metoder til miimaliserig af fuktioer af flere variable fortæller at miimumspuktet fides som det pukt hvor alle de p + 1 partielle afledede mht. de p + 1 β-er) er lig 0. Hvis ma skriver op hvad det betyder og omskriver e smule, år ma frem til p + 1 ligiger med de p + 1 ubekedte β 0, β 1, β 2,..., β p. 1 De j-te af disse såkaldte estimatiosligiger er a j0 β 0 + a j1 β 1 + a j2 β a jp β p = x i j y i hvor a jk = x i j x ik, j = 0, 1, 2,..., p k = 0, 1, 2,..., p Ved at løse de p + 1 ligiger får ma estimatere ˆβ 0, ˆβ 1, ˆβ 2,..., ˆβ p. Ligigere har»som oftest«etop é løsig. Udertide er der uedelig mage løsiger; det er tilfældet hvis e af de forklarede variable er overflødig i de 1 I matrix-otatio ka disse ligiger skrives kort som X X)β = X y.

89 6.2 Modelkotrol 89 forstad at de ikke ideholder ade iformatio ed hvad der allerede er ideholdt i de øvrige. 2 I sådae situatioer plejer ma at fjere de eller de overflødige variable. Sluttelig ka ma udrege residualkvadratsumme ) p 2 y i x i j ˆβ j j=0 og variasestimatet s 2 0 = 1 p + 1) y i ) p 2 x i j ˆβ j 6.2) j=0 der har p + 1) frihedsgrader. 6.2 Modelkotrol I tilfældet p = 1, dvs. simpel lieær regressio, ka ma kotrollere si model ved hjælp af ekle tegiger. Det lader sig ikke gøre år p er større ed 1, så der må ma fide på adre metoder. É tig der er foruftig at foretage sig, er at udrege residualere e i = y i p x i j ˆβ j j=0 og se hvorda de fordeler sig. Hvis modelle 6.1) er rigtig, er de teoretiske p residualer y i x i j β j uafhægige N 0,σ 2 )-fordelte. Vi keder ku de empiriske residualer e 1, e 2,..., e ; det ka vises at hvis modelle er rigtig, så vil j=0 de empiriske residualer være N 0,σ 2 )-fordelte og æste uafhægige 3. Ma ka derfor se efter om residualere ser ud til at være ogelude uafhægige og ormalfordelte. I Afsit 5.5 omtaltes et umerisk test for liearitetshypotese. Dette test kue udføres år der var flere y-værdier til hvert ekelt x således at ma kue idføre ogle grupper og bestemme e variatio ide for grupper. Når der er tale om multipel regressiosaalyse ka ma gøre oget tilsvarede, forudsat at der er flere y-værdier for hvert ekelt sæt værdier x 1, x 2,..., x p ) af de forklarede variable. Dee forudsætig er sædvaligvis ku opfyldt hvis ma har sørget for det ved plalægige af forsøget. Variasskøet s 2 0 Variasskøet s 2 0 fortæller ikke oget om hvor godt modelle passer, ku oget om hvor meget puktere varierer omkrig regressiosflade; e stor 2 Mere præcist gælder at ligigere har e etydig løsig hvis og ku hvis det ikke er muligt at udtrykke oge af de forklarede variable som e liearkombiatio af de øvrige. 3 Jo flere frihedsgrader der er, jo mere uafhægige er de.

90 90 Multipel lieær regressiosaalyse værdi af s 2 0 ka meget vel skyldes at der simpelthe er stor tilfældig variatio på de slags y-måliger som ma u har med at gøre, modelles øvrige kvaliteter ufortalte. Derimod ka det udertide være foruftigt at beytte størrelse af s 2 0 som kriterium år ma skal udvælge baggrudsvariable. Hvis der eksempelvis er 20 baggrudsvariable at vælge imellem, og ma har besluttet sig for højst at ville have tre med i si model, så ka det være foruftigt at vælge de tre der giver de midste s 2 0. Ma bør dog også skele til om de tre der derved bliver udvalgt, virker som foruftige baggrudsvariable i de give sammehæg. Determiatioskoefficiete R 2 Nogle brugere af regressiosaalyse er meget begejstrede for de såkaldte determiatioskoefficiet R 2 eller kvadratet på de multiple korrelatioskoefficiet der i e vis forstad udtaler sig om grade af overesstemmelse mellem de observerede værdier y 1, y 2,..., y og de fittede værdier ŷ i = x i j ˆβ j. p j=0 Ma ka udrege R 2 efter e af følgede to formler: 4 R 2 = R 2 = y i y)ŷ i y) y i y) 2 ŷ i y) 2 ) 2 ŷ i y) 2, 6.3) y i y) ) Formel 6.3) fortæller at R 2 er kvadratet på korrelatioskoefficiete mellem de observerede og de fittede værdier. Formel 6.4) fortæller at R 2 er et udtryk for hvor stor e del af de samlede variatio omkrig totalgeemsittet der beskrives af modelle. Der er dem der meer at R 2 derfor også er et udtryk for hvor godt modelle passer, me prøv så at udrege R 2 i Opgave 5.1! Bemærk at R 2 ku ka beyttes år der er et kostatled med i regressioe. 6.3 Udvælgelse af baggrudsvariable Udertide foreligger der et større sortimet af baggrudsvariable, og i første omgag kue ma måske fristes til at tro at jo flere baggrudsvariable ma iddrager, jo bedre. Det er selvfølgelig rigtigt at jo flere baggrudsvariable ma medtager, jo øjagtigere et fit ka ma få, me det er ikke ødvedigvis det der 4 Det er ikke umiddelbart idlysede, me dog rigtigt, at de to udtryk giver samme resultat.

91 6.3 Udvælgelse af baggrudsvariable 91 er meige med at beytte e statistisk model. Formålet med at beytte statistiske modeller er at få e reduktio af data, og det vil bladt adet sige at ma skal stræbe efter e statistisk model med væsetligt færre baggrudsvariable og dermed parametre) ed atallet af observatioer. I det hele taget skal ma holde sig det pricip efterretteligt som går uder avet Occams ragekiv, og som siger at ma ikke skal atage eksistese af flere tig ed ødvedigt. Udertide har ma mage flere baggrudsvariable ed ma med rimelighed kue tage med i modelle, og så er ma stillet over for de opgave at udvælge e passede delmægde af dem. Det første kriterium må da være at ma ku bør medtage variable der ka tækes at have oget at gøre med de y-variabel der er tale om. Derudover skal ma have fat i et sæt baggrudsvariable der gør s 2 0 forholdsvis lille. Bemærk i dee forbidelse at ma i udtrykket for s 2 0 tager hesy til atallet af baggrudsvariable formel 6.2)). Når ma skal afgøre hvilke baggrudsvariable der måske ka udværes, ka ma beytte sig af at ma med et t-test for hver ekelt variabel ka vurdere om de tilsvarede parameter er sigifikat forskellig fra 0, dvs. om variable har e sigifikat virkig. Atag f.eks. at ma har e model med p baggrudsvariable plus e kostat, og at ma øsker at udersøge om variabel r. k behøver være med i modelle. Så udreger ma t = ˆβ k estimeret middelfejl på ˆβ k og sammeholder resultatet med t-fordelige med p + 1) frihedsgrader = atal frihedsgrader for s 2 0 ). Hvis t er tæt på ul, vil ma acceptere hypotese om at β k er ul, og det betyder at ma ka se bort fra baggrudsvariabel r. k og altså gå videre med e reduceret model med ku p 1 baggrudsvariable; hvis t er lagt fra ul er ˆβ k sigifikat forskellig fra 0, dvs. baggrudsvariabel r. k har e sigifikat virkig og skal derfor forblive i modelle. Eksempel 6.1 Idiaere i Peru) Ædriger i meeskers livsbetigelser ka give sig udslag i fysiologiske ædriger, eksempelvis i ædret blodtryk. E gruppe atropologer har udersøgt hvorda blodtrykket ædrer sig hos peruviaske idiaere der flyttes fra deres opridelige primitive samfud i de høje Adesbjerge til de såkaldte civilisatio, dvs. storbye, der i øvrigt ligger i lagt midre højde over havets overflade ed deres opridelig bopæl. Atropologere udvalgte e stikprøve på 39 mæd over 21 år der havde udergået e såda flytig. På hver af disse måltes blodtrykket både det systoliske og det diastoliske) samt e række baggrudsvariable, heribladt alder, atal år side flytige, højde, vægt og puls. Som om det ikke kue være ok har ma udreget edu e baggrudsvariabel, emlig»brøkdel af livet levet i de ye omgivelser«, dvs. atal år side flytig divideret med uværede alder. Ma forestillede sig at dee baggrudsvariabel kue have stor»forklarigseve«. Her vil vi ikke se på hele talmaterialet, me ku på blodtrykket det systoliske) der skal optræde som y-variabel, og på de to x-variable brøkdel af livet i de ye omgivelser og vægt. Disse er agivet i Tabel 6.1. Atropologere mete at x 1 brøkdel levet i de ye omgivelser) var et godt mål for hvor læge persoere havde levet i de civiliserede omgivelser, og at det derfor måtte være iteressat at se hvor godt x 1 kue forklare blodtrykket y. Første skridt er derfor

92 92 Multipel lieær regressiosaalyse Tabel 6.1 Idiaere i Peru: Sammehørede værdier af y: systolisk blodtryk mm Hg), x 1 : brøkdel af livet i de ye omgivelser, og x 2 : vægt kg). y x 1 x 2 y x 1 x at fitte e simpel lieær regressiosmodel med x 1 som forklarede variabel. Ma fider de estimerede regressiosliie til y = x 1 og det tilhørede variasestimat er 163 med 37 frihedsgrader. Hvis ma i et koordiatsystem afsætter y mod x 1, viser det sig imidlertid, se Figur 6.1, at det bestemt ikke virker særlig rimeligt at hævde at middelværdie af) y afhæger lieært af x 1. Derfor må ma give sig til at overveje om adre af de målte baggrudsvariable med fordel ka iddrages. Nu ved ma at e persos vægt har betydig for de pågældedes blodtryk, så æste modelforslag er e multipel regressiosmodel med både x 1 og x 2 som forklarede variable. Estimatere over parametree β 0, β 1 og β 2 i regressiosligige y = β 0 + x 1 β 1 + x 2 β 2 bestemmes som løsig til estimatiosligigere jf. side 88) 39 β β β 2 = β β β 2 = β β β 2 = Ma fider at ˆβ 0 = , ˆβ 1 = og ˆβ 2 = , så de estimerede regressiosligig er y = 61 27x x 2 og variasestimatet bliver dee gag 96 med 36 frihedsgrader.

93 6.3 Udvælgelse af baggrudsvariable * 160. B * l * o d * t 140. * * r * * y * k * * * * * * * y * * * ** * * 120. * * ** * * * * * * * * * * Brøkdel x 1 Figur 6.1 Idiaere i Peru: Blodtrykket y afsat mod brøkdel af livet side flytig x 1. Det ses at ved at iddrage x 2 er variase gået drastisk ed, fra 163 til 96. Deraf ka ma dog ikke slutte at de ye regressiosligig giver e god beskrivelse af data, ku at de er bedre ed de forrige. Ma bør udersøge residualere for at kue vurdere modelles kvalitet det vil vi dog ikke gøre her. Hvis ma lader e computer foretage udregigere, vil ma sadsyligvis også få oplyst parameterestimateres middelfejl og få at vide om parametree hver især er sigifikat forskellige fra 0. I det kokrete tilfælde vil ma da få at vide at år ma ku bruger x 1, så er koefficiete til x 1 ikke sigifikat forskellig fra 0, me år ma beytter både x 1 og x 2, så er alle koefficieter sigifikat forskellige fra 0. Det ka ma fortolke på de måde at blodtrykket afhæger sigifikat af både x 1 og x 2 således at jo lægere ma har levet i de ye omgivelser jo lavere blodtryk, og jo større vægt jo højere blodtryk; me da det ok også er såda at jo lægere tid ma har boet i»civilisatioe«, jo mere vejer ma, så vil de to virkiger udjæve hiade hvis ma ikke sørger for at iddrage begge forklarede variable.

94 94 Multipel lieær regressiosaalyse Tabel 6.2 Opgave 6.1: Diameter d i iches), højde h i feet) og rumfag v i kubikfeet) for 31 sortkirsebærtræer. d h v d h v Opgaver Opgave 6.1 Træers rumfag) Ide for skovbruget er ma iteresseret i at kue vurdere et træs idhold af tømmer, dvs. dets rumfag, ude alt for stort besvær. Nogle størrelser der er emme at bestemme, er diameter og højde, og det ville være praktisk hvis ma kue forudsige et træs rumfag så ogelude ud fra disse to størrelser. Ma har derfor målt diametere d i e højde af 4.5 feet over jorde), højde h og rumfaget volumeet) v for 31 træer af e bestemt slags sortkirsebærtræer i Alleghey Natioal Forest, Pesylvaia). Resultatere er vist i Tabel 6.2. Opgave er u at udersøge, om ma med e simpel statistisk model ka bestemme v ud fra kedskab til d og h, og i givet fald hvorda og hvor godt. TIP: Der er mulighed for forskellige regressiosaalyser. Ma ka også prøve at udytte at rumfag er oget med højde gage tværsitsareal. Opgave 6.2 Vads strømigsforhold i e flod) I forbidelse med e udersøgelse af vads strømigsforhold i e flod har ma på et bestemt sted målt flowrate i forskellige dybder. Flowrate er de mægde vad der passerer et givet tværsit af flode i et givet tidsrum så de måles altså i f.eks. m 3 pr. m 2 pr. sekud). Tabel 6.3 viser sammehørede værdier af vaddybde og flowrate. Opgave er at give e simpel beskrivelse af sammehæge mellem flowrate og vaddybde. Hydrologer ka sikkert opstille foremme differetialligigsmodeller der beskriver dee

95 6.4 Opgaver 95 Tabel 6.3 Opgave 6.2: Flowrate i forskellige vaddybder. dybde flowrate Lav et scatterplot af flowrate mod dybde. Ser puktere ud til at ligge på e ret liie? 2. Bereg de bedste rette liie og idteg de det er altid lettere at vurdere om pukter ligger omkrig e bestemt kurve år ma har kurve og pukter i samme tegig). 3. Ma kue forestille sig at e adegradskurve ville give e bedre beskrivelse af puktere. Opstil og løs de estimatiosligiger der bestemmer de bedste adegradskurve. TIP: Dvs. foretag e multipel regressio med de to forklarede variable x 1 = dybde og x 2 = dybde 2. Er adegradskurve bedre ed de rette liie? Hvorfor? 4. Hvad er koklusioe mht. sammehæge mellem flowrate og vaddybde? sammehæg, forudsat at flodes sider og bud ikke er alt for uregelmæssige. Det er slet ikke det vi er ude efter her. Statistikere vil blot søge efter e simpel beskrivelse af de empiriske data.

96 96

97 7 Stikord afhægig variabel 59 B Bartletts teststørrelse) 53 baggrudsvariabel 59 Bartletts test 53 beregigsulpukt 16 biometri 61 cetral estimator 17 Cetrale Græseværdisætig, De 29 determiatioskoefficiet 90 esidet test 21, 34 estimatiosligiger 88 estimator 68 Φ 10 ϕ 9 F-test esidet variasaalyse 52 for liearitet 73 forklarede variabel 59 forklaret variabel 59 fraktil 10, 12, 23 fraktildiagram 23 Galto, F. 61 Gauß-fordelig ormalfordelig Gauß, K.F. 9 Gosset, W.S. 20, 34, 41 histogram 22 homogeitet mellem grupper 49 korrelatioskoefficiet 90 kvadratisk skalaparameter 9 middelfejl 24, 68 N 0, 1) 9 N µ,σ 2 ) 9 ormalfordelig defiitio 6 egeskaber 9 ormeret 9 udledig 6 Occams ragekiv 91 ordede observatioer 23 outlier 14 positiosparameter 5, 9 probit 10 probit-skala 23 præcisio i fordelig) 9 R 35 R 36 R 2 90 regressiosaalyse 59, multipel lieær 87 simpel lieær 60 regressioskoefficiet 61 residual 32, 48, 89 residualkvadratsum 32, omkrig regressiosliie 65 resposvariabel 59 sadsylighedspapir 23 SP 65, 69 SS 65, 69 stikprøve 13 Studet 20, 34, 41 t-test for α = 0 77 for β = 0 76 i estikprøveproblem 20 i multipel regressio 91 i tostikprøveproblem 34 i tostikprøveproblem med parrede observatioer 40 tosidet test 21, 34 u α 10 uafhægig variabel 59 variasaalyse esidet 45 variasaalyseskema 52, 76 variashomogeitet 30, 53 variatio ide for grupper 51, 73, 74 mellem grupper 51, 74 omkrig regressiosliie 73, 74 omkrig totalgeemsittet 51 97

98 98 Stikord regressiosliies 74 total 74

99 8 De»maglede«figurer På grud af tekiske vaskeligheder ka visse figurer ikke gegives i de rigtige størrelse ide i tekste og de gegives så slet ikke). Her ka ma se figurere uskaleret klik på»her er«): Her er Figur 2.1 der hører til på side 22. Figurtekste er: Histogram over 64 målte værdier af lysets passagetid. De idtegede kurve er tæthede for ormalfordelige med parametre y = og s 2 = Her er Figur 2.2 der hører til på side 23. Figurtekste er: Fraktildiagram over 64 målte værdier af lysets passagetid. Her er Figur 5.2 der hører til på side 75. Figurtekste er: Kvælig af hude: Sammehørede værdier af hypoxatikocetratio og hypoxivarighed, samt de estimerede regressiosliie. 99

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i Normalfordeliger For at e stokastisk variabel X ka være ormalfordelt, skal X agive værdie af e eller ade målig, f.eks. tid, lægde, vægt, beløb osv. Notatioe er: Xi ~ N( μ, σ hvor i er observatiosummeret,

Læs mere

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave 14. 20. december 2007

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave 14. 20. december 2007 Mikroøkoomi, matematik og statistik Eksameshjemmeopgave 14. 20. december 2007 Helle Buzel, Tom Egsted og Michael H.J. Stæhr 14. december 2007 R E T N I N G S L I N I E R F O R E K S A M E N S H J E M M

Læs mere

Motivation. En tegning

Motivation. En tegning Motivatio Scatter-plot at det mådelige salg mod det måedlige reklamebudget. R: plot(salg ~ budget, data = salg) Økoometri Lektio Simpel Lieær Regressio salg 400 450 500 550 20 25 30 35 40 45 50 budget

Læs mere

Konfidens intervaller

Konfidens intervaller Kofides itervaller Kofides itervaller for: Kofides iterval for middelværdi, varias kedt Kofides iterval for middelværdi, varias ukedt Kofides iterval for adel Kofides iterval for varias Bestemmelse af

Læs mere

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017 Meigsmåliger KLADDE Thomas Heide-Jørgese, Rosborg Gymasium & HF, 2017 Idhold 1 Meigsmåliger 2 1.1 Idledig................................. 2 1.2 Hvorda skal usikkerhede forstås?................... 3 1.3

Læs mere

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags. Praktisk ifo Liste med rettelser og meigsforstyrrede trykfejl i DS på Absalo. Statistisk aalyse af e ekelt stikprøve: kedt eller ukedt varias Sadsylighedsregig og Statistik (SaSt) Helle Sørese Projekt

Læs mere

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable Idholdsfortegelse Geerelt:...3 Stokastisk variabel:...3 Tæthedsfuktio/sadsylighedsfuktio for stokastisk variabel:...3 Fordeligsfuktio/sumfuktio for stokastisk variabel:...3 Middelværdi:...4 Geemsit:...4

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Repetitio: Normalfordelige Ladmåliges fejlteori Lektio Trasformatio af stokastiske variable - [email protected] http://people.math.aau.dk/ kkb/udervisig/lf13 Istitut for Matematiske Fag Aalborg Uiversitet

Læs mere

Matematisk Modellering 1 Hjælpeark

Matematisk Modellering 1 Hjælpeark Matematisk Modellerig Hjælpeark Kaare B. Mikkelse 2005090 3. september 2007 Idhold Formler 2 2 Aalyse af k ormalfordelte prøver 2 2. Modelcheck............................................ 2 2.2 Test af

Læs mere

Gamle eksamensopgaver. Diskret Matematik med Anvendelser (DM72) & Diskrete Strukturer(DM504)

Gamle eksamensopgaver. Diskret Matematik med Anvendelser (DM72) & Diskrete Strukturer(DM504) Gamle eksamesopgaver Diskret Matematik med Avedelser (DM72) & Diskrete Strukturer(DM504) Istitut for Matematik& Datalogi Syddask Uiversitet, Odese Alle sædvalige hjælpemidler(lærebøger, otater etc.), samt

Læs mere

DATV: Introduktion til optimering og operationsanalyse, 2007. Bin Packing Problemet

DATV: Introduktion til optimering og operationsanalyse, 2007. Bin Packing Problemet DATV: Itroduktio til optimerig og operatiosaalyse, 2007 Bi Packig Problemet David Pisiger, Projektopgave 2 Dette er de ade obligatoriske projektopgave på kurset DATV: Itroduktio til optimerig og operatiosaalyse.

Læs mere

9. Binomialfordelingen

9. Binomialfordelingen 9. Biomialfordelige 9.. Gekedelse Hvert forsøg ka ku resultere i to mulige udfald; succes og fiasko. I modsætig til poissofordelige er atallet af forsøg edeligt. 9.. Model X : Stokastisk variabel, der

Læs mere

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk! Statistik Lektio 8 Parrede test Test for forskel i adele Test for es varias Gesy med flyskræk! Afhægige og uafhægige stikprøver Ved e uafhægig stikprøve udtages e stikprøve fra hver gruppe.. Mæd og kviders

Læs mere

Estimation ved momentmetoden. Estimation af middelværdiparameter

Estimation ved momentmetoden. Estimation af middelværdiparameter Statistik og Sadsylighedsregig 1 STAT kapitel 4.2 4.3 Susae Ditlevse Istitut for Matematiske Fag Email: [email protected] http://math.ku.dk/ susae Estimatio ved mometmetode Idimellem ka det være svært (eller

Læs mere

Stikprøvefordelinger og konfidensintervaller

Stikprøvefordelinger og konfidensintervaller Stikprøvefordeliger og kofidesitervaller Stikprøvefordelige for middelværdi De Cetrale Græseværdi Sætig Egeskaber Ved Estimatore Kofidesitervaller t-fordelige Estimator og estimat E stikprøve statistik

Læs mere

Elementær Matematik. Polynomier

Elementær Matematik. Polynomier Elemetær Matematik Polyomier Ole Witt-Hase 2008 Køge Gymasium Idhold 1. Geerelle polyomier...1 2. Divisio med hele tal....1 3. Polyomiers divisio...2 4. Polyomiers rødder....4 5. Bestemmelse af røddere

Læs mere

Projekt 1.3 Brydningsloven

Projekt 1.3 Brydningsloven Projekt 1.3 Brydigslove Når e bølge, fx e lysbølge, rammer e græseflade mellem to stoffer, vil bølge ormalt blive spaltet i to: Noget af bølge kastes tilbage (spejlig), hvor udfaldsvikle u er de samme

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale. Forsøg med digitale eksamensopgaver med adgang til internettet.

Matematik A. Studentereksamen. Forberedelsesmateriale. Forsøg med digitale eksamensopgaver med adgang til internettet. Matematik A Studetereksame Forsøg med digitale eksamesopgaver med adgag til iterettet Forberedelsesmateriale Vejledede opgave Forår 0 til stx-a-net MATEMATIK Der skal afsættes 6 timer af holdets sædvalige

Læs mere

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528) Løsigsforslag til skriftlig eksame i Kombiatorik, sadsylighed og radomiserede algoritmer (DM58) Istitut for Matematik & Datalogi Syddask Uiversitet Madag de 3 Jauar 011, kl. 9 13 Alle sædvalige hjælpemidler

Læs mere

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol Simpel Lieær Regressio Opsplitig af variatioe Determiatios koefficiet Variasaalse F-test Model-kotrol Opbgig af statistisk model Specificer model Ligiger og atagelser Estimer parametre Modelkotrol Er modelle

Læs mere

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion Statistik 8. gag 1 KONIDENSINTERVALLER Kofidesitervaller: kapitel 11 Valg og test af fordeligsfuktio Statistik 8. gag 11. KONIDENS INTERVALLER Et kofides iterval udtrykker itervallet hvori de rigtige værdi

Læs mere

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner Projekter: Kapitel 4 Projekt 48 De reelle tal og hovedsætig om kotiuerte fuktioer Projekt 48 De reelle tal og hovedsætig om kotiuerte fuktioer Kotiuitet og kotiuerte fuktioer Ord som kotiuert og kotiuerlig

Læs mere

Renteformlen. Erik Vestergaard

Renteformlen. Erik Vestergaard Reteformle Erik Vestergaard 2 Erik Vestergaard www.matematikfysik.dk Erik Vestergaard, 2010. Billeder: Forside: istock.com/ilbusca Side 4: istock.com/adresrimagig Desude ege illustratioer. Erik Vestergaard

Læs mere

Talfølger og -rækker

Talfølger og -rækker Da Beltoft og Klaus Thomse Aarhus Uiversitet 2009 Talfølger og -rækker Itroduktio til Matematisk Aalyse Zeos paradoks om Achilleus og skildpadde Achilleus løber om kap med e skildpadde. Achilleus løber

Læs mere

Vejledende opgavebesvarelser

Vejledende opgavebesvarelser Vejledede opgavebesvarelser 1. Atal hæder er lig med K(52,5), altså 2598960. Ved brug af multiplikatiospricippet ka atal hæder med 3 ruder og 2 spar udreges som K(13, 3) K(13, 2), hvilket giver 22308.

Læs mere

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger Faculty of Life Scieces Program Esidet variasaalyse Normalfordelige Claus Ekstrøm E-mail: [email protected] Esidet variasaalyse (oe-way ANOVA) Hvilke type data? Hvad er problemstillige? Variatio mellem

Læs mere

Løsninger til kapitel 7

Løsninger til kapitel 7 Løsiger til kapitel 7 Opgave 7.1 a) HpoStat giver resultatet: Pop. varias er ukedt, me 30, så Normalf. bruges approksimativt = 54,400 s 1.069,90 = 00,000 0,95 49,868 58,93 Dette betder, at med 95% sikkerhed

Læs mere

Matematikkens mysterier - på et obligatorisk niveau. 7. Ligninger, polynomier og asymptoter

Matematikkens mysterier - på et obligatorisk niveau. 7. Ligninger, polynomier og asymptoter Matematikkes mysterier - på et obligatorisk iveau af Keeth Hase 7. Ligiger, polyomier og asymptoter Hvad er e asymotote? Og hvorda fides de? 7. Ligiger, polyomier og asymptoter Idhold 7.0 Idledig 7.1 Udsag

Læs mere

Maja Tarp AARHUS UNIVERSITET

Maja Tarp AARHUS UNIVERSITET AARHUS UNIVERSITET Maja Tarp AARHUS UNIVERSITET HVEM ER JEG? Maja Tarp, 4 år Folkeskole i Ulsted i Nordjyllad Studet år 005 fra Droiglud Gymasium Efter gymasiet: Militæret Australie Startede på matematik

Læs mere

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n Ladmåliges fejlteori Lektio 3 Estimatio af σ Dobbeltmåliger Geometrisk ivellemet Lieariserig - [email protected] Istitut for Matematiske Fag Aalborg Uiversitet Repetitio: Middelværdi og Varias Sætig: Middelværdi

Læs mere

Sammenligning af to grupper

Sammenligning af to grupper Sammeligig af to gruer Reetitio, heruder om kritiske værdier Sammeligig af to gruer Sammeligig af to middelværdier Sammeligig af to adele Sammeligig af to variaser yoteser og hyotesetest. E hyotese er

Læs mere

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse Avedt Statistik Lektio 3 Pukt- og itervalestimater Kofidesitervaller Valg af stikprøvestørrelse Pukt- og itervalestimater: Motivatio Motiverede eksempel: I e udersøgelse er adele af rygere 0.27. Det aslås

Læs mere

Kapitel 10 KALIBRERING AF STRØMNINGSMODEL

Kapitel 10 KALIBRERING AF STRØMNINGSMODEL Kapitel 0 KALIBRERING AF STRØMNINGSMODEL Torbe Obel Soeborg Hydrologisk afdelig, GEUS Nøglebegreber: Kalibrerigsprotokol, observatiosdata, kalibrerigskriterier, idetificerbarhed, etydighed, parameterestimatio,

Læs mere

Projekt 2.3 Det gyldne snit og Fibonaccitallene

Projekt 2.3 Det gyldne snit og Fibonaccitallene Projekter: Kapitel Projekt.3 Det glde sit og Fiboaccitallee Forslag til hvorda klasses arbejde med projektet ka tilrettelægges: Forløbet:. Præsetatio af emet med vægt på det glde sit.. Grppere arbejder

Læs mere

Den flerdimensionale normalfordeling

Den flerdimensionale normalfordeling De flerdimesioale ormalfordelig Stokastiske vektorer Ved e stokastisk vektor skal vi forstå e vektor, hvor de ekelte kompoeter er sædvalige stokastiske variable. For de stokastiske vektor Y = Y,..., Y

Læs mere

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2 Idhold 1 Pukt- og itervalestimatio 2 1.1 Puktestimatorer: Cetralitet(bias) og efficies.................... 2 2 Kofidesiterval 3 2.1 Kofidesiterval for adel................................ 4 2.2 Kofidesiterval

Læs mere

Hvordan hjælper trøster vi hinanden, når livet er svært?

Hvordan hjælper trøster vi hinanden, når livet er svært? Hvorda hjælper trøster vi hiade, år livet er svært? - at være magtesløs med de magtesløse Dask Myelomatoseforeig Temadag, Hotel Scadic, Aalborg Lørdag de 2. april 2016 kl. 14.00-15.30 Ole Raakjær, præst

Læs mere

og Fermats lille sætning

og Fermats lille sætning Projekter: Kaitel 0. Projekt 0. Modulo-regig, restklassegruer og Fermats lille sætig Projekt 0. Modulo-regig, restklassegruere ( { 0 }, ) og Fermats lille sætig Vi aveder moduloregig og restklasser mage

Læs mere

ESBILAC. - modermælkserstatning til hvalpe VEJLEDNING. www.kruuse.com

ESBILAC. - modermælkserstatning til hvalpe VEJLEDNING. www.kruuse.com ESBILAC - modermælkserstatig til hvalpe VEJLEDNING De bedste start på livet, e yfødt hvalp ka få, er aturligvis at stille si sult med si mors mælk. Modermælk ideholder alt, hvad de små har brug for af

Læs mere

TEKST NR 435 2004. TEKSTER fra IMFUFA

TEKST NR 435 2004. TEKSTER fra IMFUFA TEKST NR 435 2004 Basisstatisti 2. udgave Jørge Larse August 2006 TEKSTER fra IMFUFA INSTITUT ROSKILDE UNIVERSITETSCENTER FOR STUDIET AF MATEMATIK OG FYSIK SAMT DERES FUNKTIONER I UNDERVISNING, FORSKNING

Læs mere

Teoretisk Statistik, 9. februar Beskrivende statistik

Teoretisk Statistik, 9. februar Beskrivende statistik Uge 7 I Teoretisk Statistik, 9 februar 004 Beskrivede statistik Kategoriserede variable 3 Kvatitative variable 4 Fraktiler for ugrupperede observatioer 5 Fraktiler for grupperede observatioer 6 Beliggeheds-

Læs mere

Lys og gitterligningen

Lys og gitterligningen Fysik rapport: Lys og gitterligige Forfatter: Bastia Emil Jørgese.z Øvelse blev udført osdag de 25. jauar 202 samme med Lise Kjærgaard Paulse 2 - Bastia Emil Jørgese Fysik rapport (4 elevtimer), februar

Læs mere

Vejledende besvarelser til opgaver i kapitel 15

Vejledende besvarelser til opgaver i kapitel 15 Vejledede besvarelser til opgaver i apitel 5 Opgave a) De teststatistier, ma aveder til at teste om to middelværdier er es, består af et estimat på forselle mellem middelværdiere,, divideret med et udtry

Læs mere

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset. STATISTIK Skriftlig evaluerig, 3. semester, madag de 30. auar 006 kl. 9.00-3.00. Alle hælpemidler er tilladt. Opgaveløsige forsyes med av og CPR-r. OPGAVE Ved e produktio af viduer er der mulighed for,

Læs mere

Psyken på overarbejde hva ka du gøre?

Psyken på overarbejde hva ka du gøre? Psyke på overarbejde hva ka du gøre? Idhold Hvorår kommer ma uder psykisk pres? 3 Hvad ka øge det psykiske pres på dit arbejde? 4 Typiske reaktioer 6 Hvorda forløber e krise? 7 Hvad ka du selv gøre? 9

Læs mere

Begreber og definitioner

Begreber og definitioner Begreber og defiitioer Daske husstades forbrug på de medierelaterede udgiftsposter stiger og udgør i 2012*) 11,3 % af husstadees samlede forbrug mod 5,5 % i 1994. For husstade med de laveste idkomster

Læs mere

Noter om kombinatorik, Kirsten Rosenkilde, februar 2008 1. Kombinatorik

Noter om kombinatorik, Kirsten Rosenkilde, februar 2008 1. Kombinatorik Noter om ombiatori, Kirste Roseilde, februar 008 Kombiatori Disse oter er e itrodutio til ombiatori og starter helt fra bude, så e del af det idledede er siert edt for dig allerede, me der ommer også hurtigt

Læs mere

STATISTISKE GRUNDBEGREBER

STATISTISKE GRUNDBEGREBER MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER 18 15 1 9 6 3 0 Histogram for ph 6,9 7,1 7,3 7,5 7,7 7,9 ph 13 udgave 013 FORORD Der er i dee bog søgt at give letlæst og askuelig fremstillig af de statistiske

Læs mere

GENEREL INTRODUKTION.

GENEREL INTRODUKTION. Study Guide til Matematik C. OVERSIGT. Dee study guide ideholder følgede afsit - Geerel itroduktio. - Emeliste. - Eksame. - Bilag. Udervisigsmiisteriets bekedtgørelse for matematik C. GENEREL INTRODUKTION.

Læs mere

STATISTISKE GRUNDBEGREBER

STATISTISKE GRUNDBEGREBER MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER med avedelse af TI 89 og Excel 8 5 9 6 3 0 Histogram for ph 6,9 7, 7,3 7,5 7,7 7,9 ph. udgave 0 FORORD Der er i dee bog søgt at give letlæst og askuelig

Læs mere

Projekt 3.2 Anlægsøkonomien i Storebæltsforbindelsen. Indhold. Hvad er matematik? 1 ISBN

Projekt 3.2 Anlægsøkonomien i Storebæltsforbindelsen. Indhold. Hvad er matematik? 1 ISBN Projekt 3.2 Alægsøkoomie i Storebæltsforbidelse Dette projekt hadler, hvorda økoomie var skruet samme, da ma byggede storebæltsforbidelse. Store alægsprojekter er æste altid helt eller delvist låefiasieret.

Læs mere

Bjørn Grøn. Analysens grundlag

Bjørn Grøn. Analysens grundlag Bjør Grø Aalyses grudlag Aalyses grudlag Side af 4 Idholdsfortegelse Kotiuerte og differetiable fuktioer 3 Differetial- og itegralregiges udviklig 5 3 Hovedsætiger om differetiable fuktioer 8 Opgaver til

Læs mere

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning Hvad er matematik? Projekter: Kaitel 9 Projekt 9 Regeregler for stokastiske variable middelværdi, varias og sredig Projekt 9 Regeregler for stokastiske variable middelværdi, varias og sredig Sætig : Regeregler

Læs mere

Modul 14: Goodness-of-fit test og krydstabelanalyse

Modul 14: Goodness-of-fit test og krydstabelanalyse Forskigsehede for Statistik ST01: Elemetær Statistik Bet Jørgese Modul 14: Goodess-of-fit test og krydstabelaalyse 14.1 Idledig....................................... 1 14.2 χ 2 -test i e r c krydstabel.............................

Læs mere

Morten Frydenberg version dato:

Morten Frydenberg version dato: Morte Frdeberg versio dato: 4--4 Itroduktio til kurset Statistik Forelæsig Morte Frdeberg, Sektio for Biostatistik af Biostatistik dele af. semester kurset. Statistiske modeller Biomialfordelige Normalfordelige

Læs mere

Introduktion til uligheder

Introduktion til uligheder Itroduktio til uligheder Dette er e itroduktio til ogle basale uligheder om det aritmetiske geemsit, det geometriske geemsit, det harmoiske geemsit og det kvadratiske geemsit. Først skal vi ved fælles

Læs mere

Claus Munk. kap. 1-3

Claus Munk. kap. 1-3 Claus Muk kap. 1-3 1 Dages forelæsig Grudlæggede itroduktio til obligatioer Betaligsrækker og låeformer Det daske obligatiosmarked Pris og kurs Effektive reter 2 1 Obligatioer Grudlæggede Itro Debitor

Læs mere

Dagens forelæsning. Claus Munk. kap. 1-3. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro

Dagens forelæsning. Claus Munk. kap. 1-3. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro Dages forelæsig Grudlæggede itroduktio til obligatioer Claus Muk kap. - 3 Betaligsrækker og låeformer Det daske obligatiosmarked Effektive reter 2 Obligatioer Grudlæggede Itro Obligatioer Grudlæggede Itro

Læs mere

Introduktion til uligheder

Introduktion til uligheder Itroduktio til uligheder, marts 0, Kirste Rosekilde Itroduktio til uligheder Dette er e itroduktio til ogle basale uligheder om det aritmetiske geemsit, det geometriske geemsit, det harmoiske geemsit og

Læs mere

info FRA SÆBY ANTENNEFORENING Lynhurtigt bredbånd til lavpris på vej til hele Sæby! Priser kan ses på bagsiden.

info FRA SÆBY ANTENNEFORENING Lynhurtigt bredbånd til lavpris på vej til hele Sæby! Priser kan ses på bagsiden. ifo FRA SÆBY ANTENNEFORENING Lyhurtigt bredbåd til lavpris på vej til hele Sæby! Priser ka ses på bagside. Velkomme til SAFet - avet på vores eget lokale Bredbåd! Sæby Ateeforeig har med virkig fra 15.

Læs mere

FUNKTIONER del 1 Funktionsbegrebet Lineære funktioner Eksponentialfunktioner Logaritmefunktioner Rentesregning Indekstal

FUNKTIONER del 1 Funktionsbegrebet Lineære funktioner Eksponentialfunktioner Logaritmefunktioner Rentesregning Indekstal FUNKTIONER del Fuktiosbegrebet Lieære fuktioer Ekspoetialfuktioer Logaritmefuktioer Retesregig Idekstal -klassere Gammel Hellerup Gymasium November 08 ; Michael Szymaski ; [email protected] Idholdsfortegelse FUNKTIONSBEGREBET...

Læs mere

Projekt 9.10 St. Petersborg paradokset

Projekt 9.10 St. Petersborg paradokset Hvad er matematik? ISBN 978877066879 Projekt 9.0 St. Petersborg paradokset. De store tals lov & viderchacer I grudboges kapitel 9 omtales de store tals lov, som ka formuleres således: Hvis e spiller i

Læs mere

STATISTIK x-klasserne Gammel Hellerup Gymnasium

STATISTIK x-klasserne Gammel Hellerup Gymnasium STATISTIK x-klassere Gammel Hellerup Gymasium Jui 209 ; Michael Szymaski ; [email protected] Idholdsfortegelse INDLEDNING...3 DESKRIPTIV STATISTIK...4 Skemaer...5 Diagrammer...8 Statistiske deskriptorer... 0 Typetal

Læs mere

Sandsynlighedsregning i biologi

Sandsynlighedsregning i biologi Om begrebet sadsylighed Sadsylighedsregig i biologi Hvis vi kaster e almidelig, symmetrisk terig, er det klart for de fleste af os, hvad vi meer, år vi siger, at sadsylighede for at få e femmer er 1/6.

Læs mere

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik

Noter om kombinatorik, Kirsten Rosenkilde, februar Kombinatorik Noter om ombiatori, Kirste Roseilde, februar 008 Kombiatori Disse oter er e itrodutio til ombiatori og starter helt fra bude, så e del af det idledede er siert edt for dig allerede, me der ommer også hurtigt

Læs mere

Program. Middelværdi af Y = t(x ) Transformationssætningen

Program. Middelværdi af Y = t(x ) Transformationssætningen Program Statistik og Sadsylighedsregig 2 Trasformatio af kotiuerte fordeliger på R, flerdimesioale kotiuerte fordeliger, mere om ormalfordelige Helle Sørese Uge 7, osdag I formiddag: Opfølgig på trasformatiossætige

Læs mere

- et værktøj til fejlrettende QR-koder. Projekt 0.3 Galois-legemerne. Indhold. Hvad er matematik? A, i-bog

- et værktøj til fejlrettende QR-koder. Projekt 0.3 Galois-legemerne. Indhold. Hvad er matematik? A, i-bog Projekt 0.3 Galois-legemere GF é ëp û - et værktøj til fejlrettede QR-koder Idhold De karakteristiske egeskaber ved de tre mest almidelige talsystemer, og... De kommutative, associative og distributive

Læs mere

Noter om polynomier, Kirsten Rosenkilde, Marts Polynomier

Noter om polynomier, Kirsten Rosenkilde, Marts Polynomier Noter om polyomier, Kirste Rosekilde, Marts 2006 1 Polyomier Disse oter giver e kort itroduktio til polyomier, og de fleste sætiger æves ude bevis. Udervejs er der forholdsvis emme opgaver, mes der til

Læs mere

Formelskrivning i Word 2. Sådan kommer du i gang 4. Eksempel med skrivning af brøker 5. Brøker skrevet med småt 6. Hævet og sænket skrift 6

Formelskrivning i Word 2. Sådan kommer du i gang 4. Eksempel med skrivning af brøker 5. Brøker skrevet med småt 6. Hævet og sænket skrift 6 Dee udgave er til geemkig på ettet. Boge ka købes for kr. 5 hos EH-Mat. E y og udvidet udgave med title»symbol- og formelskrivig«er udkommet september 00. Se mere om de her. Idholdsfortegelse Formelskrivig

Læs mere

Estimation og test i normalfordelingen

Estimation og test i normalfordelingen af Birger Stjerholm Made Samfudlitteratur 07 Etimatio og tet i ormalfordelige Dee tekt ideholder et overblik over ogle grudlæggede pricipper for etimatio og tet i ormalfordelige i hyppigt forekommede ituatioer:

Læs mere

Dårligt arbejdsmiljø koster dyrt

Dårligt arbejdsmiljø koster dyrt Dårligt arbejdsmiljø F O A f a g o g a r b e j d e koster dyrt Hvad koster et dårligt arbejdsmiljø, og hvad ka vi gøre for at bedre forholdee for de asatte idefor Kost- og Servicesektore? Læs her om de

Læs mere

og Fermats lille Projekt 0.4 Modulo-regning, restklassegrupperne sætning ..., 44, 20,4,28,52,... Hvad er matematik? 3 ISBN

og Fermats lille Projekt 0.4 Modulo-regning, restklassegrupperne sætning ..., 44, 20,4,28,52,... Hvad er matematik? 3 ISBN Projekt 0.4 Modulo-regig, restklassegruppere sætig ( p 0, ) og Fermats lille Vi aveder moduloregig og restklasser mage gage om dage, emlig år vi taler om tid, om hvad klokke er, om hvor lag tid der er

Læs mere

Introduktion til optimering og operationsanalyse. Asymmetric Traveling Salesman Problem

Introduktion til optimering og operationsanalyse. Asymmetric Traveling Salesman Problem Itroduktio til optimerig og operatiosaalyse Asymmetric Travelig Salesma Problem David Pisiger, Efterår 2003 Dette er de ade obligatoriske projektopgave på kurset Itroduktio til optimerig og operatiosaalyse.

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1 Økoometri 1 Iferes i de lieære regressiosmodel 9. september 006 Økoometri 1: F7 1 Dages program Opsamlig af hemmeopgave om Mote Carlo eksperimeter Mere om hypotesetest: Ekelt lieær restriktio på koefficieter

Læs mere