Designteori. Kapitel 1

Transkript

1 Kapitel 1 Designteori Et forvirrende aspekt ved den behandling vi har givet sætningen om ortogonal dekomposition, er at sætningen indeholder ganske meget dyb matematik, men alligevel er underligt irrelevant i praksis. Sætningen fortæller at man ved håndkraft kan gennemregne visse flerfaktormodeller, under visse uhyre restriktive betingelser på designet. Men hvorfor skulle man have lyst til at regne ved håndkraft? Det er jo ikke sådan at en statistisk analyse er etisk overlegen, blot fordi statistikeren udelukkende har brugt blyant og papir til arbejdet. En F-størrelse er lige god, uanset om statistikeren har brugt tre arbejdsdage og bunker af kladdepapir på at finde den, eller om han har brugt ti sekunder ved computeren. Mysteriet bliver næsten større når man tænker efter. For computeren kender ikke til den ortogonale dekomposition. Den håndterer generelle lineære modeller uden at skelne mellem regressionsmodeller og faktorforsøgsmodeller. Som forklaret i lærebogens afsnit 10.3 bruger computeren ikke engang de generelle matrixformler, vi har udledt - den bruger nogle numeriske algoritmer af en helt anden art, typisk minimerer den en kvadratisk form ved hjælp af QR-dekompositioner. De formler, vi har udledt, svarer på ingen måde til hvad computeren rent faktisk gør. Til gengæld kan computeren gøre sit arbejde hver gang, uanset om modellen opfylder forskellige balancekrav eller ej. Så et forsvarligt synspunkt er at sige at den ortogonale dekomposition er en teknik der: 1) kun virker i meget specielle situationer og 2) er bikset og besværlig at bruge, selv når den virker. Konklusionen er selvfølgelig at man ikke skal bruge teknikken til praktisk dataanalyse. 1

2 2 Kapitel 1. Designteori Hvorfor har vi så brugt tid på den? Fordi den fører til en indsigt i hvilke problemer der egentlig er i en faktorforsøgsanalyse - en indsigt man ingen chancen har for at opnå ud fra de generelle numeriske teknikker. Den ortogonale dekomposition skal bruges til at analysere modellen, ikke til at analysere data. 1.1 Overparametriseringer Et simpelt eksempel på den indsigt man kan vinde er spørgsmålet om overparametriseringer. Middelværdistrukturen i en flerfaktormodel er som regel så kompliceret, at man ikke har meget intuition om dimensionen af middelværdiunderrummet. Computeren vil typisk estimere et antal parametre, og nægte at estimere et antal andre - det varierer fra program til program om brugeren får at vide at disse parametre ikke kan estimeres, eller om de stiltiende fjernes fra udskriften. Kan parameterestimaterne fortolkes? Det kræver i høj grad at man forstår hvori overparametriseringen består. At der i en sædvanlig tosidet variansanalyse med faktorerne B og T estimeres B + T 1 parametre kan man vænne sig til, og man kan lære at forstå hvordan estimaterne skal fortolkes. Men pludselig står man med en analyse, hvor der kun estimeres B + T 2 parametre. For det første bliver man befippet over hvorfor problemet opstår - den første tanke er ofte at datafilen måske er fejlbehæftet, eller at indlæsningen er gået galt. For det andet bliver man usikker på hvorfor computeren har undladt at estimere netop er dén parameter. Med sædvanlige treatmentkontraster vil der typisk blive estimeret én intercept-parameter, B 1 parametre til B og T 2 parametre til T, og det kunne man umiddelbart godt fortolke som om der er ét bestemt T-niveau der opfører sig besynderligt. For det tredie bliver man - med god ret - i tvivl om hvorvidt de tilbageværende parameterestimater kan fortolkes på samme måde som i den sædvanlige situation. En forståelse af den ortogonale dekomposition lader os begribe problemet i termer af en ikke-triviel minimumsfaktor. Og det lader os forstå at de estimerede parametre først bliver fortolkelige når man inkluderer minimumsfaktoren eksplicit i modelformuleringen. Der er så at sige to intercepts, et til hver sammenhængskomponent i designgrafen, og treatmentkontrasterne lader sig kun fortolke interne i komponenten. Hvad computeren spytter ud, understøtter sandt at sige ikke altid denne forståelse... Forståelsen er man nødt til at have med sig i forvejen.

3 1.1. Overparametriseringer 3 Lad os eksemplificere dette ved at se på hvordan estimation i lærebogens eksempel (allergieksemplet) forløber i praksis. Vi interesserer os for den additive model Person+Køn Behandling. Hvis man irkalder lm(x Person + Køn Behandling) på det relevante datasæt, så bliver der stillet en designmatrix op, der indeholder én interceptsøjle, fire personsøjler, én kønssøjle, to behandlingssøjler og to søjler, der håndterer vekselvirkningen mellem Køn og Behandling. Altså ialt 10 søjler, men det fremgår af noternes eksempel at dimensionen af middelværdiunderrummet er 9. Der er altså en søjle for meget, og det vil den numeriske procedure opdage undervejs. Man kan tænke på det på den måde at at matrixinverteringen af A T A går galt. R løser problemet ved at slette én af søjlerne i designmatricen, svarende til at den sætter én af de 10 parametre til nul, og estimerer de andre 9 under denne betingelse. Det er ikke tilfældigt hvilken søjle der slettes, men det er på den anden side heller ikke nemt at forudsige - det sker på baggrund af nogle numeriske procedurer, der ikke tager højde for fortolkningen af designmatricen, men som til gengæld tager rækkefølgen af søjlerne dybt alvorligt. I dette tilfælde får man parameterestimaterne Coefficients: (Intercept) Person2 Person Person4 Person5 KønMand NA BehandlingB BehandlingC KønMand:BehandlingB KønMand:BehandlingC Det er altså Køn-søjlen der bliver slettet. Det er et heldigt valg, for en additiv forskel mellem kønnene kan naturligt opsluges i forskellen mellem personerne. Og derfor fastholder de ni estimerede parametre faktisk den fortolkning man umiddelbart ville tillægge dem på baggrund af søjlenavnene i designmatricen. Man kan studse lidt over at person 1 er referenceperson for Person-parametrene, uden at Behandlingparametrene af den grund svarer til hvad der sker for ham, når der skiftes behandling - person 1 er en mand, og derfor skal han have vekselvirkningsbidragene med. Så Behandling-parametrene svarer i virkeligheden til hvad der sker, når der skiftes behandling for en af kvinderne, det vil sige for person 3, 4 eller 5. Fænomenet skyldes at

4 4 Kapitel 1. Designteori Køn-faktoren bruger kvindegruppen som referencegruppe, og det matcher ikke særlig godt med at Person-faktoren bruger person 1 som referencegruppe. Men skønt man godt kan lade sig forvirre lidt af dette forhold, så bliver man ikke taget seriøst ved næsen. Helt anderledes forholder det sig hvis man kalder lm(x Køn Behandling+Person). Det er præcis den samme model som før, og derfor er det den samme designmatrix der umiddelbart stilles op, bortset fra at rækkefølgen af søjlerne er en anden. Den ændrede rækkefølge fører til at det er en anden søjle, der slettes i den numeriske procedure. Parameterestimaterne bliver Coefficients: (Intercept) KønMand BehandlingB BehandlingC Person2 Person Person4 Person5 KønMand:BehandlingB NA KønMand:BehandlingC Vi ser altså at Køn-søjlen forbliver i designmatricen, mens én af Person-søjlerne slettes - tilfældigvis den søjle, der svarer til person 5. Det fører til nogle meget forvirrende fortolkninger af outputtet: der er nu to personer uden egne parametre, nemlig person 1 og 5. Hvem af dem er referenceperson? Det viser sig nærmest at være person 5, i den forstand at intercept-parameteren svarer til den pågældende persons reaktion på behandling A, og at parametrene for person 3 og 4 koder for forskelle til person 5. Der er også en parameter, der koder for forskellen mellem person 1 og 5, men den har forklædt sig som Køn-parameter. Og for virkelig at trække tæppet væk under læseren: den parameter, der angiveligt svarer til person 2, koder ikke for forskellen mellem person 2 og person 5 - den koder i stedet for forskellen mellem person 2 og person 1... Problemerne med overparametriseringer opstår over det hele i større faktorforsøgsmodeller. Og den almindelige bruger af computerprogrammerne har ikke en jordisk

5 1.1. Overparametriseringer 5 chance for at gennemskue hvornår et parameterestimat svarer til hvad det selv hævder, og hvornår det svarer til noget helt andet. Derfor er det i almindelighed et godt råd at sige at man helt skal lade være med at se på parameterestimater før man har arbejdet sig frem til en model, der er så overskuelig at man kun har trivielle overparametriseringer tilbage. Men vores forståelse af hvordan den ortogonale dekomposition fungerer giver os ofte mulighed for at vælge en modelformulering, der fører til begribelige parametriseringer, også af ret komplicerede modeller. I allergieksemplet er det klart at vi må lade det forhold at Køn er minimum af Person og Køn Behandling spille en rolle i den måde vi skriver modellen ned på. Faktisk kan man med fornuft tænke på det som to separate tosidede variansanalyser: vi interesserer os for den additive model Person+Behandling inden for hver kønsgruppe. Vi antager at der er samme varians i de to analyser, men det spiller ikke nogen rolle for hvordan vi regner de relevante projektioner ud. I mandegruppen er der to personer og tre behandlinger og dermed fire parametre. I kvindegruppen er der tre personer og tre behandlinger og dermed fem parametre. Tilsammen altså de ni parametre vi har behov for. Man kan gennemføre de to variansanalyser hver for sig på reducerede datasæt, eller man kan gennemføre dem på én gang som lm(x Køn/(Behandling+Person) - 1). Denne formulering giver umiddelbart en designmatrix med 14 søjler, men de fem af dem slettes undervejs. Og de resulterende 9 parameterestimater kan uden vanskelighed fortolkes. Det sidste -1 fjerner det globale intercept, og man får derfor et intercept for hver af de to køn. Coefficients: KønKvinde KønMand KønKvinde:BehandlingB KønMand:BehandlingB KønKvinde:BehandlingC KønMand:BehandlingC KønKvinde:Person2 KønMand:Person2 KønKvinde:Person3 NA KønMand:Person3 KønKvinde:Person4 KønMand:Person4 NA NA KønKvinde:Person5 KønMand:Person5 NA NA

6 6 Kapitel 1. Designteori 1.2 Designovervejelser Vi vil nu diskutere et mere udførligt eksempel, hvor den ortogonale dekomposition spiller en praktisk rolle. Det er i forbindelse med de designovervejelser, man bør gøre sig før et eksperiment sættes i værk: hvordan kan man med brug af så få resourcer (kræfter, tid og penge) som muligt undersøge det man vil undersøge? I lærebogens kapitel 12 er der gjort en del ud af at argumentere for at når man har flere interessefaktorer, så bør man skrue på dem alle i løbet af eksperimentet. Det fører naturligt til et fokus på såkaldt fuldstændige faktorielle forsøg hvor man prøver samtlige kombinationer af samtlige faktorer igennem lige mange gange. Men hvis antallet af faktorer og/eller antallet af labels for de enkelte faktorer er stort, så kan et fuldstændigt faktorielt forsøg være en praktisk umulighed - det vil simpelthen kræve for mange deleksperimenter. En mindre ambitiøs forsøgsplan går ud på at afstå fra visse kombinationer i det fuldstændige forsøg. Men hvor mange kan man afstå fra, og hvilke? Det er man nødt til at tænke igennem på forhånd hvis ikke der skal opstå meget ubehagelige overraskelser i analysen. For at komplicere sagen yderligere vil de eksperimentelle omstændigheder ofte tvinge en eller flere blokfaktorer ned over interessefaktorerne. Og den virkelige udfordring er at disse blokfaktorer ofte har grupper, der er ret små. Der er kun få observationer per gruppe, og derfor er det ikke muligt at se særligt mange kombinationer af interessefaktorerne inden for de enkelte blokke. Det gør at man ikke blot må tænke over hvilke kombinationer fra den fuldstændige kombination af interessefaktorer man kan tillade sig at springe over, men man skal tænke enddog meget dybt over hvordan de resterende kombinationer skal fordeles ud over blokniveauerne, hvis de interessante effekter ikke skal forurenes af blokeffekter. Fisher satte sagen på spidsen og sagde: at indkalde en statistiker efter at eksperimentet er udført, giver ham ofte samme rolle som en patolog i den medicinske verden: alt hvad han kan gøre er at fortælle hvad eksperimentet døde af. En illustration af problemet kunne være et eksperiment hvor man har to treatmentfaktorer med hver to niveauer, og hvor man på forhånd ikke ved om der er vekselvirkninger eller ej, og derfor er nødt til at kunne undersøge det. Der er altså fire kombinationer af behandlingsmuligheder. Lad os forestille os behandlinger af en betændelsestilstand i øjnene, og at man udfører behandlingen på rotter. Hver rotte, der indgår i eksperimentet, har utvivlsomt sit eget udgangsniveau - nogle rotter har mere betændelse end andre. Rotterne har i sagens natur kun to øjne, og derfor kan man kun prøve to behandlinger per dyr. Dermed udgør rotterne en blokfaktor. Hvor mange

7 1.2. Designovervejelser 7 rotter skal der måles på, og hvordan skal de fire behandlingskombinationer fordeles ud på disse rotter, hvis man skal kunne undersøge om behandlingerne vekselvirker? I sådanne sager vil man sædvanligvis antage at rotte-effekten virker additivt. Hvis der er mulighed for at der er vekselvirkninger mellem rotte-effekten og en eller begge behandlingseffekter, så bliver spørgsmålet for alvor indviklet. Lignende problemer opstår i dyrkningsforsøg, hvor man dyrker planter i potter: hver potte svarer til en blok, og der er grænser for hvor mange planter man kan have i en potte. Eller i industrielle forsøg, hvor hvert forsøg tager en vis tid, og hvor man derfor ikke kan nå alle de forsøg man gerne vil i løbet af en enkelt dag - her kan dag-til-dag forskellene ses som en begrænsende blokfaktor. Som et konkret eksempel vil vi diskutere et eksperiment hvor man har fire binære faktorer, det vil sige faktorer med hver to niveauer. Lad os kalde faktorerne A, B, C og D. Vi kan forestille os at det er fire stoffer der hver især kan tilsættes, og vi bruger niveauerne 0 for ikke tilsat og 1 for tilsat. Umiddelbart ønsker vi et fuldstændig design, og det kræver 2 4 = 16 deleksperimenter. Eller flere, for man kunne selvfølgelig god forestille sig at vi ønskede gentagelser, men det aspekt vil vi lade ligge. Vi forestiller os at anvende en model der indeholder de fire hovedvirkninger og samtlige seks tofaktor vekselvirkninger, A B,...,C D. Vi er til gengæld parate til at se bort fra de højere vekselvirkninger som A B C og så videre, dels fordi den slags vekselvirkninger er svære at detektere, og dels fordi de er svære at fortolke. Symbolsk kan vi referere til modellen ved hjælp af designet G={1, A,..., D, A B,...,C D} Vi anvender den naturlige treatmentkontrast, og skal derfor estimere 11 middelværdiparametre: ét intercept, fire hovedvirkningsparamter, der beskriver effekten af tilsætning af hver af de fire faktorer, og seks vekselvirkningsparametre, hvor ABparameteren kan forstås som en korrektion til de to hovedvirkninger hvis både A og B er tilsat. Man finder nemt designmatricen A G for det fuldstændige forsøg med én observation per A B C D-celle - det er en matrix, og den er ikke særligt overskuelig, så vi vil undlade at skrive den op, men det er nemt at få en computer til at producere den. Ud fra designmatricen kan man finde variansmatricen for parameterestimaterne, V ˆβ=σ 2( A T G A G) 1.

8 8 Kapitel 1. Designteori Kigger man efter i denne variansmatrix, vil man se at interceptvariansen er at hovedvirkningsvarianserne er og at vekselvirkningsvarianserne er V ˆβ 1 = σ2, V ˆβ A =...=V ˆβ D =σ 2, V ˆβ AB =...=V ˆβ CD =σ 2. Så langt, så godt. Men nu komplicerer vi situationen. Vi forestiller os at disse 16 deleksperimenter ikke kan nås på en enkelt dag. Vi må derfor bruge to dage på det samlede eksperiment - 8 deleksperimenter den ene dag, og 8 den anden. Det skaber en naturlig blokstruktur, for man må tage højde for at eksperimentet ikke forløber ens de to dage. Der kan være forskel i personalet der medvirker, der kan være forskel på hvordan man helt præcist får apparaturet stillet op (der skal måske skrues på en knap, og den bliver næppe indstillet helt ens de to dage), og der kan være forskel på de meteorologiske omstændigheder, med tryk og temperatur og så videre. Normalt vil man kun inkludere en sådan blok-effekt som en hovedvirkning, medmindre man har faglige grunde til at tro på vekselvirkninger. En faglig grund kunne være at stof A ikke stammer fra samme beholdning de to dage, og i så fald kunne det være aktuelt med en vekselvirkning mellem blokken og A-faktoren. Men i almindelighed vil man søge at undgå sådanne vekselvirkninger. Vi får derfor et design af formen G =G {E}, hvor E er den binære dagsfaktor. Spørgsmålet er ( nu: ) hvilke otte målinger skal tages 16 den første dag, og hvilke den anden? Der er ialt = måder at dele op på. 8 Hvilket svarer til 6435 forskellige faktorer - man får samme faktor hvis man bytter om på hvad der er dag 1 og hvad der er dag 2. Kan det ikke være lige meget? Nej, det kan det bestemt ikke. En ide, der er så tåbelig at ingen ville finde på at bringe den til udførelse, ville være at tage alle kombinationerne med A=0 første dag og alle kombinationerne med A=1 anden dag. Med dette valg vil E=A, og man har ødelagt eksperimentet fuldstændigt: man kan ikke se hvilken effekt tilsætningen af A har, for det bliver mudret til af dagseffekten.

9 1.2. Designovervejelser 9 Der er ikke noget matematisk problem - E forsvinder simpelthen ud af modellen. Men det er umuligt at fortolke tilbage til virkeligheden. Hvad der i computeroutputtet fremtræder som en stærk A-effekt, kan skyldes at A rent faktisk virker kraftigt, men det kan lige så godt skyldes dag-til-dag forskellene. Eller: hvad der fremtræder som en forsvindende A-effekt kan udmærket skyldes en kraftig A-effekt, der blot neutraliseres af en lige så stor og modsat rettet dagseffekt. Man har ingen mulighed for at se hvad der er hvad. Man vil sige at A-effekten og E-effekten er totalt confoundede. Man kan lige så vel confounde med de øvrige hovedvirkninger. Ud af de måder at dele op på, er de 8 rent ud sagt destruktive, fordi de svarer til at E-effekten confoundes med en hovedvirkning. Men problemet kan være svært at tage helt alvorligt, fordi man jo aldrig vil gebærde sig så tåbeligt. Værre er det måske at man kan komme til at confounde med vekselvirkningerne. Man kan tage alle kombinationerne med samme A- og B-status (altså de kombinationer hvor hverken A eller B er tilsat eller hvor de begge to er tilsat) første dag, og de kombinationer der har forskellige A- og B-status anden dag. Vi laver altså opdelingen efter oversættelsesmønsteret A B E Vi kan formulere dette oversættelsesmønster algebraisk som E= (1 A) B+ A (1 B), (1.1) eller eventuelt som E= A+ B modulo 2. (1.2) Vi vil ikke bruge modulo 2 formuleringen til noget særligt, men der er ganske meget kombinatorik, der bedst formuleres ved hjælp af lineær algebra over endelige tallegemer, og derfor dukker modulo-betragtninger ofte op i litteraturen om statistiske design. Eftersom E er kommet til verden ud fra krydsklassificeringen efter A og B er det klart at E A B. Men det er let at se at E og A udgør et balanceret design, og tilsvarende med E og B, så E står geometrisk ortogonalt på både A og B. Sætningen om ortogonal dekomposition siger derfor at det additive underrum L A + L B + L E har dimension 4. Et 4-dimensionalt underrum af det 4-dimensionale rum L A B må nødvendigvis være

10 10 Kapitel 1. Designteori det hele. Så denne specielle opdeling fører til at L A + L B + L E = L A B. Og det betyder at vekselvirkningen mellem A og B er totalt confounded med dagsfaktoren. Hvis observationerne med både A og B tilsat opfører sig anderledes end man skulle tro ud fra de observationer hvor der højst er tilsat et af stofferne, så kan man ikke afgøre om det skyldes en vekselvirkning eller om det skyldes dagseffekten. At confounde med en vekselvirkning er vel knap så destruktivt som at confounde med hovedvirkningen. Men man bliver ude af stand til at undersøge om der er en vekselvirkning. Man kan teste om der er en samlet effekt af vekselvirkningen og dagsvirkningen, men man kan ikke se hvad der er hvad. Hvis man på forhånd ved at der ikke er nogen vekselvirkning mellem A og B, så kan det være en udmærket ide med denne confounding. Hvis det er noget man laver med vilje, så kalder man det som regel ikke confounding men aliasing, og det kan være god ræson i. Det er lidt som at stå og vifte med en ladt pistol: det er klogt at lade den pege et sted hen, hvor man ved at der ikke står nogen mennesker. Men i den formulering vi har givet af problemet, ønsker vi at inkludere alle første ordens vekselvirkninger, og det må jo betyde at vi ikke på forhånd kan udelukke deres eksistens. Vi vil gerne undersøge om der er vekselvirkninger, og derfor nytter det ikke noget at disse vekselvirkninger bliver confoundede med en dagsvirkning. Denne argumentation fortæller os at 12 af de måder at vælge førstedagens målinger på, skal undgås. Man kan kombinere confounding med forskellige vekselvirkninger ved en konstruktion, der kaldes partiel confounding. Man kan f.eks. for A = 0 confounde E med B, og for A=1 confounde E med C efter følgende skema A B C E A B C E Denne konstruktion vinder nok ved at blive skrevet ned algebraisk, E= (1 A) B+ A C. (1.3) Hvis vi tænker på A C som en faktor (det er en vektor af længde 16 indeholdende 0 og 1, fremkommet ved en plads-for-plads multiplikation af A- og C-vektoren) så er

11 1.2. Designovervejelser 11 det let nok at se at A C L A C. Tilsvarende er (1 A) B L A B og derfor gælder der faktisk at L E L A B + L A C. Der er 96 konstruktioner af denne art 1, der alle leder til at L E er et delrum af det oprindelige middelværdiruml G. Endelig er der partiel confounding, der involverer alle fire vekselvirkninger. Det kan ske efter skemaet A B E eller algebraisk 0 0 C 0 1 D D C E= (1 A) (1 B) C+ (1 A) B D+ A (1 B) (1 D)+A B (1 C). Umiddelbart ser det ud til at denne konstruktion kræver kendskab til produkter med tre faktorer, men ganger man ud, vil man se at de forsvinder. Man får E= A+ C A C B C A D+ B D. hvoraf man kan se at L E L G. Fra en umiddelbar betragtning skulle man tro at der er 48 konstruktioner af denne art, men det viser sig at de er ens to og to (konstruktionen baseret på A, B, C, D ovenfor er identisk med den tilsvarende konstruktion baseret på C, D, A, B), så i virkeligheden er der kun 24. Vi har nu fundet 140 måder at vælge førstedagens målinger på, der fører til at L E er et delrum af det oprindelige middelværdiruml G, enten ved direkte confounding med en hoved- eller vekselvirkning, eller ved en partiel confounding. I alle disse måder at afvikle eksperimentet på har man ødelagt alting for sig selv, fordi man får blandet de effekter man er interesseret i sammen med en dag-til-dag effekt. Man kan sige at 140 destruktive opdelinger ud af ikke er alverden - hvis man vælger dag-til-dag opdelingen ved en lodtrækning (hvad der umiddelbart kan virke som et sundt princip) er der kun 1% sandsynlighed for at man kommer til at ødelægge eksperimentet. Og det kan man for så vidt også gardere sig imod, for man 1 Der er 4 muligheder for hvordan der skal deles op, svarende til A i (1.3). Deler vi op efter A, kan vi på for A=0 henholdvis A=1 sætte E til en vilkårlig af B, 1 B, C, 1 C, D og 1 D. Hvis det første valg er B, må det andet valg hverken være B (for så bliver den samlede konstruktion lig med B) eller 1 B (for så bliver den samlede konstruktion lig med konstruktionen fra (1.1)). Derfor er der ialt 4 6 4=96 mulige valg.

12 12 Kapitel 1. Designteori kan vælge sin opdeling, konstruere designmatricen, og gennemføre analysen før man har gennemført eksperimentet. Enten uden data eller med fiktive data, for confoundingproblemerne har ikke noget at gøre med hvordan data konkret ser ud. Hvis en sådan preliminær analyse viser at designet er ubrugeligt, så vælger man bare en ny dag-til-dag opdeling og ser om den er bedre. Men den totale confounding udgør i en vis forstand kun toppen af isbjerget. Det er et uhyggeligt problem, men det er også meget synligt, og det er derfor sjældent det, der sænker eksperimenterne. En mere snigende dræber er at blokopdelingen medfører variansinflation på parameterestimaterne. Nogle gange er denne inflation ganske betragtelig. Vi husker at uden dags-opdelingen var V ˆβ A =σ 2, hvorσ 2 repræsenterer målestøjen (som designet jo ikke kan gøre noget ved). Af de mulige valg af målinger første dag er der kun der fastholder denne varians. De øvrige godt opdelinger fører til større varianser. Nogle af dem en ubetydelighed som σ 2, hvad der jo næppe ødelægger noget. Men nogle af dem helt op til 5.5σ 2, hvilket betyder at man må 5-doble eksperimentstørrelsen for at få samme udsagnskraft som man havde før opdelingen! Det er essentielt det samme som at sige at eksperimentet er ødelagt. En optælling viser at omkring 75% af opdelingerne fører til en værdi af V ˆβ A der er mindre end 1.5σ 2. En variansinflation på 50 procent er så meget at det næppe vil blive accepteret i praksis, men hvis vi for diskussionens skyld siger at det er et rimeligt niveau, så ser vi at sandsynligheden taler for at man ikke taber så meget udsagnskraft igen, hvis man vælger opdelingen tilfældigt. I hvert fald ikke udsagnskraft om A.... Men problemet er jo det samme for de andre faktorer, og de opdelinger, der bevarer udsagnskraften om A sætter den ofte over styr andre steder. Der er således kun 45% af opdelingerne, hvor V ˆβ A,...,V ˆβ D alle er mindre end 1.5σ 2. Og der er kun 27% af opdelingerne hvor variansen på estimaterne af såvel de fire hovedvirkninger som de seks vekselvirkninger er mindre end 1.5σ 2. Så sandsynligheden taler faktisk for at vi får en betydeligt nedsat udsagnskraft et eller andet sted, med mindre vi tænker os rigtigt grundigt om når vi laver opdelingen. Variansinflation er et højst relevant fænomen. Men det viser sig at vi ved at tænke dybt over sætningen om ortogonal dekomposition kan rede os ud af opdelingsproblemet uden mén. Det oprindelige design G er et minimumsstabilt og ortogonalt, med et faktorstrukturdiagram der skematisk kan

13 1.2. Designovervejelser 13 tegnes A A B 1 B hvor vi underforstår de to øvrige hovedvirkninger og de fem øvrige vekselvirkninger. Lad os et øjeblik antage at vi kan vælge E så L E ikke er et delrum afg, og så E står geometrisk ortogonalt på alle faktorerne ig. Da E kun har to niveauer, kan en faktor, der er grovere end E, kun have ét niveau, og derfor må den være 1. Da E per antagelse er forskellig fra faktorerne ig, kan vi slutte at E G=1 for enhver faktor G G, og minimumsstabiliteten afg følger af sig selv. Det udvidede designg får et faktorstrukturdiagram af formen A A B 1 B E Vi ser at faktorerne ighar præcis de samme underfaktorer i de to faktorstrukturdiagrammer. Derfor vil rummene i den ortogonale dekomposition, V G = L G L G for G G, G <G være identiske i de to design! Effektestimaterne ˆβ A,..., ˆβ CD kan udtrykkes ved hjælp af projektionerne Q G ned i V G -rummene, så disse effektestimater er simpelthen ens i de to modeller. Derfor får effektestimaterne samme varians, hvad enten E er med eller ej. Hvis det virkelig kan lade sig gøre at konstruere E såg bliver ortogonalt, så har vi simpelthen neutraliseret variansinflationen. (Det er ikke helt rigtigt at blokopdelingen slet ikke kan ses, for variansestimatet er ikke det samme om den er med eller ej. Begge variansestimater er centrale, men

14 14 Kapitel 1. Designteori det samlede middelværdirum får en dimension mere, og derfor er der én frihedsgrad mindre til variansestimatet i den udvidede model. Det betyder at når man konstruerer konfidensområder, så er der forskel på hvilken F-tabel man skal slå sine fraktiler op i. Og dermed bliver konfidensområderne typisk en anelse bredere ig -modellen end ig-modellen. Men denne beskedne inflation af konfidensområderne vil være der uanset hvordan E vælges, så der er ikke grund til at inddrage den i overvejelserne om hvordan opdelingen skal foretages.) Hvordan bærer man sig ad med at gøreg ortogonal? Det er ikke så nemt, men der er nogle tricks, der baserer sig på at vi allerede kender en række rum, der står geometrisk ortogonalt på alleg-faktorerne. Det er faktorrummene hørende til de fire trefaktor vekselvirkninger B C D, A C D, A B D og A B C, og også firefaktor vekselvirkningen A B C D. Fordi det fundamentale design er balanceret i de fire grundfaktorer, kommer alle ortogonalitetsrelationerne gratis. Det er muligt at konstruere E ved aliasing med en af disse fem højere ordens vekselvirkninger, som vi på forhånd har udelukket fra modellen. Detaljerne i hvordan denne aliasing konstrueres er drilsk kombinatorik, men man kan f.eks. konstruere E ved aliasing med firefaktor vekselvirkningen ved hjælp af formlen E=A+ B+C+D modulo 2, (1.4) analogt med (1.2). Det er nemt at checke efter at denne regel fører til en balanceret antalstabel for (A B, E), og af symmetrigrunde dermed også for alle de andre relevante tabeller. Vi har brugt vores indsigt i den ortogonale dekomposition til at konstruere en dag-tildag opdeling, der så at sige neutraliserer sig selv. Man kunne eventuelt have fundet de samme opdelinger ved simpelthen at bede computeren regne samtlige mulige opdelinger igennem. Det viser sig at de 10 opdelinger, der kan konstrueres ved aliasing med anden- og tredieordens vekselvirkninger, er de eneste blandt de mulige opdelinger, der er helt uden variansinflation på de fire hovedvirkninger (og så kan man jo opfatte at der heller ikke er nogen variansinflation på vekselvirkningerne som en gratis bonus). Så man kan godt opstille et fornuftigt søgekriterium, der spytter de samme opdelinger ud - og problemet er ikke større end at det er praktisk muligt at gå alle muligheder igennem. Men spørgsmålet er om man ville vælge netop dette søgekriterium. I hvert fald næppe uden at tænke sig godt om. For aliasing-opdelingerne fører faktisk til en vis variansinflation på intercept-parameteren (fra σ2 til 3 4 σ2 ). En række andre opdelinger undgår helt variansinflation på intercept-parameteren, men har så til gengæld inflation

15 1.2. Designovervejelser 15 andre steder. Hvis man opstiller maskinelle søgekriterier vil man på en eller anden måde prøve at minimere den samlede variansinflation. Og medmindre man har tænkt sagerne godt igennem vil man formentlig inkludere inflation på interceptparameteren i kriteriet, skønt det i praksis er ligegyldigt for undersøgelsen. Fokus er jo på at finde ud af hvad der sker når man tilsætter stoffer, og kun i mindre grad hvad der sker i referencesituationen uden tilsatte stoffer. Det område der kaldes forsøgsplanlægning går ud på at vælge det rigtige forsøgsdesign til en given undersøgelse. Man tænker igennem hvilke størrelser, der skal bestemmes præcist, og hvilke størrelser man er mindre interesseret i. Man tænker igennem hvilke blokfaktorer man ikke kan undgå i sin undersøgelse, og hvilken indflydelse det har på det generelle præcisionsniveau. Og man søger et design, der vægter disse overvejelser op mod hinanden og op mod det generelle ressourceforbrug. Man har bøger fulde af standarddesigns (f.eks. de såkaldte PBIB, partial balanced incomplete blockdesigns, der er en generel måde at lave ortogonale designs på), der kan bruges hvis man har så og så mange interessefaktorer med så og så mange labels, og oveni så og så mange blokfaktorer, og det endelige designvalg vil typisk være et af disse standarddesigns. Men man er nødt til at forstå problemstillingerne til bunds før man kan vælge rigtigt, og her er den ortogonale dekomposition et uvurderligt værktøj.

16 16 Kapitel 1. Designteori