Forsøgsplanlægning og Variansanalyse Henrik Spliid ISCC, IMM Statistical Consulting Center April 2011

Transkript

1 IMM Informatik og Matematisk Modellering Danmarks Tekniske Universitet file:foredrag2.tex Forsøgsplanlægning og Variansanalyse af Henrik Spliid ISCC, IMM Statistical Consulting Center April 2011 Henrik Spliid, Prof. of Statistics IMM, Building 321, Technical University of Denmark 2800 Lyngby Telefax : [email protected] Telephone :

2 Forord Nærværende notat giver en oversigt over nogle hyppigt anvendte begreber og metoder til planlægning af forsøgsarbejde. Det illustreres, hvorledes variansanalysen benyttes til vurdering af forsøgsresultaterne. Det vises også, hvorledes variansanalysen kan antage forskellige former svarende til forskellige forsøg i laboratoriet. c Henrik Spliid, IMM, DTU Henrik Spliid April 2011 Indhold 1 Problematik Simple komparative eksperimenter Data fil: Moderne ensidet variansanalyse med R Nogle begreber - set fra et eksempel Randomisering Faktorforsøgogblokke Blokforsøg Fuldstændigeblokke RomerskKvadratforsøg Ufuldstændigeblokke

3 4 Forsøg med mange faktorer Ruggedness test med 7 faktorer Maximalt antal faktorer i 16 observationers forsøg med resolution IV Taguchi metoder En Taguchi forsøgsplan Dimensionering 26 7 Nogle eksempler med R 27 8 Litteratur 30 1 Problematik Når man udfører forsøg, eksempelvisiet laboratorium, sker detofte, at man, når forsøgsresultaterne foreligger, må erkende, at dataene er behæftede med meget større usikkerhed, end ventet, således, at man ikke kan udtale sig særligt præcist om, hvad forsøgene viser. I andre tilfælde sker det, at man ikke rigtigt kan finde en god måde at analysere data på, fordi man ikke har en egnet model for, hvordan resultaterne og de forskellige forsøgsbetingelser naturligt knyttes sammen. Videre viser det sig ofte, at det variationsområde, man har benyttet for forsøgsbetingelserne, ikke har resulteret i særligt interessante data. Et andet problem kan bestå i, at man faktisk har udført et meget større forsøg, end det egentlig var nødvendigt,eller der er måske et tilsyneladende behov for at udføre et meget større forsøg, end der er praktisk eller økonomisk mulighed for. Statistisk forsøgsplanlægning tilstræber at overkomme sådanne problemer. På dansk benyttes ordet et forsøg om et enkeltforsøg, hvor man foretager een måling eksempelvis i en forsøgsopstilling, men det benyttes også om hele samlingen af enkeltforsøg, der udføres efter en eller anden plan. I nærværende note benyttes begge de to betydninger; forhåbentlig fremgår det af sammenhængen, hvad der menes i de enkelte tilfælde. På engelsk er der heller ikke nogen enty- 2

4 dig skelnen mellem enkeltforsøgene og hele forsøget, idet man ofte benytter ordet experiment i begge tilfælde. En forsøgsplan hedder på engelsk an experimental design. 1.1 Simple komparative eksperimenter Et medicinalfirma ønsker at sammenligne bugspytkirtlens produktion af insulin for nogle forsøgsdyr (mus). Man har benyttet 24 mus, som blev delt i tre grupper med hver 8 mus. En gruppe fik en diæt gennem 2 uger (startende med 2 uger uden diæt), en gruppe fik diæten i alle 4 uger, mens den sidste gruppe fik normal føde (ingen diæt) i 4 uger. Efter afslutningen af de 4 uger blev væv fra musenes bugspytkirtler taget ud, og det blev behandlet med en glucose opløsning, og vævsprøvernes produktion af insulin blev målt (pg/ml): 2 uger 4 uger ingen diæt diæt diæt Nogle beregninger: 14.5 (død) 8.8 Ialt Sum Gennemsnit Model Y ij = µ + τ j + ɛ ij Spørgsmål: Kan τ 2uger = τ 4uger = τ no?kaldesh 0 : Ingen behandlingseffekt. 1.2 Data fil: Insulin Treat NaN 4 3

5 No No No No No No 12.1 No 8.8 No 1.3 Moderne ensidet variansanalyse med R rm(list=ls()) # reset alt Data <- read.table("exemp1.txt",header=t) # Læs data attach(data) # Knyt data til session names(data) # Hvad står der egentlig i Data Model <- lm(insulin Treat) # Konstruer og gem "Model" summary(model) anova(model) # Variansanalyse af Model names(model) # Estimer den manglende observation Insulin[16] <- Model$coefficients[1]+ Model$coefficients[2] Model2 <- lm(insulin Treat) summary(model2) 2 Nogle begreber - set fra et eksempel Vi tænker os, at man i laboratoriet ønsker at bestemme hvorledes de to variable Temperatur (A) og Behandlingstid (B) influerer på Måleværdien (Y) fra en måling på en prøve med kendt koncentration. Temperatur og Behandlingstid er altså to variable, som vi selv kan fastsætte, og det er deres indflydelse, man ønsker at bedømme. De kaldes under eet faktorer. Måleværdien er den egenskab eller det resultat, man er interesseret i at kunne bedømme, eventuelt i forbindelse med senere målinger udført på ukendte prøver. Den kaldes ofte for forsøgets respons eller afhængige variabel. 4

6 Resultaterne fra det simplest tænkelige forsøg kunne se ud som følger: Y=målt værdi: A=120 o C A=140 o C Ialt B=30 min B=60 min Ialt En rimelig model for sådanne data kunne være en almindelig tosidet variansanalyse model: Y ijk = µ + α i + β j + αβ ij + E ijk (1) hvor i og j angiver, hvilken værdi faktorerne A og B har haft i de enkelt forsøg, medens k angiver, hvilken gentagelse, der er tale om for den givne (ij)-kombination. I modellen kaldes µ forsøgets niveau, medens α i og β j kaldes faktorernes hovedeffekter og αβ ij kaldes vekselvirkningen (synergi eller hæmning). Endelig angiver E ijk forsøgsfejlen. Variansanalyseskemaet for de viste data er: Variations Kvadrataf Friheds F test p- kilde vigelsessum grader s 2 værdi værdi A=temperatur B=behandlingstid <0.001 AB=vekselvirkning (2 1)(2 1) Rest Total Man ser, at de to hovedeffekter, svarende til faktorerne A og B er stærkt signifikante, medens vekselvirkningen ikke er signifikant. De resterende beregninger og estimation af effekterne og restvariansen udelades her. 2.1 Randomisering Man kan nu spørge om, hvilke forudsætninger mht. forsøgets udførelse, der skal være opfyldt for, at den angivne model er velegnet. Man kunne tænke sig, at den rækkefølge, som de enkelte målinger blev udført i, er som angivet i følgende tabel: 5

7 Forsøgsrækkefølge A=120 o C A=140 o C B=30 min B=60 min Deternuklart,atsåfremt ydre, for såvidt uvedkommende, men alligevel influerende forhold, ændrer sig under forsøgets udførelse, kan der opstå en systematisk forskel mellem de først udførte og de sidst udførte forsøg. Hvis der for eksempel sker det, at kalibreringen af et reguleringsapparat for den undersøgte proces langsomt ændrer sig, så værdien også ændres lidt, kunne en mere rimelig model måske være: Y ijk,t = θ φ(t)+µ+α i +β j +αβ ij + E ijk hvor φ(t) angiver en funktion af forsøgstidspunktet, og θ er en regressionskonstant. F.eks. kan φ(t) repræsentere et lille, men jævnt fald. Problemet er her, at man ikke på forhånd kan vide, om der er sådanne systematiske ændringer under forsøgene, og man vil heller ikke kunne se forskel på, om den ændring af responset, der sker fra de først udførte forsøg til de sidst udførte, skyldes tidsfølgen eller den omstændighed, at faktoren A er ændret fra 120 o C til 140 o C. For at omgå dette problem, kan forsøgene udføres i en tilfældigt valgt rækkefølge. At tilrettelægge forsøget på dennemåde kaldes at randomisere forsøget. En sådan randomiseret forsøgsplan kunne være: Randomiseret forsøgsplansplan Forsøgsrækkefølge A=120 o C A=140 o C B=30 min B=60 min Man udfører altså et forsøg (A=140 o C, B=30min) først, derefter (A=140 o C, B=60min), indtil alle 8 enkeltforsøg er gennemført. På denne måde sikrer man, at de ukontrollerbare ydre omstændigheder influerer på tilfældig måde på resultaterne. Og modellen (1) vil så være velegent til beskrivelse af sammenhængen mellem responset Y og faktorerne A og B. Hvorvidt forsøget som helhed herefter er et godt forsøg, afhænger naturligvis af, om de tilfældige forsøgsfejl er tilpas begrænsede. Hvis forsøget randomiseres, kan φ(t) i vores eksempel opfattes 6

8 som en funktion af en stokastisk variabel T ijk, der repræsenterer de tilfældigt ordnede tidspunkter, og vi kunne formulere modellen for responset som: Y ijk,t = µ + α i + β j + αβ ij +(θ φ(t ijk )+Z ijk ) (2) hvor nu Z ijk repræsenterer rene forsøgsfejl. En god model for variansen af de samlede forsøgsfejl E ijk = θ φ(t ijk )+Z ijk kunne nu være Var(E ijk )=Var(θ φ(t ijk )+Z ijk )=θ 2 Var(φ(T ijk )) + Var(Z ijk ) Hvis funktionen φ(t ijk ) varierer voldsomt under forsøget, kan variansen af de samlede forsøgsfejl blive utilladeligt store. Dette illustrerer nødvendigheden af, at ydre forhold kontrolleres og fastholdes bedst muligt under forsøgets gennemførelse. Eksempel: Analyse med kovariat = forbedret nøjagtighed Følgende data viser måleresultater fra et forsøg, hvor to forskellige metoder (Treatment 1 og Treatment 2) til fjernelse af tungmetalforurening i jord er sammenlignet. For et antal jordprøver målte man indholdet af tungmetal i prøverne inden rensningen (Raw soil), (b 1 og b 2 ) og indholdet i de behandlede prøver (Processed soil), (y 1 og y 2 ), og data er vist i følgende tabel og figur: Treatment 1 Treatment 2 Raw Soil Proc. soil Raw Soil Proc. soil b 1 y 1 b 2 y

9 14 12 o Content in processed soil o x o o x o x x x x o 2 x : Treatment 1 o : Treatment Content in raw soil = baseline Værdien b kaldes ofte baseline, dvs udgangsværdien for prøverne, og man forestiller sig, at det endelige resultat kan være afhængigt af baseline b. Til at beskrive data benytter man modellen (se figuren): Y i,j = µ + α i + β i b i,j + E i,j hvor µ er forsøgets niveau, α i er effekten af behandling i ogβ i er regressionskoefficient for afhængigheden af baseline for behandling i. E i,j er målefejlen. Man estimerer nu et antal alternative modeller og beregner rest kvadratafvigelsessummen (SSQ) og dennes frihedsgrader (df). Interessante modeller µ α 1 α 2 β 1 β 2 SSQ df s 2 1 Y i,j = µ + α i + β i b i,j + E i,j Y i,j = µ + α i + β b i,j + E i,j Y i,j = µ + β b i,j + E i,j Y i,j = µ + α i + E i,j Y i,j = µ + E i,j Model 1 er helt generel, idet både den lineære afhængighed af baseline (β 1 og β 2 ) og behandlingseffekten (α 1 og α 2 ) kan være forskellige for de to behandlinger. I model 2 antages β 1 = β 2. I model 3 er α 1 = α 2 =0. I model 4 er β 1 = β 2 =0, og i model 5 er α 1 = α 2 =0og β 1 = β 2 =0. Inden man tester, om der er forskel på de to behandlinger, vil man i reglen først undersøge, om afhængigheden af baseline er den samme for de to behandlinger (β 1 = β 2 ), og er det tilfældet, vil man undersøge om α 1 = α 2 8

10 Et variansanalyseskema for de viste data: Variations Kvadrataf Friheds F test p- kilde vigelsessum grader s 2 værdi værdi β 1 β α 1 α Rest Total Det konkluderes, at β 1 = β 2, men der er stor forskel mellem de to metoders niveauer, idet α 1 α 2, og man antager derfor model 2. Ser man bort fra kovariaten (baseline) får man variansanalysen: Variations Kvadrataf Friheds F test p- kilde vigelsessum grader s 2 værdi værdi α 1 α Rest Total Man ser, at restvariationen er meget større, og F-værdien for testet af de to treatments er meget mindre (omend stadig significant her). 2.2 Faktorforsøg og blokke Lad os nu forestille os, at 8 enkeltforsøg, som skal udføres i løbet af to dage med 4 forsøg pr dag. Vi kan forestille os, at forsøgene af tidsmæssige grunde ikke kan nås på kun een dag. Eksemplet illustrerer variation mellem dage (f.eks. som følge af, at målemetoden skal sættes op hver dag): Et typisk forløb er Målinger over to dage Y=målt værdi A=120 o C A=140 o C B=30 min B=60 min Udføres Dag I Dag II 9

11 En rimelig model for disse data kunne nu være: Y ijk = µ + D i + α i + β j + αβ ij + E ijk (3) hvor D i beskriver, at der kan være sket en niveauforskydning dagene imellem. Man ser, at man med denne forsøgsplan ikke vil kunne afgøre, om der er en reel indflydelse fra faktoren A (temperaturen) eller, om der er sket en niveauforskydning mellem dagene. Man siger, at de to effekter dage og temperatur er konfunderede (sammenblandede). Det siger sig selv, at man ikke skal anvende en sådan forsøgsplan. Et bedre alternativ til den viste forsøgsplan kunne være en plan, som angivet ved følgende resultattabeller: Forsøg dag I Y=målt værdi A=120 o C A=140 o C B=30 min B=60 min Forsøg Dag II Y=målt værdi A=120 o C A=140 o C B=30 min B=60 min En god model for disse data er: Y ijk = µ + D l + α i + β j + αβ ij + E ijk (4) hvor D l nu angiver afvigelsen fra middelniveauet µ pådagl. En forsøgsomstændighed som en dag i eksemplet kaldes en blok. Ved planlægningen af forsøget tænker man sig, at den tilfældige variation indenfor blokkene kan være væsentlig mindre end variationen mellem blokkene. Man kan altså ofte opnå en betydelig forøgelse af forsøgets nøjagtighed ved at inddele efter (og efterfølgende justere for) blokkene. Variansanalyseskemaet for de viste data med den anførte model er: 10

12 Variations Kvadrataf Friheds F test p- kilde vigelsessum grader s 2 værdi værdi D=dage=blokke A=temperatur <0.001 B=behandlingstid <0.001 AB=vekselvirkning (2 1)(2 1) Rest Total De resterende analyser og estimation af effekterne og restvariansen udelades her. For illustrationens skyld kan den viste variansanalyse sammenlignes med variansanalyseskemaet side 5. Hvis man forestillede sig, at forsøget svarende til skemaet side 5 var resultater fra et forsøg, der var randomiseret over et antal dage, antyder det ovenståendeskema, hvad man kunneopnå ved at benytte en inddeling i blokke, nemlig at restvariationen (der udtrykker forsøgsusikkerhedens varians) nedsættes væsentligt. Forsøget er forudsat randomiseret inden for blokkene, f.eks. som vist i følgende plan: Forsøg dag I Randomisering A=120 o C A=140 o C B=30 min 3 2 B=60 min 1 4 Forsøg Dag II Randomisering A=120 o C A=140 o C B=30 min 4 2 B=60 min Blokforsøg Som vi har set ovenfor er begrebet blokke fundamentalt for kontrol af den usikkerhed, som planlagte målinger kan være behæftede med. I praktisk tilrettelæggelse af forsøgsarbejde er det altså væsentligt, at man identificerer, hvilke muligheder, der er for fastholde forsøgsomstændighederne under enkeltforsøgenes udførelse. 11

13 3.1 Fuldstændige blokke Sæt, at man ønsker at bedømme en overfladebehandling i afhængighed af fire alternative behandlingsmetoder, som kunne være C1=(0.01mm,50%), C2=(0.02mm,50%), C3=(0.01mm,60%),C4=(0.02mm,60% idet der kan påføres 0.01 eller 0.02 mm belægning med tilsætning af et additiv i en mængde svarende til 50 eller 60%. Vi forestiller os, at undersøgelsen foregår ved en bestemt temperatur i en ovn med plads til 4 prøver således, at alle 4 behandlinger kan foretages i samme kørsel. En kørsel kan på denne måde opfattes som en blok, og den kaldes fuldstændig, når den kan indeholde een udførelse af alle behandlinger, dvs. de 4 vores eksempel. Kørsel nr C1 C2 C3 C4 1 X 11 X 12 X 13 X 14 2 X 21 X 22 X 23 X 24 3 X 31 X 32 X 33 X 34 4 X 41 X 42 X 43 X 44 En rimelig matematisk model for dette forsøg er (selvfølgelig) en tosidet variansanalysemodel, hvor effekten fra kørsler (blok) og behandlinger (faktor) antages additive: X ij = µ + α i + β j + E ij (5) Husk, at forsøgets primære formål er at vurdere hvorvidt, der er forskel mellem virkningen af de 4 behandlinger C1, C2, C3 og C4, medens kørsel nr svarer til en eventuel systematisk forskel mellem forsøg fra forskellige kørsler. Med forsøgsplanen elimineres kørslernes indflydelse på vurderingen af behandlingerne. Man siger, at behandlinger og kørsler er i balance. 3.2 Romersk Kvadratforsøg Sæt nu, at ovenstående forsøg udføres i en ovn med plads til netop de 4 prøveemner, svarende til behandlingerne C1, C2, C3 og C4. De 4 fire pladser svarer til 4 bestemte positioner i ovnen. Man kunne forestille sig, at der muligvis var en uundgåelig systematisk (forhåbentlig mindre) forskel på temperaturen eller varmetilførselen for de 4 pladser. I praksis vil man ikke kunne vide dette påforhånd, men man kunne tænke sig at eliminere sådanne forskelle ved hjælp af sin forsøgsplan på principielt samme måde som forskellen mellem kørsler blev elimineret ovenfor. 12

14 Dette kan gøres ved hjælp af et romersk kvadrat: Forsøgs- Placering angivet plan ved I, II, III og IV Kørsel nr C1 C2 C3 C4 1 I II IV III 2 IV III II I 3 II I III IV 4 III IV I II Det noteres, at det for hver af de 4 behandlinger (C1 C4) gælder, at de vil være placeret på hver af de 4 positioner netop 1 gang. Ligeledes vil de være med i alle 4 kørsler. På denne måde vil der være balance mellem behandlingerne og kørslerne såvel som positionerne. Den naturlige matematiske model for det viste forsøg er: X ijk = µ + α i + β j + γ k + E ijk (6) Begge de to blok-kriterier, kørsler og placering, repræsenterer fuldstændige blokke. 3.3 Ufuldstændige blokke Eksempelvis er det ofte sådan, at det ikke altid er muligt at udføre vilkårligt mange enkeltforsøg inden for en blok. Lad os forestille os et problem, hvor 4 alternative behandlinger skal vurderes i forhold til hinanden. De enkelte forsøg skal udføres på nogle prøveemner, og hvert emne kan behandles på begge sider. Det betyder, at der netop kan placeres 2 behandlinger på hvert emne. Man kan således opfatte et prøveemne som en blok, som har blokstørrelsen=2. En blok, som på denne måde ikke kan indeholde mindst eet forsøg af hver behandling, kaldes en ufuldstændig blok. Kaldes de 4 alternative behandlinger A1, A2, A4 og A3, kan et forsøg planlægges som vist i følgende tabel. Forsøget kaldes et ufuldstændigt blokforsøg: 13

15 Prøveemne nr A1 A2 A3 A4 1 X X 2 X X 3 X X 4 X X 5 X X 6 X X Den matematiske model for dette forsøg kunne være: X ij = µ + α i + β j + E ij (7) hvor α i er effekten af den i te behandling (faktoreffekt), og β j er det bidrag til måleresultatet, som hidører fra det j te prøveemne (blok effekt). Situationen kan sammenlignes med en fodboldturnering med eksempelvis 4 hold. Man ønsker at finde ud af, hvilket hold er bedst. Det kunne i teorien gøres ved at sende alle 4 hold på banen på een gang for at registrere, hvor mange mål, de enkelte hold scorede i en kamp alle mod alle. Men det ville nok blive lidt kaotisk for såvel deltagerne som dommeren og tilskuerne. Derimod sendes holdene på banen to og to. Een kamp kan derved opfattes som en blok, og hele turneringen er altså et eksempel på et ufuldstændigt blokforsøg med blokstørrelsen 2. Betingelsen for, at man i dette forsøg kan eliminere en eventuel virkning fra prøveemnerne er, at alle par af behandlinger optræder lige ofte sammen i en blok. Kaldes dette antal λ, erλ=1idet viste forsøg. Hvis prøveemnerne er mere eller mindre forskellige, kan et forsøg som det viste være væsentligt nøjagtigere end et forsøg, hvor man placerer behandlingerne tilfældigt på et antal prøveemner og ikke tager hensyn til dem i den statistiske analyse. Hvis man i det viste eksempel tænkte sig, at prøveemnerne havde en overside (o) og en underside (u), havde man måske følgende placering: Prøveemne nr A1 A2 A3 A4 1 o u 2 o u 3 u o 4 o u 5 o u 6 o u 14

16 Man kunne måske have ønsket sig, at alle behandlinger skulle placeres lige ofte på en overside og på en underside. Dette kan naturligvis ikke lade sig gøre i det viste forsøg. Men hvis man tænker sig, at der er behov for og råd til at udføre et større forsøg, kunne dette være: Forsøgsplan med et ufuldstændigt blokforsøg gentaget 2 gange Forsøg d. 19/ Forsøg d. 24/ Prøveemne nr A1 A2 A3 A4 Prøveemne nr A1 A2 A3 A4 1 o u 12 u o 2 o u 8 u o 3 u o 10 o u 4 o u 7 u o 5 u o 11 o u 6 o u 9 u o Læg mærke til, at de sidste 6 prøveemner er stillet op i en ny rækkefølge, dvs., at der er foretaget en randomisering af rækkefølgen. Det fører for vidt her at opstille den korrekte matematiske model for dette forsøg, hvori nu indgår såvel faktoren (A1 A4), prøveemner, dato og over /underside. Men det, man skal lægge mærke til, er, at der vil være den ønskede balance mellem behandlinger og de øvrige tre effekter (blokeffekterne). Følgende data er fra et svampe-dyrkningsforsøg, hvor 6 varianter af en ny stamme (A F) og den tidligere mest brugte stamme (STD) er dyrket på nogle bakker. Hver bakke har netop plads til 3 svampetyper og der er 3 dyrkningsområder (positioner) påén bakke, benævnt α, β og γ. De målte værdier angiver udbredelsesarealerne for vækstområderne for de pågældende svampe. Designet er som følger, og de fundne data ses i næste tabel. Svampetype Bakke STD A B C D E F 1 α β γ 2 β α γ 3 β γ α 4 α β γ 5 γ α β 6 α β γ 7 γ β α 15

17 Data Vækst arealer (respons) Bakke STD A B C D E F Sum Sum Q Totaler for positioner: T α = 379.1,T β = 384.1,T γ = Et balanceret ufuldstændigt blokforsøg, med yderligere en balanceret blok-variabel (positioner) (et Youden square). Når forskellige behandlinger (svampetyper) er på samme bakke, bliver sammenligningen mellem dem nøjagtig (princippet ved blokning). Model : Y ijk = µ + τ i + Bakke j + Pos k +ɛ Variationskilde SSQ d.f. s 2 F-værdi p-værdi Bakker Svampetyper Positioner Rest Total F(6,6) 0.05 =4.28. Variation mellem bakker ser stor ud! Ny model Y ijk = µ + τ i + Bakke j + ɛ τ STD = Q STD k/(λ t) = /(1 7) = 4.46, σ 2 ɛ =( )/(2+6)=0.872 Kontrast = 6 Q STD (Q Q 6 )=6 ( 10.40) (10.40) = 72.8, SSQ= /(1 7(36 + 6)) = 54.08, d.f.=1. Stærkt signifikant. SSQ mellem τ 1,..., τ 6 = =3.89 med 6 1=5 frihedsgrader. Ikke signifikant. Konklusion: Der er tydelig (signifikant) forskel mellem den hidtidige STD og de 6 nye under ét, men disse er ikke indbyrdes forskellige. 16

18 4 Forsøg med mange faktorer 4.1 Ruggedness test med 7 faktorer Et ruggedness test er et forsøg, som har til formål at vurdere, om forskellige faktorer, f.eks. i en måleprocedure, har indflydelse på det endelige måleresultat. Man prøver altså at vurdere, om en iøvrigt uvedkommende faktor påvirker måleresultatet på en uhensigtsmæssig måde. En god og robust procedure vil være kendetegnet ved, at den eller de undersøgte faktorer ikke påvirker resultatet i væsentlig grad. Følgende eksempel er konstrueret, men realistisk. En måleproces omfatter bl.a., at der skal oparbejdes nogle prøver. Ved oparbejdelsen er der i eksemplet mulighed for at variere på følgende faktorer: Faktor Lavt niveau -1: Højt niveau A: Temperatur ved ekstraktion -1: 20 o C +1: 24 o C B: Ph-justering af prøve -1: : 7.20 C: Ekstraktionsmiddel -1: Methylalkohol +1: Ethylalkohol D: Kolonne i apparat -1: Ny kolonne +1: Brugt kolonne E: Forfiltrering for urenheder -1: Ingen filtrering +1: Filtrering F: Ekstraktionstid -1: 1 time +1: 2 timer G: Bestråling af ampuller med prøve -1: nej +1: ja Påforhånd regner man (altid!) med, at blandt faktorerne er det mest tænkeligt, at A, B og C (dem, man har valgt som de første) har mest betydning, og at de måske endog kan vekselvirke lidt (synergi eller hæmning). De øvrige faktorer har (antages gerne) alene additive virkninger (kan kontrolleres i nogen grad), om overhovedet nogen. I forsøget indgik, som vist, 7 faktorer, og målingerne blev udført på to råvarebatche af produktet ( -1 og 1 ). Det vil være rimeligt at opfatte disse batche som blokke. 17

19 Fractional factorial design and block confounding Batch= A B C D E=BCD F=ACD G=ABC ABCD Response Code (1) afg beg ab ef cefg ac e bc f abc g def ad eg bd fg abd cd g acd f bcd e abcd efg Det viste forsøg kaldes et faktorforsøg i 2 blokke. Når f.eks. faktoren A har den nominelle værdi -1 svarer det til, at der i den faktiske udførelse benyttes temperaturen 20 o C. Kolonnen code angiver en standardbetegnelse for de enkelte forsøg. De bogstaver, der er med i koden, sættes på deres niveau +1, mens de ikke nævnte sættes på deres niveau 1. Ét af forsøgene i den benyttede forsøgsplan er angivet som ace. Man ser, at det svarer til: ace = [ A=24 o C, B=7.00, C=Ethylal., D= ny kol., E=filtr., F=1 time, G= ej bestr. ] Man tænker sig, at følgende begrebsmodel kan benyttes: Y = µ + A + B + AB + C + AC + BC + D + E + F + G + Batch + ɛ hvor, f.eks., faktoren A s virkning har to niveauer A 0 og A 1,(A 0 = A 1 ), afhængigt af, om temperaturen er 20 o C eller 24 o C, tilsvarende for de øvrige faktorer. Bidraget ɛ repræsenterer forsøgsusikkerheden med variansen σ 2 ɛ. Modellen udmærker sig ved, at der ud over hovedvirkningerne højst er to-faktorvekselvirkninger og kun mellem faktorerne A, B og C. Hvis man vil finde effekten af f.eks. faktoren A, beregner man forskellen mellem de måleværdier, hvor A=+1 og hvor A=-1, kaldet A-kontrasten, og betegnet med [A], dvs. [A]= = Kvadratsum = SSQ A =[A] 2 /2 7 3 = og tilsvarende for alle led i modellen. I praksis anvender man natuligvis et computerprogram til disse beregninger. 18

20 Term Contrast SSQ [ I ] [ A ] [ B ] [ AB ] [ C ] [ AC ] [ BC ] [ ABC = G ] [ D ] [ (AD) ] [ (BD) ] [ (ABD) ] [ (CD) ] [ ACD = F ] [ BCD = E ] [ ABCD = Batch ] For at analysere data skal man have et skøn for forsøgsusikkerheden, eller man kan benytte en metode, som adskiller store og små fundne effekter, eksempelvis som i følgende normalplot. De enkelte punkter i plottet svarer til de i tabellen angivne kontraster Normal probability plot Normal scores Normal probabilities Contrasts sorted Man kan ud fra plottet foreslå en model for holdbarheden ud fra de fundne data. Hvis man benytter det viste plot, kan man konkludere, at Y = µ + A + B + AB + C + F + Batch + ɛ er et godt forslag (det svarer til de afvigende punkter i plottet). 19

21 Man kan også benytte kvadratafvigelsessummer, som svarer til led, man anser for sikkert uinteressante, og beregne en restvariation og foretage en formel testning. I det konkrete tilfælde kunne man benytte de led, der svarer til AD, BD, ABD og CD, med samlet kvadratafvigelsessum =8.025 med =4 frihedsgrader. Dette resulterer i følgende variansanalyseskema: Variations Kvadrataf Friheds F test kilde vigelsessum grader s 2 værdi ABCD=Batch A=temperatur B=pH juster AB=vekselv C=Ekstrakt.middel AC=vekselv BC=vekselv D=Kolonne E=Filtrering F=Ekstrakt.tid G=Bestråling Rest Total Kritisk værdi for F(1,4) (α =0.05) er Man ser, at den allerede foreslåede models led er signifikante, mens de øvrige er ikke. Svarende til den valgte model kan man reducere variansanalysen ved at inddrage flere led i restvariationen. Man finder nu: Variations Kvadrataf Friheds F test kilde vigelsessum grader s 2 værdi ABCD=Batch A=temperatur B=pH juster AB=vekselv C=Ekstrakt.middel F=Ekstrakt.tid Rest Total Kritisk værdi for F(1,9) (α =0.05) er Forsøgsusikkerheden, hvis man kan kontrollere de fundne betydende variable, beregnes til s 2 =1.83 = , dvs at spredningen er Eksemplet illustrerer de potentielle muligheder, der er for at behandle mange faktorer i reducerede forsøg og for at lægge enkeltforsøgene ud i mindre (og derved mere nøjagtige) blokke, idet små blokke, alt andet lige, er mere homogene og dermed mere nøjagtige end store blokke. 20

22 4.2 Maximalt antal faktorer i 16 observationers forsøg med resolution IV Designet, som er vist side 18, omhandler 7 faktorer, og det udmærker sig ved, at alle hovedvirkninger kan estimeres, hvis tre-faktor vekselvirkningerne er nul eller meget små. Man kalder det et resolution IV forsøg. Det maximale antal faktorer i et resolution IV forsøg med 16 målinger er 8 faktorer, og det kunne se ud som følger: Fractional factorial design and block confounding Block= A B C D E=BCD F=ACD G=ABC H=ABD ABCD Response Code (1) afgh begh ab ef cefg ac eh bc fh abc g defh ad eg bd fg abdh cd gh acd f bcd e abcd efgh Det forudsættes (altid), at virkningen fra blokke er rent additiv. Term Contrast SSQ [ I ] [ A ] [ B ] [ AB ] [ C ] [ AC ] [ BC ] [ ABC = G ] [ D ] [ (AD) ] [ (BD) ] [ ABD =H ] [ (CD) ] [ ACD = F ] [ BCD = E ] [ ABCD = Batch ] For illustrationens skyld er benyttet de samme data, som før. Hvis man prøver at genberegne alle de andre kontraster som før, bliver disse (selvfølgelig) præcis de samme. H-kontrasten bliver [ABD=H] = 1.75 med kvadratafvigelsessummen /16 = 0.191, 21

23 som den før blev for [ABD]. Med data som i dette sidste eksempel ville man faktisk nå til, at faktoren H antagelig ikke betyder meget, og den endelige model ville faktisk blive som ovenfor. Det vil sige: Y = µ + A + B + AB + C + F + Batch + ɛ 5 Taguchi metoder Klassisk forsøgsplanlægning retter sig især mod styringsfaktorers betydning for eksempelvis udbyttet af en produktionsproces eller en procedure for en bestemt måling, det vil generelt sige mod middelværdien af den betragtede proces. Omkring 1980 introducerede Genichi Taguchi en række ideer, hvor han benyttede forholdsvis traditionelle forsøgplaner til at forbedre kvaliteten, karakteriseret ved ensartetheden, af produktionsprocesser, målemetoder og produkter. Formålet var 1. Design af processer, så de er robuste overfor ydre (ikke kontrollerbare) betingelser (ruggedness). 2. Design og udvikling af produkter, så de er robuste overfor komponentvariation (f.eks. nye kolonner i målemetoder). 3. Nedsættelse af den tilfældige variation i forhold til den ønskede værdi (nøjagtighed eller kvalitetsegenskab). Ved robust menes, at faktorer, som er vanskelige at kontrollere, har lille indflydelse pådetmåleresultat eller den proces eller det produkt, man har for sig. De tre aktiviteter kaldes under ét parameter design. Mange af Taguchi s idéer er grundlæggende gode, men en række af de nye statistiske metoder og de forsøgsplaner, han anbefaler er unødigt komplicerede, kræver mange data, eller er ineffektive. En central tanke er ønsket om reduktion af variabilitet i forhold til en target værdi. I forhold til de tre ovennævnte formål indfører Taguchi statistisk forsøgsplanlægning til punkt 2., hvor han generelt som respons benytter en tabsfunktion: L = k(y T ) 2,hvoryer produktegenskaben, T er target, og k er en faktor. Taguchi s metoder repræsenterer altså ikke nye forsøgsplaner eller mere effektive forsøgsplaner (mange mener tværtimod), men derimod en mere systematisk tænkemåde, der retter sig mod kvalitetsforbedring og forbedret produkt- og procesdesign. 22

24 5.1 En Taguchi forsøgsplan De betragtede faktorer opdeles i kontrollerbare og ikke kontrollerbare faktorer. Følgende liste kunne repræsentere et sådant problem for et produkt. For mange målemetoder kan man selvfølgelig opstille lignende lister. Faktorer og faktorniveauer for Taguchi forsøg Kontrollerbare faktorer niveauer A. Tykkelse af beskyttelsesfilm Lav Mellem Høj B. Tykkelse af samleplade Tynd Mellem Tyk C. Prægningsdybde Lille Mellem Stor D. Koncentration af adhæsiv i lim 5% 10% 15% Ukontrollerbare faktorer E. Hærdetid på lager 24 timer 48 timer F. Hærdetemperatur 18 grader 24 grader G. Fugtighed under hærdning 40% 80% De 4 faktorer A D lægges i et 3 3 græsk-romersk kvadratforsøg, dvs en forsøgsplan med 9 observationer, som er konstrueret ud fra to romerske kvadrater, der lagt oven i hinanden. Denne plan er dybest set et (1/9) 3 4 faktorforsøg. De3faktorerE,FogGkanlæggesiet2 2 2faktorforsøg, som er et fuldstændigt 2 3 faktorforsøg. Dette sidste forsøg udføres for hver af de 9 kombinationer i det romerske kvadrat, hvilket i alt giver anledning til 9 8=72enkeltforsøg. Designet kunne se ud som nedenstående. De 3 niveauer for faktorerne A - D benævnes 0, 1 og 2. Tilsvarende er niveauerne for faktorerne E, F og G benævnt 0 og 1. Det romerske kvadratforsøg med de kontrollerbare faktorer kaldes det indre array og 2 3 faktorforsøget kaldes det ydre array. 23

25 Taguchi design med et indre og et ydre array Ydre array E F Indre array G Run A B C D x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x Meningen med det ydre array er at fremprovokere variation. Den kombination af faktorer i det indre array, som giver anledning til mindst variation, er at foretrække. Til det formål foreslår Taguchi en responsfunktion, som eksempelvis er ( ) ȳ SN =10 log S 2 hvor ȳ angiver gennemsnittet af den målte egenskab i forsøgene, og S 2 angiver forsøgenes spredning. Forsøget vil, som sagt, omfatte i alt 9 8=72forsøg. Problemet med dette design er især, at det er helt uoverskueligt, hvorledes de kontrollerbare og de ikke kontrollerbare faktorer eventuelt vekselvirker. Dvs. at man risikerer at overse betydningsfulde muligheder for at finde det bedste produktdesign. Følgende er et eksempel på, hvordan resulaterne fra et Taguchi forsøg kunne falde ud. 24

26 Ydre array E F Indre array G Vurdering Run A B C D Eksperimentelle resultater Mean Std SN Estimation med et statistikprogram giver følgende resultater: SN = Kon + A + B + C + D hvor Kon = 26.93, A=[0, 2.81, 1.21], B=[0, 4.75, 4.73], C=[0, -4.58, -7.43], D=[0, -8.09, ] Optimal SN = 29.91; Den bedste setting er : (1,2,0,0)= (Mellem film, Tyk samleplade, Lav imp. dybde, Lav lim konc.) I det konkrete eksempel kunne et forsøg, hvor alle 7 faktorer indgår i en bruden 2 7 forsøgsplan, være et enklere og måske bedre alternativ. Et (1/4) 2 7 faktorforsøg omfatter 32 målinger, og man kan heri opnå, at alle hovedeffekter kan vurderes uden indflydelse af to-faktor-vekselvirkninger, og at to-faktor-vekselvirkninger mellem kontrollerbare og ikke-kontrollerbare faktorer kan undersøges. Dette design vil være klart at foretrække for Taguchi s forslag. Et andet problem er Taguchi s statistiske analysemetoder, som i visse tilfælde giver mystiske resultater. For eksempel ses ovenstående responsfunktion at medføre en uheldig sammenblanding af target værdien (målt ved ȳ) og variabiliteten (målt ved S 2 ). Det vil være tilfældet, hvis de ukontrollérbare faktorer indfluerer både på processens middelværdi og spredning, hvilket bestemt ikke er ualmindeligt. Afslutningsvis kan Taguchi s metoder kritiseres for en række statistiske og tekniske problemer, men selve ideen om robust parameterdesign er god. 25

27 6 Dimensionering Inden man gennemfører et større forsøg, bør man indledningsvis vurdere, hvor stor tilfældig variation, man kan forvente under de givne forsøgsbetingelser. En sådan vurdering kan bl.a. beståi,at man udfører nogle pilotforsøg og bestemmer et estimat for usikkerhedsvariansen. Hvis man, i det simpleste tilfælde, forstiller sig, at analysen af data vil bestå i en ensidet variansanalyse, har modellen følgende udseende: Y ij = µ + α i + E ij hvor α i er de effekter, man ønsker at bedømme, og E ij er de tilfældige afvigelser, som antages at have variansen σ 2.Erderkbehandlinger og n målinger pr behandling, fås følgende variansanalyseskema: Variations Kvadrataf Friheds F test kilde vigelsessum grader s 2 værdi Faktor A SSQ A k 1 s 2 A F A=s 2 A /s2 E Rest SSQ E k(n 1) s 2 E Total SSQ 0 kn 1 Man kan nu vise, at fordelingen af teststørrelsen F A =s 2 A/s 2 E er en ikke central F fordeling med ikke centralitetsparameter: γ 2 = n k i=1 α 2 i σ 2 Hypotesen H 0 : α 1 = α 2 =... = α k = 0 svarer åbenbart til γ 2 = 0. Det kritiske område for F testet er derfor F A >C F =F(k 1,k(n 1)) 1 α ved test på niveau α. Størrelsen C F = F(k 1,k(n 1)) 1 α angiver (1 α) fraktilen i den sædvanlige (centrale) F fordeling. Kaldes en stokastisk variabel, der følger en ikke central F fordeling med frihedsgraderne f 1 og f 2 for F(γ 2 ; f 1,f 2 ), gælder, at sandsynligheden for, at variansanalysens F test viser signifikans ved et test på niveau α, kan skrives som β(γ 2 )=P{F(γ 2 ;k 1,k(n 1)) >C F } Funktionen β(γ 2 ) er testets styrkefunktion, og den er åbenbart en funktion af effekternes kvadratsum k i=1 α 2 i og usikkerhedsvariansen σ2. 26

28 Ved hjælp af den ikke centrale F fordeling er man på denne måde i stand til at vurdere, hvorvidt et påtænkt forsøg med en given forsøgsvarians σ 2 vil have en rimelig sandsynlighed for at lede til signifikans for forskellige værdier af effekterne α i.på denne måde kan man foretage en egentlig dimensionering af sit forsøg, inden man gennemfører det. 7 Nogle eksempler med R Y, A, B 97.0, 120, , 120, , 120, , 120, , 140, , 140, , 140, , 140, 60 rm(list=ls()) Data <- read.table("factor.txt",header=t,sep=",") attach(data) Model<- lm(y as.factor(a)+as.factor(b)+as.factor(a):as.factor(b)) anova(model) Y, A, B, Dag 97.0, 120, 30, , 120, 60, , 140, 30, , 140, 60, , 120, 30, , 120, 60, , 140, 30, , 140, 60, 2 rm(list=ls()) Data <- read.table("factor2.txt",header=t,sep=",") attach(data) Model2 <- lm(y as.factor(a)+as.factor(b)+as.factor(a):as.factor(b) + as.factor(dag)) 27

29 anova(model2) Base, Y, Treat 28.3, 5.2, , 7.9, , 5.7, , 8.0, , 6.0, , 5.1, , 8.3, , 10.2, , 9.6, , 6.6, , 7.7, , 11.6, 2 rm(list=ls()) Data <- read.table("kovar.txt",header=t,sep=",") attach(data) ModelKov1 <- lm(y as.factor(treat)+base:as.factor(treat)) ModelKov2 <- lm(y as.factor(treat)+base) anova(modelkov1) anova(modelkov2,modelkov1) anova(modelkov2) anova(lm(y as.factor(treat))) Fun, type, Bakke, Posit 51.3, S, 1, a 57.1, A, 1, b 56.3, B, 1, c 53.9, B, 2, b 56.2, C, 2, a 54.9, D, 2, c 49.1, S, 3, b 54.2, C, 3, c 54.3, E, 3, a 55.8, B, 4, a 56.6, E, 4, b 28

30 55.7, F, 4, c 49.3, S, 5, c 53.5, D, 5, a 55.2, F, 5, b 52.9, A, 6, a 54.7, D, 6, b 54.3, E, 6, c 57.0, A, 7, c 57.5, C, 7, b 55.1, F, 7, a rm(list=ls()) Data <- read.table("fungi.txt",header=t,sep=",") attach(data) Bakke<-as.factor(Bakke) Model <- lm(fun Bakke+type+Posit) anova(model) A, B, C, D, E, F, G, Bat, Y, code -1, -1, -1, -1, -1, -1, -1, 1, 17.48, (1) 1, -1, -1, -1, -1, 1, 1, -1, 18.19, afg -1, 1, -1, -1, 1, -1, 1, -1, 13.96, beg 1, 1, -1, -1, 1, 1, -1, 1, 16.37, abef -1, -1, 1, -1, 1, 1, 1, -1, 13.24, cefg 1, -1, 1, -1, 1, -1, -1, 1, 32.20, ace -1, 1, 1, -1, -1, 1, -1, 1, 16.81, bcf 1, 1, 1, -1, -1, -1, 1, -1, 18.52, abcg -1, -1, -1, 1, 1, 1, -1, -1, 8.23, def 1, -1, -1, 1, 1, -1, 1, 1, 27.96, adeg -1, 1, -1, 1, -1, 1, 1, 1, 15.43, bdfg 1, 1, -1, 1, -1, -1, -1, -1, 16.44, abd -1, -1, 1, 1, -1, -1, 1, 1, 21.07, cdg 1, -1, 1, 1, -1, 1, -1, -1, 18.98, acdf -1, 1, 1, 1, 1, -1, -1, -1, 14.78, bcde 1, 1, 1, 1, 1, 1, 1, 1, 17.61, abcdefg rm(list=ls()) data <- read.table("ruggedness.txt",header=t,sep=",") attach(data) Mod1 <- lm(y A+B+A:B+C+A:C+B:C+D+E+F+G+Bat) Mod2 <- lm(y A+B+A:B+C+F+Bat) anova(mod2) 29

31 Run, A, B, C, D, Mean, STD, SN 1, 0, 0, 0, 0, 33.72, 1.51, , 0, 1, 1, 2, 35.55, 3.15, , 0, 2, 2, 1, 37.97, 2.75, , 1, 0, 1, 1, 31.24, 2.38, , 1, 1, 2, 0, 40.32, 1.64, , 1, 2, 0, 2, 41.54, 2.36, , 2, 0, 2, 2, 44.01, 4.82, , 2, 1, 0, 1, 43.35, 1.91, , 2, 2, 1, 0, 45.31, 1.64, rm(list=ls()) Data <- read.table("taguchi.txt",header=t,sep=",") attach(data) Estim <- lm(sn as.factor(a)+as.factor(b)+as.factor(c)+as.factor(d)) Estim 8 Litteratur Bennett, C.A. & N.L. Franklin (1954): Statistical Analysis in Chemistry and the Chemical Industri, Wiley. Box, G.E.P., W.G. Hunter & J.S. Hunter (1978): Statistics for Experimenters, Wiley. Cochran, W.G. & G. Cox (1957): Experimentel Designs, Wiley. Davies, O.L. (1956): Design and Analysis of Industrial Experiments, Hafner. Fisher, R.A. (1966): The Design of Experiments, Hafner. Hicks, C.R. (1993): Fundamental Concepts in the Design of Experiments, 4. udg., Oxford University Press. Montgomery, D.G (2005): Design and Analysis of Experiments, Wiley, 7. udgave..ooo. 30