Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 7: Forsøgsplanlægning 7.1 Lidt om forsøgsplanlægning............................. 1 7.1.1 Sammenligning af grupper.......................... 2 7.1.2 Valg af antal grupper og antal observationer................ 2 7.1.3 Randomisering................................ 2 7.1.4 Parring og blokning............................. 3 7.2 Sammenligning af varianser............................. 3 7.3 Sammenligning af middelværdier.......................... 4 7.3.1 Problemstilling................................ 4 7.3.2 Model og kontrol af modellen........................ 5 7.3.3 Variationen inden for gupper........................ 6 7.3.4 Variation mellem grupper.......................... 6 7.3.5 Total variation................................ 6 7.3.6 ANOVA-tabel................................. 7 7.3.7 F-test..................................... 7 7.3.8 Eksempel: prostatabehandling....................... 8 7.4 Vigtige begreber i forsøgsplanlægning....................... 8 7.5 Variation, replikation og stikprøver......................... 9 7.6 Udvælgelse af forsøgsenheder............................ 11 7.7 Forskellige typer af forsøgsplaner.......................... 12 7.7.1 Kontrollerede forsøg............................. 12 7.7.2 Observationsstudier............................. 13 7.8 Oversigt........................................ 13 7.9 Eksempler på forsøgsplanlægning.......................... 15 7.9.1 Kantinebenyttelse.............................. 15 7.9.2 Forsøgsplan: latinsk kvadrat........................ 15 7.9.3 Eksempel: Proteomics............................ 16 7.9.4 Nogle problematiske cases.......................... 16 7.1 Lidt om forsøgsplanlægning Yvonne: Where were you last night? Rick: That s so long ago, I don t remember. Yvonne: Will I see you tonight? Rick: I never make plans that far ahead. [Casablanca, 1942]
7.1 Lidt om forsøgsplanlægning 2 7.1.1 Sammenligning af grupper Vi ønsker at sammenligne forskellige grupper, baseret på data fra grupperne. Vi ønsker at teste mod H 0 : grupperne er ens H a : nogen afgrupperne er forskellige samt i givet fald at vurdere hvor store forskellene er mellem grupperne. Eksempler: 1. Sammenligning af forskellige algoritmer med hensyn til hastighed. 2. Sammenligning af holdbarheden for madvarer med forskellige typer konserveringsmiddel. 3. Sammenligning af forskellige befolkningsgrupper. Ordet faktor bruges som generel betegnelse for grupper eller behandlinger. 7.1.2 Valg af antal grupper og antal observationer Simpleste tilfælde: to grupper, f.eks.sammenlig ny og gammel metode (modul 5). Generelt: sammenligning af tre eller flere grupper, f.eks. alle produkter på markedet. Metode: Énvejs variansanalyse, se afsnit 7.3. Antallet af grupper bør holdes under 10. Hver gruppe bør have mindst 2 eller 3 observationer. Balanceret design: hvis alle grupper har samme antal observationer. 7.1.3 Randomisering Behandlingerne bør tildeles ved randomisering (tilfældigt). Dette kaldes et fuldstændigt randomiseret forsøg. Eksempel: To typer hardware skal sammenlignes med hensyn til holdbarhed. 1. Der er 20 PC-er af ret forskellig slags til rådighed. 2. Disse deles tilfældigt i to grupper på hver 10. 3. Den ene gruppe bruger den første type hardware og den anden gruppe bruger den anden type hardware. 4. Holbarheden gøres op for hver type hardware. Randomiseringen sikrer, at eventuelle forskelle i holdbarhed må tilskrives hardwaren.
7.2 Sammenligning af varianser 3 7.1.4 Parring og blokning Eksempel: To algoritmer til primtalsfaktorisering skal sammenlignes. Der er 100 test cases til rådighed, i form af forskellige tal, som skal faktoriseres. Begge algoritmer bruges på hver testcase (parret forsøgsplan), hvorefter de to algoritmer sammenlignes ved hjælp af et parret t-test. Man taler om blokning, hvis forsøgsmaterialet er til rådighed i form af blokke af homogent materiale, mens blokkene er indbyrdes forskellige. Man bør sammenligne behandlinger inden for blokke, for at fremhæve forskelle mellem behandlingerne. 7.2 Sammenligning af varianser Vi ønsker at sammenligne varinaserne fra to grupper ud fra to sæt af observationer: 1. x 1,...,x n1 fra gruppe 1. 2. y 1,...,y n2 fra gruppe 2. Nøglestørrelser: x, ȳ, s 2 x og s 2 y. Model: X 1,...,X n1 og Y 1,...,Y n2 uafhængige stokastiske variable så Vi ønsker at teste hypotesen Gruppe 1 : X i = µ 1 + ɛ 1i med ɛ 1i N ( 0,σ 2 1). Gruppe 2 : Y i = µ 2 + ɛ 2i med ɛ 2i N ( 0,σ 2 2). H 0 : σ 2 1 = σ2 2 mod den alternative hypotese H a at σ 2 1 σ2 2. Teststørrelse F = S2 x S 2 y Hvis H 0 er sand gælder F F f1,f 2, altså at F følger en F-fordeling med frihedsgrader f 1 = n 1 1 og f 2 = n 2 1. Bemærk at 1 F = S2 y Sx 2 F f2,f 1,
7.3 Sammenligning af middelværdier 4 På grund af asymmetrien er acceptområdet A for denne test (niveau α) givet ved 1 F f2,f 1 ;1 α/2 = F f1,f 2 ;α/2 < F < F f1,f 2 ;1 α/2 Eksempel 4.5: Fusion af vand, Teststørrelse: Estimater: n ˆµ i s Elektrisk 13 80.0208 0.0240 Blandet 8 79.9788 0.0314 F(x,y) = 0.02402 0.0314 2 = 0.584 Tabelopslag (tabel A.6) baseret på α = 10%: Da F 12,7;0.95 F 10,7;0.95 = 3.637 1 1 = F 7,12;0.95 2.913 = 0.343 0.343 < 0.584 < 3.637 ligger F(x,y) i acceptområdet. Dermed kan vi acceptere hypotesen H 0, at de to varianser er ens. Tommelfingerregel: Værdier F > 5 eller F < 0.2 er signifikante (α = 0.05) hvis f 1 +f 2 > 15. Sammenligning af flere varianser: se nedenfor. 7.3 Sammenligning af middelværdier 7.3.1 Problemstilling Envejs variansanalyse = analyse af effekten af én faktor. Formål: at sammenligne k populationer. Design: Et fuldstændigt randomiseret forsøg. Enten: 1. Der udtrækkes k uafhængige stikprøver, én fra hver af de k populationer. Eller: 2. Der udtrækkes k uafhængige stikprøver fra en population. De k stikprøver tildeles tilfældigt de k forskellige behandlinger.
7.3 Sammenligning af middelværdier 5 Eksempel 7.1: Prostatabehandling: Nøglestørrelser: Behandling Forøgelse af urinflow (ml/sec) ȳ i s i Medicin 1.1, 1.4, 1.3, 1.9, 1.6 1.46 0.31 Mikrobølge 2.9, 3.7, 3.4, 3.4, 2.8, 2.2 3.07 0.54 Kirurgi 4.0, 5.2, 5.0, 4.7 4.73 0.53 1. Gennemsnit i gruppe i: 2. Gennemsnit over alle observationer: n i Y i = j=1 Y ij Y = k n i i=1 j=1 Y ij 3. Variansestimat i gruppe i: S 2 i = 1 n i 1 7.3.2 Model og kontrol af modellen n i j=1 (Y ij Y i ) 2 Normalfordelt variation i hver stikprøve (lav k QQ-plots). Middelværdier betegnes µ 1, µ 2,...,µ k. Varianser betegnes σ 2 1, σ2 2,...,σ2 k Model: For hvert i: Y ij = µ i + ɛ ij, ɛ ij N(0,σ 2 i ), j = 1,2,...,n i Samlet antal observationer: n = Alle n observationer antages uafhængige. k i=1 n i Sammenligning af varianser: Udregn kvotienten mellem den største og den mindste varians: F(x,y) = s2 max s 2 min = 0.542 0.31 2 = 3.034 Nu er F ikke længere F-fordelt. Meget grov vurdering: F må ikke være større end 5 (OK i eksemplet).
7.3 Sammenligning af middelværdier 6 Vi antager dermed varianshomogenitet: σ1 2 = σ2 2 = = σ2 k Den fælles varians betegnes σ 2. 7.3.3 Variationen inden for gupper SSE måler variationen inden for grupper: SSE = k n i (Y ij Y i ) 2 i=1 j=1 med n k frihedsgrader. Varians inden for grupper (estimat for σ 2 ): MSE = SSE n k Svarer til poolet varians baseret på de k variansestimater s 2 1,...,s2 k. 7.3.4 Variation mellem grupper SSM måler variationen mellem grupper: med k 1 frihedsgrader. k SSM = n i (Y i Y ) 2 i=1 Varians mellem grupper: Måler forskellen mellem grupperne. MSM = SSM k 1 7.3.5 Total variation SSTO måler den totale variation: med n 1 frihedsgrader. Total varians: SSTO = k n i (Y ij Y ) 2 i=1 j=1 MSTO = SSTO n 1 Estimator for σ 2 når alle µ i er ens (men det er de måske ikke).
7.3 Sammenligning af middelværdier 7 7.3.6 ANOVA-tabel Resultater samles i ANOVA-tabel (variansanalysetabel): Variationskilde DF SS MS F p-værdi Grupper k 1 SSM MSM MSM MSE p Fejl n k SSE MSE Total n 1 SSTO Man kan vise at kvadratsummerne opfylder: SSTO = SSM + SSE Dermed angiver linien Total i tabellen summen af de to kvadratsummer i søjlen. Tilsvarende er n 1 det totale antal frihedsgrader. 7.3.7 F-test Nulhypotese Alternativ hypotese H 0 : µ 1 = µ 2 = = µ k. H a : ikke alle µ i er ens. Teststørrelse: F = MSM MSE Fordeling: F F-fordelt med k 1, n k frihedsgrader (se tabel A.6). Man kan vise at de to variansestimatorer MSM og MSE er indbyrdes uafhængige. Ensidet test: forkast hvis F er større end tabelopslaget. Beslutningsregel: Forkast H 0, hvis F > F k 1,n k;1 α Konklusion: 1. Hvis H 0 accepteres: Udregn total MS MSTO = SSTO n 1 og lav 1 α konfidensinterval for det fælles µ: Y ± t n 1,1 α/2 MSTO n 2. Hvis H 0 forkastes: Lav konfidensintervaller for hvert µ i : Y i ± t n k,1 α/2 MSE n i
7.4 Vigtige begreber i forsøgsplanlægning 8 7.3.8 Eksempel: prostatabehandling ANOVA-tabel for prostatabehandling Variationskilde DF SS MS F p-værdi Behandling 2 23.78 11.89 53.37 0.0001 Fejl 12 2.67 0.22 Total 14 26.45 Den lave p-værdi viser, at vi må forkaste H 0. Så mindst to af behandlingerne må være forskellige fra hinanden. Vi går videre som under 2. og laver konfidensintervaller for de tre µ i -er. Tabeloplsag: t 12,0.975 = 2.1788. Variansestimat: MSE = 0.22. 1. Medicin: 1.46 ± 2.1788 0.22/5 2. Mikrobølge: 3.07 ± 2.1788 0.22/6 (1.00, 1.92) 3. Kirurgi: 4.73 ± 2.1788 0.22/4 (2.65, 3.49) (4.22, 5.24) At dømme efter konfidensintervallerne er der en klar forskel mellem de tre metoder, og kirurgi fremstår som den bedste metode. 7.4 Vigtige begreber i forsøgsplanlægning Her er nogle vigtige begreber i forsøgsplanlægning: Responsvariabel Y : det udfald som skal måles. Forsøgsenhed: den enkelte eksperimentelle enhed, hvorpå der skal måles. Enkeltforsøg: Når Y måles på en forsøgsenhed. Eksperimentel usikkerhed: tilfældig variation i responsvariablen. Replikation: når der laves flere uafhængige enkeltforsøg under identiske betingelser. Piloteksperiment: lille indledende forsøg. Faktorer og kovariable (forklarende variable): ting som kan have indflydelse på udfaldet.
7.5 Variation, replikation og stikprøver 9 Behandling: faktor(er) af særlig interesse. Confounders: alle andre vigtige faktorer (observeret eller ej). Blok: sæt of enheder som er ens, f.eks. fra samme batch af forsøgsmateriale. Blokningsfaktor: en faktor som skelner mellem blokke. Blindforsøg: når behandlingen holdes skjult for observatøren. Hovedstrategi: Kontrollér hvad du kan, og lav randomisering for resten. Kontrollere: at tage en faktor i betragtning. Formindsker den eksperimentelle fejl. Randomisering: tildel behandlingerne tilfældigt til forsøgsenhederne. Ukontrollerede confoundere vil forøge den eksperimentells fejl. TAG RANDOMISERING ALVORLIGT! Randomisering: når ethvert medlem af populationen har samme sandsynlighed for at komme med i stikprøven. 7.5 Variation, replikation og stikprøver Replikation er afgørende for at kunne estimere størrelsen af den experimentelle fejl. Den eksperimentelle fejl måles ved s, også kaldet SD (standard deviation). Lav tilfældig stikprøve Y 1,...,Y n og udregn Ȳ og SD. SD måler den grundlæggende variation. Nøjagtighed af Ȳ som estimator for middelværdi µ er givet ved standard error: SE = SD n Lille SE kræver lille SD, stort n, elle begge dele. Er du i tvivl, så begynd med n = 3.
7.5 Variation, replikation og stikprøver 10 Hvor mange replikationer? Figure 1: SE som funktion af n. Lav foreløbigt estimat for SD ved pilotforsøg. Hvor mange replikationer? Nok til at få SE ned! Type I og type II fejl når to behandliger sammenlignes: Eksperiment: Ingen forskel Forskel Verden: Ingen forskel Korrekt Type I fejl Forskel Type II fejl Korrekt
7.6 Udvælgelse af forsøgsenheder 11 Hold sandsynligheden for type I fejl fast på lille værdi (α = 5%). Gør sandsynligheden for type II fejl mindre ved at forøge antallet af replikationer. 7.6 Udvælgelse af forsøgsenheder Stikprøver, strata og blokke Population: gruppe der ønskes information om. Stikprøve: gruppe der skal undersøges. Sampling error: Usikkerhed ved at drage konklusioner om populationen ud fra stikprøven. Påvirkes af eksperimentel usikkerhed og antal replikationer. Forsøgsplan: skal repræsentere populationen bedst muligt. skal være økonomisk/ logistisk/ tidsmæssigt muligt. skal formindske sampling error mest muligt. Klyngeudvalg: Populationen opdelt i disjunkte grupper (relevante) for eksempel mænd/kvinder, ny/ældre model, 5 ens maskiner,... Lav evt. stratificeret sampling. Eksempel: Der skal udtrækkes en tilfældig stikprøve på 1000 danskere, som skal interviewes. Det er meget tidkrævende at gennemføre 1000 interviews alle mulige steder i landet. I stedet udvælges tilfældigt 10 kommuner (klynger), hvorefter der udtrækkes 100 personer tilfældigt i hver kommune. Dette er mindre tidkrævende.
7.7 Forskellige typer af forsøgsplaner 12 Clusters: Kun muligt at få stikprøve fra en vis gruppe af populationen for eksempel spørg folk på gågaden i Odense/Århus/Kbh Husk på det, når konklusioner skal drages! Blokke: Blokke er strata af homogene enheder, hvor forskellen mellem blokke er tilfældige. Formålet med blokke er at formindske sampling error. Dette opnås ved at sammenligne behandlinger inden for hver blok. eksempel: del en vævsprøve i to, og tildel behandling A til den ene og B til den anden. eksempel: paneldata: spørg det samme panel af vælgere gentagne gange, for at få et sikrere estimat for bevægelser i vælgertilslutningen til et parti. 7.7 Forskellige typer af forsøgsplaner 7.7.1 Kontrollerede forsøg Forsøgsenhed: element udvalgt til stikprøven Respons: resultat fra forsøgsenheden Faktor: opdeling af/ påvirkning af forsøgsenhederne faktorniveau og faktoreffekt Behandling/ treatment: systematisk ændring af en faktors niveauer replikation: gentagelse af behandling på flere forsøgsenheder Randomiseret forsøgsplan: tilfældig fordeling af behandlinger på forsøgsenhederne. Kontrolleret forsøg: Alle faktorer kan styres. Eksempler: Forsøgspersoner opdeles i behandlingsgruppe og placebogruppe
7.8 Oversigt 13 Reaktionshastighed måles ved 5 forskellige temperaturer Lufttryk måles i 200 gange ved forskellige højder over havoverfladen Usikkerhed: eksperimentel fejl Variation i respons fra forsøgsenheder på samme faktorniveau. Målefejl Variation i forsøgsenhederne Konfundering: To eller flere faktorer Hvis faktoreffekterne ikke kan adskilles (umuligt at vide hvilken faktor, der giver påvirkningen) for eksempel respons: antal børnefødsler i rumænsk by; F1: antal storke nær byen; F2: årstid. 7.7.2 Observationsstudier Forsøgsenhederne påvirkes ikke i forsøget. Responsen måles direkte på den valgte enhed for eksempel trafiktæthed på forskellige motorveje længden af regnorme forskellige steder forskel på rygere og ikke-rygere - hvilken gruppe får oftest kræft? database over diabetesfælde: gør behandlingseffekt op. 7.8 Oversigt Nogle grunde til at planlægge sit forsøg Tænk før du handler! Lidt planlægning kan spare en masse (laboratorie-) tid. Information bør indsamles så effektivt og så omhyggeligt som muligt. Lav en omhyggelig plan, og følg den omhyggeligt.
7.8 Oversigt 14 Overvej alle tænkelige kilder til fejl og variation. Statistik kan ikke redde et dårligt planlagt forsøg. Dårligt indsamlede data giver dårligt funderede konklusioner. Hvis du bryder reglerne, så gør det med åbne øjne. Før du starter Nogle overvejelser, som kan hjælpe dig i gang: Begynd med en klar hypotese. Lav et pilotforsøg, og tag eksisterende data i betragtning. Vær sikker på, at din forsøgsteknik er i orden. Observationsstudium eller kontrolleret forsøg? Feltarbejde, fabrik eller laboratorieforsøg? Udfør forsøget under varierende betingelser. Overvej årsag/virkning og confounders. Overvej stikprøvestørrelse versus præcision. Husk, at videnskab handler mere om at stille de rigtige spørgsmål end at besvare dem. Checkliste Overvej forsøgets formål. Lav et resumé af gældende viden og usikkerhed. Beslut dig for en strategi. Lav et pilotforsøg. Planlæg en enkelt forsøgsenhed. Planlæg hele forsøget. Etiske overvejelser. Udfør forsøget. Opdatér viden og usikkerhed. Genovervej forsøgets formål.
7.9 Eksempler på forsøgsplanlægning 15 7.9 Eksempler på forsøgsplanlægning 7.9.1 Kantinebenyttelse Formål: Undersøg, hvor stor en forskel, der er i antallet af kantinekunder mellem forelæsnigstid (15 over til 00) og pauser (00 to 15 over). Forhåndsviden: Der er langt færre kunder i forelæsningstiden. Usikkerheder: Antallet af kunder varierer som funktion af tid på dagen, ugedag, og måned. Strategi: Gå ind og tæl altallet af kunder i forelæsningstid og pauser, og sammenlign. Pilotforsøg: Foretag en tælling på en enkelt dag. Forsøgsenhed: Tælling på en bestemt dag og tid på dagen. Planlæg forsøget: Tæl i 5 uger, som er spredt ud over et semester. Tæl hver dag igennem ugen. Tæl formiddag, middag og eftermiddag hver dag. Etiske overvejelser: Kunderne må ikke forstyrres! Data indsamles: Kræver nok teamwork. Opdatér viden og usikkerhed. Genovervej forsøgets formål. 7.9.2 Forsøgsplan: latinsk kvadrat Kvadratisk tabel med to faktorer og én behandlingsfaktor. Eksempel: 5 5 latinsk kvadrat for ugerne A, B, C, D, E. Man Tir Ons Tor Fre 8 A B C D E 10 B C D E A 12 C D E A B 14 D E A B C 16 E A B C D Hver uge forekommer én gang for hver dag og for hvert tidspunkt. Bemærk at der opnås 80% reduktion af arbejdet!
7.9 Eksempler på forsøgsplanlægning 16 7.9.3 Eksempel: Proteomics Responsvariabel Y : proteinekspression (højden af peak). Enheder: Patienter (40) Faktorer, som påvirker responsvariablen: Vævsprøver fra samme patient (2) Spektre fra samme vævsprøve (3) Køn (2) Malign (ja/nej) (2) Kontinuerte variable: alder, BMI, kolesterol,... 7.9.4 Nogle problematiske cases Case I: En studerende ønsker at måle bakterietilvæksten i en sø over sommeren. Han har målinger fra forår og efterår. Begge gange på tre forskellige dybder. Men ikke de samme tre dybder. Case II: En gruppe studerende skal undersøge hvilke typer legetøj grise helst vil lege med. (De har ingen indflydelse på forsøgsplanen.) 8 grise lukkes ind i et rum med 4-5 forskellige typer legetøj. Det noteres hvor mange, der leger med hvad. Forsøget gentages flere gange i træk med forskelligt legetøj. Nogle af de sidste forsøg skilte sig ud fra resten: de fleste grise lagde sig til at sove og legede slet ikke. Case III: En brandingeniør skal analysere 10 forsøg om brandsikkerhed i et ældrebofællelskab. Der ønskes max. grænse (99%) for hvor lang tid det tager at rømme huset. 2 plejere skal redde 8 mobilitetshæmmede beboere ud af brændende hus.
7.9 Eksempler på forsøgsplanlægning 17 Forsøget gentages to gange lige efter hinanden med de samme personer. De sidste forsøg tager længere tid end de første. Case IV: En biologistuderende sætter et videokamera op ved abegrotten i zoo. Efter 150 timer sætter han sig ned og ser videoerne igennem. Der dukker jo nok noget interessant op.