Forsøgsplanlægning og Variansanalyse Henrik Spliid ISCC, IMM Statistical Consulting Center April 2011

Størrelse: px
Starte visningen fra side:

Download "Forsøgsplanlægning og Variansanalyse Henrik Spliid ISCC, IMM Statistical Consulting Center April 2011"

Transkript

1 IMM Informatik og Matematisk Modellering Danmarks Tekniske Universitet file:foredrag2.tex Forsøgsplanlægning og Variansanalyse af Henrik Spliid ISCC, IMM Statistical Consulting Center April 2011 Henrik Spliid, Prof. of Statistics IMM, Building 321, Technical University of Denmark 2800 Lyngby Telefax : [email protected] Telephone :

2 Forord Nærværende notat giver en oversigt over nogle hyppigt anvendte begreber og metoder til planlægning af forsøgsarbejde. Det illustreres, hvorledes variansanalysen benyttes til vurdering af forsøgsresultaterne. Det vises også, hvorledes variansanalysen kan antage forskellige former svarende til forskellige forsøg i laboratoriet. c Henrik Spliid, IMM, DTU Henrik Spliid April 2011 Indhold 1 Problematik Simple komparative eksperimenter Data fil: Moderne ensidet variansanalyse med R Nogle begreber - set fra et eksempel Randomisering Faktorforsøgogblokke Blokforsøg Fuldstændigeblokke RomerskKvadratforsøg Ufuldstændigeblokke

3 4 Forsøg med mange faktorer Ruggedness test med 7 faktorer Maximalt antal faktorer i 16 observationers forsøg med resolution IV Taguchi metoder En Taguchi forsøgsplan Dimensionering 26 7 Nogle eksempler med R 27 8 Litteratur 30 1 Problematik Når man udfører forsøg, eksempelvisiet laboratorium, sker detofte, at man, når forsøgsresultaterne foreligger, må erkende, at dataene er behæftede med meget større usikkerhed, end ventet, således, at man ikke kan udtale sig særligt præcist om, hvad forsøgene viser. I andre tilfælde sker det, at man ikke rigtigt kan finde en god måde at analysere data på, fordi man ikke har en egnet model for, hvordan resultaterne og de forskellige forsøgsbetingelser naturligt knyttes sammen. Videre viser det sig ofte, at det variationsområde, man har benyttet for forsøgsbetingelserne, ikke har resulteret i særligt interessante data. Et andet problem kan bestå i, at man faktisk har udført et meget større forsøg, end det egentlig var nødvendigt,eller der er måske et tilsyneladende behov for at udføre et meget større forsøg, end der er praktisk eller økonomisk mulighed for. Statistisk forsøgsplanlægning tilstræber at overkomme sådanne problemer. På dansk benyttes ordet et forsøg om et enkeltforsøg, hvor man foretager een måling eksempelvis i en forsøgsopstilling, men det benyttes også om hele samlingen af enkeltforsøg, der udføres efter en eller anden plan. I nærværende note benyttes begge de to betydninger; forhåbentlig fremgår det af sammenhængen, hvad der menes i de enkelte tilfælde. På engelsk er der heller ikke nogen enty- 2

4 dig skelnen mellem enkeltforsøgene og hele forsøget, idet man ofte benytter ordet experiment i begge tilfælde. En forsøgsplan hedder på engelsk an experimental design. 1.1 Simple komparative eksperimenter Et medicinalfirma ønsker at sammenligne bugspytkirtlens produktion af insulin for nogle forsøgsdyr (mus). Man har benyttet 24 mus, som blev delt i tre grupper med hver 8 mus. En gruppe fik en diæt gennem 2 uger (startende med 2 uger uden diæt), en gruppe fik diæten i alle 4 uger, mens den sidste gruppe fik normal føde (ingen diæt) i 4 uger. Efter afslutningen af de 4 uger blev væv fra musenes bugspytkirtler taget ud, og det blev behandlet med en glucose opløsning, og vævsprøvernes produktion af insulin blev målt (pg/ml): 2 uger 4 uger ingen diæt diæt diæt Nogle beregninger: 14.5 (død) 8.8 Ialt Sum Gennemsnit Model Y ij = µ + τ j + ɛ ij Spørgsmål: Kan τ 2uger = τ 4uger = τ no?kaldesh 0 : Ingen behandlingseffekt. 1.2 Data fil: Insulin Treat NaN 4 3

5 No No No No No No 12.1 No 8.8 No 1.3 Moderne ensidet variansanalyse med R rm(list=ls()) # reset alt Data <- read.table("exemp1.txt",header=t) # Læs data attach(data) # Knyt data til session names(data) # Hvad står der egentlig i Data Model <- lm(insulin Treat) # Konstruer og gem "Model" summary(model) anova(model) # Variansanalyse af Model names(model) # Estimer den manglende observation Insulin[16] <- Model$coefficients[1]+ Model$coefficients[2] Model2 <- lm(insulin Treat) summary(model2) 2 Nogle begreber - set fra et eksempel Vi tænker os, at man i laboratoriet ønsker at bestemme hvorledes de to variable Temperatur (A) og Behandlingstid (B) influerer på Måleværdien (Y) fra en måling på en prøve med kendt koncentration. Temperatur og Behandlingstid er altså to variable, som vi selv kan fastsætte, og det er deres indflydelse, man ønsker at bedømme. De kaldes under eet faktorer. Måleværdien er den egenskab eller det resultat, man er interesseret i at kunne bedømme, eventuelt i forbindelse med senere målinger udført på ukendte prøver. Den kaldes ofte for forsøgets respons eller afhængige variabel. 4

6 Resultaterne fra det simplest tænkelige forsøg kunne se ud som følger: Y=målt værdi: A=120 o C A=140 o C Ialt B=30 min B=60 min Ialt En rimelig model for sådanne data kunne være en almindelig tosidet variansanalyse model: Y ijk = µ + α i + β j + αβ ij + E ijk (1) hvor i og j angiver, hvilken værdi faktorerne A og B har haft i de enkelt forsøg, medens k angiver, hvilken gentagelse, der er tale om for den givne (ij)-kombination. I modellen kaldes µ forsøgets niveau, medens α i og β j kaldes faktorernes hovedeffekter og αβ ij kaldes vekselvirkningen (synergi eller hæmning). Endelig angiver E ijk forsøgsfejlen. Variansanalyseskemaet for de viste data er: Variations Kvadrataf Friheds F test p- kilde vigelsessum grader s 2 værdi værdi A=temperatur B=behandlingstid <0.001 AB=vekselvirkning (2 1)(2 1) Rest Total Man ser, at de to hovedeffekter, svarende til faktorerne A og B er stærkt signifikante, medens vekselvirkningen ikke er signifikant. De resterende beregninger og estimation af effekterne og restvariansen udelades her. 2.1 Randomisering Man kan nu spørge om, hvilke forudsætninger mht. forsøgets udførelse, der skal være opfyldt for, at den angivne model er velegnet. Man kunne tænke sig, at den rækkefølge, som de enkelte målinger blev udført i, er som angivet i følgende tabel: 5

7 Forsøgsrækkefølge A=120 o C A=140 o C B=30 min B=60 min Deternuklart,atsåfremt ydre, for såvidt uvedkommende, men alligevel influerende forhold, ændrer sig under forsøgets udførelse, kan der opstå en systematisk forskel mellem de først udførte og de sidst udførte forsøg. Hvis der for eksempel sker det, at kalibreringen af et reguleringsapparat for den undersøgte proces langsomt ændrer sig, så værdien også ændres lidt, kunne en mere rimelig model måske være: Y ijk,t = θ φ(t)+µ+α i +β j +αβ ij + E ijk hvor φ(t) angiver en funktion af forsøgstidspunktet, og θ er en regressionskonstant. F.eks. kan φ(t) repræsentere et lille, men jævnt fald. Problemet er her, at man ikke på forhånd kan vide, om der er sådanne systematiske ændringer under forsøgene, og man vil heller ikke kunne se forskel på, om den ændring af responset, der sker fra de først udførte forsøg til de sidst udførte, skyldes tidsfølgen eller den omstændighed, at faktoren A er ændret fra 120 o C til 140 o C. For at omgå dette problem, kan forsøgene udføres i en tilfældigt valgt rækkefølge. At tilrettelægge forsøget på dennemåde kaldes at randomisere forsøget. En sådan randomiseret forsøgsplan kunne være: Randomiseret forsøgsplansplan Forsøgsrækkefølge A=120 o C A=140 o C B=30 min B=60 min Man udfører altså et forsøg (A=140 o C, B=30min) først, derefter (A=140 o C, B=60min), indtil alle 8 enkeltforsøg er gennemført. På denne måde sikrer man, at de ukontrollerbare ydre omstændigheder influerer på tilfældig måde på resultaterne. Og modellen (1) vil så være velegent til beskrivelse af sammenhængen mellem responset Y og faktorerne A og B. Hvorvidt forsøget som helhed herefter er et godt forsøg, afhænger naturligvis af, om de tilfældige forsøgsfejl er tilpas begrænsede. Hvis forsøget randomiseres, kan φ(t) i vores eksempel opfattes 6

8 som en funktion af en stokastisk variabel T ijk, der repræsenterer de tilfældigt ordnede tidspunkter, og vi kunne formulere modellen for responset som: Y ijk,t = µ + α i + β j + αβ ij +(θ φ(t ijk )+Z ijk ) (2) hvor nu Z ijk repræsenterer rene forsøgsfejl. En god model for variansen af de samlede forsøgsfejl E ijk = θ φ(t ijk )+Z ijk kunne nu være Var(E ijk )=Var(θ φ(t ijk )+Z ijk )=θ 2 Var(φ(T ijk )) + Var(Z ijk ) Hvis funktionen φ(t ijk ) varierer voldsomt under forsøget, kan variansen af de samlede forsøgsfejl blive utilladeligt store. Dette illustrerer nødvendigheden af, at ydre forhold kontrolleres og fastholdes bedst muligt under forsøgets gennemførelse. Eksempel: Analyse med kovariat = forbedret nøjagtighed Følgende data viser måleresultater fra et forsøg, hvor to forskellige metoder (Treatment 1 og Treatment 2) til fjernelse af tungmetalforurening i jord er sammenlignet. For et antal jordprøver målte man indholdet af tungmetal i prøverne inden rensningen (Raw soil), (b 1 og b 2 ) og indholdet i de behandlede prøver (Processed soil), (y 1 og y 2 ), og data er vist i følgende tabel og figur: Treatment 1 Treatment 2 Raw Soil Proc. soil Raw Soil Proc. soil b 1 y 1 b 2 y

9 14 12 o Content in processed soil o x o o x o x x x x o 2 x : Treatment 1 o : Treatment Content in raw soil = baseline Værdien b kaldes ofte baseline, dvs udgangsværdien for prøverne, og man forestiller sig, at det endelige resultat kan være afhængigt af baseline b. Til at beskrive data benytter man modellen (se figuren): Y i,j = µ + α i + β i b i,j + E i,j hvor µ er forsøgets niveau, α i er effekten af behandling i ogβ i er regressionskoefficient for afhængigheden af baseline for behandling i. E i,j er målefejlen. Man estimerer nu et antal alternative modeller og beregner rest kvadratafvigelsessummen (SSQ) og dennes frihedsgrader (df). Interessante modeller µ α 1 α 2 β 1 β 2 SSQ df s 2 1 Y i,j = µ + α i + β i b i,j + E i,j Y i,j = µ + α i + β b i,j + E i,j Y i,j = µ + β b i,j + E i,j Y i,j = µ + α i + E i,j Y i,j = µ + E i,j Model 1 er helt generel, idet både den lineære afhængighed af baseline (β 1 og β 2 ) og behandlingseffekten (α 1 og α 2 ) kan være forskellige for de to behandlinger. I model 2 antages β 1 = β 2. I model 3 er α 1 = α 2 =0. I model 4 er β 1 = β 2 =0, og i model 5 er α 1 = α 2 =0og β 1 = β 2 =0. Inden man tester, om der er forskel på de to behandlinger, vil man i reglen først undersøge, om afhængigheden af baseline er den samme for de to behandlinger (β 1 = β 2 ), og er det tilfældet, vil man undersøge om α 1 = α 2 8

10 Et variansanalyseskema for de viste data: Variations Kvadrataf Friheds F test p- kilde vigelsessum grader s 2 værdi værdi β 1 β α 1 α Rest Total Det konkluderes, at β 1 = β 2, men der er stor forskel mellem de to metoders niveauer, idet α 1 α 2, og man antager derfor model 2. Ser man bort fra kovariaten (baseline) får man variansanalysen: Variations Kvadrataf Friheds F test p- kilde vigelsessum grader s 2 værdi værdi α 1 α Rest Total Man ser, at restvariationen er meget større, og F-værdien for testet af de to treatments er meget mindre (omend stadig significant her). 2.2 Faktorforsøg og blokke Lad os nu forestille os, at 8 enkeltforsøg, som skal udføres i løbet af to dage med 4 forsøg pr dag. Vi kan forestille os, at forsøgene af tidsmæssige grunde ikke kan nås på kun een dag. Eksemplet illustrerer variation mellem dage (f.eks. som følge af, at målemetoden skal sættes op hver dag): Et typisk forløb er Målinger over to dage Y=målt værdi A=120 o C A=140 o C B=30 min B=60 min Udføres Dag I Dag II 9

11 En rimelig model for disse data kunne nu være: Y ijk = µ + D i + α i + β j + αβ ij + E ijk (3) hvor D i beskriver, at der kan være sket en niveauforskydning dagene imellem. Man ser, at man med denne forsøgsplan ikke vil kunne afgøre, om der er en reel indflydelse fra faktoren A (temperaturen) eller, om der er sket en niveauforskydning mellem dagene. Man siger, at de to effekter dage og temperatur er konfunderede (sammenblandede). Det siger sig selv, at man ikke skal anvende en sådan forsøgsplan. Et bedre alternativ til den viste forsøgsplan kunne være en plan, som angivet ved følgende resultattabeller: Forsøg dag I Y=målt værdi A=120 o C A=140 o C B=30 min B=60 min Forsøg Dag II Y=målt værdi A=120 o C A=140 o C B=30 min B=60 min En god model for disse data er: Y ijk = µ + D l + α i + β j + αβ ij + E ijk (4) hvor D l nu angiver afvigelsen fra middelniveauet µ pådagl. En forsøgsomstændighed som en dag i eksemplet kaldes en blok. Ved planlægningen af forsøget tænker man sig, at den tilfældige variation indenfor blokkene kan være væsentlig mindre end variationen mellem blokkene. Man kan altså ofte opnå en betydelig forøgelse af forsøgets nøjagtighed ved at inddele efter (og efterfølgende justere for) blokkene. Variansanalyseskemaet for de viste data med den anførte model er: 10

12 Variations Kvadrataf Friheds F test p- kilde vigelsessum grader s 2 værdi værdi D=dage=blokke A=temperatur <0.001 B=behandlingstid <0.001 AB=vekselvirkning (2 1)(2 1) Rest Total De resterende analyser og estimation af effekterne og restvariansen udelades her. For illustrationens skyld kan den viste variansanalyse sammenlignes med variansanalyseskemaet side 5. Hvis man forestillede sig, at forsøget svarende til skemaet side 5 var resultater fra et forsøg, der var randomiseret over et antal dage, antyder det ovenståendeskema, hvad man kunneopnå ved at benytte en inddeling i blokke, nemlig at restvariationen (der udtrykker forsøgsusikkerhedens varians) nedsættes væsentligt. Forsøget er forudsat randomiseret inden for blokkene, f.eks. som vist i følgende plan: Forsøg dag I Randomisering A=120 o C A=140 o C B=30 min 3 2 B=60 min 1 4 Forsøg Dag II Randomisering A=120 o C A=140 o C B=30 min 4 2 B=60 min Blokforsøg Som vi har set ovenfor er begrebet blokke fundamentalt for kontrol af den usikkerhed, som planlagte målinger kan være behæftede med. I praktisk tilrettelæggelse af forsøgsarbejde er det altså væsentligt, at man identificerer, hvilke muligheder, der er for fastholde forsøgsomstændighederne under enkeltforsøgenes udførelse. 11

13 3.1 Fuldstændige blokke Sæt, at man ønsker at bedømme en overfladebehandling i afhængighed af fire alternative behandlingsmetoder, som kunne være C1=(0.01mm,50%), C2=(0.02mm,50%), C3=(0.01mm,60%),C4=(0.02mm,60% idet der kan påføres 0.01 eller 0.02 mm belægning med tilsætning af et additiv i en mængde svarende til 50 eller 60%. Vi forestiller os, at undersøgelsen foregår ved en bestemt temperatur i en ovn med plads til 4 prøver således, at alle 4 behandlinger kan foretages i samme kørsel. En kørsel kan på denne måde opfattes som en blok, og den kaldes fuldstændig, når den kan indeholde een udførelse af alle behandlinger, dvs. de 4 vores eksempel. Kørsel nr C1 C2 C3 C4 1 X 11 X 12 X 13 X 14 2 X 21 X 22 X 23 X 24 3 X 31 X 32 X 33 X 34 4 X 41 X 42 X 43 X 44 En rimelig matematisk model for dette forsøg er (selvfølgelig) en tosidet variansanalysemodel, hvor effekten fra kørsler (blok) og behandlinger (faktor) antages additive: X ij = µ + α i + β j + E ij (5) Husk, at forsøgets primære formål er at vurdere hvorvidt, der er forskel mellem virkningen af de 4 behandlinger C1, C2, C3 og C4, medens kørsel nr svarer til en eventuel systematisk forskel mellem forsøg fra forskellige kørsler. Med forsøgsplanen elimineres kørslernes indflydelse på vurderingen af behandlingerne. Man siger, at behandlinger og kørsler er i balance. 3.2 Romersk Kvadratforsøg Sæt nu, at ovenstående forsøg udføres i en ovn med plads til netop de 4 prøveemner, svarende til behandlingerne C1, C2, C3 og C4. De 4 fire pladser svarer til 4 bestemte positioner i ovnen. Man kunne forestille sig, at der muligvis var en uundgåelig systematisk (forhåbentlig mindre) forskel på temperaturen eller varmetilførselen for de 4 pladser. I praksis vil man ikke kunne vide dette påforhånd, men man kunne tænke sig at eliminere sådanne forskelle ved hjælp af sin forsøgsplan på principielt samme måde som forskellen mellem kørsler blev elimineret ovenfor. 12

14 Dette kan gøres ved hjælp af et romersk kvadrat: Forsøgs- Placering angivet plan ved I, II, III og IV Kørsel nr C1 C2 C3 C4 1 I II IV III 2 IV III II I 3 II I III IV 4 III IV I II Det noteres, at det for hver af de 4 behandlinger (C1 C4) gælder, at de vil være placeret på hver af de 4 positioner netop 1 gang. Ligeledes vil de være med i alle 4 kørsler. På denne måde vil der være balance mellem behandlingerne og kørslerne såvel som positionerne. Den naturlige matematiske model for det viste forsøg er: X ijk = µ + α i + β j + γ k + E ijk (6) Begge de to blok-kriterier, kørsler og placering, repræsenterer fuldstændige blokke. 3.3 Ufuldstændige blokke Eksempelvis er det ofte sådan, at det ikke altid er muligt at udføre vilkårligt mange enkeltforsøg inden for en blok. Lad os forestille os et problem, hvor 4 alternative behandlinger skal vurderes i forhold til hinanden. De enkelte forsøg skal udføres på nogle prøveemner, og hvert emne kan behandles på begge sider. Det betyder, at der netop kan placeres 2 behandlinger på hvert emne. Man kan således opfatte et prøveemne som en blok, som har blokstørrelsen=2. En blok, som på denne måde ikke kan indeholde mindst eet forsøg af hver behandling, kaldes en ufuldstændig blok. Kaldes de 4 alternative behandlinger A1, A2, A4 og A3, kan et forsøg planlægges som vist i følgende tabel. Forsøget kaldes et ufuldstændigt blokforsøg: 13

15 Prøveemne nr A1 A2 A3 A4 1 X X 2 X X 3 X X 4 X X 5 X X 6 X X Den matematiske model for dette forsøg kunne være: X ij = µ + α i + β j + E ij (7) hvor α i er effekten af den i te behandling (faktoreffekt), og β j er det bidrag til måleresultatet, som hidører fra det j te prøveemne (blok effekt). Situationen kan sammenlignes med en fodboldturnering med eksempelvis 4 hold. Man ønsker at finde ud af, hvilket hold er bedst. Det kunne i teorien gøres ved at sende alle 4 hold på banen på een gang for at registrere, hvor mange mål, de enkelte hold scorede i en kamp alle mod alle. Men det ville nok blive lidt kaotisk for såvel deltagerne som dommeren og tilskuerne. Derimod sendes holdene på banen to og to. Een kamp kan derved opfattes som en blok, og hele turneringen er altså et eksempel på et ufuldstændigt blokforsøg med blokstørrelsen 2. Betingelsen for, at man i dette forsøg kan eliminere en eventuel virkning fra prøveemnerne er, at alle par af behandlinger optræder lige ofte sammen i en blok. Kaldes dette antal λ, erλ=1idet viste forsøg. Hvis prøveemnerne er mere eller mindre forskellige, kan et forsøg som det viste være væsentligt nøjagtigere end et forsøg, hvor man placerer behandlingerne tilfældigt på et antal prøveemner og ikke tager hensyn til dem i den statistiske analyse. Hvis man i det viste eksempel tænkte sig, at prøveemnerne havde en overside (o) og en underside (u), havde man måske følgende placering: Prøveemne nr A1 A2 A3 A4 1 o u 2 o u 3 u o 4 o u 5 o u 6 o u 14

16 Man kunne måske have ønsket sig, at alle behandlinger skulle placeres lige ofte på en overside og på en underside. Dette kan naturligvis ikke lade sig gøre i det viste forsøg. Men hvis man tænker sig, at der er behov for og råd til at udføre et større forsøg, kunne dette være: Forsøgsplan med et ufuldstændigt blokforsøg gentaget 2 gange Forsøg d. 19/ Forsøg d. 24/ Prøveemne nr A1 A2 A3 A4 Prøveemne nr A1 A2 A3 A4 1 o u 12 u o 2 o u 8 u o 3 u o 10 o u 4 o u 7 u o 5 u o 11 o u 6 o u 9 u o Læg mærke til, at de sidste 6 prøveemner er stillet op i en ny rækkefølge, dvs., at der er foretaget en randomisering af rækkefølgen. Det fører for vidt her at opstille den korrekte matematiske model for dette forsøg, hvori nu indgår såvel faktoren (A1 A4), prøveemner, dato og over /underside. Men det, man skal lægge mærke til, er, at der vil være den ønskede balance mellem behandlinger og de øvrige tre effekter (blokeffekterne). Følgende data er fra et svampe-dyrkningsforsøg, hvor 6 varianter af en ny stamme (A F) og den tidligere mest brugte stamme (STD) er dyrket på nogle bakker. Hver bakke har netop plads til 3 svampetyper og der er 3 dyrkningsområder (positioner) påén bakke, benævnt α, β og γ. De målte værdier angiver udbredelsesarealerne for vækstområderne for de pågældende svampe. Designet er som følger, og de fundne data ses i næste tabel. Svampetype Bakke STD A B C D E F 1 α β γ 2 β α γ 3 β γ α 4 α β γ 5 γ α β 6 α β γ 7 γ β α 15

17 Data Vækst arealer (respons) Bakke STD A B C D E F Sum Sum Q Totaler for positioner: T α = 379.1,T β = 384.1,T γ = Et balanceret ufuldstændigt blokforsøg, med yderligere en balanceret blok-variabel (positioner) (et Youden square). Når forskellige behandlinger (svampetyper) er på samme bakke, bliver sammenligningen mellem dem nøjagtig (princippet ved blokning). Model : Y ijk = µ + τ i + Bakke j + Pos k +ɛ Variationskilde SSQ d.f. s 2 F-værdi p-værdi Bakker Svampetyper Positioner Rest Total F(6,6) 0.05 =4.28. Variation mellem bakker ser stor ud! Ny model Y ijk = µ + τ i + Bakke j + ɛ τ STD = Q STD k/(λ t) = /(1 7) = 4.46, σ 2 ɛ =( )/(2+6)=0.872 Kontrast = 6 Q STD (Q Q 6 )=6 ( 10.40) (10.40) = 72.8, SSQ= /(1 7(36 + 6)) = 54.08, d.f.=1. Stærkt signifikant. SSQ mellem τ 1,..., τ 6 = =3.89 med 6 1=5 frihedsgrader. Ikke signifikant. Konklusion: Der er tydelig (signifikant) forskel mellem den hidtidige STD og de 6 nye under ét, men disse er ikke indbyrdes forskellige. 16

18 4 Forsøg med mange faktorer 4.1 Ruggedness test med 7 faktorer Et ruggedness test er et forsøg, som har til formål at vurdere, om forskellige faktorer, f.eks. i en måleprocedure, har indflydelse på det endelige måleresultat. Man prøver altså at vurdere, om en iøvrigt uvedkommende faktor påvirker måleresultatet på en uhensigtsmæssig måde. En god og robust procedure vil være kendetegnet ved, at den eller de undersøgte faktorer ikke påvirker resultatet i væsentlig grad. Følgende eksempel er konstrueret, men realistisk. En måleproces omfatter bl.a., at der skal oparbejdes nogle prøver. Ved oparbejdelsen er der i eksemplet mulighed for at variere på følgende faktorer: Faktor Lavt niveau -1: Højt niveau A: Temperatur ved ekstraktion -1: 20 o C +1: 24 o C B: Ph-justering af prøve -1: : 7.20 C: Ekstraktionsmiddel -1: Methylalkohol +1: Ethylalkohol D: Kolonne i apparat -1: Ny kolonne +1: Brugt kolonne E: Forfiltrering for urenheder -1: Ingen filtrering +1: Filtrering F: Ekstraktionstid -1: 1 time +1: 2 timer G: Bestråling af ampuller med prøve -1: nej +1: ja Påforhånd regner man (altid!) med, at blandt faktorerne er det mest tænkeligt, at A, B og C (dem, man har valgt som de første) har mest betydning, og at de måske endog kan vekselvirke lidt (synergi eller hæmning). De øvrige faktorer har (antages gerne) alene additive virkninger (kan kontrolleres i nogen grad), om overhovedet nogen. I forsøget indgik, som vist, 7 faktorer, og målingerne blev udført på to råvarebatche af produktet ( -1 og 1 ). Det vil være rimeligt at opfatte disse batche som blokke. 17

19 Fractional factorial design and block confounding Batch= A B C D E=BCD F=ACD G=ABC ABCD Response Code (1) afg beg ab ef cefg ac e bc f abc g def ad eg bd fg abd cd g acd f bcd e abcd efg Det viste forsøg kaldes et faktorforsøg i 2 blokke. Når f.eks. faktoren A har den nominelle værdi -1 svarer det til, at der i den faktiske udførelse benyttes temperaturen 20 o C. Kolonnen code angiver en standardbetegnelse for de enkelte forsøg. De bogstaver, der er med i koden, sættes på deres niveau +1, mens de ikke nævnte sættes på deres niveau 1. Ét af forsøgene i den benyttede forsøgsplan er angivet som ace. Man ser, at det svarer til: ace = [ A=24 o C, B=7.00, C=Ethylal., D= ny kol., E=filtr., F=1 time, G= ej bestr. ] Man tænker sig, at følgende begrebsmodel kan benyttes: Y = µ + A + B + AB + C + AC + BC + D + E + F + G + Batch + ɛ hvor, f.eks., faktoren A s virkning har to niveauer A 0 og A 1,(A 0 = A 1 ), afhængigt af, om temperaturen er 20 o C eller 24 o C, tilsvarende for de øvrige faktorer. Bidraget ɛ repræsenterer forsøgsusikkerheden med variansen σ 2 ɛ. Modellen udmærker sig ved, at der ud over hovedvirkningerne højst er to-faktorvekselvirkninger og kun mellem faktorerne A, B og C. Hvis man vil finde effekten af f.eks. faktoren A, beregner man forskellen mellem de måleværdier, hvor A=+1 og hvor A=-1, kaldet A-kontrasten, og betegnet med [A], dvs. [A]= = Kvadratsum = SSQ A =[A] 2 /2 7 3 = og tilsvarende for alle led i modellen. I praksis anvender man natuligvis et computerprogram til disse beregninger. 18

20 Term Contrast SSQ [ I ] [ A ] [ B ] [ AB ] [ C ] [ AC ] [ BC ] [ ABC = G ] [ D ] [ (AD) ] [ (BD) ] [ (ABD) ] [ (CD) ] [ ACD = F ] [ BCD = E ] [ ABCD = Batch ] For at analysere data skal man have et skøn for forsøgsusikkerheden, eller man kan benytte en metode, som adskiller store og små fundne effekter, eksempelvis som i følgende normalplot. De enkelte punkter i plottet svarer til de i tabellen angivne kontraster Normal probability plot Normal scores Normal probabilities Contrasts sorted Man kan ud fra plottet foreslå en model for holdbarheden ud fra de fundne data. Hvis man benytter det viste plot, kan man konkludere, at Y = µ + A + B + AB + C + F + Batch + ɛ er et godt forslag (det svarer til de afvigende punkter i plottet). 19

21 Man kan også benytte kvadratafvigelsessummer, som svarer til led, man anser for sikkert uinteressante, og beregne en restvariation og foretage en formel testning. I det konkrete tilfælde kunne man benytte de led, der svarer til AD, BD, ABD og CD, med samlet kvadratafvigelsessum =8.025 med =4 frihedsgrader. Dette resulterer i følgende variansanalyseskema: Variations Kvadrataf Friheds F test kilde vigelsessum grader s 2 værdi ABCD=Batch A=temperatur B=pH juster AB=vekselv C=Ekstrakt.middel AC=vekselv BC=vekselv D=Kolonne E=Filtrering F=Ekstrakt.tid G=Bestråling Rest Total Kritisk værdi for F(1,4) (α =0.05) er Man ser, at den allerede foreslåede models led er signifikante, mens de øvrige er ikke. Svarende til den valgte model kan man reducere variansanalysen ved at inddrage flere led i restvariationen. Man finder nu: Variations Kvadrataf Friheds F test kilde vigelsessum grader s 2 værdi ABCD=Batch A=temperatur B=pH juster AB=vekselv C=Ekstrakt.middel F=Ekstrakt.tid Rest Total Kritisk værdi for F(1,9) (α =0.05) er Forsøgsusikkerheden, hvis man kan kontrollere de fundne betydende variable, beregnes til s 2 =1.83 = , dvs at spredningen er Eksemplet illustrerer de potentielle muligheder, der er for at behandle mange faktorer i reducerede forsøg og for at lægge enkeltforsøgene ud i mindre (og derved mere nøjagtige) blokke, idet små blokke, alt andet lige, er mere homogene og dermed mere nøjagtige end store blokke. 20

22 4.2 Maximalt antal faktorer i 16 observationers forsøg med resolution IV Designet, som er vist side 18, omhandler 7 faktorer, og det udmærker sig ved, at alle hovedvirkninger kan estimeres, hvis tre-faktor vekselvirkningerne er nul eller meget små. Man kalder det et resolution IV forsøg. Det maximale antal faktorer i et resolution IV forsøg med 16 målinger er 8 faktorer, og det kunne se ud som følger: Fractional factorial design and block confounding Block= A B C D E=BCD F=ACD G=ABC H=ABD ABCD Response Code (1) afgh begh ab ef cefg ac eh bc fh abc g defh ad eg bd fg abdh cd gh acd f bcd e abcd efgh Det forudsættes (altid), at virkningen fra blokke er rent additiv. Term Contrast SSQ [ I ] [ A ] [ B ] [ AB ] [ C ] [ AC ] [ BC ] [ ABC = G ] [ D ] [ (AD) ] [ (BD) ] [ ABD =H ] [ (CD) ] [ ACD = F ] [ BCD = E ] [ ABCD = Batch ] For illustrationens skyld er benyttet de samme data, som før. Hvis man prøver at genberegne alle de andre kontraster som før, bliver disse (selvfølgelig) præcis de samme. H-kontrasten bliver [ABD=H] = 1.75 med kvadratafvigelsessummen /16 = 0.191, 21

23 som den før blev for [ABD]. Med data som i dette sidste eksempel ville man faktisk nå til, at faktoren H antagelig ikke betyder meget, og den endelige model ville faktisk blive som ovenfor. Det vil sige: Y = µ + A + B + AB + C + F + Batch + ɛ 5 Taguchi metoder Klassisk forsøgsplanlægning retter sig især mod styringsfaktorers betydning for eksempelvis udbyttet af en produktionsproces eller en procedure for en bestemt måling, det vil generelt sige mod middelværdien af den betragtede proces. Omkring 1980 introducerede Genichi Taguchi en række ideer, hvor han benyttede forholdsvis traditionelle forsøgplaner til at forbedre kvaliteten, karakteriseret ved ensartetheden, af produktionsprocesser, målemetoder og produkter. Formålet var 1. Design af processer, så de er robuste overfor ydre (ikke kontrollerbare) betingelser (ruggedness). 2. Design og udvikling af produkter, så de er robuste overfor komponentvariation (f.eks. nye kolonner i målemetoder). 3. Nedsættelse af den tilfældige variation i forhold til den ønskede værdi (nøjagtighed eller kvalitetsegenskab). Ved robust menes, at faktorer, som er vanskelige at kontrollere, har lille indflydelse pådetmåleresultat eller den proces eller det produkt, man har for sig. De tre aktiviteter kaldes under ét parameter design. Mange af Taguchi s idéer er grundlæggende gode, men en række af de nye statistiske metoder og de forsøgsplaner, han anbefaler er unødigt komplicerede, kræver mange data, eller er ineffektive. En central tanke er ønsket om reduktion af variabilitet i forhold til en target værdi. I forhold til de tre ovennævnte formål indfører Taguchi statistisk forsøgsplanlægning til punkt 2., hvor han generelt som respons benytter en tabsfunktion: L = k(y T ) 2,hvoryer produktegenskaben, T er target, og k er en faktor. Taguchi s metoder repræsenterer altså ikke nye forsøgsplaner eller mere effektive forsøgsplaner (mange mener tværtimod), men derimod en mere systematisk tænkemåde, der retter sig mod kvalitetsforbedring og forbedret produkt- og procesdesign. 22

24 5.1 En Taguchi forsøgsplan De betragtede faktorer opdeles i kontrollerbare og ikke kontrollerbare faktorer. Følgende liste kunne repræsentere et sådant problem for et produkt. For mange målemetoder kan man selvfølgelig opstille lignende lister. Faktorer og faktorniveauer for Taguchi forsøg Kontrollerbare faktorer niveauer A. Tykkelse af beskyttelsesfilm Lav Mellem Høj B. Tykkelse af samleplade Tynd Mellem Tyk C. Prægningsdybde Lille Mellem Stor D. Koncentration af adhæsiv i lim 5% 10% 15% Ukontrollerbare faktorer E. Hærdetid på lager 24 timer 48 timer F. Hærdetemperatur 18 grader 24 grader G. Fugtighed under hærdning 40% 80% De 4 faktorer A D lægges i et 3 3 græsk-romersk kvadratforsøg, dvs en forsøgsplan med 9 observationer, som er konstrueret ud fra to romerske kvadrater, der lagt oven i hinanden. Denne plan er dybest set et (1/9) 3 4 faktorforsøg. De3faktorerE,FogGkanlæggesiet2 2 2faktorforsøg, som er et fuldstændigt 2 3 faktorforsøg. Dette sidste forsøg udføres for hver af de 9 kombinationer i det romerske kvadrat, hvilket i alt giver anledning til 9 8=72enkeltforsøg. Designet kunne se ud som nedenstående. De 3 niveauer for faktorerne A - D benævnes 0, 1 og 2. Tilsvarende er niveauerne for faktorerne E, F og G benævnt 0 og 1. Det romerske kvadratforsøg med de kontrollerbare faktorer kaldes det indre array og 2 3 faktorforsøget kaldes det ydre array. 23

25 Taguchi design med et indre og et ydre array Ydre array E F Indre array G Run A B C D x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x Meningen med det ydre array er at fremprovokere variation. Den kombination af faktorer i det indre array, som giver anledning til mindst variation, er at foretrække. Til det formål foreslår Taguchi en responsfunktion, som eksempelvis er ( ) ȳ SN =10 log S 2 hvor ȳ angiver gennemsnittet af den målte egenskab i forsøgene, og S 2 angiver forsøgenes spredning. Forsøget vil, som sagt, omfatte i alt 9 8=72forsøg. Problemet med dette design er især, at det er helt uoverskueligt, hvorledes de kontrollerbare og de ikke kontrollerbare faktorer eventuelt vekselvirker. Dvs. at man risikerer at overse betydningsfulde muligheder for at finde det bedste produktdesign. Følgende er et eksempel på, hvordan resulaterne fra et Taguchi forsøg kunne falde ud. 24

26 Ydre array E F Indre array G Vurdering Run A B C D Eksperimentelle resultater Mean Std SN Estimation med et statistikprogram giver følgende resultater: SN = Kon + A + B + C + D hvor Kon = 26.93, A=[0, 2.81, 1.21], B=[0, 4.75, 4.73], C=[0, -4.58, -7.43], D=[0, -8.09, ] Optimal SN = 29.91; Den bedste setting er : (1,2,0,0)= (Mellem film, Tyk samleplade, Lav imp. dybde, Lav lim konc.) I det konkrete eksempel kunne et forsøg, hvor alle 7 faktorer indgår i en bruden 2 7 forsøgsplan, være et enklere og måske bedre alternativ. Et (1/4) 2 7 faktorforsøg omfatter 32 målinger, og man kan heri opnå, at alle hovedeffekter kan vurderes uden indflydelse af to-faktor-vekselvirkninger, og at to-faktor-vekselvirkninger mellem kontrollerbare og ikke-kontrollerbare faktorer kan undersøges. Dette design vil være klart at foretrække for Taguchi s forslag. Et andet problem er Taguchi s statistiske analysemetoder, som i visse tilfælde giver mystiske resultater. For eksempel ses ovenstående responsfunktion at medføre en uheldig sammenblanding af target værdien (målt ved ȳ) og variabiliteten (målt ved S 2 ). Det vil være tilfældet, hvis de ukontrollérbare faktorer indfluerer både på processens middelværdi og spredning, hvilket bestemt ikke er ualmindeligt. Afslutningsvis kan Taguchi s metoder kritiseres for en række statistiske og tekniske problemer, men selve ideen om robust parameterdesign er god. 25

27 6 Dimensionering Inden man gennemfører et større forsøg, bør man indledningsvis vurdere, hvor stor tilfældig variation, man kan forvente under de givne forsøgsbetingelser. En sådan vurdering kan bl.a. beståi,at man udfører nogle pilotforsøg og bestemmer et estimat for usikkerhedsvariansen. Hvis man, i det simpleste tilfælde, forstiller sig, at analysen af data vil bestå i en ensidet variansanalyse, har modellen følgende udseende: Y ij = µ + α i + E ij hvor α i er de effekter, man ønsker at bedømme, og E ij er de tilfældige afvigelser, som antages at have variansen σ 2.Erderkbehandlinger og n målinger pr behandling, fås følgende variansanalyseskema: Variations Kvadrataf Friheds F test kilde vigelsessum grader s 2 værdi Faktor A SSQ A k 1 s 2 A F A=s 2 A /s2 E Rest SSQ E k(n 1) s 2 E Total SSQ 0 kn 1 Man kan nu vise, at fordelingen af teststørrelsen F A =s 2 A/s 2 E er en ikke central F fordeling med ikke centralitetsparameter: γ 2 = n k i=1 α 2 i σ 2 Hypotesen H 0 : α 1 = α 2 =... = α k = 0 svarer åbenbart til γ 2 = 0. Det kritiske område for F testet er derfor F A >C F =F(k 1,k(n 1)) 1 α ved test på niveau α. Størrelsen C F = F(k 1,k(n 1)) 1 α angiver (1 α) fraktilen i den sædvanlige (centrale) F fordeling. Kaldes en stokastisk variabel, der følger en ikke central F fordeling med frihedsgraderne f 1 og f 2 for F(γ 2 ; f 1,f 2 ), gælder, at sandsynligheden for, at variansanalysens F test viser signifikans ved et test på niveau α, kan skrives som β(γ 2 )=P{F(γ 2 ;k 1,k(n 1)) >C F } Funktionen β(γ 2 ) er testets styrkefunktion, og den er åbenbart en funktion af effekternes kvadratsum k i=1 α 2 i og usikkerhedsvariansen σ2. 26

28 Ved hjælp af den ikke centrale F fordeling er man på denne måde i stand til at vurdere, hvorvidt et påtænkt forsøg med en given forsøgsvarians σ 2 vil have en rimelig sandsynlighed for at lede til signifikans for forskellige værdier af effekterne α i.på denne måde kan man foretage en egentlig dimensionering af sit forsøg, inden man gennemfører det. 7 Nogle eksempler med R Y, A, B 97.0, 120, , 120, , 120, , 120, , 140, , 140, , 140, , 140, 60 rm(list=ls()) Data <- read.table("factor.txt",header=t,sep=",") attach(data) Model<- lm(y as.factor(a)+as.factor(b)+as.factor(a):as.factor(b)) anova(model) Y, A, B, Dag 97.0, 120, 30, , 120, 60, , 140, 30, , 140, 60, , 120, 30, , 120, 60, , 140, 30, , 140, 60, 2 rm(list=ls()) Data <- read.table("factor2.txt",header=t,sep=",") attach(data) Model2 <- lm(y as.factor(a)+as.factor(b)+as.factor(a):as.factor(b) + as.factor(dag)) 27

29 anova(model2) Base, Y, Treat 28.3, 5.2, , 7.9, , 5.7, , 8.0, , 6.0, , 5.1, , 8.3, , 10.2, , 9.6, , 6.6, , 7.7, , 11.6, 2 rm(list=ls()) Data <- read.table("kovar.txt",header=t,sep=",") attach(data) ModelKov1 <- lm(y as.factor(treat)+base:as.factor(treat)) ModelKov2 <- lm(y as.factor(treat)+base) anova(modelkov1) anova(modelkov2,modelkov1) anova(modelkov2) anova(lm(y as.factor(treat))) Fun, type, Bakke, Posit 51.3, S, 1, a 57.1, A, 1, b 56.3, B, 1, c 53.9, B, 2, b 56.2, C, 2, a 54.9, D, 2, c 49.1, S, 3, b 54.2, C, 3, c 54.3, E, 3, a 55.8, B, 4, a 56.6, E, 4, b 28

30 55.7, F, 4, c 49.3, S, 5, c 53.5, D, 5, a 55.2, F, 5, b 52.9, A, 6, a 54.7, D, 6, b 54.3, E, 6, c 57.0, A, 7, c 57.5, C, 7, b 55.1, F, 7, a rm(list=ls()) Data <- read.table("fungi.txt",header=t,sep=",") attach(data) Bakke<-as.factor(Bakke) Model <- lm(fun Bakke+type+Posit) anova(model) A, B, C, D, E, F, G, Bat, Y, code -1, -1, -1, -1, -1, -1, -1, 1, 17.48, (1) 1, -1, -1, -1, -1, 1, 1, -1, 18.19, afg -1, 1, -1, -1, 1, -1, 1, -1, 13.96, beg 1, 1, -1, -1, 1, 1, -1, 1, 16.37, abef -1, -1, 1, -1, 1, 1, 1, -1, 13.24, cefg 1, -1, 1, -1, 1, -1, -1, 1, 32.20, ace -1, 1, 1, -1, -1, 1, -1, 1, 16.81, bcf 1, 1, 1, -1, -1, -1, 1, -1, 18.52, abcg -1, -1, -1, 1, 1, 1, -1, -1, 8.23, def 1, -1, -1, 1, 1, -1, 1, 1, 27.96, adeg -1, 1, -1, 1, -1, 1, 1, 1, 15.43, bdfg 1, 1, -1, 1, -1, -1, -1, -1, 16.44, abd -1, -1, 1, 1, -1, -1, 1, 1, 21.07, cdg 1, -1, 1, 1, -1, 1, -1, -1, 18.98, acdf -1, 1, 1, 1, 1, -1, -1, -1, 14.78, bcde 1, 1, 1, 1, 1, 1, 1, 1, 17.61, abcdefg rm(list=ls()) data <- read.table("ruggedness.txt",header=t,sep=",") attach(data) Mod1 <- lm(y A+B+A:B+C+A:C+B:C+D+E+F+G+Bat) Mod2 <- lm(y A+B+A:B+C+F+Bat) anova(mod2) 29

31 Run, A, B, C, D, Mean, STD, SN 1, 0, 0, 0, 0, 33.72, 1.51, , 0, 1, 1, 2, 35.55, 3.15, , 0, 2, 2, 1, 37.97, 2.75, , 1, 0, 1, 1, 31.24, 2.38, , 1, 1, 2, 0, 40.32, 1.64, , 1, 2, 0, 2, 41.54, 2.36, , 2, 0, 2, 2, 44.01, 4.82, , 2, 1, 0, 1, 43.35, 1.91, , 2, 2, 1, 0, 45.31, 1.64, rm(list=ls()) Data <- read.table("taguchi.txt",header=t,sep=",") attach(data) Estim <- lm(sn as.factor(a)+as.factor(b)+as.factor(c)+as.factor(d)) Estim 8 Litteratur Bennett, C.A. & N.L. Franklin (1954): Statistical Analysis in Chemistry and the Chemical Industri, Wiley. Box, G.E.P., W.G. Hunter & J.S. Hunter (1978): Statistics for Experimenters, Wiley. Cochran, W.G. & G. Cox (1957): Experimentel Designs, Wiley. Davies, O.L. (1956): Design and Analysis of Industrial Experiments, Hafner. Fisher, R.A. (1966): The Design of Experiments, Hafner. Hicks, C.R. (1993): Fundamental Concepts in the Design of Experiments, 4. udg., Oxford University Press. Montgomery, D.G (2005): Design and Analysis of Experiments, Wiley, 7. udgave..ooo. 30

Forsøgsplanlægning og Variansanalyse

Forsøgsplanlægning og Variansanalyse Om Forsøgsplanlægning og Variansanalyse Henrik Spliid IMM Informatik og Matematisk Modellering Danmarks Tekniske Universitet Maj 2009 1 1 Problematik Måledata behæftede med meget større usikkerhed, end

Læs mere

Intro Design of Experiments

Intro Design of Experiments Intro Design of Experiments OH no: 1 Faktorer, niveauer, behandlinger og gentagelser Styrbare faktorer Faktorer Styrbare (controllable) faktorer Støjfaktorer (nuisance factors) Kvalitative Kvantitative

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

eksaminand nr Opgavesættet består af 3 sædvanlige (essay) opgaver samt et antal opgaver af multiple choice typen.

eksaminand nr Opgavesættet består af 3 sædvanlige (essay) opgaver samt et antal opgaver af multiple choice typen. Københavns Universitet Det Farmaceutiske Fakultet Side 1 af 18 sider Skriftlig prøve: Den 12. januar 2009 Kursus navn og nr: Statistisk Forsøgsplanlægning, A-343 Tilladte hjælpemidler: Alle sædvanlige

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220

Læs mere

To-sidet variansanalyse

To-sidet variansanalyse Program 1. To-sidet variansanalyse 2. Hierarkisk princip 3. Tre (og flere) sidet variansanalyse 4. Variansanalyse med blocking 5. Flersidet variansanalyse med tilfældige faktorer 6. En oversigtsslide til

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Mathematical Statistics ST06: Linear Models Bent Jørgensen og Pia Larsen Module 2: Mere om variansanalyse 2. Parreded observationer................................ 2.2 Faktor med 2 niveauer (0- variabel)........................

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

To-sidet varians analyse

To-sidet varians analyse To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),

Læs mere

Forelæsning 11: Envejs variansanalyse, ANOVA

Forelæsning 11: Envejs variansanalyse, ANOVA Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper Program Forsøgsplanlægning og tosidet variansanalyse Helle Sørensen E-mail: [email protected] I formiddag: Forsøgstyper og forsøgsplanlægning Analyse af data fra fuldstændigt randomiseret blokforsøg: tosidet

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau ypotese test Repetition fra sidst ypoteser Test af middelværdi Test af andel Test af varians Type 1 og type fejl Signifikansniveau Konfidens intervaller Et konfidens interval er et interval, der estimerer

Læs mere

Anvendelse af ufuldstændige blokforsøg

Anvendelse af ufuldstændige blokforsøg Anvendelse af ufuldstændige blokforsøg Kristian Kristensen 1, Jakob Willas 2, Lise Nistrup Jørgensen 3 og Rene Gislum 4 1 Forskergruppe for Biometri, Afd. for Husdyravl og Genetik, DJF 2 Afd. for Sortsafprøvning,

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning [email protected] 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: [email protected] Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen Kursus 02402/02323 Introducerende Statistik Forelæsning 10: Envejs variansanalyse, ANOVA Oversigt 1 Intro: Regneeksempel og TV-data fra B&O 2 Model og hypotese Per Bruun Brockhoff DTU Compute, Statistik

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al

Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al Program Tosidet variansanalyse og forsøgsplanlægning Helle Sørensen E-mail: [email protected] I formiddag: Ensidet ANOVA: repetition og Collinge eksempel. Additiv tosidet ANOVA (blokforsøg) Tosidet ANOVA

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

02402 Løsning til testquiz02402f (Test VI)

02402 Løsning til testquiz02402f (Test VI) 02402 Løsning til testquiz02402f (Test VI) Spørgsmål 4. En ejendomsmægler ønsker at undersøge om hans kunder får mindre end hvad de har forlangt, når de sælger deres bolig. Han har regisreret følgende:

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl? Module 6: Exercises 6.1 To laboranter....................... 2 6.2 Nicotamid i piller..................... 3 6.3 Karakterer......................... 5 6.4 Blodtryk hos kvinder................... 6 6.5

Læs mere

Naturstyrelsens Referencelaboratorium for Kemiske og Mikrobiologiske Miljømålinger NOTAT

Naturstyrelsens Referencelaboratorium for Kemiske og Mikrobiologiske Miljømålinger NOTAT Naturstyrelsens Referencelaboratorium for Kemiske og Mikrobiologiske Miljømålinger NOTAT Til: Følgegruppen for Naturstyrelsens Referencelaboratorium cc: Fra: Anders Svaneborg Dato: 6. oktober 2014 QA:

Læs mere

Modul 5: Test for én stikprøve

Modul 5: Test for én stikprøve Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 5: Test for én stikprøve 5.1 Test for middelværdi................................. 1 5.1.1 t-fordelingen.................................

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Stabilitet af rammer - Deformationsmetoden

Stabilitet af rammer - Deformationsmetoden Stabilitet af rammer - Deformationsmetoden Lars Damkilde Institut for Bærende Konstruktioner og Materialer Danmarks Tekniske Universitet DK-2800 Lyngby September 1998 Resumé Rapporten omhandler beregning

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........

Læs mere

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9.

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9. Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9. klassetrin: statistisk sandsynlighed, kombinatorisk sandsynlighed og personlig

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Opgaver hørende til undervisningsmateriale om Herons formel

Opgaver hørende til undervisningsmateriale om Herons formel Opgaver hørende til undervisningsmateriale om Herons formel 20. juni 2016 I Herons formel (Danielsen og Sørensen, 2016) er stillet en række opgaver, som her gengives. Referencer Danielsen, Kristian og

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Paradokser og Opgaver

Paradokser og Opgaver Paradokser og Opgaver Mogens Esrom Larsen (MEL) Vi modtager meget gerne læserbesvarelser af opgaverne, samt forslag til nye opgaver enten per mail ([email protected]) eller per almindelig post (se adresse på

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff Course 242/2323 Introducerende Statistik Forelæsning 3: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 22 Danmarks Tekniske Universitet 28 Lyngby Danmark

Læs mere

Fig. 1 Billede af de 60 terninger på mit skrivebord

Fig. 1 Billede af de 60 terninger på mit skrivebord Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt

Læs mere

Lodret belastet muret væg efter EC6

Lodret belastet muret væg efter EC6 Notat Lodret belastet muret væg efter EC6 EC6 er den europæiske murværksnorm også benævnt DS/EN 1996-1-1:006 Programmodulet "Lodret belastet muret væg efter EC6" kan beregne en bærende væg som enten kan

Læs mere

En intro til radiologisk statistik

En intro til radiologisk statistik En intro til radiologisk statistik Erik Morre Pedersen Hypoteser og testning Statistisk signifikans 2 x 2 tabellen og lidt om ROC Inter- og intraobserver statistik Styrkeberegning Konklusion Litteratur

Læs mere

ISCC. IMM Statistical Consulting Center. Brugervejledning til beregningsmodul til robust estimation af nugget effect. Technical University of Denmark

ISCC. IMM Statistical Consulting Center. Brugervejledning til beregningsmodul til robust estimation af nugget effect. Technical University of Denmark IMM Statistical Consulting Center Technical University of Denmark ISCC Brugervejledning til beregningsmodul til robust estimation af nugget effect Endelig udgave til Eurofins af Christian Dehlendorff 15.

Læs mere

Kapitel 3 Centraltendens og spredning

Kapitel 3 Centraltendens og spredning Kapitel 3 Centraltendens og spredning Peter Tibert Stoltze [email protected] Elementær statistik F2011 1 / 25 Indledning I kapitel 2 omsatte vi de rå data til en tabel, der bedre viste materialets fordeling

Læs mere

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/?? Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Eksempel på logistisk vækst med TI-Nspire CAS

Eksempel på logistisk vækst med TI-Nspire CAS Eksempel på logistisk vækst med TI-Nspire CAS Tabellen herunder viser udviklingen af USA's befolkning fra 1850-1910 hvor befolkningstallet er angivet i millioner: Vi har tidligere redegjort for at antallet

Læs mere

Opgavesættet består af 3 sædvanlige (essay) opgaver samt et antal opgaver af multiple choice typen.

Opgavesættet består af 3 sædvanlige (essay) opgaver samt et antal opgaver af multiple choice typen. Danmarks Farmaceutiske Højskole Side 1 af 19 sider Skriftlig prøve den: 6. januar 2003 Kursus navn og nr: Forsøgsplanlægning F343 Tilladte hjælpemidler: Alle sædvanlige Dette sæt er besvaret af eksaminant

Læs mere

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test. Program 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test. 1/19 Konfidensinterval for µ (σ kendt) Estimat ˆµ = X bedste bud

Læs mere

Evaluering af Soltimer

Evaluering af Soltimer DANMARKS METEOROLOGISKE INSTITUT TEKNISK RAPPORT 01-16 Evaluering af Soltimer Maja Kjørup Nielsen Juni 2001 København 2001 ISSN 0906-897X (Online 1399-1388) Indholdsfortegnelse Indledning... 1 Beregning

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Ensidet variansanalyse

Ensidet variansanalyse Ensidet variansanalyse Sammenligning af grupper Helle Sørensen E-mail: [email protected] StatBK (Uge 47, mandag) Ensidet ANOVA 1 / 18 Program I dag: Sammenligning af middelværdier Sammenligning af spredninger

Læs mere

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie Program Ensidet variansanalyse Sammenligning af grupper Helle Sørensen E-mail: [email protected] I dag: Sammenligning af middelværdier Sammenligning af spredninger Parvise sammenligninger To eksempler:

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

Algebra INTRO. I kapitlet arbejdes med følgende centrale matematiske begreber:

Algebra INTRO. I kapitlet arbejdes med følgende centrale matematiske begreber: INTRO Kapitlet sætter fokus på algebra, som er den del af matematikkens sprog, hvor vi anvender variable. Algebra indgår i flere af bogens kapitler, men hensigten med dette kapitel er, at eleverne udvikler

Læs mere

Maple 11 - Chi-i-anden test

Maple 11 - Chi-i-anden test Maple 11 - Chi-i-anden test Erik Vestergaard 2014 Indledning I dette dokument skal vi se hvordan Maple kan bruges til at løse opgaver indenfor χ 2 tests: χ 2 - Goodness of fit test samt χ 2 -uafhængighedstest.

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab

Læs mere

Eksperimentelle øvelser, øvelse nummer 3 : Røntgenstråling målt med Ge-detektor

Eksperimentelle øvelser, øvelse nummer 3 : Røntgenstråling målt med Ge-detektor Modtaget dato: (forbeholdt instruktor) Godkendt: Dato: Underskrift: Eksperimentelle øvelser, øvelse nummer 3 : Røntgenstråling målt med Ge-detektor Kristian Jerslev, Kristian Mads Egeris Nielsen, Mathias

Læs mere

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt. Sammenhængsanalyser Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt. rygevaner som 45 årig * helbred som 51 årig Crosstabulation rygevaner

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Konfidensinterval for µ (σ kendt)

Konfidensinterval for µ (σ kendt) Program 1. Repetition: konfidens-intervaller. 2. Hypotese test 3. Type I og type II fejl, p-værdi 4. En og to-sidede tests 5. Test for middelværdi (kendt varians) 6. Test for middelværdi (ukendt varians)

Læs mere

Et oplæg til dokumentation og evaluering

Et oplæg til dokumentation og evaluering Et oplæg til dokumentation og evaluering Grundlæggende teori Side 1 af 11 Teoretisk grundlag for metode og dokumentation: )...3 Indsamling af data:...4 Forskellige måder at angribe undersøgelsen på:...6

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Program. Flersidet variansanalyse og hierarkiske modeller. Eksempel: iltoptag for krabber. Eksempel: iltoptag for krabber.

Program. Flersidet variansanalyse og hierarkiske modeller. Eksempel: iltoptag for krabber. Eksempel: iltoptag for krabber. Program Flersidet variansanalyse og hierarkiske modeller Helle Sørensen E-mail: [email protected] StatBK (Uge 50, mandag) Flersidet ANOVA 1 / 19 StatBK (Uge 50, mandag) Flersidet ANOVA 2 / 19 Eksempel:

Læs mere

Allan C. Malmberg. Terningkast

Allan C. Malmberg. Terningkast Allan C. Malmberg Terningkast INFA 2008 Programmet Terning Terning er et INFA-program tilrettelagt med henblik på elever i 8. - 10. klasse som har særlig interesse i at arbejde med situationer af chancemæssig

Læs mere

Valgkampens og valgets matematik

Valgkampens og valgets matematik Ungdommens Naturvidenskabelige Forening: Valgkampens og valgets matematik Rune Stubager, ph.d., lektor, Institut for Statskundskab, Aarhus Universitet Disposition Meningsmålinger Hvorfor kan vi stole på

Læs mere

Note om Monte Carlo eksperimenter

Note om Monte Carlo eksperimenter Note om Monte Carlo eksperimenter Mette Ejrnæs og Hans Christian Kongsted Økonomisk Institut, Københavns Universitet 9. september 003 Denne note er skrevet til kurset Økonometri på. årsprøve af polit-studiet.

Læs mere