MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK I Sammenligning af to eller flere kvalitative variable (TI 89 og Statgraphics)

Størrelse: px
Starte visningen fra side:

Download "MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK I Sammenligning af to eller flere kvalitative variable (TI 89 og Statgraphics)"

Transkript

1 MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK I Sammenligning af to eller flere kvalitative variable (TI 89 og Statgraphics) DANMARKS TEKNISKE UNIVERSITET 6. udgave 005

2 FORORD Dette notat kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen : Statistiske grundbegreber. Notatet er bygget op således, at de væsentligste begreber søges forklaret anskueligt og ved hjælp af et stort antal eksempler. Det forudsættes, at man har en lommeregner med de statistiske fordelinger indlagt. Der vil derfor i ringe omfang blive benyttet statistiske tabeller. I Statistiske grundbegreber er der i appendix A en brugsanvisning på hvorledes dette kan gøres med bl.a lommeregnerne Ti-83 og HP48G. Sidst i dette notat (side 85) findes en tilsvarende brugsanvisning for TI-89. Sidst i hvert kapitel findes en oversigt over de vigtigste formler samt nogle opgaver. En facitliste til opgaverne findes bagerst i notatet. Fordelen ved direkte at bruge formlerne til løsning af eksemplerne er, at man derved opnår en større forståelse. De mere avancerede programmer bliver let en sort kasse, hvor der på mystisk vis dukker et facit op, som man ikke rigtig har noget forhold til. Imidlertid er det naturligvis også vigtigt, at man kender de muligheder mere avancerede regnemidler tilbyder. Lommeregneren TI-89 er en god statistiklommeregner, så i slutningen af hvert kapitel bliver de samme eksempler som i hovedteksten regnet ved benyttelse af dens indbyggede programmer. Ved behandling af store datamængder og ved mere regneteknisk komplicerede analyser er en lommeregner som TI - 89 ikke nok. Her et det nødvendigt at benytte en PC med et passende statistisk software. I dette notat er anvendt statistikprogrammet Statgraphics, således, at alle eksemplerne efter hvert kapitel også er regnet med dette program. Der findes mange andre udmærkede statistikprogrammer. I et ganske tilsvarende notat (som kan findes på nedenstående adresse) er Statgraphics eksemplerne således udskiftet med SAS-JUMP. Udskrifterne fra sådanne statistikprogrammer afviger ikke væsentligt fra hinanden, så skulle man i undervisningen benytter et tredie statistikprogram, kan de studerende uden vanskelighed på basis af disse udskrifter tolke egne udskrifter. Data foreligger ofte som en fil i et regneark som eksempelvis Excel. Disse regneark har indbygget en del statistik bl.a. de almindeligste testfunktioner. I notatet Videregående statistik regnet med Excel er en række af disse statistiske muligheder gennemgået. Andre notater i samme serie er noterne Videregående Statistik II: Regressionsanalyse Videregående Statistik III: Ikke parametriske metoder. Statistisk kvalitetskontrol Noterne (som både findes i en Statgraphics og en SAS-JUMP version) et søgt udarbejdet, så de kan læses uafhængigt af hinanden. Alle de nævnte noter kan i pdf-format findes på adressen August 006 Mogens Oddershede Larsen.

3 Indhold INDHOLD 0 HYPOTESETESTNING (TO STATISTISKE VARIABLE) 0. Indledning Planlægning af forsøg Test og konfidensintervaller - normalfordelte variable De eksakte spredninger er ukendte, men antages at være ens De eksakte spredninger er ukendte, men antages at være forskellige De eksakte spredninger er kendte Store stikrøvestørrelser (over 30) Test og konfidensintervaller - binomialfordelte variable Test og konfidensintervaller - Poissonfordelte variable... Oversigter. 0. Test af middelværdier µ og µ og konfidensinterval for differens for σ σ normalfordelte variable ( ) Test af middelværdier µ og µ og konfidensinterval for differens for σ σ normalfordelte variable ( ) Test af middelværdier µ og µ og konfidensinterval for differens for normalfordelte variable (spredninger kendte eller stor stikprøvestørrelse) Test af varianser σ og σ og konfidensinterval for σ / σ for variable Oversigt over test af parametre p og p for binomialfordelte variable Oversigt over test af parametre µ og µ for Poissonfordelte variable Mapleprogram til dimensionering: og normalfordelte variable... 8 Appendix: Statistikprogrammer 0A Eksempler regnet med TI B Eksempler regnet med Statgraphics... Opgaver... 6 VARIANSANALYSE. Indledning Ensidet variansanalyse Forklaring af metoder og formler Beregning af ensidet variansanalyse Tosidet variansanalyse Indledning... 36

4 Indhold.3. Planlægning af forsøg Én faktor ad gangen Fuldstændig faktorstruktur Formler og metode Beregning af tosidet variansanalyse Model med vekselvirkning Additiv model, model uden vekselvirkning Fuldstændigt randomiseret blokforsøg Oversigter. Formler til beregning af ensidet variansanalyse Formler til beregning af tosidet variansanalyse Appendix: Statistikprogrammer. A Eksempler regnet med TI B Eksempler regnet med Statgraphics Opgaver FLERE END TO BINOMIAL- OG POISSONFORDELTE VARIABLE. Indledning Én faktor på mere end niveauer Binomialfordelt variabel Poissonfordelt variabel To faktorer i et fuldstændigt faktorforsøg Oversigter.. Oversigt over test af parametre p, p,..., p k for binomialfordelte variable Oversigt over test af parametre µ, µ,..., µ k for Poissonfordelte variable Oversigt over transformation af binomial - eller Poissonfordelte variable til tosidet variansanalyse Appendix: Statistikprogrammer A Eksempler regnet med TI B Eksempler regnet med Statgraphics... 8 Opgaver GRUNDLÆGGENDE OPERATIONER PÅ TI STATISTISKE TABELLER TABEL. Fraktiler i U - fordelingen TABEL. Fraktiler i t - fordelingen TABEL 3. Dimensioneringstabel for variable FACITLISTE STIKORD... 9

5 0. Planlægning af forsøg 0 HYPOTESETESTNING (TO STATISTISKE VARIABLE) 0. Indledning Afsnit 0. giver en kort beskrivelse af hvorledes forsøg bedst planlægges ud fra et statistisk synspunkt. Hertil anvendes bl.a. den i tabel 3 angivne dimensioneringsstabel. I tilfælde som ikke dækkes af tabellen kan anvendes det i oversigt 0.7 angivne program skrevet i matematikprogrammet Maple. I afsnit 0.3 sammenlignes to normalfordelte variable, mens de variable i afsnit 0.4 og 0.5 forudsættes at være henholdsvis binomial - og Poisson - fordelte. De grundlæggende begreber vedrørende hypotesetest, konfidensintervaller og dimensionering af forsøg blev i Statistiske Grundbegreber grundigt beskrevet for én statistisk variabel. Da det er de samme begreber og analoge udledninger der anvendes, når det drejer sig om at sammenligne statistiske variable, vil de kun blive ganske kort blive gentaget i dette kapitel. Som det nævnes i forordet vil vi forudsætte, at man har en lommeregner (som eksempelvis TI - 83, TI - 89 eller HP48G). I appendix 0A og 0B vil de samme beregninger ses udført med mere avancerede statistikprogrammer. 0. Planlægning af forsøg Vi vil i dette afsnit som udgangspunkt tage følgende eksempel. Eksempel 0.. Hypotesetest. En fabrik der producerer maling, har udviklet to nye additiver A og A, som bevirker en kortere tørretid. Additiv A er det dyreste, men man forventer også, at det giver den korteste tørretid. På grund af prisforskellen, skal tørretiden dog være mindst 0 minutter kortere for A, før man vil gå over til den. For at undersøge disse forhold produceres nogle liter maling, som derefter deles op i mindre portioner. Til nogle af portionerne tilsættes additiv A og til andre additiv A. Tørretiden måles derefter. Generelt gælder, at hvert delforsøg i et forsøg udføres under en række forsøgsbetingelser. De betingelser som med forsæt varieres som led i forsøgets formål, kaldes forsøgsbehandlingerne eller blot behandlingerne (engelsk: treatment). Alle andre delforsøgsbetingelser sammenfattes i et begreb, der kaldes forsøgsenheden. I eksempel 0. er additiverne = behandlingerne og forsøgsenhederne er den enkelte portion maling, anvendt apparatur og personale, tidspunkt for delforsøget og de forhold med hensyn til temperatur, luftfugtighed osv., som gælder på forsøgstidspunktet. Bemærk, at forsøgsenhederne ofte indeholder faktorer, som ikke kan gøres ensartet fra delforsøg til delforsøg. Dette bevirker, at resultatet af de enkelte delforsøg varierer. Dette giver forsøgsvariablens variation eller kort forsøgets støj.

6 0. Hypotesetestning ( statistiske variable) Randomisering. For at sikre et statistisk gyldigt forsøg foretager man en såkaldt fuldstændig randomisering. Dette betyder at man ved lodtrækning fordeler forsøgsenhederne tilfældigt på behandlingerne. Dette sker, for at man ikke ubevidst kommer til at favorisere en af de to behandlinger. Hvis man eksempelvis helt systematisk i eksempel 0. først laver alle delforsøg med additiv A, kunne dette bevirke en favorisering af A nemlig hvis forsøgsomstændighederne (apparater, personale, luftfugtighed ) er mest gunstige ved begyndelsen af forsøgsperioden. For at anskueliggøre denne randomiseringsproces antager vi, at vi i eksempel 0. skal lave 4 delforsøg med hver additiv. Endvidere antages, at delforsøgene skal indgå i den almindelige produktionsgang, dvs. at man af tidsmæssige, personalemæssige og på grund af en begrænset mængde apparatur må lade forsøgene forløbe over flere dage. Man tror ikke, at dage, apparatur og laborant har nogen væsentlig betydning for forsøgsresultaterne. Der er sandsynligvis også andre forhold udenfor vor kontrol, og som tilsammen bevirker, at selv om man udfører gentagne delforsøg med samme behandling, så får vi afvigende resultater. For en sikkerheds skyld vælger vi imidlertid at randomisere dage, apparatur og laboranter Lad os antage at der gælder følgende: Mandag er det kun muligt at lave delforsøg, idet apparatur nr og laborant A er de eneste der er ledige. Tirsdag er der kapacitet ledig til 3 delforsøg: Ét delforsøg hvor apparatur nr og laborant A benyttes Ét delforsøg hvor apparatur nr og laborant B benyttes, og Ét delforsøg hvor apparatur nr 3 og laborant C benyttes. Onsdag kan der også laves 3 delforsøg osv. (se det følgende skema). Forsøgsenheder Behandlinger Dag Apparatur Laborant (apparater) mandag A tirsdag A tirsdag B tirsdag 3 C onsdag 3 B onsdag 4 C onsdag A torsdag 3 B Vi foretager nu randomiseringen, som kort sagt er en form for lodtrækning. Sædvanligvis vil man benytte et program, der kan generere tilfældige tal (mange lommeregnere har et sådant program). For at anskueliggøre randomiseringen vil vi mere primitivt foretage lodtrækningen på følgende måde. På 4 sedler skrives A, på andre 4 sedler skrives A. Hver seddel krølles sammen til en kugle og placeres i en dåse. Sedlerne blandes ved at dåsen rystes (se figur). Hvis den første seddel der udtrækkes er A så betyder det, at det delforsøg der mandag udføres med apparatur og laborant A skal anvende additiv A. Hvis den næste seddel der udtrækkes er A så betyder det, at det delforsøg der tirsdag udføres med apparatur og råvareleverance skal anvende additiv A osv. Resultaterne kunne eksempelvis være som angivet på følgende skema:

7 0. Planlægning af forsøg Forsøgsenheder Dag Apparatur Laborant Behandlinger (apparater) mandag A A tirsdag A A tirsdag B A tirsdag 3 C A onsdag 3 B A onsdag 4 C A onsdag A A torsdag 3 B A På denne måde sikrer man sig, at vi får et så vidt muligt "statistisk gyldigt" forsøg. Hvis vi derfor efter beregninger (som ses i de følgende kapitler ) konkluderer, at der er forskel på additiverne, så er det "korrekt", idet det ville være helt tilfældigt, hvis én af additiverne har været begunstiget med særlig gode forsøgsenheder. Herved har man også sikret sig, at de to stikprøver (variable) er statistisk uafhængige. Forsøg bør udføres, så alle behandlinger får lige mange gentagelser. Ved planlægningen af forsøget er det ganske klart, at hvis man eksempelvis har ressourcer til at lave 0 delforsøg, så ville det være en meget dårlig plan, hvis man lavede 8 delforsøg med A og kun delforsøg med A. Der bør i naturligvis tilstræbes at lave 0 delforsøg med hver behandling. Delforsøg kan mislykkes, så målet i praksis ikke bliver opfyldt. I sådanne tilfælde kan de i de følgende kapitler anførte statistiske analyser dog stadig gennemføres. Testene bliver dog mindre robuste (dvs. mere afhængige af at forudsætningerne gælder), og beregningerne mere komplicerede. Dimensionering Analogt med forklaringen i Statistiske Grundbegreber side 57 kan man under visse forudsætninger beregne hvor mange gentagelser (portioner) der skal anvendes for hver behandling, hvis P( fejl af type I) α og P( fejl af type II) β. Man skal naturligvis angive en bagatelgrænse, men desuden kræver beregningerne, at spredningerne ved de to behandlinger er (tilnærmelsesvis) ens, og at man kan give et nogenlunde realistisk skøn for denne fælles spredning σ. Det er naturligvis en svaghed ved dimensioneringen, at man inden forsøget er udført skal give et sådant skøn. En vurdering heraf kunne baseres på erfaringer fra tilsvarende forsøg. Findes sådanne erfaringer må man først lave nogle få delforsøg og derfra få et rimeligt gæt på spredningen σ. At spredningerne er nogenlunde ens vil i praksis ofte være tilfældet, da forsøgsenhederne jo er valgt ved randomisering. Når forsøget så er lavet, kan man (lidt sent) se, om man har skønnet rigtigt. Dimensioneringen skal jo bevirke, at man laver det rigtige antal gentagelser. Man kan fristes til at tro, at jo flere gentagelser jo bedre. Dette er imidlertid ikke tilfældet, idet man med for mange gentagelser kan risikere at opdage så små forskelle, at de ikke har praktisk betydning, og så er de mange delforsøg jo spild af arbejdskraft og penge. Formler for dimensionering af variable findes i oversigt 0. og 0.3, en tabel til dimensionering findes i tabel 3, ligesom der i oversigt 0.7 er angivet et Mapleprogram, som kan anvendes i de tilfælde, hvor man ikke kan finde resultatet i tabellen. 3

8 0. Hypotesetestning ( statistiske variable) Eksempel 0.. (fortsættelse af eksempel 0.) Dimensionering. a) Hvor mange portioner skal anvendes ved forsøget, hvis man ønsker, at P( fejl af type I ) = α 005., P( fejl af type II ) = β 00. og bagatelgrænsen =0 minutter, idet man fra mange tilsvarende forsøg ved, at den fælles spredning er σ = 5 minutter. b) Samme spørgsmål og krav som i spørgsmål a), men nu antages, at man ikke kender spredningen, men ud fra nogle få delforsøg skønner, at den er ca. 5 minutter. c) Samme spørgsmål og krav som i spørgsmål b), men nu antages P(fejl af type I) = α 0.0. LØSNING: u + u u + u + α β a) Af oversigt 0.3 fås n = = = 38, σ 5 5 dvs. der skal udføres i alt n = 39 delforsøg af hver behandling b) Idet fås af tabel 3, at det største tal mindre end 0.67 er 0.66 svarende til σ 3 = 067. n 40 c) Tabellen dækker ikke tilfældet α = 0.0, så man må bruge Mapleprogrammet i oversigt 0.7. Da kravet er vanskeligere at opfylde, må n > 40. Vi sætter forsøgsvis n = 65. Gå ind i programmet under variable. restart; osv. tryk på enter for at udføre programmet. Ret dernæst i programmet under evalf(6.,3.0,0.05) tosidet test til > evalf(pt(65,0.667,0.005)) - evalf(pt(65,0.667,0.995)); #tosidet test og tryk på enter. Resultatet blev. Da resultatet er lidt større end 0. øges n til 67. > evalf(pt(67,0.667,0.005)) - evalf(pt(67,0.667,0.995)); #tosidet test Vi får nu. Vi øger nu n gradvist, og finder tilsidst, at for n = 69 er Resultatet er derfor, at vi skal udføre n = 69 delforsøg af hver behandling. 0.3 Test og konfidensintervaller for normalfordelte variable. Lad os igen betragte det i eksempel 0. og 0. angivne forsøg. For hver af de additiver udføres en række delforsøg. Forsøgsresultaterne kan generelt skrives: For additiv A : Statistisk variabel X. Stikprøve : x, x, x 3,... x n. For additiv A : Statistisk variabel X. Stikprøve : x, x, x 3,... x n. Vi antager, at X og X er statistisk uafhængige normalfordelte variable med henholdsvis middelværdierne µ og µ og spredningerne σ og σ. Sædvanligvis er man interesseret i at teste nulhypotesen H0:µ = µ + d (d er en given konstant). Denne omskrives til H0:µ µ d = 0, og testproceduren baseres på fordelingen af differensen X X d. Ifølge additionssætningen (se eventuelt Statistiske Grundbegreber side 34) er X X d normalfordelt og fra regnereglerne fås E X X d = E X E X d = µ µ d og ( ) ( ) ( ) σ σ V( X X d) V( X ) V( X ). = + = + n n Heraf følger, at U X X d = er normeret normalfordelt. σ σ + n n Desværre er σ og σ sjældent kendt eksakt. Kendes kun deres estimater s og s må der anvendes 4

9 0.3 Test og konfidensintervaller for normalfordelte variable andre testprocedurer. Hvis stikprøvestørrelserne er store (over 30) er det dog tilstrækkelig nøjagtigt at anvende en U - test. Analysen deles derfor op i 4 tilfælde. ) De eksakte spredninger σ og σ er ukendte, men antages at være ens (afsnit 0.3.) ) De eksakte spredningerne σ og σ er ukendte, men antages forskellige (afsnit 0.3.). 3) De eksakte spredningerne σ og σ er kendte.(afsnit 0.3.3) 4) Stikprøvestørrelserne er store (over 30) (afsnit 0.3.4) 0.3. De eksakte spredningerne er ukendte, men antages at være ens Forklaring af formler. I dette tilfælde må spredningerne estimeres ud fra forsøgsresultaterne. Det X X d ville være naturligt at betragte teststørrelsen,men denne har desværre ikke en kendt s s + n n fordeling. Da de to variable antages at have samme spredning s 0, beregnes et estimat for den fælles varians som et vægtet ( poolet) gennemsnit s 0 af de to estimater for varianserne s og s. Disse ( n ) s + ( n ) s vægtes i forhold til frihedsgraderne, dvs. s0 =. Frihedsgradstallet for s 0 er n+ n f0 = n + n. X X d X X d Teststørrelsen kan nu reduceres til t = = som kan vises at være t - fordelt. s0 s 0 + s0 + n n n n Testning af H0:µ = µ + d foretages derfor i følgende rækkefølge: ) Først undersøges om varianserne er ens (selvom det egentlige formål er at undersøge forskelle i middelværdier). Nulhypotesen testes mod den alternative hypotese ved en F - test. H 0 :σ = σ H:σ σ s Man beregner F = som er F- fordelt Fn (, n ). Vi får klart en accept af, hvis F s H 0 ligger tæt ved og en forkastelse, hvis F enten ligger tæt ved 0 eller er meget større end (se figuren) I oversigt 0.4 er denne test beskrevet, og kan ses udført i eksempel 0.3. Får man en accept af nulhypotesen, har man naturligvis ikke hermed vist at varianserne er ens, men da den følgende test af middelværdier er robust overfor mindre forskelle i varianserne, blot vi har samme antal gentagelser (mindre afvigelser kan dog accepteres), er det tilladeligt i den følgende test af middelværdierne, at antage at varianserne er ens. Vi antager her, at vi får en accept. Det tilfælde, hvor F - testen giver en forkastelse, bliver behandlet i det næste afsnit. 5

10 0. Hypotesetestning ( statistiske variable) X X d ) Nulhypotesen H 0 : µ = µ testes på basis af teststørrelsen t =, som er t - fordelt s0 + n n med f 0 frihedsgrader (jævnfør eksempel 0.3 og oversigt 0.). Hvis spredningerne kan antages ens, har man endvidere mulighed for at foretage en dimensionering, dvs. vælge antal gentagelser n, så P(fejl af type II) holdes under β (se eventuelt eksempel 0.). Eksempel 0.3. Accept af ens spredning. To katalysatorers indflydelse på udbyttet ved en kemisk proces skal undersøges. Den ene katalysator K er billigere end den anden katalysator K. Det påstås imidlertid, at K i middel giver et større udbytte. Kun hvis K i middel giver et udbytte som er mindst enheder større end det udbytte K giver, vil vi vælge katalysator K. Da forsøgene er både tidskrævende og kostbare, har man kun afsat midler til 8 forsøg med hver katalysator. Resultaterne blev: K K ) Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises at K giver et middeludbytte der er enheder større end K ) Angiv endvidere et 95% konfidensinterval for differensen mellem de to middeludbytter. Løsning. ) Lad X = udbyttet ved anvendelse af katalysator K og X = udbyttet ved anvendelse af katalysator K. X og X antages approksimativt normalfordelte med middelværdi og spredning henholdsvis µ, σ og µ, σ. Ved indtastning af forsøgsresultaterne i lommeregneren fås de tilsvarende estimater x = , s = og x = 943., s = a) Først testes om varianserne er ens, dvs. H 0 :σ = σ mod H:σ σ. Vi anvender formlen i oversigt 0.4 række 3: s. 387 Teststørrelsen F = = = 055., er F - fordelt. s F( f, f) = F( 77, ) 33. Da P - værdi =P(F < 0.55)=FCdf(0, 0.55,7,7)= 0.57 > 0.05 accepteres nulhypotesen, dvs. vi vil i den følgende test antage, at spredningerne er ens. Et estimat for den fælles spredning er ( n s n s ) + ( ) ( 8 ) ( 8 ) 33. s0 = = = 80. med f 0 = 4 n + n 4 b) Vi tester nu om udbyttet ved katalysator K er større end ved katalysator K, dvs. opstiller nulhypotesen H 0 :µ µ + mod den alternative hypotese H:µ > µ +. x x Af oversigt 0. fås teststørrelsen t = = = s n n 8 8 Da P - værdi = P(T>.88)= tcdf(.88,,4)= < 0.05 forkastes nulhypotesen.

11 0.3 Test og konfidensintervaller for normalfordelte variable Konklusion: Der er (svagt) statistisk bevis for at K giver et udbytte der er enheder større end K (vi er dog tæt på en accept). ) 95% konfidensinterval: Af oversigt 0. fås x x t α ( f ) s + µ µ x x + t α ( f ) s + n n n n t0975. ( 4) µ µ t0975. ( 4) µ µ 6. Opgaven løst med TI-89 og Statgraphics findes i appendix 0A og 0B De eksakte spredninger er ukendte, men antages at være forskellige. Forklaring af formler. Forkastes nulhypotesen H 0 :σ = σ, benyttes Satterthwaite s approksimation (jævnfør eksempel 0.4 og oversigt 0.). Det skal bemærkes, at er spredningerne tilnærmelsesvis ens, har t -testen i afsnit 0.3. større styrke end Satterthwaite s approksimation, og må derfor foretrækkes. Hvis der er stor forskel på stikprøvestørrelserne, er det meget vigtigt for anvendelsen af t - testen, at forudsætningen om, at varianserne er ens er holdbar. Til gengæld er det også i sådanne tilfælde, man virkelig ser den store forbedring ved at benytte t - testen fremfor Satterthwaite s approksimation. Eksempel 0.4. Forkastelse af ens spredning. Lad os antage, at vi har samme problemstilling som i eksempel 0.3, men at vi denne gang anvender to andre katalysatorer A og B. Der planlægges med 0 delforsøg men desværre mislykkedes to af forsøgene med katalysator A, så der ikke er lige mange gentagelser. Stikprøverne giver estimaterne A: xa = 939., sa = 506. na =8 og B: xb = , sb =. 9, nb = 0. Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises, at A giver et udbytte der er enheder større end B. Løsning: ) Lad X A = udbyttet ved anvendelse af katalysator A og X B = udbyttet ved anvendelse af katalysator B. X A og X B antages approksimativt normalfordelte med middelværdi og spredning henholdsvis µ, σ og µ, σ. A A B B a) Først testes om varianserne er ens, dvs. H0:σ A = σb mod H:σ A σ B. Vi danner teststørrelsen F s A 506. = = = sb 9. Idet P - værdi = FCdf(4.88,,7,9)=0.057 < 0.05 forkastes nulhypotesen, dvs. vi kan ikke tillade os at antage, at spredningerne er ens. b) Vi tester nu om udbyttet ved katalysator A er større end ved katalysator B, hvilket betyder, at vi opstiller nulhypotesen H0:µ A µ B + mod H:µ A > µ B +. Af oversigt 0. fås teststørrelsen En test har større styrke end en anden, hvis den med givne data og et givet signifikansniveau giver den største sandsynlighed for at forkaste nulhypotesen. 7

12 0. Hypotesetestning ( statistiske variable) xa xb s A sb t = hvor c = + = + = c n A nb 8 0 xa xb t = = = 75. c Frihedsgradstallet f beregnes ved Satterthwaite s metode som det nærmeste hele tal, som er c større end g = = = s A s B n A n B n A nb 8 0 P - værdi = P(T>.75)=tCdf(.75,,0)=0.56 > 0.05 accepteres nulhypotesen. Konklusion: Vi kan ikke på dette grundlag vise, at udbyttet ved katalysator A er større end ved katalysator B. Opgaven løst med TI-89 og Statgraphics findes i appendix 0A og 0B De eksakte spredninger er kendte Der kan i visse tilfælde ske, at man ad andre veje kender spredningerne eksakt. I disse tilfælde kan man foretage en U - test, dvs. bruge testfunktionen U X X d =. σ σ + n n Følgende eksempel illustrerer dette Eksempel 0.5. eksakt spredning. På basis af dimensioneringen i eksempel 0. udførte man 40 delforsøg af hver behandling. Efter at forsøgsrækken var afsluttet, opdagede man, at et af forsøgene var mislykket og måtte kasseres. Der var følgelig kun 39 delforsøg med additiv A. Det vides, at spredningerne eksakt er σ A = 3. og σ A = 4. ) Man beregner gennemsnittene af de to stikprøver til x A = 8. 6 og x A = 9. Kan man ud fra disse data bevise på mindst signifikansniveau α = 0.05, at malingen med additivet A tilsat har en mindre middeltørretid end konkurrentens? ) Hvad vil du anbefale virksomheden at gøre, hvis man som nævnt i eksempel 0. kun vil gå over til A hvis tørretiden for A er mindst 0 minutter kortere end for A (bagatelgrænsen). Løsning: X = tørringstiden for maling tilsat additiv A. X = tørringstiden for maling tilsat additiv A. X og X antages at være uafhængige normalfordelte variable med henholdsvis middelværdierne µ og µ og spredningerne σ og σ. Nulhypotese H 0 :µ µ, Alternativ hypotese: H:µ < µ Da spredningerne er kendt eksakt anvendes en U - test (se eventuelt oversigt 0.3). x x u = σ n σ + n = = 357. Da normcdf(,-3.57,0,)= < 0.00 forkastes nulhypotesen (3-stjernet) 8

13 0.3 Test og konfidensintervaller for normalfordelte variable Konklusion: Der er et stærkt statistisk bevis for at additiv A i middel har en kortere tørringstid end additiv A. ) Et 95% konfidensinterval for differensen: s s x x u ±. + =.. ±. + = 0. 6 ± 58. n n [ ] Konfidensintervallet er 6. 43; (se eventuelt oversigt 0.3 ) Konklusion: Da bagatelgrænsen er 0, og næsten 50% af konfidensintervallet ligger under 0, kan det ikke på baggrund af dette materiale anbefales at gå over til det mere kostbare additiv. Bemærk, at dimensioneringen reelt kun har betydning i en acceptsituation, hvor man så med stor sikkerhed kan konkludere, at muligvis giver additiv A en kortere størkningstid, men ikke så meget kortere, at det har praktisk betydning Store stikprøvestørrelser (over 30) Er stikprøvestørrelserne store, viser erfaringen, at det er tilstrækkeligt nøjagtigt at anvende en U - test fremfor de mere præcise metoder der er beskrevet i afsnit 0-3. og Følgende eksempel illustrerer dette Eksempel 0.6. Stor stikprøvestørrelse (over 30) På basis af dimensioneringen i eksempel 0. udførte man 40 delforsøg af hver behandling. Efter at forsøgsrækken var afsluttet, opdagede man, at et af forsøgene var mislykket og måtte kasseres. Der var følgelig kun 39 delforsøg med additiv A. Man fik følgende resultater (i minutter) A 7,0 30,7 7,4 4,4 06,8 5,7 6,5 86,7 4,7 7,9 03,0 33,4 03,6 4,4 3,0 30, 0,5 9,4 7, 5,6 6,5 94,0,7 06,0 4,0 35, 4, 07,9 3,4 6, 3,9 3,4 5,6 8,0 0,6 97, 4,4 34, 5,7 A 6,7, 33,7 08,9,6 57,6 4, 4,9 0,6 4, 58,6 36,9 7,4 7,5 38,9,7 0,5 33,,4 43,0 35,6 35,4 36,8,4 6, 35,7 8,, 3,7 07,0 38,,6 3, 57,3 6,5 30, 6,0 38,6 38,5 06,5 Kan man ud fra disse data bevise på mindst signifikansniveau additivet A tilsat har en mindre middeltørretid end konkurrentens? Løsning: X = tørringstiden for maling tilsat additiv A. X = tørringstiden for maling tilsat additiv A. α = 0.05, at malingen med X og X antages at være uafhængige normalfordelte variable med henholdsvis middelværdierne µ og µ og spredningerne σ og σ. For de to stikprøver har man at x = 8. 6 og x = 9. s = 3. og s = 4. Vi ser, at vi har de samme værdier som i eksempel 0.5, bortset fra at spredningerne nu ikke er kendt. Det bliver derfor samme regninger og dermed samme konklusion. For sammenligningens skyld er i appendix 0A opgaven regnet ved en t - test, og man får ikke overraskende samme resultat. 9

14 0. Hypotesetestning ( statistiske variable) 0.4 Test og konfidensintervaller for binomialfordelte variable. Som nævnt i bind kan man ofte approksimere en binomialfordeling med en normalfordeling. Det er en sådan approksimation, som formlerne i oversigt 0.5 bygger på. I praksis vil disse forudsætninger for approksimation sædvanligvis være opfyldt. Vi belyser anvendelsen af oversigten ved følgende eksempel. Eksempel 0.7. Binomialfordelingstest. Ved et forsøg der skulle afgøre om C - vitamin har en forebyggende virkning mod forkølelse, fik halvdelen af en gruppe på 80 franske skiløbere C - vitamin mens de øvrige fik kalktabletter (placebobehandling). Fordelingen skete randomiseret, og forsøgspersonerne var uvidende om gruppeinddeling og hvilket medikament de fik.efter en passende tid optaltes hvor mange af forsøgspersonerne der var forkølede. Resultaterne kan ses af følgende skema: Forkølet Ikke forkølet Total u = C-vitamin 7 39 Kalktabletter Bemærk, at en enkelt forsøgsperson gled ud af forsøget, så grupperne blev ikke helt lige store. ) Kan det på et signifikansniveau på 5% vises, at C - vitamin har en forebyggende virkning? ) I bekræftende fald angiv er 95% konfidensinterval for differensen mellem parametrene. Løsning: X = antal forkølede personer der har fået C-vitamin. X er binomialfordelt b(39, p ). X = antal forkølede personer der har fået Kalktabletter. X er binomialfordelt b(40, p ). ) Da vi ønsker at vise, at p < pbliver nulhypotesen H0: p pmod Hp : < p. Oversigt 0.5 anvendes : x 7 x 3 x + x $p = =, $p = = og $p = = =. n 39 n 40 n + n Da n p$ = = 39. [ 539 ; 5] og n p$ = = 4. [ 540 ; 5] er forudsætningerne for at approksimere med normalfordelingen opfyldt. Vi finder af formel () p$ p$ p$ ( p$) + n n = = = Da P(U < -.93) = normcdf(,-.93,0,)=0.045 < 0.05 forkastes nulhypotesen (-stjernet) Konklusion: På signifikansniveau 5% er vist, at C-vitamin har en vis forebyggende virkning mod forkølelse, ) Et 95% konfidensinterval for differensen p per ifølge oversigt 0.5: p$ ( p$ ) p$ ( p$ ) p$ ( p$ ) p$ ( p$ ) p$ p$ u α + p p p$ p$ + u α + n n n n 0

15 Test og konfidensintervaller for Poissonfordelte variable ( ) 0 ( 0 ) 0. ( 0. ) 0. ( 0. ) p p p p p p Test og konfidensintervaller for Poissonfordelte variable. Som nævnt i bind kan man ofte approksimere en Poisonfordeling med en normalfordeling. Det er en sådan approksimation, som formlerne i oversigt 0.6 bygger på. I praksis vil disse forudsætninger for approksimation sædvanligvis være opfyldt. Vi belyser anvendelsen af oversigten ved følgende eksempel. Eksempel 0.8. Poissonfordelingstest. En bestemt type TV-apparat produceres på fabrikker A og B. Man har mistanke om, at der er forskel på antallet af loddefejl der findes i apparater fra de to fabrikker. For at teste dette, udtages af den løbende produktion stikprøver på 5 TV-apparater, og man optalte antallet af loddefejl i de 5 apparater. Resultaterne blev: Fabrik A: På 0 apparater fandtes i alt loddefejl Fabrik B: På 9 apparater fandtes i alt 7 loddefejl (et apparat måtte udskydes) Test på dette grundlag, om der er forskel på fejlintensiteten på de to fabrikker. Løsning. X = antal loddefejl pr. apparat på fabrik A. X antages Poissonfordelt p( µ ). X = antal loddefejl pr. apparat på fabrik B. X antages Poissonfordelt p( µ ). Da vi ønsker at vise, at µ µ bliver nulhypotesen H 0 :µ = µ mod H:µ µ. Oversigt 0.6 række 3 anvendes : x x 7 x + x x,, og. = = x = = x = = = n 0 n 9 n + n Da n x = 0 9 = og n x = 9 9 = er forudsætningerne for at approksimere med normalfordelingen opfyldt. 7 Vi finder : x x u = = = = x + + n n Da P(U >.036) = normcdf(.036,,0,) = 0.50 > 0.05 accepteres nulhypotesen. Konklusion: Man kan ikke på det grundlag vise, at der er forskel på fejlintensiteten på de to fabrikker,

16 Oversigt 0. Oversigt 0.. Test af middelværdier µ og µ og konfidensinterval for differens µ µ for normalfordelte variable. X og X er normalfordelte henholdsvis n( µ, σ) og n( µ, σ ). σ σ Givet stikprøver af X og X. med størrelse, gennemsnit og spredning henholdsvis n, x, s og n, x, s. Signifikansniveau er α. x x d Lad d være en given konstant. t = n s n s hvor s,. 0 ( ) + ( ) = f0 = n + n n n s0 + + n n T er en statistisk variabel der er t - fordelt med frihedsgradstallet f 0. Forudsætning. σ og σ ukendte H 0 :σ = σ accepteres ved F - test H 0 : Nulhypotese H: Alternativ hypotese H :µ µ + 0 H:µ > µ + d d H0:µ µ + d H:µ < µ + d H :µ = µ + 0 H:µ µ + d d P - værdi = PT ( t) P - værdi = PT ( t) P - værdi = PT ( t) for P - værdi = PT ( ) for 00 ( α )% Konfidensinterval for differens µ µ : Beregning H 0 forkastes Dimensionering x > x + d t x < x + d P - værdi<α P - værdi < α x x t α ( f0) s0 + µ µ x x + t α ( f0) s0 + n n n n = µ µ d er den mindste ændring i µ der har praktisk interesse. β = P(type II fejl) Antal gentagelser for hver af de to variable findes af dimensioneringstabel 8 For værdier der ikke står i tabellen benyt Mapleprogrammet i oversigt 0.7

17 Oversigt 0. OVERSIGT 0.. Test af middelværdier µ og µ og konfidensinterval for differens µ µ for normalfordelte variable σ σ. X og X er normalfordelte henholdsvis n( µ, σ) og n( µ, σ ). Givet stikprøver af X og X. Størrelse, gennemsnit og spredning henholdsvis n, x, s og n, x, s. Signifikansniveau er α. Lad d være en given konstant. x x d s s t = c, hvor c = + Frihedsgradstallet f er det nærmeste hele tal, som er større end g =. c n n s s n n + n n T er en statistisk variabel der er t - fordelt med frihedsgradstallet f. Forudsætning H 0 : Nulhypotese Beregning H: Alternativ hypotese Approksimativ metode (Satterthwaites test) σ og σ ukendte σ σ dvs. H 0 :σ = σ forkastes ved F - test H :µ µ + d 0 H:µ > µ + d H :µ µ + 0 H:µ < µ + d H :µ = µ + 0 H:µ µ + d d d P - værdi = PT ( t) P - værdi = PT ( t) P - værdi = x > x + d t x < x + d PT ( t) for P - værdi = PT ( ) for 00 ( α )% Konfidensinterval for differens µ µ : x x t α ( f ) c µ µ x x + t α ( f ) c P - værdi<α H 0 forkastes P - værdi < α 3

18 Oversigt 0.3 µ og µ n( µ, σ) n( µ, σ ) OVERSIGT 0.3. Test af middelværdier for normalfordelte variable (spredninger kendte eller stor stikprøvestørrelse) X og X er normalfordelte henholdsvis og. Givet stikprøver af X og X. Størrelse, gennemsnit og spredning henholdsvis n, x, s x x d og n, x, s. Signifikansniveau er α. Lad d være en konstant, og u =. Y en normeret normalfordelt variabel n( 0, ). σ σ + n n Forudsætn. σ og σ kendte eller n 30 og n 30 σ og σ erstattes så af s og s H 0 : Nulhypotese H: Alternativ hypotese H :µ µ + d 0 H:µ > µ + d H :µ µ + 0 H:µ < µ + d H :µ = µ + 0 H:µ µ + d d d P-værdi = PY ( u) P-værdi = PY ( u) P-værdi = PY ( u) for P-værdi = PY ( ) for Beregning H 0 forkastes Dimensionering x > x + d u x < x + d P - værdi <α P - værdi σ σ σ σ 00 ( α )% konfidensinterval for differens µ µ : x x u α + µ µ x x + u α + n n n n < α = µ µ d er den mindste ændring i µ der har praktisk interesse. β = P(type II fejl) u n + u α β σ σ = max{ σ, σ } Betegnelser som ovenfor: u + u α β n σ 4

19 Oversigt 0.4 σ OVERSIGT 0.4. Test af varianser σ og σ og konfidensinterval for for variable. σ X og X er normalfordelte henholdsvis n( µ, σ ) og n( µ, σ ). Givet stikprøver af X og X. Størrelse, gennemsnit og spredning henholdsvis n, x, s og n, x, s. Signifikansniveau er α. F s, Q er F - fordelt Fn ( n, ) s Forudsætn. og µ µ ukendte = H 0 : Nulhypotese H: Alternativ hypotese H 0 :σ σ H:σ > σ H 0 :σ σ H:σ < σ H 0 :σ = σ H:σ σ P - værdi = PQ P - værdi = PQ σ 00 ( α)% Konfidensinterval for forhold : σ Specialtilfælde: (( ) + ( µ ) ) µ µ (( ) ( µ ) ) n s n x n n s + n x n Beregning ( F) ( F) P - værdi < α P - værdi = PQ ( F) for F > P - værdi < α P - værdi = PQ ( F) for F < F F α n n og kendte: F =, Q er F - fordelt Fn (, n). Forudsætn. Nulhypotese H: Alternativ hypotese H 0 forkastes σ F F n n α (, ) (, ) σ Beregning H 0 forkastes og µ µ H 0 :σ σ H:σ > σ P - værdi = PQ ( F) P - værdi < α kendte H 0 :σ σ H:σ < σ P - værdi = PQ ( F) H 0 :σ = σ H:σ σ P - værdi = PQ ( F) for F > P - værdi = PQ ( F) for F < P - værdi < α ( n ) s + n ( x µ ) µ kendt og µ ukendt: F =, Q er F - fordelt s n Fn (, n ) Forudsætn. Nulhypotese Beregning H 0 forkastes µ kendt H 0 :σ σ H:σ > σ P - værdi = PQ ( F) P - værdi < α ukendt µ H 0 :σ σ H:σ < σ P - værdi = PQ ( F) H 0 :σ = σ H:σ σ P - værdi = PQ ( F) for F > P - værdi = PQ ( F) for F < P - værdi < α 5

20 Oversigt 0.5 OVERSIGT 0.5. Oversigt over test af parametre p og p for binomialfordelte variable. X og X er binomialfordelt henholdsvis bn (, p) og bn (, p), hvor n og n er kendte og p og p ukendte. Observerede stikprøveværdier x og x. x x x + x p$ Signifikansniveau er α.lad p$, $, p$ = p = $p = og u =. Y en normeret normalfordelt variabel n( 0, ). n n n + n p$ ( p$) + n n Forudsætning: H 0 : Nulhypotese H: Alternativ hypotese Beregning H 0 forkastes Approksimativ metode p og p ukendte. n p$ [ 5; n 5] n p$ 5; n 5 [ ] H0: p p H p > p : H0: p p H p < p : P-værdi = PY ( > u) P-værdi = PY ( < u) P-værdi < α H0: p = p H p p : Hvis p$ p$ så P-værdi = PY ( > u) Hvis p$ < p$ så P-værdi = PY ( < u) P-værdi < α [ ; ] [ ] Forudsætning: x 5 n 5 x 5; n 5 : 00 ( α)% konfidensinterval for differens p p $ $ p p u α p$ ( p$ ) p$ ( p$ ) p$ ( p$ ) p$ ( p$ ) + p p p$ p$ + u α + n n n n 6

21 Oversigt 0.6 µ µ OVERSIGT 0.6. Oversigt over test af parameter og for Poissonfordelt variable. X og X er Poissonfordelte variable fordelt p( µ ) og p( µ ) hvor µ og µ er ukendte. Der foreligger to stikprøver af størrelsen n med gennemsnit x og n n med gennemsnit x x+ n x x. Signifikansniveau er α. Lad x = og x u =.. Y en normeret normalfordelt variabel n( 0, ). n+ n x + n n Forudsætning H 0 : Nulhypotese H: Alternativ hypotese Beregning H 0 forkastes Approksimativ metode µ og µ ukendte. n x 5 og n x 5 H 0 :µ µ H: µ > µ H 0 :µ µ H: µ < µ P-værdi = PY ( > u) P-værdi = PY ( < u) P-værdi < α H 0 : µ = µ H: µ µ Hvis x x så P-værdi = PY ( > u) Hvis x < x så P-værdi = PY ( < u) P-værdi < α Forudsætning: n x og n x : 0 0 x x x x 00 ( α )% konfidensinterval for differens µ µ x x u x x u α + µ µ + α + n n n n 7

22 Oversigt 0.7 OVERSIGT 0.7. Mapleprogram til dimensionering i og variable. > restart; > with(stats); MAPLE angiver her funktioner i stats > pt:=proc(n,c,a) # variabel (ensidet test) med samme stikprøvestørrelse og samme (ukendte) spredning > local b,d,f,t,cf,gam,x,y; > f:=n-; > gam:=x->int(z^(x-)*exp(-z),z=0..infinity); > cf:=evalf(/(gam(f/)*^((f-)/)));t:=statevalf[icdf,studentst[f]](-a); > y:=cf*int(statevalf [cdf,normald](t/sqrt(f)*u-c*sqrt(n))*u^(f-)*exp(-(u^)/),u=0..infinity); > y > end proc; > MAPLE GENTAGER HER PROGRAM > evalf(pt(6,.87,0.05)); #ensidet test > > evalf(pt(6,.87,0.05))-evalf(pt(6,.,0.975)); #tosidet test > restart;# variable (ensidet test) med samme stikprøvestørrelse og samme(ukendte) spredning > with(stats); > pt:=proc(n,c,a) > local b,d,f,t,cf,gam,x,y,n; > n:=*n-;f:=*n-; > gam:=x->int(z^(x-)*exp(-z),z=0..infinity); > cf:=evalf(/(gam(f/)*^((f-)/)));t:=statevalf[icdf,studentst[f]](-a); > y:=cf*int(statevalf [cdf,normald](t/sqrt(f)*u-c*sqrt(n/))*u^(f-)*exp(-(u^)/),u=0..infinity); > y > end proc; > MAPLE GENTAGER HER PROGRAM > evalf(pt(6,.05,0.05));# ensidet test > evalf(pt(6,.3,0.05))-evalf(pt(6,.3,0.975)); #tosidet test

23 . Indledning Appendix 0A Eksempler regnet på TI Indledning. Det forudsættes, at man kender de grundlæggende operationer på lommeregneren. I Appendix Vejledning i TI - 89" er beskrevet, hvorledes man beregner sandsynligheden for forskellige fordelinger, beregner gennemsnit og spredning, samt hvorledes man tester og beregner konfidensintervaller for funktion af variabel.dette forudsættes ligeledes bekendt.. Hypotesetest og konfidensintervaller for variable. Eksempel 0.3. Accept af ens spredning. Udbyttet ved anvendelse af katalysatorer sammenlignes. Resultaterne blev: K K ) Undersøg, om det på et signifikansniveau på 5% kan påvises, at K giver et udbytte der er enheder større end K ) Angiv endvidere et 95% konfidensinterval for differensen mellem de to middeludbytter. Løsning. APPS, STAT/LIST, indtast data i list og list eller navngiv to kolonner tilhøjre for list 6 med eksempelvis k og k. og indtast data her. Det sidste antages gjort. ) a) H 0 :σ = σ mod H:σ σ F6,9: - SampFtest, ENTER, I menuen vælg Data Input Mathod= Data, ENTER I menu for list " skrives k og for list" skrives k.(benyt evt. VAR-LINK) alternative Hyp = σ σ, ENTER I udskrift findes P - værdi = Da P - værdi =0.454 >0.05 accepteres H 0, dvs. vi vil i den følgende test antage, at spredningerne er ens. b) H 0 :µ µ + mod H:µ > µ + F6, 4: - SampTtest.ENTER I menu for list " skrives k+, for alternative Hyp µ < µ og pooled til YES I udskrift findes P - værdi = Da P - værdi = 0.04 < 0.05 forkastes nulhypotesen (svagt) Konklusion: Der er (svagt) statistisk bevis for at K giver et udbytte der er enheder større end K (vi er dog tæt på en accept). ) Konfidensinterval:F7, 3: -SampTInt Menu er selvforklarende 95% konfidensinterval for differens : C-int=[-7.7; -.6] Ved tosiddede test beregnes summen af begge haler og derfor skal sammenlignes med α og ikke med α / 9

24 Appendix 0A. Eksempler regnet med Ti-89 Eksempel 0.4. Forkastelse af ens spredning. Der laves forsøg med katalysatorer A og B. Stikprøverne giver estimaterne A: xa = 939., sa = 506. na =8 og B: xb = , sb =. 9, nb = 0. Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises, at A giver et udbytte der er enheder større end B. Løsning: APPS, STAT/LIST ) a) H 0 :σ = σ mod H:σ σ F6,9: - SampFtest, ENTER, I menuen vælg Data Input Mathod= Stats, ENTER Udfyld menu s = 506. n =8, s =. 9, n = 0 alternative Hyp = σ σ, ENTER I udskrift findes P - værdi = Da P - værdi =0.033 < 0.05 forkastes H 0, dvs. vi vil i den følgende test antage, at spredningerne ikke er ens. b) H0:µ A µ B + mod H:µ A > µ B +. F6, 4: - SampTtest.Data Input Mathod= Stats., ENTER, Udfyld menu: x = 939., s = 506. n =8 x = , s =. 9, n = 0, alternative Hyp µ > µ, pooled = no I udskrift findes P - værdi = 0.67 Da P - værdi = 0.67> 0.05 accepteres nulhypotesen. Konklusion: Vi kan ikke på dette grundlag vise, at udbyttet ved katalysator A er større end ved katalysator B. Eksempel 0.5. eksakt spredning. Der udføres 39 forsøg med additiv A og 40 forsøg med additiv B. Det vides, at spredningerne eksakt er σ A = 3. og σ A = 4. ) Man beregner gennemsnittene af de to stikprøver til x A = 8. 6 og x A = 9. Kan man på mindst signifikansniveau α = 0.05 bevise, at malingen med additivet A tilsat har en mindre middeltørretid end konkurrentens? ) Hvad vil du anbefale virksomheden at gøre, hvis man som nævnt i eksempel 0. kun vil gå over til A hvis tørretiden for A er mindst 0 minutter kortere end for A (bagatelgrænsen) Løsning: ) Nulhypotese, Alternativ hypotese: < H 0 :µ µ H:µ µ F6, 3: - SampZtest.Data Input Mathod= Stats., ENTER, Udfyld menu: σ = 3., σ = 4., x = 8. 6, n = 39, x = 9., n B = 40, alternative Hyp µ < µ I udskrift findes P - værdi = Da P - værdi = < 0.00 forkastes nulhypotesen (stærkt) Konklusion: Der er et stærkt statistisk bevis for at additiv A i middel har en kortere tørringstid end additiv A. B B Ved tosiddede test beregnes summen af begge haler og derfor skal sammenlignes med α og ikke med α / 0

25 Hypotesetest og konsidensintervaller for variable ) F7, 3: - SampZInt. Udfyld menu (er selvforklarende) C-int=[6.4; -4.77] Konklusion: Da bagatelgrænsen er 0, og næsten 50% af konfidensintervallet ligger under 0, kan det ikke på baggrund af dette materiale anbefales at gå over til det mere kostbare additiv. Eksempel 0.6. Stor stikprøvestørrelse (over 30) Problem som eksempel 0.5, men nu er data opgivet. Vi regner derfor som en sædvanlig t-test, hvor spredningerne ikke er eksakt kendt. Løsning. a) H 0 :σ = σ mod H:σ σ F6,9: - SampFtest, Data Input Mathod= Stats., Menu udfyldes P - værdi = Da P - værdi =0.797> 0.05 accepteres H 0, dvs. vi vil i den følgende test antage, at spredningerne er ens. b) Nulhypotese H 0 :µ µ, Alternativ hypotese: H:µ < µ F6, 4: - SampTtest.Data Input Mathod= Stats., Menu udfyldes herunder pooled=yes Resultat: P - værdi = Da P - værdi = < 0.00 forkastes nulhypotesen (stærkt) Ved sammenligning med resultatet i eksempel 0.5 ses, som forventet, at selv om man anvender en u - test fremfor en t - test, giver det ingen større ændring i P-værdien, da n 30. Konklusion: Der er et stærkt statistisk bevis for at additiv A i middel har en kortere tørringstid end additiv A. Eksempel 0.7. Binomialfordelingstest. Halvdelen af en gruppe på 80 franske skiløbere fik C - vitamin mens de øvrige fik kalktabletter.efter en passende tid optaltes hvor mange af forsøgspersonerne der var forkølede. Resultaterne kan ses af følgende skema: Forkølet Ikke forkølet Total C-vitamin 7 39 Kalktabletter ) Kan det på et signifikansniveau på 5% vises, at C - vitamin har en forebyggende virkning? ) I bekræftende fald angiv er 95% konfidensinterval for differensen mellem parametrene. Løsning: ) H0: p pmod Hp : < p. Forudsætningerne for at approksimere med normalfordelingen er opfyldt (se tidligere) F6, 6: -Prop-ZTest Udfylder menu: Succes x=7, n= 39, succes x=3, n = 40,Alt. hyp : p < p Udskrift giver P- værdi=0.04 Da P - værdi = 0.04 < 0.05 forkastes nulhypotesen (svagt) Konklusion: På signifikansniveau 5% er vist, at C-vitamin har en vis forebyggende virkning mod forkølelse, ) 95% konfidensinterval; F7, 6: -Prop-ZInt, menu udfyldes som under punkt. Udskrift viser C_int=[-0.87 ; -0.0] Eksempel 0.8. Poissonfordelingstest. TI - 89 har ikke dette program

26 Appendix 0B Eksempler regnet på Statgraphics Appendix 0B Eksempler regnet på Statgraphics.. Indledning I Grundlæggende begreber Appendix A er beskrevet hvorledes man beregner sandsynligheden for forskellige fordelinger og beregner gennemsnit og spredning. Dette forudsættes bekendt.. Hypotesetest og konfidensintervaller for variable. Eksempel 0.3. Accept af ens spredning. Udbyttet ved anvendelse af katalysatorer sammenlignes. Resultaterne blev: K K ) Undersøg, om det på et signifikansniveau på 5% kan påvises, at K giver et udbytte der er enheder større end K ) Angiv endvidere et 95% konfidensinterval for differensen mellem de to middeludbytter. Løsning: ) a) H : σ = σ H: σ σ 0 Vælg (Compare\ Two Samples\ Two Samples Comparison). I den fremkomne tabel: Vælg ( K\tryk på ved Sample \K\tryk på ved Sample \ OK) Vælg( gul ikon=tabular options\comparison of Standard Deviations\OK) Resultat: Comparison of Standard Deviations K K Standard deviation, ,37667 Variance 5,69936,409 Df 7 7 Ratio of Variances = 0, ,0% Confidence Intervals Standard deviation of K: [,57844;4,85887] Standard deviation of K: [,357;6,8744] Ratio of Variances: [0,00074;,49676] F-test to Compare Standard Deviations Null hypothesis: sigma = sigma Alt. hypothesis: sigma NE sigma F = 0,49986 P-value = 0,38055 Da P - value = > 0.05 accepteres nulhypotesen, dvs. man kan i den følgende analyse antage, at spredningerne er ens. b) H 0 :µ µ + mod H:µ > µ +. eller hvis H skrives H:µ > µ + µ µ <. Vælg (Compare\ Two Samples\ Two Samples Comparison). I den fremkomne tabel: Vælg ( K\tryk på ved Sample \K\tryk på ved Sample \ OK) Vælg (gul ikon = Tabular Options\Comparison of Means OK ) Vi får en udskrift, som ikke er relevant.

27 Hypotesetest og konfidensintervaller for variable Vælg ( Cursoren på udskrift, højre musetast\ Pane options\null Hyphothesis =- \ alt. hypothesis til Lesser than \ OK ). Markering ved Asume Equal Sigmas Comparison of Means ,0% confidence bound for mean of K: 89,4575 +,599 [9,0566] 95,0% confidence bound for mean of K: 94,5 +,55 [96,747] 95,0% confidence bound for the difference between the means assuming equal variances: -4,665 +,496 [-,738] t test to compare means Null hypothesis: mean - mean = -,0 Alt. hypothesis: less than assuming equal variances: t = -,883 P-value = 0,04034 Da P - værdi = 0.04 < 0.05 forkastes nulhypotesen (svagt) Konklusion: Der er (svagt) statistisk bevis for at K giver et udbytte der er enheder større end K (vi er dog tæt på en accept). ) 95% konfidensinterval: Her beregnes (se ovenstående udskrift) kun et ensidet interval, hvoraf vi kan slutte, at µ µ < 738. µ > µ Ved ensidede test er et 95% konfidensinterval for differensen også ensidet den nedre grænse g er bestemt ved 95% fraktilen: g = x x t0. 95( 4) s + = = =.8 n n 8 8 At dette er mere korrekt, ses også af, at dette konfidensinterval ikke indeholder [ g ; [ Eksempel 0.4. Forkastelse af ens spredning. Der laves forsøg med katalysatorer A og B. Stikprøverne giver estimaterne A: xa = 939., sa = 506. na =8 og B: xb = , sb =. 9, nb = 0. Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises, at A giver et udbytte der er enheder større end B. Løsning: a) Vælg (Compare\ Two Samples\ Hypothesis tests). I tabel Vælg (Normal Sigmas\Sample Sigma = 5,06\Sample Sigma =,9 \ Sample Size = 8, Sample Size = 0\ OK ) Udskrift: Hypothesis Tests Sample standard deviations = 5,06 and,9 Sample sizes = 8 and 0 95,0% confidence interval for ratio of variances: [,639;3,5487] Null Hypothesis: ratio of variances =,0 Alternative: not equal Computed F statistic = 4,8836, P-Value = 0,0338 Reject the null hypothesis for alpha = 0,05 Nulhypotesen forkastes b) Test :µ > µ +. H A B Vælg (Compare\ Two Samples\ Hypothesis tests). Vælg (rød ikon = Input Dialog\ I tabel vælg Normal Means \Null Hypothesis for Difference =, Sample Mean = 93,9\ osv.\ OK ) Vi får en udskrift, som ikke er relevant. Vælg ( Cursoren på udskrift, højre musetast\analysis Options\ alt. hypothesis til Greater than \Ved Asume Equal Sigmas afhænger markeringen af resultatet af en test, her antages de er forskellige \ OK ). hvor 3

28 Appendix 0B Eksempler regnet på Statgraphics Vi får: Hypothesis Tests Sample means = 93,9 and 89,46 Sample standard deviations = 5,06 and,9 Sample sizes = 8 and 0 Approximate 95,0% lower confidence bound for difference between means: 4,46-3,5545 [0,93455] Null Hypothesis: difference between means =,0 Alternative: greater than Computed t statistic =,746 P-Value = 0,6704 Do not reject the null hypothesis for alpha = 0,05. (Equal variances not assumed). Konklusion: Vi kan ikke på dette grundlag vise, at udbyttet ved katalysator A er større end ved katalysator B. Eksempel 0.5. eksakt spredning. Hvis begge spredninger er eksakt kendt kan Statgraphics ikke lave den ønskede u - test eller 95% konfidensinterval, Eksempel 0.7. Binomialfordelingstest. Halvdelen af en gruppe på 80 franske skiløbere fik C - vitamin mens de øvrige fik kalktabletter.efter en passende tid optaltes hvor mange af forsøgspersonerne der var forkølede. Resultaterne kan ses af følgende skema: Forkølet Ikke forkølet Total C-vitamin 7 39 Kalktabletter ) Kan det på et signifikansniveau på 5% vises, at C - vitamin har en forebyggende virkning? ) I bekræftende fald angiv er 95% konfidensinterval for differensen mellem parametrene. Løsning: ) H0: p pmod Hp : < p. Forudsætningerne for at approksimere med normalfordelingen er opfyldt (se tidligere) 7 3 Idet estimater er p$ = = 03. og p$ = =0. 4 fås: Vælg (Compare\Two Samples \Hypotesis tests\binomial Proportions\Sample Proportions = 0.3\ Sample Proportions = 0.4\ Sample Size = 39\ Sample Size = 40\OK) Vi får en udskrift, som ikke er relevant. Vælg ( Cursoren på udskrift, højre musetast\ Pane options\ alt. hypothesis til less than OK) Der fremkommer nu udskriften: Hypothesis Tests Sample proportions = 0,30 and 0,49 Sample sizes = 39 and 40 Approximate 95,0% upper confidence bound for difference between proportions: [-0,054986] Null Hypothesis: difference between proportions = 0,0 Alternative: less than Computed z statistic = -,9349 P-Value = 0,04358 Reject the null hypothesis for alpha = 0,05. 4

29 Hypotesetest og konfidensintervaller for variable Da P - værdi = 0.04 < 0.05 forkastes nulhypotesen (svagt) Konklusion: På signifikansniveau 5% er vist, at C-vitamin har en vis forebyggende virkning mod forkølelse, ) Ved en ensidet test er konfidensintervallet ensidet. p p < p < p Eksempel 0.8. Poissonfordelingstest. En bestemt type TV-apparat produceres på fabrikker A og B. Man har mistanke om, at der er forskel på antallet af loddefejl der findes i apparater fra de to fabrikker. For at teste dette, udtages af den løbende produktion stikprøver på 5 TV-apparater, og man optalte antallet af loddefejl i de 5 apparater. Resultaterne blev: Fabrik A: På 0 apparater fandtes i alt loddefejl Fabrik B: På 9 apparater fandtes i alt 7 loddefejl (et apparat måtte udskydes) Test på dette grundlag, om der er forskel på fejlintensiteten på de to fabrikker. Løsning. X antages Poissonfordelt p( µ ). Estimat ~ µ = = ~ 7 X antages Poissonfordelt p( µ ). Estimat µ = = Test nulhypotesen H 0 :µ = µ mod den alternative hypotese H:µ µ : Løsning: Vælg (Compare\Two Samples \Hypotesis tests\poisson Rates\Sample Rate = 0,6\ Sample Rate = 0,368\ Sample Size = 0\ Sample Size = 9\OK) Der fremkommer nu udskriften: Hypothesis Tests Sample rates = 0,6 and 0,368 Sample sizes = 0 and 9 Approximate 95,0% confidence interval for difference between rates: [-0,03485;0,667485] Null Hypothesis: difference between rates = 0,0 Alternative: not equal Computed z statistic =,03775 P-Value = 0,99383 Do not reject the null hypothesis for alpha = 0,05. Warning: normal approximation may not be appropriate for small sample sizes. Da P-Value = 0,99383 > 0.05 accepteres nulhypotesen Konklusion: Man kan ikke på det grundlag vise, at der er forskel på fejlintensiteten på de to fabrikker, 5

30 0. Hypotesetestning ( statistiske variable) OPGAVER Opgave 0. Det påstås at modstanden i en tråd af type A er større end modstanden i en tråd af type B. Til afklaring af denne påstand udtages ved et fuldstændigt randomiseret forsøg tilfældigt n tråde af hver type og deres modstande måles. Find det mindste antal n ) hvis man ønsker at P( fejl af type I ) = α 005., P( fejl af type II ) = β 005. og bagatelgrænsen er = 0. ohm, og man ved, at spredningen σ = 0. ohm. ) hvis man ønsker at P( fejl af type I ) = α 005., P( fejl af type II ) = β 005. og bagatelgrænsen er = 0. ohm, og man har en forhåndsformodning om, at spredningen er ca. σ =0. ohm. 3) Hvilke konklusioner vedrørende behandlingernes virkning kan gøres, såfremt man ved testning af forsøgsresultaterne finder a) signifikans b) ingen signifikans 4) Hvilke yderligere analyser af forsøgsresultaterne bør foretages, såfremt testningen a) viser signifikans b) ikke viser signifikans. Opgave 0. I et forsøg ønsker man at sammenligne udbyttet ved benyttelse af reaktortyper. Man ønsker at kunne påvise eventuelle forskelle i middeludbytte ned til ca. = 6.0. Find den mindste værdi af n = antal delforsøg med hver reaktortype, for hvilken P( fejl af type I ) = α 005., P( fejl af type II ) = β 00.. Man kender ikke spredningen eksakt, men mener, den højst er ca 7 enheder. Opgave 0.3 T Et levnedsmiddelfirma havde udviklet en diæt, som har lavt indhold af fedt, kulhydrater og kolesterol. Diæten er udviklet med henblik på patienter med hjerteproblemer, men firmaet ønsker nu at undersøge diætens virkning på folk med vægtproblemer. To stikprøver på hver 00 personer med vægtproblemer blev udtaget tilfældigt. Gruppe A fik den nye diæt, mens gruppe B fik den diæt, man normalt gav. For hver person blev registreret størrelsen af vægttabet i en 3 ugers periode. Man fandt følgende værdier for gennemsnit og spredning: Gruppe A: x A = 93. kg, s A = 467. Gruppe B: x B = 740. kg, s B = ) Undersøg om vægttabet for gruppe A er signifikant større end for gruppe B. Signifikansniveau α = 5%. ) Beregn et 95% konfidensinterval for differensen mellem de to gruppers middelværdier. 6

31 Opgaver til kapitel 0 Opgave 0.4 På et laboratorium undersøgtes filtreringstiden for en opløsning af et bestemt gødningsstof ved benyttelsen af to forskellige filtertyper (F ) og (F ). Følgende stikprøveværdier observeredes: (F ) (F ) Det antages, at filtrerinqstiderne X og X er normalfordelte l) Test, om det kan antages, at σ = σ. n( µ, σ) og n( µ, σ ) µ = µ ) Test under hensyntagen til det i l) fundne, om det kan antages, at. 3) Opstil et 95% -konfidensinterval for: σ a) µ µ, b). σ Opgave 0.5 Det påstås at modstanden i en tråd af type A er større end modstanden i en tråd af type B. Til afklaring af denne påstand udtages tilfældigt 6 tråde af hver type og deres modstande måles. Følgende resultater fandtes: Modstand i tråd A (i ohm) Modstand i tråd B (i ohm) Hvilke konklusioner kan drages med hensyn til påstanden? Opgave 0.6 I et laboratorium foretoges 5 uafhængige bestemmelser af furfurols kogepunkt, idet 8 af bestemmelserne foretoges af én kemiingeniør, de resterende bestemmelser af en anden kemiingeniør. Resultaterne var ( 0 C ) :. ingeniør ingeniør Undersøg, om de to ingeniørers resultater i middel er ens. Opgave 0.7 Med henblik på at sammenligne de farmakologiske virkninger af stofferne morphin og nalbuphin foretoges et fuldstændigt randomiseret forsøg, hvorved man på 0 forsøgspersoner målte ændringen i pupildiameter (millimeter) efter indsprøjtning af en standarddosis af en opløsning af morphin (M) eller nalbuphin (N). Forsøgsplan og forsøgsresultater var: M:.0 N: 0.0 M:.9 M:.0 N: 0.8 M: 0.8 M:0. N: N : 0.4 N: 0. Analyser forsøgsresultaterne og opstil et 95%-konfidensinterval for differensen µ ( M) µ ( N) mellem de to middelværdier. 7

32 0. Hypotesetestning ( statistiske variable) Opgave 0.8 En produktion af plastikvarer må omlægges på grund af bestemmelser i en ny miljølov. Ved den fremtidige produktion kan inden for miljølovens rammer vælges mellem produktionsmetoder I og II. Metode I er den dyreste, og fabrikanten har regnet ud, at det (kun) kan betale sig at benytte metode I, såfremt den giver et middeludbytte, som er mindst 0 måleenheder (udbytteprocenter) større end udbyttet ved benyttelse af metode II. ) Find det mindste antal n, hvis man ønsker at P(fejl af type I) = α 005., P(fejl af type II) = β 005. og bagatelgrænsen er = 0 enheder. Man kender ikke σ, men har en forhåndsformodning om, at spredningen er højst 6 enheder. )Ved et fuldstændigt randomiseret forsøg fandtes følgende måleresultater: Metode I Metode II Fabrikanten valgte herefter at benytte metode I. Foretag en undersøgelse af, om valget var statistisk velmotiveret. Opstil et 95% - konfidensinterval for differensen mellem middeludbytterne ved benyttelse af metoderne l og II. Opgave 0.9 To sjællandske fabrikker producerer begge en bestemt type kvægfoder, for hvilken det ønskes, at proteinindholdet i færdigvaren skal være 6%. På de fabrikkers driftslaboratorier foretoges følgende målinger af proteinindholdet i en uges produktion: Fabrik Fabrik Foretag en statistisk vurdering af, om de to produktioner kan antages i middel at give kvægfoder med samme proteinindhold. Opgave 0.0 Måling af intelligenskvotient på 6 tilfældigt udvalgte studerende ved en diplom-retning (med mere end 00 studerende) viste et gennemsnit på = 07 og en empirisk varians på =00, x s medens en tilsvarende måling på 4 tilfældigt udvalgte studerende fra en anden diplomretning viste et gennemsnit på = og en empirisk varians på = 64. x s Tyder disse tal på en forskel på studentermaterialet på de to retninger? 8

33 Opgaver til kapitel 0 Opgave 0. l) 00 studerende, 5 piger og 48 drenge, indstillede sig til en prøve, ved hvilken 39 piger og 7 drenge bestod. Undersøg. om det anførte tyder på, at resultatet ved den pågældende prøve afhænger af deltagerens køn. ) Det oplyses supplerende, at pigerne ved ovennævnte prøve opnåede et gennemsnit på 64% med en empirisk spredning på 0%, medens drengenes gennemsnit var 59% med en empirisk spredning på 8%. Undersøg, om det anførte kan tages som vidnesbyrd om, at piger i almindelighed klarer sig bedre end drenge ved den omhandlede prøve. Opgave 0. To sjællandske fabrikker producerer begge en bestemt type kvægfoder, for hvilken det ønskes, at proteinindholdet i færdigvaren skal være 6%. For den omhandlede produktion er der fastsat en øvre og en nedre tolerancegrænse for proteinindholdet. Partier med et proteinindhold uden for toleranceintervallet klassificeres som "dumpere". I en 3-måneders periode havde fabrik af en produktion på 60 foderstofpartier 5 dumpere, medens fabrik af en produktion på 00 foderstofpartier havde dumpere. Kan det heraf statistisk konkluderes, at dumpeprocenten i middel har været størst for fabrik? Opgave 0.3 To virksomheder A og B fremstiller dåser med nominelt 00 g rejeost. 0 tilfældigt udtagne dåser fra A's produktion og 0 tilfældigt udtagne dåser fra B's produktion viste føgende resultater: Virksomhed A B Totalt antal rejer 8 6 Gennemsnittet x af nettoindhold 0. g 98.3 g Empirisk spredning s af nettoinshold.0 g.7 g ) Test, om det gennemsnitlige antal rejer pr. dåse kan antages at være det samme for virksomhedernes produktion. ) Test, om det gennemsnitlige nettoindhold i en dåse kan antages at være det samme for virksomhedernes produktion. Opgave 0.4 ) Mange forbrugere tror, at såkaldte "mandagsbiler", dvs. biler produceret om mandagen, har flere alvorlige fejl end biler produceret på ugens øvrige arbejdsdage. For at undersøge, om der er noget grundlag for denne tro, udtog man på en bilfabrik tilfældigt 00 "mandagsbiler" og undersøgte dem for fejl. Man fandt at 8 biler havde alvorlige fejl. Tilsvarende udtog man tilfældigt 00 biler, der var produceret på ugens øvrige arbejdsdage, og man fandt biler, der havde alvorlige fejl. Giver denne undersøgelse støtte til formodningen om, at "mandagsbiler" er af dårligere kvalitet end andre biler. ) De 00 ovennævnte "mandagsbiler" havde i alt 030 konstaterede større eller mindre enkeltfejl, medens de 00 ovennævnte andre biler i alt havde 899 konstaterede fejl. Tyder dette på, at der er forskel i fejlintensiteten på bilerne i de to grupper? 9

34 0. Hypotesetestning ( statistiske variable) Opgave 0.5 Ved en undersøgelse af en eventuel sammenhæng mellem luftforurening og forekomsten af lungecancer sammenlignedes bl.a. sygdommens forekomst i byen X - købing inden for den gamle bygrænse (i nærheden af byens industrivirksomheder) med dens forekomst i samme bys forstadsområde (villakvarter): Antal tilfælde af lungecancer Samlet indbyggerantal Indre by Forstadsområde ) Det ses. at den relative hyppighed af cancertilfælde i den indre by afviger fra den relative hyppighed i forstadsområdet. Kan dette forklares som et tilfældigt udsving? Den opstillede nulhypotese. som testes, ønskes specificeret med angivelse af den alternative hypotese. ) Diskuter muligheden for at drage årsagsmæssige konklusioner ud fra det fundne testresultat. 30

35 VARIANSANALYSE. Indledning. Indledning I kapitel 0 sammenlignede vi middelværdier. I dette kapitel sammenlignes flere end to middelværdier. Det karakteristiske er, at de forekommende faktorer er kvalitative, dvs. har niveauer, som ikke er karakteriseret ved en målelig egenskab. Dette illustreres i det følgende eksempel. Eksempel. (én faktor). Virkningerne af 4 tilsætningsstoffer T, T, T 3, T 4 på mængden af urenheder ved en kemisk proces ønskes sammenlignet. For hvert tilsætningsstof måles mængden af uønsket stof 3 gange. Forsøgsresultaterne blev følgende: Tilsætningsstof T T T 3 T 4 Mængde urenhed Der ønskes fundet det tilsætningsstof der i middel giver den mindste urenhed. Faktoren tilsætningsstof siges at være en kvalitativ faktor på 4 niveauer. Havde man eksempelvis i stedet på 4 tidspunkter målt mængden af uønsket stof Tid [ i minutter fra starttidspunkt] Mængde urenhed siges faktoren tid at være en kvantitativ faktor. En kvantitativ faktor er altså en talfaktor, hvor det også har mening at spørge om mængde urenhed for mellemliggende værdier. Kvalitative faktorer er derimod ikke talbestemmende, og hvor det naturligvis ikke har mening at se på mellemliggende værdier (såsom tilsætningsstof nr. T.53 ). Problemer, hvor faktorerne er kvalitative analyseres ved en variansanalyse. Er faktorerne alle kvantitative, vil en metode kaldet regressionsanalyse være at foretrække. Hvis nogle faktorer er kvantitative og nogle er kvalitative, kan man dog godt analysere problemet med variansanalyseteknikken, men da findes der mere effektive metoder, som dog ikke behandles i dette notat. 3

36 .Variansanalyse. Ensidet variansanalyse Vi vil i dette afsnit behandle problemer, af den type, som er vist i eksempel., dvs. med én faktor på mere end niveauer. I eksemplet hedder faktoren Tilsætningsstof og den er på 4 niveauer. Det vil i sådanne tilfælde være af interesse at teste om de til niveauerne svarende middelværdier afviger fra hinanden og i bekræftende fald hvilket niveau der giver den største/mindste værdi. I eksempel. ønskes det således at finde det stof, der giver den mindste middelurenhed. Umiddelbart kunne man synes, at så foretager vi blot de samme parvise sammenligninger som i kapitel 0, hvor vi så på differenser mellem middelværdier. Problemet er imidlertid, at selv om de forskellige tilsætningsstofferne giver samme udbytte, så ville støjen i forsøget bevirke, at de mange gennemsnit fordeler sig klokkeformet (normalfordelt), og det vil sige, at den største og den mindste værdi let vil ligge så langt fra hinanden, at man ved at teste på deres differens fejlagtigt slutter, at der er forskel, selv om det faktisk ikke er tilfældet (fejl af type ). For at undgå dette, skal man derfor altid starte med at foretage den i det følgende beskrevne variansanlyse. Giver den, at der ikke er signifikant forskel på middelværdierne, så skal man rette sig efter det, og ikke derefter begynde at se på konfidensintervaller. Giver analysen, at der er en signifikant forskel, så ved man, at der i hvert fald er en signifikant forskel mellem det største og mindste middelværdi. Man kan så ved hjælp af passende konfidensintervaller forsøge at finde ud af om der også er en signifikant forskel mellem den største og næststørste værdi osv. I afsnit.. gives en forståelse for den teoretiske baggrund for variansanalyser. Forklaringen understøttes af et eksempel, hvor regningerne foretages med lommeregner uden et egentligt statistikprogram. En oversigt over de anvendte formler findes i oversigt.. I samme eksempel vises dog også, hvorledes man ved hjælp af TI-89 og Statgraphics let kan finde de samme størrelser....forklaring af metode og formler Vi betragter igen eksempel.. Opstilling af nulhypotese. Lad X i = mængden af uønsket stof ved tilsætning af stof T i. hvor i {, 34,, } Idet de 4 variables middelværdier kaldes µ, µ, µ 3 ogµ 4 : µ = µ = µ = µ H ønsker vi at teste nulhypotesen, mod H: mindst én middelværdierne er forskellig fra de øvrige. Forsøgets udførelse. Forsøget skal udføres som et fuldstændigt randomiseret forsøg. (jævnfør kapitel 0 hvor et sådant forsøg er beskrevet). Derved sikrer vi, at der udføres et "statistisk gyldigt" forsøg. Hvis vi derfor, efter at have foretaget en ensidet variansanalyse, konkluderer, at der er forskel på tilsætningsstofferne, så er det "korrekt", idet det ville være helt tilfældigt, hvis én af tilsætningsstofferne har været begunstiget med særlig gode forsøgsenheder. 3

37 .. Ensidet variansanalyse Beregning af gennemsnit og spredning. For at få et skøn for mængden af urenheder, udregnes gennemsnittene for hvert tilsætningsstof. Disse er angivet i nedenstående skema. Umiddelbart ud fra gennemsnit synes T 4 at adskille sig fra de tre øvrige, men hvis der er stor spredning, kan det måske blot være et tilfælde. Det er derfor naturligt at udregne spredningerne, hvilket derfor også er anført i skemaet. T T T 3 T 4 Gennemsnit Spredning Forudsætninger. ) De 4 variable T, T, T 3 og T 4 skal være statistisk uafhængige. En måling af mængden af urenhed eksempelvis med tilsætningsstoffet T 3 må ikke afhænge af hvilke målinger der inden da er sket. Kravet må opfyldes ved en hensigtsmæssig forsøgsplan, bl.a. ved at randomisere. ) De 4 variable T, T, T 3 og T 4 skal være tilnærmelsesvis normalfordelte. 3) De 4 variable T, T, T 3 og T 4 skal have samme varians (kort: der skal være varianshomogenitet) Kravene i punkt og 3er sædvanligvis opfyldt i praksis, da det heldigvis er sådan, at analysen stadig er gyldig selv om der foreligger mindre afvigelser, hvis blot antallet af gentagelser for hvert niveau er den samme. Dette gælder i eksempel., hvor der er 3 gentagelser for hvert tilsætningsstof. Man siger kort, at analysen er robust overfor afvigelser fra normalitet og varianshomogenitet. hvis blot antallet af gentagelser er den samme. Vi vil derfor sædvanligvis antage, at forudsætningerne er opfyldt. Er der derimod forskelligt antal gentagelser, bliver analysen følsom overfor afvigelser. Er man i tvivl om kravet om normalitet er rimeligt opfyldt, kan man få et grafisk indtryk af, om der er alvorlige afvigelser, ved at tegne såkaldte normalfordelingsplot. Der findes en lang række test som undersøger om kravet om varianshomogenitet er rimeligt opfyldt. Her kan nævnes ( simplificerede F - test, Bartletts test, Levines test ) som alle er beskrevet i oversigt. og.). Er forudsætningerne ikke opfyldt kan man eventuelt udføre en rangtest (se eventuelt kapitel 5) Vi vil i det følgende antage, at forudsætningerne er opfyldte. Pooling. Da de 4 varianser antages at være nogenlunde ens, beregnes et vægtet gennemsnit, i forhold til frihedsgraderne (man foretager en pooling ). Lad N = n + n + n + n (=) og r = antal niveauer (=4) s 3 4 ( n ) s + ( n ) s + ( n ) s + ( n ) s ( 3 ) ( 3 ) ( 3 ) ( 3 ) = = ( n ) + ( n ) + ( n ) + ( n ) N r e SAK0 = = = s e er variansen for forsøgsfejlen eller på engelsk error. s e har N - r = 8 frihedsgrader. Det kan også ses af, at da hver af varianserne s i er baseret på n = 3 målinger har de hver frihedsgrader (f = n - = 3 - ). s e har derfor 4 = 8 frihedsgrader. 33

38 .Variansanalyse Beregning af F - test. Antages nulhypotesen at være sand, dvs. udbyttet fra de 4 tilsætningsstoffer har samme middelværdi, er den eneste grund til, at vi ikke får samme gennemsnit i de 4 tilfælde, den ukontrollable støj (forsøgsvariablens variation) som forekommer ved forsøgets udførelse. Indtastes de fire gennemsnit i en lommeregner findes s x = Et gennemsnit af n tal har en varians, der er n gange mindre end variansen på den enkelte måling. I dette tilfælde er n = 3. Et estimat for støjens varians forudsat nulhypotesen er sand er derfor sr = 3 sx = = Frihedsgradstallet er f R =antal niveauer - = 4 - = 3. s R Hvis nulhypotesen er sand burde sr se eller, mens hvis nulhypotesen er falsk se sr (middelværdierne er forskellige) er sr > se dvs. forholdet F = være signifikant større end. se sr 35 Da F = = = 46. er spørgsmålet derfor, om dette tal er signifikant større end. s e Da forholdet mellem de to varianser (som sædvanlig) er F - fordelt med f R = 3 frihedsgrader i tælleren og f e = 8 i nævneren kan vi afgøre dette ved at regne P - værdien ud. Konfidensintervaller. Disse beregnes kun hvis vi får en forkastelse af nulhypotesen, og dermed ved, at den største og den mindste middelværdi er signifikant forskellige. Om nogle af de øvrige middelværdier er lige så gode som den optimale vil ofte være af interesse. De sædvanlige konfidensintervaller for hvert niveau bestemmes ved (jævnfør oversigt.): x. ± r hvor rkon = t α ( N r ) i kon se n se I vort tilfælde er rkon = t α ( N r) = t0975. ( 8) = = n 3 og konfidensintervallet xi. ± rkon = xi. ±3673. Konfidensintervallerne for middelværdier overlapper derfor ikke, hvis afstanden er større end r kon. Imidlertid vil disse intervaller være lidt for brede, dvs. selv om der faktisk er en forskel på middelværdier, så overlapper intervallerne hinanden, så man opdager det ikke. Man kunne så foretage parvise sammenligninger svarende til de konfidensintervaller vi fandt i kapitel 0. Her vil man kunne opdage en forskel, hvis middelværdiernes afstand er større end r kon. nn ( ) Problemet er imidlertid her, at hvis vi har n middelværdier, så vil der være parvise sammenligninger. For hver af disse sammenligninger er der jo en vis sandsynlighed for at begå en fejl af type, dvs. påstå der er en forskel som reelt ikke er der. Sådanne fejl vil jo hobe sig op, hvis man foretager mange sammenligninger, så sandsynligheden for at begå en fejl af type kunne blive betragtelig. Konfidensintervaller, der beror på parvise sammenligninger kaldes LSD intervaller (Least rkon Significance Difference), og er bestemt ved, at deres radius er rlsd = rkon = 34

39 .. Ensidet variansanalyse Vi har derfor xi. ± rlsd = xi. ± xi. ± = xi. ±. 597 De fleste statistikprogrammer har en række andre metoder til beregning af konfidensintervaller, som søger at formindske sandsynligheden for at begå fejl af type og type. Statgraphics har således indbygget Tukey, Scheffe og Bonferronni s metoder. Vi vil i dette notat kun se på ovennævnte to typer, og hvis vi har få middelværdier stole mest på LSD-intervallerne.... Beregning af ensidet variansanlyse Vi vil regne eksempel. ved at benytte formlerne i oversigt. I appendix A og B regnes det tilsvarende eksempel ved benyttelse af henholdsvis TI - 89 og Statgraphics. Eksempel. (én faktor). Virkningerne af 4 tilsætningsstoffer T, T, T 3, T 4 på mængden af urenheder ved en kemisk proces ønskes sammenlignet. For hvert tilsætningsstof måles mængden af uønsket stof 3 gange. Forsøgsresultaterne blev følgende: Tilsætningsstof T T T 3 T 4 Mængde urenhed Der ønskes fundet det tilsætningsstof der i middel giver den mindste urenhed. Løsning: X i = mængden af uønsket stof ved tilsætning af stof T i. hvor i {, 34,, } µ X i antages approksimativt normalfordelt med middelværdien i og spredning σ i. Vi ønsker at teste H 0 : µ = µ = µ 3 = µ 4, mod H: mindst én middelværdierne er forskellig fra de øvrige. Antal forsøg N =. Antal niveauer r = 4. Antal gentagelser n = 3. Gennemsnit og spredning beregnes: T T T 3 T 4 Gennemsnit Spredning s e = = = Frihedsgrad fe N r 4 8 = = 4 = 8 Spredningen s x på de 4 gennemsnit beregnes: s x = 667. sr = n sx = = Frihedsgrad fr = r = 3 sr 35 F = = = 46.. P - værdi = P(F > 4.6) = FCdf(4.6,,3,8) = s e Da P - værdi = < 0.05 forkastes nulhypotesen (svagt). Konklusion: De fire tilsætningsstoffer har ikke samme virkning. Mindst af middelurenhederne er forskellige. 35

40 .Variansanalyse Konfidensintervaller: Ud fra gennemsnittene ses, at T er signifikant mindre end T 4. Om de øvrige tilsætningsstoffer giver lige så lidt urenhed som T må afgøres ved opstilling af konfidensintervaller. Som nævnt i indledningen, må man kun foretage en vurdering ud fra konfidensintervaller, hvis ovennævnte F - test har vist, at der er en signifikant forskel. De sædvanlige konfidensintervaller for hvert niveau (jævnfør oversigt.): se x r hvor i. ± kon rkon = t α ( N r) = t0975. ( 8) = = n 3 x. ± r = x. ±3673. i kon i LSD konfidensinterval: rkon rlsd = rkon =, xi. ± rlsd = xi. ± = xi. ± 597. T T T 3 T 4 Gennemsnit % konfidensinterval [06.33;3.67] [04.33;.67] [07.00;4.33] [.33;9.67] 95% LSDkonfidensinterval [07.40;.60] [05.40;0.60] [08.07;3.6] [3.40;8.60] Konklusion: Begge metoder viser, at man får den mindste urenhed, hvis man vælger enten T, T eller T 3 (de kan ikke adskilles). 36

41 .3 Tosidet variansanalyse.3 Tosidet variansanalyse.3. Indledning. Har man kvalitative faktorer vil det også være naturligt at udføre en variansanlyse, men da man her kan risikere, at de to faktorer spiller sammen på en uventet måde, bliver forholdene noget mere kompliceret. Til gengæld kan begreberne her så umiddelbart generaliseres til forsøg med mere end faktorer..3. Planlægning af forsøg. I dette afsnit benyttes følgende eksempel som illustration af begreberne. Eksempel.3. En bilfabrikant ønsker at finde ud af hvorledes 3 olieblandinger O, O, og O 3, og karburatortyper K og K påvirker benzinforbruget. Vi har et forsøg med kvalitative faktorer: olieblanding og karburator. Faktoren "olieblanding" er på 3 niveauer O, O, og O 3, mens faktoren "karburator" har niveauer nemlig K og K. Man har (ved en dimensionering) fundet, at for at få de tilstrækkelig relevante oplysninger skal hvert niveau gentages mindst 4 gange..3.. Een faktor ad gangen I mange forsøgsvejledninger står, at man bør kun variere en faktor ad gangen. Alle andre faktorer end den udvalgte fastholdes på et bestemt niveau. En forsøgsplan efter disse retningslinier kunne eksempelvis være som skitseret nedenfor, hvor hvert delforsøg er markeret med et : Olieblanding O Karburator K K O O 3 I dette eksempel, hvor der kun er faktorer, vælger vi først at variere olieblandingen, mens den anden faktor fastholdes. Idet vi har valgt først at fastholde karburatoren på niveauet K, kan forsøget udføres således: af de 6 biler, som skal anvendes, udstyres med karburator K, og derefter (randomiseret) får 4 af disse biler olieblanding O, 4 andre biler olieblanding O, og de sidste 4 biler olieblanding O 3. Efter at have kørt en udvalgt strækning måles benzinforbruget. Derefter varieres den anden faktor ( her karburator), mens olieblandingen fastholdes på O, dvs. de sidste 4 biler udstyres med karburator K og olieblanding O. Igen gennemkøres den udvalgte strækning, og benzinforbruget måles. Det er vigtigt, at hver behandling har lige mange gentagelser. Da hvert af de 4 niveauer skal gentages mindst 4 gange, så må hver behandling gentages 4 gange, så der er i alt 6 delforsøg. 37

42 .Variansanalyse Indtegnes for hver karburator det gennemsnitlige benzinforbrug mod olie-blandingen kunne vi eksempelvis få tegningen på fig... Umiddelbart ses, at K giver lavest benzinforbrug, og O (eller O 3 ) skal foretrækkes. Hvad nu med benzinforbruget i karburator K, hvis vi anvender olieblanding O eller O 3? Kan man slutte, at benzinforbruget ved olieblanding O og O 3 er lavere, når man bruger karburator K, end når man bruger karburator K? Kun, hvis man ud fra tekniske eller andre grunde mener at vide, at "karburatorkurven" for K er parallel med kurven for K, så er forsøgsplanen anvendelig, men ikke den bedste. Fig. Skitse af benzinforbrug En statistisk set bedre forsøgsplan som endda ofte er mindre ressourcekrævende, er følgende:.3.. Fuldstændig faktorstruktur Denne plan består i, at hvert niveau af den ene faktor kombineres med ethvert niveau af den anden. Planen kan skitseres således: Karburator K K Olieblanding O O O 3 Her er hver af de 6 behandlinger gentaget gange, dvs. i alt er der udført delforsøg. Hermed er kravet opfyldt om at hvert niveau skal gentages mindst 4 gange. I " en faktor ad gangen" var vi tvunget til at udføre 6 delforsøg, mens vi kun skal lave delforsøg i det "fuldstændige faktorforsøg". Vi kan altså nøjes med færre delforsøg, når vi laver et fuldstændigt faktorforsøg. Indtegnes for hver karburator det gennemsnitlige benzinforbrug mod olie-blandingen, kan det eksempelvis vise sig, at man får figur.. Vi ser, i modstrid med hvad vi antog ud fra "en faktor ad gangen forsøget", at kombinationen af katalysator K og olieblanding O giver det laveste benzinforbrug. 38 Fig.. Vekselvirkning

43 .3 Tosidet variansanalyse Det ses, at de to kurver ikke er parallelle. Dette kunne være tilfældigt og blot skyldes forsøgets støj, men det kunne også være signifikant, og derfor være udtryk for en såkaldt "vekselvirkning". En model uden vekselvirkning (kurverne tilnærmelsesvis parallelle) siges at være additiv Formler og metode Vi vil i det følgende kun analysere forsøg med en fuldstændig faktorstruktur, og hvor hver behandling har lige mange gentagelser (samme antal delforsøg i hver celle ). Et eksempel på et sådant forsøg er Eksempel.4. En bilfabrikant ønsker at finde ud af, hvorledes 3 olieblandinger O, O, og O 3, og karburatortyper K og K påvirker benzinforbruget. Forsøgsresultaterne er følgende: Karburator K K O Olieblanding O O Angiv hvilke kombinationer af karburator og olieblanding der giver det laveste forbrug, og giv et estimat for dette forbrug. Symbolik: Lad os kalde rækkefaktoren for R, antal rækkeniveauer r, søjlefaktoren for C, antal søjleniveauer for q og antal gentagelser af hver behandling n. Det totale antal delforsøg er følgelig N = r q n. I eksempel.4 er R = olieblanding, r = 3, C = karburator, q =, n = og N =. Forudsætninger Disse er de samme som ved den ensidede variansanalyse. Analysen er også her robust overfor afvigelser fra normalitet og varianshomogenitet, blot antallet af gentagelser i hver celle er den samme. Opstilling af nulhypotese Det første man skal teste må være, at undersøge om modellen er additiv, dvs. om den er uden en signifikant vekselvirkning. Nulhypotesen skrives så kort H0: R C = 0 (faktorerne vekselvirker ikke) og den alternative hypotese HRC : 0 (faktorerne vekselvirker ) Der er nu to muligheder: ) H 0 forkastes, dvs. faktorerne vekselvirker Ved hjælp af konfidensintervaller for alle r q celler søger man at finde den optimale kombination af faktorer. ) H 0 accepteres, dvs. modellen er additiv. Man tester nu nulhypoteserne H : R = ( rækkefaktoren har en virkning) 0 0 H0: C = 0 (søjlefaktor har en virkning) Finder man eksempelvis at H0: R = 0 forkastes, mens H0: C = 0 accepteres, konkluderes, at kun rækkefaktoren har en virkning, og man opstiller eventuelt konfidensintervaller til bestemmelse af det optimale niveau. 39

44 .Variansanalyse Beregninger: Hvorledes man foretager testen ved hjælp af en lommeregner er beskrevet i oversigt.. Da specielt beregningerne af SAK erne er temmelig omfattende, og næppe giver en dybere forståelse,vil vi dog sædvanligvis benytte TI-89 eller Statgraphics hertil. Programmerne dækker dog ikke alle muligheder, så i enkelte tilfælde må man derfor benytte formlerne for eksempelvis konfidensintervaller. Anskuelig forklaring på hvorledes man kan beregne vekselvirkning: Her gives kun en kort forklaring, som kan tjene til at forstå baggrunden for beregningerne, der i øvrigt med fordel kan foretages af et statistikprogram. I nedenstående skema er skitseret et forsøg med faktorer R og C. R er på 3 niveauer, og C er på 4 niveauer. Der er gentagelser af hver "behandling"(treatment). C C C 3 C 4 R R R For hver af de celler kan man udregne et skøn for spredningen. Hvis man forudsætter at spredningen er nogenlunde den samme i alle tilfælde, kan man poole de s sammen til et fælles skøn s 0 for spredningen på forsøgsfejlen (støjen). Den vil have frihedsgrader, da hvert enkelt s har frihedsgrad. I nedenstående skema er beregnet gennemsnit for hver celle, hver række, hver søjle og totalt. C C C 3 C 4 Gennemsnit R R R Gennemsnit Tallene er konstrueret således, at vi har en helt præcis model uden vekselvirkning (R = R + 7, R 3 = R + ). For en sådan model gælder helt præcist, at resultatet i celle (i, j) fås af formlen RC i,j =R i + C j - totale gennemsnit. Eksempel: RC,3 = 0 og R + C 3 - totale gennemsnit = = 0. I praksis vil dette naturligvis aldrig være tilfældet på grund af den tilfældige variation (støj), men udregnes kvadratet på afvigelserne (SAK), og disse afvigelser ikke er større end hvad er rimeligt i forhold til støjen ( s 0 ), vil vi kunne konkludere at der ikke kan konstateres nogen vekselvirkning..3.4 Beregning af tosidet variansanalyse Som nævnt er der hovedtilfælde nemlig om der konstateres vekselvirkning eller ej. Vi vil derfor dele i det følgende regne to eksempler som illustrerer hver sin situation Model med vekselvirkning. Eksempel.4. En bilfabrikant ønsker at finde ud af, hvorledes 3 olieblandinger O, O, og O 3, og karburatortyper K og K påvirker benzinforbruget. Forsøgsresultaterne er følgende: Karburator K K O Olieblanding O O Angiv hvilke kombinationer af karburator og olieblanding der giver det laveste forbrug, og giv et estimat for dette forbrug. Løsning: I oversigt. er de såkaldte SAKér beregnet, og ud fra dem er det nemt at opstille en såkaldt variansanalysetabel 40

45 .3 Tosidet variansanalyse Man finder Variation SAK=SS f =df s = SAK f F Rækkefaktor R : Olieblanding fr = r = Søjlefaktor C : Karburator f = C q = Vekselvirkning R*C frc = ( r )( q ) = F RC = RC s0 s =5.38 Gentagelser (Residual, Error) fe = r q ( n ) = Total ftotal = N = ) H0: R* C = 0 ( Ingen signifikant vekselvirkning) P - værdi = PF ( > =538. ) =FCdf( 5.38,,,6) ) = F RC Da P - værdi = < 0.05 forkastes H 0 (svagt). Konklusion: Begge faktorer har en virkning i form af en vekselvirkning. ) Beregning af 95% konfidensintervaller: Ifølge oversigt. er konfidensintervaller for hver celle: x r ; x + r, hvor radius er [ ] ij kon ij kon se 600 rkon = t α ( r q ( n )) = t ( 3 ( ) = = n Vi finder gennemsnittene i hver celle Olieblanding Gennemsnit Karburator K K O O O % konfidensinterval Karburator K K O [80.6 ; 887.3] [78.6; 867.4] Olieblanding O [9.6 ; 007.4] [99.6 ; 077.4] O 3 [79.6 ; 877.4] [877.6 ; 96.4] Det ses. at umiddelbart giver K O det laveste benzinforbrug, men af konfidensintervallerne ses, at der ingen signifikant forskel er mellem K O,K O 3 og K O. 4

46 .Variansanalyse Additiv model: Model uden vekselvirkning Eksempel.5 I forbindelse med nogle brudstyrkebestemmelser for Portland-cement udføres et fuldstændigt randomiseret forsøg til undersøgelse af middelbrudstyrkens afhængighed af cementblandere og cementknusere. Med hver af 4 cementblandere udstøbtes efter blanding med vand cementterninger, som efter en uges lagring underkastedes en brudstyrkeprøve ved hjælp af en af 3 cementknusere. Forsøgsresultaterne var: Cementknusere 3 4 Cementblandere ) Angiv hvilke kombinationer af cementblander og cementknuser, der giver den største brudstyrke, og giv et estimat og et 95% konfidensinterval for denne største middelbrudstyrke. ) Da cementknuser og cementblander er de billigste ønskes opstillet under hensyntagen til resultatet af ) et 95% - konfidensinterval for middelværdien af brudstyrken, når disse anvendes. Løsning: Lad os antage, at SAK erne er beregnet (se evt. oversigt.). Ud fra dem er det nemt at opstille en såkaldt variansanalysetabel Man finder SAK F Variation SAK=SS f =df s = f Rækkefaktor R : Cementblander SAK R = fr = r = s R = Søjlefaktor C : Cementknuser SAK C = fc = q = 3 s C = Vekselvirkning R*C SAK RC = 7.6 frc = ( r )( q ) = 6 = 87. s RC F RC = s RC e s =.33 Gentagelser (residual, error) SAK e = 70.7 fe = r q ( n ) = 4 s e = Total ftotal = N = 35 ) a) H0: R* C = 0 ( Ingen signifikant vekselvirkning) P - værdi = PF ( > =33. ) =FCdf(.33,,6,4) ) = F RC Da P - værdi = > 0.05 accepters. H 0 Konklusion: Vi antager i det følgende, at vekselvirkningen er forsvindende. 4

47 b) Vi antager nu, at s RC = 87. også er et estimat for støjens varians..3 Tosidet variansanalyse Inden vi tager stilling til om faktorerne har en hovedvirkning, pooles derfor s RC med til SAKe + SAK RC et nyt estimat sm = = = f + f 30 e RC F knuser = = P - værdi =P(F > 8.3) = FCdf(8.3,,3,30) = F blander = =. 7. P - værdi =P(F >.7) = FCdf(.7,,,30) = Det giver følgende tabel: Variation SAK=SS f = df s F P - værdi Cementblander : R Cementknuser : C Residual H 0 : C = 0 (Cementknuser har ingen virkning) forkastes, da P - værdi = < 0.05 H 0 : R = 0 (Cementblander har ingen virkning) accepteres, da P - værdi = 0. > 0.05 Konklusion: Cementknuserne har en (stærk) virkning Cementblandere har ingen virkning Beregning af 95% konfidensintervaller: Da cementblandere ingen virkning har pooles s R med s m (se oversigt. punkt 4) SAK R SAKm sm = = 7 = 065. med frihedsgradstal f f + f 3 m = 3 R m [ x r x r ] ij kon ; ij + kon, hvor radius er sm 065 rkon = t0975. ( fm ) = t = =. ( ) nr 33 Vi finder gennemsnittene i hver søjle Cementknusere 3 4 Gennemsnit Konfidensinterval [6.3; 69.7] [89. ; 3.5] [3.9; 76.3] [5.; 68.6] Konklusion: Cementknuser og 4 må foretrækkes, selv om man ikke helt kan afvise at cementknuser kan være lige så god. Et estimat for største middelbrudstyrke: 48 95% konfidensinterval [6.3 ; 69.7] ) Cementknuser : Middelbrudstyrke: % konfidensinterval [89, ; 3.5] s e 43

48 .Variansanalyse.4 Fuldstændigt randomiseret blokforsøg. I forbindelse med planlægningen af et forsøg, kan man blive tvunget til at benytte forsøgsenheder, som er ret uensartede. Derved får den tilfældige forsøgsfejl en relativ stor spredning (stor støj ). Dette kan bevirke, at man skal op på et urealistisk stort antal gentagelser for at kunne opnå den ønskede information. For at dæmpe støjen kan man inddele forsøgsenhederne i grupper (blokke), hvor de forsøgsenheder der ligger i samme blok er væsentlig mere ensartede end forsøgsenhederne i forskellige blokke. Man siger, at man har et fuldstændigt randomiseret blokforsøg, hvis hver behandling forekommer det samme antal gange (sædvanligvis netop én gang) i hver blok. Til illustration heraf, så betragter vi igen forsøget beskrevet i eksempel.. Eksempel.6 (randomiseret blokforsøg). En bilfabrikant ønsker at finde ud af, hvorledes 3 olieblandinger O, O, og O 3, og karburatortyper K og K påvirker benzinforbruget. Forsøget planlægges som et fuldstændigt faktorforsøg idet hvert niveau skal gentages mindst 4 gange. Dette betyder at der skal udføres delforsøg. Et delforsøg med én bil tager dag.( tank = 40 liter: Kører ca. 5 km/l så 40 liter = 600 km, hvilket giver ca. 7 timer med 80 km/time). Af tidsmæssige grunde kan man ikke benytte dage til forsøget. Der benyttes biler med tilhørende chauffør, hvilket forkorter forsøgstiden til 6 dage. Da de to biler (med tilhørende chauffør) kan frygtes at give systematisk forskellige resultater, ønskes foretaget et randomiseret blokforsøg med biler som blokke. ) Angiv fordele og ulemper ved at foretage et randomiseret blokforsøg fremfor et fuldstændigt randomiseret forsøg. ) Beskriv hvorledes en randomisering kunne tænkes at foregå. 3) Skitser udseendet af en variansanalysetabel med angivelse af frihedsgrader. Løsning: ) Fordele: Begrundelsen for ikke at foretag et fuldstændigt randomiseret forsøg er, at to biler frygtes at give så stor spredning, at selv betydelige forskelle ikke kan påvises. Ved blokforsøget er støjen, der skyldes eventuelle forskelle mellem biler elimineret Større mulighed for stabilt vejr i 6 dage end i dage, hvilket også formindsker spredningen. Ret få delforsøg, Ulempe: Selv på 6 dage kan vejret skifte og give anledning til stor spredning. ) Randomisering: To dåser mærkes henholdsvis bil og bil. Behandlingen O K skrives på sedler som anbringes i hver sin dåse, behandlingen O K skrives på sedler som anbringes i hver sin dåse osv. (se figuren). Man trækker nu først de 6 sedler fra dåse med mærket bil. Lad den første seddel der trækkes være O K. Det betyder nu, at bil skal forsynes med karburator og olieblanding og køre dag. Lad den næste seddel der trækkes være O 3 K. Det betyder tilsvarende at bil skal forsynes med karburator og olieblanding 3 og køre dag. Således fortsættes indtil alle 6 sedler er udtrukket Resultatet blev: bil dag O K dag dag 3 dag 4 O 3 K O K O K dag 5 O K dag 6 O 3 K Bil Bil 44

49 .4 Fuldstændigt randomiseret blokforsøg Derefter fortsættes med at trække sedler fra dåsen med mærket bil. bil dag dag dag 3 dag 4 dag 5 dag 6 O K O 3 K O K O K O 3 K O K Resultatet blev: 3) Analyse: Tresidet variansanalyse: Bemærk: Vi antager altid, at blokke ikke vekselvirker med faktorerne, idet vi forudsætter, at den ene blok (eksempelvis bil ) bidrager med en systematisk højere resultat end den anden blok (eksempelvis at bil på alle dage giver et større benzinforbrug end bil ). K K Variansanalyse SAK f O - - Blokke (biler) Bil O - - Olieblanding O Karburator O - - Olie * karburator Bil O - - Residual 5 O Total Bemærk: Selv om analysen viser, at blokkene mod forventning ikke kan antages at have betydning, må man ikke poole blokkene ned, da det svarer til, at man analyserer forsøget som om det var et fuldstændigt randomiseret forsøg. Eksempel.7 (randomiseret blokforsøg) I nedenstående tabel er anført resultaterne af et fodringsforsøg med svin. Formålet med forsøget var at undersøge, hvorvidt en ændring af vitaminindholdet i foderet gav en forskel i svinenes vægtforøgelse. Vægtforøgelsen afhænger imidlertid også af det enkelte individs genetiske egenskaber. Et fuldstændigt randomiseret forsøg vil derfor sandsynligvis kunne bevirke, at forsøgsfejlens spredning bliver så stor, at intet kan påvises (forsøget drukner i støj). Da grise fra samme kuld må forventes at være mere ensartede, vælger man at lave et randomiseret blokforsøg med kuld som blokfaktor. Fra hvert af 4 forskellige kuld grise udtages 3 grise, der bliver fodret med hver sin af tre fodertyper A, B og C med forskelligt vitaminindhold. Forsøgsresultaterne (vægtforøgelse i kg) var Fodertype A B C Kuld Test, om der er nogen væsentlig virkning af ændringen i foderets vitaminindhold. 45

50 .Variansanalyse Løsning: H 0 : Foder har ingen virkning. Lad os antage, at SAK erne er beregnet (se evt. oversigt.). Ud fra dem er det nemt at opstille en såkaldt variansanalysetabel Man finder Variation SAK=SS f = df s = SAK f F Faktor :Foder 54.5 fr = r = 7.06 s Ffoder = foder s = residual Blok: Kuld fc = q = Residual fresidual = ftotal f foder fkuld = Total ftotal = N = P - værdi = PF ( > ) = FCdf(5.756,,,6) = Da P - værdi = < 0.05 forkastes H 0, dvs. Konklusion: Der sker en væsentlig ændring i vægtforøgelsen ved at ændre foderblanding. Konfidensintervaller kunne vise hvilken foderblanding der skal foretrækkes. Da der ser ud til at være en blokvirkning, vil vægtforøgelsen afhænge af hvilket kuld der er det bedste, så konfidensintervaller kan kun bruges til relative sammenligninger 46

51 Oversigt. OVERSIGT.. Formler til beregning af ensidet variansanalyse I denne oversigt vises hvorledes man kan beregne en ensidet variansanalyse, blot man har en lommeregner der kan beregne gennemsnit og spredning. For hvert observationssæt udregnes gennemsnit og spredning. Faktor Observationer Gennemsnit Spredning R x, x, x 3,..., x n x. s R x, x, x 3,..., x n x. s R 3 x 3, x 3, x 33,..., x 3n x 3. s 3 R r x r, x r, x r3,..., x r n x r. s r Forudsætning: x ij - værdierne er uafhængige observationer af statistisk uafhængig normalfordelte variable X i med middelværdi µ i og samme varians σ. For hver af de r - faktorniveauer er der lige mange gentagelser n af x - værdier, dvs. i alt N = n r observationer. Beregninger: s + s sr Man beregner se =. se har r( n ) = N r frihedsgrader. r Man indtaster de r gennemsnit x., x.,..., x r. i lommeregneren og finder spredningen s x. sr sr = n sx. FR = se Testprocedure. Nulhypotese: H0: µ = µ =... = µ r H0: R= 0 Ladα være signifikansniveau.. H 0 forkastes, hvis P - værdi = PZ ( > F) <, hvor Z er F - fordelt. Konfidensintervaller: Lad rkon = t α ( N r) Konfidensinterval for : LSD Konfidensinterval for µ i : x R α ( ft, f N ) = ( r, N r) se n µ [ x r x r ] i i. kon ; i. + kon rkon rkon. ; xi. + i 47

52 Oversigt. Variansanalysetabel: (ANOVA = ANalysis Of VAriance) Variation (Source) SAK (SS) f (df) s = SAK f F P - værdi Behandlinger (Between groups) SAK R r - s R = SAKR r F R = s s R 0 Gentagelser (Within groups) (error) SAK e N - r s SAK 0 e = N r Total SAK total N - Der gælder: SAK total = SAK R + SAK e Model. Ladα være signifikansniveau. µ + µ µ n Lad µ. =. r Vi kan da skrive µ = µ. + ( µ µ.) = µ. + R = µ. + Rækkevirkning i i i Varianshomogenitet. H0: σ = σ =... = σk Test for, at de variable Y i har samme varians σ a) Simplificeret F-test. Lad den største værdi af de k estimerede varianser være og den mindste være. s max s Beregn teststørrelsen F = max. smin Lad Y være F - fordelt med frihedsgraderne f = f = n tæller H 0 forkastes, hvis P - værdi = PY ( > F) < α. Hvis nulhypotesen accepteres, så antages kravet om varianshomogenitet at være opfyldt. Hvis nulhypotesen forkastes, må anvendes en test med større styrke såsom Bartletts test eller Levines test. b ) Bartletts test. Denne test er beregningsmæssigt vanskelig, og har den svaghed, at den er særdeles følsom overfor afvigelser fra normalitet. k ( ni ) si i= ( N k) ln ( ni ) ln( si ) N k Beregn teststørrelsen χ = k N k i= ni 3( k ) Lad Y være - fordelt med frihedsgrade k -. H 0 forkastes, hvis P - værdi = PY ( > χ ) < α. χ nævner s min 48

53 b) Levines test. God test, som imidlertid kræver mere end gentagelser. d y y hvor i =,,..., k ij = ij $ i j =,,..., ni $y i n i Oversigt. Lad, hvor er medianen af de gentagelser af i te behandling. Man udfører en sædvanlig ensidet variansanlyse på tallene d ij Median af en række tal Tallene ordnes i voksende rækkefølge: Ulige antal tal: median = midtertal blandt de ordnede tal, Lige antal tal: median = genemsnit af de to midterste blandt de ordnede tal Eksempel: Tal fra eksempel.. $y i d ij T 08, 0, 0, 0, T 05, 0, ,, 0 T 3 08,, 3 3, 0, T 4 7, 9, 7 0,, 5 d ij En ensidet variansanlyse på giver F = 0.5, og dermed P -værdi = 0.985, dvs. en accept af nulhypotesen. Forklaring på konstruktion af normalfordelingsplot. Et koordinatsystemet har en lodret akse, hvor inddelingen er normalfordelt, dvs fordelingsfunktionen for en normeret normalfordeling vil i dette koordinatsystem blive en ret linie. I dette koordinatsystem placeres residualerne som vist: Lad residualerne (fra eksempel.) -, 0,, -3,,, -.7, 0.3,.3,, 3, -4 De ordnes i rækkefølge og man beregner deres komulative frekvens i Residualer x i 05. y= 00 % percentage Normal Probability Plot for RESIDUALS 99, , RESIDUALS Hvis residualerne er aproksimativt normalfordelt burde punkterne (x,y) afsat i koordinatsystemet tilnærmelsesvis de ligge på en ret linie. 49

54 Oversigt. OVERSIGT.. Formler til beregning af tosidet variansanalyse I denne oversigt vises hvorledes man kan beregne en tosidet variansanalyse, blot man har en lommeregner med gennemsnit og spredning. Som taleksempel benyttes eksempel.. Forsøgsresultaterne er følgende: Karburator Olieblanding K K O O O Beregning af gennemsnit. Karburator K K Rækkegennemsni t O Olieblanding O O Søjlesum Antal rækker r = 3, Antal søjler q =, Antal delforsøg i celler n = Antal delforsøg i række = n q = = 4. Antal delforsøg i søjle n r = = Antal celler, Totalt antal forsøg. 3 6 r q = 3 = 6 N = r q n = 3 = Spredning på de r rækkegennemsnit: s xr = Spredning på de q søjlegennemsnit: s xq = Spredning på de r q cellegennemsnit: s celler = Beregninger: SAK = ( N n q) s = ( 4) = , f = r = rækker xr xq SAKsøjler = ( N n r) s = ( 6) = , f C = q = SAKceller = ( N n) s celler = ( ) = 7466., f celler = r q = 5 SAK = SAK SAK SAK = , f = f f f = vekselvirkning celler rækker søjle R RC celler R C SAK = ( N ) s = ( ) = , f = N = total total total SAK = SAK SAK = f = f f = 6 e(=error=residual) total celler 0 total celler (alternativt: SAK SAK SAK rækker søjler celler = n q SAK x rækker, hvor SAK = ( r ) s x rækker = n r SAK x søjler, hvor SAK = ( q ) s x søjler = n SAK x celler, hvor SAKx celler = ( r q ) sceller ) xq xr 50

55 Oversigt. Opstilling af variansanalysetabel: Variation SAK=SS f s = SAK f F Rækkefaktor R : Olieblanding SAK R = fr = r = s R = Søjlefaktor C : Karburator SAK C = f = C q = s C = Vekselvirkning R*C SAK RC = f = ( RC r )( q ) = = s RC F RC = s RC e s =5.38 Gentagelser (residual, error) SAK e = fe = r q ( n ) = 6 s e = Total ftotal = N = Test: Lad α være signifikansniveau. ) H0: R* C = 0 ( Ingen signifikant vekselvirkning) H 0 forkastes, hvis P - værdi = PZ ( > F RC ) < α, hvor Z er F - fordelt ( ft, f N) = ( frc, fe). a) Hvis H 0 forkastes, så opstilles konfidensintervaller til nærmere vurdering af faktorernes virkning. b) Hvis H 0 accepteres, antages, at der ikke er nogen signifikant vekselvirkning, og man pooler de to varianser sammen, til et nyt estimat for forsøgsfejlens variation (støjen). SAK SAK sm RC + e = med fm = frc + fe f + f RC e Dette estimat benyttes så til en samtidig vurdering af hovedvirkningerne. b.) H : R = ( Ingen signifikant virkning af rækkefaktor) Lad F 0 0 sr R = sm H 0 forkastes hvis P - værdi = PZ ( > F R ) < α, hvor Z er F - fordelt ( ft, f N) = ( fr, fm). Hvis H 0 forkastes, så opstilles konfidensintervaller til vurdering af faktorerens virkning. b.) H : C = ( Ingen signifikant virkning af søjlefaktor) 0 0 sc Lad FR = sm H 0 forkastes, hvis P - værdi = PZ ( > F C ) < α, hvor Z er F - fordelt ( ft, f N) = ( fc, fm). Hvis H 0 forkastes, så opstilles konfidensintervaller til vurdering af faktorerens virkning. 5

56 Oversigt. Opstilling af konfidensintervaller og drage konklusion. Lad være gennemsnittet af værdierne i cellen i i te række og j te søjle. Lad Lad x ij x i. x. j være gennemsnittet af værdierne i den i te række. være gennemsnittet af værdierne i den j te søjle. R* C 0 ). Konfidensintervaller for hver celle: x t r q n, sn x t r q n s 0 0 ij α ( ( )) ; ij + α ( ( )) n ) R* C = 0 R 0 C 0: For celle i i te række og j te søjle er den estimerede middelværdi ~ µ ij = x i. + x. j x.. (jævnfør betragtningerne i afsnit.3.. side 59.) Konfidensintervaller for hver celle: ~ ( r + q ) ( ) ; ~ ( r + q ) µ ij t α N r q + sm µ ij + t α ( N r q + ) sm N N Det giver et bedre overblik, hvis man udregner de marginale konfidensintervaller: s Konfidensintervaller for hver række: x t N r q n q x t N r q s m m i. α ( + ) ; i. + α ( + ) n q s Konfidensintervaller for hver søjle: x t N r q n r x t N r q s m m. j α ( + ) ;. j + α ( + ) n r 3) R* C = 0, R 0 C = 0: For hver række i beregnes et rækkegennemsnit x i. SAKe + SAK RC + SAKC sm =, fm f frc fc N r f0 + frc + f = e + + = C s Konfidensintervaller for hver række: x t N r n q x t N r s m m i. α ( ) ; i. + α ( ) n q 4) R* C = 0, R = 0 C 0: For hver søjle j beregnes et søjlegennemsnit x. j SAKe + SAK RC + SAK = f + f + f R sm, fm = fe + frc + fr = N q 0 RC R Konfidensintervaller for hver søjle: x t N q sn r x t N q s m m. j α ( ) ;. j + α ( ) n r 5 Kort skrivemåde for, at H : R* C = forkastes. 0 0 Kort skrivemåde for, at H : R* C = accepteres 0 0

57 . Indledning Appendix A Eksempler regnet på TI Indledning. Det forudsættes, at man kender de grundlæggende operationer på lommeregneren. I Appendix Vejledning i TI - 89" er beskrevet, hvorledes man beregner sandsynligheden for forskellige fordelinger, beregner gennemsnit og spredning, samt hvorledes man tester og beregner konfidensintervaller for funktion af variabel.dette forudsættes ligeledes bekendt.. Variansanalyse. Ensidet variansanalyse Eksempel..For hvert af 4 tilsætningsstoffer T, T, T 3, T 4 måles 3 gange mængden af urenheder ved en kemisk proces. Forsøgsresultaterne blev følgende: T T T 3 T Der ønskes fundet det tilsætningsstof der giver den mindste urenhed. Løsning: APPS, STAT/LIST hvorefter data indtastes i list, list, list3 og list4. F6, C:ANOVA, Antal grupper = 4,ENTER, Udfyld listnavne (VAR-Link osv.) ENTER, ENTER. Der fremkommer nu en række resultater, der stort set svarer til resultaterne i en sædvanlig varianstabel. En sådan er udfyldt nedenfor: Variation SS df MS= s F P-Value Factor:Tilsætningsstof Error:Gentagelser Man finder en P-værdi på = Da P - værdi = < 0.05 forkastes nulhypotesen ( svagt) H 0 : µ = µ = µ 3 = µ 4 Konklusion: De fire tilsætningsstoffer har ikke samme virkning. ) De sædvanlige konfidensintervaller findes som ekstra søjler efter list6 xbar lowlist uplist Ønskes beregnet LSD-intervaller må man udnytte, at r lsd rkon = = = r kon = og 53

58 Appendix A. Eksempler regnet med Ti-89 T T T 3 T 4 Gennemsnit % konfidensinterval [06.33;3.67] [04.33;.67] [07.00;4.33] [.33;9.67] 95% LSDkonfidensinterval [07.40;.60] [05.40;0.60] [08.07;3.6] [3.40;8.60] Konklusion: Begge metoder viser, at man får den mindste urenhed, hvis man vælger enten T, T eller T 3 (de kan ikke adskilles).. Tosidet variansanalyse Eksempel.4. Model med vekselvirkning. Man undersøger, hvorledes 3 olieblandinger O, O, O 3, og karburatortyper K og K påvirker benzinforbruget. Man fandt: Karburator K K O Olieblanding O O Angiv hvilke kombinationer af karburator og olieblanding der giver det laveste forbrug, og giv et estimat for dette forbrug. Løsning: APPS, STAT/LIST hvorefter data indtastes med første søjle (K søjlen) i list, søjle (K ) i list. List List F6, ANOVA-Way, ENTER DESIGN= Factor,EqReps, Levls of Col Factor =,Levls of Row Factor =3, ENTER Næste skema udfyldes med List og List, ENTER Resultatet kan umidelbart aflæses: 54

59 Nedenfor er resultaterne angivet i den sædvanlige variansanalysetabel Variation SAK=SS df MS= s F P-værdi Column:Søjlefaktor Row: Rækkefaktor Interaction:Vekselvirkning Variansanalyse Error:Residual ) H0: R* C = 0 ( Ingen signifikant vekselvirkning) For interaction findes P - værdi = Idet vi som sædvanlig antager at signifikansniveauet er 5 % fås, at da P - værdi = < 0.05 forkastes H 0 (svagt). Konklusion: Begge faktorer har en virkning i form af en vekselvirkning. ) Beregning af 95% konfidensintervaller må ske ved anvendelse af formlerne. Ifølge oversigt. er konfidensintervaller for hver celle: x r ; x + r, hvor radius er [ ] ij kon ij kon sresidual 600 rkon = t α ( r q ( n )) = t0. 975( 3 ( ) = = n Vi finder gennemsnittene i hver celle Olieblanding Gennemsnit Karburator K K O O O % konfidensinterval Karburator K K O [80.6 ; 887.3] [78.6; 867.4] Olieblanding O [9.6 ; 007.4] [99.6 ; 077.4] O 3 [79.6 ; 877.4] [877.6 ; 96.4] Det ses. at umiddelbart giver K O det laveste benzinforbrug, men af konfidensintervallerne ses, at der ingen signifikant forskel er mellem K O,K O 3 og K O. 55

60 Appendix A. Eksempler regnet med Ti-89 Eksempel.5 Additiv model: Model uden vekselvirkning Med hver af 4 cementblandere udstøbtes efter blanding med vand cementterninger, som efter en uges lagring underkastedes en brudstyrkeprøve ved hjælp af en af 3 cementknusere. Forsøgsresultaterne var: Cementknusere Cementblandere ) Angiv hvilke kombinationer af cementblander og cementknuser, der giver den største brudstyrke, og giv et estimat og et 95% konfidensinterval for denne største middelbrudstyrke. ) Da cementknuser og cementblander er de billigste ønskes opstillet under hensyntagen til resultatet af ) et 95% - konfidensinterval for middelværdien af brudstyrken, når disse anvendes. Løsning: APPS, STAT/LIST hvorefter data indtastes med første søjle (cementknuser ) i list, søjle (cementknuser ) i list osv. F6, ANOVA-Way, ENTER DESIGN= Factor,EqReps, Levls of Col Factor =4,Levls of Row Factor =3, ENTER Næste skema udfyldes med List, List,List3 og List 4, ENTER Resultatet kan umidelbart aflæses: Nedenfor er resultaterne angivet i den sædvanlige variansanalysetabel Variation SAK=SS df MS= s F P - værdi Column:Cementknuser : C Row: Cementblander : R Interaction:R*C Error ) a) H0: R* C = 0 ( Ingen signifikant vekselvirkning) For interaction findes P - værdi = Da P - værdi = > 0.05 accepteres H 0. Konklusion: Vi antager i det følgende, at vekselvirkningen er forsvindende. b) Inden vi tager stilling til om faktorerne har en hovedvirkning, pooles interaction med error. Det kan TI-89 ikke gøre (mærkeligt), så det gøres manuelt. SAK residual = SAK error + SAK vekselvirkning = f residual = f error + f vekselvirkning = s residual = = F knuser = = P - værdi =P(F > 8.3) = FCdf(8.3,,3,30) =

61 5.Variansanalyse F blander = =. 7. P - værdi =P(F >.7) = FCdf(.7,,,30) = Det giver følgende tabel: Variation SAK=SS df MS= s F P - værdi Column:Cementknuser : C Row: Cementblander : R Residual H 0 : C = 0 (Cementknuser har ingen virkning) forkastes, da P-værdi = < 0.05 H 0 : R = 0 (Cementblander har ingen virkning) accepteres, da P-værdi = 0. > 0.05 Konklusion: Cementknuserne har en (stærk) virkning Cementblandere har ingen virkning For at finde hvilken cementknuser der giver den største middelbrudstyrke kunne vi nu beregnes gennemsnit og konfidensinterval for de 4 knusere ved at benytte de i oversigt. angivne formler. Lettere er det at udnytte, at da vi nu kun har en faktor tilbage, så udnytte programmet for ensidet variansanalyse, med cementknusere som faktor på 4 niveauer.. Konfidensintervaller findes som ekstra søjler efter list6 xbar lowlist uplist Konklusion: Cementknuser og 4 må foretrækkes, selv om man ikke helt kan afvise at cementknuser kan være lige så god. Et estimat for største middelbrudstyrke: 48 95% konfidensinterval [6.3 ; 69.7] ) Cementknuser : Middelbrudstyrke: % konfidensinterval [89,08 ; 3.5] 57

62 Appendix A. Eksempler regnet med Ti-89 Eksempel.7. Blokforsøg: I nedenstående tabel er anført resultaterne af et fodringsforsøg med svin. Da grise fra samme kuld må forventes at være mere ensartede, vælger man at lave et randomiseret blokforsøg med kuld som blokfaktor. Fra hvert af 4 forskellige kuld grise udtages 3 grise, der bliver fodret med hver sin af tre fodertyper A, B og C med forskelligt vitaminindhold. Forsøgsresultaterne (vægtforøgelse i kg) var Fodertype A B C Kuld Test, om der er nogen væsentlig virkning af ændringen i foderets vitaminindhold. Løsning: APPS, STAT/LIST hvorefter data indtastes med første søjle (A) i list, søjle (B) i list osv. List List LIST F6, ANOVA-Way, ENTER DESIGN=Block, Levls of Col Factor =3, ENTER Næste skema udfyldes med List, List og LIST3, ENTER Resultatet kan umidelbart aflæses: Nedenfor er resultaterne angivet i den sædvanlige variansanalysetabel Variation SAK=SS df MS= s F P-værdi Factor: foder Block: Kuld Error H 0 : Foder = 0 (Foder har ingen virkning) forkastes, da P-værdi = < 0.05 Konklusion: Der sker en væsentlig ændring i vægtforøgelsen ved at ændre foderblanding. Konfidensintervaller kunne vise hvilken foderblanding der skal foretrækkes. 58

63 B Variansanalyse Appendix B Eksempler regnet på Statgraphics.. Indledning I Grundlæggende begreber Appendix A er beskrevet hvorledes man beregner sandsynligheden for forskellige fordelinger og beregner gennemsnit og spredning. Dette forudsættes bekendt. Variansanalyse.. Ensidet variansanlyse. Eksempel..For hvert af 4 tilsætningsstoffer T, T, T 3, T 4 måles 3 gange mængden af urenheder ved en kemisk proces. Forsøgsresultaterne blev følgende: T T T 3 T Der ønskes fundet det tilsætningsstof der giver den mindste urenhed. Løsning: Data indtastes Lad starten af indtastningen i regnearket være Stof Urenhed 7 9 T 08 T 0 T T 05 osv. Vælg (Compare\ Analysis of Variance\ One-Way Anova\Klik på Urenhed \klik på pilen ved Dependent variable \Klik på stof \klik på pilen Factor \OK ) Der fremkommer en Analysis Summary med nogle statistiske betragtninger. Endvidere fremkommer et scatterplot. Scatterplottet kan man om ønsket fjerne ved med cursoren på tabellen hurtigt gange at trykke på venstre musetast. Vælg (gul ikon = Tabular Options\Anova Tables OK ) (fjern evt. krydset ved Analysis summary ). Der fremkommer følgende udskrift ANOVA Table for udbytte by tilsaetningsstof Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Between groups 05,0 3 35,0 4,6 0,037 Within groups 60, , Total (Corr.) 65,667 Forklaring på de enkelte størrelser kan man finde i oversigt.. H 0 : µ = µ = µ 3 = µ 4 Konklusion: De fire tilsætningsstoffer har ikke samme virkning. Da P - værdi = < 0.05 forkastes nulhypotesen ( svagt) Konfidensintervaller. Vælg(Tabular options \Tables of Means \ OK), Den fremkomne tabel er over 95% LSD konfidensintervaller. Ønskes de sædvanlige 95% konfidensintervaller så Vælg ( Med cursor på udskrift over LSD-intervaller, tryk på højre musetast\pane options\confidence intervals (pooled s)\ok). 59

64 Appendix B Eksempler regnet på Statgraphics De individuelle 95% konfidensintervaller er Table of Means for udbytte by tilsaetningsstof with 95,0 percent confidence intervals Stnd. error tilsaetningsstof Count Mean (pooled s) Lower limit Upper limit T 3 0,0, ,334 3,666 T 3 08,0, ,334,666 T3 3 0,667, ,0 4,333 T4 3 6,0,5899,334 9, Total,67 Man får følgende LSD-intervaller. Table of Means for udbytte by tilsaetningsstof with 95,0 percent LSD intervals Stnd. error tilsaetningsstof Count Mean (pooled s) Lower limit Upper limit T 3 0,0, ,408,59 T 3 08,0, ,408 0,59 T3 3 0,667, ,074 3,59 T4 3 6,0,5899 3,408 8, Total,67 Plot af konfidensintervallerne: Vælg (blå ikon = Grapics Options\ Means Plot\Cursor på figur\ højre musetast\ Pane options\vælg type Confidence intervals \OK) udbytte Means and 95,0 Percent LSD Intervals T T T3 T4 tilsaetningsstof Means and 95,0 Percent Confidence Intervals (pooled udbytte T T T3 T4 tilsaetningsstof Heraf ses, at T 4 er signifikant større end T, mens T, T og T 3 ikke kan adskilles. Konklusion: Man skal ikke vælge tilsætningsstof T 4, hvorimod de tre øvrige tilsætningsstoffer giver nogenlunde den samme mængde urenhed. Kontrol af forudsætninger: Det er let i Statgraphics at kontrollere forudsætningerne men derfor behøver man ikke nødvendigvis at gøre det. Varianshomogenitet: Vælg (gul ikon=tabular options \ Variance check \ OK). Variance Check Cochran's C test: 0,4857 P-Value = 0, Bartlett's test:,0944 P-Value = 0, Hartley's test: 3,5 Da P - værdi = ( eller ) > 0.05 accepteres nulhypotesen H 0 : De 4 varianser er ens. 60

65 . Variansanalyse Normalfordelingsplot: Vælg ( sort ikon = Save Results\Save Residuals\ OK ). Residualerne bliver nu gemt som en søjle i data under navnet RESIDUALS, da vi ikke har ændret navnet under Target Variables Vælg (Describe\Numerical Data\One Variable Analysis\RESIDUALS\Pilen Data OK) Vælg ( blå ikon = Graphics options\normal Probability Plot OK ). Vælg (Med cursor på tegning, højre musetast\pane Options \Using Least Squares\OK) Normal Probability Plot for RESIDUALS percentage 99, , RESIDUALS Residualerne synes at ligge nogenlunde på en ret linie, så man må antage at de er approksimativt normalfordelte.. Tosidet variansanlyse. Data indtastes på sædvanlig måde. Karburator oliebland benzinforb k o 830 k o 860 k o 940 k o 990 k o3 855 k o3 85 k o 80 osv. Vælg (Compare\ Analysis of Variance\ Multifactor ANOVA\ OK). Der fremkommer nu en tabel der skal udfyldes: Vælg ( brudstyrke \pilen Dependent variable \ cementblandere \ pilen Factors \cementknusere\ pilen Factors\OK). Der fremkommer en Analysis Summary og et Scatterplot. Vælg (gul ikon = Tabular options Anova Tables\OK ). Der fremkommer en variansanalysetabel uden vekselvirkning. For at få en variansanalysetabel med vekselvirkning: Vælg (Cursor i tabellen\ højre musetast\analysis options\ Maximum Order Interaction til \ OK) Vi får følgende udskrift: 6

66 Appendix B Eksempler regnet på Statgraphics Analysis of Variance for benzinforb - Type III Sums of Squares Source Sum of Squares Df Mean Square F-Ratio P-Value MAIN EFFECTS A:karburator 6075,0 6075,0 0, 0,090 B:oliebland 5876,7 9358,3 48,93 0,000 INTERACTIONS AB 6450,0 35,0 5,37 0,0460 RESIDUAL 3600, , TOTAL (CORRECTED) 7484, All F-ratios are based on the residual mean square error. ) H0: A* B = 0 ( Ingen signifikant vekselvirkning) For interaction findes P - værdi = Da P - værdi = < 0.05 forkastes H 0 (svagt). Konklusion: Begge faktorer har en virkning i form af en vekselvirkning. ) Konfidensintervaller Vælg (gul ikon = Tabular options\ Tables of Means\ OK ). Vi får følgende udskrift : Table of Least Squares Means for benzinforb with 95,0 Percent Confidence Intervals Stnd. Lower Upper Level Count Mean Error Limit Limit GRAND MEAN 904,67 karburator k 6 88,667 0,0 857,97 906,36 k 6 96,667 0,0 90,97 95,36 oliebland o 4 835,0, ,03 864,969 o 4 000,0, ,03 09,97 o ,5, ,53 907,469 karburator by oliebland k o 845,0 7,305 80,68 887,38 k o 965,0 7,305 9,68 007,38 k o3 835,0 7,305 79,68 877,38 k o 85,0 7,305 78,68 867,38 k o 035,0 7,305 99,68 077,38 k o3 90,0 7, ,68 96, Mere overskueligt er det, at få tegnet et interaction-plot med afsatte konfidensintervaller: Sædvanligvis fås det mest overskuelige billede, hvis man afsætter den faktor med flest niveauer (altså olieblanding) ud af den vandrette akse. Vælg ( blå ikon = Graphics options Interaction Plot Cursoren på figur, højre musetast Pane options Confidence intervals Second Factor OK ). 6

67 . Variansanalyse Interactions and 95,0 Percent Confidence Intervals benzinforb o o o3 oliebland karburator k k Konklusion: Vi ser af tabel og figur, at man ikke bør vælge olieblanding O. Umiddelbart giver kombinationen K O det laveste benzinforbrug (85), men af konfidensintervallerne ses, at der ingen signifikant forskel er mellem K O, K O 3 og K O. Eksempel.5 Additiv model: Model uden vekselvirkning Med hver af 4 cementblandere udstøbtes efter blanding med vand cementterninger, som efter en uges lagring underkastedes en brudstyrkeprøve ved hjælp af en af 3 cementknusere. Forsøgsresultaterne var: Cementknusere 3 4 Cementblandere ) Angiv hvilke kombinationer af cementblander og cementknuser, der giver den største brudstyrke, og giv et estimat og et 95% konfidensinterval for denne største middelbrudstyrke. ) Da cementknuser og cementblander er de billigste ønskes opstillet under hensyntagen til resultatet af ) et 95% - konfidensinterval for middelværdien af brudstyrken, når disse anvendes. Løsning: Lad starten af indtastningen i regnearket være cementblandere cementknusere brudstyrke osv. 63

68 Appendix B Eksempler regnet på Statgraphics ) Variansanalysetabel opstilles. Vælg (Compare\ Analysis of Variance\ Multifactor ANOVA\ OK). Der fremkommer nu en tabel der skal udfyldes: Vælg ( brudstyrke \pilen Dependent variable \ cementblandere \ pilen Factors \cementknusere\ pilen Factors\OK) Der fremkommer en Analysis Summary og et Scatterplot. Vælg (gul ikon = Tabular options Anova Tables\OK ). Der fremkommer en variansanalysetabel uden vekselvirkning. For at få en variansanalysetabel med vekselvirkning: Vælg (Cursor i tabellen\ højre musetast\analysis options\ Maximum Order Interaction til \ OK) Analysis of Variance for brudstyrke - Type III Sums of Squares Source Sum of Squares Df Mean Square F-Ratio P-Value MAIN EFFECTS A:cementblandere 499,39 49,69,43 0,098 B:cementknusere 5995, 3 733,7 9,56 0,0000 INTERACTIONS AB 7,6 6 87,,34 0,787 RESIDUAL 70, , TOTAL (CORRECTED) 84687, All F-ratios are based on the residual mean square error. a) H0: R* C = 0 ( Ingen signifikant vekselvirkning) For interaction findes P - værdi = Da P - værdi = > 0.05 accepteres H 0. Konklusion: Vi antager i det følgende, at vekselvirkningen er forsvindende. b) AB "pooles" ned i Residualen". Vælg (Cursor i tabellen\ højre musetast\analysis options\ Maximum Order Interaction til \ OK) Vi får følgende tabel: Analysis of Variance for brudstyrke - Type III Sums of Squares Source Sum of Squares Df Mean Square F-Ratio P-Value MAIN EFFECTS A:cementblandere 499,39 49,69,7 0,06 B:cementknusere 5995, 3 733,7 8,3 0,0000 RESIDUAL 8393, , TOTAL (CORRECTED) 84687, H 0 : C = 0 (Cementknuser har ingen virkning) forkastes, da P-værdi = < 0.05 H 0 : R = 0 (Cementblander har ingen virkning) accepteres, da P-værdi = 0. > 0.05 Konklusion: Cementknuserne har en stærk signifikant virkning, Cementblanderne ikke har en signifikant virkning, Da cementblandere ikke mere indgår i modellen slettes de af modellen. Vælg (rød ikon = Input dialog\ Slet cementblandere\ OK ). Dette har den lidt kedelige virkning, at der nu sker en omdøbning, så det der før blev kaldt A nu kaldes B osv. 64

69 . Variansanalyse Analysis of Variance for brudstyrke - Type III Sums of Squares Source Sum of Squares Df Mean Square F-Ratio P-Value MAIN EFFECTS A:cementknusere 5995, 3 733,7 6,96 0,0000 RESIDUAL 369,7 3 0, TOTAL (CORRECTED) 84687, Vælg(Tabular options \Tables of Means \ OK), Der fremkomer følgede tabel over 95% konfidensintervaller. Table of Least Squares Means for brudstyrke with 95 Percent Confidence Intervals Stnd. Lower Upper Level Count Mean Error Limit Limit GRAND MEAN 36 5,056 cementknusere 9 48,0 0,6544 6,98 69,70 9 0,778 0, ,0754 3, ,5556 0,6544 3,853 76, ,889 0,6544 5,87 68, Grafisk fremstilling: LSD-intervaller: Vælg (blå ikon = Graphics Options\ Means Plot OK) Sædvanlige konfidensintervaller: Vælg ( Med Cursor på figur\ højre musetast\ Pane options\ Confidence intervals og vælg faktor, der ønskes undersøgt\ok) Means and 95,0 Percent Confidence Intervals 80 brudstyrke cementknusere Konklusion: Cementknuser og 4 må foretrækkes, selv om man ikke helt kan afvise at cementknuser kan være lige så god. Et estimat for største middelbrudstyrke: 48 95% konfidensinterval [6.3 ; 69.7] ) Cementknuser : Middelbrudstyrke: % konfidensinterval [89,08 ; 3.5] 3) Forudsætninger. Det er let i Statgraphics at kontrollere forudsætningerne men derfor behøver man ikke nødvendigvis at gøre det, da de sædvanligvis er opfyldt. Grafisk kontrol af kravet om normalitet Udføres med et normalfordelingsplot.(se under ensidet variansanalyse) 65

70 Appendix B Eksempler regnet på Statgraphics Normal Probability Plot for RESIDUALS percentage 99, , RESIDUALS Residualerne synes at fordele sig nogenlunde på en ret linie, så kravet om normalitet synes rimeligt opfyldt. Varianshomogenitet. Man går ind i regnearket og danne en ekstra søjle behandlinger. Da der er behandlinger (celler) med 3 tal i hver bliver søjlen: cementblandere cementknusere brudstyrke behandlinger osv. Vælg ( Compare\ Analysis of Variance\ One Way ANOVA\OK ). Vælg (Klik på brudstyrke og pil ved Dependent variable \Klik på behandlinger og på pil ved Factor \ OK ) Vælg (gul ikon = Tabular options\ Variance check\ OK). Fjern evt. krydset ved Analysis summary Variance Check Cochran's C test: 0, P-Value = 0,3559 Bartlett's test:,57303 P-Value = 0,6058 Hartley's test: 56,94 Det ses, at vi får en accept af en nulhypotese om at varianserne er ens, så kravet er rimeligt opfyldt. 66

71 . Variansanalyse Eksempel.7. Blokforsøg: I nedenstående tabel er anført resultaterne af et fodringsforsøg med svin. Da grise fra samme kuld må forventes at være mere ensartede, vælger man at lave et randomiseret blokforsøg med kuld som blokfaktor. Fra hvert af 4 forskellige kuld grise udtages 3 grise, der bliver fodret med hver sin af tre fodertyper A, B og C med forskelligt vitaminindhold. Forsøgsresultaterne (vægtforøgelse i kg) var Fodertype A B C Kuld Test, om der er nogen væsentlig virkning af ændringen i foderets vitaminindhold. Løsning. Indtastning af data fodertype kuld vaegtforoegelse A 7 A 6 A 3 0,5 A 4 3,5 B 4 B 5,5 B 3 5 B 4 C 8,5 C 6,5 C 3 9,5 C 4 3,5 Vælg (Compare\ Analysis of Variance\ Multifactor ANOVA\ OK). Der fremkommer nu en tabel der skal udfyldes: Vælg ( vaegtforoegelse \pilen Dependent variable \ fodertype \ pilen Factors \kuld\ pilen Factors\OK) Der fremkommer en Analysis Summary og et Scatterplot. Vælg (gul ikon = Tabular options Anova Tables\OK ). Der fremkommer en variansanalysetabel uden vekselvirkning. Analysis of Variance for vaegtforogelse - Type III Sums of Squares Source Sum of Squares Df Mean Square F-Ratio P-Value MAIN EFFECTS A:fodertype 54,5 7,065 5,76 0,040 B:kuld 87,79 3 9,43 6, 0,085 RESIDUAL 8, , TOTAL (CORRECTED) 70, All F-ratios are based on the residual mean square error. Vi ser, at der på et signifikansniveau på 5 % er signifikant forskel på fodertyperne (mindst én afviger fra de øvrige). Vi ser endvidere, at det var fornuftigt at dele op i kuld, da der også er signifikans for kuld. 67

72 Appendix B Eksempler regnet på Statgraphics Vi er imidlertid ikke interesseret i at finde ud af hvilket kuld der er det bedste, da vi jo blot har taget nogle tilfældige kuld ud. For at finde den fodertype, der giver den højeste vægtforøgelse opstilles konfidensintervaller. Bemærk: Da der er en blokvirkning vil vægtforøgelsen jo afhænge af hvilket kuld man betragter. Konfidensintervaller kan derfor kun anvendes til relative sammenligninger. Vælg (gul ikon = Tabular options\ Tables of Means\ OK ). Table of Least Squares Means for vaegtforogelse with 95,0 Percent Confidence Intervals Stnd. Lower Upper Level Count Mean Error Limit Limit GRAND MEAN 3,375 fodertype A 4,75,0843 9,097 4,408 B 4 6,375,0843 3,7 9,078 C 4,0,0843 9,347 4,658 kuld 3 9,83333,585 6,7706, ,0,585,9368 9, ,6667,585 8, , ,0,585,9368 9, En tegning af 95% LSD - konfidensintervallerne : Means and 95,0 Percent LSD Intervals 9,8 vaegtforogelse 7,8 5,8 3,8,8 9,8 A B C fodertype Konfidensintervallerne viser ganske vist et svagt overlap, men det gør LSD-intervallerne ikke, og da variansanalysen har vist at der er en signifikant forskel, må der gælde, at fodertype B giver den største vægtforøgelse. 68

73 Opgaver til kapitel OPGAVER Opgave. Fire forskellige typer teknik til blanding af cement ønskes undersøgt med hensyn til resultatets trykstyrke. Følgende data blev opnået: Blandingsteknik Trykstyrke (psi) B B B B Undersøg om forskellen i blandingsteknik har betydning for trykstyrken, og angiv i bekræftende fald den (de) blandingsteknik(er) der har størst trykstyrke. Opgave. I følgende tabel er angivet resultaterne af gentagne bestemmelser af blodets alkoholkoncentration (i promille) hos 6 forskellige personer efter indtagelsen af 4 cl. alkohol. Person Vurdér på grundlag af dette materiale en antagelse om, at alkoholkoncentrationen i blodet ikke afhænger af andre faktorer end den indtagne alkohomængde. Opgave.3 Modstanden af 5 spoler måltes for at kontrollere, om spolerne har samme elektriske modstand. For hver spole måltes 4 uafhængige observationer: Man fandt for hver spole følgende gennemsnit og varians: Spole nr. Antal gentagelser Gennemsnit Varians ) Undersøg om det kan antages, at de 5 spoers modstande er ens. ) På alle 5 spoler er angivet, at modstanden er 5.0 Ohm. Undersøg under hensyntagen ti besvaresen af spørgsmål ) ved opstilling af et eller flere konfidensintervaller, om noge af spoerne kan antages at have modstanden 5.0 Ohm og i bekræftende fald hvike. 69

74 Opgaver til kapitel Opgave.4 I et forsøg undersøgtes, om det kemiske udbytte af en proces afhænger af hvilken af katalysatorer, der anvendes. Endvidere kan man benytte 3 forskellige apparater, og de kunne også tænkes at have indflydelse på resultatet. Der fandtes følgende udbytter: Katalysator K Katalysator K Apparat A Apparat A Apparat A ) Undersøg. om det kan antages, at udbyttet fra de 6 behandlinger har samme spredning. ) Idet det antages at forudsætningerne for at udføre en variansanalyse er tilstede, skal der udføres en test til vurdering af, om middeludbyttets (eventuelle) afhængighed af de benyttede katalysatorer og apparater kan beskrives ved en additiv model. 3a) Hvis man af økonomiske grund vælger apparat A hvilken katalysator skal man så vælge? Samme spørgsmål vedrørende apparat og 3. 3b) Hvis man af økonomiske grunde vælger katalysator hvilket apparat skal man så vælge? Samme spørgsmål vedrørende katalysator 3c) Hvilken (hvilke) kombinationer af apparat og katalysator giver det største udbytte. Opgave.5 T Man ønsker at undersøge den virkning som faktorer (typen af glas og fosfor) har på skarpheden af billedet på en TV-skærm. Responsvariablen er den strøm (i microampere) som er nødvendig for at opnå et specifik skarpheds niveau. Data er vist i nedenstående tabel: Fosfortype Glastype Spørgsmål : Undersøg om forudsætningen om varianshomogenitet er opfyldt Idet de sædvanlige variansanalyseforudsætninger antages opfyldt, ønskes følgende spørgsmål belyst: Spørgsmål : Har glastype og fosfortype indflydelse på skarpheden? Spørgsmål 3: Ud fra svaret i spørgsmål skal angives, hvilken glastype og fosfortype der giver den største skarphed (giver den mindste respons) 70

75 Opgaver til kapitel Opgave.6 På en fabrik for glasvarer ønsker man at undersøge hvilken blandt 3 typer lim, der er bedst ved sammenlimning af 3 forskelige glastyper. Forsøget foregik ved, at man limede to glasplader sammen, og efter en passende tid undersøgte, hvor stor en kraft der skulle til for at trække pladerne fra hinanden. Man valgte at lave et fuldstændigt faktorforsøg med 5 gentagelser af hver behandling. Resultatet af forsøget var: Glastype A Glastype B Glastype C LIM I LIM II LIM III ) Angiv hvilke faktorer der har en virkning. ) Angiv den eller de kombinationer af type lim og type glas, der har den største sammenhængskraft. Angiv et 95% konfidensinterval for de pågældende kombinationer. Opgave.7 Fabrikationen af et kemikalium baseres på en bestemt kemisk proces, som forudsætter tilsætning af katalysator og en PH - værdi på ca. 5. Som led i en laboratoriemæssig undersøgelse af mulighederne for at forøge procesudbyttet foretoges bl.a. et forsøg, hvor man dels sammenlignede virkningen af tilsætning af 3 forskellige katalysatorer, dels undersøgte, om udbyttet afhang af, om den nødvendige PH - værdi opnåedes ved tilsætning af HCl i stedet for som hidtil H S0 4. Forsøgsresultaterne var (udbytteprocenter): Tilsat syre HCl H S Katalysatorer ) Foretag en statistisk analyse af forsøgsresultaterne og drag konklusioner. ) Estimer under hensyn til resultatet af den under punkt ) foretagne analyse procesudbyttet ved benyttelse af katalysator under tilsætning af HCl og opstil et 95% - konfidensinterval for dette udbytte. 7

76 Opgaver til kapitel Opgave.8 Hver af tre laboranter har bestemt hydroquinons smeltepunkt ( 0 Celcius) med (de samme) 4 termometre. Resultaterne var: Termometre Laboranter Det antages, at de nødvendige variansanalyseforudsætninger er opfyldt, og at termometre og laboranter ikke vekselvirker. Følgende spørgsmål ønskes belyst:. Aflæser laboranterne termometrene på samme måde?. Viser termometrene ens. 3. Vurder ved et residualplot, om forudsætningen om at termometre og laboranter ikke vekselvirker er rimelig. Opgave.9 På en ingeniørskole ønsker man at sammenligne effektiviteten af undervisningen, når man underviser efter tre forskellige undervisningsmaterialer. En række studerende meldte sig frivilligt til forsøget. I det følgende er angivet studerende ordnet efter studentereksamensgennemsnit. Navn JK AL TS BS DT HN MO FD PJ KM SR RA Snit ) Hvordan ville du opdele disse studenter på tre hold med 4 på hver hold? ) Hvordan ville du gøre det, hvis karaktererne gik fra 7.8 til 8.? Opgave.0. Følgende resultater blev opnået fra et eksperiment, hvor man ville undersøge om der var forskel på de resultater, som 5 analyseapparater gav, når man analyserede kvælstofindholdet i jordprøver. På hver af 3 dage blev en portion jord udvalgt og delt i 5 dele, som ved lodtrækning blev givet til analyse i hver sin maskine. Resultaterne var: Maskiner P Q R T U Tirsdag Onsdag Torsdag Undersøg på dette grundlag om der er forskel mellem analyseapparaterne, og angiv i bekræftende fald hvilke der er forskellige. Mener du, at det i denne situation var en god ide at foretage forsøget som et blokforsøg? 7

77 Opgaver til kapitel Opgave.. Fire forskellige produktionsmetoder P, Q, R, og T ønskes sammenlignet med hensyn til det procentiske udbytte ved udvinding af et metal fra et bestemt mineral. Da man ved forsøget er nødt til at benytte forskellige råvarepartierer, og er bange for, at det vil give stor spredning, vælger man at lave et fuldstændigt randomiseret blokforsøg med råvarepartier som blokke. Nedenstående skema angiver resultatet af dette forsøg. Metode P Metode Q Metode R Metode T Råvareparti Råvareparti Råvareparti Undersøg på grundlag af disse oplysninger, om der er forskel på metoderne. 73

78 Flere end binomial- og Poissonfordelte variable Flere end binomial- og Poissonfordelte variable... Indledning De faktorer der forekommer i dette kapitel vil være binomial-eller Poissonfordelte. Vi vil dels analysere forsøg med faktor der har mere end niveauer, dels forsøg med faktorer i et fuldstændigt faktorforsøg... Én faktor på mere end niveauer... Binomialfordelt variabel Ved analysen anvendes formlerne i oversigt.. Eksempel. (binomialfordelt variabel). For hver af 6 leverancer af billige legetøjsbiler udtages en tilfældig prøve på 00 biler, og antallet af defekte biler taltes. Følgende resultater fandtes: Leverance Antal defekte biler Foretag en statistisk analyse af, om procenten af defekte biler i de 8 leverancer kan antages at være den samme. LØSNING: Lad X i være antallet af defekte biler i leverance i. Det antages, at X i er binomialfordelt b (00, p i ). H 0 : p = p =... = p p$ =, p$ =,..., p$ 8 = ; p $ = = = Da ni p$ = 8 [; 595] er forudsætningen for at benyttet oversigt. opfyldt χ = ( ( ) + ( ) +...( ) ) = = ( 008. ) χ er χ - fordelt med frihedsgradstallet f = n - = 7 Da P - værdi = P( χ > 4. 67) =chicdf(4.67,,7) = < 0.05 forkastes nulhypotesen (svagt), dvs. vi har et (svagt) statistisk bevis for, at procenten af defekte biler i leverancen ikke er den samme. TI -89 og Statgraphics har ikke dette program 74

79 .. Poissonfordelt variabel Ved analysen anvendes formlerne i oversigt...3 To faktorer i et fuldstændigt faktorforsøg Eksempel. (Poissonfordelt variabel) Ved en optælling af hvide blodlegemer i en blodprøve med voluminet v fandtes for 6 personer antallene 4, 8,8, 3,5 og. Viser disse resultater, at den gennemsnitlige antal blodlegemer pr. volumenenhed er forskelligt for de tre personer? LØSNING: Lad X vare antallet af hvide blodlegemer i en blodprøve for person Lad X vare antallet af hvide blodlegemer i en blodprøve for person... Lad X 6 vare antallet af hvide blodlegemer i en blodprøve for person 6. X i antages at være Poissonfordelt med middelværdi µ i. Begrundelse: Benyttes en kanyle til udtagning af blodprøven ankommer de hvide blodlegemer tilfældigt i tiden. Det mulige antal blodlegemer er næsten ubegrænset. H 0 : µ = µ = µ 3 = µ 4 = µ 5 = µ 6 Antal elementer i hver stikprøve er, dvs. i oversigt.4 er n = n =... = n 6 = og x = x = 4, x = x = 8,... x6 = x6 = Vi får x = = Heraf ses, at nx i 5 ( 4 0) + ( 8 0) ( 0) = 0 χ χ, dvs. forudsætningen for at benytte oversigten er opfyldt. χ er - fordelt med frihedsgradstallet f = n - = 5 = 7. Da P - værdi = P( χ > 7. ) =chicdf(7.,,5) =0.33 > 0.05 accepteres H 0, det vil sige, at det ikke er påvist, at det gennemsnitlige antal hvide blodlegemer pr. volumenenhed er forskelligt for de 6 personer. TI -89 og Statgraphics har ikke dette program.3. To faktorer i et fuldstændigt faktorforsøg. Har man faktorer i en fuldstændig faktorstruktur, og de statistiske variable er enten binomialfordelte eller Poissonfordelte, kan man ikke bruge variansanlyseteknikken, da den kræver, at de variable er normalfordelte. Transformeres data som angivet i oversigt.3 er det imidlertid tilladeligt at bruge variansanlyseteknikken på de transformerede data (bevise ikke her). Endvidere får man så den fordel, at man får en eksakt værdi for forsøgsfejlens varians (støjen), som bevirker, at selv om man ikke har gentagelser, så kan man dog teste om der er vekselvirkning. Det skal bemærkes, at testresultaterne er vanskelig at fortolke, så finder man der er vekselvirkning eller hovedvirkninger, så kan man sædvanligvis kun konkludere, at faktorerne har en virkning, men ikke komme nærmere ind på hvorledes denne virkning ytrer sig. 75

80 Flere end binomial- og Poissonfordelte variable Eksempel.3 (E8) Variabeltransformation. Fire forskellige metoder til anvendelse af et møldræbende middel på uldklæde ønskes sammenlignet ved et forsøg. For hvert af fire forskellige fabrikater uldklæde udtoges 4 ens stykker klæde (0 0 cm), som blev behandlet med hver sin af de fire metoder. På hvert af de 6 stykker uldklæde anbragtes 5 møllarver, hvorefter man observerede det møldræbende middels virkning på larverne i løbet af et givet tidsrum. Resultaterne var (målt i antal døde larver): Klædefabrikat Metode Det antages, at antallet af døde larver ved metode i anvendt på klædefabrikat j er binomialfordelt b(5,p ij ) Foretag en statistisk analyse af om det møldræbende middels virkning afhænger af metoderne, og af klædefabrikatet. Løsning: Da antallet af dræbte larver anses for at være binomialfordelt, foretages den i oversigt.3 nævnte variabeltransformation. De relative hyppigheder beregnes ved at alle tal i skemaet divideres med 5. Derefter beregnes Y = Arcsin h ij. Eksempelvis for metode klæde : 9 h = = 076. Y = Arcsin h = Arcsin = Klædefabrikat Metode Vi kan nu foretage en sædvanlig tosidet variansanalyse. Vi antager, at vi har fået beregnet SAK erne enten som beskrevet i oversigt. eller ved benyttelse af et statistikprogram. Varianstabellen kan derefter udfyldes,, idet vi dog på forhånd kender variansen for støjen, fra 76

81 .3 To faktorer i et fuldstændigt faktorforsøg oversigt.3 til 00. 4n = =. 45 Variation SAK f s F Metoder Klæde Vekselvirkning < Gentagelser 0.0 H 0 : AB = 0 (Model har ingen vekselvirkning) accepteres, da F - værdi er mindre end I det følgende antages, at der ikke er vekselvirkning. Vi pooler ikke, da vi har et eksakt værdi for støjens varians. H 0 : A = 0 (Klædefabrikat har ingen virkning) accepteres, da P-værdi = P(F >.9) =FCdf(.9,,3, 000) = 0. > 0.05 Konklusion: Klædefabrikat har ingen virkning H 0 : B = 0 (Metoder har ingen virkning) forkastes, da P - værdi = P(F >.68) =FCdf(.68,,3, 000) = < 0.05 Konklusion: Metoder har en (svag) virkning Skal vi finde ud af hvilken virkning der er størst, kan vi udregne konfidensintervaller for de transponerede tal. Klædefabrikat 3 4 Gennemsnit Metode Radius i konfidensintervallet er s rkon = t0 975 = ( ). = nq 4 Konklusion: Metode er ringere end metode 4, mens de øvrige ikke kan adskilles. 77

82 Oversigt. OVERSIGT.. Oversigt over test af parametre p, p,... p k for binomialfordelte variable. X, X... X k er binomialfordelt henholdsvis bn (, p), bn (, p),..., bn ( k, pk), hvor n, n...n k er kendte og p, p..., p k ukendte. Observerede stikprøveværdier x, x,..., x k. Signifikansniveau er α. Y er en statistisk variabel, der er χ - fordelt med k - frihedsgrader. Forudsætning: Nulhypotese Beregning H 0 forkastes Aproksimativ metode n p $ [ 5 ; n 5], n p [ n ] k $ H 5; 5 0 : p = p =... = p k χ... nk p$ [ 5; nk 5] P - værdi < α, hvor =, hvor ni( p$ i p$) p$( p$) P værdi = P( Y > χ ) i= $ x + x x x x xk k $ p = p =, p$ =,..., p$ k = hvor n + n n n n nk k OVERSIGT.. Oversigt over test af parametre µ, µ,..., µ k for Poissonfordelt variable. X, X... X k er Poissonfordelt henholdsvis p( µ ), p( µ ),... p( µ k ), hvor µ, µ,..., µ k er ukendte. Signifikansniveau er α. Der foreligger for hver af de variable X i en stikprøve af størrelsen n i med gennemsnit x i.y er en statistisk variabel, der er χ - fordelt med k - frihedsgrader.. Forudsætning Nulhypotese Beregning H 0 forkastes Approksimativ k metode. n n i x 5 i( xi x) P - værdi < α H0: µ = µ =... = µ k χ i= = n x + n x nk xk hvor x =. hvor P værdi = P( Y > χ ) x n + n n OVERSIGT.3. Oversigt over transformation af Binomialfordelte eller Poissonfordelt variable til tosidet variansanalyse. k Variabel Transformation før tosidet variansanalyse Forsøgsfejlens varians s 0. Tilhørende frihedsgrad Relativ hyppighed H H binomialfordelt b(n, p) X X Poissonfordelt p( µ ) Y = Arcsin H 4n Y = X 4 78

83 A:Eksempler regnet med Ti-89 Appendix A Eksempler regnet på TI Indledning. Det forudsættes, at man kender de grundlæggende operationer på lommeregneren. I Appendix Vejledning i TI - 89" er beskrevet, hvorledes man beregner sandsynligheden for forskellige fordelinger, beregner gennemsnit og spredning, samt hvorledes man tester og beregner konfidensintervaller for funktion af variabel.dette forudsættes ligeledes bekendt. Til eksemplerne. og. svarer intet program. Variabeltransformation. Eksempel.3. Fire forskellige metoder til anvendelse af et møldræbende middel på uldklæde ønskes sammenlignet ved et forsøg. På hvert af de 6 stykker uldklæde anbragtes 5 møllarver. Resultaterne var (målt i antal døde larver): Klædefabrikat Metode Foretag en statistisk analyse af om det møldræbende middels virkning afhænger af metoderne, og af klædefabrikatet. Løsning: Antallet af dræbte larver anses for at være binomialfordelt b (5,p) x For hver tal x foretages transformationen Y = Arcsin. 5 Klædefabrikat gemmes i list, klædefabrikat gemmes i list osv. Der oprettes 4 lister med navnene k,k,k3 og k4, hvori de transformerede tal overføres. APPS, STAT/LIST, I navnefeltet for listen efter list6 skrive k, næste navnefelt k osv. HOME, sin ( ( list/ 50. )), STO, k, ENTER osv. F6, ANOVA-Way, ENTER DESIGN=Block, Levls of Col Factor =4, ENTER Næste skema udfyldes med k, k, k3, og k4, ENTER Resultatet kan umidelbart aflæses: Nedenfor er de relevante resultater angivet i den sædvanlige variansanalysetabel Variation SAK=SS df MS= s F P-værdi Factor: klædefabrikat Block: Metoder Error

84 A:Eksempler regnet med Ti-89 Her svarer Error en sum af støj + vekselvirkning. Da vi fra oversigt.3 kender den eksakte støj til 00 kan tabellen udbygges 4n = =. 45 Variation SAK=SS df MS= s F Factor A: klædefabrikat Block B: Metoder Vekselvirkning AB Error 0.0 H 0 : AB = 0 (Model har ingen vekselvirkning) accepteres, da F - værdi er mindre end I det følgende antages, at der ikke er vekselvirkning. Vi pooler ikke, da vi har et eksakt værdi for støjens varians. H 0 : A = 0 (Klædefabrikat har ingen virkning) accepteres, da P-værdi = P(F >.9) =FCdf(.9,,3, 000)=0. > 0.05 Konklusion: Klædefabrikat har ingen virkning H 0 : B = 0 (Metoder har ingen virkning) forkastes, da P-værdi = P(F >.68) =FCdf(.68,,3, 000) = < 0.05 Konklusion: Metoder har en (svag) virknng 80

85 B Flere end to Binomialfordelte og Poissonfordelte variable Appendix B Eksempler regnet på Statgraphics.. Indledning I Grundlæggende begreber Appendix A er beskrevet hvorledes man beregner sandsynligheden for forskellige fordelinger og beregner gennemsnit og spredning. Dette forudsættes bekendt. Til eksemplerne. og. svarer intet program. Variabeltransformation. Eksempel.3. Fire forskellige metoder til anvendelse af et møldræbende middel på uldklæde ønskes sammenlignet ved et forsøg. På hvert af de 6 stykker uldklæde anbragtes 5 møllarver. Resultaterne var (målt i antal døde larver): Klædefabrikat Metode Foretag en statistisk analyse af om det møldræbende middels virkning afhænger af metoderne, og af klædefabrikatet. Løsning: Antallet af dræbte larver anses for at være binomialfordelt b (5,p) For hver tal x foretages transformationen Y = Arcsin x. 5 Data indtastes på sædvanlig måde: larver metode klaede 9 M K 8 M K 0 M K3 osv. Placer cursor på næste kolonne (Col 4),og omdøb på sædvanlig måde navnet til transform. Placer cursor på transform, tryk som før på venstre musetast for at vælge kolonnen, og derefter på højre musetast for at få en lille menu frem. Vælg(Generate data\asinr(?)\erstat? med sqrt(larver/5)\ok) (ASINR (x) er Arcsin(x) hvor x er regnet i radianer) Man ser nu, at søjlen transform er udfyldt med de transformerede tal. larver metode klæde transform 9 M K, M K, M K3, osv. På de transformerede tal foretages så en tosidet variansanalyse. Vælg (Compare\ Analysis of Variance\ Multifactor Anova\ok) I den fremkomne menu: Vælg( transform \klik på pilen ved Dependent variable \Klik på metode \klik på pilen Factors \Klik på klæde \klik på pilen Factors \OK ) Der fremkommer en Analysis Summary med nogle statistiske betragtninger. Vælg (gul ikon = Tabular Options\Anova Tables OK ) (fjern evt. krydset ved Analysis summary ). 8

86 B Eksempler regnet på Statgraphics Der fremkommer følgende udskrift: Analysis of Variance for transform - Type III Sums of Squares Source Sum of Squares Df Mean Square F-Ratio P-Value MAIN EFFECTS A:metode 0, ,06849 B:klaede 0, ,098 INTERACTIONS AB 0, , RESIDUAL 0, TOTAL (CORRECTED) 0, All F-ratios are based on the residual mean square error. Da vi fra oversigt.3 kender den eksakte støj til 00 kan tabellen udbygges 4n =. 45 Variation SAK f s F Metoder Klæde Vekselvirkning < Gentagelser 0.0 H 0 : AB = 0 (Model har ingen vekselvirkning) accepteres, da F - værdi er mindre end I det følgende antages, at der ikke er vekselvirkning. Vi pooler ikke, da vi har et eksakt værdi for støjens varians. H 0 : A = 0 (Klædefabrikat har ingen virkning) accepteres, da P-værdi = P(F >.9) =FCdf(.9,,3, 000)=0. > 0.05 Konklusion: Klædefabrikat har ingen virkning H 0 : B = 0 (Metoder har ingen virkning) forkastes, da P-værdi = P(F >.68) =FCdf(.68,,3, 000) = < 0.05 Konklusion: Metoder har en (svag) virkning For at få et overblik over hvilken metode, der kan anbefales, beregnes 95% konfidensintervaller (på basis af en model hvor vi har strøget vekselvirkning og klæde). Vælg(Tabular options \Tables of Means \ OK), Table of Least Squares Means for transform with 95,0 Percent Confidence Intervals Stnd. Lower Upper Level Count Mean Error Limit Limit GRAND MEAN 6,07637 metode M 4,0846 0,037343,00349,6574 M 4 0, , ,8794,0449 M3 4,046 0,037343,0934,959 M4 4,500 0,037343,06889, Heraf kan sluttes, at metode er dårligere end metode4. Konfidensintervallerne er ikke korrekte, da de ikke er baseret på den eksakte spredning. Mere præcist er radius i konfidensintervallet rkon = t ( ) s = = nq 4 8

87 Opgaver til kapitel OPGAVER Opgave.. I en virksomhed er på hvert af 3 skift arbejdsbetingelser og antal mennesker udsat for risiko tilsyneladende nogenlunde ens. Ikke desto mindre synes følgende optælling at vise, at risikoen på skift og 3 er større end på skift. Skift Antal arbejdsulykker 0 3 På grundlag af denne statistik finder man, at der bør gøres noget for at nedsætte risikoen i skift og 3. Er dette statistisk velbegrundet.? Opgave. 5 typer vaccine mod en bestemt sygdom blev undersøgt ved, at 6 grupper på hver 00 forsøgsdyr (mus) blev udsat for smitte. De 5 af grupperne fik hver sin type vaccination, mens den sidste gruppe ikke blev vaccineret. Efter en passende tid undersøgte man hvor mange af de 00 dyr, der havde fået sygdommen. Følgende resultater fandtes: Gruppe nr Antal syge dyr Vi ønsker at foretage en statistisk anayse af, om procenten af smittede dyr i de 6 grupper kan antages at være den samme. Opgave.3. Ved en tekstilfabrikation måltes for to forskellige vævemetoder og 5 forskellige materialetyper antallet af garnbrud pr. 000 m klæde. Resultaterne var følgende: Materialetyper Vævemetoder Foretag efter en passende variabeltransformation en analyse af, om og i bekræftende fald hvorledes middelantallet af garnbrud afhænger af vævemetoder og/eller materialetyper. 83

88 Opgaver til kapitel Opgave.4. Ved en undersøgelse af, hvorledes virkningen af forskellige giftstoffcr kunne bekæmpes, foretoges et fuldstændigt randomiseret forsøg, hvorved giftstoffer og 4 vitaminbehandlinger inddroges i undersøgelsen, og overlevelsestiden (timer) af de benyttede forsøgsdyr måltes. Nedenfor er anført en skematisk oversigt over forsøgsresultaterne: Vitaminbehandlinger 3 4 Giftstoffer Teoretiske overvejeser i forbindese med tidligere lignende forsøg har vist, at variabeltransformationen Y = X sikrer den for analysen nødvendige varianshomogenitet. ) Anayser forsøgsresultaterne og drag konklusioner med hensyn ti faktorernes virkemåde. ) Opstil et 95%-konfidensinterval for den gennemsnitlige middeloverlevelsestid for hver enkelt vitaminbehandling og bestem den vitaminbehandling. som må antages at have bedst virkning. 84

89 Grundlæggende operationer på TI Indledning.Indledning. Sædvanligvis vil man i statistik skulle analysere en eller flere kolonner af tal. I sådanne tilfælde benyttes Statistikmetoden : Vælg APPS, Stats/List, indtast data i eksempelvis list", og vælg en relevant F- knap. Der fremkommer nu en menu, som er næsten selvforklarende. Ønskes et resultat indsat på indtastningslinien: HOME, Var-Link. I StatsVar mappen markeres den ønskede størrelse, ENTER. Som eksempel se under afsnit 3: Beregning af gennemsnit m.m. Skal man beregne sandsynligheder f.eks P(X < 0.87), hvor X har en kendt sandsynlighedsfordeling, så benyttes Sandsynlighedsmetoden : Vælg HOME, CATALOG,, F3, vælg den ønskede fordeling (benyt evt. ALPHA,+ forbogstav for hurtigt at komme til det ønskede navn). ENTER bevirker at funktionen indsættes på indsætningslinien. Man indsætter nu parametrene (nederst på skærmen kan man se rækkefølgen af parametrene), og ved et tryk på ENTER fås resultatet. Oprette og vælge en mappe ( Folder ): Det kan være praktisk at oprette én eller flere mapper til at have sine data gemt i. VAR-Link, F, 5: Create Folder, Skriv navn på folder. Vælg F: View, og under Folder vælg den mappe som du vil arbejde i Vælg en mappe som den aktuelle mappe: MODE, Current Folder,. Sandsynlighedsfordelinger. Normalfordeling n( µ, σ ) a) Find p = P( a X b), hvor a,b, µ, σ er givne konstanter. HOME, Catalog, F3,vælg normcdf, ENTER normcdf( ab,, µ, σ) b) Find fraktilen x p : P( X x ) = p, hvor p, µ, σ er givne konstanter. p HOME, Catalog, F3 x p =invnorm( p, µ, σ ) t - fordeling. Lad T være t - fordelt med frihedsgradstallet f. a) Find p = P( a T b), hvor a og b er givne konstanter. tcdf(a,b,f) b) Find fraktilen tα ( f ): P( T tα ( f )) = α ( α given konstant). invt( α,f ) 85

90 Grundlæggende operationer på Ti89 F-fordeling. Lad F være F - fordelt med tællerfrihedsgradstallet og nævnerfrihedsgradstallet. a) Find p = P( a F b), hvor a og b er givne konstanter. FCdf(a, b, f T, f N ) b) Find fraktilen Fα ( ft, f N): P( F Fα ( ft, f N)) = α invf( α, ft, f N ) 3 Beregning af gennemsnit, varians og spredning APPS, Stats/List, Data indtastes i list", F4, : -Var Stats, I menu sættes List til List" (Benyt evt. Var-Link til at finde List) Eksempel: (hentet fra Statistiske grundbegreber eksempel 5. side 53) Forsøg nr x Udskriften består af en række statistiske størrelser, blandt hvilke man må finde det ønskede resultat. Man finder x = , s x =0.863 Skal man regne videre med et resultat, f.eks finde variansen, skal resultatet indsættes på indtastningslinien: Vælg Home og Var-Link. I StatsVar-mappen markerer man den ønskede størrelse. Tryk på ENTER indsætter så størrelsen på indsætningslinien. Ønskes beregning af en enkelt størrelse f.eks gennemsnit = mean, spredning= stddev eller varians = Variance HOME, CATALOG,, F3, Eksempel : Variance(list) Resultat: Hypotesetest og konfidensintervaller for variabel. APPS, STAT/LIST hvorefter eventuelle data indtastes i list, list osv. 4.. Normalfordeling. a) Hypotesetest; σ kendt: F6, : Z-Test I menu: Er data givet i en liste vælges Data. Er kun gennemsnit (og σ ) kendt vælges Stats. Eksempel: Vælges ovennævnte data i list, σ = og H: µ > 69., fås P-værdi=.48%. a) Konfidensinterval σ kendt: F7, : Z-Interval Eksempel: Vælges ovennævnte data i list og er σ =, fås C Int =[69,; 70.3] b) σ ukendt: F6, : T-Test. Derefter som under punkt a) b) σ ukendt: F7, : T-Interval. Derefter som under punkt a) 4.. Binomialfordeling. a) Hypotesetest: F6, 5: -Prop-ZTest Menu selvforklarende. Bemærk: Kræver der kan approksimeres til normalfordeling a) Konfidensinterval: F7, 5: -Prop-ZInt Bemærk: Kan kun benyttes, hvis kan approksimere til normalfordeling Eksempel: Er af 00 forsøg de 85 en succes, så fås C Int =[0.78; 0.93] Poissonfordeling: findes ikke, så her må formel for konfidensinterval benytttes f T f N 86

91 Tabel :Fraktiler i normalfordelingen STATISTISKE TABELLER Tabel Fraktiler u p i U-fordelingen n( 0, ). PU ( u ) = p. Bemærk: u p = - u - p p p u p p u p Eksempler: u =

92 Statistiske tabeller Tabel Fraktiler i t - fordelingen t( f ). t p ( X µ ) n PT ( tp) = p,hvor T = s Eksempler: For t (7) er P( X 34. ) = t 0.95 ()=6.3. t 0.05 (0) = - t 0.95 (0) = -.8. f p

93 TABEL 3. Dimensioneringstabel. Tabel 3: Dimensioneringstabel Dimensionering med henblik på udførelse af t-test vedrørende statistiske variable X og X som er normalfordelte n( µ, σ) og n( µ, σ ), hvor µ, µ, σ og σ er ukendte. Størrelse n af Værdier af for α = 5%. stikprøve på X σ og X : Ensidet test H 0 :µ µ eller H 0 :µ µ Tosidet test H 0 :µ = µ n β = 5% β = 0% β = 5% β = 0%

94 Facitliste FACITLISTE KAPITEL 0 0. () () 4 (3) - (4) () u = 3.09, P - værdi = 0.00 () [0.70 ; 3.] 0.4 () F = 7.4 () t = 0.837, P - værdi = (3a) [-.09 ; 4.84] (3b) [0.9 ; 6.40] 0.5 F =., P - værdi = , t =.393, P - værdi = F =.8, P - værdi = 0.47 t = -.64, P - værdi = F = 3.68, P - værdi = 0.75, t =.34, P - værdi =0.037, [0.03 ;.87] 0.8 () 8 () F =.7 P - værdi =0.3, t = 4.74 P - værdi = , [.9 ; 5.0] 0.9 F = 6.00, P - værdi = , t = 0.56, P - værdi = F =.563, P - værdi = 0,5 t = -.497, P - værdi = () u =.98, P - værdi =0,038 () F =.56, P - værdi = 0,067, t =.75, P - værdi = u = , P - værdi = () u =., P - værdi = () F = 7.9, P - værdi = 0,00, t = 4.5, P - værdi = () u = 0.654, P - værdi = () u =.0, P - værdi = u = 3.45, P - værdi = KAPITEL. ja, F = 3.4, P - værdi = , B nok bedst, men et lille overlap med B3. F = 3.5, P - værdi = () F = 4.94, P - værdi = () S, S4.4 () P - værdi = () nej,p - værdi = 0.008, (3a) Aså K, A:frit valg, A3:frit valg. (3b) K: frit valg, K så ikke A, (3c) ikke A K.5 () ja, P - værdi = () ja, P - værdi = (3) ja, ingen outliers, (4)glas og enten fosfor eller 3..6 () - () limtyper (3) II: [3.76 ; 8.0], III: [.69 ; 7.04].7 () Kun syrer har virkning, Svovlsyre størst. () 6.45, [5.7 ; 7.73].8 () Nej, P - værdi = () ja, P - værdi = (3) -.9 () - () -.0 ja, R forskellig fra de øvrige, ja. () T evt.q må foretrækkes. () - KAPITEL. χ = 533., P - værdi = χ =.64, P - værdi = Begge har signifikant virkning, vælge vævemetode, og ikke matrialtype 3..4 Begge, Vitaminbehandling eller 3. 90

95 Stikord Facitliste STIKORDSREGISTER A additiv model 39, 4 appendix 0A Eksempler regnet på TI B Eksempler regnet på Statgraphics A Eksempler regnet på TI B Eksempler regnet på Statgraphics 59 A Eksempler regnet på TI B Eksempler regnet på Statgraphics 8 B bagatelgrænse 3 Bartletts test 33, 48 behandlinger binomialfordeling test to variable 3, 6 mere end variable 74, 78 Statgraphics 4 TI - 89 blokforsøg, randomiseret 44 C D delforsøg 3 dimensionering 3 Maple program 4, 8 tabel 89 E én faktor ad gangen 37 ensidet variansanalyse 3 beregninger-formler 3, 35, 47 med Statgraphics 59 med TI F facitliste 90 fejl af type I 3 fejl af type II 3 F - fordeling test 5, 34, 48 fordeling, tabel over fraktiler for normalfordeling 87 fraktiler for t - fordeling 88 forudsætninger variansanlyse 33, 39 fraktiltabel for normalfordeling 87 t - fordeling 88 fuldstændig faktorstruktur 38 fuldstændig randomiseret blokforsøg 44 G H hypotesetest hyppighed, relativ 76 I,J interaction plot 6 K konfidensinterval differens, normalfordelte variable 7,, 3, 4 differens, binomialfordelte variable 0, 6 differens, Poissonfordelte variable, 7 i ensidet variansanalyse 34, 36, 47 i tosidet variansanalyse 4, 43, 5 LSD 34, 36, 47 kvalitativ faktor 3, 37 kvantitativ faktor 3 L Levines test 33, 49 LSD (Least Signifikant Difference) 34, 36 M Maple program til dimensionering 4, 8 median 49 N niveau for faktor 37 normalfordeling plot 33, 49 tabel 87 test, variable 9

96 Stikord middelværdi 4, 5, 7, 8, 9,, 3, 4 varianser 5, 5 O opgaver kapitel 0 6 kapitel 69 kapitel 84 oversigt kapitel 0 kapitel 47 kapitel 78 P planlægning af forsøg, 37 Poissonfordeling test variable, 7 mere end variable 75, 78 poolet estimat for varians 33 Q R randomisering randomiseret forsøg randomiseret blokforsøg 44 to normalfordelte variable 9 variansanalyse, ensidet 53 variansanalyse, tosidet 54 tosidet variansanlyse 50 transformation 75, 78 U uafhængige statistiske variable 33 V variabeltransformation 75, 78 variansanlyse ensidet 3 beregninger, formler 3, 35, 47 med Statgraphics 59 med TI tosidet 37 beregninger, formler 39, 40, 50 med Statgraphics 6 med TI vekselvirkning 39, 40 varianshomogenitet 33, 48 S SAK 4, 50 Satterthwaites test 7, 3 Statgraphics løsning blokforsøg 67 to binomialfordelte variable 4 to normalfordelte variable to Poissonfordelte variable 5 variansanalyse, ensidet 59 variansanalyse, tosidet 6 statistisk uafhængige 33 styrke af test 7 støj T t - tabel over fraktiler 88 TI-89 løsning blokforsøg 58 to binomialfordelte variable 9

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK (med TI-Nspire og TI 89 ) 7. udgave 013 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen : Statistiske

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK (med TI 89 og SAS - JMP) 5. udgave 011 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen : Statistiske

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 10.b 015 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen :

Læs mere

MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK med Excel

MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK med Excel MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK med Excel. udgave 004 i FORORD Denne bog er en fortsættelse af lærebogen M. Oddershede Larsen : Statistiske grundbegreber. Det forudsættes, at man har rådighed

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 10a 015 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen :

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Afsnit 8.3 - E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Først skal normalfordelingen lige defineres i Maple, så vi kan benytte den i vores udregninger. Dette gøres

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Statistisk forsøgsplanlægning. med benyttelse af Statgraphics

Statistisk forsøgsplanlægning. med benyttelse af Statgraphics MOGENS ODDERSHEDE LARSEN Statistisk forsøgsplanlægning med benyttelse af Statgraphics Vekselvirkning CD 10 8 C 1 udbytte 6 4 0 1 3 4 D 11 udgave 00, DTU FORORD Dette notat er baseret på at de studerende

Læs mere

Forelæsning 9: Inferens for andele (kapitel 10)

Forelæsning 9: Inferens for andele (kapitel 10) Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze [email protected] Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Den endelige besvarelse af opgaverne gøres ved at udfylde nedenstående skema. Aflever KUN skemaet!

Den endelige besvarelse af opgaverne gøres ved at udfylde nedenstående skema. Aflever KUN skemaet! Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 2. juni 2008 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Stastistik og Databehandling på en TI-83

Stastistik og Databehandling på en TI-83 Stastistik og Databehandling på en TI-83 Af Jonas L. Jensen ([email protected]). 1 Fordelingsfunktioner Husk på, at en fordelingsfunktion for en stokastisk variabel X er funktionen F X (t) = P (X t) og at

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Eksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af Excel.

Eksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af Excel. Eksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af Excel. Kapitel Deskriptiv statistik Indhold 1. Generelle forhold... 1 Kapitel : Deskriptiv Statistik... 1 Kapitel 4: Normalfordelingen...

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Opgaver til kapitel 3

Opgaver til kapitel 3 Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: [email protected] Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2 Indhold 1 Sammenligning af 2 grupper 2 1.1 Responsvariabel og forklarende variabel......................... 2 1.2 Afhængige/uafhængige stikprøver............................ 2 2 Sammenligning af 2 middelværdier

Læs mere

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau... Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: [email protected] I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

2 0.9245. Multiple choice opgaver

2 0.9245. Multiple choice opgaver Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Vejledende løsninger kapitel 8 opgaver

Vejledende løsninger kapitel 8 opgaver KAPITEL 8 OPGAVE 1 Nej den kan også være over 1 OPGAVE 2 Stikprøvestørrelse 10 Stikprøvegennemsnit 1,18 Stikprøvespredning 0,388158 Konfidensniveau 0,95 Nedre grænse 0,902328 Øvre grænse 1,457672 Stikprøvestørrelse

Læs mere

To-sidet varians analyse

To-sidet varians analyse To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK II Regressionsanalyse (TI-89 og Statgraphics)

MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK II Regressionsanalyse (TI-89 og Statgraphics) MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK II Regressionsanalyse (TI-89 og Statgraphics) DANMARKS TEKNISKE UNIVERSITET 6 udgave 005 FORORD Dette notat kan læses på baggrund af en statistisk viden

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau ypotese test Repetition fra sidst ypoteser Test af middelværdi Test af andel Test af varians Type 1 og type fejl Signifikansniveau Konfidens intervaller Et konfidens interval er et interval, der estimerer

Læs mere

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: [email protected] I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala 3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger Uge 49 I Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 8. november 2011 Videnskabelig hypotese Planlægning af et studie Endpoints Forsøgsplanlægning Stikprøvestørrelse 1 51 Instrumentelle/eksponerings variable Variationskilder

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Mikro-kursus i statistik 2. del Mikrokursus i biostatistik 1

Mikro-kursus i statistik 2. del Mikrokursus i biostatistik 1 Mikro-kursus i statistik 2. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er hypotesetestning? I sundhedsvidenskab:! Hypotesetestning = Test af nulhypotesen Hypotese-testning anvendes til at vurdere,

Læs mere

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl? Module 6: Exercises 6.1 To laboranter....................... 2 6.2 Nicotamid i piller..................... 3 6.3 Karakterer......................... 5 6.4 Blodtryk hos kvinder................... 6 6.5

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min Epidemiologi og biostatistik Uge, torsdag 3. februar 005 Morten Frydenberg, Afdeling for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (ud

Læs mere

VIDEREGÅENDE STATISTIK III Ikke parametriske test

VIDEREGÅENDE STATISTIK III Ikke parametriske test MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK III Ikke parametriske test Statistisk Kvalitetsstyring (Statgraphics) DANMARKS TEKNISKE UNIVERSITET 6. udgave 004 i FORORD Dette notat kan læses på baggrund

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere