MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK med Excel. udgave 004 i
FORORD Denne bog er en fortsættelse af lærebogen M. Oddershede Larsen : Statistiske grundbegreber. Det forudsættes, at man har rådighed over en lommeregner med programmer indbygget, der til givne data kan beregne gennemsnit og spredning. Det kan dog være en lettelse, hvis lommeregneren også har indbygget et regressionsprogram, der kan beregne regressionskoefficienter og korrelationskoefficient. Ved de mere regneteknisk komplicerede analyser som eksempelvis tosidet variansanalyse er det imidlertid langt lettere at benytte en PC med et passende statistisk software. Regnearkprogrammet Microsoft Excel er ikke udviklet med henblik på statistik, men har den fordel, at den findes på et stort antal PC-er. Notatet bygger derfor for visse kapitlers vedkommende på, at læseren har adgang til programmet Exell, og at man der har installeret tilføjelsesprogrammet Analysis Toolpak. Ved mere avancerede statistiske problemer kan det dog anbefales at købe et egentligt statistikprogram. Der findes særdeles mange udmærkede statistikprogrammer, som kan udføre disse analyser. Forfatteren har skrevet en udvidet version af dette notat (indeholder flere statistiske metoder), hvori der benyttes statistikprogrammet Statgraphics. Der er her i en række eksempler vist, hvorledes man kan udnytte et sådant software, og hvorledes udskrifter herfra kan tolkes. Specielt er de grafiske muligheder fremhævet. Juni 003 Mogens Oddershede Larsen I udgave er der udover en række mindre ændringer foretagt en ombytning af kapitlerne og. Februar 004 ii
Indhold INDHOLD 0 HYPOTESETESTNING (TO STATISTISKE VARIABLE) 0. Indledning... 0. Planlægning af forsøg... 0.3 Test og konfidensintervaller for normalfordelte variable... 4 0.4 Test og konfidensintervaller for binomialfordelte variable... 0.5 Test og konfidensintervaller - Poissonfordelte variable... 3 Opgaver... 4 ENKELT REGRESSIONSANALYSE. Indledning... 8. Valg af model, der bedst mulig beskriver de fundne data... 8.. Lineær model... 9.. Regressionslinie og regressionskoefficienter... 9..3 Bestemmelse af regressionslinie ved mindste kvadraters metode... 0..4 Vurdering af om model beskriver data godt....3 Statistisk analyse af lineær regressionsmodel... 6.3. Forudsætninger for regressionsanalyse... 6.3. Test af om Y er uafhængig af X... 7.3.3 Enkelt regressionsanalyse med én y - observation for hver x - værdi... 9.3.3. Analyse beregnet med lommeregner med regressionsprogram. 9.3.3. Analyse beregnet ved Excel... 3.3.4 Enkelt regressionsanalyse med flere y - observationer for hver x - værdi.. 35.3.4. Analyse beregnet med lommeregner med regressionsprogram. 37.3.4. Analyse beregnet ved Excel... 39.3.5 Transformation af data inden regressionsanalyse foretages... 4 Opgaver... 44 iii
Indhold VARIANSANALYSE. Indledning... 50. Ensidet variansanalyse... 50.. Ensidet variansanalyse beregnet på lommeregner... 5.. Ensidet variansanalyse beregnet ved Excel... 55.3 Tosidet variansanalyse... 56.3. Indledning... 56.3. Planlægning af forsøg... 56.3.. Én faktor ad gangen... 56.3.. Fuldstændig faktorstruktur... 57.3.3 Forudsætninger for variansanalyse... 59.3.4 Testprocedure... 59.3.5 Tosidet variansanalyse udført med lommeregner... 6.3.6 Tosidet variansanalyse udført ved Excel... 6.3.6. Model med vekselvirkning... 6.3.6. Additiv model: Model uden vekselvirkning... 63.4 Fuldstændigt randomiseret blokforsøg... 65 Opgaver... 68 3 ANTALSTABELLER 3. Indledning... 73 3. En -vejs tabel... 74 3.3 To -vejs tabel... 76 Opgaver... 79 APPENDIX A: Statistik med Excel.... 8 a. Generelle forhold... 8 a. Inddata... 8 a3. Beregning af (statistiske) funktioner... 8 a3. Normalfordeling... 8 a3. χ - fordeling... 83 iv a3.3 t - fordeling... 83 a3.4 F - fordeling... 83 a3.5 Hypergeometrisk fordeling... 84 a3.6 Binomialfordeling... 84 a3.7 Poissonfordeling... 84
Indhold a4. Beregning af gennemsnit og spredning af n tal... 84 a5. Beregning af histogram... 84 a6. Konfidensintervaller for normalfordelt variabel... 85 a6. 95% konfidensinterval for middelværdi af stikprøve, idet σ er kendt... 85 a6. 95% konfidensinterval for middelværdi af stikprøve, idet σ er ukendt... 85 a6.3 95% konfidensinterval for spredning af stikprøve, idet er uendt... 85 µ a7. Hypotesetest: kontinuert variabel... 86 a7.. : µ µ, σ kendt... 86 H 0 0 a7.. : µ µ, σ kendt... 86 H 0 0 a7.3. : µ = µ, σ kendt.... 86 H 0 0 a7.4 H 0 : µ µ 0, σ er ukendt... 86 a7.5 H 0 : H 0 :σ σ, µ er ukendt... 86 0 a8. Sandsynlighedsregning... 86 a8. Beregn fakultet n!... 86 a8. Beregn kombination K(n,p)... 86 a9. Hypotesetest: kontinuerte variable... 87 a9.. H 0 :σ = σ... 877 a9.. σ = σ: H 0 : µ µ... 87 a9.3. σ σ: H 0 : µ µ... 87 a9.4. σ σ: H 0 : µ = µ... 87 a9.5.parvise observationer... 87 a0 Regressionsanalyse... 88 a0.. Korrelationskoefficient... 88 a Variansanalyse... 88 a.. Ensidet variansanalyse... 88 a.. Tosidet variansanalyse... 89 a Antalstabeller... 89 a.. En - vejs tabel... 89 a.. To - vejs tabel... 89 0.. Oversigt over konfidensintervaller ( variable)... 90 0.. Oversigt over test af middelværdier µ og µ for normalfordelte variable ( σ og σ kendte)... 9 0.3. Oversigt over test af middelværdier µ og µ for normalfordelte variable ( σ og σ ikke begge kendte)... 93 v
Indhold 0.4. Oversigt over test af varianser σ og σ for normalfordelte variable... 95 0.5. Oversigt over test af parametre p og p for binomialfordelte variable... 97 0.6. Oversigt over test af parametre µ og µ for Poissonfordelte variable... 98.. Formler til beregning af enkelt regressionsanalyse med én y - værdi for hver x - værdi 99. Formler til beregn.af enkelt regressionsanalyse med flere y - værdier for hver x - værdi 0.3 Transformation til lineær model... 03. Formler til beregning af ensidet variansanalyse... 04. Formler til beregning af tosidet variansanayse... 07 3.. - test af hypotese om multinomiale sandsynligheder.... χ 3.. χ - test af hypotese i - vejs tabel.... STATISTISKE TABELLER TABEL Fordelingsfunktionen for U - fordelingen... 5 TABEL. Fraktiler i U - fordelingen... 7 TABEL 3. Fraktiler i χ - fordelingen... 8 TABEL 4. Fraktiler i t - fordelingen... 0 TABEL 5. 95% - fraktiler i F - fordelingen... TABEL 6. 97,5 % - fraktiler i F - fordelingen... TABEL 7. Dimensioneringstabel for variable... 3 FACITLISTE... 6 STIKORD... 30 vi
0. Planlægning af forsøg 0 HYPOTESETESTNING (TO STATISTISKE VARIABLE) 0. Indledning Afsnit 0, giver en kort beskrivelse af hvorledes forsøg bedst planlægges ud fra et statistisk synspunkt. Hertil anvendes bl.a. den i tabel 8 angivne dimensioneringsstabel. I afsnit 0.3 sammenlignes to normalfordelte variable, mens de variable i afsnit 0.4 og 0.5 forudsættes at være henholdsvis binomial - og Poisson - fordelte. I appendix 0.-0.6 findes en række oversigter over de forskellige test. De grundlæggende begreber vedrørende konfidensintervaller og hypotesetest for én statistisk variabel, blev beskrevet i Statistiske Grundbegreber. Da det er de samme begreber og analoge udledninger der anvendes, når det drejer sig om at sammenligne statistiske variable, vil de ikke blive gentaget her. 0. Planlægning af forsøg Vi vil i dette afsnit som udgangspunkt tage følgende eksempel. Eksempel 0.. Problemstilling. En fabrik der producerer maling, har udviklet to nye additiver A og A, som bevirker en kortere tørretid. Additiv A er det dyreste, men man forventer også, at det giver den korteste tørretid. På grund af prisforskellen, skal tørretiden dog være mindst 0 minutter kortere for A, før man vil gå over til den. For at undersøge disse forhold produceres nogle liter maling, som derefter deles op i mindre portioner. Til nogle af portionerne tilsættes additiv A og til andre additiv A. Tørretiden måles derefter. Generelt gælder, at hvert delforsøg i et forsøg udføres under en række forsøgsbetingelser, De betingelser som med forsæt varieres som led i forsøgets formål, kaldes forsøgsbehandlingerne eller blot behandlingerne (engelsk: treatment). Alle andre delforsøgsbetingelser sammenfattes i et begreb, der kaldes forsøgsenheden. I eksempel 0. er additiverne = behandlingerne og forsøgsenhederne er den enkelte portion maling, anvendt apparatur og personale, tidspunkt for delforsøget og de forhold med hensyn til temperatur, luftfugtighed osv. som gælder på forsøgstidspunktet. Bemærk, at forsøgsenhederne ofte indeholder faktorer, som ikke kan gøres ensartet fra delforsøg til delforsøg. Dette bevirker, at resultatet af de enkelte delforsøg varierer. Dette giver forsøgsvariablens variation eller kort forsøgets støj.
0. Hypotesetestning ( statistiske variable) Randomisering. For at sikre et statistisk gyldigt forsøg foretager man en såkaldt fuldstændig randomisering. Dette betyder at man ved lodtrækning fordeler forsøgsenhederne tilfældigt på behandlingerne. Dette sker, for at man ikke ubevidst kommer til at favorisere en af de to behandlinger. Hvis man eksempelvis helt systematisk i eksempel 0. først laver alle delforsøg med additiv A, kunne dette bevirke en favorisering af A nemlig hvis forsøgsomstændighederne (apparater, personale, luftfugtighed ) er mest gunstige ved begyndelsen af forsøgsperioden. For at anskueliggøre denne randomiseringsproces antager vi, at vi i eksempel 0. skal lave 4 forsøg med hver additiv. Endvidere antages, at forsøgene skal indgå i den almindelige produktionsgang, dvs. at man af tidsmæssige, personalemæssige og på grund af begrænset mængde apparatur må lade forsøgene forløbe over flere dage. Da dage apparatur og laborant kunne tænkes at have betydning lader vi dem indgå i forsøgsenhederne. I forsøgsenhederne indgår sandsynligvis også andre forhold udenfor vor kontrol, og som tilsammen bevirker, at selv om man udfører gentagne forsøg med samme behandling, så får vi afvigende resultater. Lad os antage at der gælder følgende: Mandag er det kun muligt at lave forsøg, idet apparatur nr og laborant A er de eneste der er ledige. Tirsdag er der kapacitet ledig til 3 forsøg: Ét forsøg hvor apparatur nr og laborant A benyttes Ét forsøg hvor apparatur nr og laborant B benyttes, og Ét forsøg hvor apparatur nr 3 og laborant C benyttes. Onsdag kan der også laves 3 forsøg osv. (se det følgende skema). Forsøgsenheder Behandlinger Dag Apparatur Laborant (apparater) mandag A tirsdag A tirsdag B tirsdag 3 C onsdag 3 B onsdag 4 C onsdag A torsdag 3 B Vi foretager nu randomiseringen som kort sagt er en form for lodtrækning. Sædvanligvis vil man benytte et program der kan generere tilfældige tal (mange lommeregnere har et sådant program). For at anskueliggøre randomiseringen vil vi mere primitivt foretage lodtrækningen på følgende måde. På 4 sedler skrives A, på andre 4 sedler skrives A. Hver seddel krølles sammen til en kugle og placeres i en dåse. Sedlerne blandes ved at dåsen rystes (se figur). Hvis den første seddel der udtrækkes er A så betyder det, at det delforsøg der mandag udføres med apparatur og laborant A skal anvende additiv A. Hvis den næste seddel der udtrækkes er A så betyder det, at det delforsøg der tirsdag udføres med apparatur og råvareleverance skal anvende additiv A osv. Resultaterne kunne eksempelvis være som angivet på følgende skema:
0. Planlægning af forsøg Forsøgsenheder Dag Apparatur Laborant Behandlinger (apparater) mandag A A tirsdag A A tirsdag B A tirsdag 3 C A onsdag 3 B A onsdag 4 C A onsdag A A torsdag 3 B A På denne måde sikrer man sig, at vi får et så vidt muligt "statistisk gyldigt" forsøg. Hvis vi derfor efter beregninger (som ses i de følgende kapitler ) konkluderer, at der er forskel på additiverne, så er det "korrekt", idet det ville være helt tilfældigt, hvis én af additiverne har været begunstiget med særlig gode forsøgsenheder. Herved har man også sikret sig, at de to stikprøver (variable) er statistisk uafhængige. Forsøg bør udføres, så alle behandlinger får lige mange gentagelser. Ved planlægningen af forsøget er det ganske klart, at hvis man eksempelvis har ressourcer til at lave 0 delforsøg, så ville det være en meget dårlig plan, hvis man lavede 8 delforsøg med A og kun delforsøg med A. Der bør i naturligvis tilstræbes at lave 0 delforsøg med hver behandling. Forsøg kan mislykkes, så målet i praksis ikke bliver opfyldt, og i sådanne tilfælde kan de i de følgende kapitler anførte statistiske analyser stadig gennemføres. Resultaterne bliver dog mere usikre, og beregningerne mere komplicerede og vil i visse tilfælde ikke blive anført i dette notat. I stedet antages et statistikprogram benyttet. Dimensionering Analogt med forklaringen i Statistiske Grundbegreber side 57 kan man under visse forudsætninger beregne hvor mange gentagelser (portioner) der skal anvendes for hver behandling, hvis P( fejl af type I) α og P( fejl af type II) β. Man skal naturligvis angive en bagatelgrænse, men desuden kræver beregningerne, at spredningerne ved de to behandlinger er (tilnærmelsesvis) ens, og at man kan give et nogenlunde realistisk skøn for denne fælles spredning σ. Det er naturligvis en svaghed ved dimensioneringen, at man inden forsøget er udført skal give et sådant skøn. En vurdering heraf kunne baseres på erfaringer fra tilsvarende forsøg. Findes sådanne erfaringer ikke kunne man først at lave nogle få forsøg og derfra få et rimeligt gæt på spredningen σ. At spredningerne er nogenlunde ens vil i praksis ofte være tilfældet, da forsøgsenhederne jo er valgt ved randomisering. Når forsøget så er lavet, kan man (lidt sent) se, om man har skønnet rigtigt. Dimensioneringen skal jo bevirke, at man laver det rigtige antal gentagelser. Man kan fristes til at tro, at jo flere gentagelser jo bedre. Dette er imidlertid jo ikke tilfældet, idet man med for mange gentagelser kan risikere at opdage så små forskelle, at de ikke har praktisk betydning, og så er de mange forsøg jo spild af arbejdskraft og penge. Formler for dimensionering af variable findes i appendix 0. og 0.3, en tabel til dimensionering findes i tabel 7. 3
0. Hypotesetestning ( statistiske variable) Eksempel 0.. (fortsættelse af eksempel 0.) Dimensionering. a) Hvor mange portioner skal anvendes ved forsøget, hvis man ønsker, at P( fejl af type I ) = α 005., P( fejl af type II ) = β 00. og bagatelgrænsen =0 minutter, idet man fra mange tilsvarende forsøg ved, σ at den fælles spredning er = 5 minutter. b) Samme spørgsmål og krav som i spørgsmål a), men nu antages, at man ikke kender spredningen, men ud fra nogle få delforsøg skønner, at den er ca. 5 minutter. c) Samme spørgsmål og krav som i spørgsmål b), men nu antages P(fejl af type I) = α 0.0. LØSNING: a) Af oversigt appendix 0. fås u + u u + u + α β 095. 090. 645. 8. n = = = 38, 55 0 0 σ 5 5 dvs. der skal udføres i alt n = 39 delforsøg af hver behandling b) Af tabel 7 fås idet, at det største tal mindre end 0.67 fås for σ 3 = 067. n 40 0.3 Test og konfidensintervaller for normalfordelte variable. Lad os igen betragte det i eksempel 0. og 0. angivne forsøg. For hver af de additiver udføres en række delforsøg. Forsøgsresultaterne kan generelt skrives: For additiv A : Statistisk variabel X. Stikprøve : x, x, x 3,... x n. For additiv A : Statistisk variabel X. Stikprøve : x, x, x 3,... x n. Vi antager, at X og X er statistisk uafhængige normalfordelte variable med henholdsvis middelværdierne µ og µ og spredningerne σ og σ. Sædvanligvis vil både middelværdier og spredninger ikke være kendt eksakt, og må derfor estimeres ud fra forsøgsresultaterne. Generelt er man interesseret i at teste nulhypotesen H0:µ = µ + d, hvor d er en given konstant (sædvanligvis 0) Denne omskrives til H0:µ µ d = 0. Testproceduren er nu baseret på fordelingen af differensen X X d. Ifølge additionssætningen (se eventuelt Statistiske Grundbegreber side 34) er X X d normalfordelt og fra regnereglerne fås σ σ V( X X d) = V( X) + V( X) = + n n ( ) ( ) ( ) E X X d = E X E X = µ µ. Heraf følger, at hvis spredningerne er kendt (eksakt), vil U X X d = være normeret normalfor- σ σ + n n delt, og på sædvanlig måde kunne anvendes til test af nulhypotesen. og 4
0.3 Test og konfidensintervaller for normalfordelte variable Er spredningerne ikke kendt, vil det være naturligt at betragte teststørrelsen X X d. (0.) s s + n n Denne er imidlertid ikke normalfordelt. Man kan så benytte benytte Satterthwaite s approksimation som angivet i appendix 0-3. Har de to variable samme spredning, vil teststørrelsen (0.) være t - fordelt. Denne har større styrke end Satterwaite s approksimation, og må derfor foretrækkes. Er stikprøvestørrelserne store (over 30) er teststørrelsen (0.) med god tilnærmelse normalfordelt, og det er da ikke nødvendigt at foretage en indledende testning af, om spredningerne er ens eller forskellige. Testning af H0:µ = µ + d foretages derfor i følgende rækkefølge: ) Er stikprøvestørrelserne 30 foretages en U - test (jævnfør eksempel 0.3 og appendix 0.) ) Er stikprøvestørrelserne < 30 undersøges først om varianserne er ens (selvom det egentlige formål er at undersøge forskelle i middelværdier) Man opstiller nulhypotesen H 0 :σ = σ mod den alternative hypotese H:σ σ. = Testen bygger på, at størrelsen F s er F - fordelt (jævnfør appendix 0.4) s Får man en accept af nulhypotesen, har man naturligvis ikke hermed vist at varianserne er ens, men da testen er robust overfor mindre forskelle i varianserne, blot vi har samme antal gentagelser, er det tilladeligt i den følgende test af middelværdierne at antage dette. a) Accepteres nulhypotesen H 0 :σ = σ, beregner man et estimat for den fælles varians som et vægtet gennemsnit s 0 af de to estimater for varianserne s og s. Disse vægtes i ( n ) s + ( n ) s forhold til frihedsgraderne, dvs. s0 =. Frihedsgradstallet for n + n s 0 er f = n + n. Man siger man har foretaget en pooling af de to estimater. 0 X X d Man tester nu nulhypotesen H 0 : µ = µ på basis af teststørrelsen t = som s0 + n n er t - fordelt med frihedsgrader (jævnfør eksempel 0.4 og appendix 0.3). f 0 b) Forkastes nulhypotesen H 0 :σ = σ, benyttes Satterthwaite s approksimation (jævnfør eksempel 0.5 og appendix 0-3). Hvis spredningerne kan antages ens kan man foretage en dimensionering, dvs. vælge antal gentagelser n, så P(fejl af type II) holdes under β. Hvorledes dette kan gøres er beskrevet i eksempel 0.. En test har større styrke end en anden, hvis den med givne data og et givet signifikansniveau giver den største chance for at forkaste nulhypotesen. 5
0. Hypotesetestning ( statistiske variable) De følgende 3 eksempler belyser disse 3 situationer. Eksempel 0.3. Store stikprøvestørrelser ( 30 ) (fortsættelse af eksempel 0.). På basis af resultatet i eksempel 0. udførte man 40 delforsøg af hver behandling. Efter at forsøgsrækken var afsluttet, opdagede man, at et af forsøgene var mislykket og måtte kasseres. Der var følgelig kun 39 delforsøg med additiv A. Man fik følgende resultater (i minutter) A 7,0 30,7 7,4 4,4 06,8 5,7 6,5 86,7 4,7 7,9 03,0 33,4 03,6 4,4 3,0 30, 0,5 9,4 7, 5,6 6,5 94,0,7 06,0 4,0 35, 4, 07,9 3,4 6, 3,9 3,4 5,6 8,0 0,6 97, 4,4 34, 5,7 A 6,7, 33,7 08,9,6 57,6 4, 4,9 0,6 4, 58,6 36,9 7,4 7,5 38,9,7 0,5 33,,4 43,0 35,6 35,4 36,8,4 6, 35,7 8,, 3,7 07,0 38,,6 3, 57,3 6,5 30, 6,0 38,6 38,5 06,5 ) Kan man ud fra disse data bevise på mindst signifikansniveau α = 0.05, at malingen med additivet A tilsat har en mindre middeltørretid end konkurrentens? ) Hvad vil du anbefale virksomheden at gøre, når man også tager det økonomiske (bagatelgrænsen) i betragtning. LØSNING: ) X = tørringstiden for maling tilsat additiv A. X = tørringstiden for maling tilsat additiv A. X og X antages at være uafhængige normalfordelte variable, med henholdsvis middelværdierne µ og µ og spredningerne σ og σ. Nulhypotese H 0 :µ µ Alternativ hypotese: H:µ < µ Vi finder ud fra stikprøverne, at x = 8., 6 s = 3. og x = 9., s = 4.. Da stikprøvestørrelserne er over 30 anvendes en U-test (se eventuelt appendix 0.). x x 0 8. 6 9. u = s + n s n = 3. 4. + 39 40 = 357. Da - u 0.999 = - 3.090 > - 3.57 (eller P-værdi = PU ( < 357. ) = Φ ( 357. ) = 0,0007859 < 0.00 forkastes nulhypotesen (3-stjernet) dvs. der er et stærkt statistisk bevis for at additiv A i middel har en kortere tørringstid end additiv A. ) Et 95% konfidensinterval for differensen er (se eventuelt appendix 0. nummer ) s s x x u0 975 8 6 9 96 3. 4. ±. + =.. ±. + = 0. 6 ± 58. n n 39 40 Konfidensintervallet er 6. 43; 4. 78. [ ] Da bagatelgrænsen er 0, og differensen kun er 0.6, således at næsten 50% af konfidensintervallet ligger under 0, kan det ikke anbefales at gå over til det mere kostbare additiv. Bemærk, at dimensioneringen reelt kun har betydning i en acceptsituation, hvor man så med stor sikkerhed kan konkludere, at muligvis giver additiv A en kortere størkningstid, men ikke så meget kortere, at det har praktisk betydning. Excel løsning: Man foretager analysen på samme måde, som det vises i de følgende eksempler. 6
0.3 Test og konfidensintervaller for normalfordelte variable Som det fremgår af det følgende eksempel er det overkommeligt ved hjælp af en lommeregner at foretage de nødvendige test i tilfældet, hvor der er samme spredning. Excel kan dog også udføre disse test. Eksempel 0.4. Små stikprøvestørrelser (< 30), accept af ens spredning. To katalysatorers indflydelse på udbyttet ved en kemisk proces skal undersøges. Den ene katalysator K er billigere end den anden katalysator K, så hvis K ikke i middel giver et udbytte, som er mindst enheder større end det udbytte K giver, vil vi vælge katalysator K. Da forsøgene er både tidskrævende og kostbare, har man kun afsat midler til 8 forsøg med hver katalysator. Resultaterne blev: K 86.4 9.9 86.7 88.99 9.59 89.38 9.40 88.70 K 93.65 9.97 97.96 94.0 9.56 9.85 99.99 90.99 ) Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises at K giver et udbytte der er enheder større end K ) Angiv endvidere et 95% konfidensinterval for differensen mellem de to middeludbytter. LØSNING: ) Lad X = udbyttet ved anvendelse af katalysator K og X = udbyttet ved anvendelse af katalysator K. X og X antages approksimativt normalfordelte med middelværdi og spredning henholdsvis µ, σ og µ, σ. Ved indtastning af forsøgsresultaterne i lommeregneren fås de tilsvarende estimater x = 89. 46, s =. 387 og x = 94., s = 33.. H 0 :σ σ a) Først testes om varianserne er ens, dvs. = mod den alternative hypotese H:σ σ. Vi anvender formlen i appendix 0.4 storrække : s 33. Teststørrelsen F = = = 8., er F - fordelt F( f, f) = F( 77, ). s. 387 (Bemærk: Vælg tæller og nævner i F, så brøken bliver større end, så skal kun vurderes opad ). Ved opslag i tabel 6 findes F 0. 975 ( 77, ) = 499.. Da.8 < 4.99 ( eller P - værdi = P (X >.8) = 0.3 > 0.05) accepteres nulhypotesen, dvs. vi vil i den følgende test antage, at spredningerne er ens. Et estimat for den fælles spredning er ( n s n s ) + ( ) ( 8 ). 387 + ( 8 ) 33. s0 = = = 80. med f 0 = 4 n + n 4 b) Vi tester nu om udbyttet ved katalysator K er større end ved katalysator K, hvilket betyder, at vi opstiller nulhypotesen H 0 :µ µ + mod den alternative hypotese H:µ > µ +. x x 94. 89. 46 Af appendix 0.3 fås teststørrelsen t = = = s0 + 80 88.. + n n 8 8 Da t = 88. > t095. ( 4) = 76. ( eller P - værdi = P(X >.88) = 0.04 < 0.05) forkastes nulhy- potesen, dvs. vi har et (svagt) statistisk bevis for at K giver et udbytte der er enheder større end K (vi er dog tæt på en accept). 7
0. Hypotesetestning ( statistiske variable) Excell løsning: I appendix A afsnit a9 ses, hvilke ordrer der er nødvendige. a) Først testes om varianserne er ens, dvs. H 0 :σ = σ mod den alternative hypotese H 0 :σ σ. Lad stikprøveværdierne for K og K stå i to søjler eksemplevis i cellerne A til A8 og B til B8 Inddata: 86,4 93,65 9,9 9,97 86,7 97,96 88,99 94,0 9,59 9,56 89,38 9,85 9,4 99,99 88,7 90,99 Test af nulhypotese H 0 : µ µ + (samme spredning) Indtast data fra eksempel 0.4. K's værdier placeres i cellerne A - A8. K's værdier placeres i cellerne B - B8 ) Først testes om spredningerne er ens: H 0 :σ = σ : Metode : P - værdi = FTEST(A:A8;B:B8) = 0.4540. Da 0.45 > 0.05 accepteres H 0. Metode : Vælg Funktioner, Dataanalyse, F-test: Dobbelt stikprøve for varians Den fremkomne tabel udfyldes: Område for variabel ": A:A8 Område for variabel ": B:B8 Outputområde : Skriv cellenummer for øverste venstre celle i det ønskede outputområde. Udskrift: F-test: Dobbelt stikprøve for varians Variabel Variabel Middelværdi 89,4575 94,5 Varians 5,699364 0,3305 Observationer 8 8 fg 7 7 F 0,550 P(F<=f) en-halet 0,570 H 0 accepteres, da P-værdi=0.57 < 0.05 F-kritisk en-halet 0,64058 ) Nu testes σ = σ: H 0 : µ µ + Metode : P - værdi = TTEST(B:B8;A:A8 + ;;) = 0,04034 Da 0.04034 < 0.05 forkastes H 0 Metode : Vælg Funktioner, Dataanalyse, t-test: to stikprøver med ens varians Den fremkomne tabel udfyldes: Område for variabel ": B:B0 Område for variabel ": A:A8 Hypotese for forskel i middelværdi : Outputområde : Skriv cellenummer for øverste venstre celle i det ønskede outputområde. Udskrift: 8
0.3 Test og konfidensintervaller for normalfordelte variable t-test: To stikprøver med ens varians Variabel Variabel Middelværdi 94,5 89,4575 Varians 0,3305 5,699364 Observationer 8 8 Puljevarians 8,007 Hypotese for forskel i middelværdi fg 4 t-stat,883 P(T<=t) en-halet 0,04034 H 0 forkastes, da P- værdi=0.0404 < 0.05 t-kritisk en-halet,76309 P(T<=t) to-halet 0,08068 t-kritisk to-halet,44789 Det ses, at vi får de samme resultater og konklusion som før. ) Et 95% konfidensinterval for differensen er (se eventuelt appendix oversigt 0. nummer ) x x ± t0. 975( 4) s + = 94. 89. 46 ± 5. 8. 0 + = 4. 67 ± 3047. n n 8 8 [ ] Konfidensintervallet er 63. ; 77.. At konfidensintervallet indeholder skyldes, at ved ensidede test er et 95% konfidensinterval for differensen også ensidet [ g ; [ hvor den nedre grænse g er bestemt ved: g = x x t s =.8 0. 95( 4) + = 94. 89. 46 76. 8. 0 + = 467. 49. n n 8 8 dvs. differensen er større end.8. Excell kan ikke umiddelbart beregne konfidensintervallet, men man må opskrive formlen for konfidensradius r. Forudsættes varianserne i forrige skem placeret i P6 og Q6 osv. fås radius af formlen r = ((P6*(P7-)+Q6*(Q7-))/(P6+Q6-))^(0,5)*(/P7+/P8)^(0,5)*TINV(0,05;4) Hvis der er stor forskel på stikprøvestørrelserne, er det meget vigtigt for anvendelsen af ovenstående test, at forudsætningen om, at varianserne er ens er holdbar. Til gengæld er det også i sådanne tilfælde, man virkelig ser den store forbedring ved at benytte t - testen fremfor Satterthwaite s approksimation. Eksempel 0.5. Små stikprøvestørrelser (< 30), forskellig spredning. Lad os antage, at vi har samme problemstilling som i eksempel 0.4, men at vi denne gang anvender to andre katalysatorer A og B. Der planlægges med 0 delforsøg men desværre mislykkedes to af forsøgene med katalysator A, så der ikke er lige mange gentagelser. Vi får følgende resultater: A 84.66 77.5 78.3 83.7 86.88 79.6 9.3 85.7 B 87.8 87.9 90.43 89.46 84.99 86.36 89.47 86.86 87.39 86.5 Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises, at B giver et udbytte der er enheder større end A. 9
0. Hypotesetestning ( statistiske variable) LØSNING: ) Lad X A = udbyttet ved anvendelse af katalysator A og X B = udbyttet ved anvendelse af katalysator B. X A og X B antages approksimativt normalfordelte med middelværdi og spredning henholdsvis µ A, σ A og µ B, σ B. Ved indtastning af forsøgsresultaterne i lommeregneren eller i Exell fås de tilsvarende estimater x = 83. 488, s = 4. 7686 og x = 87. 693, s = 695. A A B B a) Først testes om varianserne er ens, dvs. H mod den alternative hypotese. 0:σ A = σb H:σ A σ B s A 47686. Af appendix 0.4 storrække fås, at teststørrelsen F = = = 7. 938, er F - fordelt s 695. F( f A, fb) = F( 79, ) (bemærk, at vi igen sørger for, at brøken bliver større end ) Idet F 0. 975 ( 79, ) = 48. ( eller P - værdi = P (X >7.938) =0,0030 < 0.05) forkastes nulhypotesen, dvs. vi kan ikke tillade os at antage, at spredningerne er ens. b) Vi tester nu om udbyttet ved katalysator B er større end ved katalysator A, hvilket betyder, at vi opstiller nulhypotesen H0: µ B µ A + mod den alternative hypotese H: µ B > µ A +. Af appendix 0.3 fås teststørrelsen t = x B s n x A = A B.. A s + n B B 87. 693 83. 488 4 7686 8 + 695 0 = 857. Frihedsgradstallet f beregnes ved Satterthwaite s metode som det nærmeste hele tal, som er større s s A B 47686. 695. + n A n + B 8 0 end g = = = 84. 8 s A s B 47686. 695. n A n B n + 8 0 + n 8 0 Da A B t = 86. < t ( 8) = 86. (eller P - værdi = 0.7 > 0.05), accepteres nulhypotesen. 095. Vi kan ikke på dette grundlag vise, at udbyttet ved katalysator B er større end ved katalysator A. Excel løsning: På grund af de omfattende regninger kan det her anbefales at benytte et statistikprogram : a) Test af om varianserne er ens: :σ σ mod den alternative hypotese :σ σ. H0 A B = H A B F-test: Dobbelt stikprøve for varians Variabel Variabel Middelværdi 83,4875 87,693 Varians,73936,864579 Observationer 8 0 fg 7 9 F 7,9385 P(F<=f) en-halet 0,0030 H 0 accepteres, da P-værdi=0.003 < 0.05 F-kritisk en-halet 3,974 b)vi tester nu om udbyttet ved katalysator B er enheder større end ved katalysator A. 0
0.4 Test og konfidensintervaller for binomialfordelte variable t-test: To stikprøøver med forskellig varians Variabel Variabel Middelvæærdi 87,693 83,4875 Varians,864579,73936 Observationer 0 8 Hypotese for forskel i middelvæærdi fg 8 t-stat,8573 P(T<=t) en-halet 0,754 H 0 accepteres, da P-værdi=0.57 < 0.05 t-kritisk en-halet,859548 P(T<=t) to-halet 0,34508 t-kritisk to-halet,306006 Det ses, at vi får de samme resultat som ved benyttelse af tabel. 0.4 Test og konfidensintervaller for binomialfordelte variable. Som nævnt i bind kan man ofte approksimere en binomialfordeling med en normalfordeling. Det er en sådan approksimation, som formlerne i appendix 0.5 bygger på. I praksis vil disse forudsætninger for approksimation sædvanligvis være opfyldt. Vi belyser anvendelsen af oversigten ved følgende eksempel. Eksempel 0.6. Binomialfordelingstest. Ved et forsøg der skulle afgøre om C - vitamin har en forebyggende virkning mod forkølelse, fik halvdelen af en gruppe på 80 franske skiløbere C - vitamin mens de øvrige fik kalktabletter (placebobehandling). Fordelingen skete randomiseret, og forsøgspersonerne var uvidende om gruppeinddeling og hvilket medikament de fik. Efter en passende tid optaltes hvor mange af forsøgspersonerne der var forkølede. Resultaterne kan ses af følgende skema: Forkølet Ikke forkølet Total C-vitamin 7 39 Kalktabletter 3 09 40 Bemærk, at en enkelt forsøgsperson gled ud af forsøget, så grupperne blev ikke helt lige store. ) Kan det på et signifikansniveau på 5% vises, at C - vitamin har en forebyggende virkning? ) I bekræftende fald angiv er 95% konfidensinterval for differensen mellem parametrene.
0. Hypotesetestning ( statistiske variable) LØSNING: X = antal forkølede personer der har fået C-vitamin. X er binomialfordelt b(39, p ). X = antal forkølede personer der har fået Kalktabletter. X er binomialfordelt b(40, p ). Da vi ønsker at vise, at p < pbliver nulhypotesen H0: p pmod den alternative hypotese Hp : < p. Appendix 0.5 storrække anvendes : ~ x p 7, og. = = ~ x p 3 = = ~ x p + x 7 + 3 48 = = = n 39 n 40 n + n 39 + 40 79 Da n ~ p = 39 48 = 39. [ 539 ; 5] og n ~ p = 40 48 = 4. [ 540 ; 5] 79 79 er forudsætningerne for at approksimere med normalfordelingen opfyldt. Vi finder af formel () 7 3 ~ p ~ p u = = = 39 40 0. 099 = 93. ~ p ( ~ 48 48 0045. p ) + + n n 79 79 39 40 Da u 095 = 645 <.93 < u 099 = 36 (eller P - værdi = Φ( 93. ) = 0. 04 ) forkastes.... nulhypotesen ( enstjernet ), dvs. der er på signifikansniveau 5% vist, at C-vitamin har en vis forebyggende virkning mod forkølelse, Et 95% konfidensinterval for differensen p per ifølge appendix 0. række 8: ~ ~ ~ p ( ~ ) ~ ( ~ ) ~ ~ ~ ( ~ ) ~ ( ~ p p p p p p p ) p p u α + p p p p + u α + n n n n 0. 0. 3 960. 0. ( 0. ) 0. 3( 0. 3) 0. ( 0. ) 0. 3( 0. 3) + p p 0. 0. 3 + 960. + 39 40 39 40 0007. 0. 08787 p p 0007. + 0. 08787 0886. p p 0. 08 Excell har ikke direkte nogle programmer til beregningerne, så eneste mulighed er at beregne direkte ud fra formlerne.
0.5 Test og konfidensintervaller for Poissonfordelte variable 0.5 Test og konfidensintervaller for Poissonfordelte variable. Som nævnt i bind kan man ofte approksimere en Poisonfordeling med en normalfordeling. Det er en sådan approksimation, som formlerne i appendix 0.6 bygger på. I praksis vil disse forudsætninger for approksimation sædvanligvis være opfyldt. Vi belyser anvendelsen af oversigten ved følgende eksempel. Eksempel 0.7. Poissonfordelingstest. En bestemt type TV-apparat produceres på fabrikker A og B. Man har mistanke om, at der er forskel på antallet af loddefejl der findes i apparater fra de to fabrikker. For at teste dette, udtages af den løbende produktion stikprøver på 5 TV-apparater, og man optalte antallet af loddefejl i de 5 apparater. Resultaterne blev: Fabrik A: På 0 apparater fandtes i alt loddefejl Fabrik B: På 9 apparater fandtes i alt 7 loddefejl (et apparat måtte udskydes) Test på dette grundlag, om der er forskel på fejlintensiteten på de to fabrikker. LØSNING X = antal loddefejl pr. apparat på fabrik A. X antages Poissonfordelt p( µ ). X = antal loddefejl pr. apparat på fabrik B. X antages Poissonfordelt p( µ ). Da vi ønsker at vise, at µ µ bliver nulhypotesen :µ = µ mod den alternative hypotese H:µ µ. H 0 Appendix 0.6 storrække 3 anvendes : x x 7 x + x + 7 9 x,, og. = = x = = x = = = n 0 n 9 n + n 0 + 9 39 Da n x = 0 9 = 974. 5 og n x = 9 9 = 96. 5 39 39 er forudsætningerne for at approksimere med normalfordelingen opfyldt. 7 Vi finder : x x u = = 0 9 0. 36 = = 9 0 36 036.. x + + n n 39 0 9 Da u = 036. < u0. 975 = 960. (eller P-værdi = PX ( > 036. ) = Φ ( 036. ) = 050. > 0. 05) ) accepteres nulhypotesen, dvs. man kan ikke på det grundlag vise, at der er forskel på fejlintensiteten på de to fabrikker, Excell har ikke direkte nogle programmer til beregningerne, så eneste mulighed er at beregne direkte ud fra formlerne. 3
0. Hypotesetestning ( statistiske variable) OPGAVER Opgave 0. T Det påstås at modstanden i en tråd af type A er større end modstanden i en tråd af type B. Til afklaring af denne påstand udtages ved et fuldstændigt randomiseret forsøg tilfældigt n tråde af hver type og deres modstande måles. Find det mindste antal n ) hvis man ønsker at P( fejl af type I ) = α 005., P( fejl af type II ) = β 005. og bagatelgrænsen er σ = 0. ohm, og man ved, at spredningen = 0. ohm. ) hvis man ønsker at P( fejl af type I ) = α 005., P( fejl af type II ) = β 005. og bagatelgrænsen er = 0. ohm, og man har en forhåndsformodning om, at spredningen er ca. =0. ohm. 3) Hvilke konklusioner vedrørende behandlingernes virkning kan gøres, såfremt man ved testning af forsøgsresultaterne finder a) signifikans b) ingen signifikans 4) Hvilke yderligere analyser af forsøgsresultaterne bør foretages, såfremt testningen a) viser signifikans b) ikke viser signifikans. Opgave 0. I et forsøg ønsker man at sammenligne udbyttet ved benyttelse af reaktortyper. Man ønsker at kunne påvise eventuelle forskelle i middeludbytte ned til ca. = 6.0. Find den mindste værdi af n = antal delforsøg med hver reaktortype, for hvilken P( fejl af type I ) = α 005., P( fejl af type II ) = β 00.. Man kender ikke spredningen eksakt, men mener, den højst er ca 7 enheder. Opgave 0.3 T Et levnedsmiddelfirma havde udviklet en diæt, som har lavt indhold af fedt, kulhydrater og kolesterol. Diæten er udviklet med henblik på patienter med hjerteproblemer, men firmaet ønsker nu at undersøge diætens virkning på folk med vægtproblemer. To stikprøver på hver 00 personer med vægtproblemer blev udtaget tilfældigt. Gruppe A fik den nye diæt, mens gruppe B fik den diæt, man normalt gav. For hver person blev registreret størrelsen af vægttabet i en 3 ugers periode. Man fandt følgende værdier for gennemsnit og spredning: Gruppe A: x A = 93. kg, s A = 467. Gruppe B: x B = 740. kg, s B = 404.. ) Undersøg om vægttabet for gruppe A er signifikant større end for gruppe B. Signifikansniveau α = 5%. ) Beregn et 95% konfidensinterval for differensen mellem de to gruppers middelværdier. Opgave 0.4 På et laboratorium undersøgtes filtreringstiden for en opløsning af et bestemt gødningsstof ved benyttelsen af to forskellige filtertyper (F ) og (F ). Følgende stikprøveværdier observeredes: (F ) 8 0 3 3 9 4 4 (F ) 9 0 0 7 9 Det antages, at filtrerinqstiderne X og X er normalfordelte n( µ, σ) og n( µ, σ) l) Test, om det kan antages, at σ = σ. ) Test under hensyntagen til det i l) fundne, om det kan antages, at µ = µ. σ 3) Opstil et 95% -konfidensinterval for: a) µ µ, b). σ σ 4
Opgaver til kapitel 0 Opgave 0.5 T Det påstås at modstanden i en tråd af type A er større end modstanden i en tråd af type B. Til afklaring af denne påstand udtages tilfældigt 6 tråde af hver type og deres modstande måles. Følgende resultater fandtes: Modstand i tråd A (i ohm) 0.40 0.38 0.43 0.4 0.44 0.37 Modstand i tråd B (i ohm) 0.35 0.40 0.4 0.36 0.38 0.40 Hvilke konklusioner kan drages med hensyn til påstanden? Opgave 0.6 I et laboratorium foretoges 5 uafhængige bestemmelser af furfurols kogepunkt, idet 8 af bestemmelserne foretoges af én kemiingeniør, de resterende bestemmelser af en anden kemiingeniør. Resultaterne var ( 0 C ) :. ingeniør 6. 6.3 6.9 6. 63.4 6.4 6.5 6.0. ingeniør 63.3 6.6 6.8 63.8 63.0 63. 64. Undersøg, om de to ingeniørers resultater i middel er ens. Opgave 0.7 Med henblik på at sammenligne de farmakologiske virkninger af stofferne morphin og nalbuphin foretoges et fuldstændigt randomiseret forsøg, hvorved man på 0 forsøgspersoner målte ændringen i pupildiameter (millimeter) efter indsprøjtning af en standarddosis af en opløsning af morphin (M) eller nalbuphin (N). Forsøgsplan og forsøgsresultater var: M:.0 N: 0.0 M:.9 M:.0 N: 0.8 M: 0.8 M:0. N: - 0.3 N : 0.4 N: 0. Analyser forsøgsresultaterne og opstil et 95%-konfidensinterval for differensen µ ( M) µ ( N) mellem de to middelværdier. Opgave 0.8 En produktion af plastikvarer må omlægges på grund af bestemmelser i en ny miljølov. Ved den fremtidige produktion kan inden for miljølovens rammer vælges mellem pro- duktionsmetoder I og II. Metode I er den dyreste, og fabrikanten har regnet ud, at det (kun) kan betale sig at benytte metode I, såfremt den giver et middeludbytte, som er mindst 0 måleenheder (udbytteprocenter) større end udbyttet ved benyttelse af metode II. Ved et fuldstændigt randomiseret forsøg fandtes følgende måleresultater: Metode I 35. 38. 37.6 37.6 34.9 37.9 36.5 40.0 36. 37.4 37. 37.9 Metode II 6.. 4.3 4.5.0 7.6 3.8.8 3.4 0.8 Fabrikanten valgte herefter at benytte metode I. Foretag en undersøgelse af, om valget var statistisk velmotiveret. Opstil et 95% - konfidensinterval for differensen mellem middeludbytterne ved benyttelse af metoderne l og II. 5
0. Hypotesetestning ( statistiske variable) Opgave 0.9 T To sjællandske fabrikker producerer begge en bestemt type kvægfoder, for hvilken det ønskes, at proteinindholdet i færdigvaren skal være 6%. På de fabrikkers driftslaboratorier foretoges følgende målinger af proteinindholdet i en uges produktion: Fabrik 7.3 6. 6.9 4.8 6. 5.7 6.5 Fabrik 6.0 6.7 5.6 6. 6. 5.5 6.0 6. 6. 5.9 Foretag en statistisk vurdering af, om de to produktioner kan antages i middel at give kvægfoder med samme proteinindhold. Opgave 0.0 Måling af intelligenskvotient på 6 tilfældigt udvalgte studerende ved en diplom-retning (med mere end 00 studerende) viste et gennemsnit på = 07 og en empirisk varians på =00, medens en x s tilsvarende måling på 4 tilfældigt udvalgte studerende fra en anden diplomretning viste et gennemsnit på = og en empirisk varians på = 64. x s Tyder disse tal på en forskel på studentermaterialet på de to retninger? Opgave 0. l) 00 studerende, 5 piger og 48 drenge, indstillede sig til en prøve, ved hvilken 39 piger og 7 drenge bestod. Undersøg. om det anførte tyder på, at resultatet ved den pågældende prøve afhænger af deltagerens køn. ) Det oplyses supplerende, at pigerne ved ovennævnte prøve opnåede et gennemsnit på 64% med en empirisk spredning på 0%, medens drengenes gennemsnit var 59% med en empirisk spredning på 8%. Undersøg, om det anførte kan tages som vidnesbyrd om, at piger i almindelighed klarer sig bedre end drenge ved den omhandlede prøve. Opgave 0. T To sjællandske fabrikker producerer begge en bestemt type kvægfoder, for hvilken det ønskes, at proteinindholdet i færdigvaren skal være 6%. For den omhandlede produktion er der fastsat en øvre og en nedre tolerancegrænse for proteinindholdet. Partier med et proteinindhold uden for toleranceintervallet klassificeres som "dumpere". I en 3-måneders periode havde fabrik af en produktion på 60 foderstofpartier 5 dumpere, medens fabrik af en produktion på 00 foderstofpartier havde dumpere. Kan det heraf statistisk konkluderes, at dumpeprocenten i middel har været størst for fabrik? 6
Opgaver til kapitel 0 Opgave 0.3 To virksomheder A og B fremstiller dåser med nominelt 00 g rejeost. 0 tilfældigt udtagne dåser fra A's produktion og 0 tilfældigt udtagne dåser fra B's produktion viste føgende resultater: Virksomhed A B Totalt antal rejer 8 6 Gennemsnittet x af nettoindhold 0. g 98.3 g Empirisk spredning s af nettoinshold.0 g.7 g ) Test, om det gennemsnitlige antal rejer pr. dåse kan antages at være det samme for virksomhedernes produktion. ) Test, om det gennemsnitlige nettoindhold i en dåse kan antages at være det samme for virksomhedernes produktion. Opgave 0.4 ) Mange forbrugere tror, at såkaldte "mandagsbiler", dvs. biler produceret om mandagen, har flere alvorlige fejl end biler produceret på ugens øvrige arbejdsdage. For at undersøge, om der er noget grundlag for denne tro, udtog man på en bilfabrik tilfældigt 00 "mandagsbiler" og undersøgte dem for fejl. Man fandt at 8 biler havde alvorlige fejl. Tilsvarende udtog man tilfældigt 00 biler, der var produceret på ugens øvrige arbejdsdage, og man fandt biler, der havde alvorlige fejl. Giver denne undersøgelse støtte til formodningen om, at "mandagsbiler" er af dårligere kvalitet end andre biler. ) De 00 ovennævnte "mandagsbiler" havde i alt 030 konstaterede større eller mindre enkeltfejl, medens de 00 ovennævnte andre biler i alt havde 899 konstaterede fejl. Tyder dette på, at der er forskel i fejlintensiteten på bilerne i de to grupper? Opgave 0.5 Ved en undersøgelse af en eventuel sammenhæng mellem luftforurening og forekomsten af lungecancer sammenlignedes bl.a. sygdommens forekomst i byen X - købing inden for den gamle bygrænse (i nærheden af byens industrivirksomheder) med dens forekomst i samme bys forstadsområde (villakvarter): Antal tilfælde af lungecancer Samlet indbyggerantal Indre by 30 9000 Forstadsområde 40 7000 ) Det ses. at den relative hyppighed af cancertilfælde i den indre by afviger fra den relative hyppighed i forstadsområdet. Kan dette forklares som et tilfældigt udsving? Den opstillede nulhypotese. som testes, ønskes specificeret med angivelse af den alternative hypotese. ) Diskuter muligheden for at drage årsagsmæssige konklusioner ud fra det fundne testresultat. 7
. Regressionsanalyse ENKELT REGRESSIONSANALYSE. Indledning I dette kapitel betragtes forsøg, hvor man har målt sammenhørende værdier af to variable x og y. Det følgende eksempel demonstrerer et sådant tilfælde. Eksempel. I et spinderi udtrykkes garnets kvalitet bl.a. ved en norm for den forventede trækstyrke. Kvaliteten anses således for at være i orden, hvis middeltrækstyrken mindst er lig med 0 måleenheder (me). Ved uldgarn opfylder garnets naturlige trækstyrke ikke det nævnte kvalitetskrav, hvorfor der tilsættes en vis mængde kunstfibre, hvilket forøger trækstyrken. Herved sker der dog det, at andre kvalitetsegenskaber, såsom elasticitet og isoleringsevne, forringes. Man har eksperimenteret med forskellige tilsatte mængder kunstfibre x og registreret garnets trækstyrke y ved disse forskellige mængder. Herved fremkom følgende observationsmateriale: Mængde x (i gram) af kunstfibre pr kg uld 40 50 55 60 70 75 80 85 90 95 00 05 0 0 30 Trækstyrke (me): Y 4.5 6.5 5.4 7.0 8. 8.0 7. 8.9 8. 0.3 9.6 0.8 0.5..0 Mængden af kunstfibre x er blevet bestemt på forhånd (har fået ganske bestemte værdier), så den er ikke en statistisk variabel. Trækstyrken Y synes derimod udover mængden af kunstfibre også at være påvirket af andre ukendte og ukontrollable støjfaktorer. Y må derfor opfattes som en statistisk variabel. I andre situationer er både X og Y statistiske variable. Dette gælder eksempelvis, hvis man ønsker at undersøge om der er en sammenhæng mellem personers højde Y og vægt X, og derfor for en række personer måler sammenhørende værdier af højde og vægt. Er den ene variabel som i eksempel. en (kontrolleret) ikke statistisk variabel, så har man mulighed for hver x- værdi, at foretage gentagne målinger af den statistiske variabel Y (randomiseret). Dette giver mulighed for at beregne et estimat for den spredning der skyldes støjen, hvilket (som det vises i afsnit.3.6) kan udnyttes i regressionsanalysen... Valg af model, der bedst mulig beskriver de fundne data. Betragtes igen eksempel. ville man umiddelbart sige, at da man har 5 punktpar, så vil et polynomium af fjortende grad gå igennem alle punkter, og det må derfor være en god model. Dette er imidlertid ikke tilfældet, da Y - værdierne jo er resultater af forsøg der er påvirket af ukontrollable støjkilder. Polynomiets koefficienter vil derfor afspejle disse tilfældige udsving, og det giver derfor en ganske meningsløs model. Endvidere er modellen alt for matematisk kompliceret til at kunne bruges i praksis. Vi søger derfor en enklere model. 8
. Valg af model, der bedst mulig beskriver de fundne data...lineær model. Ved en lineær model forstås her en model der er lineær med hensyn til parametrene. Et polynomium af. grad y = a + bx + cx er således lineær i de 3 parametre a, b og c (selv om grafen naturligvis ikke er en ret linie). Et andet eksempel er y = a + b P + c T, hvor den afhængige variable afhænger af to uafhæn- gige variable temperatur T og tryk P. Vi har så en såkaldt multipel regressionsanalyse. Som et eksempel på en model der ikke er lineær i parametrene kan nævnes y = a + bx c. Ved en regressionsanalyse søger man at finde den lineære model, som indeholder det færreste antal koefficienter (parametre), og som samtidig beskriver dataene tilstrækkelig godt. Vi vil i dette kapitel betragte det ved anvendelserne meget ofte forekomne tilfælde, som kaldes enkelt regressionsanalyse, og hvor modellen er lineær i parametre. Som eksempler herpå kan nævnes y = a + bxog ln y = a + b ln x. Benyttes et egentligt statistikprogram (som eksempelvis Statgraphics) til beregningsarbejdet, kan metoderne herfra nemt overføres til mere komplicerede regressionsmodeller som: 3 p Y = α + β x+ β x + β x +... + β x og Y = α + β x + β x + β x + β x. 0,5 3 p 0 3 3 4 4...Regressionslinie og regressionskoefficienter. Lad os antage, at der foreligger en række målinger af sammenhørende værdier af to størrelser x og y. Som eksempel herpå betragter vi igen dataene i eksempel.. Afsættes de målte punktpar ( x, y i ) i et koordinatsystem for at få et overblik over forløbet, fås følgende tegning: Plot of styrke vs kunstfibre 0,5 styrke 8,5 6,5 4,5 40 60 80 00 0 40 kunstfibre Punkterne ligger ikke eksakt på en ret linie, men det synes rimeligt at antage, at afvigelserne fra en ret linie kan forklares ved den tilfældige variation (støjen). Derfor er det nærliggende at antage, at middelværdien af den statistiske variable Y er en lineær funktion af x af formen EYx ( )= β + β x. () 0 9
. Regressionsanalyse EYx ( ) skal læses middelværdien af Y for fastholdt x. Vi vil i det følgende ofte i ligningen () kort skrive Y eller µ fremfor EYx ( ). koefficienten β kaldes regressionskoefficienterne. Mens middelværdien af Y ligger på regressionslinien, kan den aktuelle observerede værdi af Y ikke forventes at ligge på den. For et punktpar ( x, y i ) gælder derfor, at y = β + β x + ε, hvor kaldes den i te residual. i 0 i i ε i..3.bestemmelse af regressionslinien ved mindste kvadraters metode. ~ ~ På basis af en række sammenhørende værdier af x og y bestemmes estimatorer β 0 og β for regressionskoefficienterne ved mindste kvadraters metode. Det følgende eksempel viser metoden anvendt på et så (urealistisk) lille taleksempel, at regningerne kan gennemføres uden anvendelse af et egentligt regressionsprogram.. De angivne metoder kan imidlertid umiddelbart generaliseres til mere komplicerede eksempler. Eksempel.. Bestemmelse af regressionskoefficienter ved mindste kvadraters metode. I et medicinsk forsøg måles på en forsøgsperson sammenhørende værdier af en bestemt medicin i blodet (i %) og reaktionstiden. Resultaterne var: x 3 6 8 y 4 9 7 Bestem ved mindste kvadraters metode et estimat for regressionslinien. Ligning () kaldes regressionsligningen (eller den teoretiske regressionsligning), grafen kaldes for regressionslinien (eller den teoretiske regressionslinie), og konstantledet og hældningsβ 0 Residual. Ved et punkts residual til en linie forstås den lodrette afstand fra punktet til linien (se tegningen). På figur. er afsat de 5 punkter, og indtegnet en ret linie. Figur. Residualer 0
. Valg af model, der bedst mulig beskriver de fundne data Mindste Kvadraters metode. Regressionslinien ~ ~ ~ y = β + β x bestemmes som den af alle 0 mulige rette linier, for hvilket summen af kvadratet af residualerne til linien er mindst. I eksempel. er kvadratsummen r + r + r3 + r4 + r5. Løsningen af dette optimeringsproblem er angivet nedenfor (med petit). Bestemmelse af regressionsligningen ved mindste kvadraters metode LØSNING: I vort tilfælde hvor vi har 5 punkter, indsættes vi disse i ligningen y = ~ β + ~ 0 βx. Dette giver: ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ = β0 + β, = β0 + β, 4 = β0 + β 3, 9 = β0 + β 6, 7 = β0 + β 8. ~ ~ De 5 ligninger med ubekendte β og β kan i matrixnotation skrives: 0 Y = X B hvor Y = X = og B = ~ β 0 4, 3 ~ β 9 6 7 8 ~ ~ De søgte værdier af β0 og β findes som den løsning til dette overbestemte ligningssystem som giver den mindste RMS - fejl. Løsningen er (se evt. Matematik for ingeniører bind 3) bestemt ved T T normalligningssystemet X X B = X Y. Da matricen X T X er en kvadratisk symmetrisk matrix, som sædvanligvis ved regressionsanalyse har en invers matrix ( X T X), så er løsningen B X T T = ( X) X Y. I vort taleksempel er B = = 5 0 3 4 3 6 8 3 6 8 0 4 6 9 8 7 Regressionsligningen bliver følgelig y = 0.6 +.0 x. = 0 3 4 0 3 = 70 6 70 0 5 6 70 = 06. 0. 70 I praksis vil man benytte et færdigt program til bestemmelse af regressionskoefficienterne. Dataene indtastes enten i en lommeregner med regressionsprogram (som TI83) eller i et statistikprogram. I Statistiske Grundbegreber er der i appendix A for en række lommeregnere angivet, hvorledes man kan finde et estimat for korrelationskoefficienten r. Samtidig hermed beregner programmerne regressionskoefficienterne. ~ ~ I ovenstående tilfælde vil man således af disse programmer finde, at β 0 = 06. og β = 0. Liniens ligning bliver altså ~ ~ ~ y = β0 + βx = 06. + 0. x
. Regressionsanalyse..4. Vurdering af om model beskriver data godt. Det er altid muligt ved mindste kvadraters metode at finde en sådan mindste kvadraters linie. Det er den af alle rette linier, der har den mindste kvadratsum af residualerne, men det betyder ikke nødvendigvis, at linien så også er en rimelig model, som kan anvendes til at beskrive sammenhængen. Til vurdering (eventuel test) heraf foretages følgende: a) Tegning. Mindste kvadraters linie tegnes linien i et koordinatsystem sammen med punkterne. Hvis den lineære model skal beskrive dataene godt, skal punkterne fordeler sig tilfældigt omkring linien. b) Model med gentagelser. Hvis der til hver x - værdi er foretaget gentagne målinger af y har man (jævnfør afsnit.3.4) mulighed for at beregne et estimat for den spredning der skyldes støjen. Den benyttes så til at foretage en statistisk test af om modellen kan accepteres ( lack of fit test ). b) Model uden gentagelser. Er der ingen gentagelser kan man ikke foretage en lack of fit test. I stedet vil man udregnes forklaringsgraden (også kaldet determinationskoefficient) r. Den angiver et talmæssigt mål for hvor tæt punkterne ligger på linien. Definitioner: SAK total = sum af kvadrater af residualerne til den vandrette linie y = y, SAK residual = sum af kvadrater på de enkelte punkters afstand fra den fundne regressionslinie SAK regression = sum af kvadrater af regressionsliniens afstand fra det totale gennemsnit y. Endvidere gælder følgende frihedsgradstal: SAK total har frihedsgradstallet f total = (totale antal punkter) - SAK residual har frihedsgradstallet f residual = (totale antal punkter) - SAK regression har frihedsgradstallet f regression = (antal koefficienter i ligningen) - Der gælder generelt, at SAK total = SAK residual + SAK regression, og f total = f residual + f regression Forklaringsgraden r er bestemt ved SAK r regression SAK total SAK residual SAKresidual = = = SAKtotal SAKtotal SAK total Anskuelig forklaring: Hvis Y er uafhængig af x vil regressionslinien være vandret med ligningen y = y. Det betyder igen at SAK residual SAK total og dermed at r 0. Hvis derimod Y er lineært afhængig af x vil regressionslinien have en hældning forskellig fra nul. Det betyder igen at, og dermed at. SAK residual < < SAK r Man siger også, at den fundne model forklarer r 00% af den totale variation De enkelte SAK-størrelser kan anskueligt ses på figur.. total
. Valg af model, der bedst mulig beskriver de fundne data Figur.. SAK - størrelser Det følgende enkle taleksempel belyser yderligere ovennævnte grundlæggende begreber. Eksempel.3. Beregning af forklaringsgrad (fortsættelse af eksempel.) Beregn de grundlæggende SAK-størrelser og forklaringsgraden for forsøget i eksempel. direkte ud fra definitionerne. LØSNING: + + 4 + 9 + 7 Idet y = = 46. er de 5 punkters residualer til den vandrette linie y = y. 5 r = 46. = 6., r = 46. = 36., r = 4 46. = 06., r = 9 46. = 44., r = 7 46. = 4.. 3 4 5 SAK total = r + r + + r5 = + + + + = Vi får... 6. 36. 06. 44. 4. 45.. Frihedsgradstallet for SAK total er f total = (totale antal punkter) - = 5 - = 4 Residualerne til den fundne regressionslinie y = 0.6 +.0 x: r = (. 06+ ) = 04., r = (. 06+ ) = 6., r3 = 4 (. 06+ 3) = 04., r = 9 (. 06+ 6) = 4., r = 7 (. 06+ 8) = 04.. 4 5 r r r5 SAK residual = + +... + = 04. + ( 6. ) + 04. + 4. +.( 6. ) =. Frihedsgradstallet bliver f residual = (totale antal punkter) - = 5 - = 3. (jævnfør, at det overbestemte ligningssystem har 5 ligninger og ubekendte ). Residualerne for regressionslinien y = 0.6 +.0 x s afstand fra det totale gennemsnit y =4.6. r = 06. + 46. = 30., r = 06. + 46. = 0., r3 = 06. + 3 46. = 0., r4 = 06. + 6 46. = 0., r5 = 06. + 8 46. = 40.. SAK regression = r + r +... + r = ( 30. ) + ( 0. ) + ( 0. ) + 0. +. 40. = 34 5 Frihedsgradstallet bliver f regression = (antal koefficienter i ligningen) - = - = SAK regression 34 Forklaringsgraden r = = = 0. 75 SAK 45 total. Den fundne model forklarer 75.% af den totale variation. 3
. Regressionsanalyse Sædvanligvis finder man, at den fundne model på tilfredsstillende måde beskriver data, hvis forklaringsgraden er på over 70% samtidig med, at tegningen viser, at punkterne fordeler sig tilfældigt omkring den fundne regressionskurve. At man ikke alene kan stole på forklaringsgraden illustreres ved følgende eksempel. Eksempel.4.Grafisk vurdering af model. De følgende 4 figurer afspejler forskellige muligheder. styrke Plot of Fitted Model,5 0,5 8,5 6,5 4,5 40 60 80 00 0 40 kunstfibre Figur.3a: r = 0.959 r = 9.9% y Plot of Fitted Model 58 48 38 8 8 8-0 4 6 8 x Figur.3b: r = 0.96 r =9.6% I y 6 5 4 3 0 Plot of Fitted Model 0 4 8 6 x Figur.3c: r = 0.78 r = 7.73% y 0-0 -60-00 -40-80 -0 Plot of Fitted Model 0 4 8 6 x Figur.3d: r = 0.9 r = 5.4% figur.3a synes den lineære model at kunne beskrive dataene godt, idet punkterne fordeler sig tilfældigt omkring linien, og forklaringsgraden r = 9.9% er høj. I figur.3b er forklaringsgraden også høj, og punkterne ligger da også tæt ved linien. Imidlertid ligger punkterne ikke tilfældigt omkring linien. Yderpunkterne ligger over og de midterste punkter under linien, så det er næppe rimeligt at anvende en ret linie som model. I stedet kunne man overveje en eksponentialfunktion eller et andengradspolynomium. I figur.3c er der næppe nogen relation mellem x og y. Er x og y uafhængige (ingen relation mellem x og y) vil punkterne fordele sig tilfældigt omkring gennemsnitslinien y = y, og for- klaringsgraden være 0. Vi ser, at regressionslinien er næsten vandret, og forklaringsgraden ringe. I figur.3d er forklaringsgraden også lille, men alligevel må vi antage at der er en sammenhæng mellem x og y. Den er blot ikke lineær, men muligvis en parabel. 4
. Valg af model, der bedst mulig beskriver de fundne data c) Outliers. Hvis en enkelt eller to målinger afviger kraftigt fra den almindelige tendens kan det skyldes fejlmålinger. Da sådanne punkter i uheldige tilfælde på grund af et stort bidrag til residualsummen kan få regressionslinien til at dreje er det vigtigt at undersøge på en figur om sådanne punkter findes. Det er dog klart, at man ikke blot kan stryge sådanne ubehagelige punkter. Det må kun ske, hvis man er sikker på, at punktet skyldes en fejl af en eller anden art ved målingen. d) Transformation. I eksempel.4 har vi set tilfælde på at der nok er en sammenhæng mellem x og y, men den ikke kan beskrives ved en ret linie. Man vil så søge efter en anden model som kan beskrive sammenhængen. Det er velkendt fra matematikken, at graferne for eksponentialfunktioner og potensfunktioner ved en passende logaritmisk transformation kan blive til rette linier. Eksempelvis vil en eksponentialfunktion y = ae bx ved en logaritmisk transformation ln y = lna+ bx blive lineær hvis man erstatter y - værdierne med ln y. Statistikprogrammer og også en del lommeregnere kan let foretage en regressionsanalyse i sådanne tilfælde. I eksempel.8 er et sådant eksempel gennemgået. Sammenhæng mellem korrelationskoefficient og forklaringsgrad. Hvis både X og Y er normalfordelte statistiske variable (som eksempelvis når man aflæser sammenhørende værdier af højde og vægt for en række personer) angiver korrelationskoefficienten ρ (jævnfør eventuelt Statistiske Grundbegreber kapitel 0) en størrelse mellem - og som kan anvendes til at angive om der er en sammenhæng (korrelation) mellem X og Y. Den er således negativ hvis punkterne har en aftagende tendens. Et estimat for ρ er størrelsen r. Kvadreres den er r den samme som forklaringsgraden. Hvis kun Y er en statistisk variabel eksisterer ρ ikke, men r kan naturligvis stadig udregnes, men er så ikke estimat for ρ. Ekstrapolation. Selv om modellen synes på tilfredsstillende måde at beskrive data, så er det jo faktisk kun sikkert indenfor måleområdet. Man skal være yderst forsigtig med at ekstrapolere, dvs. på basis af modellen for x - værdier udenfor måleområdet beregne hvad y er. 5
. Regressionsanalyse.3 Statistisk analyse af lineær regressionsmodel..3. Forudsætninger for regressionsanalyse: De foregående betragtninger kræver ingen statistiske forudsætninger, idet man jo altid ved mindste kvadraters metode kan beregne regressionskoefficienterne, derefter beregne korrelationskoefficienten, tegne kurver og punkter ind i et koordinatsystem og så herudfra vurdere om modellen er acceptabel. Ønsker vi at foretage en nøjere statistisk analyse som eksempelvis at teste om Y er uafhængig af x, dvs. af om β = 0", eller opstille konfidensintervaller for β osv. må observationerne opfylde følgende krav: Forudsætninger for regressionsanalyse: ) De enkelte observationer er indbyrdes uafhængige (eksempelvis hvis der udføres flere y i målinger for samme mængde medicin skal de være indbyrdes uafhængige, ligesom det også skal gælde målinger baseret på forskellige mængder medicin. Punkt kan opfyldes ved en hensigtsmæssig forsøgsplan. I eksempel. skal man således være sikker på at den foregående dosis medicin er ude af blodet inden man foretager en ny indsprøjtning, ligesom forsøgene skal være randomiseret. Man kan nok i dette tilfælde betvivle uafhængigheden, hvis man udfører forsøgene på samme person. ) For hver værdi af x er Y = E( Y x) + ε = β + β x + ε, hvor residualen er en statistisk 0 ε variabel som forudsættes, at være normalfordelt med middelværdi 0 og konstant varians σ. Da V( Y) = V( β0 + βx + ε) = V( β0 + βx) + V( ε) = 0 + σ betyder kravet om konstant varians, at variansen af Y skal være den samme uafhængig af x s værdi, dvs. der forudsættes varianshomogenitet. Kravene i punkt er sædvanligvis opfyldt i praksis, da det heldigvis er sådan, at analysen stadig er gyldig, selv om der forekommer mindre afvigelser (testene er robuste overfor kravet normalitet og varianshomogenitet). Det er derfor unødvendigt at lave ekstra forsøg m.m. for at kunne kontrollere om kravene er opfyldt. Er man i tvivl om kravet om normalitet er rimeligt opfyldt, kan man få et indtryk af, om der er alvorlige afvigelser, ved at tegne et normalfordelingsplot (vises i eksempel.7) Har vi for hver x - værdi målt flere y - værdier kan vi teste kravet om varianshomogenitet på ganske samme måde som ved variansanalyse (vises også i eksempel.7). Hvis der er det samme antal gentagelser for hver x - værdi er analysen så robust overfor afvigelser, at man kun behøver at kontrollere det, hvis man har en stærk mistanke til store forskelle. Er der derimod et forskelligt antal gentagelser, bliver analysen følsom overfor afvigelser. 6
.3 Statistisk analyse af lineær regressionsmodel.3.. Test af, om Y er uafhængig af x. Til hjælp ved analysen udarbejdes en såkaldt variansanalysetabel, som på overskuelig form samler de væsentligste teststørrelser. En sådan er angivet nedenfor. Her er N antallet af punkter, og i parentes er angivet de tilsvarende engelske betegnelser : SS = Sum of Squares, df = degree of freedom. Variation (Source) SAK (SS) f (df) s = SAK F = f s s model residua P - værdi Regression SAK model s model SAK model = F model = s s model residual P(Z > F model ) Residual SAK residual N - s residual = SAK residual N Total SAK total N - Den statistiske variabel Z er F - fordelt med frihedsgraderne ( ft, f N ) = (, N ). Vi har i forbindelse med beregningen af forklaringsgrad forklaret betydningen af SAK størrelserne Lad os antage, at de i afsnit.. angivne forudsætninger er opfyldt, og at vi ved de i forrige afsnit beskrevne metoder har fundet, at modellen EYx ( )= β + β x. (.) 0 gælder. Dette medfører, at punkterne burde ligge eksakt på en ret linie (og dermed forsøgsresultaterne havde været påvirket af støjen. Et estimat for forsøgsfejlens varians er derfor. σ s residual s residual = 0 ) hvis ikke Hvis Y er uafhængig af x betyder det, at regressionslinien er vandret, eller at hældningskoefficienten β er 0. Vi får altså: H 0 :Y er uafhængig af x H : Regressionslinien er vandret H : β =. Er H 0 sand, så burde (jævnfør definitionen af SAK regression ) 0 0 0 s regression være nul. Når det ikke er tilfældet skyldes det, at forsøgsresultaterne har været påvirket af støjen. Af samme grund som før må derfor også være et estimat for. s regression sregression Vi har følgelig, at hvis H 0 er sand, så er F. regression = sresidual Det kan vises, at hvis nulhypotesen ikke er sand, så vil F regression > Testen bliver følgelig en ensidet F - test. I eksempel.5 vises opstilling og testning på det lille taleksempel., mens de følgende eksempler viser, hvorledes beregningerne kan foretages på større og mere realistiske eksempler. σ 7
. Regressionsanalyse Eksempel.5. Test af uafhængighed (fortsættelse af eksempel.3) Idet det forudsættes, at forudsætningerne for regressionsanalysen er opfyldt, ønskes testes om data fra forsøget i eksempel. viser, at Y er uafhængig af x, eller anderledes udtrykt om hældningskoefficienten for linien er nul LØSNING: H 0 :Y er uafhængig af x H0: Regressionslinien er vandret H0: β = 0. Variansanalysetabel opstilles (SAK-erne er beregnet i eksempel.3): Variation (Source) SAK (SS) f (df) SAK s = f F = s s model residua P - værdi Regression 34.0 34. 0 = 34. 0 34. 0 = 37333. 9. 0.0569 Residual. 3. 3 = 37333. Total 45. 4 Da F 095. (,) 3 = 0. > F = 9. (eller P - værdi = P (F > 9.) = 0.0569) har vi en accept af nulhypotesen, dvs. vi kan ikke afvise, at y er uafhængig af x (at hældningskoeficienten er 0). Konfidensintervaller og prædistinationsintervaller. Et led i analysen kan være,at udregne et 95% konfidensinterval for. Endvidere vil man ofte β være interesseret i en speciel værdi for x, for hvilken man ønsker beregnet såvel den tilsvarende forventede y - værdi (predicted value ) som et 95% -konfidensinterval for middelværdien ~ µ og et 95% prædiktionsinterval for én ny observation. I appendix. er angivet formler for bl.a. disse konfidensintervaller. På figur.4 er her tegnet 95% konfidensintervaller for middelværdierne (de inderste buede kurver), og 95% prædiktionsintervaller (de yderste to kurver). Man ser tydeligt, at konfidensintervallerne er smallest omkring centrum ( x, y). 8 y 6 4 0 8 6 4 0 Plot of Fitted Model 0 4 6 8 x Figur.4. Konfidensintervaller og prædistinationsintervaller
.3 Statistisk analyse af lineær regressionsmodel.3.3. Enkelt regressionsanalyse med én y - værdi for hver x værdi. For større datamaterialer er det alt for tidskrævende at foretage beregningerne manuelt. Derfor vil vi i dette afsnit forudsætte, at man enten har en lommeregner med regressionsprogram (afsnit.3.) eller et regneark som Excel, der automatisk udregne de relevante størrelser, og man skal så blot tolke udskriften. Alle egentlige statistikprogrammer kan naturligvis endnu simplere udregne de nødvendige beregninger..3.3.. Regressionsanalyse beregnet ved hjælp af lommeregner med Regressionsprogram. De forskellige typer lommeregnere har mere eller mindre avancerede regressionsprogrammer. Formlerne i appendix. kræver dog ikke andet, end hvad selv et meget enkelt regressionsprogram har. Eksempel.6 Regressionsanalyse regnet på lommeregner(uden gentagelser). I et spinderi udtrykkes garnets kvalitet bl.a. ved en norm for den forventede trækstyrke. Kvaliteten anses således for at være i orden. hvis middeltrækstyrken mindst er lig med 0 måleenheder (me). Ved uldgarn opfylder garnets naturlige trækstyrke ikke det nævnte kvalitetskrav, hvorfor der tilsættes en vis mængde kunstfibre, hvilket forøger trækstyrken. Herved sker der dog det, at andre kvalitetsegenskaber, såsom elasticitet og isoleringsevne, forringes. Man har eksperimenteret med forskellige tilsatte mængder kunstfibre x og registreret garnets trækstyrke y ved disse forskellige mængder. Herved fremkom følgende observationsmateriale: Mængde x (i gram) af kunstfibre pr kg uld 40 50 55 60 70 75 80 85 90 95 00 05 0 0 30 Trækstyrke (me): Y 4.5 6.5 5.4 7.0 8. 8.0 7. 8.9 8. 0.3 9.6 0.8 0.5..0 ) Opskriv regressionsligningen. r ) Beregn forklaringsgraden og anvend denne samt en figur på lommeregnerens grafiske display (eller figur.3a) til vurdering af modellen. Der antages i det følgende at regressionsforudsætningerne er opfyldt. 3) Opskriv en variansanalysetabel, og test om Y er uafhængig af x. 4) Angiv et konfidensinterval for hældningskoefficienten β. 5) Opstil et 95% konfidensinterval for middeltrækstyrken svarende til x - værdien 00. 6) Opstil et 95% prædistinationsinterval for middeltrækstyrken svarende til x - værdien 00. LØSNING: De nødvendige formler findes i appendix.. De 5 punktpar indtastes i en lommeregner, og et regressionsprogram aktiveres. Blandt de beregnede størrelser findes: x = 84.333 og s x = 6.38, y =8.5467 og s y =.98. ~ ~ Endvidere findes estimater for regressionskoefficienter: β0 = 8087. og β = 0. 0799 og korrelationskoefficienten r = 0.95880. ) Den estimerede regressionsligningen bliver y = 0.0799 x +.8087 ) Forklaringsgraden er r = 0. 95880 = 0. 9930. Da punkterne på figuren fordeler sig tilfældigt omkring linien og der ikke er enkelte punkter (outliers) der afviger voldsomt fra linien, og forklaringsgraden samtidig er tæt på, så er den lineære model acceptabel. 9
. Regressionsanalyse 3) Man udregner SAK total = ( N ) s y = ( 5 ) 6. 38 = 67. 657, SAK = r SAK = 0. 9588 67. 657 = 697. regression total SAKresidual = SAK total SAK regression Variansanlysetabel udfyldes: Variation (Source) SAK (SS) f (df) s = og =67.657-6.97 = 5.4599 SAK f Regression 6.974 6.974 48.09 Residual 5.4599 3 0.400 Total 67.657 4 H : y er uafhængig af x H : Model = 0 H : β = 0. 0 0 0 H 0 forkastes (stærkt), da Fregression = 48. 09 > F0999. ( 3, ) = 7. 8 (eller P - værdi = PZ ( < 48. 09) = 0. 0000 < 0.00) Y er ikke uafhængig af x. SAK 4) SAK = regression = 697. ~ ~ s =, x 9743. 40 ( ) residual 0. 400 V β = = =0. 000043 ~ 0. 0790 SAKx 9743. 40 ( ) β β ( ) Konfidensinterval for : ~ ~ ~ β ± t ( 5 ) V β = 0. 0799 ± 6. 0. 006565 = 0. 0799 ± 0. 048 0. 975 [ 0. 0657 ; 0. 094] ~ 5) Til x - værdien 00 er et estimat for middelværdien µ = 0.0799 00 +.8087 = 9.80 ~ ( ~ ( ) V ) x x µ = sresidual + N SAKx ~ Konfidensinterval for µ : (. ) = 0. 400 00 84 33 + 5 9743. 40 ( ) F = 0. 0386. ~ ~ µ ± t ( 5 ) V ~ µ = 9. 80 ± 6. 0964. = 9. 80 ± 0. 443. 0975. [ 9380. ;. ] 6) Prædinistationsinterval for ny observation svarende til x - værdien 00. x x ( ) ( 00 84. 33) Q = s. residual + + = 0. 400 + + = 04586. N SAKx 5 9743. 40 ~ µ ± t ( 5 ) Q = 9. 80 ± 6. 0. 677 = 9. 80 ± 463.. 0. 975 [ 8346. ;. ] 30
.3 Statistisk analyse af lineær regressionsmodel.3.3.. Regressionsanalyse beregnet ved Excel. De nødvendige Excel - ordrer findes i appendix B Eksempel.7. Regressionsanalyse regnet med Excel (uden gentagelser). Opgaven er den samme som i eksempel.6, idet der ønskes svar på følgende spørgsmål: ) Opskriv regressionsligningen. ) Vurdér modellen ved at se på forklaringsgraden r, og på en figur med punkterne indtegnet. undersøg endvidere om der kunne tænkes at være outliers. 3) Giv en grafisk vurdering af om kravet normalitet er opfyldt ved hjælp af et normalfordelingsplot. Det antages i det følgende, at regressionsforudsætningerne er opfyldt. 4) Test om Y er uafhængig af x. 5) Angiv et konfidensinterval for hældningskoefficienten β. 6) Opstil et 95% konfidensinterval for middeltrækstyrken svarende til x - værdien 00. 7) Opstil et 95% prædistinationsinterval for middeltrækstyrken svarende til x - værdien 00. LØSNING: Data indtastes på sædvanlig måde i to søjler. x y 40 4,5 50 6,5 55 5,4 60 7 70 8, 75 8 80 7, 85 8,9 90 8, 95 0,3 00 9,6 05 0,8 0 0,5 0, 30 Vælg Funktioner, Dataanalyse, Regression Den fremkomne tabel udfyldes. Sædvanligvis er det ikke nødvendigt at udfylde alle felter, men for at kunne forstå de fremkomne udskrifter er dette sket her. Udskrifterne vises dog i en lidt anden rækkefølge. ) Regressionsligning: Udskrift : Koefficientefejl Standard- t-stat P-værdi Nedre 95% Øvre 95% Nedre Øvre 95,0% 95,0% Skæring,808655 0,5784 3,6883 0,0080 0,55905 3,05858 0,55905 3,05858 x 0,079897 0,006565,693,77E-08 0,06574 0,09408 0,06574 0,09408 ~ ~ Af udskriften ved Skæring aflæses β 0 =.80866 og ved x β = 0.0798. Regressionsligningen bliver derfor y =.80866 + 0.07989 x 3
. Regressionsanalyse ) Vurdering af model: RESUMEOUTPUT Regressionsstatistik Multipel R 0,95880 R-kvadreret 0,9930 Justeret R-kvadreret 0,93093 Standardfejl 0,648068 Observationer 5 Af udskriften ses, at forklaringsgraden R-kvadreret er 0.993., hvilket er tilfredsstillende, da modellen altså forklarer 9,93% af variationen. Nedenstående plot (som er blevet redigeret i forhold til det oprindelige tegning i Excel ) viser, at punkterne fordeler sig tilfældigt omkring linien. Endvidere synes der ikke at være nogen outliers (punkter der afviger så kraftigt fra det generelle billede, at man kunne frygte de var fejlmålinger) Linjetilpasningsplot y 4 0 8 6 4 0 40 75 00 x y Forudsagt y Residualplot: Hvis modellen indeholder flere uafhængige variable (eksempelvis udbyttets afhængighed af temperatur og tryk) må man i stedet beregne residualerne og tegne et residualplot. Denne metode til at vurdere modellen er derfor mere generel. Af nedenstående plot af residualerne, ses, at de fordeler sig tilfældigt omkring 0 - linien. x Residualplot Residualer 0 - - 0 50 00 50 x 3
.3 Statistisk analyse af lineær regressionsmodel Outliers: Da undersøgelse af outliers er vigtig, har Excel endvidere beregnet såkaldte Standardresidualer, hvor man har normeret residualerne hvorved der tages hensyn til, at prædistinationsintervallerne er smallest tæt ved midtpunktet. Ligger en standardresidual numerisk udenfor enheder er der grund til at undersøge om den dertil svarende værdi skulle være en outliers. RESIDUALOUTPUT SANDSYNLIGHEDSOUTPUT Observation Forudsagt y Residualer Standardresidualer Fraktil y 5,00455-0,50455-0,80793 3,333333 4,5 5,80354 0,696476,565 0 5,4 3 6,030-0,8030 -,8586 6,66667 6,5 4 6,60497 0,397503 0,6365 3,33333 7 5 7,4047 0,79859,7868 30 7, 6 7,800958 0,9904 0,3875 36,66667 8 7 8,00445 -,0044 -,764 43,33333 8, 8 8,59993 0,300068 0,480499 50 8, 9 8,99948-0,7994 -,80 56,66667 8,9 0 9,398905 0,90095,449 63,33333 9,6 9,79839-0,9839-0,3768 70 0,3 0,9788 0,60 0,96474 76,66667 0,5 3 0,59737-0,09737-0,559 83,33333 0,8 4,39634-0,9634-0,344 90, 5,953-0,953-0,375 96,66667 Da residualerne her ligger indenfor enheder på hver side, ses igen at der ikke er nogen outliers. Modellen synes på tilfredstillende måde at beskrive data. 3) Normalfordelingsplot: Forudsætningerne om uafhængige målinger og varianshomogenitet antages opfyldt. For at få et anskueligt billede af om resualerne er rimeligt normalfordelte afsættes residualerne i et koordinatsystem, hvor skalaen på y-aksen er normalfordelt. Så bør residualpunkterne tilnærmelsesvis ligge på en ret linie. Normalsandsynlighedsplot 5 0 y 5 0 0 0 40 60 80 00 0 Stikprøvefraktil Da residualpunkterne på ovenstående normalfordelingsplot tilnærmelsesvis ligger på en ret linie antages forudsætningen om normalitet at være opfyldt. 33
. Regressionsanalyse 4) Test nulhypotesen H 0 : Y er uafhængig af x Ud for x i udskrift ses, at P - værdi = 7. 0 8 < 0.05, dvs. H 0 forkastes Y er ikke uafhængig af x. Man kunne i stedet opskrive en variansanalysetabel: ANAVA fg SK MK F Signifikans F Regression 6,9744 6,9744 48,099,77E-08 Residual 3 5,459897 0,4999 I alt 4 67,65733 Det ses, ud for Regression, at F = 48.09 og at P-value = ~ 5) Konfidensinterval for β : 7. 0 8, dvs. samme resultat. I udskrift ud for x under Nedre 95% og Øvre 95% aflæses [ 0. 0657 ; 0. 094] I stedet kunne man benytte formlen for konfidensinterval: Ud for x under Standardfejl står ~ ~ V ( β ) = 0. 006565. ~ ~ ~ β ± t ( 5 ) V β = 0. 0799 ± 6. 0. 006565 = 0. 0799 ± 0. 048 ( ) 0. 975 [ 0. 0657 ; 0. 094] 5) 95% konfidensinterval for middeltrækstyrken svarende til x - værdien 00. Excel har desværre ikke beregnet dette, så vi må benytte formlen til beregningen. ~ Konfidensinterval for µ : ~ ~ ( ) ( ~ ) hvor ~ µ ± t0. 975 5 V µ ( ~ ( x x) V ) µ = sresidual + N SAK x Til x - værdien 00 er et estimat for middelværdien ~µ 00 = 0.0799 00 +.8087 = 9.80 ~µ 00 Kunne også beregnes ved ordren =TENDENS(B:B6;A:A6;00) =9,79839 s residual SAK x = = 0. 4999 SAK mod β el (ses af ANAVA-Tabel), N = 5 (antal punkter),, hvor SAK = 69744 (ses ud for Regression i ANAVA-tabel) mod el. 6. 9744 og β = 0. 079897. SAK x = = 9743. 4 0. 079897 Endelig kan x beregnes som gennemsnittet af x - værdierne. x =MIDDEL(A:A6) =84,33333 ~ ( ~ ( x x) (. ) V µ ) = s... residual + = 0 400 00 84 33 + = 0 0386 N SAK 5 9743. 40 x ~ Konfidensinterval for µ : ~ ~ ( ) ( ~ ) hvor ~ µ ± t0. 975 5 V µ ( ~ ( ) V ) x x µ = sresidual + N SAK Her er s residual = 0. 4999 (ses af ANAVA-Tabel), N = 5 (antal punkter), x 34
SAK x = SAK mod β el.3 Statistisk analyse af lineær regressionsmodel, hvor SAK = 69744 (ses ud for Regression i ANAVA-tabel) mod el. 6. 9744 og β = 0. 079897. SAK x = = 9743. 4 0. 079897 Endelig kan x beregnes som gennemsnittet af x - værdierne. x =MIDDEL(A:A6) =84,33333 ~ ( ~ ( x x) (. ) V µ ) = sresidual + = 0. 400 00 84 33 + = 0. 0386 N SAKx 5 9743. 40 Man kan naturligvis slå disse regninger sammen, idet mellemresultaterne jo står i bestemte celler: ~ ( ~ ) =G3*(/5+(00-MIDDEL(A:A6))^/(F/E8^)) = 0,03858 ( ) ~ V ~ ( ) V µ ~ µ ± t 5 µ = 9. 80 ± 6. 0964. = 9. 80 ± 0. 443. 0975. [ 9380. ;. ] 6) Prædinistationsinterval for ny observation svarende til x - værdien 00. x x ( ) ( 00 84. 33) Q = s. residual + + = 0. 400 + + = 04586. N SAKx 5 9743. 40 ~ µ ± t ( 5 ) Q = 9. 80 ± 6. 0. 677 = 9. 80 ± 463.. 0. 975 [ 8346. ;. ].3.4. Enkelt Regressionsanalyse med flere y - værdier for hver x - værdi. Hvis man selv fastlægger sine x - niveauer, er det ofte muligt for hver x -værdi, at foretage flere målinger af y - værdien. Vi siger kort at analysen er med gentagelser. Dette er således tilfældet i følgende eksempel: Eksempel.8 (F85) (regressionsanalyse med gentagelser) Metalpladers overflader oxideres i en ovn ved 00 0 C. Med henblik på en undersøgelse af sammenhængen mellem det oxiderede lags tykkelse y (i ångstrøm) og tiden t ( i minutter) foretog man følgende målinger: Tiden t 0 30 40 60 70 90 00 0 50 80 Tykkelse y 4. 4.9 7.4 6.9 8.8 8. 3.6.0 3..4 4.9 6.8 0.0. 3. 5. 7.5 5. 3.9 3.4 Fordelen herved er, at man nu kan få et estimat for forsøgsfejlens spredning ( støjen ), som kan anvendes til at teste, om den lineære model kan accepteres, når man tager støjen i betragtning. Endvidere kan man, hvis man finder det nødvendigt, teste om der er varianshomogenitet. 35
. Regressionsanalyse Test af model. For hver x-værdi beregnes gennemsnittet af de dertil hørende y-værdier. Disse gennemsnitspunkter bør ligge tæt på linien hvis modellen er god. Hvis modellen er den rigtige, så er den eneste grund til at gennemsnitspunkterne ikke ligger eksakt på linien, at der er støj. Vi kan derfor beregne et estimat (kaldet s lack of fit ) for variansen af denne støj ud fra de afvigelser som gennemsnitspunkterne har. Da vi samtidig ud fra gentagelserne kan beregne et andet estimat for støjen (kaldet s 0 ), har vi slack of fit mulighed for at teste de to varianser mod hinanden, ved en sædvanlig F - test Flackof fit = s0 Får vi her en forkastelse, kan gennemsnitspunkternes afvigelser fra linien ikke forklares alene ved støjen, og vi må derfor forkaste modellen. Vi vil belyse dette ved at regne det følgende eksempel.8 både med anvendelse af lommeregner og med anvendelse af Excel. Test af varianshomogenitet. Som tidligere nævnt, er analysen robust overfor afvigelser fra kravet om varianshomogenitet (konstant varians σ ), hvis der er lige mange gentagelser (som i dette forsøg). Man vil derfor kun foretage en vurdering af dette krav, hvis man ud fra forsøgets natur mener, at varianserne kan tænkes at være voldsomt forskellige. Har man ingen gentagelser, må man i alle tilfælde basere sig på sin viden om, at det er overvejende sandsynligt at der er nogenlunde samme varians. Vi vil derfor sædvanligvis i eksempler og øvelser undlade at foretage en testning. Er der ikke lige mange gentagelser, så bør man dog foretage en nøjere undersøgelse af kravet, da analysen så er følsom overfor afvigelser. For at demonstrere hvorledes en sådan testning kan foregå, vil den dog blive udført i de følgende to eksempler. Hvis man har et statistikprogram er en enkel måde til at vurdere varianshomogenitet, at betragte et residualplot: Da vi i eksempel.6 har gentagelser i hver af de 6 celler, ligger residualerne to og to symmetrisk omkring 0 - linien. På et residualplot kan vi derfor se om afstanden mellem disse 0 punktpar er nogenlunde den samme. Hvis det er tilfældet kan man derfor godt tillade sig at konkludere, at der er en rimelig varianshomogenitet. En anden enkel måde er at foretage en simplificeret F - test mellem den største og mindste varians. Får vi en accept herved går vi ud fra der er varianshomogenitet. Får vi en forkastelse, bør man gå over til de mere avancerede test, som blev nævnt under variansanlyse, og kan findes i appendix. 36
.3 Statistisk analyse af lineær regressionsmodel.3.4.. Regressionsanalyse beregnet med lommeregner med Regressionsprogram. Eksempel.9. Regressionsanalyse regnet på lommeregner (med gentagelser) Metalpladers overflader oxideres i en ovn ved 00 0 C. Med henblik på en undersøgelse af sammenhængen mellem det oxiderede lags tykkelse y (i ångstrøm) og tiden t ( i minutter) foretog man følgende målinger: Tiden t 0 30 40 60 70 90 00 0 50 80 Tykkelse y 4. 4.9 7.4 6.9 8.8 8. 3.6.0 3..4 4.9 6.8 0.0. 3. 5. 7.5 5. 3.9 3.4 Det antages, at målingerne y er værdier af uafhængige normalfordelte variable med samme varians. ) Foretag en testning af forudsætningen om varianshomogenitet. ) Det formodes på forhånd, at der er en lineær sammenhæng mellem x og y. Test denne formodning, og bestem i bekræftende fald ligningen for den empiriske regressionslinie. Det antages i det følgende, at der er en lineær sammenhæng mellem x og y. 3) I litteraturen vedrørende dette problem påstås, at hældningskoefficienten β er 0.5 Test om dette på et signifikansniveau på 5% kan være sandt. 4) Angiv et 95% konfidensinterval for middelværdien af tykkelsen y, når t = 00 minutter. LØSNING: De nødvendige formler findes i appendix.3. ) test af nulhypotesen H0: σ = σ =... = σk Estimater for varianserne beregnes: (i praksis er det hurtigst løbende at lægge varianserne sammen i et af regnemaskinens lagre.) Tiden t 0 30 40 60 70 90 00 0 50 80 Tykkelse y 4. 4.9 7.4 6.9 8.8 8. 3.6.0 3..4 4.9 6.8 0.0. 3. 5. 7.5 5. 3.9 3.4 s 0.45 0.5 0.80.80 0.45.805 0.70.05.880 0.5 smax 880. Da F = = = 304. < F0. 975(, ) = 647. 8 (eller P - værdi = P( F > 3. 04) = 078. > 0. 05) smin 05. accepteres nulhypotesen, dvs. vi vil i det følgende antage, at forskellene i varians ikke er så store, at det ødelægger analysen. s + s +... + sk 98. Vi får s0 = = = 0. 98. k 0 ) De N=n k = 0 = 0 punktpar ( x, y ) indtastes i lommeregner. i ij Regressionsprogram aktiveres, og blandt beregnede størrelser findes: ~ ~ Estimater for: Regressionskoefficienter: β0 = 654. og β = 0730., korrelationskoefficient r = 0.989, gennemsnit x = 86. 0 og spredning s y = 8.94. 37
. Regressionsanalyse Man udregner SAK total = ( N ) s y = 9 8. 94 = 58. 98, SAK = r SAK = 0. 989 58. 98 = 486. 44, regression Udfylder variansanlysetabel: total SAK0 = ( N k) s0 = ( 0 0) 0. 98 = 9. 8 SAK = SAK SAK SAK =.73 lack of fit total model 0 Variation (Source) SAK (SS) f (df) s = SAK f F Regression 486.44 486.44 Lack of fit.73 8.845. 840 F lack of fit = = 0. 98 Gentagelser 9.8 0 0.98 Total 58.98 9 H 0 : Lineær model gælder H 0 :( x i, µ i ) ligger på en ret linie Da Flack of fit = 90. < F095. ( 80, ) = 307. (eller P - værdi = P( F >. 90) = 0. 0589 > 0. 05) accepteres H 0, dvs. den lineære model gælder. Vi er dog så tæt på forkastelse, at en nærmere undersøgelse kan være rimelig. Den empiriske regressionslinie bliver: y = β + 0 β t = 654. + 0730. t. 90. 3) H 0 : β = 05. SAKregression 486, 44 Beregner hjælpestørrelserne SAKx = ~ = = 4966554., 0730. ( ) β SAK + SAKlack of fit s 0 9. 8 +. 738 pool = = = 8079. N 8 ~ ~ spool 8079. V ( β ) = = = 0. 000036, t = SAK x 4966554., β a ~ ~ V ( β ) H 0 forkastes, da t = 38. > t 7 =, dvs. 0975. ( ). data giver ikke den i litteraturen angivne hældningskoefficient.. = 0730. 05. = 0. 000036 38. 4) 95% konfidensinterval for middelværdien af tykkelsen y, når t = 00 minutter. Beregner hjælpestørrelserne ~ ~ ~ µ = β0 + βx = 654. + 0730. 00 = 8. 95, 38 ~ ( ~ ( ) V ) x x µ = spool + N SAK x ( 00 86) = 8079. + 0 4966554. = 00975.,
Konfidensinterval for µ :.3 Statistisk analyse af lineær regressionsmodel ~ ~ µ t ( ) ~ µ ; ~ α N V µ + t ( N ) V µ = 8 95 0 0 33 8 95 0 0 33 = [ 8. 9; 9. 6] ~ ( ) ( ~ α ) [... ;... ].3.4.. Regressionsanalyse regnet med Excel. Eksempel.0. Regressionsanalyse regnet med Excel (med gentagelser). Opgaven er den samme som i eksempel.9. LØSNING: ) Undersøgelse af varianshomogenitet. Excell har intet særligt program hertil, så det kan kun ske som angivet i eksempel.9 ) Vi vil teste H 0 : Lineær model gælder H 0 :( x i, µ i ) ligger på en ret linie Data indtastes søjlevis 0 4, 0 4,9 30 7,4 30 6,9 40 8,8 40 8, 60 3,6 60 70 3, 70,4 90 4,9 90 6,8 00 0 00, 0 3, 0 5, 50 7,5 50 5, 80 3,9 80 3,4 Opstilling af regressionsanalysetabel ANAVA fg SK MK F Signifikans F Regression 486,444 486,444 8,94,78E-6 Residual 8 3,5389,807683 I alt 9 58,98 Da vi har gentagelser ignoreres den fremkomne udskrift i første omgang. For at få et estimat for støjen foretages nu en såkaldt ensidet variansanalyse som er nærmere beskrevet i kapitel, og hvortil ordrene kan ses i appendix A. For at kunne dette må data (desværre) omordnes til rækker 39
. Regressionsanalyse 0 4, 4,9 30 7,4 6,9 40 8,8 8, 60 3,6 70 3,,4 90 4,9 6,8 00 0, 0 3, 5, 50 7,5 5, 80 3,9 3,4 Vælg Funktioner, Dataanalyse, ANAVA: enkelt faktor Den fremkomne tabel udfyldes ) Inputområde udfyldes så hele området er med ) Markér rækker (da vi har arrangeret data i rækker) 3) Markér Etiketter i første række da første række jo er variabelnavne 4) I Outputområdet skrives øverste venstre celle i det ønskede outputområde. Udskrift: ANAVA Variationskilde SK fg MK F P-væærdi F krit Mellem grupper 509,7 9 67,6858 70,9335 9,4E-0 3,0038 Inden for grupper 9,8 0 0,98 I alt 58,98 9 SAKlack of fit = SAKresidual SAKinden for grupper = 3.5389-9,8 =.78 med flack of fit = fresidual finden for grupper =8-0 = 8 Vi kan nu på basis heraf foretage en lack of fit test Variation (Source) SAK (SS) f (df) s = SAK f F Lack of fit.78 8.845. 845 F lack of fit = = Gentagelser 9.8 0 0.98 Total 58.98 9 Da Flack of fit = 90. < F095. ( 80, ) = 307. (eller P - værdi = P( F >. 90) = 0. 0589 > 0. 05) accepteres H 0, dvs. den lineære model gælder. Vi ser, at vi (pånær afrundingsfejl) får samme udskrift som i eksempel.9. De resterende regninger er nu ganske analoge til regningerne i eksempel.7. Af udskriften Koeffici- Standard- t-stat P-værdi Nedre 95% Øvre 95% Nedre enter fejl 95,0% 098. 90. Øvre 95,0% Skæring,65447 0,59958,75883 0,096 0,39447,9383 0,39447,9383 X-variabel 0,7975 0,00603 8,67564,78E-6 0,6030 0,85648 0,6030 0,85648 ses, at regressionsligningen bliver y =.654 + 0.730 x. 40
.3 Statistisk analyse af lineær regressionsmodel 3) Test af om det kunne tænkes, at hældningskoefficienten er 0.5. Vi betragte et 95% konfidensinterval for ~ β Af forrige udskrift fås intervallet [0.657 ; 0.857]. Da konfidensintervallet ikke indeholder 0.5, må der konkluderes, at hældningskoefficienten ikke kan være 0.5. 4) Find det til t = 00 svarende 95% konfidensinterval for tykkelsen y. Metoden som beskrevet i eksempel.7. ~µ 00 =TENDENS(M:M0;L:L0;00) =8,9565 (eller ~ µ ~ ~ 00 = β0 + βx = 654. + 0730. 00 = 8. 95, ~ ( ~ ( ) V ) x x µ = spool + N SAK x µ Konfidensinterval for : = H37*(/0+(00-MIDDEL(L:L0))^/(G36/F4^)) = 0,09756 ~ ~ µ t ( ) ~ µ ; ~ α N V µ + t ( N ) V µ = 8 95 0 0 33 8 95 0 0 33 = [ 8. 9; 9. 6] ~ ( ) ( ~ α ) [... ;... ] Vi får følgelig y(00) = 8.95 og 95% konfidensinterval [8,9 ; 9.6 ].3.5. Transformation af data inden lineær regressionsanalyse kan foretages. Ligger punkterne ikke tilnærmelsesvis på en ret linie, er det muligt, at man ved at vælge en passende transformation kan føre problemet over i en lineær model i de transformerede data. På visse lommeregnere såsom TI83 og HP48G kan man vælge mellem forskellige ofte anvendbare modeller. Man kan så hurtigt grafisk og ud fra forklaringsgraden se hvilken transformation, der bedst svarer til de opgivne data. Den samme facilitet har mange statistikprogrammer. I appendix.3 er angivet en liste med kommentarer over en række muligheder. Har man på forhånd en viden om, at en bestemt transformation skal anvendes, kan man uden større besvær foretage den pågældende transformation på dataene og så udføre regressionsanalysen på de transformerede data. Dette illustreres ved følgende eksempel. Eksempel. (Eksamensopgave F78 omskrevet)(transformation af udtryk). Ved et forsøg ønskedes en bestemt luftarts adiabateksponent γ bestemt ved, at luftarten adiabatisk komprimeres til forskellige forudvalgte rumfang v, idet de tilsvarende værdier af trykket P måltes. Man formodede på forhånd, at der gælder regressionsmodellen P= c v γ. Ved forsøget fandtes følgende resultater: v cm 3 00 50 00 50 300 350 400 450 500 550 600 p kp/cm 9.58 5.4.67 7.48 7.9 3.90 3.63.69.95.6. 4
. Regressionsanalyse Undersøg om formodningen er rimelig, og angiv ligningen for den fundne model ) ved at benytte en lommeregner med regressionsprogram. ) ved at benytte Excel. LØSNING: ) Lommeregner: Idet funktionen er en potensfunktion, tages logaritmen på begge sider (se evt. appendix.3 punkt 7). Vi får P= c γ v ln P= lnc γ lnv y = lnc γ x, hvor y = ln P og x = lnv Ved at tage logaritmen fås nu tabellen: x = ln v 4.605 5.00 5.98 5.5 5.703 5.859 5.99 6.09 6.5 6.30 6.397 y = ln P 3.387.736.457.0.987.36.89 0.55.08 0.770 0.747 De punktpar indtastes i lommeregner. Regressionsprogram aktiveres, og blandt beregnede størrelser findes: Estimater for regressionskoefficienter: ~ ~ β0 = ln( c) = 0. 6555 og β = ν = 5689. og korrelationskoefficient r = - 0.9734 Forklaringsgraden er r = 0979. = 09474.. Indtegnes punkterne og regressionslinien i lommeregnerens grafiske display fås følgende figur, som viser, at punkterne på figuren fordeler sig tilfældigt omkring linien og der ikke er enkelte punkter (outliers) der afviger voldsomt fra linien. Da forklaringsgraden samtidig er tæt på, så er den lineære model acceptabel. 4 Plot of Fitted Model 3 y 0 4,6 4,9 5, 5,5 5,8 6, 6,4 x Figur.6 r = - 0.973 r = 94.63 Den estimerede regressionsligning bliver ln( P) = 0. 6555 5689. ln( v) P = e v P = 445. 38 v 0. 6555. 5689. 5689 4
) Excel løsning: Data indtastes v p ln_v ln_p 00 9,58 4,6057 3,387098 50 5,4 5,00635,735665 00,67 5,9837,4570 50 7,48 5,546,033 300 7,9 5,70378,986504 350 3,9 5,857933,360977 400 3,63 5,99465,8933 450,69 6,0948 0,5479 500,95 6,4608,08805 550,6 6,30998 0,77008 600, 6,39693 0,746688.3 Statistisk analyse af lineær regressionsmodel Kolonnen med ln(v) beregnes ved at skrive =LN(A) og kopiere resultatet til alle celler. a) Regressionsligning: Findes af følgende udskrift: Koefficientefejl Standard- t-stat P-væærdi Nedre 95% ØØvre 95% Nedre ØØvre 95,0% 95,0% Skæring 0,6609 0,76487 4,87968,E-07 9,04083,89 9,04083,89 ln_v -,56967 0,450 -,6076 5,05E-07 -,853 -,8803 -,853 -,8803 0. 6609 56967. 56967. ln( P) = 0. 6609 56967. ln( v) P= e v P= 4663. v Kontrol af model: RESUMEOUTPUT Regressionsstatistik Multipel R 0,97838 R-kvadreret 0,94643 Justeret R-kvadreret 0,940459 Standardfejl 0,476 Observationer r Vi ser, at forklaringsgraden Vi får følgende tegning: = 0.94643 er høj. ln_v Linjetilpasningsplot ln_p 4 3 0 4 5 6 7 ln_v ln_p Forudsagt ln_p Lineær (Forudsagt ln_p) Da punkterne fordeler sig tilfældigt omkring linien, og forklaringsgraden er høj, synes forhåndsformodningen om en potensfunktion synes korrekt. 43
. Regressionsanalyse OPGAVER Opgave. T (E94 lettere omskrevet) Nedenstående tabel angiver sammenhørende værdier af den "radiale" afbøjning X (i milliradi aner) og den totale energiflux Y ( i kilowatt) på et solvarmeanlæg. x 6.66 6.46 7.66 7.50 6.40 6.8 6.06 5.93 6.60 6.4 6.7 5.9 6.04 6.9 6.7 y 7.8 64.0 38.8 30.7 5.6 57.9 63.9 66.5 9. 39.3 58.0 57.6 67.3 67.0 63.8 x 6.6 7.37 8. 8.53 5.54 5.70 6.45 7.6 8. 9.05 6.5 6.0 5.89 5.83 y 59.6 40.4 7. 96.0 78.7 7.3 67.4 54.5 4.7 8.5 7.5 53.6 63.0 65.8 Der er på en lommeregner med regressionsprogram fundet følgende hjælpestørrelser: x y ------------------------------------------------------------ Antal 9 9 Gennemsnit 6,70 49,638 Varians 0,84796 54,355 Spredning 0,90883,8988 Korrelationskoefficient -0,848837 ~ Regressionskoefficienter β = 607. 03, β = 405. 80 60 40 0 ------------------------------------------------------------ Punkterne er afsat på nedenstående figur. Plot of y vs x y 0 00 80 5 6 7 8 9 0 ) Begrund i ord på baggrund af figuren og forannævnte oplysninger, om du finder det sandsynligt, at der er uafhængighed mellem X og Y. I det følgende antages, at en lineær model y = β0 + βx gælder. ) Angivet 99% konfidensinterval for hældningen β. (Bemærk, der ønskes et 99% interval). 3) Beregn er 95% konfidensinterval for middelfluxen y i det tilfælde, hvor den radiale afbøjning x er 6.5 milliradianer. Hvis et statistikprogram er til rådighed, er det tilladeligt at anvende dette. x 44
Opgaver til kapitel Opgave. Man ønskede på et universitet at undersøge om der var en sammenhæng mellem de point de studerende fik ved en indledende prøve i matematik, og de point de fik ved den afsluttende prøve i matematik. Resultaterne var Student 3 4 5 6 7 8 9 0 Indledende prøve x 39 43 64 57 47 8 75 34 5 Afsluttende prøve y 65 78 5 8 9 89 73 98 56 75 ) Find en ligning for regressionslinien m, og tegn i et koordinatsystem såvel punkterne som linien m. ) Man forventer en positiv korrelation mellem x og y. Finder du at dette er tilfældet? Det antages i det følgende at forudsætningerne for en regressionsanalyse er opfyldt. 3) Test om y er uafhængig af x (signifikansniveau α =0.0) 4) Find er 95% konfidensinterval for hældningskoefficienten β. 5) En student har opnået 50 point ved den indledende prøve. Forudsig indenfor hvilket interval denne student pointtal vil ligge ved den afsluttende prøve. (signifikansniveau α =0.05) 6) Angiv et 95% konfidensinterval for middelværdien af det pointtal som studenter opnår ved den afsluttende prøve, når de alle ved den indledende prøve har opnået 50 point. Opgave.3 (F8) Ved en kemisk proces vides reaktionshastigheden v at afhænge af mængden x af et bestemt additiv, som virker som katalysator. Man formoder, at der (approksimativt) gælder sammenhængen v = α0 + β x. () Ud fra teoretiske overvejelser forventes det yderligere, at β = ca 45. Ved et fuldstændigt randomiseret forsøg fandtes følgende observationer: Tilsat mængde additiv x 0 0. 0.5.0.5.0 Reaktionshastighed v 7 9 4 50 58 ) Foretag en vurdering af, om model () kan antages at gælde. ) Test, idet det forudsættes, at model () gælder, nulhypotesen H 0 :β = 45. 3) Opstil et 95% - konfidensinterval for β. 4) Opstil et 95%~konfidensinterval for middelværdien af reaktionshastigheden ved en additivtilsætning på.75. 45
. Regressionsanalyse Opgave.4 (F90) I et forsøg undersøgtes et ventilationsanlægs effektivitet. Målingerne foretoges ved at fylde et lokale med gas og vente til koncentrationen var stabil. Herefter startedes ventilationsanlægget og gaskoncentrationen C t måltes til forskellige tidspunkter t. Følgende resultater fandtes: t (min. efter anlæggets start).67 4.59 6.75 7.67.34 4.34 6.5 8.5 3.09 C t [ppm] 34 8 6 6 4 0 8 Følgende modeller for funktionssammenhængen overvejes: Model l (lineært henfald): ECt ( )= α + β t t Mode (eksponentielt henfald): ECt ( )= α e ) Indtegn punkterne i et koordinatsystem og vælg den af de to modeller du vurderer giver den bedste beskrivelse. ) Beregn determinationskoefficienterne for hver af modellerne og vælg den model, for hvilken determinationskoefficienten er størst. Er der overensstemmelse med valget i spørgsmål )? 3) Antag, at model gælder. ln( ) Bestem et 95%-konfidensinterval for halveringstiden t 0.5 bestemt ved t 05. =. β Opgave.5 (E85) I et organisk-kemisk laboratorium undersøgte man forskellige reaktionskinetiske processer. Ud fra teoretiske overvejelser har man fundet frem til, at "middeludbyttet" (angivet i %'-enheder) af en bestemt kemisk forbindelse for t > 5 er approksimativt bestemt ved et udtryk af formen β () y = 00 α e t 0, hvor t angiver reaktionstiden og y procesudbyttet. For at efterprøve rigtigheden af de teoretiske overvejelser udførte man et forsøg med følgende resultater: t 6.5 8.. 3.6 6.4 8.5 0.7 3.0 5.8 8.5 33.3 y 39.5 64.7 65.6 7.9 88.0 9.7 9.5 95.9 96.3 98.3 99. ) Omskriv ovennævnte udtryk for modellen således, at regressionsmodellen kan gøres lineær i parametrene ved en logaritmisk transformation. ) Foretag den logaritmiske transformation og vurder såvel grafisk som ud fra forklaringsgraden om den formodede model () kan accepteres. 3) Foretag, idet det forudsættes, at modellen () gælder, en estimation af parametrene og. α 0 β 4) Opstil et 95% - konfidensinterval for middelværdien af udbyttet y svarende til t = 0. t β t 46
Opgaver til kapitel Opgave.6 (E84) Ved en standardisering af et bestemt hormonpræparat behandler man et mindre antal mus med doser af forskellig størrelse og registrerer i hvert tilfælde tiden t, indtil musen dør. Fra tidligere undersøgelser ved man, at t er normalfordelt med konstant varians og med en middelværdi, som er en lineær funktion af logaritmen til dosis. Til brug for standardiseringen af et produktionsparti af præparatet blev foretaget 5 delforsøg, som gav følgende resultater: dosis (antal enheder) 585 39 884 548 698 t (timer) 8.70 6.0 8..94 3.88 ) Angiv et estimat for regressionslinien, hvor t er en funktion af (titals)-ogaritmen ti dosis. ) Opsti et 95% - konfidensinterval for koefficienten til logaritmen til dosis. 3) Opsti et 95% - konfidensinterval for middeværdien af t for en dosis på 6300 enheder. Opgave.7 (E73) (regression, n > ) Man har erfaring for, at jerns viskositet Y under smeltning afhænger af jernets siliciumindhold x. Man besluttede sig ti at foretage et forsøg med henblik på at undersøge denne sammenhæng nærmere. Ved forsøget foretoges 3 viskositetsmålinger for hver af 5 forskelige værdier af siliciumindholdet. Forsøgsresutaterne var: x.5.50.75.00.5 Y 47.5 55.0 37.5 60.0 55.0 50.0 65.0 67.5 70.0 7.5 75.0 75.0 77.5 85.0 75.0 ) Angiv forudsætningerne for at kunne udføre en variansanalyse. ) Foretag en testning af forudsætningen om varianshomogenitet. 3) Test om der er en lineær sammenhæng mellem jerns viskositet og siliciumindholdet, og angiv i bekræftende fald ligningen for den empiriske regressionslinie. Det antages i det følgende, at der er en lineær sammenhæng mellem x og y. 4) Foretag en testning af om regressionslinien er vandret. 5) Angiv et 95% konfidensinterval for hældningskoefficienten 6) Angiv et 95% konfidensinterval for middelværdien af middelviskositeten y, når x =.60. 47
. Regressionsanalyse Opgave.8 (F9) (regression, n > ) Koncentrationsbestemmelse af stoffet aprindin kan foretages ved hjælp af en gaskromatograf. Ved denne metode indsprøjtes en del af prøven indeholdende aprindin i gaskromatografen, og den såkaldte tophøjde bestemmes. Såfremt de laboratorietekniske procedurer er korrekt udført, skal tophøjden, bortset fra tilfældige udsving, være proportional med koncentrationen i prøven. I et eksperiment fremstillede man prøver med kendte koncentrationer af aprindin og målte tophøjderne. Resultaterne fremgår af nedenstående tabel. Koncentration x ( µg/ml) 0.5 3 4 5 Tophøjde Y 46 55 0 90 3 4 30 38 440 435 550 539 ) Bestem den lineære regressionslinie for Y på x ) Test, om en sådan lineær regression kan beskrive data. 3) Test, om tophøjden y kan antages at være proportional med koncentrationen x, dvs. y = a x. Opgave.9 (F85) I et fuldstændigt randomiseret forsøg undersøgtes rotters vægttilvækst som funktion af mængde riboflavin tilsat foderet. Forsøgsresultaterne var: Tilsætning x af riboflavin i µg/dag Tilvækst Y i g/uge for 0 rotter (4 for hver af de 5 tilsætninger).5 5 0 0 40. 3.4 7.9 6. 9.3 4.5 9. 4. 3.8 8.5 0.3 3..8 5.8 3.0.5.5 6.6 9.3 6.5 Følgende modeller for funktionssammenhængen overvejes: Model : y = α0 + βx Model : y = β0 + βln( x) ) Foretag en grafisk testning af de to modeller og vælg den, der vurderes at give den bedste beskrivelse. ) Udfør en testning af den i spørgsmål ) valgte model. 3) Opstil, idet det forudsættes. at den i spørgsmål ) udførte testning giver accept af den valgte model, et estimat og et 95% - konfidensinterval for middelvægttilvæksten ved tilsætning af 30 µg/dag. 48
Opgaver til kapitel Løsning opgave.0 Følgende sammenhørende data er 5 målinger mellem den jævnstrøm (y) en vindmølle udvikler og vindhastigheden (x). x 5.00 6.00 3.40.70 0.0 9.70 9.55 3.05 8.5 6.0.90 6.35 4.60 y.58.8.057 0.500.36.386.94 0.588.66.866 0.653.930.56 x 5.80 7.40 3.60 7.85 8.80 7.00 5.45 9.0 0.0 4.0 3.95.45 y.73.088.37.79..800.50.303.30.94.44 0.3 7 ) Vurder grafisk om en ret linie kan siges at være en god model for forsøget (benyt både en figur med indtegnet regressionslinie og en figur med residualerne b indtegnet til vurderingen). ) Ud fra en fysisk model vurderes, at en model Y = a+ kunne være en bedre model. Foretag på samme måde som i spørgsmål ) en vurdering X af denne model. 3) Angiv en ligning for den i spørgsmål fundne kurve, og angiv et estimat og et 95% konfidensinterval for y svarende til en vindhastighed på x = 7. 49
.Variansanalyse (mere end variable) VARIANSANALYSE. Indledning I dette kapitel sammenlignes flere end to middelværdier. Det karakteristiske er, at de forekommende faktorer er kvalitative, dvs. har niveauer, som ikke er karakteriseret ved en målelig egenskab. Såfremt faktorerne er kvantitative, dvs. har niveauer, som er karakteriseret ved en målelig egenskab, kan man godt bruge variansanalyse, men det vil her være bedre (give mest oplysning), hvis man som beskrevet i kapitel anvender regressionsanalyse.. Ensidet variansanalyse Vi vil i dette afsnit behandle problemer, af den type, som er vist i det følgende eksempel. Eksempel. (én faktor). Virkningerne af 4 tilsætningsstoffer T, T, T 3, T 4 på mængden af urenheder ved en kemisk proces ønskes sammenlignet. For hvert tilsætningsstof måles mængden af uønsket stof 3 gange. Forsøgsresultaterne blev følgende: T T T 3 T 4 08 0 05 0 09 08 3 7 9 Der ønskes fundet det tilsætningsstof der giver den mindste urenhed. Scatterplot by Level Code Afsættes punkterne fås omstående figur: 0 6 udbytte 08 04 00 T T T3 T4 tilsaetningsstof 50
. Ensidet variansanalyse Det der vil være af interesse er at teste om middelværdierne for de 4 stoffer afviger fra hinanden, og i bekræftende fald hvilket stof der giver det største udbytte. Det svarer til på figuren, at man undersøger om middelværdierne ligger på en vandret linie. Umiddelbart kunne man synes, at så foretager vi blot de samme parvise sammenligninger som i kapitel 0, hvor vi så på differenser mellem middelværdier. Det giver i alt 6 sammenligninger, som anført nedenfor: Multiple Range Tests for udbytte by tilsaetningsstof -------------------------------------------------------------------------------- Method: 95,0 percent LSD Level Count Mean Homogeneous Groups -------------------------------------------------------------------------------- T 3 08,0 X T 3 0,0 X T3 3 0,667 X T4 3 6,0 X -------------------------------------------------------------------------------- Contrast Difference +/- Limits -------------------------------------------------------------------------------- T - T,0 5,8496 T - T3-0,666667 5,8496 T - T4 *-6,0 5,8496 T - T3 -,66667 5,8496 T - T4 *-8,0 5,8496 T3 - T4 *-5,33333 5,8496 -------------------------------------------------------------------------------- * denotes a statistically significant difference. Metoden benævnes LSD (Least Significant Difference). Problemet ved denne metode er, at har man mange niveauer, så skal der foretages særdeles mange nn ( ) 65 sammenligninger. Eksempelvis ville n = 6 niveauer give = = 5 sammenligninger. Selv om de forskellige stofferne giver samme udbytte, så ville støjen i forsøget bevirke, at de mange differenser fordelte sig klokkeformet (normalfordelt). Det bevirker, at den største og den mindste differens ved ovennævnte metode let vil ligge så langt fra hinanden, at deres konfidensintervaller ikke overlapper. Man slutter altså at der er forskel, selv om det ikke er tilfældet (fejl af type ). For at undgå dette, skal man derfor altid starte med at foretage en såkaldt variansanlyse (en F - test). Giver den, at der ikke er signifikant forskel på middeludbytterne, så skal man rette sig efter det, og ikke derefter begynde at se på konfidensintervaller. Det er muligt at foretage beregningerne ved hjælp af en lommeregner, og i appendix. er angivet de nødvendige formler til beregningerne. Det er dog naturligvis en betydelig lettelse at benytte Excel. Det følgende eksempel tjener ikke kun til at vise, hvordan regningerne kan foretages med lommeregner, men søger også at give en forståelse for den teoretiske baggrund for variansanalyser. 5
.Variansanalyse (mere end variable)...ensidet variansanlyse beregnet med lommeregner. Vi betragter igen eksempel.. Eksempel. (én faktor). Virkningerne af 4 tilsætningsstoffer T, T, T 3, T 4 på mængden af urenheder ved en kemisk proces ønskes sammenlignet. For hvert tilsætningsstof måles mængden af uønsket stof 3 gange. Forsøgsresultaterne blev følgende: T T T 3 T 4 08 0 05 0 09 08 3 7 9 Der ønskes fundet det tilsætningsstof der giver den mindste urenhed. Opstilling af nulhypotese. Lad X i = mængden af uønsket stof ved tilsætning af stof T i. hvor i {, 34,, } Idet de 4 variables middelværdier kaldes µ, µ, µ 3 ogµ 4 ønsker vi at teste nulhypotesen H 0 : µ = µ = µ 3 = µ 4, mod den alternative hypotese H: mindst én middelværdierne er forskellig fra de øvrige. Forsøgets udførelse. Forsøget skal udføres som et fuldstændigt randomiseret forsøg. (jævnfør kapitel 0 hvor et sådant forsøg er beskrevet). Derved sikrer vi, at der udføres et "statistisk gyldigt" forsøg. Hvis vi derfor, efter at have foretaget en ensidet variansanalyse, konkluderer, at der er forskel på tilsætningsstofferne, så er det "korrekt", idet det ville være helt tilfældigt, hvis én af tilsætningsstofferne har været begunstiget med særlig gode forsøgsenheder. Beregning af gennemsnit og spredning. For at få et skøn for mængden af urenheder, udregnes gennemsnittene for hvert tilsætningsstof. Disse er angivet i nedenstående skema. Umiddelbart ud fra gennemsnit synes T 4 at adskille sig fra de tre øvrige, men hvis der er stor spredning, kan det måske blot være et tilfælde. Det er derfor naturligt at udregne spredningerne, hvilket derfor også er anført i skemaet. T T T 3 T 4 Gennemsnit 0.0 08.0 0.67 6.0 Spredning.000.6458,566 3.6056 Forudsætninger. Forudsætningerne er, at de 4 variable skal være statistisk uafhængige, at de er tilnærmelsesvis normalfordelte og har samme varians (kaldet at der er varianshomogenitet). Uafhængigheden er meget væsentlig, og må være opfyldt i forbindelse med forsøgets udførelse. Analysen er derimod robust overfor afvigelser fra normalitet og varianshomogenitet hvis blot antallet af gentagelser er den samme. Vi vil derfor i det følgende antage, at forudsætningerne er opfyldte, medmindre der gives udtryk for tvivl herom. Kravet om at de variable er normalfordelte kan vurdere grafisk ved et normalfordelingsplot (beskre- 5
. Ensidet variansanalyse vet i kapitel ). Varianshomogenitet kan lettest testes ved den simplificerede F - test,men får vi en forkastelse her, må man gå til Levines test, hvis vi har mere end gentagelser, eller Bartletts test. Disse test er beskrevet i appendix.. Pooling. Da de 4 varianser antages at være nogenlunde ens, pooles disse. ( 3 ). 000 + ( 3 ). 6458 + ( 3 ). 566 + ( 3 ) 3. 6056 s 0 = 4 60. 6667 SAK0 = = = 7. 583 8 8 Idet hver varians er baseret på n = 3 målinger, har hver varians frihedsgrad (f = n - = 3 - ). Den poolede varians har derfor 4 = 8 frihedsgrader. Beregning af F - test. Antages nulhypotesen at være sand, dvs. udbyttet fra de 4 tilsætningsstoffer har samme middelværdi, er den eneste grund til, at vi ikke får samme gennemsnit i de 4 tilfælde, den ukontrollable støj (forsøgsvariablens variation) som forekommer ved forsøgets udførelse. Indtastes de fire gennemsnit i en lommeregner findes s x = 667.. Et gennemsnit af n tal har en varians, der er n gange mindre end variansen på den enkelte måling. I dette tilfælde er n = 3. Et estimat for støjens varians forudsat nulhypotesen er sand er derfor s = 3 s = 3 667. = 35. 00 Frihedsgradstallet er f R =antal niveauer - = 4 - = 3 R x s s R 0 Hvis nulhypotesen er sand burde derfor, mens hvis de er forskellige er forholdet signifikant sr 35 større end. Da F = er spørgsmålet derfor, om dette tal er signifikant større = = 46. s0 7583. end. Da forholdet mellem de to varianser (som sædvanlig) er F - fordelt med f R = 3 frihedsgrader i tælleren og f 0 = 8 i nævneren kan vi afgøre dette ved opslag i en F - tabel, eller ved at regne P - værdien ud. Da F 0.95 (3,8) = 4.07 < 4.6 (eller P - værdi = P (F < 4.07) = 0.037 < 0.05), må nulhypotesen forkastes, dvs. der er et signifikant forskel mellem mindst af middelværdierne. Resultaterne samles sædvanligvis i en variansanlysetabel (jævnfør eventuelt appendix.): r = antal niveauer og n = antal gentagelser af et niveau og N = n r er det totale antal delforsøg. Variation SAK f s F Tilsætningsstof 05.0 r - = 4 - = 3 35.0 4.6 Gentagelser 60.667 N - r = - 4 = 8 7.58 Total 65.667 N - = - = Konklusion: De fire tilsætningsstoffer har ikke samme virkning. 53
.Variansanalyse (mere end variable) Konfidensintervaller. Ud fra gennemsnittene ses, at T er signifikant mindre end T 4. Om de øvrige tilsætningsstoffer giver lige så lidt urenhed som T må afgøres ved opstilling af konfidensintervaller. Som nævnt i indledningen, må man kun foretage en vurdering ud fra konfidensintervaller, hvis ovennævnte F - test har vist, at der er en signifikant forskel. Er der signifikant forskel er der naturligvis forskel mellem den største og den mindste værdi, men hvorledes de øvrige fordeler sig er ikke nogen entydig opgave, og man kan risikere, at finde forskelle som ikke er reelle (fejl af type ),eller omvendt overse reelle forskelle (fejl af type ). De sædvanlige konfidensintervaller for hvert niveau (jævnfør appendix.): s0. xi. ± t ( N r) = xi. ± t0975. ( ) = xi. ±.. = xi. ±. n 8 7 583 α 3 589 3673 3 LSD konfidensinterval: s0 7583. xi. ± t α ( N r) = xi. ± t0. 975( 8) = xi. ± 3. 4. = xi. ± 597. n 6 T T T 3 T 4 Gennemsnit 0.0 08.0 0.67 6.0 95% konfidensinterval [06.33;3.67] [04.33;.67] [07.00;4.33] [.33;9.67] 95% LSD-konfidensinterval [07.40;.60] [05.40;0.60] [08.07;3.6] [3.40;8.60] Som man ser, giver begge metoder, at man får den mindste urenhed, hvis man vælger enten T, T eller T 3 (de kan ikke adskilles). Konklusion: Man skal ikke vælge tilsætningsstof T 4, hvorimod de tre øvrige tilsætningsstoffer giver nogenlunde den samme mængde urenhed. De fleste statistikprogrammer har en række andre metoder til beregning af konfidensintervaller, som søger at formindske sandsynligheden for at begå fejl af type og type. Det ligger udenfor dette notats formål at gå nøjere ind på fordele og ulemper ved disse metoder, men et råd er, at har man rådighed over et sådant program ser man hvad de forskellige metoder giver af resultater, og så benytter det til at komme med konklusionen. 54
. Ensidet variansanalyse...ensidet variansanlyse beregnet ved Excell. Vi betragter igen eksempel.. Opstilling af nulhypotese. Lad X i = mængden af uønsket stof ved tilsætning af stof T i. hvor i {, 34,, } Idet de 4 variables middelværdier kaldes µ, µ, µ 3 ogµ 4 ønsker vi at teste nulhypotesen H 0 : µ = µ = µ 3 = µ 4, mod alternativ hypotese H: mindst én middelværdierne er forskellig fra de øvrige. Opstilling af data. Inddata har følgende udseende T T T3 T4 08 05 08 7 0 0 9 09 3 Analyse af data. Vælg Funktioner, Dataanalyse, ANAVA: enkelt faktor Den fremkomne tabel udfyldes ) Inputområde udfyldes så hele området er med (eksempelvis A:D4) ) Markér rækker (da vi har arrangeret data i rækker) 3) Markér Etiketter i første række da første række jo er variabelnavne 4) I Outputområdet skrives øverste venstre celle i det ønskede outputområde. Udskrift: Anava: Enkelt faktor RESUME Grupper Antal Sum Gennemsnit Varians T 3 330 0 4 T 3 34 08 7 T3 3 33 0,6667 6,333333 T4 3 348 6 3 ANAVA Variationskilde SK fg MK F P-værdi F krit Mellem grupper 05 3 35 4,65385 0,0378 4,0668 Inden for grupper 60,66667 8 7,583333 I alt 65,6667 Det ses, at vi får samme variansanalysetabel som i eksemplet. Det ses, at man her ikke behøver at slå op i en F - tabel, idet P-value direkte fortæller, at nulhypotesen forkastes stjernet (3,7%). Konklusion: De fire tilsætningsstoffer har ikke samme virkning. Ud fra gennemsnittene ses, at T er signifikant mindre end T 4. Om de øvrige tilsætningsstoffer giver lige så lidt urenhed som T må afgøres ved opstilling af konfidensintervaller. 55
.Variansanalyse (mere end variable) Konfidensintervaller Desværre kan Excell ikke direkte ud fra data udregne konfidensintervallerne, så man kan nok lettest udregne dem i hånden idet man af tabellen kan finde gennemsnittene og =87.58333. s 0 Kontrol af varianshomogenitet. Simplificeret F-test: Af tabellen ses, at T4 har den største varians på 3 og T har den minste varians på 4. smax 3 Vi danner F = = = 35.. s 4 min Da F 095. (, ) = 9>3.5 (eller P - værdi = 0.897 > 0.05) accepteres H 0 :σ = σ = σ3 = σ dvs. vi antager at forudsætningen om varianshomogenitet er tilstrækkeligt opfyldt. De foregående betragtninger som var baseret på eksempel. kan som angivet i appendix. generaliseres til et vilkårligt antal niveauer...3 Tosidet variansanalyse.3. Indledning. Har man kvalitative faktorer vil det også være naturligt at udføre en variansanlyse, men da man her kan risikere, at de to faktorer spiller sammen på en uventet måde, bliver forholdene noget mere kompliceret. Til gengæld kan begreberne her så umiddelbart generaliseres til forsøg med mere end faktorer..3. Planlægning af forsøg. I dette afsnit benyttes følgende eksempel som illustration af begreberne. Eksempel.. En bilfabrikant ønsker at finde ud af hvorledes 3 olieblandinger O, O, og O 3, og karburatortyper K og K påvirker benzinforbruget. Vi har et forsøg med kvalitative faktorer: olieblanding og karburator. Faktoren "olieblanding" er på 3 niveauer O, O, og O 3, mens faktoren "karburator" har niveauer nemlig K og K. Man har (ved en dimensionering) fundet, at for at få de tilstrækkelig relevante oplysninger skal hvert niveau gentages mindst 4 gange..3.. Een faktor ad gangen I mange forsøgsvejledninger står, at man bør kun variere en faktor ad gangen. Alle andre faktorer end den udvalgte fastholdes på et bestemt niveau. En forsøgsplan efter disse retningslinier kunne eksempelvis være som skitseret nedenfor, hvor hvert delforsøg er markeret med et : Karburator 4 Olieblanding K K O O O 3 56
.3 Tosidet variansanalyse I dette eksempel, hvor der kun er faktorer, vælger vi først at variere olieblandingen, mens den anden faktor fastholdes. Idet vi har valgt først at fastholde karburatoren på niveauet K, kan forsøget udføres således: af de 6 biler, som skal anvendes, udstyres med karburator K, og derefter (randomiseret) får 4 af disse biler olieblanding O, 4 andre biler olieblanding O, og de sidste 4 biler olieblanding O 3. Efter at have kørt en udvalgt strækning måles benzinforbruget. Derefter varieres den anden faktor ( her karburator), mens olieblandingen fastholdes på O, dvs. de sidste 4 biler udstyres med karburator K og olieblanding O. Igen gennemkøres den udvalgte strækning, og benzinforbruget måles. Det er vigtigt, at hver behandling har lige mange gentagelser. Da hvert af de 4 niveauer skal gentages mindst 4 gange, så må hver behandling gentages 4 gange, så der er i alt 6 delforsøg. Indtegnes for hver karburator det gennemsnitlige benzinforbrug mod olie-blandingen, fremkommer tegningen på fig.. Fig.. Umiddelbart ses, at K giver lavest benzinforbrug, og O (eller O 3 ) skal foretrækkes. Hvad nu med benzinforbruget i karburator K, hvis vi anvender olieblanding O eller O 3? Kan man slutte, at benzinforbruget ved olieblanding O og O 3 er lavere, når man bruger karburator K, end når man bruger karburator K? Kun, hvis man ud fra tekniske eller andre grunde mener at vide, at "karburatorkurven" for K er parallel med kurven for K (ingen vekselvirkning), så er forsøgsplanen anvendelig, men ikke den bedste. En statistisk set bedre forsøgsplan som endda ofte er mindre ressourcekrævende, er følgende:.3.. Fuldstændig faktorstruktur Denne plan består i, at hvert niveau af den ene faktor kombineres med ethvert niveau af den anden. Planen kan skitseres således: Karburator Olieblanding K K O O O 3 57
.Variansanalyse (mere end variable) Her er hver af de 6 behandlinger gentaget gange, dvs. i alt er der udført delforsøg. Hermed er kravet opfyldt om at hvert niveau skal gentages mindst 4 gange. I " en faktor ad gangen" var vi tvunget til at udføre 6 delforsøg, mens vi kun skal lave delforsøg i det "fuldstændige faktorforsøg". Vi kan altså nøjes med færre delforsøg, når vi laver et fuldstændigt faktorforsøg. Indtegnes for hver karburator det gennemsnitlige benzinforbrug mod olie-blandingen, viser det sig, at man får figur. Fig. Vi ser i modstrid med hvad vi troede ud fra "en faktor ad gangen forsøget", at kombinationen af katalysator K og olieblanding O giver det laveste benzinforbrug. Det ses, at de to kurver ikke er parallelle. Dette kunne være tilfældigt og blot skyldes forsøgets støj, men det kunne også være signifikant, og derfor være udtryk for en vis såkaldt "vekselvirkning". En model uden vekselvirkning (kurverne tilnærmelsesvis parallelle) siges at være additiv. Anskuelig forklaring på hvorledes man kan beregne vekselvirkning: Her gives kun en kort forklaring, som kan tjene til at forstå baggrunden for beregningerne, der i øvrigt med fordel kan foretages af et statistikprogram som Statgraphics. I nedenstående skema er skitseret et forsøg med faktorer R og C. R er på 3 niveauer, og C er på 4 niveauer. Der er gentagelser af hver "behandling"(treatment). C C C 3 C 4 R 3 6 5 6 8 R 7 8 4 8 3 5 R 3 6 5 7 3 7 8 0 For hver af de celler kan man udregne et skøn for spredningen. Hvis man forudsætter at spredningen er nogenlunde den samme i alle tilfælde, kan man poole de s sammen til et fælles skøn s 0 for spredningen på forsøgsfejlen (støjen). Den vil have frihedsgrader, da hvert enkelt s har frihedsgrad. 58
.3 Tosidet variansanalyse I nedenstående skema er beregnet gennemsnit for hver celle, hver række, hver søjle og totalt. C C C 3 C 4 Gennemsnit R 4 3 7 4 R 9 0 4 R 3 4 6 5 9 6 Gennemsnit 5 7 6 0 7 Tallene er konstrueret således, at vi har en helt præcis model uden vekselvirkning (R = R + 7, R 3 = R + ). For en sådan model gælder helt præcist, at resultatet i celle (i, j) fås af formlen RC i,j =R i + C j - totale gennemsnit. Eksempel: RC,3 = 0 og R + C 3 - totale gennemsnit = + 6-7 = 0. I praksis vil dette naturligvis aldrig være tilfældet på grund af den tilfældige variation (støj), men udregnes kvadratet på afvigelserne (SAK), og disse afvigelser ikke er større end hvad er rimeligt i forhold til støjen ( ), vil vi kunne konkludere at der ikke kan konstateres nogen vekselvirkning. s 0.3.3. Forudsætninger for variansanalyse. Som tidligere nævnt er forudsætningerne de samme som ved ensidet variansanalyse. ) De observerede resultater (f.eks. benzinforbruget med en bestemt karburator og en bestemt olieblanding) er værdier af tilnærmelsesvis normalfordelte variable. ) De observerede resultater er værdier af uafhængige variable. Dette kan man sædvanligvis sikre ved en fornuftig forsøgsplan (randomisering). 3) I hver celle skal resultaterne have tilnærmelsesvis samme varians. Metoden er robust overfor afvigelser, hvis antallet af gentagelser er det samme. Man kan eventuelt teste med Levine eller Bartletts test. Analysen er robust overfor afvigelser fra normalitet og varianshomogenitet, blot antallet af gentagelser i hver celle er den samme. Er forudsætningerne ikke opfyldt, kan man i mange tilfælde foretage en transformation (f.eks. tage logaritmen til alle forsøgsresultater), som så medfører at forudsætningerne er nogenlunde opfyldte..3.4. Testprocedure. Formler hvorefter man ved hjælp af en lommeregner kan foretage de for en tosidet variansanalyse nødvendige beregninger kan findes i appendix.. I appendix. kan man også i detaljer se, hvordan testrækkefølgen er, og formler for konfidensintervaller m.m. Da regningerne er temmelig omfattende, vil man dog sædvanligvis benytte et statistikprogram, der automatisk udregner en variansanalysetabel. 59
.Variansanalyse (mere end variable) Nedenfor er kort beskrevet rækkefølgen for et fuldstændigt faktorforsøg med r rækker, q søjler og n gentagelser af hver behandling Søjlefaktor ( Karburator ) Rækkefaktor ( Olieblanding ) C C... C q R............ R........................... R r............ ) Man beregner et variansanalyseskema som det nedenfor angivne, idet vi tænker os Antal rækker r = 5, Antal søjler q = 4, Antal delforsøg i celler n = 3, Totalt antal forsøg N = r q n = 543 = 60. SAK Variation SAK=SS f s = f F Rækkefaktor R 400 f = R r = 4 00 Søjlefaktor C 600 f = C q = 3 00 Vekselvirkning R*C 60 f = ( RC r )( q ) = 5 s FRC = s RC 0 =.0 Residual 00 f0 = r q ( n ) = 40 5 Total 60 ftotal = N = 59 Testrækkefølge: Lad α være signifikansniveau. ) H0: R* C = 0 ( Ingen signifikant vekselvirkning) H 0 forkastes, hvis P - værdi = PZ ( < ) < α, hvor Z er F - fordelt ( f, f ) ( f, f ), F RC eller hvis F F f f. RC > RC 0 T N = RC 0 α (, ) ( F 0. F (. 40). 00, ) = < = RC 095. accept tervaller til nærmere vurdering af faktorernes virkning. b) Hvis H 0 accepteres, antages, at der ikke er nogen signifikant vekselvirkning, og man pooler de to varianser sammen, til et nyt estimat for forsøgsfejlens variation (støjen). SAKRC + SAK 0 0 + 00 sm = med fm = frc + f0. sm = = 63., fm = 5 frc + f 0 + 40 Dette estimat benyttes så til vurdering af hovedvirkningerne. H0: R = 0 ( Ingen signifikant virkning af rækkefaktor) H 0 forkastes, hvis P- værdi = PZ ( < F R ) < α, hvor Z er F - fordelt ( ft, f N) = ( fr, fm). sr eller FR = > F fr fm s (, ) α F = 00 = > F = R 6. 3 095. ( 4, 5) 306., forkastelse 63. m Hvis H 0 forkastes, opstilles relevante konfidensintervaller. Analogt testes for søjlevirkning. a) Hvis H 0 forkastes, så beregnes for hver celle et gennemsnit og der opstilles konfidensinx ij 60
.3 Tosidet variansanalyse.3.5 Tosidet variansanalyse udført med lommeregner. I appendix. er angivet de formler man skal benytte for at udregne de nødvendige SAK er. Formlerne er endvidere anvendt på tallene i eksempel.. Har man først fundet SAK erne er det beregningsmæssigt let at udfylde en variansanalysetabel og drage konklusioner. Da det beregningsmæssigt bliver langt vanskeligere at foretage SAK-beregningerne hvis der ikke er lige mange gentagelser i hver celle, eller hvis der indgår mere end faktorer, vil man imidlertid næppe i praksis benytte en lommeregner. I stedet benyttes et statistikprogram..3.6 Tosidet variansanalyse udført ved Excel. Som nævnt vil man sædvanligvis benytte et statistikprogram til at udføre flersidede variansanalyser. For at vise begge hovedtilfælde deles op i et tilfælde hvor der konstateres vekselvirkning, og et tilfælde hvor modellen er additiv (uden en signifikant vekselvirkning)..3.6. Model med vekselvirkning. Som illustration af fremgangsmåden benyttes igen eksempel.. Eksempel.3 (model med vekselvirkning). En bilfabrikant ønsker at finde ud af, hvorledes 3 olieblandinger O, O, og O 3, og karburatortyper K og K påvirker benzinforbruget. Forsøgsresultaterne er følgende: Karburator K K O 830 860 80 840 Olieblanding O 940 990 050 00 O 3 855 85 930 90 Angiv hvilke kombinationer af karburator og olieblanding der giver det laveste forbrug, og giv et estimat for dette forbrug. LØSNING: Data indtastes: K K O 830 80 860 840 O 940 050 990 00 O3 855 930 85 90 Vælg Funktioner, Dataanalyse, ANAVA: to faktor med gentagelse Den fremkomne tabel udfyldes ) Inputområde udfyldes så hele området er med (eksempelvis A:C7) ) Rækker pr. stikprøve : Skriv antallet af rækker i hver stikprøve ( i vort eksempel ) 4) I Outputområdet skrives øverste venstre celle i det ønskede outputområde. 6
.Variansanalyse (mere end variable) Udskrift: Blandt mange tabeller fås også følgende variansanalysetabel: ANAVA Variationskilde SK fg MK F P-værdi F krit Stikprøve 5876,67 9358,33 48,93056 0,00093 5,4349 Kolonner 6075 6075 0,5 0,0908 5,987374 Interaktion 6450 35 5,375 0,045963 5,4349 Indenfor 3600 6 600 I alt 7484,67 Opstille model med vekselvirkning. Vi starter med en model med faktorer K (karburator) og O(olieblanding), og med mulighed for vekselvirkning mellem de to faktorer. Først testes om der er en vekselvirkning K*O mellem karburator og olieblanding., dvs. H 0 : K *O = 0 mod H: K *O 0 Det ses af tabellen, at forsøgsfejlens varians ( Indenfor ) er 600, mens bidraget fra en eventuel vekselvirkning ( Interaktion ) er 35, altså væsentlig større. Forholdet mellem de to led er F = 5.375, og sandsynligheden for at få dette tal, hvis der ingen vekselvirkning var, er under 5% (4.60%- ). Anvender vi som sædvanlig et 5% signifikansniveau, så forkaster vi nulhypotesen, dvs. vi konkluderer, at der er et svagt bevis for en vekselvirkning mellem karburator og olieblanding. Opstille relevante konfidensintervaller og drage konklusion Vi ønsker nu for en given olieblanding at finde hvilken karburator, der giver det laveste benzinforbrug. Vi ser derfor nu på de øvrige tabeller der blev udskrevet: Anava: To-faktor med gentagelse RESUME K K I alt O Antal 4 Sum 690 650 3340 Gennemsnit 845 85 835 Varians 450 450433,3333 O Antal 4 Sum 930 070 4000 Gennemsnit 965 035 000 Varians 50 450 00 O3 Antal 4 Sum 670 840 350 Gennemsnit 835 90 877,5 Varians 800 0074,667 I alt Antal 6 6 Sum 590 5560 Gennemsnit 88,6667 96,6667 Varians 4686,667 9066,667 6
.3 Tosidet variansanalyse Vi ved, der er en signifikant forskel mellem det laveste benzinforbrug (85), som fås med kombinationen K O, og det højeste benzinforbrug (035) svarende til kombinationen K O. Det ses umiddelbart af gennemsnittene, men derimod er det ikke sikkert at der er en reel forskel mellem K O, K O 3 og K O. Dette kan man først vurdere ved at beregne konfidensradius r. Af tabellen fås, at s 0 = 600 med f 0 = 6. s0 Vi får derfor (se appendix.): r = t0975 6 = 45 600. ( ). = 4. 43 n Afstanden mellem gennemsnit skal derfor være r = 8487. benyttes LSD skal den være r = 60.0. Det ses heraf, at umiddelbart giver kombinationen K O det laveste benzinforbrug (85), men af konfidensintervallerne ses, at der ingen signifikant forskel er mellem K O, K O 3 og K O. Man kan dog med sikkerhed sige, at man ikke bør vælge olieblanding O..3.6.. Additiv model: Model uden vekselvirkning Eksempel.4 (model med vekselvirkning) I forbindelse med nogle brudstyrkebestemmelser for Portland-cement udføres et fuldstændigt randomiseret forsøg til undersøgelse af middelbrudstyrkens afhængighed af cementblandere og cementknusere. Med hver af 4 cementblandere udstøbtes efter blanding med vand cementterninger, som efter en uges lagring underkastedes en brudstyrkeprøve ved hjælp af en af 3 cementknusere. Forsøgsresultaterne var: Cementknusere 3 4 Cementblandere 47, 75, 30 99, 85, 75 67, 3, 35 5, 97, 80, 45, 63 3, 00, 45 75, 45, 7 5, 57, 67 3 3, 85,53 37, 43, 8 67,5,83 35, 9,9 Angiv hvilke kombinationer af cementblander og cementknuser, der giver den største brudstyrke, og giv et estimat og et 95% konfidensinterval for denne største middelbrudstyrke. LØSNING: Data indtastes: knuser knuser knuser3 knuser4 blander 47 99 67 5 75 85 3 97 30 75 35 80 blander 3 75 5 45 00 45 57 63 45 7 67 blander3 3 37 67 35 85 43 5 9 53 8 83 9 Vælg Funktioner, Dataanalyse, ANAVA: to faktor med gentagelse Den fremkomne tabel udfyldes 63
.Variansanalyse (mere end variable) Udskrift: Blandt mange tabeller fås også følgende variansanalysetabel: ANAVA Variationskilde SK fg MK F P-værdi F krit Stikprøve 499,389 49,694,4553 0,09798 3,4083 Kolonner 5995, 3 733,74 9,55565,4E-06 3,008786 Interaktion 7,6 6 87,0,33944 0,78669,50887 Indenfor 70,67 4 886,778 I alt 84687,89 35 Da P - value er 0.787 for vekselvirkningen Interaktion, og dette er over vort signifikansniveau på 5%, tillader vi os i det følgende at antage, at vekselvirkningen er forsvindende. Vi foretages nu en pooling : Vælg Funktioner, Dataanalyse, ANAVA: to faktor uden gentagelse Den fremkomne tabel udfyldes Udskrift: ANAVA Variationskilde SK fg MK F P-værdi F krit Rækker 370,39 8 4,99,59979 0,775,35508 Kolonner 5995, 3 733,74 9,5083,6E-06 3,008786 Fejl 3,8 4 888,48 I alt 84687,89 35 Vi ser nu, at forsøgsfejlens varians er 946.44, og at cementknuserne har en stærk signifikant virkning, da P - value = 0.0000 er under 0.%., mens cementblanderne ikke har en signifikant virkning, da P - value = 0. er over 5%. Da cementblandere ikke mere indgår i modellen slettes de af modellen, hvorved vi jo får en ensidet variansanalyse: Anava: Enkelt faktor RESUME Grupper Antal Sum Gennemsnit Varians knuser 9 33 48 34,5 knuser 9 997 0,7778 79,6944 knuser3 9 49 54,55556 58,7778 knuser4 9 3 46,8889 54,6 ANAVA Variationskilde SK fg MK F P-værdi F krit Mellem grupper 5995, 3 733,74 6,96453 8,96E-07,908 Inden for grupper 369,67 3 0,646 I alt 84687,89 35 Det ses umiddelbart, at knuser må foretrækkes for knuser 3. For at se om der er en signifikant forskel på knuser 4 og de andre knusere beregnes konfidensradius r. 64 s0 0, 65 r = t0. 975 ( f0 ) = t0. 975 ( 3) =. 04 0. 654 = 73. n 9 Signifikant forskel er r = 4347. (eller LSD: r = 3074. Konklusion: Man skal ikke vælge cementknuser 3, og nr og 4 må foretrækkes, Estimat for største middelbrudstyrke: 48.0, 95 % konfidensinterval [6.3 ; 69.7 ]
.4 Fuldstændigt randomiseret blokforsøg.4 Fuldstændigt randomiseret blokforsøg. I forbindelse med planlægningen af et forsøg, kan man blive tvunget til at benytte forsøgsenheder, som er ret uensartede. Derved får den tilfældige forsøgsfejl en relativ stor spredning (stor støj ). Dette kan bevirke, at man skal op på et urealistisk stort antal gentagelser for at kunne opnå den ønskede information. For at dæmpe støjen kan man inddele forsøgsenhederne i grupper (blokke), hvor de forsøgsenheder der ligger i samme blok er væsentlig mere ensartede end forsøgsenhederne i forskellige blokke. Man siger, at man har et fuldstændigt randomiseret blokforsøg, hvis hver behandling forekommer det samme antal gange (sædvanligvis netop én gang) i hver blok. Til illustration heraf, så betragter vi igen forsøget beskrevet i eksempel.. Eksempel.5 (randomiseret blokforsøg). En bilfabrikant ønsker at finde ud af, hvorledes 3 olieblandinger O, O, og O 3, og karburatortyper K og K påvirker benzinforbruget. Forsøget planlægges som et fuldstændigt faktorforsøg idet hvert niveau skal gentages mindst 4 gange. Dette betyder at der skal udføres delforsøg. Et delforsøg med én bil tager dag.( tank = 40 liter: Kører ca. 5 km/l så 40 liter = 600 km, hvilket giver ca. 7 timer med 80 km/time). Af tidsmæssige grunde kan man ikke benytte dage til forsøget. Der benyttes biler med tilhørende chauffør, hvilket forkorter forsøgstiden til 6 dage. Da de to biler (med tilhørende chauffør) kan frygtes at give systematisk forskellige resultater, ønskes foretaget et randomiseret blokforsøg med biler som blokke. ) Angiv fordele og ulemper ved at foretage et randomiseret blokforsøg fremfor et fuldstændigt randomiseret forsøg. ) Beskriv hvorledes en randomisering kunne tænkes at foregå. 3) Skitser udseendet af en variansanalysetabel med angivelse af frihedsgrader. LØSNING: ) Fordele: Begrundelsen for ikke at foretag et fuldstændigt randomiseret forsøg er, at to biler frygtes at give så stor spredning, at selv betydelige forskelle ikke kan påvises. Ved blokforsøget er støjen, der skyldes eventuelle forskelle mellem biler elimineret Større mulighed for stabilt vejr i 6 dage end i dage, hvilket også formindsker spredningen. Ret få delforsøg, Ulempe: Selv på 6 dage kan vejret skifte og give anledning til stor spredning. ) Randomisering: To dåser mærkes henholdsvis bil og bil. Behandlingen O K skrives på sedler som anbringes i hver sin dåse, behandlingen O K skrives på sedler som anbringes i hver sin dåse osv. (se figuren). Man trækker nu først de 6 sedler fra dåse med mærket bil. Lad den første seddel der trækkes være O K. Det betyder nu, at bil skal forsynes med karburator og olieblanding og køre dag. Lad den næste seddel der trækkes være O 3 K. Det betyder tilsvarende at bil skal forsynes med karburator og olieblanding 3 og køre dag. Således fortsættes indtil alle 6 sedler er udtrukket Resultatet blev: bil dag O K dag dag 3 dag 4 O 3 K O K O K dag 5 O K dag 6 O 3 K Bil 65
.Variansanalyse (mere end variable) Derefter fortsættes med at trække sedler fra dåsen med mærket bil. Resultatet blev: bil dag O K dag O 3 K dag 3 O K dag 4 O K dag 5 O 3 K dag 6 O K Bil 3) Analyse: Tresidet variansanalyse: Bemærk: Vi antager altid, at blokke ikke vekselvirker med faktorerne, idet vi forudsætter, at den ene blok (eksempelvis bil ) bidrager med en systematisk højere resultat end den anden blok (eksempelvis at bil på alle dage giver et større benzinforbrug end bil ). K K Variansanalyse SAK f O - - Blokke (biler) Bil O - - Olieblanding O 3 - - Karburator O - - Olie * karburator Bil O - - Residual 5 O 3 - - Total Bemærk: Selv om analysen viser, at blokkene mod forventning ikke kan antages at have betydning, må man ikke poole blokkene ned, da det svarer til, at man analyserer forsøget som om det var et fuldstændigt randomiseret forsøg. Eksempel.6 (randomiseret blokforsøg). I nedenstående tabel er anført resultaterne af et fodringsforsøg med svin. Formålet med forsøget var at undersøge, hvorvidt en ændring af vitaminindholdet i foderet gav en forskel i svinenes vægtforøgelse. Vægtforøgelsen afhænger imidlertid også af det enkelte individs genetiske egenskaber. Et fuldstændigt randomiseret forsøg vil derfor sandsynligvis kunne bevirke, at forsøgsfejlens spredning bliver så stor, at intet kan påvises (forsøget drukner i støj). Da grise fra samme kuld må forventes at være mere ensartede, vælger man at lave et randomiseret blokforsøg med kuld som blokfaktor. Fra hvert af 4 forskellige kuld grise udtages 3 grise, der bliver fodret med hver sin af tre fodertyper A, B og C med forskelligt vitaminindhold. Forsøgsresultaterne (vægtforøgelse i kg) var Fodertype A B C 7.0 4.0 8.5 6.0 5.5 6.5 Kuld 3 0.5 5.0 9.5 4 3.5.0 3.5 Test, om der er nogen væsentlig virkning af ændringen i foderets vitaminindhold. 66
.4 Fuldstændigt randomiseret blokforsøg Løsning: Analyseres svarende til en tosidet variansanalyse uden vekselvirkning (da vi forudsætter at blokke ikke vekselvirker med faktorer. Indtastning af data: A B C kuld 7 4 8,5 kuld 6 5,5 6,5 kuld3 0,5 5 9,5 kuld4 5,5 3,5 Vælg Funktioner, Dataanalyse, ANAVA: to faktor uden gentagelse Den fremkomne tabel udfyldes: Udskrift: RESUME Antal Sum Gennemsnit Varians Række 3 9,5 9,833333 3,58333 Række 3 48 6 0,5 Række 3 3 35,66667 8,583333 Række 4 3 48 6 8,75 Kolonne 4 47,75 5,08333 Kolonne 4 65,5 6,375 9,895833 Kolonne 3 4 48 3,66667 ANAVA Variationskilde SK fg MK F P-væærdi F krit Rækker 87,797 3 9,4306 6,0089 0,08476 4,757055 Kolonner 54,5 7,065 5,75678 0,0407 5,4349 Fejl 8,0833 6 4,70389 I alt 70,065 Det ses heraf, at forsøgsfejlens varians (residual) er 4.70. Vi ser endvidere, at der på et signifikansniveau på 5 % er signifikant forskel på fodertyperne. Af gennemsnittene ses, at fodertype B (kolonne ) er signifikant bedre end fodertype A (kolonne ). Om fodertype C er signifikant ringere end B kan kun afgøres ved at opstille konfidensintervaller. Vi ser endvidere, at det var fornuftigt at dele op i kuld, da der også er signifikans for kuld. Vi er imidlertid ikke interesseret i at finde ud af hvilket kuld der er det bedste, da vi jo blot har taget nogle tilfældige kuld ud. Bemærk: Da der er en blokvirkning vil vægtforøgelsen jo afhænge af hvilket kuld man betragter. Konfidensintervaller kan derfor kun anvendes til relative sammenligninger. 67
.Variansanalyse (mere end variable) OPGAVER Opgave. Fire forskellige typer teknik til blanding af cement ønskes undersøgt med hensyn til resultatets trykstyrke. Følgende data blev opnået: Blandingsteknik Trykstyrke (psi) B 39 3000 865 890 B 300 3300 975 350 B3 800 900 985 3050 B4 600 700 600 765 Undersøg om forskellen i blandingsteknik har betydning for trykstyrken, og angiv i bekræftende fald den (de) blandingsteknik(er) der har størst trykstyrke. Opgave. (E8) I følgende tabel er angivet resultaterne af gentagne bestemmelser af blodets alkoholkoncentration (i promille) hos 6 forskellige personer efter indtagelsen af 4 cl. alkohol. Person 3 4 5 6 0.76 0.8 0.79 0.86 0.84 0.79 0.8 0.79 0.83 0.78 0.97 0.88.00 0.90 0.9 0.88 0.88 0.90.03 0.87 0.86 0.89 0.87 0.84 Vurdér på grundlag af dette materiale en antagelse om, at alkoholkoncentrationen i blodet ikke afhænger af andre faktorer end den indtagne alkohomængde. Opgave.3 T Modstanden af 5 spoler måltes for at kontrollere, om spolerne har samme elektriske modstand. For hver spole måltes 4 uafhængige observationer: Man fandt for hver spole følgende gennemsnit og varians: Spole nr. Antal gentagelser Gennemsnit Varians 4 5. 0.035 4 4.95 0.05 3 4 4.8 0.06667 4 4 5,5 0.0333333 5 4 4.7375 0.06565 ) Undersøg om det kan antages, at de 5 spoers modstande er ens. ) På alle 5 spoler er angivet, at modstanden er 5.0 Ohm. Undersøg under hensyntagen ti besvaresen af spørgsmål ) ved opstilling af et eller flere konfidensintervaller, om noge af spoerne kan antages at have modstanden 5.0 Ohm og i bekræftende fald hvike. 68
Opgaver til kapitel Opgave.4 I et forsøg undersøgtes, om det kemiske udbytte af en proces afhænger af hvilken af katalysatorer, der anvendes. Endvidere kan man benytte 3 forskellige apparater, og de kunne også tænkes at have indflydelse på resultatet. Der fandtes følgende udbytter: Katalysator K Katalysator K Apparat A 69 7 65 66 Apparat A 7 7 70 69 Apparat A 3 70 7 7 73 ) Undersøg. om det kan antages, at udbyttet fra de 6 behandlinger har samme spredning. ) Idet det antages at forudsætningerne for at udføre en variansanalyse er tilstede, skal der udføres en test til vurdering af, om middeludbyttets (eventuelle) afhængighed af de benyttede katalysatorer og apparater kan beskrives ved en additiv model. 3a) Hvis man af økonomiske grund vælger apparat A hvilken katalysator skal man så vælge? Samme spørgsmål vedrørende apparat og 3. 3b) Hvis man af økonomiske grunde vælger katalysator hvilket apparat skal man så vælge? Samme spørgsmål vedrørende katalysator 3c) Hvilken (hvilke) kombinationer af apparat og katalysator giver det største udbytte. Opgave.5 T Man ønsker at undersøge den virkning som faktorer (typen af glas og fosfor) har på skarpheden af billedet på en TV-skærm. Responsvariablen er den strøm (i microampere) som er nødvendig for at opnå et specifik skarpheds niveau. Data er vist i nedenstående tabel: Fosfortype 3 Glastype 80 90 85 30 35 300 30 95 60 40 40 35 ) Undersøg om forudsætningen om varianshomogenitet er opfyldt. ) Idet det antages at forudsætningerne for at udføre en variansanalyse er tilstede, skal der udføres en test til vurdering af, om middelskarphedens (eventuelle) afhængighed af de benyttede glastyper og fosfortyper kan beskrives ved en additiv model. 3) Foretag en grafisk kontrol af, om kravet til at residualerne er tilnærmelsesvis normalfordelt er opfyldt. (betragt residualerne i et normal probability plot ). Undersøg endvidere om enkelte observationer kunne være outliers. 4) Ud fra svaret i spørgsmål skal angives, hvilken glastype og fosfortype der giver den største skarphed (giver den mindste respons) 90 85 90 0 5 30 69
.Variansanalyse (mere end variable) Opgave.6 T (E93) På en fabrik for glasvarer ønsker man at undersøge hvilken blandt 3 typer lim, der er bedst ved sammenlimning af 3 forskelige glastyper. Forsøget foregik ved, at man limede to glasplader sammen, og efter en passende tid undersøgte, hvor stor en kraft der skulle til for at trække pladerne fra hinanden. Man valgte at lave et fuldstændigt faktorforsøg med 5 gentagelser af hver behandling. Resultatet af forsøget var: Glastype A Glastype B Glastype C Gennemsnit Lim I - - - - - - - - - - - - - - -.3333 Lim II - - - - - - - - - - - - - - - 5.9333 Lim III - - - - - - - - - - - - - - - 4.8667 5.06667 3.5333 3.5333 En beregning af SAK størrelserne gav følgende resultat: SAK Lim 73.9 Glastype 3.5 Vekselvirkning 00.48889 Gentagelser Total 903.9 ) Udfyld resten af variansanalysetabellen. ) Angiv hvilke faktorer der har en virkning. 3) Angiv den eller de kombinationer af type lim og type glas, der har den største sammenhængskraft. Angiv et 95% konfidensinterval for de pågældende kombinationer. Opgave.7 (E83) Fabrikationen af et kemikalium baseres på en bestemt kemisk proces, som forudsætter tilsætning af katalysator og en PH - værdi på ca. 5. Som led i en laboratoriemæssig undersøgelse af mulighederne for at forøge procesudbyttet foretoges bl.a. et forsøg, hvor man dels sammenlignede virkningen af tilsætning af 3 forskellige katalysatorer, dels undersøgte, om udbyttet afhang af, om den nødvendige PH - værdi opnåedes ved tilsætning af HCl i stedet for som hidtil H S0 4. Forsøgsresultaterne var (udbytteprocenter): Tilsat syre Katalysatorer HCl H S0 4. 7.0 7.7 30. 9. 5.5 7.0 30.6 8.9 3 6.5 5 0 5.8 8.0 ) Foretag en statistisk analyse af forsøgsresultaterne og drag konklusioner. ) Estimer under hensyn til resultatet af den under punkt ) foretagne analyse procesudbyttet ved benyttelse af katalysator under tilsætning af HCl og opstil et 95% - konfidensinterval for dette udbytte. 70
Opgaver til kapitel Opgave.8 T (E78) Hver af tre laboranter har bestemt hydroquinons smeltepunkt ( 0 Celcius) med (de samme) 4 termometre. Resultaterne var: Termometre Laboranter 3 4 74.0 73.0 7.5 73.5 73.0 7.0 7.0 7.0 3 73.5 73.0 73.0 7.5 Det antages, at de nødvendige variansanalyseforudsætninger er opfyldt, og at termometre og laboranter ikke vekselvirker. Følgende spørgsmål ønskes belyst:. Aflæser laboranterne termometrene på samme måde?. Viser termometrene ens. 3. Vurder ved et residualplot, om forudsætningen om at termometre og laboranter ikke vekselvirker er rimelig. Opgave.9 T På en ingeniørskole ønsker man at sammenligne effektiviteten af undervisningen, når man underviser efter tre forskellige undervisningsmaterialer. En række studerende meldte sig frivilligt til forsøget. I det følgende er angivet studerende ordnet efter studentereksamensgennemsnit. Navn JK AL TS BS DT HN MO FD PJ KM SR RA Snit 6.3 6.8 7.3 7.3 7.9 8. 8.4 8.5 9.0 0... ) Hvordan ville du opdele disse studenter på tre hold med 4 på hver hold? ) Hvordan ville du gøre det, hvis karaktererne gik fra 7.8 til 8.? Opgave.0. Følgende resultater blev opnået fra et eksperiment, hvor man ville undersøge om der var forskel på de resultater, som 5 analyseapparater gav, når man analyserede kvælstofindholdet i jordprøver. På hver af 3 dage blev en portion jord udvalgt og delt i 5 dele, som ved lodtrækning blev givet til analyse i hver sin maskine. Resultaterne var: Maskiner P Q R T U Tirsdag 376 379 399 373 376 Onsdag 37 374 409 387 386 Torsdag 33 339 365 350 34 Undersøg på dette grundlag om der er forskel mellem analyseapparaterne, og angiv i bekræftende fald hvilke der er forskellige. Mener du, at det i denne situation var en god ide at foretage forsøget som et blokforsøg? 7
.Variansanalyse (mere end variable) Opgave. T. Fire forskellige produktionsmetoder P, Q, R, og T ønskes sammenlignet med hensyn til det procentiske udbytte ved udvinding af et metal fra et bestemt mineral. Da man ved forsøget er nødt til at benytte forskellige råvarepartierer, og er bange for, at det vil give stor spredning, vælger man at lave et fuldstændigt randomiseret blokforsøg med råvarepartier som blokke. Nedenstående skema angiver resultatet af dette forsøg. Metode P Metode Q Metode R Metode T Råvareparti.5.7 4.7 3.3.8 3.3 5.5 5.0 Råvareparti 4.6 4.3 7.9 5.9 5. 6.9 7. 6.8 Råvareparti 3 4.7 3.9 4.7 4.4 4.4 3.7 6.4 5.7 ) Undersøg på grundlag af disse oplysninger, om der er forskel på metoderne, og angiv i bekræftende fald de(n) metode som give størst udbytte ) Foretag grafisk en kontrol af den fundne model og så vidt det er muligt også af dens forudsætninger. 7
3 ANTALSTABELLER 3..Indledning 3.. Indledning Vi vil i dette kapitel betragte observationer, som bliver katalogiseret i klasser (categorical data). Et eksempel herpå er følgende: Eksempel 3..(antalstabel) Et ministerium planlægger en oplysningskampagne om de fysiske og psykiske virkninger af at ryge hash. Før kampagnen viste en undersøgelse at 7% af indbyggerne ønskede at hash blev legaliseret, 65% at man beholde det nuværende forholdsvis liberale straffepolitik, 8 % ønskede strengere straffe og 0 % havde ingen mening. Efter kampagnen spurgte man 500 personer (repræsentativt udvalgt), og svarene fremgik af følgende tabel. Legalisering Efter eksisterende lov Strengere straf Ingen mening Efter kampagnen 39 336 99 6 Kan man på dette grundlag vise på et signifikansniveau på α = 00.,at kampagnen har betydet en ændring af folks mening? Af central betydning for testning af sådanne spørgsmål er begrebet multinomial eksperiment. Definition af et multinomialt eksperiment. ) Lad et eksperiment have k mulige udfald. Disse udfald kaldes klasser, kategorier eller celler ) Eksperimentet gentages n gange uafhængigt af hinanden. 3) Sandsynligheden for de k udfald er p, p,..., p k (hvor p + p +... + p k =) er de samme ved de n gentagelser. 4) De statistiske variable der er af interesse er antallet n, n,..., n k i hver af de k klasser. Betragter vi eksempel 3. ses, at betingelserne er opfyldt: Eksperimentet består i tilfældigt at udtage n = 500 personer af en stor population og spørge dem om strafferammen for besiddelse af hash ) Udfaldene er svar på spørgsmålet, og der er k = 4 (og kun 4) svarmuligheder (4 klasser). ) Resultatet af hvad en person svarer vil være uafhængigt af hvad de øvrige svarer. 3) Sandsynligheden for udfaldene i de 4 klasser vil være p, p, p 3 og p 4, hvor disse sandsynligheder er ukendte. 4) De statistiske variable X i er antal personer blandt 500 som har en af de i meninger om straffen for hash. 73
3 Antalstabeller 3.. En-vejs tabel Eksempel 3..(fortsat) Kan man på det i eksempel 3. angivne grundlag vise på et signifikansniveau på α = 00.,at kampagnen har betydet en ændring af folks mening? LØSNING: Lad X = antal personer blandt 500, der går ind for legalisering. P(X ) = p. X = antal personer blandt 500, der går ind for den nuværende straffepolitik. P(X ) = p. X 3 = antal personer blandt 500, der går ind for en strengere straf. P(X 3 ) = p 3. X 4 = antal personer blandt 500, der ingen mening har. P(X 4 ) = p 4. Vi ønsker at teste nulhypotesen H0: p = 007., p = 065., p3 = 08., p4 = 00. mod den alternative H: Mindst én af sandsynlighederne afviger fra den angivne værdi i nulhypotesen. Vi beregner nu de forventede værdier, forudsat nulhypotesen er sand. Resultatet opstilles i det følgende skema: nr 3 4 O i 39 336 99 6 E i E = 500 0. 07 = 35 E = 500 0. 65 = 35 E 3 = 500 08. = 90 E 4 = 500 0. = 50 Da alle de forventede værdier er større end 5 er forudsætningerne for at kunne foretage en χ - test opfyldt. ( ) 39 35 336 35 99 90 6 50 χ = O E i i ( ) ( ) ( ) ( ) = + + + = 349.. E 35 35 90 50 i Da χ > χ ( eller P - værdi = 0.004) forkastes nulhypotesen (tostjernet), 099. ( 4 ) = 35. dvs. kampagnen har haft en betydning for meningen om legalisering af hash. Excel - løsning: De observerede værdier skrive i en søjle, de forventede værdier i en anden søjle: 39 35 336 35 99 90 6 50 Vi får P - værdi =CHITEST(A:A4;B:B4) = 0,0047 74
3.3 To-vejs tabel Testning af fordelingstype. Er der data nok, er der ved ovennævnte metode muligt at teste om en statistisk variabel har en forventet fordeling. Det følgende eksempel demonstrerer dette. Eksempel 3.. (Testning af om data er normalfordelt). I Statistiske Grundbegreber eksempel.3 havde man for 75 patienter med dårligt knæ målt ph i ledvæsken. Man fandt, at x = 7. 87 og s = 0.34. Lad X = ph for en patient. Vi antog dengang, at X var normalfordelt. χ n( x, s) Foretag en - test af denne påstand. LØSNING: Vi ønsker at teste nulhypotesen H 0 : X er normalfordelt n(7.87, 0.34) I eksempel.3 blev intervallet fra den største ph-værdi til den mindste ph-værdi delt op i en passende mængde intervaller, og man talte op hvor mange resultater der faldt i hvert interval. Resultatet ses i nedenstående skema som de observerede værdier. Under forudsætning af, at nulhypotesen er sand, kan man nu beregne det forventede antal i hvert interval. Som et eksempel på beregnes den forventede værdi i intervallet ]7.0 ; 7.8]: 78. 787. 70. 787. E i = 75 Φ Φ = 75 ( Φ( 0. 7985) Φ( 3955. ) 034. 034. = 75 (. 0 0. 08) = 9. 8 9. 8. Da ingen forventede værdier må være under slås de yderste klasser sammen. Da endvidere højst 0% må være under 5, slås yderligere sammen som vist på skemaet. Klasser Observerede værdier Forventede værdier Klasser sammenlægges ]- - 6.94] 0 0.36.73 ]6.94-7.0].37 6.0 ]7.0-7.0] 5 4.37 4.37 ]7.0-7.8] 8 9.8 9.8 9.8 ]7.8-7.6] 7 5.6 5.6 5.6 ]7.6-7.34] 8 7.5 7.5 7.5 ]7.34-7.4] 6 3.9 3.9 3.9 ]7.4-7.50] 4 7.84 7.84 7.84 ]7.50-7.58] 3 3. 3. ]7.58-7.66] 0,88 4. ]7.66-7.74] 0.8.09 ]7.74 - [ 0 0.03 ( 7 60. ) ( 8 98. ) ( 5 4. ) χ = + +... + = 95. 60. 98. 4. Da vi har brugt to værdier (gennemsnit og spredning) til at udregne de forventede værdier, er f = k - - = 7-3 = 4. 75
3 Antalstabeller Da χ 095. ( 4) = 949. > 95. (eller P - værdi = 0.566 ) accepteres nulhypotesen, dvs. vi kan ikke på det grundlag afvise, at X er normalfordelt. Excel - løsning: Det er så besværligt at foretage testen i Excel, at det næppe er umagen værd. Excel sætter således frihedsgradstallet forkert til k - = 6. Data beregnes: Eksempel: E 4 = 75*(NORMFORDELING(A7;7,87;0,34;SAND)-NORMFORDELING(A6;7,87;0,34;SAND))= 9,84405 Man kopierer cellerne nedad. klasser observerede forventede Sam_obs Sam_forv 6,94 0 0,36038 7,0,37639 7, 5 4,370493 7 6,0793 7,8 8 9,84405 8 9,84405 7,6 7 5,5906 7 5,5906 7,34 8 7,509 8 7,509 7,4 6 3,9308 6 3,9308 7,5 4 7,83749 4 7,83749 7,58 3 3,8565 5 4,9759 7,66 0,87743 7,74 0,74486 0000 0 0,077 P - værdi =CHIFORDELING(CHIINV(CHITEST(D6:D;E6:E);6);4) = 0,56693485 Vi får samme P - værdi som før. 3.3. To-vejs tabel I dette afsnit betragter vi multinominale eksperimenter hvor data er karakteriseret ved to kriterier. Et eksempel herpå er følgende: Eksempel 3.3. (E87) (testning af uafhængighed) Ved en uddannelsesinstitution indstillede et år 500 studerende sig til en årsprøve, der bl.a. omfattede matematik og fysik. De opnåede karakterer i de to fag inddeltes i 4 grupper: Observerede værdier Fysikkarakterer 0, 3, 5 6, 7 8, 9 0,, 3 Total 0, 3, 5 8 46 3 0 77 Matematikkarakterer 6, 7 60 4 5 9 8, 9 7 3 4 6 88 0,, 3 8 68 8 06 Total 49 57 65 9 500 Undersøg om der er en sammenhæng mellem de opnåede fysikkarakterer og de opnåede matematikkarakterer. 76
3.3 To-vejs tabel LØSNING: X = antal studerende med opnået matematikkarakter X = antal studerende med opnået fysikkarakterer H 0 : X og X er statistisk uafhængige. Udfaldene antages at være uafhængige, og da de studerende antages at være repræsentative for en årgang med samme sandsynlighed fra årgang til årgang. Dette kan derfor opfattes som et multinomialt eksperiment. Vi får følgende tabel over de forventede værdier: Forventede værdier Fysikkarakterer 0, 3, 5 6, 7 8, 9 0,, 3 Matematikkarakterer 0, 3, 5 77 49 = 7. 546 500 6, 7 9 49 =. 64 500 77 57 = 39. 578 500 9 57 = 66. 306 500 77 65 = 54. 500 9 65 = 4. 57 500 77 9 = 4. 466 500 9 9 = 7. 48 500 8, 9 88 49 500 = 8. 44 88 57 = 96. 63 500 88 65 = 6. 04 500 88 9 = 0. 904 500 0,, 3 06 49 06 57 06 65 06 9 = 0. 388 = 54. 484 = 34. 98 = 648. 500 500 500 500 Da alle de forventede værdier er over, og kun klasse af 6 ligger under 5 er betingelserne for en χ - test opfyldt. Vi beregner nu teststørrelsen ( 8 7. 546) ( 46 39. 578) ( 8 648. ) χ = + +... + = 08. 97 7546. 39. 578 648. Frihedsgradstallet er f = ( r ) ( q ) = ( 4 ) ( 4 ) = 9 Idet χ = 08. 9 > χ0999. ( 9) = 7. 9 forkastes nulhypotesen (stærkt bevis) dvs. der er ikke uafhængighed mellem fysikkaraktererne og matematikkaraktererne. Når vi ser på tallene er det tydeligt at gode karakterer i det ene fag også har en tendens til at bevirke gode karakterer i det andet fag. Excel - løsning: Det er ret besværligt at beregne de forventede værdier i Excel, men er det først gjort, er det nemt at få P-værdien. Observerede data: 8 46 3 0 60 4 5 7 3 4 6 8 68 8 77
3 Antalstabeller Forventede data: Beregning i celle DA sker ved følgende ordre: =SUM(D:G)*SUM($D$:$D$4)/SUM($D$:$G$4) = 7.546 Bemærk at ønsker man at kopiere ned gennem en søjle, skal visse adresser være absolutte (med $ tegn) 7,546 39,578 5,4 4,466,64 66,306 4,57 7,48 8,44 96,63 6,04 0,904 0,388 54,484 34,98 6,48 P - værdi = CHITEST(D:G4;I:L4) =,448E-9 78
Opgaver til kapitel 3 OPGAVER Opgave 3.(E79) For en støvfyldt gasart ønskede man at bestemme antallet af støvpartikler pr. volumenenhed. Til brug herfor sendte man 500 gange en lysstråle gennem et volumen. der var så lille (0-6 cm 3 ), at det kun indeholdt få støvpartikler. Man iagttog hver gang volumenet gennem et ultramikroskop og optalte antallet af støvpartikler. Forsøgsresultaterne var: Antal partikler 0 3 4 5 6 7 8 I alt Antal gange 95 63 34 67 4 4 0 500 ) Angiv hvilken fordelingstype du vil benytte for antallet X af støvpartikler pr. 0-6 cm 3. ) Estimer parameteren/parametrene i den formodede fordeling. 3) Foretag en testning af den opstillede model. 4) Estimer middelantallet af støvpartikler pr. cm 3. Opgave 3.(F93) Ved måling af 00 akslers diametre fandtes følgende grupperede empiriske fordeling: Intervalinddeling Antal observationer Nedre grænse.55.65.75.85.95.05.5.5 Øvre grænse.65.75.85.95.05.5.5.35 7 0 7 8 8 7 χ I alt 00 Udfør en - testning af, om akseldiameteren kan antages at være normalfordelt. (Vink: Ved beregningen af estimater for middelværdi og spredning tænkes alle observationer i et interval samlet i midtpunktet af intervallet) Opgave 3.3(E74) En terning kastedes 0 gange, hvorved følgende resutater fandtes: Antal Øjne 3 4 5 6 Antal gange 5 7 5 3 4 6 Test nulhypotesen: Terningen er en ærlig" terning. 79
3 Antalstabeller Opgave 3.4 5 typer vaccine mod en bestemt sygdom blev undersøgt ved, at 6 grupper på hver 00 forsøgsdyr (mus) blev udsat for smitte. De 5 af grupperne fik hver sin type vaccination, mens den sidste gruppe ikke blev vaccineret. Efter en passende tid undersøgte man hvor mange af de 00 dyr, der havde fået sygdommen. Følgende resultater fandtes: Gruppe nr 3 4 5 6 Antal syge dyr 3 8 0 6 7 Vi ønsker at foretage en statistisk anayse af, om procenten af smittede dyr i de 6 grupper kan antages at være den samme. Opgave 3.5(E8) En kemikaiefabrik har påbegyndt en fabrikation af kunstgødning. Ved fabrikationen hældes gødningen i sække af 5 "ens" maskiner, idet det tilstræbes, at nettoindhodet i sækkene er 5 kg i hver. Ved indkørselen af produktionen fandt man, at der var mange overvægtige og undervægtige sække. Føgende antalstabel indeholder produktionsresultatet ved første prøvekørsel: Maskiner 3 4 5 Nettovægt Under 4 kg 5 3 7 3 Mellem 4 og 6 kg 4 7 6 5 3 Over 6 kg 0 7 5 Foretag en testning af, om det kan antages, at vægtfordelingen er den samme for de 5 maskiner. Opgave 3.6(E8) (test i antalstabel) Ved start af en stor amerikansk industrivirksomhed underkastedes alle 73 ansøgere til et bestemt job på fabrikken en psykoteknisk prøve. Idet ansøgerne grupperedes efter, om de var medlemmer af en fagforening eller ikke, er nedenstående anført resultaterne af den pågældende prøve. Resultat af prøven godt middel dårligt Medlem af en fagforening 37 4 3 Ikke medlem af en fagforening 7 6 8 Hvad kan der sluttes om sammenhæng mellem præstation ved prøven og medlemskab af en fagforening? 80
Opgaver til kapitel 3 Opgave 3.7(E8) En fabrik, der arbejdede i 3 - holdskift, fremstillede b.a. en bestemt maskindel i massefabrikation. For at undersøge, om kvaliteten af denne maskindel påvirkedes af omstændigheder, der afhang af, inden for hviket tidsrum af døgnet fabrikationen fandt sted (træthed, belysningsforhold m.v.), lod man et bestemt arbejdshold arbejde på hvert af de 3 skift en uge ad gangen. Man regnede med, at produktionsbetingelserne fra uge ti uge var i det væsentlige uændrede. Arbejdsholdets ugentlige produktion var: Skift Antal ikke - defekte emner Antal defekte emner kl. 8 00-6 00 60 88 kl. 6 00-4 00 590 kl. 0 00-8 00 507 03 Foretag en statistisk anayse af, om produktionens kvalitet må antages at afhænge af produktionsperioden. Opgave 3.8(E8) Et forsikringsselskab har i løbet af et kalenderår undersøgt bilkaskoskaderne og registreret antallet af skadesanmeldelser og forsikringstagerens (førerens) alder. Resultatet blev: Forsikringstagerens alder 8-7 8-37 38-47 48-57 58 Antal skader 74 60 5 66 50 3 5 6 5 3 9 0 6 5 7 ) Man havde en forhåndsformodning om, at aldersgruppen 8-7 år skadesmæssigt adskiller sig fra de øvrige grupper. Bekræftes denne forhåndsformodning? ) Tillader det ovennævnte materiale en antagelse om, at der er uafhængighed mellem antallet af skader og forsikringstagerens alder for de sidste 4 aldersgrupper? 8
Statistik med Excel Appendix A. Statistik med Exell a: Forudsætninger. ) Excel har en statistikpakke Analysis ToolPak, som ikke automatisk bliver installeret. Dette tilføjelsesprogram skal man ofte særskilt bede om. Hvorledes dette gøres, kan ses ved at trykke på hjælpetasten F og søge Analysis ToolPak +Analysis ToolPak VBA ) Excel er oversat til dansk. Skulle man have den engelske version, vil det dog næppe give større problemer. a. Inddata. Placering: Vi vil i det følgende for kortheds skyld antage, at den første stikprøves værdier står i cellerne A, A, A3... An. Kræves der flere variable vil den næste stå i cellerne B, B, B3... Bn, den næste igen i cellerne C, C, C3... Cn osv. Navngivning: Sædvanligvis vil vi kun angive dem ved deres placering såsom A:A0. I nogle tilfælde kan det dog være praktisk at navngive dem f.eks med x, hvilket sker ved at markére x - cellerne og skrive x oppe i navngivningsfeltet øverst til venstre. a3. Beregning af (statistiske) funktioner: ) Vælg den celle hvor resultatet skal stå (eksempelvis A). ) På værktøjslinien foroven: a) Tryk på = b) Til venstre trykkes på hvorved der fremkommer en rullemenu c) På denne vælges den ønskede funktion eksempelvis NORMALFORDELING d) Der fremkommer en tabel med anvisning på, hvordan den skal udfyldes. a3.. Normalfordeling. Lad X være normalfordelt n( µ, σ ) P( X x) = NORMFORDELING(x ; µ ; σ ; SAND) P( X = x) = NORMFORDELING(x ; µ ; σ ; FALSK) Fraktil u α = NORMINV( α ; µ ; σ ) (se figur) Eksempel: ) Find for n(89.6,0.5) P( 89. X 908. ). (jævnfør eksempel.3) P( 89. X 908. )= P( X 908. ) P( X 89. ) =NORMFORDELING(90,8;89,6;0,5;SAND)-NORMFORDELING(89,;89,6;0,5;SAND) Resultat: 0.6946 ) Find for den normerede normalfordeling u 0975. u 0975. = NORMINV(0,975;0;) =,95996 8
a: Generelle forhold a3. χ - fordeling. Lad X være χ - fordelt med f frihedsgrader P( X x) = - CHIFORDELING(x;f) (bemærk: CHIFORDELING(x;f) udregner øvre hale af fordelingen) Fraktil χ α ( f ) =CHIINV(- α ;f) α (bemærk: CHIINV( ;f) udregner øvre hale ) Eksempel: (jævnfør eksempel 3.) Find for χ - fordelingen med 8 frihedsgrader ) P( X 5) P( X 5) = - CHIFORDELING(5;8) = 0,444 ) χ 0. 05 () 8 og χ 0. 975 () 8. χ 0. 975 () 8 =CHIINV(0,05;8) = 7,53454 χ 0. 05 () 8 =CHIINV(0,975;8) =,7975 a3.3 t - fordeling. Lad X være t - fordelt med f frihedsgrader, og lad x >0. P( X x) = - TFORDELING(x; f ;) (bemærk: TFORDELING(x; f ;) udregner øvre hale af fordelingen) P( X x) + P( X x) = TFORDELING(x; f ;) (se figur) Fraktil tα ( f ) = TINV(( - α ) ; f), α > 0.5 tα ( f ) = - TINV( α ; f), α < 0.5 α Bemærk: TINV( α ;f) udregner øvre hale, svarende til - Bemærk: Man må må udnytte symmetrien i t-fordelingen, for værdier mindre end 0 (svarende til α < 0.5) Eksempel:(jævnfør eksempel 3.) Lad X være t - fordelt med frihedsgrader Find ) P( X ) og P( X ) P( X ) = TFORDELING(;;) = 0,6855 P( X ) = P( X ) = TFORDELING(;;) = 0,6855 ) t 0. 975 ( ) og t 0. 05 ( ). t 0. 975 ( ) = TINV((-0.975);) =,7883 t 0. 05 ( ) = - TINV(0,05;) = -,7883 a3.4. F - fordeling. Lad X være F - fordelt F(f T, f N ) P( X x) = - FFORDELING(x ; f T ; f N ) Fraktil Fα ( ft, f N ) ==FINV( - α ; f T ; f N ) Eksempel: Lad X være F - fordelt F(8,) (jævnfør eksempel 3.3) Find ) P( X ) P( X ) = FFORDELING(;8;) = 0,34677 ) F 095. (, 8) og F 005. (, 8). F 095. (, 8) ==FINV(0,05;8;) =,848566 F 005. (, 8) =FINV(0,95;8;) = 0,3045 83
Statistik med Excel a3.5. Hypergeometrisk fordeling Lad X være hypergeometrisk fordelt h (N, M, n) P( X = x) = HYPGEOFORDELING(x ; n ; M ; N) Eksempel:(jævnfør eksempel 7.) Find for h(600,0,5) P( X ) P( X ) = HYPGEOFORDELING(;5;0;600)+HYPGEOFORDELING(0;5;0;600) = 0,938876 a3.6. Binomialfordeling Lad X være binomialfordelt b (n, p) P( X = x) = BINOMIALFORDELING(x ; n; p; FALSK) P( X x) = BINOMIALFORDELING(x ; n; p; SAND) Eksempel (jævnfør eksempel 7.4 og 7.5) ) Find for binomialfordelingen b(7,0.3333), P( X = 3) P( X = 3) = BINOMIALFORDELING(3;7;0,3333;FALSK) = 0,56033 ) Find for binomialfordelingen b(4,0.3333) P( X 3) P( X 3) = - P( X ) = - BINOMIALFORDELING(;4;0,3333;SAND) = 0,0848 a3.7. Poissonfordeling Lad X være Poissonfordelt p ( µ ) P( X = x) µ P( X x) µ = POISSON(x; ;FALSK) = POISSON(x; ;SAND) Eksempel (jævnfør eksempel 7.8) Find for Poissinfordelingen p(.46) P( X 4) (eksempel 7.8) P( X 4) =POISSON(4;,46;SAND) = 0,896458 a4. Beregn gennemsnit, spredning, median, kvartiler af n tal x, x, x 3,... x n, x =MIDDEL(A:An), s = STDAFV(A:An),. kvartil =KVARTIL(A:An;), Median = kvartil =KVARTIL(A:An;), 3. kvartil =KVARTIL(A:An;3) Eksempel: Beregn gennemsnit, spredning og madian af tallene 3 4 8 x =MIDDEL(A:A4) = 4, s = STDAFV(A:A4) =.9439, median =KVARTIL(A:A4;) = 3.5 a5. Beregning af histogram Indtast data (eksempelvis data fra eksempel.3 side 6) Vælg Funktioner, Dataanalyse, Histogram I den fremkomne tabel udfyldes inputområdet med A:An. ) Trykkes på OK fås en tabel med hyppigheder, hvor intervalgrænserne er fastlagt. ) Ønsker man selv at bestemme grænserne, skal man også udfylde intervalområdet. Dette gøres ved at skrive de nedre grænser i en søjle (f.eks i B til B7) og så skrive B:B7 i inputområdet (man får så samme tal som på side 7). Ønskes også en beregning af de kumulative frekvenser sætter man yderligere sætter et mærke ved kumulativ frekvens. 3) Ønskes et histogram (som tegning på side 8), så 3a) Marker udskriften (inklusive overskrifter) for både grænser og hyppighed, og tryk på ikonet Diagram i værktøjslinien 3b) Vælg søjle og tryk på udfør, så fås en figur nogenlunde svarende til tegningen på side 8 Tegningen kan justeres f.eks ved at markere en tilfældig kolonne, tryk højre musetast, og vælg formater dataserie, indstillinger, og sæt mellemrumsbredde til 0. 4) Ønskes tegnet en sumpolygon, så 4a) Marker udskriften (inklusive overskrifter) for både grænser og kumultativ frekvens (slet evt. frekvenssøjle og flyt de andre søjler sammen) 4b) Vælg kurve og tryk på udfør 84
a6. Konfidensintervaller for normalfordelt variabel. a5: Beregning af histogram a6.. 95%- konfidensinterval for middelværdi af stikprøve idet σ er kendt Radius r i et 95% konfidensinterval for µ : x ± r = x ± u 0975 n r = KONFIDENSINTERVAL(0,05; σ, n). Eksempel. (jævnfør eksempel 4.) Indtast data. Lad stikprøvens værdier være 6 værdier og lad σ = 0.5 Gennemsnittet =MIDDEL(A:A6) = 8,68333 Vælg den celle, hvor konfidensintervallets radius skal stå Vælg KONFIDENSINTERVAL og indsæt de ønskede værdier i den fremkomne tabel r =KONFIDENSINTERVAL(0,05;0,5;6). Resultat 0,00038 95% konfidensinterval: 8,68 ± 0.00. σ a6.. 95%- konfidensinterval for middelværdi af stikprøve idet σ er ukendt s Radius r i et 95% konfidensinterval for µ : x ± r = x ± t 0. 975 ( f ) : n Eksempel: Lad stikprøvens værdier være de 6 værdier i eksempel 4. Indtast data. Vælg Funktioner, Dataanalyse, Beskrivende statistik I den fremkomne tabel udfyldes inputområdet med A:A6, Outputområdet til B, og konfidensniveau for middelværdi sættes til 95% Vælg den celle, hvor konfidensintervallets radius skal stå Resultat: Kolonne Konfidensniveau(95,0%) 0,53035 r = 0,53035 95% konfidensinterval: 8,68 ± 0,53035 Vælges Resumestatistik fås også gennemsnittet + en række andre oplysninger. a6.3. 95%- konfidensinterval for spredning af stikprøve idet µ er ukendt 95% konfidensinterval for σ : ( n ) s σ χ ( n ) ( n ) s χ ( n ) α α Der er ingen funktion hertil i Excell, så man må beregne konfidensintervallet direkte ud fra formlen. Eksempel. (hentet fra eksempel 4.3) Indtast de data i en søjle, og navngiv dem eksempelvis som saltindhold Vælg den celle, hvor konfidensintervallets nedre endepunkt skal stå Beregn =(STDAFV(saltindhold)^*/CHIINV(0,05;))^0,5 = 0,404 Vælg den celle, hvor konfidensintervallets øvre endepunkt skal stå Beregn ==(STDAFV(saltindhold)^*/CHIINV(0,975;))^0,5 = 0,53697 Konfidensinterval [0.4 ; 0.537] 85
Statistik med Excel a7. Hypotesetest: kontinuert variabel) Lad X være normalfordelt n( µ, σ ). Lad stikprøveværdierne stå i en søjle med navnet resultater H 0 : µ µ 0 σ a7.., kendt. : P - værdi = ZTEST(resultater; µ 0 ; σ ) Eksempel (hentet fra eksempel 5.): Test af nulhypotese H 0 : µ 69. idet σ =.0 er kendt Vælg Z-TEST og indsæt de ønskede værdier i den fremkomne tabel. P - værdi =ZTEST(resultater;69,;) = 0,06549. H 0 : µ µ 0 σ a7.., kendt.: P - værdi = - ZTEST(resultater; µ 0 ; σ ) a7.3. : µ = µ, σ kendt. : H 0 0 P - værdi =ZTEST(resultater; µ 0 ; σ ) eller P - værdi = - ZTEST(resultater; µ 0 ; σ ) (den mindste af de to værdier) Eksempel (hentet fra eksempel 5.4) Test af nulhypotese H 0 : µ = 840. idet σ = 0.5 er kendt Vælg Z-TEST og indsæt de ønskede værdier i den fremkomne tabel. ZTEST(resultater;8,4;0,5). Resultat 0,90486. Heraf fås P - værdi = - 0.90486 = 0.0985 µ µ 0 σ 7.4. H 0 :, er ukendt: Da der ikke i Excel findes en t-test for variabel må man skrive formlen direkte. ( x µ ) n t = 0 s Eksempel (hentet fra eksempel 5.5) Test af nulhypotese H 0 : µ 7. idet σ er ukendt Da t-fordelingen i Excel ikke accepterer negative værdier må man tage den numeriske værdi (abs) af resultatet. P - værdi = TFORDELING((ABS(MIDDEL(resultater)-,7)/STDAFV(resultater)*5^0,5);4;)= 0,0578 7.5. H 0 : H 0 :σ σ, µ er ukendt 0 Da der ikke i Excel findes en χ -test for variabel må man skrive formlen direkte. ( n ) s χ = σ 0 Eksempel (hentet fra eksempel 5.6) Test af nulhypotese H 0 : σ 0. idet µ er ukendt P - værdi = CHIFORDELING((0-)*0,4^/0,^;9) = 0,096543 8. Sandsynlighedsregning 8.. Beregn fakultet n! Eksempel : Beregn 5! 5! =FAKULTET(5) = 0 n 8.. Beregn kombination K(n,p) =. p 5 Eksempel : Beregn K(5,3)=. =KOMBIN(5;3) = 0 3 5 3 86
a9. Hypotesetest: kontinuerte variable a8: Sandsynlighedsregning Lad X og X være uafhængige normalfordelte variable henholdsvis n( µ, σ) og n( µ, σ), hvor µ, µ, σ, σ er ukendte Lad stikprøveværdierne for X og X stå i søjlerne A - A6 og B - B6 (man kunne eventuelt navngive søjerne med navnene henholdsvis resultater_ og resultater_") I en række tilfælde giver Exell mulighed for at løse problemet på måder: Metode. Der beregnes kun en P - værdi Metode. Der beregnes en række mere eller mindre interesante størrelser herunder P - værdien. I det følgende beskrives begge metoder. a9.. H 0 :σ = σ : Metode : P - værdi = FTEST(A:A6 ; B:B6). FTEST beregner arealet til begge sider svarende til, at man skal sammenligne med 5% (og ikke.5%) Metode : Vælg Funktioner, Dataanalyse, F-test: Dobbelt stikprøve for varians Den fremkomne tabel udfyldes: Område for variabel ": A:A6 Område for variabel ": B:B6 Outputområde : Skriv cellenummer for øverste venstre celle i det ønskede outputområde. Metoderne og deres udskrift er vist i eksemplerne 0.4 punkt og 0.5 punkt a9.. σ = σ: H 0 : µ µ : Metode : P - værdi =TTEST(A:A6 ; B:B6; ;) Metode : Vælg Funktioner, Dataanalyse, t-test: to stikprøver med ens varians Den fremkomne tabel udfyldes som under punkt, metode. a9.3. σ σ : H 0 : µ µ : Metode : P - værdi = TTEST(A:A6;B:B6;;3) Metode : Vælg Funktioner, Dataanalyse, t-test: to stikprøver med forskellig varians Den fremkomne tabel udfyldes som under punkt, metode. a9.4. σ σ : H 0 : µ = µ : Metode : P - værdi =TTEST(A:A6 ; B:B6; ;3) eller P - værdi =TTEST(A:A6 ; B:B6; ;3) (den mindste af de to værdier) Metode : Samme fremgangsmåde som under de forrige punkter. Metoderne og deres udskrift er vist i eksemplerne 0.4 punkt og 0.5 punkt a9.5. Parvise observationer: : µ µ : H 0 Metode : P - værdi =TTEST(A:A6 ; B:B6; ;) Metode : Vælg Funktioner, Dataanalyse, t- test: parvis dobbelt stikprøve for middelværdi Den fremkomne tabel udfyldes som under de forrige punkter. Eksempel: (hentet fra eksempel 5.6 H0 : µ A = µ B Metode : P - værdi =TTEST(A:A08;B:B0;;) = 0,003067. Da 0.003 < 0.05 forkastes H 0 Metode : Vælg Funktioner, Dataanalyse, t- test: parvis dobbelt stikprøve for middelværdi Den fremkomne tabel udfyldes: Område for variabel ": B:B0 Område for variabel ": A:A0 Outputområde : Skriv cellenummer for øverste venstre celle i det ønskede outputområde. 87
Statistik med Excel Udskrift: t-test: Parvis dobbelt stikprøve for middelværdi Variabel Variabel Middelværdi 0,6,07 Varians 5,663 6,9 Observationer 0 0 Pearson-korrelation 0,98688 Hypotese for forskel i middelvæærdi 0 fg 9 t-stat -3,5584 P(T<=t) en-halet 0,003067. Da 0.003 < 0.05 forkastes H 0 t-kritisk en-halet,8334 P(T<=t) to-halet 0,00635 t-kritisk to-halet,659 a0. Regressionsanalyse Skriv x-værdierne i en søjle, markér dem og navngiv dem eksempelvis som x Skriv y-værdierne i en søjle, markér dem og navngiv dem eksempelvis som y Vælg Funktioner, Dataanalyse, Regression Den fremkomne tabel udfyldes ) Input for Y-område skrives y, input for X - område skrives x ) I outputområdet skrives øverste venstre celle i det ønskede outputområde. Der skal bruges mindst 7 kolonner til regressionsanalysetabellen. 3) Det kan være hensigtsmæssigt at afkrydse yderligere nogle rubrikker, men det er ikke obligatorisk. Eksempel med tilhørende udskrift kan ses i eksempel.7 og.0 a0. Korrelationskoefficient Beregne korrelationskoefficient for den i eksempel 9. nævnte stikprøve (,), (0,0), (,), (,), (,0), (,), (0,), (,), (0,), (,). Skriv x-værdierne i en søjle (eksempelvis C-søjlen) og y-værdierne i en anden søjle(eksempelvis D-søjlen). Marker x-værdierne og navngiv vektoren eksempelvis som X Marker y-værdierne og navngiv vektoren eksempelvis som Y Vælg den celle hvor korrelationskoefficienten skal stå (eksempelvis D). Tryk på værktøjslinien på =, og vælg til venstre herfor en rullemenu, på denne vælges Korrelation, Skriv X og Y i den fremkomne tabel. Resultat r = 0.404 i celle D. a. Variansanalyse a.. Ensidet variansanalyse Inddata har følgende udseende (hentet fra eksempel.) T T T3 T4 08 05 08 7 0 0 9 09 3 Vælg Funktioner, Dataanalyse, ANAVA: enkelt faktor Den fremkomne tabel udfyldes ) Inputområde udfyldes så hele området er med (eksempelvis a:d4) ) Markér rækker (da vi har arrangeret data i rækker) 3) Markér Etiketter i første række da første række jo er variabelnavne 4) I Outputområdet skrives øverste venstre celle i det ønskede outputområde. Udskrift svarer til udskriften i afsnit.. 88
a0: Variansanalyse a.. Tosidet variansanalyse Idet data i eksempel.3 anvendes ses inddata således ud: K K O 830 80 860 840 O 940 05 0 990 0 0 O3 855 930 85 90 Vælg Funktioner, Dataanalyse, ANAVA: to faktor med gentagelse Den fremkomne tabel udfyldes ) Inputområde udfyldes så hele området er med (eksempelvis A:C7) ) Rækker pr. stikprøve : Skriv antallet af rækker i hver stikprøve ( i vort eksempel ) 4) I Outputområdet skrives øverste venstre celle i det ønskede outputområde. Udskriften svarer til den beskrevne i afsnit.3.6. og.3.6.. a. Antalstabeller a.. En - vejs tabel Skriv de observerede værdier i en søjle f.eks A- A4 og de forventede værdier i en anden søjle f.eks B - B4 Eksempel: (hentet fra eksempel 3.) Inddata: 39 35 336 35 99 90 6 50 Skriv =CHITEST(A:A4;B:B4) P - værdi = 0,0047 Bemærk, at frihedsgradstallet altid er k -, hvilket jo ikke altid er korrekt, jævnfør eksempel 4.3. a.. To - vejs tabel Skriv de observerede værdier i et område f.eks A - D4 og de forventede værdier i eksempelvis A6 - D9 Eksempel: (hentet fra eksempel 3.3) 8 46 3 0 60 4 5 7 3 4 6 8 68 8 7,546 39,578 5,40 4,466,64 66,306 4,570 7,48 8,44 96,63 6,040 0,904 0,388 54,484 34,980 6,48 skriv = CHITEST(D:G4;D6:G9) Resultat: P - værdi =,448E-9 89
APPENDIX 0. APPENDIX 0.. Oversigt over konfidensintervaller( variable). X og X er normalfordelte henholdsvis n( µ, σ) og n( µ, σ). Givet stikprøver af X og X. Størrelse, gennemsnit og spredning henholdsvis n, x, s og n, x, s nr Forudsætninger Parameter og estimat 00 ( - ) % konfidensinterval for parameter α n 30 og/eller n 30 µ µ x x s s s x x u α + µ µ x x + u α + n n n s n n < 30 og n < 30 σ σ µ µ x x x x t α( f ) s + µ µ x x + t α( f ) s + n n n n hvor s ( n ) s + ( n ) s = f og f = n+ n 3 n < 30 og n < 30 σ σ 4 µ og µ kendte µ µ x x s s Lad a = + n n x x t ( f ) a µ µ x x + t ( f ) a α α hvor f er det nærmeste hele tal, som er større end σ F σ F F n n σ hvor F n n α α (, ) σ a g = s s n n + n n (, ) (( ) + ( µ ) ) F = (( ) ( µ ) ) n s n x n n s + n x n 5 µ kendt σ µ ukendt σ F F σ F F n n α (, ) ( n ) s + n ( x µ ) hvor F = ( n, n ) σ s n α 6 µ og µ ukendte σ F σ F F n n σ hvor α (, ) F s F n n α (, ) σ s = 90
APPENDIX 0. X og X er binomialfordelt henholdsvis bn (, p) og bn (, p), hvor n og n er kendte og p og p ukendte. Observerede stikprøveværdier x og x. nr Forudsætninger Parameter og estimat 00 ( - ) % konfidensinterval for parameter α 7 p og p ukendte. x [ 5; n 5] x [ 5; n 5] p p ~ x p = n ~ x p = n ~ p ~ p u ~ p ( ~ p ) ~ p ( ~ p ) ~ ~ ~ ( ~ ) ~ ( ~ p p p p ) + p p p p + u α + n n n n α X og X er Poissonfordelte henholdsvis p( µ ) og p( µ ), hvor µ og µ er ukendte. Givet stikprøver af X og X. Størrelse og gennemsnit henholdsvis n, x og n, x. nr Forudsætninger Parameter og estimat 00 ( - ) % konfidensinterval for parameter α 8 µ og µ ukendte. n x 0 n x 0 µ µ x x x x x x x x u α + µ µ x x + u α + n n n n 9
APPENDIX 0. APPENDIX 0.. Oversigt over test af middelværdier µ og µ for normalfordelte variable (stor stikprøvestørrelse) n( µ, σ) n( µ, σ ) X og X er normalfordelte henholdsvis og. Givet stikprøver af X og X. Størrelse, gennemsnit og spredning henholdsvis n,, x σ σ x n 30 n 30 α n 0, + n n s og n,, s. og Signifikansniveau er. Lad d være en konstant, og Y en statistisk variabel, der er fordelt. Forudsætn. n 30 og n 30 eller σ og σ kendte s og s erstattes så af σ og σ H Nulhypotese Metode Beregning H 0 forkastes Dimensionering :µ µ + 0 H: µ > µ + d H :µ µ + 0 H: µ < µ + d d d Enten tabelmetode u = x x d s s + n n Formel () u > u α eller P - værdi p= P( Y u) = Φ( u), hvor u er værdien i () p < α Enten tabelmetode u findes af formel u < u α eller P - værdi p= P( Y u) = Φ( u), hvor u er værdien i () p < α = µ µ d er den mindste ændring i µ der har praktisk interesse. β = P(type II fejl) u + u n σ σ = max{ s, s } α β H :µ = µ + 0 H: µ µ + d d Enten tabelmetode u findes af formel () eller P - værdi p= P( Y u) = Φ( u), for x > x + d p= P( Y u) = Φ( u) x < x + d, for hvor u er værdien i formel () u > u p < α α Betegnelser som ovenfor: u n + u α β σ 9
APPENDIX 0.3. Oversigt over test af middelværdier µ og µ for normalfordelte variable. (lille stikprøvestørrelse) X og X er normalfordelte henholdsvis n( µ, σ) og n( µ, σ ). Givet stikprøver af X og X. Appendix 0.3 Størrelse, gennemsnit og spredning henholdsvis n, x, s og n, x, s. n < 30 og n < 30. Signifikansniveau er α. Lad d være en given konstant T er en statistisk variabel der er t - fordelt med frihedsgradstallet f. Forudsætn. n < 30 og n < 30 σ = σ (accept ved F - test) H Nulhypotese Metode Beregning H 0 forkastes Dimensionering :µ µ + 0 H: µ > µ + d H :µ µ + 0 H: µ < µ + d d d Enten tabelmetode x x d t = s + n n hvor s Formel () ( n ) s + ( n ) s = n + n t > t α ( f ) hvor f = n + n eller P - værdi p = P( T t) hvor t er værdien i formel() p < α Enten tabelmetode t findes af formel () t < t α ( f ) hvor f = n + n eller P - værdi p = P( T t) hvor t er værdien i formel () p < α = µ µ d er den mindste ændring i µ der har praktisk interesse. β = P(type II fejl) Antal gentagelser for hver af de to variable findes af dimensioneringstabel 8 For værdier der ikke står i tabellen benyt Mapleprogrammet i appendix 0.7 H :µ = µ + 0 H: µ µ + d d Enten tabelmetode eller P - værdi t findes af formel () t > t ( f ) α hvor p = P( T t) for x > x + d p = P( T t) for x < x + d hvor t er værdien i formel () f = n + n p < α Benyt dimensioneringstabel tabel 8 For værdier der ikke står i tabellen benyt Mapleprogrammet i Appendix 0.7 93
APPENDIX 0.3 Appendix 0.3 fortsat X og X er normalfordelte henholdsvis n( µ, σ) og n( µ, σ). Givet stikprøver af X og X. Størrelse, gennemsnit og spredning henholdsvis n, x, s og n, x, s. Signifikansniveau er α. Lad d være en given konstant. T er en statistisk variabel der er t - fordelt med frihedsgradstallet f. Forudsætn Nulhypotese Metode Beregning H 0 forkastes Approksimativ Enten x x d s s t > t metode tabelmetode t = α ( f ), hvor c = + Formel (3) c H0:µ µ + d n n hvor f er σ og σ bestemt i foregående Frihedsgradstallet f er det nærmeste hele tal, som er større end celle. ukendte H: µ > µ + d c σ σ (forkastelse ved F - test) eller P - værdi g = s s n n + n n (Satterthwaites test) p = P( T t), hvor t er værdien i formel(3) p < α H :µ µ + 0 d Enten tabelmetode t findes af formel (3), og frihedsgradstal f bestemmes på samme måde. t < t α ( f ) H: µ < µ + d eller P - værdi p = P( T t), hvor t er værdien i formel (3) p < α H :µ = µ + 0 H: µ µ + d d Enten tabelmetode eller P - værdi t findes af formel (3), og frihedsgradstal f bestemmes på samme måde. p = P( T t) for x > x + d ( ) x < x + d p = P T t for, hvor t er værdien i formel (3) t > t ( f ) α p < α 94
APPENDIX 0.4. Oversigt over test af varianser APPENDIX 0.4 σ σ for normalfordelte variable. og X og X er normalfordelte henholdsvis n( µ, σ) og n( µ, σ). Givet stikprøver af X og X. Størrelse, gennemsnit og spredning henholdsvis n, x, s og n, x, s. Signifikans- niveau er α ( n ) s + n ( x µ ) n og kendte: F = Formel (), Q er F - fordelt Fn (., n) ( n ) s + n ( x µ ) n ( ) µ µ ( ) µ og µ ukendte: F s Formel (), Q er F - fordelt Fn ( n, ) s = ( n ) s + n ( x µ ) µ kendt og µ ukendt: F = Formel (3), Q er F - fordelt s n Oversigt der forudsætter benyttelse af F - tabel Fn (, n ) Forudsætn. Nulhypotese Beregning H 0 forkastes og µ µ H 0 :σ σ H:σ > σ F beregnes af formel () F > F α ( n, n ) kendte H 0 :σ σ H:σ < σ F beregnes af formel () F < F ( n, α n ) H 0 :σ = σ H:σ σ F beregnes af formel () F > F ( n, n ) eller F < α F ( n, n ) α og µ µ H 0 :σ σ H:σ > σ F beregnes af formel () F > F ( n, α n ) ukendte H 0 :σ σ H:σ < σ F beregnes af formel () F < F ( n, α n ) H 0 :σ = σ H:σ σ F beregnes af formel () F > F ( n, n ) α eller F < F n n α (, ) µ kendt H 0 :σ σ H:σ > σ F beregnes af formel (3) F > F ( n, α n ) ukendt µ H 0 :σ σ H:σ < σ F beregnes af formel (3) F < F α ( n, n ) H 0 :σ = σ H:σ σ F beregnes af formel (3) F > F α ( n, n ) eller F < F α ( n, n ) 95
APPENDIX 0.4 APPENDIX 0.4 (fortsat) Oversigt til beregning af P-værdier. Forudsætter lommeregner/statistikprogram med F - fordeling. (( n ) s + n ( x µ ) ) n µ og µ kendte: F = Formel (4), Q er F - fordelt Fn (., n) (( n ) s + n ( x µ ) ) n µ og µ ukendte: F s Formel (5), Q er F - fordelt Fn ( n, ) s = ( n ) s + n ( x µ ) µ kendt og µ ukendt: F = Formel (6), Q er F - fordelt s n Fn (, n ) Forudsætn. Nulhypotese Beregning H 0 forkastes og µ µ H 0 :σ σ H:σ > σ p= P( Q F), hvor F er værdien i formel (4) p < α kendte H 0 :σ σ H:σ < σ p= P( Q F), hvor F er værdien i formel (4) H 0 :σ = σ H:σ σ p= P( Q F) p= P( Q F) for F > for F <, hvor F er værdien i formel (4) p < α og µ µ H 0 :σ σ H:σ > σ p= P( Q F), hvor F er værdien i formel (5) p < α ukendte H 0 :σ σ H:σ < σ p= P( Q F), hvor F er værdien i formel (5) H 0 :σ = σ H:σ σ p= P( Q F) p= P( Q F) for F > for F <, hvor F er værdien i formel (5) p < α µ kendt H 0 :σ σ H:σ > σ p= P( Q F), hvor F er værdien i formel (6) p < α ukendt µ H 0 :σ σ H:σ < σ p= P( Q F), hvor F er værdien i formel (6) H 0 :σ = σ H:σ σ p= P( Q F) p= P( Q F) for F > for F <, hvor F er værdien i formel (6) p < α 96
APPENDIX 0.5. Oversigt over test af parametre p og p for binomialfordelte variable. APPENDIX 0.6 X og X er binomialfordelt henholdsvis bn (, p) og bn (, p ), hvor n og n er kendte og p og p ukendte. Observerede stikprøveværdier x og x. Signifikansniveau er α. Forudsætning: Nulhypotese Metode Beregning H 0 forkastes Approksimativ ~ p ~ p u = Formel () metode Enten tabelmetode ~ p p og p ( ~ u > u α p ) + H0: p p n n ukendte. n ~ p [ 5; n 5] n ~ H: p > p p [ 5; n 5] hvor ~ x p ~ n og p x = = n hvor eller P-værdi P-værdi = Φ ( u), Formel () P-værdi < α ~ x + x p = n + n. hvor u er værdien i formel () H0: p p H: p < p H0: p = p H: p p Enten tabelmetode u beregnes af formel () u < u α eller P - værdi P-værdi = Φ ( u), Formel (3) hvor u er værdien i formel () P-værdi < α Enten tabelmetode u beregnes af formel () u > u eller P-værdi Hvis ~ p ~ pså formel () Hvis ~ p < ~ p så formel (3) α P-værdi < α 97
APPENDIX 0.6. Oversigt over test af parameter µ og µ for Poissonfordelt variable. p( µ ) p( µ ) µ µ gennemsnit x og n med gennemsnit x. Signifikansniveau er α. X og X er Poissonfordelte variable fordelt og hvor og er ukendte. Der foreligger to stikprøver af størrelsen n med Forudsætning Nulhypotese Metode Beregning H 0 forkastes Approksimativ x x u = metode Enten tabelmetode u > u α µ og µ Formel () H 0 :µ µ x + n n ukendte. H: µ > µ n x+ n x n x 5 og hvor x =. n + n n x 5 H 0 :µ µ H: µ < µ eller P-værdi P-værdi = Φ ( u), Formel () hvor u er værdien i formel () p < α Enten tabelmetode u beregnes af formel () u < u α eller P - værdi P -værdi = Φ ( u), Formel (3) hvor u er værdien i formel () p < α APPENDIX 0.6 H 0 :µ = µ 0 H: µ µ Enten tabelmetode u beregnes af formel () u > u eller P-værdi Hvis x x så formel () Hvis x < x så formel (3) α P-værdi < α 98
Appendix. APPENDIX.. Formler til beregning af enkelt regressionsanalyse uden gentagelser. I dette appendix vises hvorledes man kan beregne en enkelt regressionsanalyse uden gentagelser, blot man har en lommeregner med regressionsprogram. I eksempel.5 er formlerne anvendt på et konkret eksempel. Forudsætning: Data : x x x x 3... x N y y y y 3... y N De N - værdier er uafhængige observationer af statistisk uafhængig normalfordelte variable Y i med samme varians σ. Det antages endvidere at man har fundet, at data kan beskrives ved en lineær model. Vi har derfor at middelværdien af den statistiske variable Y er en lineær funktion af x af formen EYx ( )= β0 + βx Beregninger: ) De N punktpar indtastes i lommeregner. Regressionsprogram aktiveres, og blandt beregnede størrelser findes Estimater for: regressionskoefficienter: ~ β ~ 0 og β. Korrelationskoefficient r. Gennemsnit x og y. Spredning s x og s y. ) Udfylder variansanlysetabel: Udregner SAK total = ( N ) s y, SAKregression = r SAKtotal og SAK = SAK SAK. residual total model Variation (Source) SAK (SS) f (df) s = SAK f F Regression SAK regression s regression SAKregression = F regression s = s regression residual Residual SAK residual N - s residual = SAK residual N Total SAK total N - 99
Appendix. Test: Lad α være signifikansniveau. ) H : Regressionslinien er vandret H : y er uafhængig af x H : Model = 0 H : β = 0 0 0 0 0 Fmodel > F (, α N ) H 0 forkastes, hvis, eller hvis P - værdi = PZ ( < Fregression) < α, hvor Z er F - fordelt ( ft, fn ) = (, N ). ) H0:β = a, hvor a er en given konstant. SAK ~ ~ s ~ Beregner hjælpestørrelserne SAK = regression, V ( ) residual β =, β a x ~ SAK t = x ~ ~ β V β ( ) ( ) H 0 forkastes, hvis t > t α ( N ) (for a = 0 kan denne test erstatte F - testen) 3) H0:β 0 = b hvor b er en given konstant. Beregner hjælpestørrelserne ~ ~ V( ) s x ~ β 0, β0 b =. residual + t = N SAKx ~ ~ V β H 0 forkastes, hvis t > t α ( N ) ( ) 0 Konfidensinterval for : ~ ~ ~ ~ ~ ~ β β t α( N ) V( β ) ; β + t α( N ) V( β ) ~ Til en given x - værdi er µ et estimat for middelværdien µ for Y. ~ ~ ~ µ = β + β x ~ 0 og ( ~ ( ) V ) x x µ = sresidual +. N SAK Konfidensinterval for : µ ~ µ t α( N ) V( µ ) µ + t α( N ) V( µ ) x ~ ~ ; ~ ~ ~ Prædiktionsinterval: (Konfidensinterval) for ny observation for en given x - værdi: ~ x x ( ) µ t ( ) ; µ ( ), hvor. α N Q + t α N Q Q = sresidual + + N SAKx 00
Appendix. APPENDIX.. Formler til beregning af enkelt regressionsanalyse med lige mange gentagelser Forudsætning: Data : x x x x 3... x k y y y... y n y y... y n y 3 y 3... y 3n... y k y k... y kn y ij - værdierne er uafhængige observationer af statistisk uafhængig normalfordelte variable Y i. For hver af de k x - værdier er der lige mange gentagelser n af y - værdier, dvs. i alt N=n k observationer. Beregninger: ) For hver x - værdi x i indtastes de n y-værdier, og man beregner spredningen s i. Man tester om der er varianshomogenitet (se evt. under punkt d). Hvis det er tilfældet beregnes et estimat s + s +... + sk for den fælles varians s0 =. s0 har k( n ) = N k frihedsgrader. k ) De N=n k punktpar ( xi, yij) indtastes i lommeregner. Regressionsprogram aktiveres, og blandt beregnede størrelser anvendes følgende estimater: Regressionskoefficienter: ~ β ~ 0 og β, korrelationskoefficient r, gennemsnit x. og spredning s y. 3) Man udregner SAK total = ( N ) s y, SAKregression = r SAKtotal og SAK0 = ( N k) s0 4) Udfylder variansanlysetabel: SAKlack of fit = SAKtotal SAKregression SAK0 Variation (Source) SAK (SS) f (df) s = SAK f F Model SAK regression s regression SAK = regression F regression s = s regression pool Lack of fit SAK lack of fit k - s lack of fit = SAK lackof fit k F lack of fit = s lack of fit s 0 Gentagelser SAK 0 N - k Total SAK total N - s SAK = N k 0 0 0
Appendix. Test: Lad α være signifikansniveau. a) H 0 : Lineær model gælder H 0 :( x i, µ i ) ligger på en ret linie H 0 :Residual for gennemsnitspunkter = 0. H 0 forkastes, hvis Flack of fit > F α ( k, N k), eller hvis P - værdi = PZ ( > Flack of fit ) < α, hvor Z er F - fordelt ( ft, fn ) = ( k, N k). Såfremt H 0 accepteres (og et residualplot også virker rimelig) fortsætter testningen: b) Derefter testes H0: Regressionslinien er vandret H0: y er uafhængig af x H0: Regression = 0 H0: β = 0 Da såvel s0 som s residual nu er et udtryk for forsøgsfejlens varians σ, foretages en pooling: ( N k) s k s SAK SAK 0 + ( ) lack of fit 0 + lack of fit s, pool = = N N og F model beregnes (se variansanalysetabel. H 0 forkastes, hvis Fmodel > F (, α N ), eller hvis P - værdi = PZ ( > Fregression ) < α, hvor Z er F - fordelt ( ft, fn ) = (, N ). c) H0:β = a. hvor a være en given konstant. Beregner hjælpestørrelserne SAK = SAK ~ ~ s regression, V ( ) pool β a β =, t = x ~ SAK x ~ ~ V β H 0 forkastes, hvis Konfidensinterval for : t > t α ( N ) ( ) β (for a = 0 kan denne test erstatte F - testen) ~ ~ ~ ~ ~ ~ β β t α( N ) V( β ) ; β + t α( N ) V( β ) ~ Til en given x - værdi er µ et estimat for middelværdien for Y. ~ ~ ~ Beregner hjælpestørrelserne µ = β + β x ~ 0, ( ~ ( ) V ) x x µ = spool +,. N SAK x Konfidensinterval for µ ~ ~ : ( ) ~ ( ) ; ~ ~ ( ) ~ µ t α N V µ µ + t α N V( µ ) Prædiktionsinterval (Konfidensinterval) for ny observation for en given x - værdi: ( ) ~ x x µ t ( ) ; µ ( ), hvor α N Q + t α N Q Q = s pool + + N SAKx H : σ = σ =... = σ σ 0 k d) Test for at de variable Y i har samme varians Simplificeret F-test, Bartletts test og Levines test (se appendix.) ( ) 0
APPENDIX.3. Transformation til lineær model. Nr Model Kommentar Linear model: Y = a + b*x Exponential model: Y = exp(a + b*x) a+ bx Y = e a bx = e e ln( Y) = a + bx Sættes Z =ln(y) fås Z= a+b X 3 Reciprocal-Y model: Y = l/(a + b*x) Y = = a+ b X a + b X Y 4 Reciprocal-X model: Y = a + b/x 5 Double reciprocal model: Y = l/(a + b/x) Sættes Z = fås Z= a+b X Y Appendix.3 b Y = a+. Sættes W = fås Y= a+b W X X Y = = a+ b b a + Y X X = Sættes Z = og W fås Z= a+b W Y X 6 Logarithmic-X model: Y = a + b*ln(x) Sættes W = ln(x) fås Y= a+b W 7 Multiplicative model: Y = a*x^b b Y = a X ln( Y) = ln( a) + b ln( X) Sættes Z = ln(y) og W = ln(x) fås Z= a+b W 8 Square root-x model: Y = a + b*sqrt(x) 9 Square root-y model: Y = (a + b*x)^ 0 S-curve model: Y = exp(a + b/x) Y = a + b X. Sættes W = X fås Y= a+b W ( ) Y = a+ b X Y = a+ b X Sættes Z = Y fås Z= a+b X a+ b X Y = e ln( Y) = a+ b X Logistic model: Y = exp(a + b*x)/(l + exp(a + b*x)) Log probit model: Y = normal(a + b*ln(x)) Sættes Z = ln(y) og W = fås Z= a+b W X a+ bx e Y = + a bx + a bx = + + ln e Y Sættes Z = fås Z= a+b X Y + ln Y = a+ b X Φ( ln( )) Φ ( Y) = a+ b ln( X) Sættes Z = Φ ( Y) og W=ln(X) fås Z= a+b W 03
Appendix. APPENDIX.. Formler til beregning af ensidet variansanalyse I dette appendix vises hvorledes man kan beregne en ensidet variansanalyse, blot man har en lommeregner der kan beregne gennemsnit og spredning. For hvert observationssæt udregnes gennemsnit og spredning. Faktor Observationer Gennemsnit Spredning R x, x, x 3,..., x n x. s R x, x, x 3,..., x n x. s R 3 x 3, x 3, x 33,..., x 3n x 3. s 3 R r x r, x r, x r3,..., x r n x r. s r Forudsætning: x ij - værdierne er uafhængige observationer af statistisk uafhængig normalfordelte variable X i med middelværdi µ i og samme varians σ. For hver af de r - faktorniveauer er der lige mange gentagelser n af x - værdier, dvs. i alt N = n r observationer. Beregninger: s s sr Man beregner s + +... + 0 =. SAK0 = ( N r) s0. r s har r( n ) = N r frihedsgrader. 0 Man indtaster de r gennemsnit x., x.,..., x r. i lommeregneren og finder spredningen s x. s = n s SAK = ( n ) s R x SAKtotal = SAK0 + SAKR Udfylder variansanlysetabel: Variation (Source) R SAK (SS) R f (df) x x R x (alternativt: SAK = ( n ) s, SAK = n SAK ) s = SAK f F P - værdi Behandlinger (Between groups) SAK R r - s R = SAKR r F R = s s R 0 Gentagelser (Within groups) SAK 0 N - r Total SAK total N - s SAK = N r 0 0 04
Appendix. Model. Ladα være signifikansniveau. µ + µ +... + µ n Lad µ. =. r Vi kan da skrive µ = µ. + ( µ µ.) = µ. + R = µ. + Rækkevirkning i i i Testprocedure. Nulhypotese: H : µ = µ =... = µ H : R= 0 r 0 0 H 0 forkastes, hvis FR > F α ( r, N r), eller hvis P - værdi = PZ ( > FR ) < α, hvor Z er F - fordelt. Konfidensinterval for : LSD Konfidensinterval for : Varianshomogenitet. ( ft, f N ) = ( r, N r) s0 µ i xi. t α ( N r) ; xi. + t α ( N r) n H 0 s 0 n s s 0 0 µ i xi. t α ( N r) ; xi. + t α ( N r) n n : σ σ... σ = = = Test for, at de variable Y i har samme varians σ k σ max σ min a) Simplificeret F - test. Lad den største værdi af de k varianser være og den mindste være. max F = σ σ Beregn teststørrelsen. min F < F f f H 0 accepteres, hvis α ( max, min ). Hvis nulhypotesen accepteres, så antages kravet om varianshomogenitet at være opfyldt. Hvis nulhypotesen forkastes, må anvendes en test med større styrke. Levines test (se appendix.) er god og beregningsmæssig ret enkel, men kræver mere end gentagelser. 05
Appendix. b) Bartletts test (se nedenfor) er beregningsmæssigt vanskelig, og har den svaghed, at den er særdeles følsom overfor afvigelser fra normalitet. Bartletts test. H : σ = σ =... = σ accepteres, hvis χ χ095. ( k ). 0 k k ( ni ) si i= ( N k) ln ( ni ) ln( si ) N k χ = k. N k i= ni 3( k ) c) Levines test. God test, som imidlertid kræver mere end gentagelser.(andre test se appendix.) Lad d y y hvor i =,,..., k ij = ij $ i, hvor $y er medianen af de gentagelser af i te behand- j =,,..., n i n i i ling. Man udfører en sædvanlig ensidet variansanlyse på tallene d ij Median: Tallene ordnes i voksende rækkefølge: Ulige antal tal: median = midtertal blandt de ordnede tal, Lige antal tal: median = genemsnit af de to midterste blandt de ordnede tal Eksempel: Tal fra eksempel.. $y i d ij T 08, 0, 0, 0, T 05, 0, 09 09 4,, 0 T 3 08,, 3 3, 0, T 4 7, 9, 7 0,, 5 d ij En ensidet variansanlyse på giver F = 0.5, og dermed P -værdi = 0.985, dvs. en accept af nulhypotesen. 06
Appendix. APPENDIX.. Formler til beregning af tosidet variansanalyse I dette appendix vises hvorledes man kan beregne en tosidet variansanalyse, blot man har en lommeregner med gennemsnit og spredning. Som taleksempel benyttes eksempel.. Forsøgsresultaterne er følgende: Karburator Olieblanding K K O 830 860 80 840 O 940 990 050 00 O 3 855 85 930 90 Beregning af gennemsnit. Karburator K K Rækkegennemsnit O 845 85 835 Olieblanding O 965 035 000 O 3 835 90 877.5 Søjlesum 88.667 96.667 Antal rækker r = 3, Antal søjler q =, Antal delforsøg i celler n = Antal delforsøg i række = n q = = 4. Antal delforsøg i søjle n r = 3 = 6 Antal celler r q = 3 = 6, Totalt antal forsøg N = r q n = 3 =. Spredning på de r rækkegennemsnit: s xr = 85674. Spredning på de q søjlegennemsnit: s xq = 3898. Spredning på de r q cellegennemsnit: s celler = 84. 4048 Beregninger: SAK = ( N n q) s = ( 4) 85. 674 = 5876. 67, f = r = rækker xr xq SAKsøjler = ( N n r) s = ( 6) 3898. = 6075. 00, f C = q = SAKceller = ( N n) s celler = ( ) 84. 4048 = 7466., f celler = r q = 5 SAK = SAK SAK SAK = 6450. 00, f = f f f = vekselvirkning celler rækker søjle R RC celler R C SAK = ( N ) s = ( ) 8. 485 = 748466., f = N = total total total SAK = SAK SAK = 600. 00 f = f f = 6 0(=residual) total celler 0 total celler (alternativt: SAK SAK SAK rækker søjler celler = n q SAK x rækker, hvor SAK x rækker = ( r ) s = n r SAK x søjler, hvor SAK = ( q ) s x søjler = n SAK x celler, hvor SAKx celler = ( r q ) s celler xq xr 07
Appendix. Opstilling af variansanalysetabel: Variation SAK=SS f s = SAK f F Rækkefaktor R : Olieblanding 5876.67 f = R r = 9358.33 Søjlefaktor C :Karburator 6075.00 f = C q = 6075.00 Vekselvirkning R*C 6450.00 f = ( RC r )( q ) = 35.00 F RC = s s RC residual 8 =5.3 Residual 3600.00 fresidual = r q ( n ) = 6 600.00 Total 7484.67 ftotal = N = Test: Lad α være signifikansniveau. ) H0: R* C = 0 ( Ingen signifikant vekselvirkning) H 0 forkastes, hvis FRC > F α ( frc, f0), eller hvis P - værdi = PZ ( > F RC ) < α, hvor Z er F - fordelt ( ft, f N) = ( frc, f0 ). a) Hvis H 0 forkastes, så opstilles konfidensintervaller til nærmere vurdering af faktorernes virkning. b) Hvis H 0 accepteres, antages, at der ikke er nogen signifikant vekselvirkning, og man pooler de to varianser sammen, til et nyt estimat for forsøgsfejlens variation (støjen). s m = SAK f RC RC + SAK + f residual residual med f = f + f m RC residual Dette estimat benyttes så til en samtidig vurdering af hovedvirkningerne. b.) H : R = ( Ingen signifikant virkning af rækkefaktor) 0 0 H 0 forkastes, hvis F R sr = > F α fr fm s (, ) m eller hvis P - værdi = PZ ( > F R ) < α, hvor Z er F - fordelt ( ft, f N) = ( fr, fm). Hvis H 0 forkastes, så opstilles konfidensintervaller til vurdering af faktorerens virkning. b.) H : C = ( Ingen signifikant virkning af søjlefaktor) 0 0 sc H 0 forkastes, hvis FC = > F fc fm s (, ) α m eller hvis P - værdi = PZ ( > F C ) < α, hvor Z er F - fordelt ( ft, f N) = ( fc, fm). Hvis H 0 forkastes, så opstilles konfidensintervaller til vurdering af faktorerens virkning. 08
Opstilling af konfidensintervaller og drage konklusion. Lad være gennemsnittet af værdierne i cellen i i te række og j te søjle. Lad Lad x ij x i. være gennemsnittet af værdierne i den i te række. x. j være gennemsnittet af værdierne i den j te søjle. R* C 0. Appendix. ) Konfidensintervaller for hver celle: x t r q n, sn x t r q n s 0 0 ij α ( ( )) ; ij + α ( ( )) n ) R* C = 0 R 0 C 0: For celle i i te række og j te søjle er den estimerede middelværdi ~ µ ij = x i. + x. j x.. (jævnfør betragtningerne i afsnit.3.. side 59.) Konfidensintervaller for hver celle: ~ ( r + q ) ( ) ; ~ ( r + q ) µ ij t α N r q + sm µ ij + t α ( N r q + ) sm N N Det giver et bedre overblik, hvis man udregner de marginale konfidensintervaller: s Konfidensintervaller for hver række: x t N r q n q x t N r q s m m i. α ( + ) ; i. + α ( + ) n q s Konfidensintervaller for hver søjle: x t N r q n r x t N r q s m m. j α ( + ) ;. j + α ( + ) n r 3) R* C = 0 R 0 C = 0: For hver række i beregnes et rækkegennemsnit x i. SAK SAK SAK residual + RC + C sm =, fm = fresidual + frc + fc = N r fresidual + frc + fc s Konfidensintervaller for hver række: x t N r n q x t N r s m m i. α ( ) ; i. + α ( ) n q Kort skrivemåde for, at H : R* C = forkastes. 0 0 Kort skrivemåde for, at H : R* C = accepteres 0 0 09
Appendix. 4) R* C = 0 R = 0 C 0: For hver søjle j beregnes et søjlegennemsnit x. j SAK SAK SAK residual + RC + R sm =, fm = fresidual + frc + fr = N q fresidual + frc + fr Konfidensintervaller for hver søjle: x t N q sn r x t N q s m m. j α ( ) ;. j + α ( ) n r 0
Appendix 3. APPENDIX 3.. χ - test af hypotese om multinominale sandsyn- ligheder ( variabel). H0: p = c, p = c,..., pk = ck mod den alternative H: Mindst én af sandsynlighederne afviger fra den angivne værdi i nulhypotesen. Lad Oi = ni være den observerede værdi i den i te klasse, n = n + n +... + n k den totale stikprøvestørrelse og Forudsat H 0 er sand beregnes de forventede værdier Ei = n ci (E =expected values) i den i te klasse Resultatet opstilles i det følgende skema: Klasse nr... k Observerede værdier O i n n n k Forventede værdier E i E = n c E = n c E = n c k k k Teststørrelse: χ = i= ( E ) k O i E i i Forudsætning: χ er approksimativt χ - fordelt med et frihedsgradstal på k -, hvis ingen af klasserne har en forventet værdi under, og mindst 80% af klasserne har en forventet værdi over 5. H 0 forkastes hvis χ > ( f ), hvor f = k - χ α Hvis man for at kunne beregne de forventede værdier først må benytte de observerede værdier til at beregne m parametre, så bliver f = k - - m. jævnfør eksempel 3..
Appendix 3. APPENDIX 3.. χ - test af hypotese i -vejs tabel. Som illustration af metoden benyttes en generalisation af det i eksempel 3.3 omtalte forsøg med at undersøge om der er uafhængighed mellem opnåede matematik- og fysik-karakterer. X = antal studerende med opnået matematikkarakter X = antal studerende med opnået fysikkarakterer Vi ønsker at teste nulhypotesen: H 0 : X og X er statistisk uafhængige. Den følgende tabel viser symbolikken, hvor n ij angiver antal studerende, der har opnået den til klassen k ij svarende karakter. Observerede værdier Søjlefaktor C (Fysikkarakterer) Opdeling... q Marginalt antal Rækkefaktor R (Matematikka rakterer) n n... n q d n n... n q d.................. r n r n r... n rq d r Marginalt antal c c... c q n Tilsvarende angiver p ij den tilsvarende sandsynlighed for at få den til cellen k ij svarende karakter. Observerede værdier Søjlefaktor C (Fysikkarakterer) Opdeling... q Marginal sandsynlighe d Rækkefaktor R (Matematikka rakterer) p p... p q p d p p... p q p d.................. r p r p r... p rq p rd Marginal sandsynlighed p c p c... p cq Vi ser således, at de marginale sandsynligheder er pid = pi + pi +... + piq og pcj = pj + p j +... + prj. Det antages, at udfaldene er uafhængige. At dette så er et multinomialt eksperiment ses af, at der er n udfald, r q klasser og sandsynligheden for hver klasse er vist i ovenstående tabel.
Appendix 3. Forudsat nulhypotesen er sand, vil der ifølge sandsynlighedsregningens produktsætning gælde, at pid pcj = pij Det forventede antal i klasse k ij er derfor Eij = n pid pcj Nu kendes de sande marginale sandsynligheder ikke, men vi kan estimere dem med d p$ $ n og p c i j id = cj = n E n d c d c ij = = n n n i j i j q r. Vi har derfor = (række i total) (søjle j total). total antal i stikprøven ( Oji Eij ) Teststørrelse: χ = j= i= Eij Da antallet af klasser er r q og vi primært har estimeret q - marginale rækkesandsynligheder og r - marginale søjlesandsynligheder (da summen af rækkesandsynlighederne = summen af søjlesandsynlighederne = ) er frihedsgradstallet f = r q ( r ) ( q ) = r q r q + = ( r )( q ) χ χ f r q Forudsætning: er approksimativt - fordelt med et frihedsgradstal på = ( ) ( ), hvis ingen af klasserne har en forventet værdi under, og mindst 80% af klasserne har en forventet værdi over 5. Nulhypotesen forkastes, hvis χ > χ α (f) hvor f = (r ) (q ) 3
Statistiske tabeller STATISTISKE TABELLER 4
Tabel :Normalfordelingen Tabel Fordelingsfunktionen Φ for U-fordelingen n( 0, ). t u Φ ( u) = P( U u) = e dt π Eksempler: Φ( 97. ) =0.044 og Φ( 97. ) =0.9756 Φ ( u) u 0.00 0.0 0.0 0.03 0.04 0.05 0.06 0.07 0.08 0.09-3.4-3.3-3. -3. -3.0 -.9 -.8 -.7 -.6 -.5 -.4 -.3 -. -. -.0 -.9 -.8 -.7 -.6 -.5 -.4 -.3 -. -. -.0-0.9-0.8-0.7-0.6-0.5-0.4-0.3-0. -0. -0.0 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.000 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005 0.000 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007 0.004 0.003 0.003 0.00 0.00 0.00 0.00 0.00 0.000 0.000 0.009 0.008 0.008 0.007 0.006 0.006 0.005 0.005 0.004 0.004 0.006 0.005 0.004 0.003 0.003 0.00 0.00 0.00 0.000 0.009 0.0035 0.0034 0.0033 0.003 0.003 0.0030 0.009 0.008 0.007 0.006 0.0047 0.0045 0.0044 0.0043 0.004 0.0040 0.0039 0.0038 0.0037 0.0036 0.006 0.0060 0.0059 0.0057 0.0055 0.0054 0.005 0.005 0.0049 0.0048 0.008 0.0080 0.0078 0.0075 0.0073 0.007 0.0069 0.0068 0.0066 0.0064 0.008 0.004 0.00 0.0099 0.0096 0.0094 0.009 0.0089 0.0087 0.0084 0.039 0.036 0.03 0.09 0.06 0.0 0.09 0.06 0.03 0.00 0.079 0.074 0.070 0.066 0.06 0.058 0.054 0.050 0.046 0.043 0.08 0.0 0.07 0.0 0.007 0.00 0.097 0.09 0.088 0.083 0.087 0.08 0.074 0.068 0.06 0.056 0.050 0.044 0.039 0.033 0.0359 0.035 0.0344 0.0336 0.039 0.03 0.034 0.0307 0.030 0.094 0.0446 0.0436 0.047 0.048 0.0409 0.040 0.039 0.0384 0.0375 0.0367 0.0548 0.0537 0.056 0.056 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455 0.0668 0.0655 0.0643 0.0630 0.068 0.0606 0.0594 0.058 0.057 0.0559 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.07 0.0708 0.0694 0.068 0.0968 0.095 0.0934 0.098 0.090 0.0885 0.0869 0.0853 0.0838 0.083 0.5 0.3 0. 0.093 0.075 0.056 0.038 0.00 0.003 0.0985 0.357 0.335 0.34 0.9 0.7 0.5 0.30 0.0 0.90 0.70 0.587 0.56 0.539 0.55 0.49 0.469 0.446 0.43 0.40 0.379 0.84 0.84 0.788 0.76 0.736 0.7 0.685 0.660 0.635 0.6 0.9 0.090 0.06 0.033 0.005 0.977 0.949 0.9 0.894 0.867 0.40 0.389 0.358 0.37 0.97 0.66 0.36 0.06 0.77 0.48 0.743 0.709 0.676 0.643 0.6 0.578 0.546 0.54 0.483 0.45 0.3085 0.3050 0.305 0.98 0.946 0.9 0.877 0.843 0.80 0.776 0.3446 0.3409 0.337 0.3336 0.3300 0.364 0.38 0.39 0.356 0.3 0.38 0.3783 0.3745 0.3707 0.3669 0.363 0.3594 0.3557 0.350 0.3483 0.407 0.468 0.49 0.4090 0.405 0.403 0.3974 0.3936 0.3897 0.3859 0.460 0.456 0.45 0.4483 0.4443 0.4404 0.4364 0.435 0.486 0.447 0.5000 0.4960 0.490 0.4880 0.4840 0.480 0.476 0.47 0.468 0.464 5
Statistiske tabeller Tabel (fortsat) Fordelingsfunktionen Φ for U-fordelingen n( 0, ). t u Φ ( u) = P( U u) = e dt π Φ ( u) u 0.00 0.0 0.0 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0. 0. 0.3 0.4 0.5 0.6 0.7 0.8 0.9.0...3.4.5.6.7.8.9.0...3.4.5.6.7.8.9 3.0 3. 3. 3.3 3.4 0.5000 0.5040 0.5080 0.50 0.560 0.599 0.539 0.579 0.539 0.5359 0.5398 0.5438 0.5478 0.557 0.5557 0.5596 0.5636 0.5675 0.574 0.5753 0.5793 0.583 0.587 0.590 0.5948 0.5987 0.606 0.6064 0.603 0.64 0.679 0.67 0.655 0.693 0.633 0.6368 0.6406 0.6443 0.6480 0.657 0.6554 0.659 0.668 0.6664 0.6700 0.6736 0.677 0.6808 0.6844 0.6879 0.695 0.6950 0.6985 0.709 0.7054 0.7088 0.73 0.757 0.790 0.74 0.757 0.79 0.734 0.7357 0.7389 0.74 0.7454 0.7486 0.757 0.7549 0.7580 0.76 0.764 0.7673 0.7703 0.7734 0.7764 0.7794 0.783 0.785 0.788 0.790 0.7939 0.7967 0.7995 0.803 0.805 0.8078 0.806 0.833 0.859 0.886 0.8 0.838 0.864 0.889 0.835 0.8340 0.8365 0.8389 0.843 0.8438 0.846 0.8485 0.8508 0.853 0.8554 0.8577 0.8599 0.86 0.8643 0.8665 0.8686 0.8708 0.879 0.8749 0.8770 0.8790 0.880 0.8830 0.8849 0.8869 0.8888 0.8907 0.895 0.8944 0.896 0.8980 0.8997 0.905 0.903 0.9049 0.9066 0.908 0.9099 0.95 0.93 0.947 0.96 0.977 0.99 0.907 0.9 0.936 0.95 0.965 0.979 0.99 0.9306 0.939 0.933 0.9345 0.9357 0.9370 0.938 0.9394 0.9406 0.948 0.9430 0.944 0.945 0.9463 0.9474 0.9485 0.9495 0.9505 0.955 0.955 0.9535 0.9545 0.9554 0.9564 0.9573 0.958 0.959 0.9599 0.9608 0.966 0.965 0.9633 0.964 0.9649 0.9656 0.9664 0.967 0.9678 0.9686 0.9693 0.9700 0.9706 0.973 0.979 0.976 0.973 0.9738 0.9744 0.9750 0.9756 0.976 0.9767 0.9773 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.98 0.987 0.98 0.986 0.9830 0.9834 0.9838 0.984 0.9846 0.9850 0.9854 0.9857 0.986 0.9865 0.9868 0.987 0.9875 0.9878 0.988 0.9884 0.9887 0.9890 0.9893 0.9896 0.9898 0.990 0.9904 0.9906 0.9909 0.99 0.993 0.996 0.998 0.990 0.99 0.995 0.997 0.999 0.993 0.993 0.9934 0.9936 0.9938 0.9940 0.994 0.9943 0.9945 0.9946 0.9948 0.9949 0.995 0.995 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.996 0.996 0.9963 0.9964 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.997 0.997 0.9973 0.9974 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.998 0.998 0.998 0.9983 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 0.9990 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.9993 0.9993 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 6
Tabel :Fraktiler i normalfordelingen Tabel Fraktiler u p i U-fordelingen n( 0, ). PU ( u ) = p. Bemærk: u p = - u - p p p 0.0005 0.00 0.005 0.0 0.05 0.05 0.0 u p -3.9-3.090 -.576 -.36 -.960 -.645 -.8 p 0.90 0.95 0.975 0.99 0.995 0.999 0.9995 u p.8.645.960.36.576 3.090 3.9 Eksempler: u 0.975 =.960 7
Statistiske tabeller Tabel 3 Fraktiler i χ p -fordelingen χ ( f ). P( χ χ ) = p χ = U + U +... + U f,, hvor U, U,...,. ( ) U f Approksimativ formel: χ p ( f ) = f + u p for f > 30 p f 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 0 4 6 8 30 3 34 36 38 40 45 50 60 70 80 90 00 0 0 30 40 50 60 80 00 300 400 500 000 p 0.0005 0.00 0.005 0.0 0.05 0.05 0.0 0.0 0.50 0.000 0.000 0.000 0.000 0.00 0.004 0.06 0.064 0.455 0.00 0.00 0.00 0.00 0.05 0.03 0. 0.446.39 0.05 0.04 0.07 0.5 0.6 0.35 0.584.0.37 0.064 0.09 0.07 0.97 0.484 0.7.06.65 3.36 0.58 0.0 0.4 0.554 0.83.5.6.34 4.35 0.99 0.38 0.676 0.87.4.64.0 3.07 5.35 0.485 0.598 0.989.4.69.7.83 3.8 6.35 0.70 0.857.34.65.8.73 3.49 4.59 7.34 0.97.5.73.09.70 3.33 4.7 5.38 8.34.6.48.6.56 3.5 3.94 4.87 6.8 9.34.59.83.60 3.05 3.8 4.57 5.58 6.99 0.3.93. 3.07 3.57 4.40 5.3 6.30 7.8.3.3.6 3.57 4. 5.0 5.89 7.04 8.63.3.70 3.04 4.07 4.66 5.63 6.57 7.79 9.47 3.3 3. 3.48 4.60 5.3 6.6 7.6 8.55 0.3 4.3 3.54 3.94 5.4 5.8 6.9 7.96 9.3. 5.3 3.98 4.4 5.70 6.4 7.56 8.67 0..0 6.3 4.44 4.90 6.6 7.0 8.3 9.39 0.9.9 7.3 4.9 5.4 6.84 7.63 8.9 0..7 3.7 8.3 5.40 5.9 7.43 8.6 9.59 0.9.4 4.6 9.3 6.40 6.98 8.64 9.54.0.3 4.0 6.3.3 7.45 8.08 9.89 0.9.4 3.8 5.7 8. 3.3 8.54 9... 3.8 5.4 7.3 9.8 5.3 9.66 0.4.5 3.6 5.3 6.9 8.9.6 7.3 0.8.6 3.8 5.0 6.8 8.5 0.6 3.4 9.3.0.8 5. 6.4 8.3 0..3 5. 3.3 3. 4. 6.5 7.8 9.8.7 4.0 6.9 33.3 4.4 5.3 7.9 9..3 3.3 5.6 8.7 35.3 5.6 6.6 9.3 0.7.9 4.9 7.3 30.5 37.3 6.9 7.9 0.7. 4.4 6.5 9. 3.3 39.3 0..3 4.3 5.9 8.4 30.6 33.4 36.9 44.3 3.5 4.7 8.0 9.7 3.4 34.8 37.7 4.4 49.3 30.3 3.7 35.5 37.5 40.5 43. 46.5 50.6 59.3 37.5 39.0 43.3 45.4 48.8 5.7 55.3 59.9 69.3 44.8 46.5 5. 53.5 57. 60.4 64.3 69. 79.3 5.3 54. 59. 6.8 65.6 69. 73.3 78.6 89.3 59.9 6.9 67.3 70. 74. 77.9 8.4 87.9 99.3 67.6 69.8 75.5 78.5 8.9 86.8 9.4 97.4 09 75.5 77.8 83.9 86.9 9.6 95.7 0 07 9 83.4 85.8 9. 95.4 00 05 0 6 9 9.4 93.9 0 04 09 4 9 6 39 99.5 0 09 3 8 3 8 35 49 08 0 8 7 3 37 45 59 4 7 35 39 45 50 56 64 79 4 44 5 56 63 68 75 83 99 6 30 4 46 54 6 69 79 99 33 38 33 337 346 355 364 376 399 403 408 4 49 440 449 460 473 499 859 868 889 899 94 98 943 96 999 8
Tabel 3:Fraktiler i Chi-i - anden fordeling Tabel 3 (fortsat). Fraktiler i χ p -fordelingen χ ( f ). P( χ χ ) = p ( ) P( X 0,. 5) = 0. 975 χ 005. ( 30) = 85. Eksempler: For χ 0 er og p 0.80 0.90 0.95 0.975 0.99 0.995 0.999 0.9995 f p 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 0 4 6 8 30 3 34 36 38 40 45 50 60 70 80 90 00 0 0 30 40 50 60 80 00 300 400 500 000.64.7 3.84 5.0 6.63 7.88 0.8. 3. 4.6 5.99 7.38 9. 0.6 3.8 5. 4.64 6.5 7.8 9.35.3.8 6.3 7.7 5.99 7.78 9.49. 3.3 4.9 8.5 0.0 7.9 9.4..8 5. 6.7 0.5. 8.56 0.6.6 4.4 6.8 8.5.5 4. 9.80.0 4. 6.0 8.5 0.3 4.3 6.0.0 3.4 5.5 7.5 0..0 6. 7.9. 4.7 6.9 9.0.7 3.6 7.9 9.7 3.4 6.0 8.3 0.5 3. 5. 9.6 3.4 4.6 7.3 9.7.9 4.7 6.8 3.3 33. 5.8 8.5.0 3.3 6. 8.3 3.9 34.8 7.0 9.8.4 4.7 7.7 9.8 34.5 36.5 8.. 3.7 6. 9. 3.3 36. 38. 9.3.3 5.0 7.5 30.6 3.8 37.7 39.7 0.5 3.5 6.3 8.8 3.0 34.3 39.3 4.3.6 4.8 7.6 30. 33.4 35.7 40.8 4.9.8 6.0 8.9 3.5 34.8 37. 4.3 44.4 3.9 7. 30. 3.9 36. 38.6 43.8 46.0 5.0 8.4 3.4 34. 37.6 40.0 45.3 47.5 7.3 30.8 33.9 36.8 40.3 4.8 48.3 50.5 9.6 33. 36.4 39.4 43.0 45.6 5. 53.5 3.8 35.6 38.9 4.9 45.6 48.3 54. 56.4 34.0 37.9 4.3 44.5 48.3 5.0 56.9 59.3 36.3 40.3 43.8 47.0 50.9 53.7 59.7 6. 38.5 4.6 46. 49.5 53.5 56.3 6.5 65.0 40.7 44.9 48.6 5.0 56. 59.0 65. 67.8 4.9 47. 5.0 54.4 58.6 6.6 68.0 70.6 45. 49.5 53.4 56.9 6. 64. 70.7 73.4 47.3 5.8 55.8 59.3 63.7 66.8 73.4 76. 5.7 57.5 6.7 65.4 70.0 73. 80. 8.9 58. 63. 67.5 7.4 76. 79.5 86.7 89.6 69.0 74.4 79. 83.3 88.4 9.0 99.6 03 79.7 85.5 90.5 95.0 00 04 6 90.4 96.6 0 07 6 5 8 0 08 3 8 4 8 37 4 9 4 30 36 40 49 53 9 35 4 47 5 6 65 33 40 47 5 59 64 74 78 43 5 58 63 70 75 86 90 54 6 69 75 8 87 97 0 64 7 80 86 93 98 09 4 75 83 9 97 05 0 5 96 05 9 7 33 44 49 7 6 34 4 49 55 68 7 30 33 34 350 360 367 38 387 44 437 448 457 469 477 493 500 57 54 553 564 577 585 604 6 038 058 075 090 07 9 44 54 9
Statistiske tabeller Tabel 4 Fraktiler i t - fordelingen t( f ). t p ( X µ ) n PT ( tp) = p,hvor T = s Eksempler: For t (7) er P( X 34. ) = 0999.. t 0.95 ()=6.3. t 0.05 (0) = - t 0.95 (0) = -.8. f 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 30 40 50 60 80 00 0 00 500 p 0.60 0.75 0.90 0.95 0.975 0.99 0.995 0.999 0.9995 0.33.00 3.08 6.3.7 3.8 63.7 38 637 0.9 0.8.89.9 4.30 6.97 9.93.3 3.6 0.8 0.74.64.35 3.8 4.54 5.84 0..9 0.7 0.74.53.3.78 3.75 4.60 7.7 8.6 0.7 0.7.48.0.57 3.37 4.03 5.89 6.86 0.7 0.7.44.94.45 3.4 3.7 5. 5.96 0.6 0.7.4.90.37 3.00 3.50 4.79 5.4 0.6 0.7.40.86.3.90 3.36 4.50 5.04 0.6 0.70.38.83.6.8 3.5 4.30 4.78 0.6 0.70.37.8.3.76 3.7 4.4 4.59 0.6 0.70.36.80.0.7 3. 4.03 4.44 0.6 0.70.36.78.8.68 3.06 3.93 4.3 0.6 0.69.35.77.6.65 3.0 3.85 4. 0.6 0.69.35.76.5.6.98 3.79 4.4 0.6 0.69.34.75.3.60.95 3.73 4.07 0.6 0.69.34.75..58.9 3.69 4.0 0.6 0.69.33.74..57.90 3.65 3.97 0.6 0.69.33.73.0.55.88 3.6 3.9 0.6 0.69.33.73.09.54.86 3.58 3.88 0.6 0.69.33.73.09.53.85 3.55 3.85 0.6 0.69.3.7.08.5.83 3.53 3.8 0.6 0.69.3.7.07.5.8 3.5 3.79 0.6 0.69.3.7.07.50.8 3.49 3.77 0.6 0.69.3.7.06.49.80 3.47 3.75 0.6 0.68.3.7.06.49.79 3.45 3.73 0.6 0.68.3.7.06.48.78 3.44 3.7 0.6 0.68.3.70.05.47.77 3.4 3.69 0.6 0.68.3.70.05.47.76 3.4 3.67 0.6 0.68.3.70.05.46.76 3.40 3.66 0.6 0.68.3.70.04.46.75 3.39 3.65 0.6 0.68.30.68.0.4.70 3.3 3.55 0.6 0.68.30.68.0.40.68 3.6 3.50 0.5 0.68.30.67.00.39.66 3.3 3.46 0.5 0.68.9.66.99.37.64 3.0 3.4 0.5 0.68.9.66.98.37.63 3.7 3.39 0.5 0.68.9.66.98.36.6 3.6 3.37 0.5 0.68.9.65.97.35.60 3.3 3.34 0.5 0.68.8.65.97.33.59 3. 3.3 0.5 0.67.8.65.96.33.58 3.09 3.9 0
Tabel 5 95%-fraktil F 0.95 i F-fordelingen F(f T.f N ). PF Tabel 5: F-fordelingen ( F095. ) = 095. 3 4 5 6 7 8 9 0 4 6 8 0 5 30 40 60 0 3 4 5 6.5 99.5 5.7 4.6 30.5 8.5 9.00 9.6 9.5 9.30 0.3 9.55 9.8 9. 9.0 7.7 6.94 6.59 6.39 6.6 6.6 5.79 5.4 5.9 5.05 34.0 36.8 38.9 40.5 4.9 9.33 9.35 9.37 9.38 9.40 8.94 8.89 8.85 8.8 8.79 6.6 6.09 6.04 6.00 5.96 4.95 4.88 4.8 4.77 4.74 43.9 45.4 46.5 47.3 48.0 9.4 9.4 9.43 9.44 9.45 8.74 8.7 8.69 8.67 8.66 5.9 5.87 5.84 5.8 5.80 4.68 4.64 4.60 4.58 4.56 49.3 50. 5. 5. 53.3 53.7 9.46 9.46 9.47 9.48 9.49 9.50 8.63 8.6 8.59 8.57 8.55 8.53 5.77 5.75 5.7 5.69 5.66 5.63 4.5 4.50 4.46 4.43 4.40 4.36 6 7 8 9 0 5.99 5.4 4.76 4.53 4.39 5.59 4.74 4.35 4. 3.97 5.3 4.46 4.07 3.84 3.69 5. 4.6 3.86 3.63 3.48 4.96 4.0 3.7 3.48 3.33 4.8 4. 4.5 4.0 4.06 3.87 3.79 3.73 3.68 3.64 3.58 3.50 3.44 3.39 3.35 3.37 3.9 3.3 3.8 3.4 3. 3.4 3.07 3.0.98 4.00 3.96 3.9 3.90 3.87 3.57 3.53 3.49 3.47 3.44 3.8 3.4 3.0 3.7 3.5 3.07 3.03.99.96.94.9.86.83.80.77 3.83 3.8 3.77 3.74 3.70 3.67 3.40 3.38 3.34 3.30 3.7 3.3 3. 3.08 3.04 3.0.97.93.89.86.83.79.75.7.73.70.66.6.58.54 3 4 5 4.84 3.98 3.59 3.36 3.0 4.75 3.89 3.49 3.6 3. 4.67 3.8 3.4 3.8 3.03 4.60 3.74 3.34 3..96 4.54 3.68 3.9 3.06.90 3.09 3.0.95.90.85 3.00.9.85.80.75.9.83.77.7.67.85.76.70.65.60.79.7.64.59.54.79.74.70.67.65.69.64.60.57.54.60.55.5.48.46.53.48.44.4.39.48.4.38.35.33.60.57.53.49.45.40.50.47.43.38.34.30.4.38.34.30.5..34.3.7..8.3.8.5.0.6..07 6 7 8 9 0 4.49 3.63 3.4 3.0.85 4.45 3.59 3.0.96.8 4.4 3.55 3.6.93.77 4.38 3.5 3.3.90.74 4.35 3.49 3.0.87.7.74.66.59.54.49.70.6.55.49.45.66.58.5.46.4.63.54.48.4.38.60.5.45.39.35.4.37.33.30.8.38.33.9.6.3.34.9.5..9.3.6..8.6.8.3.8.5..3.9.5..06.0.8.5.0.06.0.96.4..06.0.97.9..07.03.98.93.88.07.04.99.95.90.84 3 4 5 4.3 3.47 3.07.84.68 4.30 3.44 3.05.8.66 4.8 3.4 3.03.80.64 4.6 3.40 3.0.78.6 4.4 3.39.99.76.60.57.49.4.37.3.55.46.40.34.30.53.44.37.3.7.5.4.36.30.5.49.40.34.8.4.5.0.6..0.3.7.3.0.07.0.5..08.05.8.3.09.05.03.6..07.04.0.05.0.96.9.87.8.0.98.94.89.84.78.00.96.9.86.8.76.97.94.89.84.79.73.96.9.87.8.77.7 30 40 50 60 0 4.7 3.3.9.69.53 4.08 3.3.84.6.45 4.03 3.8.79.56.40 4.00 3.5.76.53.37 3.9 3.07.68.45.9 3.84 3.00.60.37..4.33.7..6.34.5.8..08.9.0.3.07.03.5.7.0.04.99.8.09.0.96.9.0.0.94.88.83.09.04.99.96.93.00.95.90.87.84.95.89.85.8.78.9.86.8.78.75.83.78.73.69.66.75.69.64.60.57.88.84.79.74.68.6.78.74.69.64.58.5.73.69.63.58.5.44.69.65.59.53.47.39.60.55.50.43.35.5.5.46.39.3..00
Statistiske tabeller Tabel 6 97.5%-fraktil F 0.975 i F-fordelingen F(f T.f N ). PF F ( ).. = 0975 0 975 f N f T 3 4 5 6 7 8 9 0 4 6 8 0 5 30 40 60 0 3 4 5 647.8 38.5 7.44. 0.0 799.5 39.00 6.04 0.65 8.43 864, 39.7 5.44 9.98 7.76 899.6 39.5 5.0 9.60 7.39 9.8 39.30 4.88 9.36 7.5 937. 39.33 4.73 9.0 6.98 948. 39.36 4.6 9.07 6.85 956,7 39.37 4.54 8.98 6.76 963.3 39.39 4.47 8.90 6.68 968.6 39.40 4.4 8.84 6.6 976.7 39.4 4.34 8.75 6.5 98.4 39.43 4.8 8.69 6.46 986.8 39.44 4.3 8.64 6.4 990.3 39.44 4.0 8.60 6.37 999. 39.45 4.7 8.56 6.33 997. 39.46 4. 8.50 6.7 00 39.46 4.08 8.46 6.3 006 39.47 4.04 8.4 6.8 00 39.48 3.99 8.36 6. 04 39.49 3.95 8.3 6.07 08 39.50 3.90 8.6 6.0 6 7 8 9 0 8.8 8.07 7.57 7. 6.94 7.6 6.54 6.06 5.7 5.46 6.60 5.89 5.4 5.08 4.83 6.3 5.5 5.05 4.7 4.47 5.99 5.9 4.8 4.48 4.4 5.8 5. 4.65 4.3 4.07 5.70 4.99 4.53 4.0 3.95 5.60 4.90 4.43 4.0 3.85 5.5 4.8 4.36 4.03 3.78 5.46 4.76 4.30 3.96 3.7 5.37 4.67 4.0 3.87 3.6 5.30 4.60 4.3 3.80 3.55 5.5 4.54 4.08 3.74 3.50 5. 4.50 4.03 3.70 3.45 5.7 4.47 4.00 3.67 3.4 5. 4.40 3.94 3.60 3.35 5.07 4.36 3.89 3.56 3.3 5.0 4.3 3.84 3.5 3.6 4.96 4.5 3.78 3.45 3.0 4.90 4.0 3.73 3.39 3.4 4.85 4.4 3.67 3.33 3.08 3 4 5 6.7 6.55 6.4 6.30 6.0 5.6 5.0 4,97 4.86 4.76 4.63 4.47 4.35 4.4 4.5 4.8 4. 4.00 3.89 3.80 4.04 3.89 3.77 3.66 3.58 3.88 3.73 3.60 3.50 3.4 3.76 3.6 3.48 3.38 3.9 3.66 3.5 3.39 3.9 3.0 3.59 3.44 3.3 3. 3. 3.53 3.37 3.5 3.5 3.06 3.43 3.8 3.5 3.05.96 3.36 3. 3.08.98.89 3.30 3.5 3.03.9.84 3.6 3..98.88.79 3.3 3.07.95.84.76 3.6 3.0.88.78.69 3..96.84.73.64 3.06.9.78.67.58 3.00.85.7.6.5.94.79.66.55.46.88.7.60.49.40 6 7 8 9 0 6. 6.04 5.98 5.9 5.87 4.69 4.6 4,56 4.5 4.46 4.08 4.0 3.95 3.90 3.86 3.73 3.66 3.6 3.56 3.5 3.50 3.44 3,38 3.33 3.9 3.34 3.8 3. 3.7 3.3 3. 3.6. 3.0 3.05 3.0 3. 3.06 3.0.96.9 3.05.98.93.88.84.99.9.87.8.77.89.8.77.7.68.8.75.70.65.60.76.70.64.59.55.7.65.60.55.50.68.6.56.5.46.6.55.49.44.40.57.50.44.39.35.5.44.38.33.9.45.38.3.7..38.3.6.0.6.3.5.9.3.09 3 4 5 5.83 5.79 5.75 5.7 5.69 4.4 4.38 4.35 4.3 4.9 3.8 3.78 3.75 3.7 3.69 3.48 3.44 3.4 3.38 3.35 3.5 3. 3.8 3.5 3.3 3.09 3.05 3.0.99.97.97.93.90.87.85.87.84.8.78.75.80.76.73.70.68.73.70.67.64.6.64.60.57.54.5.56.53.50.47.44.5.47.44.4.38.46.43.39.36.34.4.39.36.33.30.36.3.9.6.3.3.7.4..8.5..8.5..8.4..08.05..08.04.0.98.04.00.97.94.9 30 40 50 60 0 5.57 5.4 5.34 5.9 5.5 5.0 4.8 4.05 3.98 3.93 3.80 3.69 3.59 3.46 3.39 3.34 3.3 3. 3.5 3.3 3.06 3.0.89.79 3.03.90.83.79.67.57.87.74.67.63.5.4.75.6.55.5.39.9.65.53.46.4.30.9.57.45.38.33...5.39.3.7.6.05.4.9..7.05.94.34..4.09.05.94.8.5.08.03.9.80.3..03.98.86.75.0.07.99.94.8.7..99.9.87.74.63.07.94.87.8.69.57.0.88.80.74.6.48.94.80.7.67.53.39.87.7.64.58.43.7.79.64.55.48.3.00
TABEL 7. Dimensioneringstabel. APPENDIX 7. Dimensionering med henblik på udførelse af t-test vedrørende statistiske variable X og X som er normalfordelte n( µ, σ) og n( µ, σ ), hvor µ µ σ σ er ukendte.,, og Størrelse n af stikprøve på X og X : Værdier af for α = 5%. σ Ensidet test H 0 :µ µ eller H 0 :µ µ Tosidet test H 0 :µ = µ n β = 5% β = 0% β = 5% β = 0% 3 3.3.94 4.0 3.59 4.65.36 3.09.77 5.9.03.6.35 6.05.8.3.08 7.87.66.0.89 8.73.54.94.75 9.6.44.8.64 0.53.36.7.53.45.9.6.46.39.3.54.39 3.33.8.48.33 4.8.4.4.7 5.3.0.37.3 6.9.06.3.9 7.5.03.8.5 8..00.4. 9.09 0.97.0.08 0.06 0.94.7.05.0 0.90..00 4 0.96 0.86.06 0.96 6 0.93 0.8.0 0.9 8 0.89 0.79 0.98 0.88 30 0.86 0.76 0.95 0.85 40 0.74 0.66 0.8 0.73 60 0.60 0.54 0.66 0.60 3
Facitliste FACITLISTE KAPITEL 0 0. () () 4 (3) - (4) - 0. 30 0.3 () u = 3.09, P - værdi = 0.00 () [0.70 ; 3.] 0.4 () F = 7.4 () t = 0.837, P - værdi = 0.007 (3a) [-.09 ; 4.84] (3b) [0.9 ; 6.40] 0.5 F =., P - værdi = 0.4557, t =.393, P - værdi = 0.0969 0.6 F =.8, P - værdi = 0.47 t = -.64, P - værdi = 0.00 0.7 F = 3.68, P - værdi = 0.75, t =.34, P - værdi =0.037, [0.03 ;.87] 0.8 () 8 () F =.7 P - værdi =0.3, t = 4.74 P - værdi = 0.00006, [.9 ; 5.0] 0.9 F = 6.0, P - værdi = 0.0089, t = 0.55, P - værdi = 0.99 0.0 F =.563, P - værdi = 0,5 t = -.497, P - værdi = 0.078 0.. () u =.98, P - værdi =0,038 () F =.56, P - værdi = 0,067, t =.75, P - værdi =0.00355 0. u = - 0.79, P - værdi =0.33 0.3 () u =., P - værdi = 0.035 () F = 7.9, P - værdi = 0,00, t = 4.5, P - værdi = 0.000 0.4 () u = 0.654, P - værdi = 0.566 () u =.0, P - værdi =0.079 0.5 u = 3.45, P - værdi = 0.0008 KAPITEL. () nej () [-8.5 ; -4.30 ] (3) [49. ; 58.8 ]. () y = 40.78 + 0.766 x () ja (3) F = 9.4, P - værdi = 0.04 (4) [0.36 ;.70] (5)[57.9 ; 00.] (6) [7.50 ; 85.6].3 () r = 0.9984 () t = - 6.73, P - værdi = 0.003 (3) [38.9 ; 4.48 ] (4) [5.73 ; 55.5 ].4 () Model, () 0.993, 0.9883 (3) [ 8.703 ; 0.584].5 () - () r = 0.980 (3) ~ ~ α0 = 78. β = 0585. (4) [9.7 ; 93.7].6 () t = 35435. 8. 380 log( dosis) () [-7.39 ; 0.677] (3) [0.57 ; 6.99].7 () - () P - værdi = 0.639 (3) P(lack of fit) = 0.6099, y = 5.583 + 33.667 x (4) F = 84.4, P - værdi = 0.000 (5) [5.75 ; 4.58] (6) [56.4 ; 6.49].8 () Y = -0.438 + 08.959 x () F=.57, P - værdi = 0.44 (3) t = - 0.09, P - værdi = 0.9845.9 () P (lack of fit) = 0.006, model. () F =.0, P (lack of fit) = 0.3535 (3) 3.55, [.35 ; 5.76] 6. 958.0 () - () - (3) Y =. 9764, Y = 988., [.944 ;.033 ] x (3) 3.55, [.35 ; 5.76] (4) - (5) Y = 44. + 0. 797x 0. 0379x, Y =. 036, [.959 ;.4 ]. 4
Facitliste KAPITEL. ja, F = 3.4, P - værdi = 0.0004, B nok bedst, men et lille overlap med B3. F = 3.5, P - værdi = 0.08.3 () F = 4.94, P - værdi = 0.0096 () S, S4.4 () P - værdi = 0.838 () nej,p - værdi = 0.008, (3a) Aså K, A:frit valg, A3:frit valg. (3b) K: frit valg, K så ikke A, (3c) ikke A K.5 () ja, P - værdi = 0.4575 () ja, P - værdi = 0.378 (3) ja, ingen outliers, (4)glas og enten fosfor eller 3..6 () - () limtyper (3) II: [3.76 ; 8.0], III: [.69 ; 7.04].7 () Kun syrer har virkning, Svovlsyre størst. () 6.45, [5.7 ; 7.73].8 () Nej, P - værdi = 0.0463 () ja, P - værdi = 0.0777 (3) -.9 () - () -.0 ja, R forskellig fra de øvrige, ja. () T evt.q må foretrækkes. () - KAPITEL 3 3. () Poisson ().64 (3) =.8, P - værdi =0.7308 (4) 640000 3. χ =3.4, P - værdi = 0.6638. 3.3 χ =5, P - værdi = 0.458 3.4 χ =.64, P - værdi = 0.07 3.5 χ = 3.78, P - værdi = 0.0877 3.6 χ =6.3, P - værdi = 0.046 3.7 χ = 5.44, P - værdi = 0.0658 3.8 () χ =6., P - værdi = 0.00030 () χ = 4.87, P - værdi = 0.560 χ 5
Stikord STIKORDSREGISTER A additiv model 58, 63 appendix 8 antalstabel 73,, B bagatelgrænse 3 Bartletts test 53, 06 behandlinger binomialfordelingstest to variable, 97 blokforsøg, randomiseret 65 C chi i anden fordeling tabel 8 test 74, 77,, D delforsøg 3 determinationskoefficient dimensionering 3 tabel 3 E Excel løsning antalstabel 74, 76, 77 blokforsøg 67 lineær regression 3, 39, 43 to normalfordelte variable 8, 0 variansanalyse, ensidet 55 variansanalyse, tosidet 6, 63, 67 ordrer 8 ekstrapolation 5 én faktor ad gangen 56 enkelt regressionsanalyse 8 med gentagelser på lommeregner 37, 0 med Excel 39, 88 uden gentagelser på lommeregner 9, 99 med Excel 3 ensidet variansanalyse 50 på lommeregner 5, 04 med Excel 55, 88 en-vejs tabel 74, F facitliste 4 fejl af type I 3 fejl af type II 3 F - fordeling tabel test 7, 8, 36, 5, 53, 05 fordeling, tabel over normalfordeling 5 u - fordeling 5 forklaringsgrad, 5 forsøgsenhed forudsætninger regressionsanalyse 6 variansanlyse 59 fraktiler, beregning ved Excel 84 fraktiltabel for normalfordeling 7 chi i anden-fordeling 8 t - fordeling 0 F - fordeling frihedsgrad, poolet 5, 53 fuldstændig faktorstruktur 57 fuldstændig randomiseret blokforsøg 65 G gentagelser 3 H hypotesetest I,J K klasser 73 konfidensinterval differens, normalfordelte variable 4, 90 differens, binomialfordelte variable,9 differens, Poissonfordelte variable 3, 9 regressionskoefficient 30, 34, 4, 00,0 6
Stikord Facitliste for middelværdi af Y med lommeregner 30, 38, 00, 0 med Excel 39, 4 i ensidet variansanalyse 54, 56, 05 i tosidet variansanalyse 6, 09 LSD 5, 05 korrelationskoefficient 5 kvalitativ faktor 50 kvantitativ faktor 50 L Levines test 56, 06 lineær model 9 LSD (Least Signifikant Difference) 5, 05 M median 06 mindste kvadraters metode 0, multinominalt eksperiment 73, N niveau for faktor 56 normalfordeling plot 33 tabel 5 test, variable 4, 9 normalligningssystem O opgaver kapitel 0 4 kapitel 44 kapitel 68 kapitel 3 79 oversigter (se indholdsfortegnelsen) 90 outliers 33 P planlægning af forsøg, 56 Poissonfordeling test variable 3, 9 poolet estimat for varians 53 prædistinationsinterval 8, 35 R randomisering randomiseret forsøg, 65 randomiseret blokforsøg 65 residual 0 plot 3 standardiseret 33 regressionsanalyse enkelt 8 med gentagelser på lommeregner 37, 0 med Excel 39, 88 uden gentagelser på lommeregner 9, 99 med Excel 3 forudsætninger 6 regressionskoefficienter 9 regressionslinie 9 S SAK Satterwaites test 5,0, 06 standardiserede residualer 33 styrke af test 5 støj T tabeller (se indholdsfortegnelse) 4 tosidet variansanlyse 56, 6, 63, 89, 07 to - vejs tabel 76 transformation 5, 4, 03 U uafhængige statistiske variable 6, 8 uafhængighed, to - vejs tabel 76 V variansanlyse ensidet 50 på lommeregner 5, 04 ved Excel 55, 88 tosidet 56 på lommeregner 6, 07 ved Excel 6, 63, 89 vekselvirkning 58 varianshomogenitet 36, 56, 06 7