MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK med Excel

Størrelse: px
Starte visningen fra side:

Download "MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK med Excel"

Transkript

1 MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK med Excel. udgave 004 i

2 FORORD Denne bog er en fortsættelse af lærebogen M. Oddershede Larsen : Statistiske grundbegreber. Det forudsættes, at man har rådighed over en lommeregner med programmer indbygget, der til givne data kan beregne gennemsnit og spredning. Det kan dog være en lettelse, hvis lommeregneren også har indbygget et regressionsprogram, der kan beregne regressionskoefficienter og korrelationskoefficient. Ved de mere regneteknisk komplicerede analyser som eksempelvis tosidet variansanalyse er det imidlertid langt lettere at benytte en PC med et passende statistisk software. Regnearkprogrammet Microsoft Excel er ikke udviklet med henblik på statistik, men har den fordel, at den findes på et stort antal PC-er. Notatet bygger derfor for visse kapitlers vedkommende på, at læseren har adgang til programmet Exell, og at man der har installeret tilføjelsesprogrammet Analysis Toolpak. Ved mere avancerede statistiske problemer kan det dog anbefales at købe et egentligt statistikprogram. Der findes særdeles mange udmærkede statistikprogrammer, som kan udføre disse analyser. Forfatteren har skrevet en udvidet version af dette notat (indeholder flere statistiske metoder), hvori der benyttes statistikprogrammet Statgraphics. Der er her i en række eksempler vist, hvorledes man kan udnytte et sådant software, og hvorledes udskrifter herfra kan tolkes. Specielt er de grafiske muligheder fremhævet. Juni 003 Mogens Oddershede Larsen I udgave er der udover en række mindre ændringer foretagt en ombytning af kapitlerne og. Februar 004 ii

3 Indhold INDHOLD 0 HYPOTESETESTNING (TO STATISTISKE VARIABLE) 0. Indledning Planlægning af forsøg Test og konfidensintervaller for normalfordelte variable Test og konfidensintervaller for binomialfordelte variable Test og konfidensintervaller - Poissonfordelte variable... 3 Opgaver... 4 ENKELT REGRESSIONSANALYSE. Indledning Valg af model, der bedst mulig beskriver de fundne data Lineær model Regressionslinie og regressionskoefficienter Bestemmelse af regressionslinie ved mindste kvadraters metode Vurdering af om model beskriver data godt....3 Statistisk analyse af lineær regressionsmodel Forudsætninger for regressionsanalyse Test af om Y er uafhængig af X Enkelt regressionsanalyse med én y - observation for hver x - værdi Analyse beregnet med lommeregner med regressionsprogram Analyse beregnet ved Excel Enkelt regressionsanalyse med flere y - observationer for hver x - værdi Analyse beregnet med lommeregner med regressionsprogram Analyse beregnet ved Excel Transformation af data inden regressionsanalyse foretages... 4 Opgaver iii

4 Indhold VARIANSANALYSE. Indledning Ensidet variansanalyse Ensidet variansanalyse beregnet på lommeregner Ensidet variansanalyse beregnet ved Excel Tosidet variansanalyse Indledning Planlægning af forsøg Én faktor ad gangen Fuldstændig faktorstruktur Forudsætninger for variansanalyse Testprocedure Tosidet variansanalyse udført med lommeregner Tosidet variansanalyse udført ved Excel Model med vekselvirkning Additiv model: Model uden vekselvirkning Fuldstændigt randomiseret blokforsøg Opgaver ANTALSTABELLER 3. Indledning En -vejs tabel To -vejs tabel Opgaver APPENDIX A: Statistik med Excel a. Generelle forhold... 8 a. Inddata... 8 a3. Beregning af (statistiske) funktioner... 8 a3. Normalfordeling... 8 a3. χ - fordeling iv a3.3 t - fordeling a3.4 F - fordeling a3.5 Hypergeometrisk fordeling a3.6 Binomialfordeling a3.7 Poissonfordeling... 84

5 Indhold a4. Beregning af gennemsnit og spredning af n tal a5. Beregning af histogram a6. Konfidensintervaller for normalfordelt variabel a6. 95% konfidensinterval for middelværdi af stikprøve, idet σ er kendt a6. 95% konfidensinterval for middelværdi af stikprøve, idet σ er ukendt a6.3 95% konfidensinterval for spredning af stikprøve, idet er uendt µ a7. Hypotesetest: kontinuert variabel a7.. : µ µ, σ kendt H 0 0 a7.. : µ µ, σ kendt H 0 0 a7.3. : µ = µ, σ kendt H 0 0 a7.4 H 0 : µ µ 0, σ er ukendt a7.5 H 0 : H 0 :σ σ, µ er ukendt a8. Sandsynlighedsregning a8. Beregn fakultet n! a8. Beregn kombination K(n,p) a9. Hypotesetest: kontinuerte variable a9.. H 0 :σ = σ a9.. σ = σ: H 0 : µ µ a9.3. σ σ: H 0 : µ µ a9.4. σ σ: H 0 : µ = µ a9.5.parvise observationer a0 Regressionsanalyse a0.. Korrelationskoefficient a Variansanalyse a.. Ensidet variansanalyse a.. Tosidet variansanalyse a Antalstabeller a.. En - vejs tabel a.. To - vejs tabel Oversigt over konfidensintervaller ( variable) Oversigt over test af middelværdier µ og µ for normalfordelte variable ( σ og σ kendte) Oversigt over test af middelværdier µ og µ for normalfordelte variable ( σ og σ ikke begge kendte) v

6 Indhold 0.4. Oversigt over test af varianser σ og σ for normalfordelte variable Oversigt over test af parametre p og p for binomialfordelte variable Oversigt over test af parametre µ og µ for Poissonfordelte variable Formler til beregning af enkelt regressionsanalyse med én y - værdi for hver x - værdi 99. Formler til beregn.af enkelt regressionsanalyse med flere y - værdier for hver x - værdi 0.3 Transformation til lineær model Formler til beregning af ensidet variansanalyse Formler til beregning af tosidet variansanayse test af hypotese om multinomiale sandsynligheder.... χ 3.. χ - test af hypotese i - vejs tabel.... STATISTISKE TABELLER TABEL Fordelingsfunktionen for U - fordelingen... 5 TABEL. Fraktiler i U - fordelingen... 7 TABEL 3. Fraktiler i χ - fordelingen... 8 TABEL 4. Fraktiler i t - fordelingen... 0 TABEL 5. 95% - fraktiler i F - fordelingen... TABEL 6. 97,5 % - fraktiler i F - fordelingen... TABEL 7. Dimensioneringstabel for variable... 3 FACITLISTE... 6 STIKORD vi

7 0. Planlægning af forsøg 0 HYPOTESETESTNING (TO STATISTISKE VARIABLE) 0. Indledning Afsnit 0, giver en kort beskrivelse af hvorledes forsøg bedst planlægges ud fra et statistisk synspunkt. Hertil anvendes bl.a. den i tabel 8 angivne dimensioneringsstabel. I afsnit 0.3 sammenlignes to normalfordelte variable, mens de variable i afsnit 0.4 og 0.5 forudsættes at være henholdsvis binomial - og Poisson - fordelte. I appendix findes en række oversigter over de forskellige test. De grundlæggende begreber vedrørende konfidensintervaller og hypotesetest for én statistisk variabel, blev beskrevet i Statistiske Grundbegreber. Da det er de samme begreber og analoge udledninger der anvendes, når det drejer sig om at sammenligne statistiske variable, vil de ikke blive gentaget her. 0. Planlægning af forsøg Vi vil i dette afsnit som udgangspunkt tage følgende eksempel. Eksempel 0.. Problemstilling. En fabrik der producerer maling, har udviklet to nye additiver A og A, som bevirker en kortere tørretid. Additiv A er det dyreste, men man forventer også, at det giver den korteste tørretid. På grund af prisforskellen, skal tørretiden dog være mindst 0 minutter kortere for A, før man vil gå over til den. For at undersøge disse forhold produceres nogle liter maling, som derefter deles op i mindre portioner. Til nogle af portionerne tilsættes additiv A og til andre additiv A. Tørretiden måles derefter. Generelt gælder, at hvert delforsøg i et forsøg udføres under en række forsøgsbetingelser, De betingelser som med forsæt varieres som led i forsøgets formål, kaldes forsøgsbehandlingerne eller blot behandlingerne (engelsk: treatment). Alle andre delforsøgsbetingelser sammenfattes i et begreb, der kaldes forsøgsenheden. I eksempel 0. er additiverne = behandlingerne og forsøgsenhederne er den enkelte portion maling, anvendt apparatur og personale, tidspunkt for delforsøget og de forhold med hensyn til temperatur, luftfugtighed osv. som gælder på forsøgstidspunktet. Bemærk, at forsøgsenhederne ofte indeholder faktorer, som ikke kan gøres ensartet fra delforsøg til delforsøg. Dette bevirker, at resultatet af de enkelte delforsøg varierer. Dette giver forsøgsvariablens variation eller kort forsøgets støj.

8 0. Hypotesetestning ( statistiske variable) Randomisering. For at sikre et statistisk gyldigt forsøg foretager man en såkaldt fuldstændig randomisering. Dette betyder at man ved lodtrækning fordeler forsøgsenhederne tilfældigt på behandlingerne. Dette sker, for at man ikke ubevidst kommer til at favorisere en af de to behandlinger. Hvis man eksempelvis helt systematisk i eksempel 0. først laver alle delforsøg med additiv A, kunne dette bevirke en favorisering af A nemlig hvis forsøgsomstændighederne (apparater, personale, luftfugtighed ) er mest gunstige ved begyndelsen af forsøgsperioden. For at anskueliggøre denne randomiseringsproces antager vi, at vi i eksempel 0. skal lave 4 forsøg med hver additiv. Endvidere antages, at forsøgene skal indgå i den almindelige produktionsgang, dvs. at man af tidsmæssige, personalemæssige og på grund af begrænset mængde apparatur må lade forsøgene forløbe over flere dage. Da dage apparatur og laborant kunne tænkes at have betydning lader vi dem indgå i forsøgsenhederne. I forsøgsenhederne indgår sandsynligvis også andre forhold udenfor vor kontrol, og som tilsammen bevirker, at selv om man udfører gentagne forsøg med samme behandling, så får vi afvigende resultater. Lad os antage at der gælder følgende: Mandag er det kun muligt at lave forsøg, idet apparatur nr og laborant A er de eneste der er ledige. Tirsdag er der kapacitet ledig til 3 forsøg: Ét forsøg hvor apparatur nr og laborant A benyttes Ét forsøg hvor apparatur nr og laborant B benyttes, og Ét forsøg hvor apparatur nr 3 og laborant C benyttes. Onsdag kan der også laves 3 forsøg osv. (se det følgende skema). Forsøgsenheder Behandlinger Dag Apparatur Laborant (apparater) mandag A tirsdag A tirsdag B tirsdag 3 C onsdag 3 B onsdag 4 C onsdag A torsdag 3 B Vi foretager nu randomiseringen som kort sagt er en form for lodtrækning. Sædvanligvis vil man benytte et program der kan generere tilfældige tal (mange lommeregnere har et sådant program). For at anskueliggøre randomiseringen vil vi mere primitivt foretage lodtrækningen på følgende måde. På 4 sedler skrives A, på andre 4 sedler skrives A. Hver seddel krølles sammen til en kugle og placeres i en dåse. Sedlerne blandes ved at dåsen rystes (se figur). Hvis den første seddel der udtrækkes er A så betyder det, at det delforsøg der mandag udføres med apparatur og laborant A skal anvende additiv A. Hvis den næste seddel der udtrækkes er A så betyder det, at det delforsøg der tirsdag udføres med apparatur og råvareleverance skal anvende additiv A osv. Resultaterne kunne eksempelvis være som angivet på følgende skema:

9 0. Planlægning af forsøg Forsøgsenheder Dag Apparatur Laborant Behandlinger (apparater) mandag A A tirsdag A A tirsdag B A tirsdag 3 C A onsdag 3 B A onsdag 4 C A onsdag A A torsdag 3 B A På denne måde sikrer man sig, at vi får et så vidt muligt "statistisk gyldigt" forsøg. Hvis vi derfor efter beregninger (som ses i de følgende kapitler ) konkluderer, at der er forskel på additiverne, så er det "korrekt", idet det ville være helt tilfældigt, hvis én af additiverne har været begunstiget med særlig gode forsøgsenheder. Herved har man også sikret sig, at de to stikprøver (variable) er statistisk uafhængige. Forsøg bør udføres, så alle behandlinger får lige mange gentagelser. Ved planlægningen af forsøget er det ganske klart, at hvis man eksempelvis har ressourcer til at lave 0 delforsøg, så ville det være en meget dårlig plan, hvis man lavede 8 delforsøg med A og kun delforsøg med A. Der bør i naturligvis tilstræbes at lave 0 delforsøg med hver behandling. Forsøg kan mislykkes, så målet i praksis ikke bliver opfyldt, og i sådanne tilfælde kan de i de følgende kapitler anførte statistiske analyser stadig gennemføres. Resultaterne bliver dog mere usikre, og beregningerne mere komplicerede og vil i visse tilfælde ikke blive anført i dette notat. I stedet antages et statistikprogram benyttet. Dimensionering Analogt med forklaringen i Statistiske Grundbegreber side 57 kan man under visse forudsætninger beregne hvor mange gentagelser (portioner) der skal anvendes for hver behandling, hvis P( fejl af type I) α og P( fejl af type II) β. Man skal naturligvis angive en bagatelgrænse, men desuden kræver beregningerne, at spredningerne ved de to behandlinger er (tilnærmelsesvis) ens, og at man kan give et nogenlunde realistisk skøn for denne fælles spredning σ. Det er naturligvis en svaghed ved dimensioneringen, at man inden forsøget er udført skal give et sådant skøn. En vurdering heraf kunne baseres på erfaringer fra tilsvarende forsøg. Findes sådanne erfaringer ikke kunne man først at lave nogle få forsøg og derfra få et rimeligt gæt på spredningen σ. At spredningerne er nogenlunde ens vil i praksis ofte være tilfældet, da forsøgsenhederne jo er valgt ved randomisering. Når forsøget så er lavet, kan man (lidt sent) se, om man har skønnet rigtigt. Dimensioneringen skal jo bevirke, at man laver det rigtige antal gentagelser. Man kan fristes til at tro, at jo flere gentagelser jo bedre. Dette er imidlertid jo ikke tilfældet, idet man med for mange gentagelser kan risikere at opdage så små forskelle, at de ikke har praktisk betydning, og så er de mange forsøg jo spild af arbejdskraft og penge. Formler for dimensionering af variable findes i appendix 0. og 0.3, en tabel til dimensionering findes i tabel 7. 3

10 0. Hypotesetestning ( statistiske variable) Eksempel 0.. (fortsættelse af eksempel 0.) Dimensionering. a) Hvor mange portioner skal anvendes ved forsøget, hvis man ønsker, at P( fejl af type I ) = α 005., P( fejl af type II ) = β 00. og bagatelgrænsen =0 minutter, idet man fra mange tilsvarende forsøg ved, σ at den fælles spredning er = 5 minutter. b) Samme spørgsmål og krav som i spørgsmål a), men nu antages, at man ikke kender spredningen, men ud fra nogle få delforsøg skønner, at den er ca. 5 minutter. c) Samme spørgsmål og krav som i spørgsmål b), men nu antages P(fejl af type I) = α 0.0. LØSNING: a) Af oversigt appendix 0. fås u + u u + u + α β n = = = 38, σ 5 5 dvs. der skal udføres i alt n = 39 delforsøg af hver behandling b) Af tabel 7 fås idet, at det største tal mindre end 0.67 fås for σ 3 = 067. n Test og konfidensintervaller for normalfordelte variable. Lad os igen betragte det i eksempel 0. og 0. angivne forsøg. For hver af de additiver udføres en række delforsøg. Forsøgsresultaterne kan generelt skrives: For additiv A : Statistisk variabel X. Stikprøve : x, x, x 3,... x n. For additiv A : Statistisk variabel X. Stikprøve : x, x, x 3,... x n. Vi antager, at X og X er statistisk uafhængige normalfordelte variable med henholdsvis middelværdierne µ og µ og spredningerne σ og σ. Sædvanligvis vil både middelværdier og spredninger ikke være kendt eksakt, og må derfor estimeres ud fra forsøgsresultaterne. Generelt er man interesseret i at teste nulhypotesen H0:µ = µ + d, hvor d er en given konstant (sædvanligvis 0) Denne omskrives til H0:µ µ d = 0. Testproceduren er nu baseret på fordelingen af differensen X X d. Ifølge additionssætningen (se eventuelt Statistiske Grundbegreber side 34) er X X d normalfordelt og fra regnereglerne fås σ σ V( X X d) = V( X) + V( X) = + n n ( ) ( ) ( ) E X X d = E X E X = µ µ. Heraf følger, at hvis spredningerne er kendt (eksakt), vil U X X d = være normeret normalfor- σ σ + n n delt, og på sædvanlig måde kunne anvendes til test af nulhypotesen. og 4

11 0.3 Test og konfidensintervaller for normalfordelte variable Er spredningerne ikke kendt, vil det være naturligt at betragte teststørrelsen X X d. (0.) s s + n n Denne er imidlertid ikke normalfordelt. Man kan så benytte benytte Satterthwaite s approksimation som angivet i appendix 0-3. Har de to variable samme spredning, vil teststørrelsen (0.) være t - fordelt. Denne har større styrke end Satterwaite s approksimation, og må derfor foretrækkes. Er stikprøvestørrelserne store (over 30) er teststørrelsen (0.) med god tilnærmelse normalfordelt, og det er da ikke nødvendigt at foretage en indledende testning af, om spredningerne er ens eller forskellige. Testning af H0:µ = µ + d foretages derfor i følgende rækkefølge: ) Er stikprøvestørrelserne 30 foretages en U - test (jævnfør eksempel 0.3 og appendix 0.) ) Er stikprøvestørrelserne < 30 undersøges først om varianserne er ens (selvom det egentlige formål er at undersøge forskelle i middelværdier) Man opstiller nulhypotesen H 0 :σ = σ mod den alternative hypotese H:σ σ. = Testen bygger på, at størrelsen F s er F - fordelt (jævnfør appendix 0.4) s Får man en accept af nulhypotesen, har man naturligvis ikke hermed vist at varianserne er ens, men da testen er robust overfor mindre forskelle i varianserne, blot vi har samme antal gentagelser, er det tilladeligt i den følgende test af middelværdierne at antage dette. a) Accepteres nulhypotesen H 0 :σ = σ, beregner man et estimat for den fælles varians som et vægtet gennemsnit s 0 af de to estimater for varianserne s og s. Disse vægtes i ( n ) s + ( n ) s forhold til frihedsgraderne, dvs. s0 =. Frihedsgradstallet for n + n s 0 er f = n + n. Man siger man har foretaget en pooling af de to estimater. 0 X X d Man tester nu nulhypotesen H 0 : µ = µ på basis af teststørrelsen t = som s0 + n n er t - fordelt med frihedsgrader (jævnfør eksempel 0.4 og appendix 0.3). f 0 b) Forkastes nulhypotesen H 0 :σ = σ, benyttes Satterthwaite s approksimation (jævnfør eksempel 0.5 og appendix 0-3). Hvis spredningerne kan antages ens kan man foretage en dimensionering, dvs. vælge antal gentagelser n, så P(fejl af type II) holdes under β. Hvorledes dette kan gøres er beskrevet i eksempel 0.. En test har større styrke end en anden, hvis den med givne data og et givet signifikansniveau giver den største chance for at forkaste nulhypotesen. 5

12 0. Hypotesetestning ( statistiske variable) De følgende 3 eksempler belyser disse 3 situationer. Eksempel 0.3. Store stikprøvestørrelser ( 30 ) (fortsættelse af eksempel 0.). På basis af resultatet i eksempel 0. udførte man 40 delforsøg af hver behandling. Efter at forsøgsrækken var afsluttet, opdagede man, at et af forsøgene var mislykket og måtte kasseres. Der var følgelig kun 39 delforsøg med additiv A. Man fik følgende resultater (i minutter) A 7,0 30,7 7,4 4,4 06,8 5,7 6,5 86,7 4,7 7,9 03,0 33,4 03,6 4,4 3,0 30, 0,5 9,4 7, 5,6 6,5 94,0,7 06,0 4,0 35, 4, 07,9 3,4 6, 3,9 3,4 5,6 8,0 0,6 97, 4,4 34, 5,7 A 6,7, 33,7 08,9,6 57,6 4, 4,9 0,6 4, 58,6 36,9 7,4 7,5 38,9,7 0,5 33,,4 43,0 35,6 35,4 36,8,4 6, 35,7 8,, 3,7 07,0 38,,6 3, 57,3 6,5 30, 6,0 38,6 38,5 06,5 ) Kan man ud fra disse data bevise på mindst signifikansniveau α = 0.05, at malingen med additivet A tilsat har en mindre middeltørretid end konkurrentens? ) Hvad vil du anbefale virksomheden at gøre, når man også tager det økonomiske (bagatelgrænsen) i betragtning. LØSNING: ) X = tørringstiden for maling tilsat additiv A. X = tørringstiden for maling tilsat additiv A. X og X antages at være uafhængige normalfordelte variable, med henholdsvis middelværdierne µ og µ og spredningerne σ og σ. Nulhypotese H 0 :µ µ Alternativ hypotese: H:µ < µ Vi finder ud fra stikprøverne, at x = 8., 6 s = 3. og x = 9., s = 4.. Da stikprøvestørrelserne er over 30 anvendes en U-test (se eventuelt appendix 0.). x x u = s + n s n = = 357. Da - u = > (eller P-værdi = PU ( < 357. ) = Φ ( 357. ) = 0, < 0.00 forkastes nulhypotesen (3-stjernet) dvs. der er et stærkt statistisk bevis for at additiv A i middel har en kortere tørringstid end additiv A. ) Et 95% konfidensinterval for differensen er (se eventuelt appendix 0. nummer ) s s x x u ±. + =.. ±. + = 0. 6 ± 58. n n Konfidensintervallet er 6. 43; [ ] Da bagatelgrænsen er 0, og differensen kun er 0.6, således at næsten 50% af konfidensintervallet ligger under 0, kan det ikke anbefales at gå over til det mere kostbare additiv. Bemærk, at dimensioneringen reelt kun har betydning i en acceptsituation, hvor man så med stor sikkerhed kan konkludere, at muligvis giver additiv A en kortere størkningstid, men ikke så meget kortere, at det har praktisk betydning. Excel løsning: Man foretager analysen på samme måde, som det vises i de følgende eksempler. 6

13 0.3 Test og konfidensintervaller for normalfordelte variable Som det fremgår af det følgende eksempel er det overkommeligt ved hjælp af en lommeregner at foretage de nødvendige test i tilfældet, hvor der er samme spredning. Excel kan dog også udføre disse test. Eksempel 0.4. Små stikprøvestørrelser (< 30), accept af ens spredning. To katalysatorers indflydelse på udbyttet ved en kemisk proces skal undersøges. Den ene katalysator K er billigere end den anden katalysator K, så hvis K ikke i middel giver et udbytte, som er mindst enheder større end det udbytte K giver, vil vi vælge katalysator K. Da forsøgene er både tidskrævende og kostbare, har man kun afsat midler til 8 forsøg med hver katalysator. Resultaterne blev: K K ) Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises at K giver et udbytte der er enheder større end K ) Angiv endvidere et 95% konfidensinterval for differensen mellem de to middeludbytter. LØSNING: ) Lad X = udbyttet ved anvendelse af katalysator K og X = udbyttet ved anvendelse af katalysator K. X og X antages approksimativt normalfordelte med middelværdi og spredning henholdsvis µ, σ og µ, σ. Ved indtastning af forsøgsresultaterne i lommeregneren fås de tilsvarende estimater x = , s =. 387 og x = 94., s = 33.. H 0 :σ σ a) Først testes om varianserne er ens, dvs. = mod den alternative hypotese H:σ σ. Vi anvender formlen i appendix 0.4 storrække : s 33. Teststørrelsen F = = = 8., er F - fordelt F( f, f) = F( 77, ). s. 387 (Bemærk: Vælg tæller og nævner i F, så brøken bliver større end, så skal kun vurderes opad ). Ved opslag i tabel 6 findes F ( 77, ) = Da.8 < 4.99 ( eller P - værdi = P (X >.8) = 0.3 > 0.05) accepteres nulhypotesen, dvs. vi vil i den følgende test antage, at spredningerne er ens. Et estimat for den fælles spredning er ( n s n s ) + ( ) ( 8 ) ( 8 ) 33. s0 = = = 80. med f 0 = 4 n + n 4 b) Vi tester nu om udbyttet ved katalysator K er større end ved katalysator K, hvilket betyder, at vi opstiller nulhypotesen H 0 :µ µ + mod den alternative hypotese H:µ > µ +. x x Af appendix 0.3 fås teststørrelsen t = = = s n n 8 8 Da t = 88. > t095. ( 4) = 76. ( eller P - værdi = P(X >.88) = 0.04 < 0.05) forkastes nulhy- potesen, dvs. vi har et (svagt) statistisk bevis for at K giver et udbytte der er enheder større end K (vi er dog tæt på en accept). 7

14 0. Hypotesetestning ( statistiske variable) Excell løsning: I appendix A afsnit a9 ses, hvilke ordrer der er nødvendige. a) Først testes om varianserne er ens, dvs. H 0 :σ = σ mod den alternative hypotese H 0 :σ σ. Lad stikprøveværdierne for K og K stå i to søjler eksemplevis i cellerne A til A8 og B til B8 Inddata: 86,4 93,65 9,9 9,97 86,7 97,96 88,99 94,0 9,59 9,56 89,38 9,85 9,4 99,99 88,7 90,99 Test af nulhypotese H 0 : µ µ + (samme spredning) Indtast data fra eksempel 0.4. K's værdier placeres i cellerne A - A8. K's værdier placeres i cellerne B - B8 ) Først testes om spredningerne er ens: H 0 :σ = σ : Metode : P - værdi = FTEST(A:A8;B:B8) = Da 0.45 > 0.05 accepteres H 0. Metode : Vælg Funktioner, Dataanalyse, F-test: Dobbelt stikprøve for varians Den fremkomne tabel udfyldes: Område for variabel ": A:A8 Område for variabel ": B:B8 Outputområde : Skriv cellenummer for øverste venstre celle i det ønskede outputområde. Udskrift: F-test: Dobbelt stikprøve for varians Variabel Variabel Middelværdi 89, ,5 Varians 5, ,3305 Observationer 8 8 fg 7 7 F 0,550 P(F<=f) en-halet 0,570 H 0 accepteres, da P-værdi=0.57 < 0.05 F-kritisk en-halet 0,64058 ) Nu testes σ = σ: H 0 : µ µ + Metode : P - værdi = TTEST(B:B8;A:A8 + ;;) = 0,04034 Da < 0.05 forkastes H 0 Metode : Vælg Funktioner, Dataanalyse, t-test: to stikprøver med ens varians Den fremkomne tabel udfyldes: Område for variabel ": B:B0 Område for variabel ": A:A8 Hypotese for forskel i middelværdi : Outputområde : Skriv cellenummer for øverste venstre celle i det ønskede outputområde. Udskrift: 8

15 0.3 Test og konfidensintervaller for normalfordelte variable t-test: To stikprøver med ens varians Variabel Variabel Middelværdi 94,5 89,4575 Varians 0,3305 5, Observationer 8 8 Puljevarians 8,007 Hypotese for forskel i middelværdi fg 4 t-stat,883 P(T<=t) en-halet 0,04034 H 0 forkastes, da P- værdi= < 0.05 t-kritisk en-halet,76309 P(T<=t) to-halet 0,08068 t-kritisk to-halet,44789 Det ses, at vi får de samme resultater og konklusion som før. ) Et 95% konfidensinterval for differensen er (se eventuelt appendix oversigt 0. nummer ) x x ± t0. 975( 4) s + = ± = ± n n 8 8 [ ] Konfidensintervallet er 63. ; 77.. At konfidensintervallet indeholder skyldes, at ved ensidede test er et 95% konfidensinterval for differensen også ensidet [ g ; [ hvor den nedre grænse g er bestemt ved: g = x x t s = ( 4) + = = n n 8 8 dvs. differensen er større end.8. Excell kan ikke umiddelbart beregne konfidensintervallet, men man må opskrive formlen for konfidensradius r. Forudsættes varianserne i forrige skem placeret i P6 og Q6 osv. fås radius af formlen r = ((P6*(P7-)+Q6*(Q7-))/(P6+Q6-))^(0,5)*(/P7+/P8)^(0,5)*TINV(0,05;4) Hvis der er stor forskel på stikprøvestørrelserne, er det meget vigtigt for anvendelsen af ovenstående test, at forudsætningen om, at varianserne er ens er holdbar. Til gengæld er det også i sådanne tilfælde, man virkelig ser den store forbedring ved at benytte t - testen fremfor Satterthwaite s approksimation. Eksempel 0.5. Små stikprøvestørrelser (< 30), forskellig spredning. Lad os antage, at vi har samme problemstilling som i eksempel 0.4, men at vi denne gang anvender to andre katalysatorer A og B. Der planlægges med 0 delforsøg men desværre mislykkedes to af forsøgene med katalysator A, så der ikke er lige mange gentagelser. Vi får følgende resultater: A B Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises, at B giver et udbytte der er enheder større end A. 9

16 0. Hypotesetestning ( statistiske variable) LØSNING: ) Lad X A = udbyttet ved anvendelse af katalysator A og X B = udbyttet ved anvendelse af katalysator B. X A og X B antages approksimativt normalfordelte med middelværdi og spredning henholdsvis µ A, σ A og µ B, σ B. Ved indtastning af forsøgsresultaterne i lommeregneren eller i Exell fås de tilsvarende estimater x = , s = og x = , s = 695. A A B B a) Først testes om varianserne er ens, dvs. H mod den alternative hypotese. 0:σ A = σb H:σ A σ B s A Af appendix 0.4 storrække fås, at teststørrelsen F = = = , er F - fordelt s 695. F( f A, fb) = F( 79, ) (bemærk, at vi igen sørger for, at brøken bliver større end ) Idet F ( 79, ) = 48. ( eller P - værdi = P (X >7.938) =0,0030 < 0.05) forkastes nulhypotesen, dvs. vi kan ikke tillade os at antage, at spredningerne er ens. b) Vi tester nu om udbyttet ved katalysator B er større end ved katalysator A, hvilket betyder, at vi opstiller nulhypotesen H0: µ B µ A + mod den alternative hypotese H: µ B > µ A +. Af appendix 0.3 fås teststørrelsen t = x B s n x A = A B.. A s + n B B = 857. Frihedsgradstallet f beregnes ved Satterthwaite s metode som det nærmeste hele tal, som er større s s A B n A n + B 8 0 end g = = = s A s B n A n B n n 8 0 Da A B t = 86. < t ( 8) = 86. (eller P - værdi = 0.7 > 0.05), accepteres nulhypotesen Vi kan ikke på dette grundlag vise, at udbyttet ved katalysator B er større end ved katalysator A. Excel løsning: På grund af de omfattende regninger kan det her anbefales at benytte et statistikprogram : a) Test af om varianserne er ens: :σ σ mod den alternative hypotese :σ σ. H0 A B = H A B F-test: Dobbelt stikprøve for varians Variabel Variabel Middelværdi 83, ,693 Varians,73936, Observationer 8 0 fg 7 9 F 7,9385 P(F<=f) en-halet 0,0030 H 0 accepteres, da P-værdi=0.003 < 0.05 F-kritisk en-halet 3,974 b)vi tester nu om udbyttet ved katalysator B er enheder større end ved katalysator A. 0

17 0.4 Test og konfidensintervaller for binomialfordelte variable t-test: To stikprøøver med forskellig varians Variabel Variabel Middelvæærdi 87,693 83,4875 Varians,864579,73936 Observationer 0 8 Hypotese for forskel i middelvæærdi fg 8 t-stat,8573 P(T<=t) en-halet 0,754 H 0 accepteres, da P-værdi=0.57 < 0.05 t-kritisk en-halet, P(T<=t) to-halet 0,34508 t-kritisk to-halet, Det ses, at vi får de samme resultat som ved benyttelse af tabel. 0.4 Test og konfidensintervaller for binomialfordelte variable. Som nævnt i bind kan man ofte approksimere en binomialfordeling med en normalfordeling. Det er en sådan approksimation, som formlerne i appendix 0.5 bygger på. I praksis vil disse forudsætninger for approksimation sædvanligvis være opfyldt. Vi belyser anvendelsen af oversigten ved følgende eksempel. Eksempel 0.6. Binomialfordelingstest. Ved et forsøg der skulle afgøre om C - vitamin har en forebyggende virkning mod forkølelse, fik halvdelen af en gruppe på 80 franske skiløbere C - vitamin mens de øvrige fik kalktabletter (placebobehandling). Fordelingen skete randomiseret, og forsøgspersonerne var uvidende om gruppeinddeling og hvilket medikament de fik. Efter en passende tid optaltes hvor mange af forsøgspersonerne der var forkølede. Resultaterne kan ses af følgende skema: Forkølet Ikke forkølet Total C-vitamin 7 39 Kalktabletter Bemærk, at en enkelt forsøgsperson gled ud af forsøget, så grupperne blev ikke helt lige store. ) Kan det på et signifikansniveau på 5% vises, at C - vitamin har en forebyggende virkning? ) I bekræftende fald angiv er 95% konfidensinterval for differensen mellem parametrene.

18 0. Hypotesetestning ( statistiske variable) LØSNING: X = antal forkølede personer der har fået C-vitamin. X er binomialfordelt b(39, p ). X = antal forkølede personer der har fået Kalktabletter. X er binomialfordelt b(40, p ). Da vi ønsker at vise, at p < pbliver nulhypotesen H0: p pmod den alternative hypotese Hp : < p. Appendix 0.5 storrække anvendes : ~ x p 7, og. = = ~ x p 3 = = ~ x p + x = = = n 39 n 40 n + n Da n ~ p = = 39. [ 539 ; 5] og n ~ p = = 4. [ 540 ; 5] er forudsætningerne for at approksimere med normalfordelingen opfyldt. Vi finder af formel () 7 3 ~ p ~ p u = = = = 93. ~ p ( ~ p ) + + n n Da u 095 = 645 <.93 < u 099 = 36 (eller P - værdi = Φ( 93. ) = ) forkastes.... nulhypotesen ( enstjernet ), dvs. der er på signifikansniveau 5% vist, at C-vitamin har en vis forebyggende virkning mod forkølelse, Et 95% konfidensinterval for differensen p per ifølge appendix 0. række 8: ~ ~ ~ p ( ~ ) ~ ( ~ ) ~ ~ ~ ( ~ ) ~ ( ~ p p p p p p p ) p p u α + p p p p + u α + n n n n ( 0. ) 0. 3( 0. 3) 0. ( 0. ) 0. 3( 0. 3) + p p p p p p Excell har ikke direkte nogle programmer til beregningerne, så eneste mulighed er at beregne direkte ud fra formlerne.

19 0.5 Test og konfidensintervaller for Poissonfordelte variable 0.5 Test og konfidensintervaller for Poissonfordelte variable. Som nævnt i bind kan man ofte approksimere en Poisonfordeling med en normalfordeling. Det er en sådan approksimation, som formlerne i appendix 0.6 bygger på. I praksis vil disse forudsætninger for approksimation sædvanligvis være opfyldt. Vi belyser anvendelsen af oversigten ved følgende eksempel. Eksempel 0.7. Poissonfordelingstest. En bestemt type TV-apparat produceres på fabrikker A og B. Man har mistanke om, at der er forskel på antallet af loddefejl der findes i apparater fra de to fabrikker. For at teste dette, udtages af den løbende produktion stikprøver på 5 TV-apparater, og man optalte antallet af loddefejl i de 5 apparater. Resultaterne blev: Fabrik A: På 0 apparater fandtes i alt loddefejl Fabrik B: På 9 apparater fandtes i alt 7 loddefejl (et apparat måtte udskydes) Test på dette grundlag, om der er forskel på fejlintensiteten på de to fabrikker. LØSNING X = antal loddefejl pr. apparat på fabrik A. X antages Poissonfordelt p( µ ). X = antal loddefejl pr. apparat på fabrik B. X antages Poissonfordelt p( µ ). Da vi ønsker at vise, at µ µ bliver nulhypotesen :µ = µ mod den alternative hypotese H:µ µ. H 0 Appendix 0.6 storrække 3 anvendes : x x 7 x + x x,, og. = = x = = x = = = n 0 n 9 n + n Da n x = 0 9 = og n x = 9 9 = er forudsætningerne for at approksimere med normalfordelingen opfyldt. 7 Vi finder : x x u = = = = x + + n n Da u = 036. < u = 960. (eller P-værdi = PX ( > 036. ) = Φ ( 036. ) = 050. > 0. 05) ) accepteres nulhypotesen, dvs. man kan ikke på det grundlag vise, at der er forskel på fejlintensiteten på de to fabrikker, Excell har ikke direkte nogle programmer til beregningerne, så eneste mulighed er at beregne direkte ud fra formlerne. 3

20 0. Hypotesetestning ( statistiske variable) OPGAVER Opgave 0. T Det påstås at modstanden i en tråd af type A er større end modstanden i en tråd af type B. Til afklaring af denne påstand udtages ved et fuldstændigt randomiseret forsøg tilfældigt n tråde af hver type og deres modstande måles. Find det mindste antal n ) hvis man ønsker at P( fejl af type I ) = α 005., P( fejl af type II ) = β 005. og bagatelgrænsen er σ = 0. ohm, og man ved, at spredningen = 0. ohm. ) hvis man ønsker at P( fejl af type I ) = α 005., P( fejl af type II ) = β 005. og bagatelgrænsen er = 0. ohm, og man har en forhåndsformodning om, at spredningen er ca. =0. ohm. 3) Hvilke konklusioner vedrørende behandlingernes virkning kan gøres, såfremt man ved testning af forsøgsresultaterne finder a) signifikans b) ingen signifikans 4) Hvilke yderligere analyser af forsøgsresultaterne bør foretages, såfremt testningen a) viser signifikans b) ikke viser signifikans. Opgave 0. I et forsøg ønsker man at sammenligne udbyttet ved benyttelse af reaktortyper. Man ønsker at kunne påvise eventuelle forskelle i middeludbytte ned til ca. = 6.0. Find den mindste værdi af n = antal delforsøg med hver reaktortype, for hvilken P( fejl af type I ) = α 005., P( fejl af type II ) = β 00.. Man kender ikke spredningen eksakt, men mener, den højst er ca 7 enheder. Opgave 0.3 T Et levnedsmiddelfirma havde udviklet en diæt, som har lavt indhold af fedt, kulhydrater og kolesterol. Diæten er udviklet med henblik på patienter med hjerteproblemer, men firmaet ønsker nu at undersøge diætens virkning på folk med vægtproblemer. To stikprøver på hver 00 personer med vægtproblemer blev udtaget tilfældigt. Gruppe A fik den nye diæt, mens gruppe B fik den diæt, man normalt gav. For hver person blev registreret størrelsen af vægttabet i en 3 ugers periode. Man fandt følgende værdier for gennemsnit og spredning: Gruppe A: x A = 93. kg, s A = 467. Gruppe B: x B = 740. kg, s B = ) Undersøg om vægttabet for gruppe A er signifikant større end for gruppe B. Signifikansniveau α = 5%. ) Beregn et 95% konfidensinterval for differensen mellem de to gruppers middelværdier. Opgave 0.4 På et laboratorium undersøgtes filtreringstiden for en opløsning af et bestemt gødningsstof ved benyttelsen af to forskellige filtertyper (F ) og (F ). Følgende stikprøveværdier observeredes: (F ) (F ) Det antages, at filtrerinqstiderne X og X er normalfordelte n( µ, σ) og n( µ, σ) l) Test, om det kan antages, at σ = σ. ) Test under hensyntagen til det i l) fundne, om det kan antages, at µ = µ. σ 3) Opstil et 95% -konfidensinterval for: a) µ µ, b). σ σ 4

21 Opgaver til kapitel 0 Opgave 0.5 T Det påstås at modstanden i en tråd af type A er større end modstanden i en tråd af type B. Til afklaring af denne påstand udtages tilfældigt 6 tråde af hver type og deres modstande måles. Følgende resultater fandtes: Modstand i tråd A (i ohm) Modstand i tråd B (i ohm) Hvilke konklusioner kan drages med hensyn til påstanden? Opgave 0.6 I et laboratorium foretoges 5 uafhængige bestemmelser af furfurols kogepunkt, idet 8 af bestemmelserne foretoges af én kemiingeniør, de resterende bestemmelser af en anden kemiingeniør. Resultaterne var ( 0 C ) :. ingeniør ingeniør Undersøg, om de to ingeniørers resultater i middel er ens. Opgave 0.7 Med henblik på at sammenligne de farmakologiske virkninger af stofferne morphin og nalbuphin foretoges et fuldstændigt randomiseret forsøg, hvorved man på 0 forsøgspersoner målte ændringen i pupildiameter (millimeter) efter indsprøjtning af en standarddosis af en opløsning af morphin (M) eller nalbuphin (N). Forsøgsplan og forsøgsresultater var: M:.0 N: 0.0 M:.9 M:.0 N: 0.8 M: 0.8 M:0. N: N : 0.4 N: 0. Analyser forsøgsresultaterne og opstil et 95%-konfidensinterval for differensen µ ( M) µ ( N) mellem de to middelværdier. Opgave 0.8 En produktion af plastikvarer må omlægges på grund af bestemmelser i en ny miljølov. Ved den fremtidige produktion kan inden for miljølovens rammer vælges mellem pro- duktionsmetoder I og II. Metode I er den dyreste, og fabrikanten har regnet ud, at det (kun) kan betale sig at benytte metode I, såfremt den giver et middeludbytte, som er mindst 0 måleenheder (udbytteprocenter) større end udbyttet ved benyttelse af metode II. Ved et fuldstændigt randomiseret forsøg fandtes følgende måleresultater: Metode I Metode II Fabrikanten valgte herefter at benytte metode I. Foretag en undersøgelse af, om valget var statistisk velmotiveret. Opstil et 95% - konfidensinterval for differensen mellem middeludbytterne ved benyttelse af metoderne l og II. 5

22 0. Hypotesetestning ( statistiske variable) Opgave 0.9 T To sjællandske fabrikker producerer begge en bestemt type kvægfoder, for hvilken det ønskes, at proteinindholdet i færdigvaren skal være 6%. På de fabrikkers driftslaboratorier foretoges følgende målinger af proteinindholdet i en uges produktion: Fabrik Fabrik Foretag en statistisk vurdering af, om de to produktioner kan antages i middel at give kvægfoder med samme proteinindhold. Opgave 0.0 Måling af intelligenskvotient på 6 tilfældigt udvalgte studerende ved en diplom-retning (med mere end 00 studerende) viste et gennemsnit på = 07 og en empirisk varians på =00, medens en x s tilsvarende måling på 4 tilfældigt udvalgte studerende fra en anden diplomretning viste et gennemsnit på = og en empirisk varians på = 64. x s Tyder disse tal på en forskel på studentermaterialet på de to retninger? Opgave 0. l) 00 studerende, 5 piger og 48 drenge, indstillede sig til en prøve, ved hvilken 39 piger og 7 drenge bestod. Undersøg. om det anførte tyder på, at resultatet ved den pågældende prøve afhænger af deltagerens køn. ) Det oplyses supplerende, at pigerne ved ovennævnte prøve opnåede et gennemsnit på 64% med en empirisk spredning på 0%, medens drengenes gennemsnit var 59% med en empirisk spredning på 8%. Undersøg, om det anførte kan tages som vidnesbyrd om, at piger i almindelighed klarer sig bedre end drenge ved den omhandlede prøve. Opgave 0. T To sjællandske fabrikker producerer begge en bestemt type kvægfoder, for hvilken det ønskes, at proteinindholdet i færdigvaren skal være 6%. For den omhandlede produktion er der fastsat en øvre og en nedre tolerancegrænse for proteinindholdet. Partier med et proteinindhold uden for toleranceintervallet klassificeres som "dumpere". I en 3-måneders periode havde fabrik af en produktion på 60 foderstofpartier 5 dumpere, medens fabrik af en produktion på 00 foderstofpartier havde dumpere. Kan det heraf statistisk konkluderes, at dumpeprocenten i middel har været størst for fabrik? 6

23 Opgaver til kapitel 0 Opgave 0.3 To virksomheder A og B fremstiller dåser med nominelt 00 g rejeost. 0 tilfældigt udtagne dåser fra A's produktion og 0 tilfældigt udtagne dåser fra B's produktion viste føgende resultater: Virksomhed A B Totalt antal rejer 8 6 Gennemsnittet x af nettoindhold 0. g 98.3 g Empirisk spredning s af nettoinshold.0 g.7 g ) Test, om det gennemsnitlige antal rejer pr. dåse kan antages at være det samme for virksomhedernes produktion. ) Test, om det gennemsnitlige nettoindhold i en dåse kan antages at være det samme for virksomhedernes produktion. Opgave 0.4 ) Mange forbrugere tror, at såkaldte "mandagsbiler", dvs. biler produceret om mandagen, har flere alvorlige fejl end biler produceret på ugens øvrige arbejdsdage. For at undersøge, om der er noget grundlag for denne tro, udtog man på en bilfabrik tilfældigt 00 "mandagsbiler" og undersøgte dem for fejl. Man fandt at 8 biler havde alvorlige fejl. Tilsvarende udtog man tilfældigt 00 biler, der var produceret på ugens øvrige arbejdsdage, og man fandt biler, der havde alvorlige fejl. Giver denne undersøgelse støtte til formodningen om, at "mandagsbiler" er af dårligere kvalitet end andre biler. ) De 00 ovennævnte "mandagsbiler" havde i alt 030 konstaterede større eller mindre enkeltfejl, medens de 00 ovennævnte andre biler i alt havde 899 konstaterede fejl. Tyder dette på, at der er forskel i fejlintensiteten på bilerne i de to grupper? Opgave 0.5 Ved en undersøgelse af en eventuel sammenhæng mellem luftforurening og forekomsten af lungecancer sammenlignedes bl.a. sygdommens forekomst i byen X - købing inden for den gamle bygrænse (i nærheden af byens industrivirksomheder) med dens forekomst i samme bys forstadsområde (villakvarter): Antal tilfælde af lungecancer Samlet indbyggerantal Indre by Forstadsområde ) Det ses. at den relative hyppighed af cancertilfælde i den indre by afviger fra den relative hyppighed i forstadsområdet. Kan dette forklares som et tilfældigt udsving? Den opstillede nulhypotese. som testes, ønskes specificeret med angivelse af den alternative hypotese. ) Diskuter muligheden for at drage årsagsmæssige konklusioner ud fra det fundne testresultat. 7

24 . Regressionsanalyse ENKELT REGRESSIONSANALYSE. Indledning I dette kapitel betragtes forsøg, hvor man har målt sammenhørende værdier af to variable x og y. Det følgende eksempel demonstrerer et sådant tilfælde. Eksempel. I et spinderi udtrykkes garnets kvalitet bl.a. ved en norm for den forventede trækstyrke. Kvaliteten anses således for at være i orden, hvis middeltrækstyrken mindst er lig med 0 måleenheder (me). Ved uldgarn opfylder garnets naturlige trækstyrke ikke det nævnte kvalitetskrav, hvorfor der tilsættes en vis mængde kunstfibre, hvilket forøger trækstyrken. Herved sker der dog det, at andre kvalitetsegenskaber, såsom elasticitet og isoleringsevne, forringes. Man har eksperimenteret med forskellige tilsatte mængder kunstfibre x og registreret garnets trækstyrke y ved disse forskellige mængder. Herved fremkom følgende observationsmateriale: Mængde x (i gram) af kunstfibre pr kg uld Trækstyrke (me): Y Mængden af kunstfibre x er blevet bestemt på forhånd (har fået ganske bestemte værdier), så den er ikke en statistisk variabel. Trækstyrken Y synes derimod udover mængden af kunstfibre også at være påvirket af andre ukendte og ukontrollable støjfaktorer. Y må derfor opfattes som en statistisk variabel. I andre situationer er både X og Y statistiske variable. Dette gælder eksempelvis, hvis man ønsker at undersøge om der er en sammenhæng mellem personers højde Y og vægt X, og derfor for en række personer måler sammenhørende værdier af højde og vægt. Er den ene variabel som i eksempel. en (kontrolleret) ikke statistisk variabel, så har man mulighed for hver x- værdi, at foretage gentagne målinger af den statistiske variabel Y (randomiseret). Dette giver mulighed for at beregne et estimat for den spredning der skyldes støjen, hvilket (som det vises i afsnit.3.6) kan udnyttes i regressionsanalysen... Valg af model, der bedst mulig beskriver de fundne data. Betragtes igen eksempel. ville man umiddelbart sige, at da man har 5 punktpar, så vil et polynomium af fjortende grad gå igennem alle punkter, og det må derfor være en god model. Dette er imidlertid ikke tilfældet, da Y - værdierne jo er resultater af forsøg der er påvirket af ukontrollable støjkilder. Polynomiets koefficienter vil derfor afspejle disse tilfældige udsving, og det giver derfor en ganske meningsløs model. Endvidere er modellen alt for matematisk kompliceret til at kunne bruges i praksis. Vi søger derfor en enklere model. 8

25 . Valg af model, der bedst mulig beskriver de fundne data...lineær model. Ved en lineær model forstås her en model der er lineær med hensyn til parametrene. Et polynomium af. grad y = a + bx + cx er således lineær i de 3 parametre a, b og c (selv om grafen naturligvis ikke er en ret linie). Et andet eksempel er y = a + b P + c T, hvor den afhængige variable afhænger af to uafhæn- gige variable temperatur T og tryk P. Vi har så en såkaldt multipel regressionsanalyse. Som et eksempel på en model der ikke er lineær i parametrene kan nævnes y = a + bx c. Ved en regressionsanalyse søger man at finde den lineære model, som indeholder det færreste antal koefficienter (parametre), og som samtidig beskriver dataene tilstrækkelig godt. Vi vil i dette kapitel betragte det ved anvendelserne meget ofte forekomne tilfælde, som kaldes enkelt regressionsanalyse, og hvor modellen er lineær i parametre. Som eksempler herpå kan nævnes y = a + bxog ln y = a + b ln x. Benyttes et egentligt statistikprogram (som eksempelvis Statgraphics) til beregningsarbejdet, kan metoderne herfra nemt overføres til mere komplicerede regressionsmodeller som: 3 p Y = α + β x+ β x + β x β x og Y = α + β x + β x + β x + β x. 0,5 3 p Regressionslinie og regressionskoefficienter. Lad os antage, at der foreligger en række målinger af sammenhørende værdier af to størrelser x og y. Som eksempel herpå betragter vi igen dataene i eksempel.. Afsættes de målte punktpar ( x, y i ) i et koordinatsystem for at få et overblik over forløbet, fås følgende tegning: Plot of styrke vs kunstfibre 0,5 styrke 8,5 6,5 4, kunstfibre Punkterne ligger ikke eksakt på en ret linie, men det synes rimeligt at antage, at afvigelserne fra en ret linie kan forklares ved den tilfældige variation (støjen). Derfor er det nærliggende at antage, at middelværdien af den statistiske variable Y er en lineær funktion af x af formen EYx ( )= β + β x. () 0 9

26 . Regressionsanalyse EYx ( ) skal læses middelværdien af Y for fastholdt x. Vi vil i det følgende ofte i ligningen () kort skrive Y eller µ fremfor EYx ( ). koefficienten β kaldes regressionskoefficienterne. Mens middelværdien af Y ligger på regressionslinien, kan den aktuelle observerede værdi af Y ikke forventes at ligge på den. For et punktpar ( x, y i ) gælder derfor, at y = β + β x + ε, hvor kaldes den i te residual. i 0 i i ε i..3.bestemmelse af regressionslinien ved mindste kvadraters metode. ~ ~ På basis af en række sammenhørende værdier af x og y bestemmes estimatorer β 0 og β for regressionskoefficienterne ved mindste kvadraters metode. Det følgende eksempel viser metoden anvendt på et så (urealistisk) lille taleksempel, at regningerne kan gennemføres uden anvendelse af et egentligt regressionsprogram.. De angivne metoder kan imidlertid umiddelbart generaliseres til mere komplicerede eksempler. Eksempel.. Bestemmelse af regressionskoefficienter ved mindste kvadraters metode. I et medicinsk forsøg måles på en forsøgsperson sammenhørende værdier af en bestemt medicin i blodet (i %) og reaktionstiden. Resultaterne var: x y Bestem ved mindste kvadraters metode et estimat for regressionslinien. Ligning () kaldes regressionsligningen (eller den teoretiske regressionsligning), grafen kaldes for regressionslinien (eller den teoretiske regressionslinie), og konstantledet og hældningsβ 0 Residual. Ved et punkts residual til en linie forstås den lodrette afstand fra punktet til linien (se tegningen). På figur. er afsat de 5 punkter, og indtegnet en ret linie. Figur. Residualer 0

27 . Valg af model, der bedst mulig beskriver de fundne data Mindste Kvadraters metode. Regressionslinien ~ ~ ~ y = β + β x bestemmes som den af alle 0 mulige rette linier, for hvilket summen af kvadratet af residualerne til linien er mindst. I eksempel. er kvadratsummen r + r + r3 + r4 + r5. Løsningen af dette optimeringsproblem er angivet nedenfor (med petit). Bestemmelse af regressionsligningen ved mindste kvadraters metode LØSNING: I vort tilfælde hvor vi har 5 punkter, indsættes vi disse i ligningen y = ~ β + ~ 0 βx. Dette giver: ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ = β0 + β, = β0 + β, 4 = β0 + β 3, 9 = β0 + β 6, 7 = β0 + β 8. ~ ~ De 5 ligninger med ubekendte β og β kan i matrixnotation skrives: 0 Y = X B hvor Y = X = og B = ~ β 0 4, 3 ~ β ~ ~ De søgte værdier af β0 og β findes som den løsning til dette overbestemte ligningssystem som giver den mindste RMS - fejl. Løsningen er (se evt. Matematik for ingeniører bind 3) bestemt ved T T normalligningssystemet X X B = X Y. Da matricen X T X er en kvadratisk symmetrisk matrix, som sædvanligvis ved regressionsanalyse har en invers matrix ( X T X), så er løsningen B X T T = ( X) X Y. I vort taleksempel er B = = Regressionsligningen bliver følgelig y = x. = = = I praksis vil man benytte et færdigt program til bestemmelse af regressionskoefficienterne. Dataene indtastes enten i en lommeregner med regressionsprogram (som TI83) eller i et statistikprogram. I Statistiske Grundbegreber er der i appendix A for en række lommeregnere angivet, hvorledes man kan finde et estimat for korrelationskoefficienten r. Samtidig hermed beregner programmerne regressionskoefficienterne. ~ ~ I ovenstående tilfælde vil man således af disse programmer finde, at β 0 = 06. og β = 0. Liniens ligning bliver altså ~ ~ ~ y = β0 + βx = x

28 . Regressionsanalyse..4. Vurdering af om model beskriver data godt. Det er altid muligt ved mindste kvadraters metode at finde en sådan mindste kvadraters linie. Det er den af alle rette linier, der har den mindste kvadratsum af residualerne, men det betyder ikke nødvendigvis, at linien så også er en rimelig model, som kan anvendes til at beskrive sammenhængen. Til vurdering (eventuel test) heraf foretages følgende: a) Tegning. Mindste kvadraters linie tegnes linien i et koordinatsystem sammen med punkterne. Hvis den lineære model skal beskrive dataene godt, skal punkterne fordeler sig tilfældigt omkring linien. b) Model med gentagelser. Hvis der til hver x - værdi er foretaget gentagne målinger af y har man (jævnfør afsnit.3.4) mulighed for at beregne et estimat for den spredning der skyldes støjen. Den benyttes så til at foretage en statistisk test af om modellen kan accepteres ( lack of fit test ). b) Model uden gentagelser. Er der ingen gentagelser kan man ikke foretage en lack of fit test. I stedet vil man udregnes forklaringsgraden (også kaldet determinationskoefficient) r. Den angiver et talmæssigt mål for hvor tæt punkterne ligger på linien. Definitioner: SAK total = sum af kvadrater af residualerne til den vandrette linie y = y, SAK residual = sum af kvadrater på de enkelte punkters afstand fra den fundne regressionslinie SAK regression = sum af kvadrater af regressionsliniens afstand fra det totale gennemsnit y. Endvidere gælder følgende frihedsgradstal: SAK total har frihedsgradstallet f total = (totale antal punkter) - SAK residual har frihedsgradstallet f residual = (totale antal punkter) - SAK regression har frihedsgradstallet f regression = (antal koefficienter i ligningen) - Der gælder generelt, at SAK total = SAK residual + SAK regression, og f total = f residual + f regression Forklaringsgraden r er bestemt ved SAK r regression SAK total SAK residual SAKresidual = = = SAKtotal SAKtotal SAK total Anskuelig forklaring: Hvis Y er uafhængig af x vil regressionslinien være vandret med ligningen y = y. Det betyder igen at SAK residual SAK total og dermed at r 0. Hvis derimod Y er lineært afhængig af x vil regressionslinien have en hældning forskellig fra nul. Det betyder igen at, og dermed at. SAK residual < < SAK r Man siger også, at den fundne model forklarer r 00% af den totale variation De enkelte SAK-størrelser kan anskueligt ses på figur.. total

29 . Valg af model, der bedst mulig beskriver de fundne data Figur.. SAK - størrelser Det følgende enkle taleksempel belyser yderligere ovennævnte grundlæggende begreber. Eksempel.3. Beregning af forklaringsgrad (fortsættelse af eksempel.) Beregn de grundlæggende SAK-størrelser og forklaringsgraden for forsøget i eksempel. direkte ud fra definitionerne. LØSNING: Idet y = = 46. er de 5 punkters residualer til den vandrette linie y = y. 5 r = 46. = 6., r = 46. = 36., r = = 06., r = = 44., r = = SAK total = r + r + + r5 = = Vi får Frihedsgradstallet for SAK total er f total = (totale antal punkter) - = 5 - = 4 Residualerne til den fundne regressionslinie y = x: r = (. 06+ ) = 04., r = (. 06+ ) = 6., r3 = 4 ( ) = 04., r = 9 ( ) = 4., r = 7 ( ) = r r r5 SAK residual = = ( 6. ) ( 6. ) =. Frihedsgradstallet bliver f residual = (totale antal punkter) - = 5 - = 3. (jævnfør, at det overbestemte ligningssystem har 5 ligninger og ubekendte ). Residualerne for regressionslinien y = x s afstand fra det totale gennemsnit y =4.6. r = = 30., r = = 0., r3 = = 0., r4 = = 0., r5 = = 40.. SAK regression = r + r r = ( 30. ) + ( 0. ) + ( 0. ) = 34 5 Frihedsgradstallet bliver f regression = (antal koefficienter i ligningen) - = - = SAK regression 34 Forklaringsgraden r = = = SAK 45 total. Den fundne model forklarer 75.% af den totale variation. 3

30 . Regressionsanalyse Sædvanligvis finder man, at den fundne model på tilfredsstillende måde beskriver data, hvis forklaringsgraden er på over 70% samtidig med, at tegningen viser, at punkterne fordeler sig tilfældigt omkring den fundne regressionskurve. At man ikke alene kan stole på forklaringsgraden illustreres ved følgende eksempel. Eksempel.4.Grafisk vurdering af model. De følgende 4 figurer afspejler forskellige muligheder. styrke Plot of Fitted Model,5 0,5 8,5 6,5 4, kunstfibre Figur.3a: r = r = 9.9% y Plot of Fitted Model x Figur.3b: r = 0.96 r =9.6% I y Plot of Fitted Model x Figur.3c: r = 0.78 r = 7.73% y Plot of Fitted Model x Figur.3d: r = 0.9 r = 5.4% figur.3a synes den lineære model at kunne beskrive dataene godt, idet punkterne fordeler sig tilfældigt omkring linien, og forklaringsgraden r = 9.9% er høj. I figur.3b er forklaringsgraden også høj, og punkterne ligger da også tæt ved linien. Imidlertid ligger punkterne ikke tilfældigt omkring linien. Yderpunkterne ligger over og de midterste punkter under linien, så det er næppe rimeligt at anvende en ret linie som model. I stedet kunne man overveje en eksponentialfunktion eller et andengradspolynomium. I figur.3c er der næppe nogen relation mellem x og y. Er x og y uafhængige (ingen relation mellem x og y) vil punkterne fordele sig tilfældigt omkring gennemsnitslinien y = y, og for- klaringsgraden være 0. Vi ser, at regressionslinien er næsten vandret, og forklaringsgraden ringe. I figur.3d er forklaringsgraden også lille, men alligevel må vi antage at der er en sammenhæng mellem x og y. Den er blot ikke lineær, men muligvis en parabel. 4

31 . Valg af model, der bedst mulig beskriver de fundne data c) Outliers. Hvis en enkelt eller to målinger afviger kraftigt fra den almindelige tendens kan det skyldes fejlmålinger. Da sådanne punkter i uheldige tilfælde på grund af et stort bidrag til residualsummen kan få regressionslinien til at dreje er det vigtigt at undersøge på en figur om sådanne punkter findes. Det er dog klart, at man ikke blot kan stryge sådanne ubehagelige punkter. Det må kun ske, hvis man er sikker på, at punktet skyldes en fejl af en eller anden art ved målingen. d) Transformation. I eksempel.4 har vi set tilfælde på at der nok er en sammenhæng mellem x og y, men den ikke kan beskrives ved en ret linie. Man vil så søge efter en anden model som kan beskrive sammenhængen. Det er velkendt fra matematikken, at graferne for eksponentialfunktioner og potensfunktioner ved en passende logaritmisk transformation kan blive til rette linier. Eksempelvis vil en eksponentialfunktion y = ae bx ved en logaritmisk transformation ln y = lna+ bx blive lineær hvis man erstatter y - værdierne med ln y. Statistikprogrammer og også en del lommeregnere kan let foretage en regressionsanalyse i sådanne tilfælde. I eksempel.8 er et sådant eksempel gennemgået. Sammenhæng mellem korrelationskoefficient og forklaringsgrad. Hvis både X og Y er normalfordelte statistiske variable (som eksempelvis når man aflæser sammenhørende værdier af højde og vægt for en række personer) angiver korrelationskoefficienten ρ (jævnfør eventuelt Statistiske Grundbegreber kapitel 0) en størrelse mellem - og som kan anvendes til at angive om der er en sammenhæng (korrelation) mellem X og Y. Den er således negativ hvis punkterne har en aftagende tendens. Et estimat for ρ er størrelsen r. Kvadreres den er r den samme som forklaringsgraden. Hvis kun Y er en statistisk variabel eksisterer ρ ikke, men r kan naturligvis stadig udregnes, men er så ikke estimat for ρ. Ekstrapolation. Selv om modellen synes på tilfredsstillende måde at beskrive data, så er det jo faktisk kun sikkert indenfor måleområdet. Man skal være yderst forsigtig med at ekstrapolere, dvs. på basis af modellen for x - værdier udenfor måleområdet beregne hvad y er. 5

32 . Regressionsanalyse.3 Statistisk analyse af lineær regressionsmodel..3. Forudsætninger for regressionsanalyse: De foregående betragtninger kræver ingen statistiske forudsætninger, idet man jo altid ved mindste kvadraters metode kan beregne regressionskoefficienterne, derefter beregne korrelationskoefficienten, tegne kurver og punkter ind i et koordinatsystem og så herudfra vurdere om modellen er acceptabel. Ønsker vi at foretage en nøjere statistisk analyse som eksempelvis at teste om Y er uafhængig af x, dvs. af om β = 0", eller opstille konfidensintervaller for β osv. må observationerne opfylde følgende krav: Forudsætninger for regressionsanalyse: ) De enkelte observationer er indbyrdes uafhængige (eksempelvis hvis der udføres flere y i målinger for samme mængde medicin skal de være indbyrdes uafhængige, ligesom det også skal gælde målinger baseret på forskellige mængder medicin. Punkt kan opfyldes ved en hensigtsmæssig forsøgsplan. I eksempel. skal man således være sikker på at den foregående dosis medicin er ude af blodet inden man foretager en ny indsprøjtning, ligesom forsøgene skal være randomiseret. Man kan nok i dette tilfælde betvivle uafhængigheden, hvis man udfører forsøgene på samme person. ) For hver værdi af x er Y = E( Y x) + ε = β + β x + ε, hvor residualen er en statistisk 0 ε variabel som forudsættes, at være normalfordelt med middelværdi 0 og konstant varians σ. Da V( Y) = V( β0 + βx + ε) = V( β0 + βx) + V( ε) = 0 + σ betyder kravet om konstant varians, at variansen af Y skal være den samme uafhængig af x s værdi, dvs. der forudsættes varianshomogenitet. Kravene i punkt er sædvanligvis opfyldt i praksis, da det heldigvis er sådan, at analysen stadig er gyldig, selv om der forekommer mindre afvigelser (testene er robuste overfor kravet normalitet og varianshomogenitet). Det er derfor unødvendigt at lave ekstra forsøg m.m. for at kunne kontrollere om kravene er opfyldt. Er man i tvivl om kravet om normalitet er rimeligt opfyldt, kan man få et indtryk af, om der er alvorlige afvigelser, ved at tegne et normalfordelingsplot (vises i eksempel.7) Har vi for hver x - værdi målt flere y - værdier kan vi teste kravet om varianshomogenitet på ganske samme måde som ved variansanalyse (vises også i eksempel.7). Hvis der er det samme antal gentagelser for hver x - værdi er analysen så robust overfor afvigelser, at man kun behøver at kontrollere det, hvis man har en stærk mistanke til store forskelle. Er der derimod et forskelligt antal gentagelser, bliver analysen følsom overfor afvigelser. 6

33 .3 Statistisk analyse af lineær regressionsmodel.3.. Test af, om Y er uafhængig af x. Til hjælp ved analysen udarbejdes en såkaldt variansanalysetabel, som på overskuelig form samler de væsentligste teststørrelser. En sådan er angivet nedenfor. Her er N antallet af punkter, og i parentes er angivet de tilsvarende engelske betegnelser : SS = Sum of Squares, df = degree of freedom. Variation (Source) SAK (SS) f (df) s = SAK F = f s s model residua P - værdi Regression SAK model s model SAK model = F model = s s model residual P(Z > F model ) Residual SAK residual N - s residual = SAK residual N Total SAK total N - Den statistiske variabel Z er F - fordelt med frihedsgraderne ( ft, f N ) = (, N ). Vi har i forbindelse med beregningen af forklaringsgrad forklaret betydningen af SAK størrelserne Lad os antage, at de i afsnit.. angivne forudsætninger er opfyldt, og at vi ved de i forrige afsnit beskrevne metoder har fundet, at modellen EYx ( )= β + β x. (.) 0 gælder. Dette medfører, at punkterne burde ligge eksakt på en ret linie (og dermed forsøgsresultaterne havde været påvirket af støjen. Et estimat for forsøgsfejlens varians er derfor. σ s residual s residual = 0 ) hvis ikke Hvis Y er uafhængig af x betyder det, at regressionslinien er vandret, eller at hældningskoefficienten β er 0. Vi får altså: H 0 :Y er uafhængig af x H : Regressionslinien er vandret H : β =. Er H 0 sand, så burde (jævnfør definitionen af SAK regression ) s regression være nul. Når det ikke er tilfældet skyldes det, at forsøgsresultaterne har været påvirket af støjen. Af samme grund som før må derfor også være et estimat for. s regression sregression Vi har følgelig, at hvis H 0 er sand, så er F. regression = sresidual Det kan vises, at hvis nulhypotesen ikke er sand, så vil F regression > Testen bliver følgelig en ensidet F - test. I eksempel.5 vises opstilling og testning på det lille taleksempel., mens de følgende eksempler viser, hvorledes beregningerne kan foretages på større og mere realistiske eksempler. σ 7

34 . Regressionsanalyse Eksempel.5. Test af uafhængighed (fortsættelse af eksempel.3) Idet det forudsættes, at forudsætningerne for regressionsanalysen er opfyldt, ønskes testes om data fra forsøget i eksempel. viser, at Y er uafhængig af x, eller anderledes udtrykt om hældningskoefficienten for linien er nul LØSNING: H 0 :Y er uafhængig af x H0: Regressionslinien er vandret H0: β = 0. Variansanalysetabel opstilles (SAK-erne er beregnet i eksempel.3): Variation (Source) SAK (SS) f (df) SAK s = f F = s s model residua P - værdi Regression = = Residual = Total Da F 095. (,) 3 = 0. > F = 9. (eller P - værdi = P (F > 9.) = ) har vi en accept af nulhypotesen, dvs. vi kan ikke afvise, at y er uafhængig af x (at hældningskoeficienten er 0). Konfidensintervaller og prædistinationsintervaller. Et led i analysen kan være,at udregne et 95% konfidensinterval for. Endvidere vil man ofte β være interesseret i en speciel værdi for x, for hvilken man ønsker beregnet såvel den tilsvarende forventede y - værdi (predicted value ) som et 95% -konfidensinterval for middelværdien ~ µ og et 95% prædiktionsinterval for én ny observation. I appendix. er angivet formler for bl.a. disse konfidensintervaller. På figur.4 er her tegnet 95% konfidensintervaller for middelværdierne (de inderste buede kurver), og 95% prædiktionsintervaller (de yderste to kurver). Man ser tydeligt, at konfidensintervallerne er smallest omkring centrum ( x, y). 8 y Plot of Fitted Model x Figur.4. Konfidensintervaller og prædistinationsintervaller

35 .3 Statistisk analyse af lineær regressionsmodel.3.3. Enkelt regressionsanalyse med én y - værdi for hver x værdi. For større datamaterialer er det alt for tidskrævende at foretage beregningerne manuelt. Derfor vil vi i dette afsnit forudsætte, at man enten har en lommeregner med regressionsprogram (afsnit.3.) eller et regneark som Excel, der automatisk udregne de relevante størrelser, og man skal så blot tolke udskriften. Alle egentlige statistikprogrammer kan naturligvis endnu simplere udregne de nødvendige beregninger Regressionsanalyse beregnet ved hjælp af lommeregner med Regressionsprogram. De forskellige typer lommeregnere har mere eller mindre avancerede regressionsprogrammer. Formlerne i appendix. kræver dog ikke andet, end hvad selv et meget enkelt regressionsprogram har. Eksempel.6 Regressionsanalyse regnet på lommeregner(uden gentagelser). I et spinderi udtrykkes garnets kvalitet bl.a. ved en norm for den forventede trækstyrke. Kvaliteten anses således for at være i orden. hvis middeltrækstyrken mindst er lig med 0 måleenheder (me). Ved uldgarn opfylder garnets naturlige trækstyrke ikke det nævnte kvalitetskrav, hvorfor der tilsættes en vis mængde kunstfibre, hvilket forøger trækstyrken. Herved sker der dog det, at andre kvalitetsegenskaber, såsom elasticitet og isoleringsevne, forringes. Man har eksperimenteret med forskellige tilsatte mængder kunstfibre x og registreret garnets trækstyrke y ved disse forskellige mængder. Herved fremkom følgende observationsmateriale: Mængde x (i gram) af kunstfibre pr kg uld Trækstyrke (me): Y ) Opskriv regressionsligningen. r ) Beregn forklaringsgraden og anvend denne samt en figur på lommeregnerens grafiske display (eller figur.3a) til vurdering af modellen. Der antages i det følgende at regressionsforudsætningerne er opfyldt. 3) Opskriv en variansanalysetabel, og test om Y er uafhængig af x. 4) Angiv et konfidensinterval for hældningskoefficienten β. 5) Opstil et 95% konfidensinterval for middeltrækstyrken svarende til x - værdien 00. 6) Opstil et 95% prædistinationsinterval for middeltrækstyrken svarende til x - værdien 00. LØSNING: De nødvendige formler findes i appendix.. De 5 punktpar indtastes i en lommeregner, og et regressionsprogram aktiveres. Blandt de beregnede størrelser findes: x = og s x = 6.38, y = og s y =.98. ~ ~ Endvidere findes estimater for regressionskoefficienter: β0 = og β = og korrelationskoefficienten r = ) Den estimerede regressionsligningen bliver y = x ) Forklaringsgraden er r = = Da punkterne på figuren fordeler sig tilfældigt omkring linien og der ikke er enkelte punkter (outliers) der afviger voldsomt fra linien, og forklaringsgraden samtidig er tæt på, så er den lineære model acceptabel. 9

36 . Regressionsanalyse 3) Man udregner SAK total = ( N ) s y = ( 5 ) = , SAK = r SAK = = 697. regression total SAKresidual = SAK total SAK regression Variansanlysetabel udfyldes: Variation (Source) SAK (SS) f (df) s = og = = SAK f Regression Residual Total H : y er uafhængig af x H : Model = 0 H : β = H 0 forkastes (stærkt), da Fregression = > F0999. ( 3, ) = 7. 8 (eller P - værdi = PZ ( < ) = < 0.00) Y er ikke uafhængig af x. SAK 4) SAK = regression = 697. ~ ~ s =, x ( ) residual V β = = = ~ SAKx ( ) β β ( ) Konfidensinterval for : ~ ~ ~ β ± t ( 5 ) V β = ± = ± [ ; ] ~ 5) Til x - værdien 00 er et estimat for middelværdien µ = = 9.80 ~ ( ~ ( ) V ) x x µ = sresidual + N SAKx ~ Konfidensinterval for µ : (. ) = ( ) F = ~ ~ µ ± t ( 5 ) V ~ µ = ± = ± [ ;. ] 6) Prædinistationsinterval for ny observation svarende til x - værdien 00. x x ( ) ( ) Q = s. residual + + = = N SAKx ~ µ ± t ( 5 ) Q = ± = ± [ ;. ] 30

37 .3 Statistisk analyse af lineær regressionsmodel Regressionsanalyse beregnet ved Excel. De nødvendige Excel - ordrer findes i appendix B Eksempel.7. Regressionsanalyse regnet med Excel (uden gentagelser). Opgaven er den samme som i eksempel.6, idet der ønskes svar på følgende spørgsmål: ) Opskriv regressionsligningen. ) Vurdér modellen ved at se på forklaringsgraden r, og på en figur med punkterne indtegnet. undersøg endvidere om der kunne tænkes at være outliers. 3) Giv en grafisk vurdering af om kravet normalitet er opfyldt ved hjælp af et normalfordelingsplot. Det antages i det følgende, at regressionsforudsætningerne er opfyldt. 4) Test om Y er uafhængig af x. 5) Angiv et konfidensinterval for hældningskoefficienten β. 6) Opstil et 95% konfidensinterval for middeltrækstyrken svarende til x - værdien 00. 7) Opstil et 95% prædistinationsinterval for middeltrækstyrken svarende til x - værdien 00. LØSNING: Data indtastes på sædvanlig måde i to søjler. x y 40 4,5 50 6,5 55 5, , , 85 8,9 90 8, 95 0,3 00 9,6 05 0,8 0 0,5 0, 30 Vælg Funktioner, Dataanalyse, Regression Den fremkomne tabel udfyldes. Sædvanligvis er det ikke nødvendigt at udfylde alle felter, men for at kunne forstå de fremkomne udskrifter er dette sket her. Udskrifterne vises dog i en lidt anden rækkefølge. ) Regressionsligning: Udskrift : Koefficientefejl Standard- t-stat P-værdi Nedre 95% Øvre 95% Nedre Øvre 95,0% 95,0% Skæring, ,5784 3,6883 0,0080 0, , , ,05858 x 0, ,006565,693,77E-08 0, , , ,09408 ~ ~ Af udskriften ved Skæring aflæses β 0 = og ved x β = Regressionsligningen bliver derfor y = x 3

38 . Regressionsanalyse ) Vurdering af model: RESUMEOUTPUT Regressionsstatistik Multipel R 0,95880 R-kvadreret 0,9930 Justeret R-kvadreret 0,93093 Standardfejl 0, Observationer 5 Af udskriften ses, at forklaringsgraden R-kvadreret er , hvilket er tilfredsstillende, da modellen altså forklarer 9,93% af variationen. Nedenstående plot (som er blevet redigeret i forhold til det oprindelige tegning i Excel ) viser, at punkterne fordeler sig tilfældigt omkring linien. Endvidere synes der ikke at være nogen outliers (punkter der afviger så kraftigt fra det generelle billede, at man kunne frygte de var fejlmålinger) Linjetilpasningsplot y x y Forudsagt y Residualplot: Hvis modellen indeholder flere uafhængige variable (eksempelvis udbyttets afhængighed af temperatur og tryk) må man i stedet beregne residualerne og tegne et residualplot. Denne metode til at vurdere modellen er derfor mere generel. Af nedenstående plot af residualerne, ses, at de fordeler sig tilfældigt omkring 0 - linien. x Residualplot Residualer x 3

39 .3 Statistisk analyse af lineær regressionsmodel Outliers: Da undersøgelse af outliers er vigtig, har Excel endvidere beregnet såkaldte Standardresidualer, hvor man har normeret residualerne hvorved der tages hensyn til, at prædistinationsintervallerne er smallest tæt ved midtpunktet. Ligger en standardresidual numerisk udenfor enheder er der grund til at undersøge om den dertil svarende værdi skulle være en outliers. RESIDUALOUTPUT SANDSYNLIGHEDSOUTPUT Observation Forudsagt y Residualer Standardresidualer Fraktil y 5, , , , ,5 5, ,696476, ,4 3 6,030-0,8030 -,8586 6, ,5 4 6, , ,6365 3, ,4047 0,79859, , 6 7, ,9904 0, , , ,0044 -,764 43, , 8 8, , , , 9 8, ,7994 -,80 56, ,9 0 9, ,90095,449 63, ,6 9, ,9839-0, ,3 0,9788 0,60 0, , ,5 3 0, , ,559 83, ,8 4, ,9634-0,344 90, 5,953-0,953-0,375 96,66667 Da residualerne her ligger indenfor enheder på hver side, ses igen at der ikke er nogen outliers. Modellen synes på tilfredstillende måde at beskrive data. 3) Normalfordelingsplot: Forudsætningerne om uafhængige målinger og varianshomogenitet antages opfyldt. For at få et anskueligt billede af om resualerne er rimeligt normalfordelte afsættes residualerne i et koordinatsystem, hvor skalaen på y-aksen er normalfordelt. Så bør residualpunkterne tilnærmelsesvis ligge på en ret linie. Normalsandsynlighedsplot 5 0 y Stikprøvefraktil Da residualpunkterne på ovenstående normalfordelingsplot tilnærmelsesvis ligger på en ret linie antages forudsætningen om normalitet at være opfyldt. 33

40 . Regressionsanalyse 4) Test nulhypotesen H 0 : Y er uafhængig af x Ud for x i udskrift ses, at P - værdi = < 0.05, dvs. H 0 forkastes Y er ikke uafhængig af x. Man kunne i stedet opskrive en variansanalysetabel: ANAVA fg SK MK F Signifikans F Regression 6,9744 6, ,099,77E-08 Residual 3 5, ,4999 I alt 4 67,65733 Det ses, ud for Regression, at F = og at P-value = ~ 5) Konfidensinterval for β : , dvs. samme resultat. I udskrift ud for x under Nedre 95% og Øvre 95% aflæses [ ; ] I stedet kunne man benytte formlen for konfidensinterval: Ud for x under Standardfejl står ~ ~ V ( β ) = ~ ~ ~ β ± t ( 5 ) V β = ± = ± ( ) [ ; ] 5) 95% konfidensinterval for middeltrækstyrken svarende til x - værdien 00. Excel har desværre ikke beregnet dette, så vi må benytte formlen til beregningen. ~ Konfidensinterval for µ : ~ ~ ( ) ( ~ ) hvor ~ µ ± t V µ ( ~ ( x x) V ) µ = sresidual + N SAK x Til x - værdien 00 er et estimat for middelværdien ~µ 00 = = 9.80 ~µ 00 Kunne også beregnes ved ordren =TENDENS(B:B6;A:A6;00) =9,79839 s residual SAK x = = SAK mod β el (ses af ANAVA-Tabel), N = 5 (antal punkter),, hvor SAK = (ses ud for Regression i ANAVA-tabel) mod el og β = SAK x = = Endelig kan x beregnes som gennemsnittet af x - værdierne. x =MIDDEL(A:A6) =84,33333 ~ ( ~ ( x x) (. ) V µ ) = s... residual + = = N SAK x ~ Konfidensinterval for µ : ~ ~ ( ) ( ~ ) hvor ~ µ ± t V µ ( ~ ( ) V ) x x µ = sresidual + N SAK Her er s residual = (ses af ANAVA-Tabel), N = 5 (antal punkter), x 34

41 SAK x = SAK mod β el.3 Statistisk analyse af lineær regressionsmodel, hvor SAK = (ses ud for Regression i ANAVA-tabel) mod el og β = SAK x = = Endelig kan x beregnes som gennemsnittet af x - værdierne. x =MIDDEL(A:A6) =84,33333 ~ ( ~ ( x x) (. ) V µ ) = sresidual + = = N SAKx Man kan naturligvis slå disse regninger sammen, idet mellemresultaterne jo står i bestemte celler: ~ ( ~ ) =G3*(/5+(00-MIDDEL(A:A6))^/(F/E8^)) = 0,03858 ( ) ~ V ~ ( ) V µ ~ µ ± t 5 µ = ± = ± [ ;. ] 6) Prædinistationsinterval for ny observation svarende til x - værdien 00. x x ( ) ( ) Q = s. residual + + = = N SAKx ~ µ ± t ( 5 ) Q = ± = ± [ ;. ].3.4. Enkelt Regressionsanalyse med flere y - værdier for hver x - værdi. Hvis man selv fastlægger sine x - niveauer, er det ofte muligt for hver x -værdi, at foretage flere målinger af y - værdien. Vi siger kort at analysen er med gentagelser. Dette er således tilfældet i følgende eksempel: Eksempel.8 (F85) (regressionsanalyse med gentagelser) Metalpladers overflader oxideres i en ovn ved 00 0 C. Med henblik på en undersøgelse af sammenhængen mellem det oxiderede lags tykkelse y (i ångstrøm) og tiden t ( i minutter) foretog man følgende målinger: Tiden t Tykkelse y Fordelen herved er, at man nu kan få et estimat for forsøgsfejlens spredning ( støjen ), som kan anvendes til at teste, om den lineære model kan accepteres, når man tager støjen i betragtning. Endvidere kan man, hvis man finder det nødvendigt, teste om der er varianshomogenitet. 35

42 . Regressionsanalyse Test af model. For hver x-værdi beregnes gennemsnittet af de dertil hørende y-værdier. Disse gennemsnitspunkter bør ligge tæt på linien hvis modellen er god. Hvis modellen er den rigtige, så er den eneste grund til at gennemsnitspunkterne ikke ligger eksakt på linien, at der er støj. Vi kan derfor beregne et estimat (kaldet s lack of fit ) for variansen af denne støj ud fra de afvigelser som gennemsnitspunkterne har. Da vi samtidig ud fra gentagelserne kan beregne et andet estimat for støjen (kaldet s 0 ), har vi slack of fit mulighed for at teste de to varianser mod hinanden, ved en sædvanlig F - test Flackof fit = s0 Får vi her en forkastelse, kan gennemsnitspunkternes afvigelser fra linien ikke forklares alene ved støjen, og vi må derfor forkaste modellen. Vi vil belyse dette ved at regne det følgende eksempel.8 både med anvendelse af lommeregner og med anvendelse af Excel. Test af varianshomogenitet. Som tidligere nævnt, er analysen robust overfor afvigelser fra kravet om varianshomogenitet (konstant varians σ ), hvis der er lige mange gentagelser (som i dette forsøg). Man vil derfor kun foretage en vurdering af dette krav, hvis man ud fra forsøgets natur mener, at varianserne kan tænkes at være voldsomt forskellige. Har man ingen gentagelser, må man i alle tilfælde basere sig på sin viden om, at det er overvejende sandsynligt at der er nogenlunde samme varians. Vi vil derfor sædvanligvis i eksempler og øvelser undlade at foretage en testning. Er der ikke lige mange gentagelser, så bør man dog foretage en nøjere undersøgelse af kravet, da analysen så er følsom overfor afvigelser. For at demonstrere hvorledes en sådan testning kan foregå, vil den dog blive udført i de følgende to eksempler. Hvis man har et statistikprogram er en enkel måde til at vurdere varianshomogenitet, at betragte et residualplot: Da vi i eksempel.6 har gentagelser i hver af de 6 celler, ligger residualerne to og to symmetrisk omkring 0 - linien. På et residualplot kan vi derfor se om afstanden mellem disse 0 punktpar er nogenlunde den samme. Hvis det er tilfældet kan man derfor godt tillade sig at konkludere, at der er en rimelig varianshomogenitet. En anden enkel måde er at foretage en simplificeret F - test mellem den største og mindste varians. Får vi en accept herved går vi ud fra der er varianshomogenitet. Får vi en forkastelse, bør man gå over til de mere avancerede test, som blev nævnt under variansanlyse, og kan findes i appendix. 36

43 .3 Statistisk analyse af lineær regressionsmodel Regressionsanalyse beregnet med lommeregner med Regressionsprogram. Eksempel.9. Regressionsanalyse regnet på lommeregner (med gentagelser) Metalpladers overflader oxideres i en ovn ved 00 0 C. Med henblik på en undersøgelse af sammenhængen mellem det oxiderede lags tykkelse y (i ångstrøm) og tiden t ( i minutter) foretog man følgende målinger: Tiden t Tykkelse y Det antages, at målingerne y er værdier af uafhængige normalfordelte variable med samme varians. ) Foretag en testning af forudsætningen om varianshomogenitet. ) Det formodes på forhånd, at der er en lineær sammenhæng mellem x og y. Test denne formodning, og bestem i bekræftende fald ligningen for den empiriske regressionslinie. Det antages i det følgende, at der er en lineær sammenhæng mellem x og y. 3) I litteraturen vedrørende dette problem påstås, at hældningskoefficienten β er 0.5 Test om dette på et signifikansniveau på 5% kan være sandt. 4) Angiv et 95% konfidensinterval for middelværdien af tykkelsen y, når t = 00 minutter. LØSNING: De nødvendige formler findes i appendix.3. ) test af nulhypotesen H0: σ = σ =... = σk Estimater for varianserne beregnes: (i praksis er det hurtigst løbende at lægge varianserne sammen i et af regnemaskinens lagre.) Tiden t Tykkelse y s smax 880. Da F = = = 304. < F0. 975(, ) = (eller P - værdi = P( F > 3. 04) = 078. > 0. 05) smin 05. accepteres nulhypotesen, dvs. vi vil i det følgende antage, at forskellene i varians ikke er så store, at det ødelægger analysen. s + s sk 98. Vi får s0 = = = k 0 ) De N=n k = 0 = 0 punktpar ( x, y ) indtastes i lommeregner. i ij Regressionsprogram aktiveres, og blandt beregnede størrelser findes: ~ ~ Estimater for: Regressionskoefficienter: β0 = 654. og β = 0730., korrelationskoefficient r = 0.989, gennemsnit x = og spredning s y =

44 . Regressionsanalyse Man udregner SAK total = ( N ) s y = = , SAK = r SAK = = , regression Udfylder variansanlysetabel: total SAK0 = ( N k) s0 = ( 0 0) = 9. 8 SAK = SAK SAK SAK =.73 lack of fit total model 0 Variation (Source) SAK (SS) f (df) s = SAK f F Regression Lack of fit F lack of fit = = Gentagelser Total H 0 : Lineær model gælder H 0 :( x i, µ i ) ligger på en ret linie Da Flack of fit = 90. < F095. ( 80, ) = 307. (eller P - værdi = P( F >. 90) = > 0. 05) accepteres H 0, dvs. den lineære model gælder. Vi er dog så tæt på forkastelse, at en nærmere undersøgelse kan være rimelig. Den empiriske regressionslinie bliver: y = β + 0 β t = t ) H 0 : β = 05. SAKregression 486, 44 Beregner hjælpestørrelserne SAKx = ~ = = , ( ) β SAK + SAKlack of fit s pool = = = N 8 ~ ~ spool V ( β ) = = = , t = SAK x , β a ~ ~ V ( β ) H 0 forkastes, da t = 38. > t 7 =, dvs ( ). data giver ikke den i litteraturen angivne hældningskoefficient.. = = ) 95% konfidensinterval for middelværdien af tykkelsen y, når t = 00 minutter. Beregner hjælpestørrelserne ~ ~ ~ µ = β0 + βx = = 8. 95, 38 ~ ( ~ ( ) V ) x x µ = spool + N SAK x ( 00 86) = = ,

45 Konfidensinterval for µ :.3 Statistisk analyse af lineær regressionsmodel ~ ~ µ t ( ) ~ µ ; ~ α N V µ + t ( N ) V µ = = [ 8. 9; 9. 6] ~ ( ) ( ~ α ) [... ;... ] Regressionsanalyse regnet med Excel. Eksempel.0. Regressionsanalyse regnet med Excel (med gentagelser). Opgaven er den samme som i eksempel.9. LØSNING: ) Undersøgelse af varianshomogenitet. Excell har intet særligt program hertil, så det kan kun ske som angivet i eksempel.9 ) Vi vil teste H 0 : Lineær model gælder H 0 :( x i, µ i ) ligger på en ret linie Data indtastes søjlevis 0 4, 0 4,9 30 7,4 30 6,9 40 8,8 40 8, 60 3, , 70,4 90 4,9 90 6, , 0 3, 0 5, 50 7,5 50 5, 80 3,9 80 3,4 Opstilling af regressionsanalysetabel ANAVA fg SK MK F Signifikans F Regression 486, ,444 8,94,78E-6 Residual 8 3,5389, I alt 9 58,98 Da vi har gentagelser ignoreres den fremkomne udskrift i første omgang. For at få et estimat for støjen foretages nu en såkaldt ensidet variansanalyse som er nærmere beskrevet i kapitel, og hvortil ordrene kan ses i appendix A. For at kunne dette må data (desværre) omordnes til rækker 39

46 . Regressionsanalyse 0 4, 4,9 30 7,4 6,9 40 8,8 8, 60 3,6 70 3,,4 90 4,9 6,8 00 0, 0 3, 5, 50 7,5 5, 80 3,9 3,4 Vælg Funktioner, Dataanalyse, ANAVA: enkelt faktor Den fremkomne tabel udfyldes ) Inputområde udfyldes så hele området er med ) Markér rækker (da vi har arrangeret data i rækker) 3) Markér Etiketter i første række da første række jo er variabelnavne 4) I Outputområdet skrives øverste venstre celle i det ønskede outputområde. Udskrift: ANAVA Variationskilde SK fg MK F P-væærdi F krit Mellem grupper 509,7 9 67, ,9335 9,4E-0 3,0038 Inden for grupper 9,8 0 0,98 I alt 58,98 9 SAKlack of fit = SAKresidual SAKinden for grupper = ,8 =.78 med flack of fit = fresidual finden for grupper =8-0 = 8 Vi kan nu på basis heraf foretage en lack of fit test Variation (Source) SAK (SS) f (df) s = SAK f F Lack of fit F lack of fit = = Gentagelser Total Da Flack of fit = 90. < F095. ( 80, ) = 307. (eller P - værdi = P( F >. 90) = > 0. 05) accepteres H 0, dvs. den lineære model gælder. Vi ser, at vi (pånær afrundingsfejl) får samme udskrift som i eksempel.9. De resterende regninger er nu ganske analoge til regningerne i eksempel.7. Af udskriften Koeffici- Standard- t-stat P-værdi Nedre 95% Øvre 95% Nedre enter fejl 95,0% Øvre 95,0% Skæring, ,59958, ,096 0,39447,9383 0,39447,9383 X-variabel 0,7975 0, ,67564,78E-6 0,6030 0, ,6030 0,85648 ses, at regressionsligningen bliver y = x. 40

47 .3 Statistisk analyse af lineær regressionsmodel 3) Test af om det kunne tænkes, at hældningskoefficienten er 0.5. Vi betragte et 95% konfidensinterval for ~ β Af forrige udskrift fås intervallet [0.657 ; 0.857]. Da konfidensintervallet ikke indeholder 0.5, må der konkluderes, at hældningskoefficienten ikke kan være ) Find det til t = 00 svarende 95% konfidensinterval for tykkelsen y. Metoden som beskrevet i eksempel.7. ~µ 00 =TENDENS(M:M0;L:L0;00) =8,9565 (eller ~ µ ~ ~ 00 = β0 + βx = = 8. 95, ~ ( ~ ( ) V ) x x µ = spool + N SAK x µ Konfidensinterval for : = H37*(/0+(00-MIDDEL(L:L0))^/(G36/F4^)) = 0,09756 ~ ~ µ t ( ) ~ µ ; ~ α N V µ + t ( N ) V µ = = [ 8. 9; 9. 6] ~ ( ) ( ~ α ) [... ;... ] Vi får følgelig y(00) = 8.95 og 95% konfidensinterval [8,9 ; 9.6 ].3.5. Transformation af data inden lineær regressionsanalyse kan foretages. Ligger punkterne ikke tilnærmelsesvis på en ret linie, er det muligt, at man ved at vælge en passende transformation kan føre problemet over i en lineær model i de transformerede data. På visse lommeregnere såsom TI83 og HP48G kan man vælge mellem forskellige ofte anvendbare modeller. Man kan så hurtigt grafisk og ud fra forklaringsgraden se hvilken transformation, der bedst svarer til de opgivne data. Den samme facilitet har mange statistikprogrammer. I appendix.3 er angivet en liste med kommentarer over en række muligheder. Har man på forhånd en viden om, at en bestemt transformation skal anvendes, kan man uden større besvær foretage den pågældende transformation på dataene og så udføre regressionsanalysen på de transformerede data. Dette illustreres ved følgende eksempel. Eksempel. (Eksamensopgave F78 omskrevet)(transformation af udtryk). Ved et forsøg ønskedes en bestemt luftarts adiabateksponent γ bestemt ved, at luftarten adiabatisk komprimeres til forskellige forudvalgte rumfang v, idet de tilsvarende værdier af trykket P måltes. Man formodede på forhånd, at der gælder regressionsmodellen P= c v γ. Ved forsøget fandtes følgende resultater: v cm p kp/cm

48 . Regressionsanalyse Undersøg om formodningen er rimelig, og angiv ligningen for den fundne model ) ved at benytte en lommeregner med regressionsprogram. ) ved at benytte Excel. LØSNING: ) Lommeregner: Idet funktionen er en potensfunktion, tages logaritmen på begge sider (se evt. appendix.3 punkt 7). Vi får P= c γ v ln P= lnc γ lnv y = lnc γ x, hvor y = ln P og x = lnv Ved at tage logaritmen fås nu tabellen: x = ln v y = ln P De punktpar indtastes i lommeregner. Regressionsprogram aktiveres, og blandt beregnede størrelser findes: Estimater for regressionskoefficienter: ~ ~ β0 = ln( c) = og β = ν = og korrelationskoefficient r = Forklaringsgraden er r = = Indtegnes punkterne og regressionslinien i lommeregnerens grafiske display fås følgende figur, som viser, at punkterne på figuren fordeler sig tilfældigt omkring linien og der ikke er enkelte punkter (outliers) der afviger voldsomt fra linien. Da forklaringsgraden samtidig er tæt på, så er den lineære model acceptabel. 4 Plot of Fitted Model 3 y 0 4,6 4,9 5, 5,5 5,8 6, 6,4 x Figur.6 r = r = Den estimerede regressionsligning bliver ln( P) = ln( v) P = e v P = v

49 ) Excel løsning: Data indtastes v p ln_v ln_p 00 9,58 4,6057 3, ,4 5,00635, ,67 5,9837, ,48 5,546, ,9 5,70378, ,9 5,857933, ,63 5,99465, ,69 6,0948 0, ,95 6,4608, ,6 6, , , 6, , Statistisk analyse af lineær regressionsmodel Kolonnen med ln(v) beregnes ved at skrive =LN(A) og kopiere resultatet til alle celler. a) Regressionsligning: Findes af følgende udskrift: Koefficientefejl Standard- t-stat P-væærdi Nedre 95% ØØvre 95% Nedre ØØvre 95,0% 95,0% Skæring 0,6609 0, ,87968,E-07 9,04083,89 9,04083,89 ln_v -, ,450 -,6076 5,05E-07 -,853 -,8803 -,853 -, ln( P) = ln( v) P= e v P= v Kontrol af model: RESUMEOUTPUT Regressionsstatistik Multipel R 0,97838 R-kvadreret 0,94643 Justeret R-kvadreret 0, Standardfejl 0,476 Observationer r Vi ser, at forklaringsgraden Vi får følgende tegning: = er høj. ln_v Linjetilpasningsplot ln_p ln_v ln_p Forudsagt ln_p Lineær (Forudsagt ln_p) Da punkterne fordeler sig tilfældigt omkring linien, og forklaringsgraden er høj, synes forhåndsformodningen om en potensfunktion synes korrekt. 43

50 . Regressionsanalyse OPGAVER Opgave. T (E94 lettere omskrevet) Nedenstående tabel angiver sammenhørende værdier af den "radiale" afbøjning X (i milliradi aner) og den totale energiflux Y ( i kilowatt) på et solvarmeanlæg. x y x y Der er på en lommeregner med regressionsprogram fundet følgende hjælpestørrelser: x y Antal 9 9 Gennemsnit 6,70 49,638 Varians 0, ,355 Spredning 0,90883,8988 Korrelationskoefficient -0, ~ Regressionskoefficienter β = , β = Punkterne er afsat på nedenstående figur. Plot of y vs x y ) Begrund i ord på baggrund af figuren og forannævnte oplysninger, om du finder det sandsynligt, at der er uafhængighed mellem X og Y. I det følgende antages, at en lineær model y = β0 + βx gælder. ) Angivet 99% konfidensinterval for hældningen β. (Bemærk, der ønskes et 99% interval). 3) Beregn er 95% konfidensinterval for middelfluxen y i det tilfælde, hvor den radiale afbøjning x er 6.5 milliradianer. Hvis et statistikprogram er til rådighed, er det tilladeligt at anvende dette. x 44

51 Opgaver til kapitel Opgave. Man ønskede på et universitet at undersøge om der var en sammenhæng mellem de point de studerende fik ved en indledende prøve i matematik, og de point de fik ved den afsluttende prøve i matematik. Resultaterne var Student Indledende prøve x Afsluttende prøve y ) Find en ligning for regressionslinien m, og tegn i et koordinatsystem såvel punkterne som linien m. ) Man forventer en positiv korrelation mellem x og y. Finder du at dette er tilfældet? Det antages i det følgende at forudsætningerne for en regressionsanalyse er opfyldt. 3) Test om y er uafhængig af x (signifikansniveau α =0.0) 4) Find er 95% konfidensinterval for hældningskoefficienten β. 5) En student har opnået 50 point ved den indledende prøve. Forudsig indenfor hvilket interval denne student pointtal vil ligge ved den afsluttende prøve. (signifikansniveau α =0.05) 6) Angiv et 95% konfidensinterval for middelværdien af det pointtal som studenter opnår ved den afsluttende prøve, når de alle ved den indledende prøve har opnået 50 point. Opgave.3 (F8) Ved en kemisk proces vides reaktionshastigheden v at afhænge af mængden x af et bestemt additiv, som virker som katalysator. Man formoder, at der (approksimativt) gælder sammenhængen v = α0 + β x. () Ud fra teoretiske overvejelser forventes det yderligere, at β = ca 45. Ved et fuldstændigt randomiseret forsøg fandtes følgende observationer: Tilsat mængde additiv x Reaktionshastighed v ) Foretag en vurdering af, om model () kan antages at gælde. ) Test, idet det forudsættes, at model () gælder, nulhypotesen H 0 :β = 45. 3) Opstil et 95% - konfidensinterval for β. 4) Opstil et 95%~konfidensinterval for middelværdien af reaktionshastigheden ved en additivtilsætning på

52 . Regressionsanalyse Opgave.4 (F90) I et forsøg undersøgtes et ventilationsanlægs effektivitet. Målingerne foretoges ved at fylde et lokale med gas og vente til koncentrationen var stabil. Herefter startedes ventilationsanlægget og gaskoncentrationen C t måltes til forskellige tidspunkter t. Følgende resultater fandtes: t (min. efter anlæggets start) C t [ppm] Følgende modeller for funktionssammenhængen overvejes: Model l (lineært henfald): ECt ( )= α + β t t Mode (eksponentielt henfald): ECt ( )= α e ) Indtegn punkterne i et koordinatsystem og vælg den af de to modeller du vurderer giver den bedste beskrivelse. ) Beregn determinationskoefficienterne for hver af modellerne og vælg den model, for hvilken determinationskoefficienten er størst. Er der overensstemmelse med valget i spørgsmål )? 3) Antag, at model gælder. ln( ) Bestem et 95%-konfidensinterval for halveringstiden t 0.5 bestemt ved t 05. =. β Opgave.5 (E85) I et organisk-kemisk laboratorium undersøgte man forskellige reaktionskinetiske processer. Ud fra teoretiske overvejelser har man fundet frem til, at "middeludbyttet" (angivet i %'-enheder) af en bestemt kemisk forbindelse for t > 5 er approksimativt bestemt ved et udtryk af formen β () y = 00 α e t 0, hvor t angiver reaktionstiden og y procesudbyttet. For at efterprøve rigtigheden af de teoretiske overvejelser udførte man et forsøg med følgende resultater: t y ) Omskriv ovennævnte udtryk for modellen således, at regressionsmodellen kan gøres lineær i parametrene ved en logaritmisk transformation. ) Foretag den logaritmiske transformation og vurder såvel grafisk som ud fra forklaringsgraden om den formodede model () kan accepteres. 3) Foretag, idet det forudsættes, at modellen () gælder, en estimation af parametrene og. α 0 β 4) Opstil et 95% - konfidensinterval for middelværdien af udbyttet y svarende til t = 0. t β t 46

53 Opgaver til kapitel Opgave.6 (E84) Ved en standardisering af et bestemt hormonpræparat behandler man et mindre antal mus med doser af forskellig størrelse og registrerer i hvert tilfælde tiden t, indtil musen dør. Fra tidligere undersøgelser ved man, at t er normalfordelt med konstant varians og med en middelværdi, som er en lineær funktion af logaritmen til dosis. Til brug for standardiseringen af et produktionsparti af præparatet blev foretaget 5 delforsøg, som gav følgende resultater: dosis (antal enheder) t (timer) ) Angiv et estimat for regressionslinien, hvor t er en funktion af (titals)-ogaritmen ti dosis. ) Opsti et 95% - konfidensinterval for koefficienten til logaritmen til dosis. 3) Opsti et 95% - konfidensinterval for middeværdien af t for en dosis på 6300 enheder. Opgave.7 (E73) (regression, n > ) Man har erfaring for, at jerns viskositet Y under smeltning afhænger af jernets siliciumindhold x. Man besluttede sig ti at foretage et forsøg med henblik på at undersøge denne sammenhæng nærmere. Ved forsøget foretoges 3 viskositetsmålinger for hver af 5 forskelige værdier af siliciumindholdet. Forsøgsresutaterne var: x Y ) Angiv forudsætningerne for at kunne udføre en variansanalyse. ) Foretag en testning af forudsætningen om varianshomogenitet. 3) Test om der er en lineær sammenhæng mellem jerns viskositet og siliciumindholdet, og angiv i bekræftende fald ligningen for den empiriske regressionslinie. Det antages i det følgende, at der er en lineær sammenhæng mellem x og y. 4) Foretag en testning af om regressionslinien er vandret. 5) Angiv et 95% konfidensinterval for hældningskoefficienten 6) Angiv et 95% konfidensinterval for middelværdien af middelviskositeten y, når x =

54 . Regressionsanalyse Opgave.8 (F9) (regression, n > ) Koncentrationsbestemmelse af stoffet aprindin kan foretages ved hjælp af en gaskromatograf. Ved denne metode indsprøjtes en del af prøven indeholdende aprindin i gaskromatografen, og den såkaldte tophøjde bestemmes. Såfremt de laboratorietekniske procedurer er korrekt udført, skal tophøjden, bortset fra tilfældige udsving, være proportional med koncentrationen i prøven. I et eksperiment fremstillede man prøver med kendte koncentrationer af aprindin og målte tophøjderne. Resultaterne fremgår af nedenstående tabel. Koncentration x ( µg/ml) Tophøjde Y ) Bestem den lineære regressionslinie for Y på x ) Test, om en sådan lineær regression kan beskrive data. 3) Test, om tophøjden y kan antages at være proportional med koncentrationen x, dvs. y = a x. Opgave.9 (F85) I et fuldstændigt randomiseret forsøg undersøgtes rotters vægttilvækst som funktion af mængde riboflavin tilsat foderet. Forsøgsresultaterne var: Tilsætning x af riboflavin i µg/dag Tilvækst Y i g/uge for 0 rotter (4 for hver af de 5 tilsætninger) Følgende modeller for funktionssammenhængen overvejes: Model : y = α0 + βx Model : y = β0 + βln( x) ) Foretag en grafisk testning af de to modeller og vælg den, der vurderes at give den bedste beskrivelse. ) Udfør en testning af den i spørgsmål ) valgte model. 3) Opstil, idet det forudsættes. at den i spørgsmål ) udførte testning giver accept af den valgte model, et estimat og et 95% - konfidensinterval for middelvægttilvæksten ved tilsætning af 30 µg/dag. 48

55 Opgaver til kapitel Løsning opgave.0 Følgende sammenhørende data er 5 målinger mellem den jævnstrøm (y) en vindmølle udvikler og vindhastigheden (x). x y x y ) Vurder grafisk om en ret linie kan siges at være en god model for forsøget (benyt både en figur med indtegnet regressionslinie og en figur med residualerne b indtegnet til vurderingen). ) Ud fra en fysisk model vurderes, at en model Y = a+ kunne være en bedre model. Foretag på samme måde som i spørgsmål ) en vurdering X af denne model. 3) Angiv en ligning for den i spørgsmål fundne kurve, og angiv et estimat og et 95% konfidensinterval for y svarende til en vindhastighed på x = 7. 49

56 .Variansanalyse (mere end variable) VARIANSANALYSE. Indledning I dette kapitel sammenlignes flere end to middelværdier. Det karakteristiske er, at de forekommende faktorer er kvalitative, dvs. har niveauer, som ikke er karakteriseret ved en målelig egenskab. Såfremt faktorerne er kvantitative, dvs. har niveauer, som er karakteriseret ved en målelig egenskab, kan man godt bruge variansanalyse, men det vil her være bedre (give mest oplysning), hvis man som beskrevet i kapitel anvender regressionsanalyse.. Ensidet variansanalyse Vi vil i dette afsnit behandle problemer, af den type, som er vist i det følgende eksempel. Eksempel. (én faktor). Virkningerne af 4 tilsætningsstoffer T, T, T 3, T 4 på mængden af urenheder ved en kemisk proces ønskes sammenlignet. For hvert tilsætningsstof måles mængden af uønsket stof 3 gange. Forsøgsresultaterne blev følgende: T T T 3 T Der ønskes fundet det tilsætningsstof der giver den mindste urenhed. Scatterplot by Level Code Afsættes punkterne fås omstående figur: 0 6 udbytte T T T3 T4 tilsaetningsstof 50

57 . Ensidet variansanalyse Det der vil være af interesse er at teste om middelværdierne for de 4 stoffer afviger fra hinanden, og i bekræftende fald hvilket stof der giver det største udbytte. Det svarer til på figuren, at man undersøger om middelværdierne ligger på en vandret linie. Umiddelbart kunne man synes, at så foretager vi blot de samme parvise sammenligninger som i kapitel 0, hvor vi så på differenser mellem middelværdier. Det giver i alt 6 sammenligninger, som anført nedenfor: Multiple Range Tests for udbytte by tilsaetningsstof Method: 95,0 percent LSD Level Count Mean Homogeneous Groups T 3 08,0 X T 3 0,0 X T3 3 0,667 X T4 3 6,0 X Contrast Difference +/- Limits T - T,0 5,8496 T - T3-0, ,8496 T - T4 *-6,0 5,8496 T - T3 -, ,8496 T - T4 *-8,0 5,8496 T3 - T4 *-5, , * denotes a statistically significant difference. Metoden benævnes LSD (Least Significant Difference). Problemet ved denne metode er, at har man mange niveauer, så skal der foretages særdeles mange nn ( ) 65 sammenligninger. Eksempelvis ville n = 6 niveauer give = = 5 sammenligninger. Selv om de forskellige stofferne giver samme udbytte, så ville støjen i forsøget bevirke, at de mange differenser fordelte sig klokkeformet (normalfordelt). Det bevirker, at den største og den mindste differens ved ovennævnte metode let vil ligge så langt fra hinanden, at deres konfidensintervaller ikke overlapper. Man slutter altså at der er forskel, selv om det ikke er tilfældet (fejl af type ). For at undgå dette, skal man derfor altid starte med at foretage en såkaldt variansanlyse (en F - test). Giver den, at der ikke er signifikant forskel på middeludbytterne, så skal man rette sig efter det, og ikke derefter begynde at se på konfidensintervaller. Det er muligt at foretage beregningerne ved hjælp af en lommeregner, og i appendix. er angivet de nødvendige formler til beregningerne. Det er dog naturligvis en betydelig lettelse at benytte Excel. Det følgende eksempel tjener ikke kun til at vise, hvordan regningerne kan foretages med lommeregner, men søger også at give en forståelse for den teoretiske baggrund for variansanalyser. 5

58 .Variansanalyse (mere end variable)...ensidet variansanlyse beregnet med lommeregner. Vi betragter igen eksempel.. Eksempel. (én faktor). Virkningerne af 4 tilsætningsstoffer T, T, T 3, T 4 på mængden af urenheder ved en kemisk proces ønskes sammenlignet. For hvert tilsætningsstof måles mængden af uønsket stof 3 gange. Forsøgsresultaterne blev følgende: T T T 3 T Der ønskes fundet det tilsætningsstof der giver den mindste urenhed. Opstilling af nulhypotese. Lad X i = mængden af uønsket stof ved tilsætning af stof T i. hvor i {, 34,, } Idet de 4 variables middelværdier kaldes µ, µ, µ 3 ogµ 4 ønsker vi at teste nulhypotesen H 0 : µ = µ = µ 3 = µ 4, mod den alternative hypotese H: mindst én middelværdierne er forskellig fra de øvrige. Forsøgets udførelse. Forsøget skal udføres som et fuldstændigt randomiseret forsøg. (jævnfør kapitel 0 hvor et sådant forsøg er beskrevet). Derved sikrer vi, at der udføres et "statistisk gyldigt" forsøg. Hvis vi derfor, efter at have foretaget en ensidet variansanalyse, konkluderer, at der er forskel på tilsætningsstofferne, så er det "korrekt", idet det ville være helt tilfældigt, hvis én af tilsætningsstofferne har været begunstiget med særlig gode forsøgsenheder. Beregning af gennemsnit og spredning. For at få et skøn for mængden af urenheder, udregnes gennemsnittene for hvert tilsætningsstof. Disse er angivet i nedenstående skema. Umiddelbart ud fra gennemsnit synes T 4 at adskille sig fra de tre øvrige, men hvis der er stor spredning, kan det måske blot være et tilfælde. Det er derfor naturligt at udregne spredningerne, hvilket derfor også er anført i skemaet. T T T 3 T 4 Gennemsnit Spredning , Forudsætninger. Forudsætningerne er, at de 4 variable skal være statistisk uafhængige, at de er tilnærmelsesvis normalfordelte og har samme varians (kaldet at der er varianshomogenitet). Uafhængigheden er meget væsentlig, og må være opfyldt i forbindelse med forsøgets udførelse. Analysen er derimod robust overfor afvigelser fra normalitet og varianshomogenitet hvis blot antallet af gentagelser er den samme. Vi vil derfor i det følgende antage, at forudsætningerne er opfyldte, medmindre der gives udtryk for tvivl herom. Kravet om at de variable er normalfordelte kan vurdere grafisk ved et normalfordelingsplot (beskre- 5

59 . Ensidet variansanalyse vet i kapitel ). Varianshomogenitet kan lettest testes ved den simplificerede F - test,men får vi en forkastelse her, må man gå til Levines test, hvis vi har mere end gentagelser, eller Bartletts test. Disse test er beskrevet i appendix.. Pooling. Da de 4 varianser antages at være nogenlunde ens, pooles disse. ( 3 ) ( 3 ) ( 3 ) ( 3 ) s 0 = SAK0 = = = Idet hver varians er baseret på n = 3 målinger, har hver varians frihedsgrad (f = n - = 3 - ). Den poolede varians har derfor 4 = 8 frihedsgrader. Beregning af F - test. Antages nulhypotesen at være sand, dvs. udbyttet fra de 4 tilsætningsstoffer har samme middelværdi, er den eneste grund til, at vi ikke får samme gennemsnit i de 4 tilfælde, den ukontrollable støj (forsøgsvariablens variation) som forekommer ved forsøgets udførelse. Indtastes de fire gennemsnit i en lommeregner findes s x = Et gennemsnit af n tal har en varians, der er n gange mindre end variansen på den enkelte måling. I dette tilfælde er n = 3. Et estimat for støjens varians forudsat nulhypotesen er sand er derfor s = 3 s = = Frihedsgradstallet er f R =antal niveauer - = 4 - = 3 R x s s R 0 Hvis nulhypotesen er sand burde derfor, mens hvis de er forskellige er forholdet signifikant sr 35 større end. Da F = er spørgsmålet derfor, om dette tal er signifikant større = = 46. s end. Da forholdet mellem de to varianser (som sædvanlig) er F - fordelt med f R = 3 frihedsgrader i tælleren og f 0 = 8 i nævneren kan vi afgøre dette ved opslag i en F - tabel, eller ved at regne P - værdien ud. Da F 0.95 (3,8) = 4.07 < 4.6 (eller P - værdi = P (F < 4.07) = < 0.05), må nulhypotesen forkastes, dvs. der er et signifikant forskel mellem mindst af middelværdierne. Resultaterne samles sædvanligvis i en variansanlysetabel (jævnfør eventuelt appendix.): r = antal niveauer og n = antal gentagelser af et niveau og N = n r er det totale antal delforsøg. Variation SAK f s F Tilsætningsstof 05.0 r - = 4 - = Gentagelser N - r = - 4 = Total N - = - = Konklusion: De fire tilsætningsstoffer har ikke samme virkning. 53

60 .Variansanalyse (mere end variable) Konfidensintervaller. Ud fra gennemsnittene ses, at T er signifikant mindre end T 4. Om de øvrige tilsætningsstoffer giver lige så lidt urenhed som T må afgøres ved opstilling af konfidensintervaller. Som nævnt i indledningen, må man kun foretage en vurdering ud fra konfidensintervaller, hvis ovennævnte F - test har vist, at der er en signifikant forskel. Er der signifikant forskel er der naturligvis forskel mellem den største og den mindste værdi, men hvorledes de øvrige fordeler sig er ikke nogen entydig opgave, og man kan risikere, at finde forskelle som ikke er reelle (fejl af type ),eller omvendt overse reelle forskelle (fejl af type ). De sædvanlige konfidensintervaller for hvert niveau (jævnfør appendix.): s0. xi. ± t ( N r) = xi. ± t0975. ( ) = xi. ±.. = xi. ±. n α LSD konfidensinterval: s xi. ± t α ( N r) = xi. ± t0. 975( 8) = xi. ± = xi. ± 597. n 6 T T T 3 T 4 Gennemsnit % konfidensinterval [06.33;3.67] [04.33;.67] [07.00;4.33] [.33;9.67] 95% LSD-konfidensinterval [07.40;.60] [05.40;0.60] [08.07;3.6] [3.40;8.60] Som man ser, giver begge metoder, at man får den mindste urenhed, hvis man vælger enten T, T eller T 3 (de kan ikke adskilles). Konklusion: Man skal ikke vælge tilsætningsstof T 4, hvorimod de tre øvrige tilsætningsstoffer giver nogenlunde den samme mængde urenhed. De fleste statistikprogrammer har en række andre metoder til beregning af konfidensintervaller, som søger at formindske sandsynligheden for at begå fejl af type og type. Det ligger udenfor dette notats formål at gå nøjere ind på fordele og ulemper ved disse metoder, men et råd er, at har man rådighed over et sådant program ser man hvad de forskellige metoder giver af resultater, og så benytter det til at komme med konklusionen. 54

61 . Ensidet variansanalyse...ensidet variansanlyse beregnet ved Excell. Vi betragter igen eksempel.. Opstilling af nulhypotese. Lad X i = mængden af uønsket stof ved tilsætning af stof T i. hvor i {, 34,, } Idet de 4 variables middelværdier kaldes µ, µ, µ 3 ogµ 4 ønsker vi at teste nulhypotesen H 0 : µ = µ = µ 3 = µ 4, mod alternativ hypotese H: mindst én middelværdierne er forskellig fra de øvrige. Opstilling af data. Inddata har følgende udseende T T T3 T Analyse af data. Vælg Funktioner, Dataanalyse, ANAVA: enkelt faktor Den fremkomne tabel udfyldes ) Inputområde udfyldes så hele området er med (eksempelvis A:D4) ) Markér rækker (da vi har arrangeret data i rækker) 3) Markér Etiketter i første række da første række jo er variabelnavne 4) I Outputområdet skrives øverste venstre celle i det ønskede outputområde. Udskrift: Anava: Enkelt faktor RESUME Grupper Antal Sum Gennemsnit Varians T T T ,6667 6, T ANAVA Variationskilde SK fg MK F P-værdi F krit Mellem grupper , ,0378 4,0668 Inden for grupper 60, , I alt 65,6667 Det ses, at vi får samme variansanalysetabel som i eksemplet. Det ses, at man her ikke behøver at slå op i en F - tabel, idet P-value direkte fortæller, at nulhypotesen forkastes stjernet (3,7%). Konklusion: De fire tilsætningsstoffer har ikke samme virkning. Ud fra gennemsnittene ses, at T er signifikant mindre end T 4. Om de øvrige tilsætningsstoffer giver lige så lidt urenhed som T må afgøres ved opstilling af konfidensintervaller. 55

62 .Variansanalyse (mere end variable) Konfidensintervaller Desværre kan Excell ikke direkte ud fra data udregne konfidensintervallerne, så man kan nok lettest udregne dem i hånden idet man af tabellen kan finde gennemsnittene og = s 0 Kontrol af varianshomogenitet. Simplificeret F-test: Af tabellen ses, at T4 har den største varians på 3 og T har den minste varians på 4. smax 3 Vi danner F = = = 35.. s 4 min Da F 095. (, ) = 9>3.5 (eller P - værdi = > 0.05) accepteres H 0 :σ = σ = σ3 = σ dvs. vi antager at forudsætningen om varianshomogenitet er tilstrækkeligt opfyldt. De foregående betragtninger som var baseret på eksempel. kan som angivet i appendix. generaliseres til et vilkårligt antal niveauer...3 Tosidet variansanalyse.3. Indledning. Har man kvalitative faktorer vil det også være naturligt at udføre en variansanlyse, men da man her kan risikere, at de to faktorer spiller sammen på en uventet måde, bliver forholdene noget mere kompliceret. Til gengæld kan begreberne her så umiddelbart generaliseres til forsøg med mere end faktorer..3. Planlægning af forsøg. I dette afsnit benyttes følgende eksempel som illustration af begreberne. Eksempel.. En bilfabrikant ønsker at finde ud af hvorledes 3 olieblandinger O, O, og O 3, og karburatortyper K og K påvirker benzinforbruget. Vi har et forsøg med kvalitative faktorer: olieblanding og karburator. Faktoren "olieblanding" er på 3 niveauer O, O, og O 3, mens faktoren "karburator" har niveauer nemlig K og K. Man har (ved en dimensionering) fundet, at for at få de tilstrækkelig relevante oplysninger skal hvert niveau gentages mindst 4 gange..3.. Een faktor ad gangen I mange forsøgsvejledninger står, at man bør kun variere en faktor ad gangen. Alle andre faktorer end den udvalgte fastholdes på et bestemt niveau. En forsøgsplan efter disse retningslinier kunne eksempelvis være som skitseret nedenfor, hvor hvert delforsøg er markeret med et : Karburator 4 Olieblanding K K O O O 3 56

63 .3 Tosidet variansanalyse I dette eksempel, hvor der kun er faktorer, vælger vi først at variere olieblandingen, mens den anden faktor fastholdes. Idet vi har valgt først at fastholde karburatoren på niveauet K, kan forsøget udføres således: af de 6 biler, som skal anvendes, udstyres med karburator K, og derefter (randomiseret) får 4 af disse biler olieblanding O, 4 andre biler olieblanding O, og de sidste 4 biler olieblanding O 3. Efter at have kørt en udvalgt strækning måles benzinforbruget. Derefter varieres den anden faktor ( her karburator), mens olieblandingen fastholdes på O, dvs. de sidste 4 biler udstyres med karburator K og olieblanding O. Igen gennemkøres den udvalgte strækning, og benzinforbruget måles. Det er vigtigt, at hver behandling har lige mange gentagelser. Da hvert af de 4 niveauer skal gentages mindst 4 gange, så må hver behandling gentages 4 gange, så der er i alt 6 delforsøg. Indtegnes for hver karburator det gennemsnitlige benzinforbrug mod olie-blandingen, fremkommer tegningen på fig.. Fig.. Umiddelbart ses, at K giver lavest benzinforbrug, og O (eller O 3 ) skal foretrækkes. Hvad nu med benzinforbruget i karburator K, hvis vi anvender olieblanding O eller O 3? Kan man slutte, at benzinforbruget ved olieblanding O og O 3 er lavere, når man bruger karburator K, end når man bruger karburator K? Kun, hvis man ud fra tekniske eller andre grunde mener at vide, at "karburatorkurven" for K er parallel med kurven for K (ingen vekselvirkning), så er forsøgsplanen anvendelig, men ikke den bedste. En statistisk set bedre forsøgsplan som endda ofte er mindre ressourcekrævende, er følgende:.3.. Fuldstændig faktorstruktur Denne plan består i, at hvert niveau af den ene faktor kombineres med ethvert niveau af den anden. Planen kan skitseres således: Karburator Olieblanding K K O O O 3 57

64 .Variansanalyse (mere end variable) Her er hver af de 6 behandlinger gentaget gange, dvs. i alt er der udført delforsøg. Hermed er kravet opfyldt om at hvert niveau skal gentages mindst 4 gange. I " en faktor ad gangen" var vi tvunget til at udføre 6 delforsøg, mens vi kun skal lave delforsøg i det "fuldstændige faktorforsøg". Vi kan altså nøjes med færre delforsøg, når vi laver et fuldstændigt faktorforsøg. Indtegnes for hver karburator det gennemsnitlige benzinforbrug mod olie-blandingen, viser det sig, at man får figur. Fig. Vi ser i modstrid med hvad vi troede ud fra "en faktor ad gangen forsøget", at kombinationen af katalysator K og olieblanding O giver det laveste benzinforbrug. Det ses, at de to kurver ikke er parallelle. Dette kunne være tilfældigt og blot skyldes forsøgets støj, men det kunne også være signifikant, og derfor være udtryk for en vis såkaldt "vekselvirkning". En model uden vekselvirkning (kurverne tilnærmelsesvis parallelle) siges at være additiv. Anskuelig forklaring på hvorledes man kan beregne vekselvirkning: Her gives kun en kort forklaring, som kan tjene til at forstå baggrunden for beregningerne, der i øvrigt med fordel kan foretages af et statistikprogram som Statgraphics. I nedenstående skema er skitseret et forsøg med faktorer R og C. R er på 3 niveauer, og C er på 4 niveauer. Der er gentagelser af hver "behandling"(treatment). C C C 3 C 4 R R R For hver af de celler kan man udregne et skøn for spredningen. Hvis man forudsætter at spredningen er nogenlunde den samme i alle tilfælde, kan man poole de s sammen til et fælles skøn s 0 for spredningen på forsøgsfejlen (støjen). Den vil have frihedsgrader, da hvert enkelt s har frihedsgrad. 58

65 .3 Tosidet variansanalyse I nedenstående skema er beregnet gennemsnit for hver celle, hver række, hver søjle og totalt. C C C 3 C 4 Gennemsnit R R R Gennemsnit Tallene er konstrueret således, at vi har en helt præcis model uden vekselvirkning (R = R + 7, R 3 = R + ). For en sådan model gælder helt præcist, at resultatet i celle (i, j) fås af formlen RC i,j =R i + C j - totale gennemsnit. Eksempel: RC,3 = 0 og R + C 3 - totale gennemsnit = = 0. I praksis vil dette naturligvis aldrig være tilfældet på grund af den tilfældige variation (støj), men udregnes kvadratet på afvigelserne (SAK), og disse afvigelser ikke er større end hvad er rimeligt i forhold til støjen ( ), vil vi kunne konkludere at der ikke kan konstateres nogen vekselvirkning. s Forudsætninger for variansanalyse. Som tidligere nævnt er forudsætningerne de samme som ved ensidet variansanalyse. ) De observerede resultater (f.eks. benzinforbruget med en bestemt karburator og en bestemt olieblanding) er værdier af tilnærmelsesvis normalfordelte variable. ) De observerede resultater er værdier af uafhængige variable. Dette kan man sædvanligvis sikre ved en fornuftig forsøgsplan (randomisering). 3) I hver celle skal resultaterne have tilnærmelsesvis samme varians. Metoden er robust overfor afvigelser, hvis antallet af gentagelser er det samme. Man kan eventuelt teste med Levine eller Bartletts test. Analysen er robust overfor afvigelser fra normalitet og varianshomogenitet, blot antallet af gentagelser i hver celle er den samme. Er forudsætningerne ikke opfyldt, kan man i mange tilfælde foretage en transformation (f.eks. tage logaritmen til alle forsøgsresultater), som så medfører at forudsætningerne er nogenlunde opfyldte Testprocedure. Formler hvorefter man ved hjælp af en lommeregner kan foretage de for en tosidet variansanalyse nødvendige beregninger kan findes i appendix.. I appendix. kan man også i detaljer se, hvordan testrækkefølgen er, og formler for konfidensintervaller m.m. Da regningerne er temmelig omfattende, vil man dog sædvanligvis benytte et statistikprogram, der automatisk udregner en variansanalysetabel. 59

66 .Variansanalyse (mere end variable) Nedenfor er kort beskrevet rækkefølgen for et fuldstændigt faktorforsøg med r rækker, q søjler og n gentagelser af hver behandling Søjlefaktor ( Karburator ) Rækkefaktor ( Olieblanding ) C C... C q R R R r ) Man beregner et variansanalyseskema som det nedenfor angivne, idet vi tænker os Antal rækker r = 5, Antal søjler q = 4, Antal delforsøg i celler n = 3, Totalt antal forsøg N = r q n = 543 = 60. SAK Variation SAK=SS f s = f F Rækkefaktor R 400 f = R r = 4 00 Søjlefaktor C 600 f = C q = 3 00 Vekselvirkning R*C 60 f = ( RC r )( q ) = 5 s FRC = s RC 0 =.0 Residual 00 f0 = r q ( n ) = 40 5 Total 60 ftotal = N = 59 Testrækkefølge: Lad α være signifikansniveau. ) H0: R* C = 0 ( Ingen signifikant vekselvirkning) H 0 forkastes, hvis P - værdi = PZ ( < ) < α, hvor Z er F - fordelt ( f, f ) ( f, f ), F RC eller hvis F F f f. RC > RC 0 T N = RC 0 α (, ) ( F 0. F (. 40). 00, ) = < = RC 095. accept tervaller til nærmere vurdering af faktorernes virkning. b) Hvis H 0 accepteres, antages, at der ikke er nogen signifikant vekselvirkning, og man pooler de to varianser sammen, til et nyt estimat for forsøgsfejlens variation (støjen). SAKRC + SAK sm = med fm = frc + f0. sm = = 63., fm = 5 frc + f Dette estimat benyttes så til vurdering af hovedvirkningerne. H0: R = 0 ( Ingen signifikant virkning af rækkefaktor) H 0 forkastes, hvis P- værdi = PZ ( < F R ) < α, hvor Z er F - fordelt ( ft, f N) = ( fr, fm). sr eller FR = > F fr fm s (, ) α F = 00 = > F = R ( 4, 5) 306., forkastelse 63. m Hvis H 0 forkastes, opstilles relevante konfidensintervaller. Analogt testes for søjlevirkning. a) Hvis H 0 forkastes, så beregnes for hver celle et gennemsnit og der opstilles konfidensinx ij 60

67 .3 Tosidet variansanalyse.3.5 Tosidet variansanalyse udført med lommeregner. I appendix. er angivet de formler man skal benytte for at udregne de nødvendige SAK er. Formlerne er endvidere anvendt på tallene i eksempel.. Har man først fundet SAK erne er det beregningsmæssigt let at udfylde en variansanalysetabel og drage konklusioner. Da det beregningsmæssigt bliver langt vanskeligere at foretage SAK-beregningerne hvis der ikke er lige mange gentagelser i hver celle, eller hvis der indgår mere end faktorer, vil man imidlertid næppe i praksis benytte en lommeregner. I stedet benyttes et statistikprogram..3.6 Tosidet variansanalyse udført ved Excel. Som nævnt vil man sædvanligvis benytte et statistikprogram til at udføre flersidede variansanalyser. For at vise begge hovedtilfælde deles op i et tilfælde hvor der konstateres vekselvirkning, og et tilfælde hvor modellen er additiv (uden en signifikant vekselvirkning) Model med vekselvirkning. Som illustration af fremgangsmåden benyttes igen eksempel.. Eksempel.3 (model med vekselvirkning). En bilfabrikant ønsker at finde ud af, hvorledes 3 olieblandinger O, O, og O 3, og karburatortyper K og K påvirker benzinforbruget. Forsøgsresultaterne er følgende: Karburator K K O Olieblanding O O Angiv hvilke kombinationer af karburator og olieblanding der giver det laveste forbrug, og giv et estimat for dette forbrug. LØSNING: Data indtastes: K K O O O Vælg Funktioner, Dataanalyse, ANAVA: to faktor med gentagelse Den fremkomne tabel udfyldes ) Inputområde udfyldes så hele området er med (eksempelvis A:C7) ) Rækker pr. stikprøve : Skriv antallet af rækker i hver stikprøve ( i vort eksempel ) 4) I Outputområdet skrives øverste venstre celle i det ønskede outputområde. 6

68 .Variansanalyse (mere end variable) Udskrift: Blandt mange tabeller fås også følgende variansanalysetabel: ANAVA Variationskilde SK fg MK F P-værdi F krit Stikprøve 5876, ,33 48, , ,4349 Kolonner ,5 0,0908 5, Interaktion ,375 0, ,4349 Indenfor I alt 7484,67 Opstille model med vekselvirkning. Vi starter med en model med faktorer K (karburator) og O(olieblanding), og med mulighed for vekselvirkning mellem de to faktorer. Først testes om der er en vekselvirkning K*O mellem karburator og olieblanding., dvs. H 0 : K *O = 0 mod H: K *O 0 Det ses af tabellen, at forsøgsfejlens varians ( Indenfor ) er 600, mens bidraget fra en eventuel vekselvirkning ( Interaktion ) er 35, altså væsentlig større. Forholdet mellem de to led er F = 5.375, og sandsynligheden for at få dette tal, hvis der ingen vekselvirkning var, er under 5% (4.60%- ). Anvender vi som sædvanlig et 5% signifikansniveau, så forkaster vi nulhypotesen, dvs. vi konkluderer, at der er et svagt bevis for en vekselvirkning mellem karburator og olieblanding. Opstille relevante konfidensintervaller og drage konklusion Vi ønsker nu for en given olieblanding at finde hvilken karburator, der giver det laveste benzinforbrug. Vi ser derfor nu på de øvrige tabeller der blev udskrevet: Anava: To-faktor med gentagelse RESUME K K I alt O Antal 4 Sum Gennemsnit Varians ,3333 O Antal 4 Sum Gennemsnit Varians O3 Antal 4 Sum Gennemsnit ,5 Varians ,667 I alt Antal 6 6 Sum Gennemsnit 88, ,6667 Varians 4686, ,667 6

69 .3 Tosidet variansanalyse Vi ved, der er en signifikant forskel mellem det laveste benzinforbrug (85), som fås med kombinationen K O, og det højeste benzinforbrug (035) svarende til kombinationen K O. Det ses umiddelbart af gennemsnittene, men derimod er det ikke sikkert at der er en reel forskel mellem K O, K O 3 og K O. Dette kan man først vurdere ved at beregne konfidensradius r. Af tabellen fås, at s 0 = 600 med f 0 = 6. s0 Vi får derfor (se appendix.): r = t = ( ). = n Afstanden mellem gennemsnit skal derfor være r = benyttes LSD skal den være r = Det ses heraf, at umiddelbart giver kombinationen K O det laveste benzinforbrug (85), men af konfidensintervallerne ses, at der ingen signifikant forskel er mellem K O, K O 3 og K O. Man kan dog med sikkerhed sige, at man ikke bør vælge olieblanding O Additiv model: Model uden vekselvirkning Eksempel.4 (model med vekselvirkning) I forbindelse med nogle brudstyrkebestemmelser for Portland-cement udføres et fuldstændigt randomiseret forsøg til undersøgelse af middelbrudstyrkens afhængighed af cementblandere og cementknusere. Med hver af 4 cementblandere udstøbtes efter blanding med vand cementterninger, som efter en uges lagring underkastedes en brudstyrkeprøve ved hjælp af en af 3 cementknusere. Forsøgsresultaterne var: Cementknusere 3 4 Cementblandere 47, 75, 30 99, 85, 75 67, 3, 35 5, 97, 80, 45, 63 3, 00, 45 75, 45, 7 5, 57, , 85,53 37, 43, 8 67,5,83 35, 9,9 Angiv hvilke kombinationer af cementblander og cementknuser, der giver den største brudstyrke, og giv et estimat og et 95% konfidensinterval for denne største middelbrudstyrke. LØSNING: Data indtastes: knuser knuser knuser3 knuser4 blander blander blander Vælg Funktioner, Dataanalyse, ANAVA: to faktor med gentagelse Den fremkomne tabel udfyldes 63

70 .Variansanalyse (mere end variable) Udskrift: Blandt mange tabeller fås også følgende variansanalysetabel: ANAVA Variationskilde SK fg MK F P-værdi F krit Stikprøve 499,389 49,694,4553 0, ,4083 Kolonner 5995, 3 733,74 9,55565,4E-06 3, Interaktion 7,6 6 87,0, ,78669,50887 Indenfor 70, ,778 I alt 84687,89 35 Da P - value er for vekselvirkningen Interaktion, og dette er over vort signifikansniveau på 5%, tillader vi os i det følgende at antage, at vekselvirkningen er forsvindende. Vi foretages nu en pooling : Vælg Funktioner, Dataanalyse, ANAVA: to faktor uden gentagelse Den fremkomne tabel udfyldes Udskrift: ANAVA Variationskilde SK fg MK F P-værdi F krit Rækker 370,39 8 4,99, ,775,35508 Kolonner 5995, 3 733,74 9,5083,6E-06 3, Fejl 3, ,48 I alt 84687,89 35 Vi ser nu, at forsøgsfejlens varians er , og at cementknuserne har en stærk signifikant virkning, da P - value = er under 0.%., mens cementblanderne ikke har en signifikant virkning, da P - value = 0. er over 5%. Da cementblandere ikke mere indgår i modellen slettes de af modellen, hvorved vi jo får en ensidet variansanalyse: Anava: Enkelt faktor RESUME Grupper Antal Sum Gennemsnit Varians knuser ,5 knuser , ,6944 knuser , ,7778 knuser , ,6 ANAVA Variationskilde SK fg MK F P-værdi F krit Mellem grupper 5995, 3 733,74 6, ,96E-07,908 Inden for grupper 369,67 3 0,646 I alt 84687,89 35 Det ses umiddelbart, at knuser må foretrækkes for knuser 3. For at se om der er en signifikant forskel på knuser 4 og de andre knusere beregnes konfidensradius r. 64 s0 0, 65 r = t ( f0 ) = t ( 3) = = 73. n 9 Signifikant forskel er r = (eller LSD: r = Konklusion: Man skal ikke vælge cementknuser 3, og nr og 4 må foretrækkes, Estimat for største middelbrudstyrke: 48.0, 95 % konfidensinterval [6.3 ; 69.7 ]

71 .4 Fuldstændigt randomiseret blokforsøg.4 Fuldstændigt randomiseret blokforsøg. I forbindelse med planlægningen af et forsøg, kan man blive tvunget til at benytte forsøgsenheder, som er ret uensartede. Derved får den tilfældige forsøgsfejl en relativ stor spredning (stor støj ). Dette kan bevirke, at man skal op på et urealistisk stort antal gentagelser for at kunne opnå den ønskede information. For at dæmpe støjen kan man inddele forsøgsenhederne i grupper (blokke), hvor de forsøgsenheder der ligger i samme blok er væsentlig mere ensartede end forsøgsenhederne i forskellige blokke. Man siger, at man har et fuldstændigt randomiseret blokforsøg, hvis hver behandling forekommer det samme antal gange (sædvanligvis netop én gang) i hver blok. Til illustration heraf, så betragter vi igen forsøget beskrevet i eksempel.. Eksempel.5 (randomiseret blokforsøg). En bilfabrikant ønsker at finde ud af, hvorledes 3 olieblandinger O, O, og O 3, og karburatortyper K og K påvirker benzinforbruget. Forsøget planlægges som et fuldstændigt faktorforsøg idet hvert niveau skal gentages mindst 4 gange. Dette betyder at der skal udføres delforsøg. Et delforsøg med én bil tager dag.( tank = 40 liter: Kører ca. 5 km/l så 40 liter = 600 km, hvilket giver ca. 7 timer med 80 km/time). Af tidsmæssige grunde kan man ikke benytte dage til forsøget. Der benyttes biler med tilhørende chauffør, hvilket forkorter forsøgstiden til 6 dage. Da de to biler (med tilhørende chauffør) kan frygtes at give systematisk forskellige resultater, ønskes foretaget et randomiseret blokforsøg med biler som blokke. ) Angiv fordele og ulemper ved at foretage et randomiseret blokforsøg fremfor et fuldstændigt randomiseret forsøg. ) Beskriv hvorledes en randomisering kunne tænkes at foregå. 3) Skitser udseendet af en variansanalysetabel med angivelse af frihedsgrader. LØSNING: ) Fordele: Begrundelsen for ikke at foretag et fuldstændigt randomiseret forsøg er, at to biler frygtes at give så stor spredning, at selv betydelige forskelle ikke kan påvises. Ved blokforsøget er støjen, der skyldes eventuelle forskelle mellem biler elimineret Større mulighed for stabilt vejr i 6 dage end i dage, hvilket også formindsker spredningen. Ret få delforsøg, Ulempe: Selv på 6 dage kan vejret skifte og give anledning til stor spredning. ) Randomisering: To dåser mærkes henholdsvis bil og bil. Behandlingen O K skrives på sedler som anbringes i hver sin dåse, behandlingen O K skrives på sedler som anbringes i hver sin dåse osv. (se figuren). Man trækker nu først de 6 sedler fra dåse med mærket bil. Lad den første seddel der trækkes være O K. Det betyder nu, at bil skal forsynes med karburator og olieblanding og køre dag. Lad den næste seddel der trækkes være O 3 K. Det betyder tilsvarende at bil skal forsynes med karburator og olieblanding 3 og køre dag. Således fortsættes indtil alle 6 sedler er udtrukket Resultatet blev: bil dag O K dag dag 3 dag 4 O 3 K O K O K dag 5 O K dag 6 O 3 K Bil 65

72 .Variansanalyse (mere end variable) Derefter fortsættes med at trække sedler fra dåsen med mærket bil. Resultatet blev: bil dag O K dag O 3 K dag 3 O K dag 4 O K dag 5 O 3 K dag 6 O K Bil 3) Analyse: Tresidet variansanalyse: Bemærk: Vi antager altid, at blokke ikke vekselvirker med faktorerne, idet vi forudsætter, at den ene blok (eksempelvis bil ) bidrager med en systematisk højere resultat end den anden blok (eksempelvis at bil på alle dage giver et større benzinforbrug end bil ). K K Variansanalyse SAK f O - - Blokke (biler) Bil O - - Olieblanding O Karburator O - - Olie * karburator Bil O - - Residual 5 O Total Bemærk: Selv om analysen viser, at blokkene mod forventning ikke kan antages at have betydning, må man ikke poole blokkene ned, da det svarer til, at man analyserer forsøget som om det var et fuldstændigt randomiseret forsøg. Eksempel.6 (randomiseret blokforsøg). I nedenstående tabel er anført resultaterne af et fodringsforsøg med svin. Formålet med forsøget var at undersøge, hvorvidt en ændring af vitaminindholdet i foderet gav en forskel i svinenes vægtforøgelse. Vægtforøgelsen afhænger imidlertid også af det enkelte individs genetiske egenskaber. Et fuldstændigt randomiseret forsøg vil derfor sandsynligvis kunne bevirke, at forsøgsfejlens spredning bliver så stor, at intet kan påvises (forsøget drukner i støj). Da grise fra samme kuld må forventes at være mere ensartede, vælger man at lave et randomiseret blokforsøg med kuld som blokfaktor. Fra hvert af 4 forskellige kuld grise udtages 3 grise, der bliver fodret med hver sin af tre fodertyper A, B og C med forskelligt vitaminindhold. Forsøgsresultaterne (vægtforøgelse i kg) var Fodertype A B C Kuld Test, om der er nogen væsentlig virkning af ændringen i foderets vitaminindhold. 66

73 .4 Fuldstændigt randomiseret blokforsøg Løsning: Analyseres svarende til en tosidet variansanalyse uden vekselvirkning (da vi forudsætter at blokke ikke vekselvirker med faktorer. Indtastning af data: A B C kuld 7 4 8,5 kuld 6 5,5 6,5 kuld3 0,5 5 9,5 kuld4 5,5 3,5 Vælg Funktioner, Dataanalyse, ANAVA: to faktor uden gentagelse Den fremkomne tabel udfyldes: Udskrift: RESUME Antal Sum Gennemsnit Varians Række 3 9,5 9, ,58333 Række ,5 Række , , Række ,75 Kolonne 4 47,75 5,08333 Kolonne 4 65,5 6,375 9, Kolonne ,66667 ANAVA Variationskilde SK fg MK F P-væærdi F krit Rækker 87, ,4306 6,0089 0, , Kolonner 54,5 7,065 5, ,0407 5,4349 Fejl 8, ,70389 I alt 70,065 Det ses heraf, at forsøgsfejlens varians (residual) er Vi ser endvidere, at der på et signifikansniveau på 5 % er signifikant forskel på fodertyperne. Af gennemsnittene ses, at fodertype B (kolonne ) er signifikant bedre end fodertype A (kolonne ). Om fodertype C er signifikant ringere end B kan kun afgøres ved at opstille konfidensintervaller. Vi ser endvidere, at det var fornuftigt at dele op i kuld, da der også er signifikans for kuld. Vi er imidlertid ikke interesseret i at finde ud af hvilket kuld der er det bedste, da vi jo blot har taget nogle tilfældige kuld ud. Bemærk: Da der er en blokvirkning vil vægtforøgelsen jo afhænge af hvilket kuld man betragter. Konfidensintervaller kan derfor kun anvendes til relative sammenligninger. 67

74 .Variansanalyse (mere end variable) OPGAVER Opgave. Fire forskellige typer teknik til blanding af cement ønskes undersøgt med hensyn til resultatets trykstyrke. Følgende data blev opnået: Blandingsteknik Trykstyrke (psi) B B B B Undersøg om forskellen i blandingsteknik har betydning for trykstyrken, og angiv i bekræftende fald den (de) blandingsteknik(er) der har størst trykstyrke. Opgave. (E8) I følgende tabel er angivet resultaterne af gentagne bestemmelser af blodets alkoholkoncentration (i promille) hos 6 forskellige personer efter indtagelsen af 4 cl. alkohol. Person Vurdér på grundlag af dette materiale en antagelse om, at alkoholkoncentrationen i blodet ikke afhænger af andre faktorer end den indtagne alkohomængde. Opgave.3 T Modstanden af 5 spoler måltes for at kontrollere, om spolerne har samme elektriske modstand. For hver spole måltes 4 uafhængige observationer: Man fandt for hver spole følgende gennemsnit og varians: Spole nr. Antal gentagelser Gennemsnit Varians , ) Undersøg om det kan antages, at de 5 spoers modstande er ens. ) På alle 5 spoler er angivet, at modstanden er 5.0 Ohm. Undersøg under hensyntagen ti besvaresen af spørgsmål ) ved opstilling af et eller flere konfidensintervaller, om noge af spoerne kan antages at have modstanden 5.0 Ohm og i bekræftende fald hvike. 68

75 Opgaver til kapitel Opgave.4 I et forsøg undersøgtes, om det kemiske udbytte af en proces afhænger af hvilken af katalysatorer, der anvendes. Endvidere kan man benytte 3 forskellige apparater, og de kunne også tænkes at have indflydelse på resultatet. Der fandtes følgende udbytter: Katalysator K Katalysator K Apparat A Apparat A Apparat A ) Undersøg. om det kan antages, at udbyttet fra de 6 behandlinger har samme spredning. ) Idet det antages at forudsætningerne for at udføre en variansanalyse er tilstede, skal der udføres en test til vurdering af, om middeludbyttets (eventuelle) afhængighed af de benyttede katalysatorer og apparater kan beskrives ved en additiv model. 3a) Hvis man af økonomiske grund vælger apparat A hvilken katalysator skal man så vælge? Samme spørgsmål vedrørende apparat og 3. 3b) Hvis man af økonomiske grunde vælger katalysator hvilket apparat skal man så vælge? Samme spørgsmål vedrørende katalysator 3c) Hvilken (hvilke) kombinationer af apparat og katalysator giver det største udbytte. Opgave.5 T Man ønsker at undersøge den virkning som faktorer (typen af glas og fosfor) har på skarpheden af billedet på en TV-skærm. Responsvariablen er den strøm (i microampere) som er nødvendig for at opnå et specifik skarpheds niveau. Data er vist i nedenstående tabel: Fosfortype 3 Glastype ) Undersøg om forudsætningen om varianshomogenitet er opfyldt. ) Idet det antages at forudsætningerne for at udføre en variansanalyse er tilstede, skal der udføres en test til vurdering af, om middelskarphedens (eventuelle) afhængighed af de benyttede glastyper og fosfortyper kan beskrives ved en additiv model. 3) Foretag en grafisk kontrol af, om kravet til at residualerne er tilnærmelsesvis normalfordelt er opfyldt. (betragt residualerne i et normal probability plot ). Undersøg endvidere om enkelte observationer kunne være outliers. 4) Ud fra svaret i spørgsmål skal angives, hvilken glastype og fosfortype der giver den største skarphed (giver den mindste respons)

76 .Variansanalyse (mere end variable) Opgave.6 T (E93) På en fabrik for glasvarer ønsker man at undersøge hvilken blandt 3 typer lim, der er bedst ved sammenlimning af 3 forskelige glastyper. Forsøget foregik ved, at man limede to glasplader sammen, og efter en passende tid undersøgte, hvor stor en kraft der skulle til for at trække pladerne fra hinanden. Man valgte at lave et fuldstændigt faktorforsøg med 5 gentagelser af hver behandling. Resultatet af forsøget var: Glastype A Glastype B Glastype C Gennemsnit Lim I Lim II Lim III En beregning af SAK størrelserne gav følgende resultat: SAK Lim 73.9 Glastype 3.5 Vekselvirkning Gentagelser Total ) Udfyld resten af variansanalysetabellen. ) Angiv hvilke faktorer der har en virkning. 3) Angiv den eller de kombinationer af type lim og type glas, der har den største sammenhængskraft. Angiv et 95% konfidensinterval for de pågældende kombinationer. Opgave.7 (E83) Fabrikationen af et kemikalium baseres på en bestemt kemisk proces, som forudsætter tilsætning af katalysator og en PH - værdi på ca. 5. Som led i en laboratoriemæssig undersøgelse af mulighederne for at forøge procesudbyttet foretoges bl.a. et forsøg, hvor man dels sammenlignede virkningen af tilsætning af 3 forskellige katalysatorer, dels undersøgte, om udbyttet afhang af, om den nødvendige PH - værdi opnåedes ved tilsætning af HCl i stedet for som hidtil H S0 4. Forsøgsresultaterne var (udbytteprocenter): Tilsat syre Katalysatorer HCl H S ) Foretag en statistisk analyse af forsøgsresultaterne og drag konklusioner. ) Estimer under hensyn til resultatet af den under punkt ) foretagne analyse procesudbyttet ved benyttelse af katalysator under tilsætning af HCl og opstil et 95% - konfidensinterval for dette udbytte. 70

77 Opgaver til kapitel Opgave.8 T (E78) Hver af tre laboranter har bestemt hydroquinons smeltepunkt ( 0 Celcius) med (de samme) 4 termometre. Resultaterne var: Termometre Laboranter Det antages, at de nødvendige variansanalyseforudsætninger er opfyldt, og at termometre og laboranter ikke vekselvirker. Følgende spørgsmål ønskes belyst:. Aflæser laboranterne termometrene på samme måde?. Viser termometrene ens. 3. Vurder ved et residualplot, om forudsætningen om at termometre og laboranter ikke vekselvirker er rimelig. Opgave.9 T På en ingeniørskole ønsker man at sammenligne effektiviteten af undervisningen, når man underviser efter tre forskellige undervisningsmaterialer. En række studerende meldte sig frivilligt til forsøget. I det følgende er angivet studerende ordnet efter studentereksamensgennemsnit. Navn JK AL TS BS DT HN MO FD PJ KM SR RA Snit ) Hvordan ville du opdele disse studenter på tre hold med 4 på hver hold? ) Hvordan ville du gøre det, hvis karaktererne gik fra 7.8 til 8.? Opgave.0. Følgende resultater blev opnået fra et eksperiment, hvor man ville undersøge om der var forskel på de resultater, som 5 analyseapparater gav, når man analyserede kvælstofindholdet i jordprøver. På hver af 3 dage blev en portion jord udvalgt og delt i 5 dele, som ved lodtrækning blev givet til analyse i hver sin maskine. Resultaterne var: Maskiner P Q R T U Tirsdag Onsdag Torsdag Undersøg på dette grundlag om der er forskel mellem analyseapparaterne, og angiv i bekræftende fald hvilke der er forskellige. Mener du, at det i denne situation var en god ide at foretage forsøget som et blokforsøg? 7

78 .Variansanalyse (mere end variable) Opgave. T. Fire forskellige produktionsmetoder P, Q, R, og T ønskes sammenlignet med hensyn til det procentiske udbytte ved udvinding af et metal fra et bestemt mineral. Da man ved forsøget er nødt til at benytte forskellige råvarepartierer, og er bange for, at det vil give stor spredning, vælger man at lave et fuldstændigt randomiseret blokforsøg med råvarepartier som blokke. Nedenstående skema angiver resultatet af dette forsøg. Metode P Metode Q Metode R Metode T Råvareparti Råvareparti Råvareparti ) Undersøg på grundlag af disse oplysninger, om der er forskel på metoderne, og angiv i bekræftende fald de(n) metode som give størst udbytte ) Foretag grafisk en kontrol af den fundne model og så vidt det er muligt også af dens forudsætninger. 7

79 3 ANTALSTABELLER 3..Indledning 3.. Indledning Vi vil i dette kapitel betragte observationer, som bliver katalogiseret i klasser (categorical data). Et eksempel herpå er følgende: Eksempel 3..(antalstabel) Et ministerium planlægger en oplysningskampagne om de fysiske og psykiske virkninger af at ryge hash. Før kampagnen viste en undersøgelse at 7% af indbyggerne ønskede at hash blev legaliseret, 65% at man beholde det nuværende forholdsvis liberale straffepolitik, 8 % ønskede strengere straffe og 0 % havde ingen mening. Efter kampagnen spurgte man 500 personer (repræsentativt udvalgt), og svarene fremgik af følgende tabel. Legalisering Efter eksisterende lov Strengere straf Ingen mening Efter kampagnen Kan man på dette grundlag vise på et signifikansniveau på α = 00.,at kampagnen har betydet en ændring af folks mening? Af central betydning for testning af sådanne spørgsmål er begrebet multinomial eksperiment. Definition af et multinomialt eksperiment. ) Lad et eksperiment have k mulige udfald. Disse udfald kaldes klasser, kategorier eller celler ) Eksperimentet gentages n gange uafhængigt af hinanden. 3) Sandsynligheden for de k udfald er p, p,..., p k (hvor p + p p k =) er de samme ved de n gentagelser. 4) De statistiske variable der er af interesse er antallet n, n,..., n k i hver af de k klasser. Betragter vi eksempel 3. ses, at betingelserne er opfyldt: Eksperimentet består i tilfældigt at udtage n = 500 personer af en stor population og spørge dem om strafferammen for besiddelse af hash ) Udfaldene er svar på spørgsmålet, og der er k = 4 (og kun 4) svarmuligheder (4 klasser). ) Resultatet af hvad en person svarer vil være uafhængigt af hvad de øvrige svarer. 3) Sandsynligheden for udfaldene i de 4 klasser vil være p, p, p 3 og p 4, hvor disse sandsynligheder er ukendte. 4) De statistiske variable X i er antal personer blandt 500 som har en af de i meninger om straffen for hash. 73

80 3 Antalstabeller 3.. En-vejs tabel Eksempel 3..(fortsat) Kan man på det i eksempel 3. angivne grundlag vise på et signifikansniveau på α = 00.,at kampagnen har betydet en ændring af folks mening? LØSNING: Lad X = antal personer blandt 500, der går ind for legalisering. P(X ) = p. X = antal personer blandt 500, der går ind for den nuværende straffepolitik. P(X ) = p. X 3 = antal personer blandt 500, der går ind for en strengere straf. P(X 3 ) = p 3. X 4 = antal personer blandt 500, der ingen mening har. P(X 4 ) = p 4. Vi ønsker at teste nulhypotesen H0: p = 007., p = 065., p3 = 08., p4 = 00. mod den alternative H: Mindst én af sandsynlighederne afviger fra den angivne værdi i nulhypotesen. Vi beregner nu de forventede værdier, forudsat nulhypotesen er sand. Resultatet opstilles i det følgende skema: nr 3 4 O i E i E = = 35 E = = 35 E 3 = = 90 E 4 = = 50 Da alle de forventede værdier er større end 5 er forudsætningerne for at kunne foretage en χ - test opfyldt. ( ) χ = O E i i ( ) ( ) ( ) ( ) = = E i Da χ > χ ( eller P - værdi = 0.004) forkastes nulhypotesen (tostjernet), 099. ( 4 ) = 35. dvs. kampagnen har haft en betydning for meningen om legalisering af hash. Excel - løsning: De observerede værdier skrive i en søjle, de forventede værdier i en anden søjle: Vi får P - værdi =CHITEST(A:A4;B:B4) = 0,

81 3.3 To-vejs tabel Testning af fordelingstype. Er der data nok, er der ved ovennævnte metode muligt at teste om en statistisk variabel har en forventet fordeling. Det følgende eksempel demonstrerer dette. Eksempel 3.. (Testning af om data er normalfordelt). I Statistiske Grundbegreber eksempel.3 havde man for 75 patienter med dårligt knæ målt ph i ledvæsken. Man fandt, at x = og s = Lad X = ph for en patient. Vi antog dengang, at X var normalfordelt. χ n( x, s) Foretag en - test af denne påstand. LØSNING: Vi ønsker at teste nulhypotesen H 0 : X er normalfordelt n(7.87, 0.34) I eksempel.3 blev intervallet fra den største ph-værdi til den mindste ph-værdi delt op i en passende mængde intervaller, og man talte op hvor mange resultater der faldt i hvert interval. Resultatet ses i nedenstående skema som de observerede værdier. Under forudsætning af, at nulhypotesen er sand, kan man nu beregne det forventede antal i hvert interval. Som et eksempel på beregnes den forventede værdi i intervallet ]7.0 ; 7.8]: E i = 75 Φ Φ = 75 ( Φ( ) Φ( ) = 75 ( ) = Da ingen forventede værdier må være under slås de yderste klasser sammen. Da endvidere højst 0% må være under 5, slås yderligere sammen som vist på skemaet. Klasser Observerede værdier Forventede værdier Klasser sammenlægges ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] 0,88 4. ] ] ] [ ( ) ( ) ( 5 4. ) χ = = Da vi har brugt to værdier (gennemsnit og spredning) til at udregne de forventede værdier, er f = k - - = 7-3 = 4. 75

82 3 Antalstabeller Da χ 095. ( 4) = 949. > 95. (eller P - værdi = ) accepteres nulhypotesen, dvs. vi kan ikke på det grundlag afvise, at X er normalfordelt. Excel - løsning: Det er så besværligt at foretage testen i Excel, at det næppe er umagen værd. Excel sætter således frihedsgradstallet forkert til k - = 6. Data beregnes: Eksempel: E 4 = 75*(NORMFORDELING(A7;7,87;0,34;SAND)-NORMFORDELING(A6;7,87;0,34;SAND))= 9,84405 Man kopierer cellerne nedad. klasser observerede forventede Sam_obs Sam_forv 6,94 0 0, ,0, , 5 4, ,0793 7,8 8 9, , ,6 7 5, ,5906 7,34 8 7, ,509 7,4 6 3, ,9308 7,5 4 7, , ,58 3 3, ,9759 7,66 0, ,74 0, ,077 P - værdi =CHIFORDELING(CHIINV(CHITEST(D6:D;E6:E);6);4) = 0, Vi får samme P - værdi som før To-vejs tabel I dette afsnit betragter vi multinominale eksperimenter hvor data er karakteriseret ved to kriterier. Et eksempel herpå er følgende: Eksempel 3.3. (E87) (testning af uafhængighed) Ved en uddannelsesinstitution indstillede et år 500 studerende sig til en årsprøve, der bl.a. omfattede matematik og fysik. De opnåede karakterer i de to fag inddeltes i 4 grupper: Observerede værdier Fysikkarakterer 0, 3, 5 6, 7 8, 9 0,, 3 Total 0, 3, Matematikkarakterer 6, , ,, Total Undersøg om der er en sammenhæng mellem de opnåede fysikkarakterer og de opnåede matematikkarakterer. 76

83 3.3 To-vejs tabel LØSNING: X = antal studerende med opnået matematikkarakter X = antal studerende med opnået fysikkarakterer H 0 : X og X er statistisk uafhængige. Udfaldene antages at være uafhængige, og da de studerende antages at være repræsentative for en årgang med samme sandsynlighed fra årgang til årgang. Dette kan derfor opfattes som et multinomialt eksperiment. Vi får følgende tabel over de forventede værdier: Forventede værdier Fysikkarakterer 0, 3, 5 6, 7 8, 9 0,, 3 Matematikkarakterer 0, 3, = , = = = = = = = , = = = = ,, = = = = Da alle de forventede værdier er over, og kun klasse af 6 ligger under 5 er betingelserne for en χ - test opfyldt. Vi beregner nu teststørrelsen ( ) ( ) ( ) χ = = Frihedsgradstallet er f = ( r ) ( q ) = ( 4 ) ( 4 ) = 9 Idet χ = > χ0999. ( 9) = 7. 9 forkastes nulhypotesen (stærkt bevis) dvs. der er ikke uafhængighed mellem fysikkaraktererne og matematikkaraktererne. Når vi ser på tallene er det tydeligt at gode karakterer i det ene fag også har en tendens til at bevirke gode karakterer i det andet fag. Excel - løsning: Det er ret besværligt at beregne de forventede værdier i Excel, men er det først gjort, er det nemt at få P-værdien. Observerede data:

84 3 Antalstabeller Forventede data: Beregning i celle DA sker ved følgende ordre: =SUM(D:G)*SUM($D$:$D$4)/SUM($D$:$G$4) = Bemærk at ønsker man at kopiere ned gennem en søjle, skal visse adresser være absolutte (med $ tegn) 7,546 39,578 5,4 4,466,64 66,306 4,57 7,48 8,44 96,63 6,04 0,904 0,388 54,484 34,98 6,48 P - værdi = CHITEST(D:G4;I:L4) =,448E-9 78

85 Opgaver til kapitel 3 OPGAVER Opgave 3.(E79) For en støvfyldt gasart ønskede man at bestemme antallet af støvpartikler pr. volumenenhed. Til brug herfor sendte man 500 gange en lysstråle gennem et volumen. der var så lille (0-6 cm 3 ), at det kun indeholdt få støvpartikler. Man iagttog hver gang volumenet gennem et ultramikroskop og optalte antallet af støvpartikler. Forsøgsresultaterne var: Antal partikler I alt Antal gange ) Angiv hvilken fordelingstype du vil benytte for antallet X af støvpartikler pr. 0-6 cm 3. ) Estimer parameteren/parametrene i den formodede fordeling. 3) Foretag en testning af den opstillede model. 4) Estimer middelantallet af støvpartikler pr. cm 3. Opgave 3.(F93) Ved måling af 00 akslers diametre fandtes følgende grupperede empiriske fordeling: Intervalinddeling Antal observationer Nedre grænse Øvre grænse χ I alt 00 Udfør en - testning af, om akseldiameteren kan antages at være normalfordelt. (Vink: Ved beregningen af estimater for middelværdi og spredning tænkes alle observationer i et interval samlet i midtpunktet af intervallet) Opgave 3.3(E74) En terning kastedes 0 gange, hvorved følgende resutater fandtes: Antal Øjne Antal gange Test nulhypotesen: Terningen er en ærlig" terning. 79

86 3 Antalstabeller Opgave typer vaccine mod en bestemt sygdom blev undersøgt ved, at 6 grupper på hver 00 forsøgsdyr (mus) blev udsat for smitte. De 5 af grupperne fik hver sin type vaccination, mens den sidste gruppe ikke blev vaccineret. Efter en passende tid undersøgte man hvor mange af de 00 dyr, der havde fået sygdommen. Følgende resultater fandtes: Gruppe nr Antal syge dyr Vi ønsker at foretage en statistisk anayse af, om procenten af smittede dyr i de 6 grupper kan antages at være den samme. Opgave 3.5(E8) En kemikaiefabrik har påbegyndt en fabrikation af kunstgødning. Ved fabrikationen hældes gødningen i sække af 5 "ens" maskiner, idet det tilstræbes, at nettoindhodet i sækkene er 5 kg i hver. Ved indkørselen af produktionen fandt man, at der var mange overvægtige og undervægtige sække. Føgende antalstabel indeholder produktionsresultatet ved første prøvekørsel: Maskiner Nettovægt Under 4 kg Mellem 4 og 6 kg Over 6 kg Foretag en testning af, om det kan antages, at vægtfordelingen er den samme for de 5 maskiner. Opgave 3.6(E8) (test i antalstabel) Ved start af en stor amerikansk industrivirksomhed underkastedes alle 73 ansøgere til et bestemt job på fabrikken en psykoteknisk prøve. Idet ansøgerne grupperedes efter, om de var medlemmer af en fagforening eller ikke, er nedenstående anført resultaterne af den pågældende prøve. Resultat af prøven godt middel dårligt Medlem af en fagforening Ikke medlem af en fagforening Hvad kan der sluttes om sammenhæng mellem præstation ved prøven og medlemskab af en fagforening? 80

87 Opgaver til kapitel 3 Opgave 3.7(E8) En fabrik, der arbejdede i 3 - holdskift, fremstillede b.a. en bestemt maskindel i massefabrikation. For at undersøge, om kvaliteten af denne maskindel påvirkedes af omstændigheder, der afhang af, inden for hviket tidsrum af døgnet fabrikationen fandt sted (træthed, belysningsforhold m.v.), lod man et bestemt arbejdshold arbejde på hvert af de 3 skift en uge ad gangen. Man regnede med, at produktionsbetingelserne fra uge ti uge var i det væsentlige uændrede. Arbejdsholdets ugentlige produktion var: Skift Antal ikke - defekte emner Antal defekte emner kl kl kl Foretag en statistisk anayse af, om produktionens kvalitet må antages at afhænge af produktionsperioden. Opgave 3.8(E8) Et forsikringsselskab har i løbet af et kalenderår undersøgt bilkaskoskaderne og registreret antallet af skadesanmeldelser og forsikringstagerens (førerens) alder. Resultatet blev: Forsikringstagerens alder Antal skader ) Man havde en forhåndsformodning om, at aldersgruppen 8-7 år skadesmæssigt adskiller sig fra de øvrige grupper. Bekræftes denne forhåndsformodning? ) Tillader det ovennævnte materiale en antagelse om, at der er uafhængighed mellem antallet af skader og forsikringstagerens alder for de sidste 4 aldersgrupper? 8

88 Statistik med Excel Appendix A. Statistik med Exell a: Forudsætninger. ) Excel har en statistikpakke Analysis ToolPak, som ikke automatisk bliver installeret. Dette tilføjelsesprogram skal man ofte særskilt bede om. Hvorledes dette gøres, kan ses ved at trykke på hjælpetasten F og søge Analysis ToolPak +Analysis ToolPak VBA ) Excel er oversat til dansk. Skulle man have den engelske version, vil det dog næppe give større problemer. a. Inddata. Placering: Vi vil i det følgende for kortheds skyld antage, at den første stikprøves værdier står i cellerne A, A, A3... An. Kræves der flere variable vil den næste stå i cellerne B, B, B3... Bn, den næste igen i cellerne C, C, C3... Cn osv. Navngivning: Sædvanligvis vil vi kun angive dem ved deres placering såsom A:A0. I nogle tilfælde kan det dog være praktisk at navngive dem f.eks med x, hvilket sker ved at markére x - cellerne og skrive x oppe i navngivningsfeltet øverst til venstre. a3. Beregning af (statistiske) funktioner: ) Vælg den celle hvor resultatet skal stå (eksempelvis A). ) På værktøjslinien foroven: a) Tryk på = b) Til venstre trykkes på hvorved der fremkommer en rullemenu c) På denne vælges den ønskede funktion eksempelvis NORMALFORDELING d) Der fremkommer en tabel med anvisning på, hvordan den skal udfyldes. a3.. Normalfordeling. Lad X være normalfordelt n( µ, σ ) P( X x) = NORMFORDELING(x ; µ ; σ ; SAND) P( X = x) = NORMFORDELING(x ; µ ; σ ; FALSK) Fraktil u α = NORMINV( α ; µ ; σ ) (se figur) Eksempel: ) Find for n(89.6,0.5) P( 89. X 908. ). (jævnfør eksempel.3) P( 89. X 908. )= P( X 908. ) P( X 89. ) =NORMFORDELING(90,8;89,6;0,5;SAND)-NORMFORDELING(89,;89,6;0,5;SAND) Resultat: ) Find for den normerede normalfordeling u u = NORMINV(0,975;0;) =,

89 a: Generelle forhold a3. χ - fordeling. Lad X være χ - fordelt med f frihedsgrader P( X x) = - CHIFORDELING(x;f) (bemærk: CHIFORDELING(x;f) udregner øvre hale af fordelingen) Fraktil χ α ( f ) =CHIINV(- α ;f) α (bemærk: CHIINV( ;f) udregner øvre hale ) Eksempel: (jævnfør eksempel 3.) Find for χ - fordelingen med 8 frihedsgrader ) P( X 5) P( X 5) = - CHIFORDELING(5;8) = 0,444 ) χ () 8 og χ () 8. χ () 8 =CHIINV(0,05;8) = 7,53454 χ () 8 =CHIINV(0,975;8) =,7975 a3.3 t - fordeling. Lad X være t - fordelt med f frihedsgrader, og lad x >0. P( X x) = - TFORDELING(x; f ;) (bemærk: TFORDELING(x; f ;) udregner øvre hale af fordelingen) P( X x) + P( X x) = TFORDELING(x; f ;) (se figur) Fraktil tα ( f ) = TINV(( - α ) ; f), α > 0.5 tα ( f ) = - TINV( α ; f), α < 0.5 α Bemærk: TINV( α ;f) udregner øvre hale, svarende til - Bemærk: Man må må udnytte symmetrien i t-fordelingen, for værdier mindre end 0 (svarende til α < 0.5) Eksempel:(jævnfør eksempel 3.) Lad X være t - fordelt med frihedsgrader Find ) P( X ) og P( X ) P( X ) = TFORDELING(;;) = 0,6855 P( X ) = P( X ) = TFORDELING(;;) = 0,6855 ) t ( ) og t ( ). t ( ) = TINV((-0.975);) =,7883 t ( ) = - TINV(0,05;) = -,7883 a3.4. F - fordeling. Lad X være F - fordelt F(f T, f N ) P( X x) = - FFORDELING(x ; f T ; f N ) Fraktil Fα ( ft, f N ) ==FINV( - α ; f T ; f N ) Eksempel: Lad X være F - fordelt F(8,) (jævnfør eksempel 3.3) Find ) P( X ) P( X ) = FFORDELING(;8;) = 0,34677 ) F 095. (, 8) og F 005. (, 8). F 095. (, 8) ==FINV(0,05;8;) =, F 005. (, 8) =FINV(0,95;8;) = 0,

90 Statistik med Excel a3.5. Hypergeometrisk fordeling Lad X være hypergeometrisk fordelt h (N, M, n) P( X = x) = HYPGEOFORDELING(x ; n ; M ; N) Eksempel:(jævnfør eksempel 7.) Find for h(600,0,5) P( X ) P( X ) = HYPGEOFORDELING(;5;0;600)+HYPGEOFORDELING(0;5;0;600) = 0, a3.6. Binomialfordeling Lad X være binomialfordelt b (n, p) P( X = x) = BINOMIALFORDELING(x ; n; p; FALSK) P( X x) = BINOMIALFORDELING(x ; n; p; SAND) Eksempel (jævnfør eksempel 7.4 og 7.5) ) Find for binomialfordelingen b(7,0.3333), P( X = 3) P( X = 3) = BINOMIALFORDELING(3;7;0,3333;FALSK) = 0,56033 ) Find for binomialfordelingen b(4,0.3333) P( X 3) P( X 3) = - P( X ) = - BINOMIALFORDELING(;4;0,3333;SAND) = 0,0848 a3.7. Poissonfordeling Lad X være Poissonfordelt p ( µ ) P( X = x) µ P( X x) µ = POISSON(x; ;FALSK) = POISSON(x; ;SAND) Eksempel (jævnfør eksempel 7.8) Find for Poissinfordelingen p(.46) P( X 4) (eksempel 7.8) P( X 4) =POISSON(4;,46;SAND) = 0, a4. Beregn gennemsnit, spredning, median, kvartiler af n tal x, x, x 3,... x n, x =MIDDEL(A:An), s = STDAFV(A:An),. kvartil =KVARTIL(A:An;), Median = kvartil =KVARTIL(A:An;), 3. kvartil =KVARTIL(A:An;3) Eksempel: Beregn gennemsnit, spredning og madian af tallene x =MIDDEL(A:A4) = 4, s = STDAFV(A:A4) =.9439, median =KVARTIL(A:A4;) = 3.5 a5. Beregning af histogram Indtast data (eksempelvis data fra eksempel.3 side 6) Vælg Funktioner, Dataanalyse, Histogram I den fremkomne tabel udfyldes inputområdet med A:An. ) Trykkes på OK fås en tabel med hyppigheder, hvor intervalgrænserne er fastlagt. ) Ønsker man selv at bestemme grænserne, skal man også udfylde intervalområdet. Dette gøres ved at skrive de nedre grænser i en søjle (f.eks i B til B7) og så skrive B:B7 i inputområdet (man får så samme tal som på side 7). Ønskes også en beregning af de kumulative frekvenser sætter man yderligere sætter et mærke ved kumulativ frekvens. 3) Ønskes et histogram (som tegning på side 8), så 3a) Marker udskriften (inklusive overskrifter) for både grænser og hyppighed, og tryk på ikonet Diagram i værktøjslinien 3b) Vælg søjle og tryk på udfør, så fås en figur nogenlunde svarende til tegningen på side 8 Tegningen kan justeres f.eks ved at markere en tilfældig kolonne, tryk højre musetast, og vælg formater dataserie, indstillinger, og sæt mellemrumsbredde til 0. 4) Ønskes tegnet en sumpolygon, så 4a) Marker udskriften (inklusive overskrifter) for både grænser og kumultativ frekvens (slet evt. frekvenssøjle og flyt de andre søjler sammen) 4b) Vælg kurve og tryk på udfør 84

91 a6. Konfidensintervaller for normalfordelt variabel. a5: Beregning af histogram a6.. 95%- konfidensinterval for middelværdi af stikprøve idet σ er kendt Radius r i et 95% konfidensinterval for µ : x ± r = x ± u 0975 n r = KONFIDENSINTERVAL(0,05; σ, n). Eksempel. (jævnfør eksempel 4.) Indtast data. Lad stikprøvens værdier være 6 værdier og lad σ = 0.5 Gennemsnittet =MIDDEL(A:A6) = 8,68333 Vælg den celle, hvor konfidensintervallets radius skal stå Vælg KONFIDENSINTERVAL og indsæt de ønskede værdier i den fremkomne tabel r =KONFIDENSINTERVAL(0,05;0,5;6). Resultat 0, % konfidensinterval: 8,68 ± σ a6.. 95%- konfidensinterval for middelværdi af stikprøve idet σ er ukendt s Radius r i et 95% konfidensinterval for µ : x ± r = x ± t ( f ) : n Eksempel: Lad stikprøvens værdier være de 6 værdier i eksempel 4. Indtast data. Vælg Funktioner, Dataanalyse, Beskrivende statistik I den fremkomne tabel udfyldes inputområdet med A:A6, Outputområdet til B, og konfidensniveau for middelværdi sættes til 95% Vælg den celle, hvor konfidensintervallets radius skal stå Resultat: Kolonne Konfidensniveau(95,0%) 0,53035 r = 0, % konfidensinterval: 8,68 ± 0,53035 Vælges Resumestatistik fås også gennemsnittet + en række andre oplysninger. a %- konfidensinterval for spredning af stikprøve idet µ er ukendt 95% konfidensinterval for σ : ( n ) s σ χ ( n ) ( n ) s χ ( n ) α α Der er ingen funktion hertil i Excell, så man må beregne konfidensintervallet direkte ud fra formlen. Eksempel. (hentet fra eksempel 4.3) Indtast de data i en søjle, og navngiv dem eksempelvis som saltindhold Vælg den celle, hvor konfidensintervallets nedre endepunkt skal stå Beregn =(STDAFV(saltindhold)^*/CHIINV(0,05;))^0,5 = 0,404 Vælg den celle, hvor konfidensintervallets øvre endepunkt skal stå Beregn ==(STDAFV(saltindhold)^*/CHIINV(0,975;))^0,5 = 0,53697 Konfidensinterval [0.4 ; 0.537] 85

92 Statistik med Excel a7. Hypotesetest: kontinuert variabel) Lad X være normalfordelt n( µ, σ ). Lad stikprøveværdierne stå i en søjle med navnet resultater H 0 : µ µ 0 σ a7.., kendt. : P - værdi = ZTEST(resultater; µ 0 ; σ ) Eksempel (hentet fra eksempel 5.): Test af nulhypotese H 0 : µ 69. idet σ =.0 er kendt Vælg Z-TEST og indsæt de ønskede værdier i den fremkomne tabel. P - værdi =ZTEST(resultater;69,;) = 0, H 0 : µ µ 0 σ a7.., kendt.: P - værdi = - ZTEST(resultater; µ 0 ; σ ) a7.3. : µ = µ, σ kendt. : H 0 0 P - værdi =ZTEST(resultater; µ 0 ; σ ) eller P - værdi = - ZTEST(resultater; µ 0 ; σ ) (den mindste af de to værdier) Eksempel (hentet fra eksempel 5.4) Test af nulhypotese H 0 : µ = 840. idet σ = 0.5 er kendt Vælg Z-TEST og indsæt de ønskede værdier i den fremkomne tabel. ZTEST(resultater;8,4;0,5). Resultat 0, Heraf fås P - værdi = = µ µ 0 σ 7.4. H 0 :, er ukendt: Da der ikke i Excel findes en t-test for variabel må man skrive formlen direkte. ( x µ ) n t = 0 s Eksempel (hentet fra eksempel 5.5) Test af nulhypotese H 0 : µ 7. idet σ er ukendt Da t-fordelingen i Excel ikke accepterer negative værdier må man tage den numeriske værdi (abs) af resultatet. P - værdi = TFORDELING((ABS(MIDDEL(resultater)-,7)/STDAFV(resultater)*5^0,5);4;)= 0, H 0 : H 0 :σ σ, µ er ukendt 0 Da der ikke i Excel findes en χ -test for variabel må man skrive formlen direkte. ( n ) s χ = σ 0 Eksempel (hentet fra eksempel 5.6) Test af nulhypotese H 0 : σ 0. idet µ er ukendt P - værdi = CHIFORDELING((0-)*0,4^/0,^;9) = 0, Sandsynlighedsregning 8.. Beregn fakultet n! Eksempel : Beregn 5! 5! =FAKULTET(5) = 0 n 8.. Beregn kombination K(n,p) =. p 5 Eksempel : Beregn K(5,3)=. =KOMBIN(5;3) =

93 a9. Hypotesetest: kontinuerte variable a8: Sandsynlighedsregning Lad X og X være uafhængige normalfordelte variable henholdsvis n( µ, σ) og n( µ, σ), hvor µ, µ, σ, σ er ukendte Lad stikprøveværdierne for X og X stå i søjlerne A - A6 og B - B6 (man kunne eventuelt navngive søjerne med navnene henholdsvis resultater_ og resultater_") I en række tilfælde giver Exell mulighed for at løse problemet på måder: Metode. Der beregnes kun en P - værdi Metode. Der beregnes en række mere eller mindre interesante størrelser herunder P - værdien. I det følgende beskrives begge metoder. a9.. H 0 :σ = σ : Metode : P - værdi = FTEST(A:A6 ; B:B6). FTEST beregner arealet til begge sider svarende til, at man skal sammenligne med 5% (og ikke.5%) Metode : Vælg Funktioner, Dataanalyse, F-test: Dobbelt stikprøve for varians Den fremkomne tabel udfyldes: Område for variabel ": A:A6 Område for variabel ": B:B6 Outputområde : Skriv cellenummer for øverste venstre celle i det ønskede outputområde. Metoderne og deres udskrift er vist i eksemplerne 0.4 punkt og 0.5 punkt a9.. σ = σ: H 0 : µ µ : Metode : P - værdi =TTEST(A:A6 ; B:B6; ;) Metode : Vælg Funktioner, Dataanalyse, t-test: to stikprøver med ens varians Den fremkomne tabel udfyldes som under punkt, metode. a9.3. σ σ : H 0 : µ µ : Metode : P - værdi = TTEST(A:A6;B:B6;;3) Metode : Vælg Funktioner, Dataanalyse, t-test: to stikprøver med forskellig varians Den fremkomne tabel udfyldes som under punkt, metode. a9.4. σ σ : H 0 : µ = µ : Metode : P - værdi =TTEST(A:A6 ; B:B6; ;3) eller P - værdi =TTEST(A:A6 ; B:B6; ;3) (den mindste af de to værdier) Metode : Samme fremgangsmåde som under de forrige punkter. Metoderne og deres udskrift er vist i eksemplerne 0.4 punkt og 0.5 punkt a9.5. Parvise observationer: : µ µ : H 0 Metode : P - værdi =TTEST(A:A6 ; B:B6; ;) Metode : Vælg Funktioner, Dataanalyse, t- test: parvis dobbelt stikprøve for middelværdi Den fremkomne tabel udfyldes som under de forrige punkter. Eksempel: (hentet fra eksempel 5.6 H0 : µ A = µ B Metode : P - værdi =TTEST(A:A08;B:B0;;) = 0, Da < 0.05 forkastes H 0 Metode : Vælg Funktioner, Dataanalyse, t- test: parvis dobbelt stikprøve for middelværdi Den fremkomne tabel udfyldes: Område for variabel ": B:B0 Område for variabel ": A:A0 Outputområde : Skriv cellenummer for øverste venstre celle i det ønskede outputområde. 87

94 Statistik med Excel Udskrift: t-test: Parvis dobbelt stikprøve for middelværdi Variabel Variabel Middelværdi 0,6,07 Varians 5,663 6,9 Observationer 0 0 Pearson-korrelation 0,98688 Hypotese for forskel i middelvæærdi 0 fg 9 t-stat -3,5584 P(T<=t) en-halet 0, Da < 0.05 forkastes H 0 t-kritisk en-halet,8334 P(T<=t) to-halet 0,00635 t-kritisk to-halet,659 a0. Regressionsanalyse Skriv x-værdierne i en søjle, markér dem og navngiv dem eksempelvis som x Skriv y-værdierne i en søjle, markér dem og navngiv dem eksempelvis som y Vælg Funktioner, Dataanalyse, Regression Den fremkomne tabel udfyldes ) Input for Y-område skrives y, input for X - område skrives x ) I outputområdet skrives øverste venstre celle i det ønskede outputområde. Der skal bruges mindst 7 kolonner til regressionsanalysetabellen. 3) Det kan være hensigtsmæssigt at afkrydse yderligere nogle rubrikker, men det er ikke obligatorisk. Eksempel med tilhørende udskrift kan ses i eksempel.7 og.0 a0. Korrelationskoefficient Beregne korrelationskoefficient for den i eksempel 9. nævnte stikprøve (,), (0,0), (,), (,), (,0), (,), (0,), (,), (0,), (,). Skriv x-værdierne i en søjle (eksempelvis C-søjlen) og y-værdierne i en anden søjle(eksempelvis D-søjlen). Marker x-værdierne og navngiv vektoren eksempelvis som X Marker y-værdierne og navngiv vektoren eksempelvis som Y Vælg den celle hvor korrelationskoefficienten skal stå (eksempelvis D). Tryk på værktøjslinien på =, og vælg til venstre herfor en rullemenu, på denne vælges Korrelation, Skriv X og Y i den fremkomne tabel. Resultat r = i celle D. a. Variansanalyse a.. Ensidet variansanalyse Inddata har følgende udseende (hentet fra eksempel.) T T T3 T Vælg Funktioner, Dataanalyse, ANAVA: enkelt faktor Den fremkomne tabel udfyldes ) Inputområde udfyldes så hele området er med (eksempelvis a:d4) ) Markér rækker (da vi har arrangeret data i rækker) 3) Markér Etiketter i første række da første række jo er variabelnavne 4) I Outputområdet skrives øverste venstre celle i det ønskede outputområde. Udskrift svarer til udskriften i afsnit.. 88

95 a0: Variansanalyse a.. Tosidet variansanalyse Idet data i eksempel.3 anvendes ses inddata således ud: K K O O O Vælg Funktioner, Dataanalyse, ANAVA: to faktor med gentagelse Den fremkomne tabel udfyldes ) Inputområde udfyldes så hele området er med (eksempelvis A:C7) ) Rækker pr. stikprøve : Skriv antallet af rækker i hver stikprøve ( i vort eksempel ) 4) I Outputområdet skrives øverste venstre celle i det ønskede outputområde. Udskriften svarer til den beskrevne i afsnit.3.6. og a. Antalstabeller a.. En - vejs tabel Skriv de observerede værdier i en søjle f.eks A- A4 og de forventede værdier i en anden søjle f.eks B - B4 Eksempel: (hentet fra eksempel 3.) Inddata: Skriv =CHITEST(A:A4;B:B4) P - værdi = 0,0047 Bemærk, at frihedsgradstallet altid er k -, hvilket jo ikke altid er korrekt, jævnfør eksempel 4.3. a.. To - vejs tabel Skriv de observerede værdier i et område f.eks A - D4 og de forventede værdier i eksempelvis A6 - D9 Eksempel: (hentet fra eksempel 3.3) ,546 39,578 5,40 4,466,64 66,306 4,570 7,48 8,44 96,63 6,040 0,904 0,388 54,484 34,980 6,48 skriv = CHITEST(D:G4;D6:G9) Resultat: P - værdi =,448E-9 89

96 APPENDIX 0. APPENDIX 0.. Oversigt over konfidensintervaller( variable). X og X er normalfordelte henholdsvis n( µ, σ) og n( µ, σ). Givet stikprøver af X og X. Størrelse, gennemsnit og spredning henholdsvis n, x, s og n, x, s nr Forudsætninger Parameter og estimat 00 ( - ) % konfidensinterval for parameter α n 30 og/eller n 30 µ µ x x s s s x x u α + µ µ x x + u α + n n n s n n < 30 og n < 30 σ σ µ µ x x x x t α( f ) s + µ µ x x + t α( f ) s + n n n n hvor s ( n ) s + ( n ) s = f og f = n+ n 3 n < 30 og n < 30 σ σ 4 µ og µ kendte µ µ x x s s Lad a = + n n x x t ( f ) a µ µ x x + t ( f ) a α α hvor f er det nærmeste hele tal, som er større end σ F σ F F n n σ hvor F n n α α (, ) σ a g = s s n n + n n (, ) (( ) + ( µ ) ) F = (( ) ( µ ) ) n s n x n n s + n x n 5 µ kendt σ µ ukendt σ F F σ F F n n α (, ) ( n ) s + n ( x µ ) hvor F = ( n, n ) σ s n α 6 µ og µ ukendte σ F σ F F n n σ hvor α (, ) F s F n n α (, ) σ s = 90

97 APPENDIX 0. X og X er binomialfordelt henholdsvis bn (, p) og bn (, p), hvor n og n er kendte og p og p ukendte. Observerede stikprøveværdier x og x. nr Forudsætninger Parameter og estimat 00 ( - ) % konfidensinterval for parameter α 7 p og p ukendte. x [ 5; n 5] x [ 5; n 5] p p ~ x p = n ~ x p = n ~ p ~ p u ~ p ( ~ p ) ~ p ( ~ p ) ~ ~ ~ ( ~ ) ~ ( ~ p p p p ) + p p p p + u α + n n n n α X og X er Poissonfordelte henholdsvis p( µ ) og p( µ ), hvor µ og µ er ukendte. Givet stikprøver af X og X. Størrelse og gennemsnit henholdsvis n, x og n, x. nr Forudsætninger Parameter og estimat 00 ( - ) % konfidensinterval for parameter α 8 µ og µ ukendte. n x 0 n x 0 µ µ x x x x x x x x u α + µ µ x x + u α + n n n n 9

98 APPENDIX 0. APPENDIX 0.. Oversigt over test af middelværdier µ og µ for normalfordelte variable (stor stikprøvestørrelse) n( µ, σ) n( µ, σ ) X og X er normalfordelte henholdsvis og. Givet stikprøver af X og X. Størrelse, gennemsnit og spredning henholdsvis n,, x σ σ x n 30 n 30 α n 0, + n n s og n,, s. og Signifikansniveau er. Lad d være en konstant, og Y en statistisk variabel, der er fordelt. Forudsætn. n 30 og n 30 eller σ og σ kendte s og s erstattes så af σ og σ H Nulhypotese Metode Beregning H 0 forkastes Dimensionering :µ µ + 0 H: µ > µ + d H :µ µ + 0 H: µ < µ + d d d Enten tabelmetode u = x x d s s + n n Formel () u > u α eller P - værdi p= P( Y u) = Φ( u), hvor u er værdien i () p < α Enten tabelmetode u findes af formel u < u α eller P - værdi p= P( Y u) = Φ( u), hvor u er værdien i () p < α = µ µ d er den mindste ændring i µ der har praktisk interesse. β = P(type II fejl) u + u n σ σ = max{ s, s } α β H :µ = µ + 0 H: µ µ + d d Enten tabelmetode u findes af formel () eller P - værdi p= P( Y u) = Φ( u), for x > x + d p= P( Y u) = Φ( u) x < x + d, for hvor u er værdien i formel () u > u p < α α Betegnelser som ovenfor: u n + u α β σ 9

99 APPENDIX 0.3. Oversigt over test af middelværdier µ og µ for normalfordelte variable. (lille stikprøvestørrelse) X og X er normalfordelte henholdsvis n( µ, σ) og n( µ, σ ). Givet stikprøver af X og X. Appendix 0.3 Størrelse, gennemsnit og spredning henholdsvis n, x, s og n, x, s. n < 30 og n < 30. Signifikansniveau er α. Lad d være en given konstant T er en statistisk variabel der er t - fordelt med frihedsgradstallet f. Forudsætn. n < 30 og n < 30 σ = σ (accept ved F - test) H Nulhypotese Metode Beregning H 0 forkastes Dimensionering :µ µ + 0 H: µ > µ + d H :µ µ + 0 H: µ < µ + d d d Enten tabelmetode x x d t = s + n n hvor s Formel () ( n ) s + ( n ) s = n + n t > t α ( f ) hvor f = n + n eller P - værdi p = P( T t) hvor t er værdien i formel() p < α Enten tabelmetode t findes af formel () t < t α ( f ) hvor f = n + n eller P - værdi p = P( T t) hvor t er værdien i formel () p < α = µ µ d er den mindste ændring i µ der har praktisk interesse. β = P(type II fejl) Antal gentagelser for hver af de to variable findes af dimensioneringstabel 8 For værdier der ikke står i tabellen benyt Mapleprogrammet i appendix 0.7 H :µ = µ + 0 H: µ µ + d d Enten tabelmetode eller P - værdi t findes af formel () t > t ( f ) α hvor p = P( T t) for x > x + d p = P( T t) for x < x + d hvor t er værdien i formel () f = n + n p < α Benyt dimensioneringstabel tabel 8 For værdier der ikke står i tabellen benyt Mapleprogrammet i Appendix

100 APPENDIX 0.3 Appendix 0.3 fortsat X og X er normalfordelte henholdsvis n( µ, σ) og n( µ, σ). Givet stikprøver af X og X. Størrelse, gennemsnit og spredning henholdsvis n, x, s og n, x, s. Signifikansniveau er α. Lad d være en given konstant. T er en statistisk variabel der er t - fordelt med frihedsgradstallet f. Forudsætn Nulhypotese Metode Beregning H 0 forkastes Approksimativ Enten x x d s s t > t metode tabelmetode t = α ( f ), hvor c = + Formel (3) c H0:µ µ + d n n hvor f er σ og σ bestemt i foregående Frihedsgradstallet f er det nærmeste hele tal, som er større end celle. ukendte H: µ > µ + d c σ σ (forkastelse ved F - test) eller P - værdi g = s s n n + n n (Satterthwaites test) p = P( T t), hvor t er værdien i formel(3) p < α H :µ µ + 0 d Enten tabelmetode t findes af formel (3), og frihedsgradstal f bestemmes på samme måde. t < t α ( f ) H: µ < µ + d eller P - værdi p = P( T t), hvor t er værdien i formel (3) p < α H :µ = µ + 0 H: µ µ + d d Enten tabelmetode eller P - værdi t findes af formel (3), og frihedsgradstal f bestemmes på samme måde. p = P( T t) for x > x + d ( ) x < x + d p = P T t for, hvor t er værdien i formel (3) t > t ( f ) α p < α 94

101 APPENDIX 0.4. Oversigt over test af varianser APPENDIX 0.4 σ σ for normalfordelte variable. og X og X er normalfordelte henholdsvis n( µ, σ) og n( µ, σ). Givet stikprøver af X og X. Størrelse, gennemsnit og spredning henholdsvis n, x, s og n, x, s. Signifikans- niveau er α ( n ) s + n ( x µ ) n og kendte: F = Formel (), Q er F - fordelt Fn (., n) ( n ) s + n ( x µ ) n ( ) µ µ ( ) µ og µ ukendte: F s Formel (), Q er F - fordelt Fn ( n, ) s = ( n ) s + n ( x µ ) µ kendt og µ ukendt: F = Formel (3), Q er F - fordelt s n Oversigt der forudsætter benyttelse af F - tabel Fn (, n ) Forudsætn. Nulhypotese Beregning H 0 forkastes og µ µ H 0 :σ σ H:σ > σ F beregnes af formel () F > F α ( n, n ) kendte H 0 :σ σ H:σ < σ F beregnes af formel () F < F ( n, α n ) H 0 :σ = σ H:σ σ F beregnes af formel () F > F ( n, n ) eller F < α F ( n, n ) α og µ µ H 0 :σ σ H:σ > σ F beregnes af formel () F > F ( n, α n ) ukendte H 0 :σ σ H:σ < σ F beregnes af formel () F < F ( n, α n ) H 0 :σ = σ H:σ σ F beregnes af formel () F > F ( n, n ) α eller F < F n n α (, ) µ kendt H 0 :σ σ H:σ > σ F beregnes af formel (3) F > F ( n, α n ) ukendt µ H 0 :σ σ H:σ < σ F beregnes af formel (3) F < F α ( n, n ) H 0 :σ = σ H:σ σ F beregnes af formel (3) F > F α ( n, n ) eller F < F α ( n, n ) 95

102 APPENDIX 0.4 APPENDIX 0.4 (fortsat) Oversigt til beregning af P-værdier. Forudsætter lommeregner/statistikprogram med F - fordeling. (( n ) s + n ( x µ ) ) n µ og µ kendte: F = Formel (4), Q er F - fordelt Fn (., n) (( n ) s + n ( x µ ) ) n µ og µ ukendte: F s Formel (5), Q er F - fordelt Fn ( n, ) s = ( n ) s + n ( x µ ) µ kendt og µ ukendt: F = Formel (6), Q er F - fordelt s n Fn (, n ) Forudsætn. Nulhypotese Beregning H 0 forkastes og µ µ H 0 :σ σ H:σ > σ p= P( Q F), hvor F er værdien i formel (4) p < α kendte H 0 :σ σ H:σ < σ p= P( Q F), hvor F er værdien i formel (4) H 0 :σ = σ H:σ σ p= P( Q F) p= P( Q F) for F > for F <, hvor F er værdien i formel (4) p < α og µ µ H 0 :σ σ H:σ > σ p= P( Q F), hvor F er værdien i formel (5) p < α ukendte H 0 :σ σ H:σ < σ p= P( Q F), hvor F er værdien i formel (5) H 0 :σ = σ H:σ σ p= P( Q F) p= P( Q F) for F > for F <, hvor F er værdien i formel (5) p < α µ kendt H 0 :σ σ H:σ > σ p= P( Q F), hvor F er værdien i formel (6) p < α ukendt µ H 0 :σ σ H:σ < σ p= P( Q F), hvor F er værdien i formel (6) H 0 :σ = σ H:σ σ p= P( Q F) p= P( Q F) for F > for F <, hvor F er værdien i formel (6) p < α 96

103 APPENDIX 0.5. Oversigt over test af parametre p og p for binomialfordelte variable. APPENDIX 0.6 X og X er binomialfordelt henholdsvis bn (, p) og bn (, p ), hvor n og n er kendte og p og p ukendte. Observerede stikprøveværdier x og x. Signifikansniveau er α. Forudsætning: Nulhypotese Metode Beregning H 0 forkastes Approksimativ ~ p ~ p u = Formel () metode Enten tabelmetode ~ p p og p ( ~ u > u α p ) + H0: p p n n ukendte. n ~ p [ 5; n 5] n ~ H: p > p p [ 5; n 5] hvor ~ x p ~ n og p x = = n hvor eller P-værdi P-værdi = Φ ( u), Formel () P-værdi < α ~ x + x p = n + n. hvor u er værdien i formel () H0: p p H: p < p H0: p = p H: p p Enten tabelmetode u beregnes af formel () u < u α eller P - værdi P-værdi = Φ ( u), Formel (3) hvor u er værdien i formel () P-værdi < α Enten tabelmetode u beregnes af formel () u > u eller P-værdi Hvis ~ p ~ pså formel () Hvis ~ p < ~ p så formel (3) α P-værdi < α 97

104 APPENDIX 0.6. Oversigt over test af parameter µ og µ for Poissonfordelt variable. p( µ ) p( µ ) µ µ gennemsnit x og n med gennemsnit x. Signifikansniveau er α. X og X er Poissonfordelte variable fordelt og hvor og er ukendte. Der foreligger to stikprøver af størrelsen n med Forudsætning Nulhypotese Metode Beregning H 0 forkastes Approksimativ x x u = metode Enten tabelmetode u > u α µ og µ Formel () H 0 :µ µ x + n n ukendte. H: µ > µ n x+ n x n x 5 og hvor x =. n + n n x 5 H 0 :µ µ H: µ < µ eller P-værdi P-værdi = Φ ( u), Formel () hvor u er værdien i formel () p < α Enten tabelmetode u beregnes af formel () u < u α eller P - værdi P -værdi = Φ ( u), Formel (3) hvor u er værdien i formel () p < α APPENDIX 0.6 H 0 :µ = µ 0 H: µ µ Enten tabelmetode u beregnes af formel () u > u eller P-værdi Hvis x x så formel () Hvis x < x så formel (3) α P-værdi < α 98

105 Appendix. APPENDIX.. Formler til beregning af enkelt regressionsanalyse uden gentagelser. I dette appendix vises hvorledes man kan beregne en enkelt regressionsanalyse uden gentagelser, blot man har en lommeregner med regressionsprogram. I eksempel.5 er formlerne anvendt på et konkret eksempel. Forudsætning: Data : x x x x 3... x N y y y y 3... y N De N - værdier er uafhængige observationer af statistisk uafhængig normalfordelte variable Y i med samme varians σ. Det antages endvidere at man har fundet, at data kan beskrives ved en lineær model. Vi har derfor at middelværdien af den statistiske variable Y er en lineær funktion af x af formen EYx ( )= β0 + βx Beregninger: ) De N punktpar indtastes i lommeregner. Regressionsprogram aktiveres, og blandt beregnede størrelser findes Estimater for: regressionskoefficienter: ~ β ~ 0 og β. Korrelationskoefficient r. Gennemsnit x og y. Spredning s x og s y. ) Udfylder variansanlysetabel: Udregner SAK total = ( N ) s y, SAKregression = r SAKtotal og SAK = SAK SAK. residual total model Variation (Source) SAK (SS) f (df) s = SAK f F Regression SAK regression s regression SAKregression = F regression s = s regression residual Residual SAK residual N - s residual = SAK residual N Total SAK total N - 99

106 Appendix. Test: Lad α være signifikansniveau. ) H : Regressionslinien er vandret H : y er uafhængig af x H : Model = 0 H : β = Fmodel > F (, α N ) H 0 forkastes, hvis, eller hvis P - værdi = PZ ( < Fregression) < α, hvor Z er F - fordelt ( ft, fn ) = (, N ). ) H0:β = a, hvor a er en given konstant. SAK ~ ~ s ~ Beregner hjælpestørrelserne SAK = regression, V ( ) residual β =, β a x ~ SAK t = x ~ ~ β V β ( ) ( ) H 0 forkastes, hvis t > t α ( N ) (for a = 0 kan denne test erstatte F - testen) 3) H0:β 0 = b hvor b er en given konstant. Beregner hjælpestørrelserne ~ ~ V( ) s x ~ β 0, β0 b =. residual + t = N SAKx ~ ~ V β H 0 forkastes, hvis t > t α ( N ) ( ) 0 Konfidensinterval for : ~ ~ ~ ~ ~ ~ β β t α( N ) V( β ) ; β + t α( N ) V( β ) ~ Til en given x - værdi er µ et estimat for middelværdien µ for Y. ~ ~ ~ µ = β + β x ~ 0 og ( ~ ( ) V ) x x µ = sresidual +. N SAK Konfidensinterval for : µ ~ µ t α( N ) V( µ ) µ + t α( N ) V( µ ) x ~ ~ ; ~ ~ ~ Prædiktionsinterval: (Konfidensinterval) for ny observation for en given x - værdi: ~ x x ( ) µ t ( ) ; µ ( ), hvor. α N Q + t α N Q Q = sresidual + + N SAKx 00

107 Appendix. APPENDIX.. Formler til beregning af enkelt regressionsanalyse med lige mange gentagelser Forudsætning: Data : x x x x 3... x k y y y... y n y y... y n y 3 y 3... y 3n... y k y k... y kn y ij - værdierne er uafhængige observationer af statistisk uafhængig normalfordelte variable Y i. For hver af de k x - værdier er der lige mange gentagelser n af y - værdier, dvs. i alt N=n k observationer. Beregninger: ) For hver x - værdi x i indtastes de n y-værdier, og man beregner spredningen s i. Man tester om der er varianshomogenitet (se evt. under punkt d). Hvis det er tilfældet beregnes et estimat s + s sk for den fælles varians s0 =. s0 har k( n ) = N k frihedsgrader. k ) De N=n k punktpar ( xi, yij) indtastes i lommeregner. Regressionsprogram aktiveres, og blandt beregnede størrelser anvendes følgende estimater: Regressionskoefficienter: ~ β ~ 0 og β, korrelationskoefficient r, gennemsnit x. og spredning s y. 3) Man udregner SAK total = ( N ) s y, SAKregression = r SAKtotal og SAK0 = ( N k) s0 4) Udfylder variansanlysetabel: SAKlack of fit = SAKtotal SAKregression SAK0 Variation (Source) SAK (SS) f (df) s = SAK f F Model SAK regression s regression SAK = regression F regression s = s regression pool Lack of fit SAK lack of fit k - s lack of fit = SAK lackof fit k F lack of fit = s lack of fit s 0 Gentagelser SAK 0 N - k Total SAK total N - s SAK = N k 0 0 0

108 Appendix. Test: Lad α være signifikansniveau. a) H 0 : Lineær model gælder H 0 :( x i, µ i ) ligger på en ret linie H 0 :Residual for gennemsnitspunkter = 0. H 0 forkastes, hvis Flack of fit > F α ( k, N k), eller hvis P - værdi = PZ ( > Flack of fit ) < α, hvor Z er F - fordelt ( ft, fn ) = ( k, N k). Såfremt H 0 accepteres (og et residualplot også virker rimelig) fortsætter testningen: b) Derefter testes H0: Regressionslinien er vandret H0: y er uafhængig af x H0: Regression = 0 H0: β = 0 Da såvel s0 som s residual nu er et udtryk for forsøgsfejlens varians σ, foretages en pooling: ( N k) s k s SAK SAK 0 + ( ) lack of fit 0 + lack of fit s, pool = = N N og F model beregnes (se variansanalysetabel. H 0 forkastes, hvis Fmodel > F (, α N ), eller hvis P - værdi = PZ ( > Fregression ) < α, hvor Z er F - fordelt ( ft, fn ) = (, N ). c) H0:β = a. hvor a være en given konstant. Beregner hjælpestørrelserne SAK = SAK ~ ~ s regression, V ( ) pool β a β =, t = x ~ SAK x ~ ~ V β H 0 forkastes, hvis Konfidensinterval for : t > t α ( N ) ( ) β (for a = 0 kan denne test erstatte F - testen) ~ ~ ~ ~ ~ ~ β β t α( N ) V( β ) ; β + t α( N ) V( β ) ~ Til en given x - værdi er µ et estimat for middelværdien for Y. ~ ~ ~ Beregner hjælpestørrelserne µ = β + β x ~ 0, ( ~ ( ) V ) x x µ = spool +,. N SAK x Konfidensinterval for µ ~ ~ : ( ) ~ ( ) ; ~ ~ ( ) ~ µ t α N V µ µ + t α N V( µ ) Prædiktionsinterval (Konfidensinterval) for ny observation for en given x - værdi: ( ) ~ x x µ t ( ) ; µ ( ), hvor α N Q + t α N Q Q = s pool + + N SAKx H : σ = σ =... = σ σ 0 k d) Test for at de variable Y i har samme varians Simplificeret F-test, Bartletts test og Levines test (se appendix.) ( ) 0

109 APPENDIX.3. Transformation til lineær model. Nr Model Kommentar Linear model: Y = a + b*x Exponential model: Y = exp(a + b*x) a+ bx Y = e a bx = e e ln( Y) = a + bx Sættes Z =ln(y) fås Z= a+b X 3 Reciprocal-Y model: Y = l/(a + b*x) Y = = a+ b X a + b X Y 4 Reciprocal-X model: Y = a + b/x 5 Double reciprocal model: Y = l/(a + b/x) Sættes Z = fås Z= a+b X Y Appendix.3 b Y = a+. Sættes W = fås Y= a+b W X X Y = = a+ b b a + Y X X = Sættes Z = og W fås Z= a+b W Y X 6 Logarithmic-X model: Y = a + b*ln(x) Sættes W = ln(x) fås Y= a+b W 7 Multiplicative model: Y = a*x^b b Y = a X ln( Y) = ln( a) + b ln( X) Sættes Z = ln(y) og W = ln(x) fås Z= a+b W 8 Square root-x model: Y = a + b*sqrt(x) 9 Square root-y model: Y = (a + b*x)^ 0 S-curve model: Y = exp(a + b/x) Y = a + b X. Sættes W = X fås Y= a+b W ( ) Y = a+ b X Y = a+ b X Sættes Z = Y fås Z= a+b X a+ b X Y = e ln( Y) = a+ b X Logistic model: Y = exp(a + b*x)/(l + exp(a + b*x)) Log probit model: Y = normal(a + b*ln(x)) Sættes Z = ln(y) og W = fås Z= a+b W X a+ bx e Y = + a bx + a bx = + + ln e Y Sættes Z = fås Z= a+b X Y + ln Y = a+ b X Φ( ln( )) Φ ( Y) = a+ b ln( X) Sættes Z = Φ ( Y) og W=ln(X) fås Z= a+b W 03

110 Appendix. APPENDIX.. Formler til beregning af ensidet variansanalyse I dette appendix vises hvorledes man kan beregne en ensidet variansanalyse, blot man har en lommeregner der kan beregne gennemsnit og spredning. For hvert observationssæt udregnes gennemsnit og spredning. Faktor Observationer Gennemsnit Spredning R x, x, x 3,..., x n x. s R x, x, x 3,..., x n x. s R 3 x 3, x 3, x 33,..., x 3n x 3. s 3 R r x r, x r, x r3,..., x r n x r. s r Forudsætning: x ij - værdierne er uafhængige observationer af statistisk uafhængig normalfordelte variable X i med middelværdi µ i og samme varians σ. For hver af de r - faktorniveauer er der lige mange gentagelser n af x - værdier, dvs. i alt N = n r observationer. Beregninger: s s sr Man beregner s =. SAK0 = ( N r) s0. r s har r( n ) = N r frihedsgrader. 0 Man indtaster de r gennemsnit x., x.,..., x r. i lommeregneren og finder spredningen s x. s = n s SAK = ( n ) s R x SAKtotal = SAK0 + SAKR Udfylder variansanlysetabel: Variation (Source) R SAK (SS) R f (df) x x R x (alternativt: SAK = ( n ) s, SAK = n SAK ) s = SAK f F P - værdi Behandlinger (Between groups) SAK R r - s R = SAKR r F R = s s R 0 Gentagelser (Within groups) SAK 0 N - r Total SAK total N - s SAK = N r

111 Appendix. Model. Ladα være signifikansniveau. µ + µ µ n Lad µ. =. r Vi kan da skrive µ = µ. + ( µ µ.) = µ. + R = µ. + Rækkevirkning i i i Testprocedure. Nulhypotese: H : µ = µ =... = µ H : R= 0 r 0 0 H 0 forkastes, hvis FR > F α ( r, N r), eller hvis P - værdi = PZ ( > FR ) < α, hvor Z er F - fordelt. Konfidensinterval for : LSD Konfidensinterval for : Varianshomogenitet. ( ft, f N ) = ( r, N r) s0 µ i xi. t α ( N r) ; xi. + t α ( N r) n H 0 s 0 n s s 0 0 µ i xi. t α ( N r) ; xi. + t α ( N r) n n : σ σ... σ = = = Test for, at de variable Y i har samme varians σ k σ max σ min a) Simplificeret F - test. Lad den største værdi af de k varianser være og den mindste være. max F = σ σ Beregn teststørrelsen. min F < F f f H 0 accepteres, hvis α ( max, min ). Hvis nulhypotesen accepteres, så antages kravet om varianshomogenitet at være opfyldt. Hvis nulhypotesen forkastes, må anvendes en test med større styrke. Levines test (se appendix.) er god og beregningsmæssig ret enkel, men kræver mere end gentagelser. 05

112 Appendix. b) Bartletts test (se nedenfor) er beregningsmæssigt vanskelig, og har den svaghed, at den er særdeles følsom overfor afvigelser fra normalitet. Bartletts test. H : σ = σ =... = σ accepteres, hvis χ χ095. ( k ). 0 k k ( ni ) si i= ( N k) ln ( ni ) ln( si ) N k χ = k. N k i= ni 3( k ) c) Levines test. God test, som imidlertid kræver mere end gentagelser.(andre test se appendix.) Lad d y y hvor i =,,..., k ij = ij $ i, hvor $y er medianen af de gentagelser af i te behand- j =,,..., n i n i i ling. Man udfører en sædvanlig ensidet variansanlyse på tallene d ij Median: Tallene ordnes i voksende rækkefølge: Ulige antal tal: median = midtertal blandt de ordnede tal, Lige antal tal: median = genemsnit af de to midterste blandt de ordnede tal Eksempel: Tal fra eksempel.. $y i d ij T 08, 0, 0, 0, T 05, 0, ,, 0 T 3 08,, 3 3, 0, T 4 7, 9, 7 0,, 5 d ij En ensidet variansanlyse på giver F = 0.5, og dermed P -værdi = 0.985, dvs. en accept af nulhypotesen. 06

113 Appendix. APPENDIX.. Formler til beregning af tosidet variansanalyse I dette appendix vises hvorledes man kan beregne en tosidet variansanalyse, blot man har en lommeregner med gennemsnit og spredning. Som taleksempel benyttes eksempel.. Forsøgsresultaterne er følgende: Karburator Olieblanding K K O O O Beregning af gennemsnit. Karburator K K Rækkegennemsnit O Olieblanding O O Søjlesum Antal rækker r = 3, Antal søjler q =, Antal delforsøg i celler n = Antal delforsøg i række = n q = = 4. Antal delforsøg i søjle n r = 3 = 6 Antal celler r q = 3 = 6, Totalt antal forsøg N = r q n = 3 =. Spredning på de r rækkegennemsnit: s xr = Spredning på de q søjlegennemsnit: s xq = Spredning på de r q cellegennemsnit: s celler = Beregninger: SAK = ( N n q) s = ( 4) = , f = r = rækker xr xq SAKsøjler = ( N n r) s = ( 6) = , f C = q = SAKceller = ( N n) s celler = ( ) = 7466., f celler = r q = 5 SAK = SAK SAK SAK = , f = f f f = vekselvirkning celler rækker søjle R RC celler R C SAK = ( N ) s = ( ) = , f = N = total total total SAK = SAK SAK = f = f f = 6 0(=residual) total celler 0 total celler (alternativt: SAK SAK SAK rækker søjler celler = n q SAK x rækker, hvor SAK x rækker = ( r ) s = n r SAK x søjler, hvor SAK = ( q ) s x søjler = n SAK x celler, hvor SAKx celler = ( r q ) s celler xq xr 07

114 Appendix. Opstilling af variansanalysetabel: Variation SAK=SS f s = SAK f F Rækkefaktor R : Olieblanding f = R r = Søjlefaktor C :Karburator f = C q = Vekselvirkning R*C f = ( RC r )( q ) = F RC = s s RC residual 8 =5.3 Residual fresidual = r q ( n ) = Total ftotal = N = Test: Lad α være signifikansniveau. ) H0: R* C = 0 ( Ingen signifikant vekselvirkning) H 0 forkastes, hvis FRC > F α ( frc, f0), eller hvis P - værdi = PZ ( > F RC ) < α, hvor Z er F - fordelt ( ft, f N) = ( frc, f0 ). a) Hvis H 0 forkastes, så opstilles konfidensintervaller til nærmere vurdering af faktorernes virkning. b) Hvis H 0 accepteres, antages, at der ikke er nogen signifikant vekselvirkning, og man pooler de to varianser sammen, til et nyt estimat for forsøgsfejlens variation (støjen). s m = SAK f RC RC + SAK + f residual residual med f = f + f m RC residual Dette estimat benyttes så til en samtidig vurdering af hovedvirkningerne. b.) H : R = ( Ingen signifikant virkning af rækkefaktor) 0 0 H 0 forkastes, hvis F R sr = > F α fr fm s (, ) m eller hvis P - værdi = PZ ( > F R ) < α, hvor Z er F - fordelt ( ft, f N) = ( fr, fm). Hvis H 0 forkastes, så opstilles konfidensintervaller til vurdering af faktorerens virkning. b.) H : C = ( Ingen signifikant virkning af søjlefaktor) 0 0 sc H 0 forkastes, hvis FC = > F fc fm s (, ) α m eller hvis P - værdi = PZ ( > F C ) < α, hvor Z er F - fordelt ( ft, f N) = ( fc, fm). Hvis H 0 forkastes, så opstilles konfidensintervaller til vurdering af faktorerens virkning. 08

115 Opstilling af konfidensintervaller og drage konklusion. Lad være gennemsnittet af værdierne i cellen i i te række og j te søjle. Lad Lad x ij x i. være gennemsnittet af værdierne i den i te række. x. j være gennemsnittet af værdierne i den j te søjle. R* C 0. Appendix. ) Konfidensintervaller for hver celle: x t r q n, sn x t r q n s 0 0 ij α ( ( )) ; ij + α ( ( )) n ) R* C = 0 R 0 C 0: For celle i i te række og j te søjle er den estimerede middelværdi ~ µ ij = x i. + x. j x.. (jævnfør betragtningerne i afsnit.3.. side 59.) Konfidensintervaller for hver celle: ~ ( r + q ) ( ) ; ~ ( r + q ) µ ij t α N r q + sm µ ij + t α ( N r q + ) sm N N Det giver et bedre overblik, hvis man udregner de marginale konfidensintervaller: s Konfidensintervaller for hver række: x t N r q n q x t N r q s m m i. α ( + ) ; i. + α ( + ) n q s Konfidensintervaller for hver søjle: x t N r q n r x t N r q s m m. j α ( + ) ;. j + α ( + ) n r 3) R* C = 0 R 0 C = 0: For hver række i beregnes et rækkegennemsnit x i. SAK SAK SAK residual + RC + C sm =, fm = fresidual + frc + fc = N r fresidual + frc + fc s Konfidensintervaller for hver række: x t N r n q x t N r s m m i. α ( ) ; i. + α ( ) n q Kort skrivemåde for, at H : R* C = forkastes. 0 0 Kort skrivemåde for, at H : R* C = accepteres

116 Appendix. 4) R* C = 0 R = 0 C 0: For hver søjle j beregnes et søjlegennemsnit x. j SAK SAK SAK residual + RC + R sm =, fm = fresidual + frc + fr = N q fresidual + frc + fr Konfidensintervaller for hver søjle: x t N q sn r x t N q s m m. j α ( ) ;. j + α ( ) n r 0

117 Appendix 3. APPENDIX 3.. χ - test af hypotese om multinominale sandsyn- ligheder ( variabel). H0: p = c, p = c,..., pk = ck mod den alternative H: Mindst én af sandsynlighederne afviger fra den angivne værdi i nulhypotesen. Lad Oi = ni være den observerede værdi i den i te klasse, n = n + n n k den totale stikprøvestørrelse og Forudsat H 0 er sand beregnes de forventede værdier Ei = n ci (E =expected values) i den i te klasse Resultatet opstilles i det følgende skema: Klasse nr... k Observerede værdier O i n n n k Forventede værdier E i E = n c E = n c E = n c k k k Teststørrelse: χ = i= ( E ) k O i E i i Forudsætning: χ er approksimativt χ - fordelt med et frihedsgradstal på k -, hvis ingen af klasserne har en forventet værdi under, og mindst 80% af klasserne har en forventet værdi over 5. H 0 forkastes hvis χ > ( f ), hvor f = k - χ α Hvis man for at kunne beregne de forventede værdier først må benytte de observerede værdier til at beregne m parametre, så bliver f = k - - m. jævnfør eksempel 3..

118 Appendix 3. APPENDIX 3.. χ - test af hypotese i -vejs tabel. Som illustration af metoden benyttes en generalisation af det i eksempel 3.3 omtalte forsøg med at undersøge om der er uafhængighed mellem opnåede matematik- og fysik-karakterer. X = antal studerende med opnået matematikkarakter X = antal studerende med opnået fysikkarakterer Vi ønsker at teste nulhypotesen: H 0 : X og X er statistisk uafhængige. Den følgende tabel viser symbolikken, hvor n ij angiver antal studerende, der har opnået den til klassen k ij svarende karakter. Observerede værdier Søjlefaktor C (Fysikkarakterer) Opdeling... q Marginalt antal Rækkefaktor R (Matematikka rakterer) n n... n q d n n... n q d r n r n r... n rq d r Marginalt antal c c... c q n Tilsvarende angiver p ij den tilsvarende sandsynlighed for at få den til cellen k ij svarende karakter. Observerede værdier Søjlefaktor C (Fysikkarakterer) Opdeling... q Marginal sandsynlighe d Rækkefaktor R (Matematikka rakterer) p p... p q p d p p... p q p d r p r p r... p rq p rd Marginal sandsynlighed p c p c... p cq Vi ser således, at de marginale sandsynligheder er pid = pi + pi piq og pcj = pj + p j prj. Det antages, at udfaldene er uafhængige. At dette så er et multinomialt eksperiment ses af, at der er n udfald, r q klasser og sandsynligheden for hver klasse er vist i ovenstående tabel.

119 Appendix 3. Forudsat nulhypotesen er sand, vil der ifølge sandsynlighedsregningens produktsætning gælde, at pid pcj = pij Det forventede antal i klasse k ij er derfor Eij = n pid pcj Nu kendes de sande marginale sandsynligheder ikke, men vi kan estimere dem med d p$ $ n og p c i j id = cj = n E n d c d c ij = = n n n i j i j q r. Vi har derfor = (række i total) (søjle j total). total antal i stikprøven ( Oji Eij ) Teststørrelse: χ = j= i= Eij Da antallet af klasser er r q og vi primært har estimeret q - marginale rækkesandsynligheder og r - marginale søjlesandsynligheder (da summen af rækkesandsynlighederne = summen af søjlesandsynlighederne = ) er frihedsgradstallet f = r q ( r ) ( q ) = r q r q + = ( r )( q ) χ χ f r q Forudsætning: er approksimativt - fordelt med et frihedsgradstal på = ( ) ( ), hvis ingen af klasserne har en forventet værdi under, og mindst 80% af klasserne har en forventet værdi over 5. Nulhypotesen forkastes, hvis χ > χ α (f) hvor f = (r ) (q ) 3

120 Statistiske tabeller STATISTISKE TABELLER 4

121 Tabel :Normalfordelingen Tabel Fordelingsfunktionen Φ for U-fordelingen n( 0, ). t u Φ ( u) = P( U u) = e dt π Eksempler: Φ( 97. ) =0.044 og Φ( 97. ) = Φ ( u) u

122 Statistiske tabeller Tabel (fortsat) Fordelingsfunktionen Φ for U-fordelingen n( 0, ). t u Φ ( u) = P( U u) = e dt π Φ ( u) u

123 Tabel :Fraktiler i normalfordelingen Tabel Fraktiler u p i U-fordelingen n( 0, ). PU ( u ) = p. Bemærk: u p = - u - p p p u p p u p Eksempler: u =.960 7

124 Statistiske tabeller Tabel 3 Fraktiler i χ p -fordelingen χ ( f ). P( χ χ ) = p χ = U + U U f,, hvor U, U,...,. ( ) U f Approksimativ formel: χ p ( f ) = f + u p for f > 30 p f p

125 Tabel 3:Fraktiler i Chi-i - anden fordeling Tabel 3 (fortsat). Fraktiler i χ p -fordelingen χ ( f ). P( χ χ ) = p ( ) P( X 0,. 5) = χ 005. ( 30) = 85. Eksempler: For χ 0 er og p f p

126 Statistiske tabeller Tabel 4 Fraktiler i t - fordelingen t( f ). t p ( X µ ) n PT ( tp) = p,hvor T = s Eksempler: For t (7) er P( X 34. ) = t 0.95 ()=6.3. t 0.05 (0) = - t 0.95 (0) = -.8. f p

127 Tabel 5 95%-fraktil F 0.95 i F-fordelingen F(f T.f N ). PF Tabel 5: F-fordelingen ( F095. ) =

128 Statistiske tabeller Tabel %-fraktil F i F-fordelingen F(f T.f N ). PF F ( ).. = f N f T , , , , ,

129 TABEL 7. Dimensioneringstabel. APPENDIX 7. Dimensionering med henblik på udførelse af t-test vedrørende statistiske variable X og X som er normalfordelte n( µ, σ) og n( µ, σ ), hvor µ µ σ σ er ukendte.,, og Størrelse n af stikprøve på X og X : Værdier af for α = 5%. σ Ensidet test H 0 :µ µ eller H 0 :µ µ Tosidet test H 0 :µ = µ n β = 5% β = 0% β = 5% β = 0%

130 Facitliste FACITLISTE KAPITEL 0 0. () () 4 (3) - (4) () u = 3.09, P - værdi = 0.00 () [0.70 ; 3.] 0.4 () F = 7.4 () t = 0.837, P - værdi = (3a) [-.09 ; 4.84] (3b) [0.9 ; 6.40] 0.5 F =., P - værdi = , t =.393, P - værdi = F =.8, P - værdi = 0.47 t = -.64, P - værdi = F = 3.68, P - værdi = 0.75, t =.34, P - værdi =0.037, [0.03 ;.87] 0.8 () 8 () F =.7 P - værdi =0.3, t = 4.74 P - værdi = , [.9 ; 5.0] 0.9 F = 6.0, P - værdi = , t = 0.55, P - værdi = F =.563, P - værdi = 0,5 t = -.497, P - værdi = () u =.98, P - værdi =0,038 () F =.56, P - værdi = 0,067, t =.75, P - værdi = u = , P - værdi = () u =., P - værdi = () F = 7.9, P - værdi = 0,00, t = 4.5, P - værdi = () u = 0.654, P - værdi = () u =.0, P - værdi = u = 3.45, P - værdi = KAPITEL. () nej () [-8.5 ; ] (3) [49. ; 58.8 ]. () y = x () ja (3) F = 9.4, P - værdi = 0.04 (4) [0.36 ;.70] (5)[57.9 ; 00.] (6) [7.50 ; 85.6].3 () r = () t = , P - værdi = (3) [38.9 ; 4.48 ] (4) [5.73 ; 55.5 ].4 () Model, () 0.993, (3) [ ; 0.584].5 () - () r = (3) ~ ~ α0 = 78. β = (4) [9.7 ; 93.7].6 () t = log( dosis) () [-7.39 ; 0.677] (3) [0.57 ; 6.99].7 () - () P - værdi = (3) P(lack of fit) = , y = x (4) F = 84.4, P - værdi = (5) [5.75 ; 4.58] (6) [56.4 ; 6.49].8 () Y = x () F=.57, P - værdi = 0.44 (3) t = , P - værdi = () P (lack of fit) = 0.006, model. () F =.0, P (lack of fit) = (3) 3.55, [.35 ; 5.76] () - () - (3) Y =. 9764, Y = 988., [.944 ;.033 ] x (3) 3.55, [.35 ; 5.76] (4) - (5) Y = x x, Y =. 036, [.959 ;.4 ]. 4

131 Facitliste KAPITEL. ja, F = 3.4, P - værdi = , B nok bedst, men et lille overlap med B3. F = 3.5, P - værdi = () F = 4.94, P - værdi = () S, S4.4 () P - værdi = () nej,p - værdi = 0.008, (3a) Aså K, A:frit valg, A3:frit valg. (3b) K: frit valg, K så ikke A, (3c) ikke A K.5 () ja, P - værdi = () ja, P - værdi = (3) ja, ingen outliers, (4)glas og enten fosfor eller 3..6 () - () limtyper (3) II: [3.76 ; 8.0], III: [.69 ; 7.04].7 () Kun syrer har virkning, Svovlsyre størst. () 6.45, [5.7 ; 7.73].8 () Nej, P - værdi = () ja, P - værdi = (3) -.9 () - () -.0 ja, R forskellig fra de øvrige, ja. () T evt.q må foretrækkes. () - KAPITEL 3 3. () Poisson ().64 (3) =.8, P - værdi = (4) χ =3.4, P - værdi = χ =5, P - værdi = χ =.64, P - værdi = χ = 3.78, P - værdi = χ =6.3, P - værdi = χ = 5.44, P - værdi = () χ =6., P - værdi = () χ = 4.87, P - værdi = χ 5

132 Stikord STIKORDSREGISTER A additiv model 58, 63 appendix 8 antalstabel 73,, B bagatelgrænse 3 Bartletts test 53, 06 behandlinger binomialfordelingstest to variable, 97 blokforsøg, randomiseret 65 C chi i anden fordeling tabel 8 test 74, 77,, D delforsøg 3 determinationskoefficient dimensionering 3 tabel 3 E Excel løsning antalstabel 74, 76, 77 blokforsøg 67 lineær regression 3, 39, 43 to normalfordelte variable 8, 0 variansanalyse, ensidet 55 variansanalyse, tosidet 6, 63, 67 ordrer 8 ekstrapolation 5 én faktor ad gangen 56 enkelt regressionsanalyse 8 med gentagelser på lommeregner 37, 0 med Excel 39, 88 uden gentagelser på lommeregner 9, 99 med Excel 3 ensidet variansanalyse 50 på lommeregner 5, 04 med Excel 55, 88 en-vejs tabel 74, F facitliste 4 fejl af type I 3 fejl af type II 3 F - fordeling tabel test 7, 8, 36, 5, 53, 05 fordeling, tabel over normalfordeling 5 u - fordeling 5 forklaringsgrad, 5 forsøgsenhed forudsætninger regressionsanalyse 6 variansanlyse 59 fraktiler, beregning ved Excel 84 fraktiltabel for normalfordeling 7 chi i anden-fordeling 8 t - fordeling 0 F - fordeling frihedsgrad, poolet 5, 53 fuldstændig faktorstruktur 57 fuldstændig randomiseret blokforsøg 65 G gentagelser 3 H hypotesetest I,J K klasser 73 konfidensinterval differens, normalfordelte variable 4, 90 differens, binomialfordelte variable,9 differens, Poissonfordelte variable 3, 9 regressionskoefficient 30, 34, 4, 00,0 6

133 Stikord Facitliste for middelværdi af Y med lommeregner 30, 38, 00, 0 med Excel 39, 4 i ensidet variansanalyse 54, 56, 05 i tosidet variansanalyse 6, 09 LSD 5, 05 korrelationskoefficient 5 kvalitativ faktor 50 kvantitativ faktor 50 L Levines test 56, 06 lineær model 9 LSD (Least Signifikant Difference) 5, 05 M median 06 mindste kvadraters metode 0, multinominalt eksperiment 73, N niveau for faktor 56 normalfordeling plot 33 tabel 5 test, variable 4, 9 normalligningssystem O opgaver kapitel 0 4 kapitel 44 kapitel 68 kapitel 3 79 oversigter (se indholdsfortegnelsen) 90 outliers 33 P planlægning af forsøg, 56 Poissonfordeling test variable 3, 9 poolet estimat for varians 53 prædistinationsinterval 8, 35 R randomisering randomiseret forsøg, 65 randomiseret blokforsøg 65 residual 0 plot 3 standardiseret 33 regressionsanalyse enkelt 8 med gentagelser på lommeregner 37, 0 med Excel 39, 88 uden gentagelser på lommeregner 9, 99 med Excel 3 forudsætninger 6 regressionskoefficienter 9 regressionslinie 9 S SAK Satterwaites test 5,0, 06 standardiserede residualer 33 styrke af test 5 støj T tabeller (se indholdsfortegnelse) 4 tosidet variansanlyse 56, 6, 63, 89, 07 to - vejs tabel 76 transformation 5, 4, 03 U uafhængige statistiske variable 6, 8 uafhængighed, to - vejs tabel 76 V variansanlyse ensidet 50 på lommeregner 5, 04 ved Excel 55, 88 tosidet 56 på lommeregner 6, 07 ved Excel 6, 63, 89 vekselvirkning 58 varianshomogenitet 36, 56, 06 7

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK I Sammenligning af to eller flere kvalitative variable (TI 89 og Statgraphics)

MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK I Sammenligning af to eller flere kvalitative variable (TI 89 og Statgraphics) MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK I Sammenligning af to eller flere kvalitative variable (TI 89 og Statgraphics) DANMARKS TEKNISKE UNIVERSITET 6. udgave 005 FORORD Dette notat kan læses på

Læs mere

02402 Løsning til testquiz02402f (Test VI)

02402 Løsning til testquiz02402f (Test VI) 02402 Løsning til testquiz02402f (Test VI) Spørgsmål 4. En ejendomsmægler ønsker at undersøge om hans kunder får mindre end hvad de har forlangt, når de sælger deres bolig. Han har regisreret følgende:

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK II Regressionsanalyse (TI-89 og Statgraphics)

MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK II Regressionsanalyse (TI-89 og Statgraphics) MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK II Regressionsanalyse (TI-89 og Statgraphics) DANMARKS TEKNISKE UNIVERSITET 6 udgave 005 FORORD Dette notat kan læses på baggrund af en statistisk viden

Læs mere

Eksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af Excel.

Eksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af Excel. Eksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af Excel. Kapitel Deskriptiv statistik Indhold 1. Generelle forhold... 1 Kapitel : Deskriptiv Statistik... 1 Kapitel 4: Normalfordelingen...

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau ypotese test Repetition fra sidst ypoteser Test af middelværdi Test af andel Test af varians Type 1 og type fejl Signifikansniveau Konfidens intervaller Et konfidens interval er et interval, der estimerer

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK (med TI-Nspire og TI 89 ) 7. udgave 013 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen : Statistiske

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 10.b 015 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen :

Læs mere

Rygtespredning: Et logistisk eksperiment

Rygtespredning: Et logistisk eksperiment Rygtespredning: Et logistisk eksperiment For at det nu ikke skal ende i en omgang teoretisk tørsvømning er det vist på tide vi kigger på et konkret logistisk eksperiment. Der er selvfølgelig flere muligheder,

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: [email protected] Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl? Module 6: Exercises 6.1 To laboranter....................... 2 6.2 Nicotamid i piller..................... 3 6.3 Karakterer......................... 5 6.4 Blodtryk hos kvinder................... 6 6.5

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Konfidensinterval for µ (σ kendt)

Konfidensinterval for µ (σ kendt) Program 1. Repetition: konfidens-intervaller. 2. Hypotese test 3. Type I og type II fejl, p-værdi 4. En og to-sidede tests 5. Test for middelværdi (kendt varians) 6. Test for middelværdi (ukendt varians)

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 10a 015 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen :

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

Algebra INTRO. I kapitlet arbejdes med følgende centrale matematiske begreber:

Algebra INTRO. I kapitlet arbejdes med følgende centrale matematiske begreber: INTRO Kapitlet sætter fokus på algebra, som er den del af matematikkens sprog, hvor vi anvender variable. Algebra indgår i flere af bogens kapitler, men hensigten med dette kapitel er, at eleverne udvikler

Læs mere

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning [email protected] 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Fagplan for statistik, efteråret 2015

Fagplan for statistik, efteråret 2015 Side 1 af 7 M Fagplan for statistik, efteråret 20 Litteratur Kenneth Hansen & Charlotte Koldsø (HK): Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave, ISBN 9788741256047 HypoStat

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Kombinatorik. Eksempel 2: En mand har 7 par bukser og 10 skjorter. Skal han både vælge en skjorte og et par bukser, så har han 10. 7=70 mulige valg.

Kombinatorik. Eksempel 2: En mand har 7 par bukser og 10 skjorter. Skal han både vælge en skjorte og et par bukser, så har han 10. 7=70 mulige valg. Noter til Biomat, 005. Kombinatorik. - eller kunsten at tælle. Alle tal i kombinatorik-afsnittet er hele og ikke-negative. Additionsprincippet enten - eller : Antag vi enten skal lave et valg med m muligheder

Læs mere

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 7: Eksempler 7.1 Beskrivende dataanalyse............................... 1 7.1.1 Diagrammer.................................

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

En intro til radiologisk statistik

En intro til radiologisk statistik En intro til radiologisk statistik Erik Morre Pedersen Hypoteser og testning Statistisk signifikans 2 x 2 tabellen og lidt om ROC Inter- og intraobserver statistik Styrkeberegning Konklusion Litteratur

Læs mere

for matematik pä B-niveau i hf

for matematik pä B-niveau i hf for matematik pä B-niveau i hf 014 Karsten Juul TEST 1 StikprÅver... 1 1.1 Hvad er populationen?... 1 1. Hvad er stikpråven?... 1 1.3 Systematiske fejl ved valg af stikpråven.... 1 1.4 TilfÇldige fejl

Læs mere

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Sommer 2015 Institution Campus Vejle Uddannelse HHX Fag og niveau Matematik B ( Valghold ) Lærer(e) Hold LTN

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag Email: [email protected] http://math.ku.dk/ susanne

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: [email protected] http://math.ku.dk/ susanne 5. undervisningsuge, onsdag

Læs mere

VIDEREGÅENDE STATISTIK

VIDEREGÅENDE STATISTIK MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK (med TI 89 og SAS - JMP) 5. udgave 011 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen : Statistiske

Læs mere

Modul 5: Test for én stikprøve

Modul 5: Test for én stikprøve Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 5: Test for én stikprøve 5.1 Test for middelværdi................................. 1 5.1.1 t-fordelingen.................................

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Maple 11 - Chi-i-anden test

Maple 11 - Chi-i-anden test Maple 11 - Chi-i-anden test Erik Vestergaard 2014 Indledning I dette dokument skal vi se hvordan Maple kan bruges til at løse opgaver indenfor χ 2 tests: χ 2 - Goodness of fit test samt χ 2 -uafhængighedstest.

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger Uge 49 I Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte

Læs mere

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0 BAndengradspolynomier Et polynomium er en funktion på formen f ( ) = an + an + a+ a, hvor ai R kaldes polynomiets koefficienter. Graden af et polynomium er lig med den højeste potens af, for hvilket den

Læs mere

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79. Olof Palmes Allé 38 8200 Aarhus N Tlf.nr.: 35 87 88 89 E-mail: [email protected] www.stil.dk CVR-nr.: 13223459 Undersøgelse af de nationale tests reliabilitet 26.02.2016 Sammenfatning I efteråret 2014 blev

Læs mere

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test. Program 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test. 1/19 Konfidensinterval for µ (σ kendt) Estimat ˆµ = X bedste bud

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Maj 2013 Institution Roskilde Handelsskole Uddannelse Fag og niveau Lærer(e) Hold Hhx Matematik B Henrik Laursen

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Opgaver til kapitel 3

Opgaver til kapitel 3 Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer

Læs mere

Fig. 1 Billede af de 60 terninger på mit skrivebord

Fig. 1 Billede af de 60 terninger på mit skrivebord Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt

Læs mere

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff Course 242/2323 Introducerende Statistik Forelæsning 3: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 22 Danmarks Tekniske Universitet 28 Lyngby Danmark

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

c) For, er, hvorefter. Forklar.

c) For, er, hvorefter. Forklar. 1 af 13 MATEMATIK B hhx Udskriv siden FACITLISTE TIL KAPITEL 7 ØVELSER ØVELSE 1 c) ØVELSE 2 og. Forklar. c) For, er, hvorefter. Forklar. ØVELSE 3 c) ØVELSE 4 90 % konfidensinterval: 99 % konfidensinterval:

Læs mere

Allan C. Malmberg. Terningkast

Allan C. Malmberg. Terningkast Allan C. Malmberg Terningkast INFA 2008 Programmet Terning Terning er et INFA-program tilrettelagt med henblik på elever i 8. - 10. klasse som har særlig interesse i at arbejde med situationer af chancemæssig

Læs mere

OPLÆG TIL STUDIERETNINGSPROJEKTER I MATEMATIK-KEMI OM KVANTITATIV KEMISK ANALYSE OG STATISTISKE MODELLER

OPLÆG TIL STUDIERETNINGSPROJEKTER I MATEMATIK-KEMI OM KVANTITATIV KEMISK ANALYSE OG STATISTISKE MODELLER OPLÆG TIL STUDIERETNINGSPROJEKTER I MATEMATIK-KEMI OM KVANTITATIV KEMISK ANALYSE OG STATISTISKE MODELLER Indledning Ved en kvantitativ kemisk analyse forstår man en tilbundsgående undersøgelse af et kemisk

Læs mere

Eksempel på logistisk vækst med TI-Nspire CAS

Eksempel på logistisk vækst med TI-Nspire CAS Eksempel på logistisk vækst med TI-Nspire CAS Tabellen herunder viser udviklingen af USA's befolkning fra 1850-1910 hvor befolkningstallet er angivet i millioner: Vi har tidligere redegjort for at antallet

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

qwertyuiopåasdfghjklæøzxcvbnmqw ertyuiopåasdfghjklæøzxcvbnmqwert yuiopåasdfghjklæøzxcvbnmqwertyui Polynomier opåasdfghjklæøzxcvbnmqwertyuiopå

qwertyuiopåasdfghjklæøzxcvbnmqw ertyuiopåasdfghjklæøzxcvbnmqwert yuiopåasdfghjklæøzxcvbnmqwertyui Polynomier opåasdfghjklæøzxcvbnmqwertyuiopå qwertyuiopåasdfghjklæøzxcvbnmqw ertyuiopåasdfghjklæøzxcvbnmqwert yuiopåasdfghjklæøzxcvbnmqwertyui Polynomier opåasdfghjklæøzxcvbnmqwertyuiopå Kort gennemgang af polynomier og deres egenskaber. asdfghjklæøzxcvbnmqwertyuiopåasd

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Mathematical Statistics ST06: Linear Models Bent Jørgensen og Pia Larsen Module 2: Mere om variansanalyse 2. Parreded observationer................................ 2.2 Faktor med 2 niveauer (0- variabel)........................

Læs mere

Kapitel 3 Centraltendens og spredning

Kapitel 3 Centraltendens og spredning Kapitel 3 Centraltendens og spredning Peter Tibert Stoltze [email protected] Elementær statistik F2011 1 / 25 Indledning I kapitel 2 omsatte vi de rå data til en tabel, der bedre viste materialets fordeling

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Juni, 2014 Institution Vid Gymnasier, Rønde Uddannelse Fag og niveau Lærer(e) Hold hhx Matematik B Ann Risvang

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Optimale konstruktioner - når naturen former. Opgaver. Opgaver og links, der knytter sig til artiklen om topologioptimering

Optimale konstruktioner - når naturen former. Opgaver. Opgaver og links, der knytter sig til artiklen om topologioptimering Opgaver Opgaver og links, der knytter sig til artiklen om solsikke Opgave 1 Opgave 2 Opgaver og links, der knytter sig til artiklen om bobler Opgave 3 Opgave 4 Opgaver og links, der knytter sig til artiklen

Læs mere

Valgkampens og valgets matematik

Valgkampens og valgets matematik Ungdommens Naturvidenskabelige Forening: Valgkampens og valgets matematik Rune Stubager, ph.d., lektor, Institut for Statskundskab, Aarhus Universitet Disposition Meningsmålinger Hvorfor kan vi stole på

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

T A L K U N N E N. Datasæt i samspil. Krydstabeller Grafer Mærketal. INFA Matematik - 1999. Allan C

T A L K U N N E N. Datasæt i samspil. Krydstabeller Grafer Mærketal. INFA Matematik - 1999. Allan C T A L K U N N E N 3 Allan C Allan C.. Malmberg Datasæt i samspil Krydstabeller Grafer Mærketal INFA-Matematik: Informatik i matematikundervisningen Et delprojekt under INFA: Informatik i skolens fag Et

Læs mere

Installa on af Analysis Toolpak og KeHaTools

Installa on af Analysis Toolpak og KeHaTools Installa on af Analysis Toolpak og KeHaTools Installa on af Analysis Toolpak Denne er nødvendig for at kunne lave optællinger, variansanalyse (kap. 12) og regressionsanalyser (kap. 15 pg 16). Analysis

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9.

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9. Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9. klassetrin: statistisk sandsynlighed, kombinatorisk sandsynlighed og personlig

Læs mere

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen Vigtigste nye emner i.,. og.5 Sandsynlighedsregning. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Siene Danmarks Tekniske Universitet 800 Kgs. Lyngby Danmark Email: [email protected] Binomialfordelingen

Læs mere