MOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK I Sammenligning af to eller flere kvalitative variable (TI 89 og Statgraphics)
|
|
- Ingelise Lauritzen
- 8 år siden
- Visninger:
Transkript
1 MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK I Sammenligning af to eller flere kvalitative variable (TI 89 og Statgraphics) DANMARKS TEKNISKE UNIVERSITET 6. udgave 005
2 FORORD Dette notat kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen : Statistiske grundbegreber. Notatet er bygget op således, at de væsentligste begreber søges forklaret anskueligt og ved hjælp af et stort antal eksempler. Det forudsættes, at man har en lommeregner med de statistiske fordelinger indlagt. Der vil derfor i ringe omfang blive benyttet statistiske tabeller. I Statistiske grundbegreber er der i appendix A en brugsanvisning på hvorledes dette kan gøres med bl.a lommeregnerne Ti-83 og HP48G. Sidst i dette notat (side 85) findes en tilsvarende brugsanvisning for TI-89. Sidst i hvert kapitel findes en oversigt over de vigtigste formler samt nogle opgaver. En facitliste til opgaverne findes bagerst i notatet. Fordelen ved direkte at bruge formlerne til løsning af eksemplerne er, at man derved opnår en større forståelse. De mere avancerede programmer bliver let en sort kasse, hvor der på mystisk vis dukker et facit op, som man ikke rigtig har noget forhold til. Imidlertid er det naturligvis også vigtigt, at man kender de muligheder mere avancerede regnemidler tilbyder. Lommeregneren TI-89 er en god statistiklommeregner, så i slutningen af hvert kapitel bliver de samme eksempler som i hovedteksten regnet ved benyttelse af dens indbyggede programmer. Ved behandling af store datamængder og ved mere regneteknisk komplicerede analyser er en lommeregner som TI - 89 ikke nok. Her et det nødvendigt at benytte en PC med et passende statistisk software. I dette notat er anvendt statistikprogrammet Statgraphics, således, at alle eksemplerne efter hvert kapitel også er regnet med dette program. Der findes mange andre udmærkede statistikprogrammer. I et ganske tilsvarende notat (som kan findes på nedenstående adresse) er Statgraphics eksemplerne således udskiftet med SAS-JUMP. Udskrifterne fra sådanne statistikprogrammer afviger ikke væsentligt fra hinanden, så skulle man i undervisningen benytter et tredie statistikprogram, kan de studerende uden vanskelighed på basis af disse udskrifter tolke egne udskrifter. Data foreligger ofte som en fil i et regneark som eksempelvis Excel. Disse regneark har indbygget en del statistik bl.a. de almindeligste testfunktioner. I notatet Videregående statistik regnet med Excel er en række af disse statistiske muligheder gennemgået. Andre notater i samme serie er noterne Videregående Statistik II: Regressionsanalyse Videregående Statistik III: Ikke parametriske metoder. Statistisk kvalitetskontrol Noterne (som både findes i en Statgraphics og en SAS-JUMP version) et søgt udarbejdet, så de kan læses uafhængigt af hinanden. Alle de nævnte noter kan i pdf-format findes på adressen August 006 Mogens Oddershede Larsen.
3 Indhold INDHOLD 0 HYPOTESETESTNING (TO STATISTISKE VARIABLE) 0. Indledning Planlægning af forsøg Test og konfidensintervaller - normalfordelte variable De eksakte spredninger er ukendte, men antages at være ens De eksakte spredninger er ukendte, men antages at være forskellige De eksakte spredninger er kendte Store stikrøvestørrelser (over 30) Test og konfidensintervaller - binomialfordelte variable Test og konfidensintervaller - Poissonfordelte variable... Oversigter. 0. Test af middelværdier µ og µ og konfidensinterval for differens for σ σ normalfordelte variable ( ) Test af middelværdier µ og µ og konfidensinterval for differens for σ σ normalfordelte variable ( ) Test af middelværdier µ og µ og konfidensinterval for differens for normalfordelte variable (spredninger kendte eller stor stikprøvestørrelse) Test af varianser σ og σ og konfidensinterval for σ / σ for variable Oversigt over test af parametre p og p for binomialfordelte variable Oversigt over test af parametre µ og µ for Poissonfordelte variable Mapleprogram til dimensionering: og normalfordelte variable... 8 Appendix: Statistikprogrammer 0A Eksempler regnet med TI B Eksempler regnet med Statgraphics... Opgaver... 6 VARIANSANALYSE. Indledning Ensidet variansanalyse Forklaring af metoder og formler Beregning af ensidet variansanalyse Tosidet variansanalyse Indledning... 36
4 Indhold.3. Planlægning af forsøg Én faktor ad gangen Fuldstændig faktorstruktur Formler og metode Beregning af tosidet variansanalyse Model med vekselvirkning Additiv model, model uden vekselvirkning Fuldstændigt randomiseret blokforsøg Oversigter. Formler til beregning af ensidet variansanalyse Formler til beregning af tosidet variansanalyse Appendix: Statistikprogrammer. A Eksempler regnet med TI B Eksempler regnet med Statgraphics Opgaver FLERE END TO BINOMIAL- OG POISSONFORDELTE VARIABLE. Indledning Én faktor på mere end niveauer Binomialfordelt variabel Poissonfordelt variabel To faktorer i et fuldstændigt faktorforsøg Oversigter.. Oversigt over test af parametre p, p,..., p k for binomialfordelte variable Oversigt over test af parametre µ, µ,..., µ k for Poissonfordelte variable Oversigt over transformation af binomial - eller Poissonfordelte variable til tosidet variansanalyse Appendix: Statistikprogrammer A Eksempler regnet med TI B Eksempler regnet med Statgraphics... 8 Opgaver GRUNDLÆGGENDE OPERATIONER PÅ TI STATISTISKE TABELLER TABEL. Fraktiler i U - fordelingen TABEL. Fraktiler i t - fordelingen TABEL 3. Dimensioneringstabel for variable FACITLISTE STIKORD... 9
5 0. Planlægning af forsøg 0 HYPOTESETESTNING (TO STATISTISKE VARIABLE) 0. Indledning Afsnit 0. giver en kort beskrivelse af hvorledes forsøg bedst planlægges ud fra et statistisk synspunkt. Hertil anvendes bl.a. den i tabel 3 angivne dimensioneringsstabel. I tilfælde som ikke dækkes af tabellen kan anvendes det i oversigt 0.7 angivne program skrevet i matematikprogrammet Maple. I afsnit 0.3 sammenlignes to normalfordelte variable, mens de variable i afsnit 0.4 og 0.5 forudsættes at være henholdsvis binomial - og Poisson - fordelte. De grundlæggende begreber vedrørende hypotesetest, konfidensintervaller og dimensionering af forsøg blev i Statistiske Grundbegreber grundigt beskrevet for én statistisk variabel. Da det er de samme begreber og analoge udledninger der anvendes, når det drejer sig om at sammenligne statistiske variable, vil de kun blive ganske kort blive gentaget i dette kapitel. Som det nævnes i forordet vil vi forudsætte, at man har en lommeregner (som eksempelvis TI - 83, TI - 89 eller HP48G). I appendix 0A og 0B vil de samme beregninger ses udført med mere avancerede statistikprogrammer. 0. Planlægning af forsøg Vi vil i dette afsnit som udgangspunkt tage følgende eksempel. Eksempel 0.. Hypotesetest. En fabrik der producerer maling, har udviklet to nye additiver A og A, som bevirker en kortere tørretid. Additiv A er det dyreste, men man forventer også, at det giver den korteste tørretid. På grund af prisforskellen, skal tørretiden dog være mindst 0 minutter kortere for A, før man vil gå over til den. For at undersøge disse forhold produceres nogle liter maling, som derefter deles op i mindre portioner. Til nogle af portionerne tilsættes additiv A og til andre additiv A. Tørretiden måles derefter. Generelt gælder, at hvert delforsøg i et forsøg udføres under en række forsøgsbetingelser. De betingelser som med forsæt varieres som led i forsøgets formål, kaldes forsøgsbehandlingerne eller blot behandlingerne (engelsk: treatment). Alle andre delforsøgsbetingelser sammenfattes i et begreb, der kaldes forsøgsenheden. I eksempel 0. er additiverne = behandlingerne og forsøgsenhederne er den enkelte portion maling, anvendt apparatur og personale, tidspunkt for delforsøget og de forhold med hensyn til temperatur, luftfugtighed osv., som gælder på forsøgstidspunktet. Bemærk, at forsøgsenhederne ofte indeholder faktorer, som ikke kan gøres ensartet fra delforsøg til delforsøg. Dette bevirker, at resultatet af de enkelte delforsøg varierer. Dette giver forsøgsvariablens variation eller kort forsøgets støj.
6 0. Hypotesetestning ( statistiske variable) Randomisering. For at sikre et statistisk gyldigt forsøg foretager man en såkaldt fuldstændig randomisering. Dette betyder at man ved lodtrækning fordeler forsøgsenhederne tilfældigt på behandlingerne. Dette sker, for at man ikke ubevidst kommer til at favorisere en af de to behandlinger. Hvis man eksempelvis helt systematisk i eksempel 0. først laver alle delforsøg med additiv A, kunne dette bevirke en favorisering af A nemlig hvis forsøgsomstændighederne (apparater, personale, luftfugtighed ) er mest gunstige ved begyndelsen af forsøgsperioden. For at anskueliggøre denne randomiseringsproces antager vi, at vi i eksempel 0. skal lave 4 delforsøg med hver additiv. Endvidere antages, at delforsøgene skal indgå i den almindelige produktionsgang, dvs. at man af tidsmæssige, personalemæssige og på grund af en begrænset mængde apparatur må lade forsøgene forløbe over flere dage. Man tror ikke, at dage, apparatur og laborant har nogen væsentlig betydning for forsøgsresultaterne. Der er sandsynligvis også andre forhold udenfor vor kontrol, og som tilsammen bevirker, at selv om man udfører gentagne delforsøg med samme behandling, så får vi afvigende resultater. For en sikkerheds skyld vælger vi imidlertid at randomisere dage, apparatur og laboranter Lad os antage at der gælder følgende: Mandag er det kun muligt at lave delforsøg, idet apparatur nr og laborant A er de eneste der er ledige. Tirsdag er der kapacitet ledig til 3 delforsøg: Ét delforsøg hvor apparatur nr og laborant A benyttes Ét delforsøg hvor apparatur nr og laborant B benyttes, og Ét delforsøg hvor apparatur nr 3 og laborant C benyttes. Onsdag kan der også laves 3 delforsøg osv. (se det følgende skema). Forsøgsenheder Behandlinger Dag Apparatur Laborant (apparater) mandag A tirsdag A tirsdag B tirsdag 3 C onsdag 3 B onsdag 4 C onsdag A torsdag 3 B Vi foretager nu randomiseringen, som kort sagt er en form for lodtrækning. Sædvanligvis vil man benytte et program, der kan generere tilfældige tal (mange lommeregnere har et sådant program). For at anskueliggøre randomiseringen vil vi mere primitivt foretage lodtrækningen på følgende måde. På 4 sedler skrives A, på andre 4 sedler skrives A. Hver seddel krølles sammen til en kugle og placeres i en dåse. Sedlerne blandes ved at dåsen rystes (se figur). Hvis den første seddel der udtrækkes er A så betyder det, at det delforsøg der mandag udføres med apparatur og laborant A skal anvende additiv A. Hvis den næste seddel der udtrækkes er A så betyder det, at det delforsøg der tirsdag udføres med apparatur og råvareleverance skal anvende additiv A osv. Resultaterne kunne eksempelvis være som angivet på følgende skema:
7 0. Planlægning af forsøg Forsøgsenheder Dag Apparatur Laborant Behandlinger (apparater) mandag A A tirsdag A A tirsdag B A tirsdag 3 C A onsdag 3 B A onsdag 4 C A onsdag A A torsdag 3 B A På denne måde sikrer man sig, at vi får et så vidt muligt "statistisk gyldigt" forsøg. Hvis vi derfor efter beregninger (som ses i de følgende kapitler ) konkluderer, at der er forskel på additiverne, så er det "korrekt", idet det ville være helt tilfældigt, hvis én af additiverne har været begunstiget med særlig gode forsøgsenheder. Herved har man også sikret sig, at de to stikprøver (variable) er statistisk uafhængige. Forsøg bør udføres, så alle behandlinger får lige mange gentagelser. Ved planlægningen af forsøget er det ganske klart, at hvis man eksempelvis har ressourcer til at lave 0 delforsøg, så ville det være en meget dårlig plan, hvis man lavede 8 delforsøg med A og kun delforsøg med A. Der bør i naturligvis tilstræbes at lave 0 delforsøg med hver behandling. Delforsøg kan mislykkes, så målet i praksis ikke bliver opfyldt. I sådanne tilfælde kan de i de følgende kapitler anførte statistiske analyser dog stadig gennemføres. Testene bliver dog mindre robuste (dvs. mere afhængige af at forudsætningerne gælder), og beregningerne mere komplicerede. Dimensionering Analogt med forklaringen i Statistiske Grundbegreber side 57 kan man under visse forudsætninger beregne hvor mange gentagelser (portioner) der skal anvendes for hver behandling, hvis P( fejl af type I) α og P( fejl af type II) β. Man skal naturligvis angive en bagatelgrænse, men desuden kræver beregningerne, at spredningerne ved de to behandlinger er (tilnærmelsesvis) ens, og at man kan give et nogenlunde realistisk skøn for denne fælles spredning σ. Det er naturligvis en svaghed ved dimensioneringen, at man inden forsøget er udført skal give et sådant skøn. En vurdering heraf kunne baseres på erfaringer fra tilsvarende forsøg. Findes sådanne erfaringer må man først lave nogle få delforsøg og derfra få et rimeligt gæt på spredningen σ. At spredningerne er nogenlunde ens vil i praksis ofte være tilfældet, da forsøgsenhederne jo er valgt ved randomisering. Når forsøget så er lavet, kan man (lidt sent) se, om man har skønnet rigtigt. Dimensioneringen skal jo bevirke, at man laver det rigtige antal gentagelser. Man kan fristes til at tro, at jo flere gentagelser jo bedre. Dette er imidlertid ikke tilfældet, idet man med for mange gentagelser kan risikere at opdage så små forskelle, at de ikke har praktisk betydning, og så er de mange delforsøg jo spild af arbejdskraft og penge. Formler for dimensionering af variable findes i oversigt 0. og 0.3, en tabel til dimensionering findes i tabel 3, ligesom der i oversigt 0.7 er angivet et Mapleprogram, som kan anvendes i de tilfælde, hvor man ikke kan finde resultatet i tabellen. 3
8 0. Hypotesetestning ( statistiske variable) Eksempel 0.. (fortsættelse af eksempel 0.) Dimensionering. a) Hvor mange portioner skal anvendes ved forsøget, hvis man ønsker, at P( fejl af type I ) = α 005., P( fejl af type II ) = β 00. og bagatelgrænsen =0 minutter, idet man fra mange tilsvarende forsøg ved, at den fælles spredning er σ = 5 minutter. b) Samme spørgsmål og krav som i spørgsmål a), men nu antages, at man ikke kender spredningen, men ud fra nogle få delforsøg skønner, at den er ca. 5 minutter. c) Samme spørgsmål og krav som i spørgsmål b), men nu antages P(fejl af type I) = α 0.0. LØSNING: u + u u + u + α β a) Af oversigt 0.3 fås n = = = 38, σ 5 5 dvs. der skal udføres i alt n = 39 delforsøg af hver behandling b) Idet fås af tabel 3, at det største tal mindre end 0.67 er 0.66 svarende til σ 3 = 067. n 40 c) Tabellen dækker ikke tilfældet α = 0.0, så man må bruge Mapleprogrammet i oversigt 0.7. Da kravet er vanskeligere at opfylde, må n > 40. Vi sætter forsøgsvis n = 65. Gå ind i programmet under variable. restart; osv. tryk på enter for at udføre programmet. Ret dernæst i programmet under evalf(6.,3.0,0.05) tosidet test til > evalf(pt(65,0.667,0.005)) - evalf(pt(65,0.667,0.995)); #tosidet test og tryk på enter. Resultatet blev. Da resultatet er lidt større end 0. øges n til 67. > evalf(pt(67,0.667,0.005)) - evalf(pt(67,0.667,0.995)); #tosidet test Vi får nu. Vi øger nu n gradvist, og finder tilsidst, at for n = 69 er Resultatet er derfor, at vi skal udføre n = 69 delforsøg af hver behandling. 0.3 Test og konfidensintervaller for normalfordelte variable. Lad os igen betragte det i eksempel 0. og 0. angivne forsøg. For hver af de additiver udføres en række delforsøg. Forsøgsresultaterne kan generelt skrives: For additiv A : Statistisk variabel X. Stikprøve : x, x, x 3,... x n. For additiv A : Statistisk variabel X. Stikprøve : x, x, x 3,... x n. Vi antager, at X og X er statistisk uafhængige normalfordelte variable med henholdsvis middelværdierne µ og µ og spredningerne σ og σ. Sædvanligvis er man interesseret i at teste nulhypotesen H0:µ = µ + d (d er en given konstant). Denne omskrives til H0:µ µ d = 0, og testproceduren baseres på fordelingen af differensen X X d. Ifølge additionssætningen (se eventuelt Statistiske Grundbegreber side 34) er X X d normalfordelt og fra regnereglerne fås E X X d = E X E X d = µ µ d og ( ) ( ) ( ) σ σ V( X X d) V( X ) V( X ). = + = + n n Heraf følger, at U X X d = er normeret normalfordelt. σ σ + n n Desværre er σ og σ sjældent kendt eksakt. Kendes kun deres estimater s og s må der anvendes 4
9 0.3 Test og konfidensintervaller for normalfordelte variable andre testprocedurer. Hvis stikprøvestørrelserne er store (over 30) er det dog tilstrækkelig nøjagtigt at anvende en U - test. Analysen deles derfor op i 4 tilfælde. ) De eksakte spredninger σ og σ er ukendte, men antages at være ens (afsnit 0.3.) ) De eksakte spredningerne σ og σ er ukendte, men antages forskellige (afsnit 0.3.). 3) De eksakte spredningerne σ og σ er kendte.(afsnit 0.3.3) 4) Stikprøvestørrelserne er store (over 30) (afsnit 0.3.4) 0.3. De eksakte spredningerne er ukendte, men antages at være ens Forklaring af formler. I dette tilfælde må spredningerne estimeres ud fra forsøgsresultaterne. Det X X d ville være naturligt at betragte teststørrelsen,men denne har desværre ikke en kendt s s + n n fordeling. Da de to variable antages at have samme spredning s 0, beregnes et estimat for den fælles varians som et vægtet ( poolet) gennemsnit s 0 af de to estimater for varianserne s og s. Disse ( n ) s + ( n ) s vægtes i forhold til frihedsgraderne, dvs. s0 =. Frihedsgradstallet for s 0 er n+ n f0 = n + n. X X d X X d Teststørrelsen kan nu reduceres til t = = som kan vises at være t - fordelt. s0 s 0 + s0 + n n n n Testning af H0:µ = µ + d foretages derfor i følgende rækkefølge: ) Først undersøges om varianserne er ens (selvom det egentlige formål er at undersøge forskelle i middelværdier). Nulhypotesen testes mod den alternative hypotese ved en F - test. H 0 :σ = σ H:σ σ s Man beregner F = som er F- fordelt Fn (, n ). Vi får klart en accept af, hvis F s H 0 ligger tæt ved og en forkastelse, hvis F enten ligger tæt ved 0 eller er meget større end (se figuren) I oversigt 0.4 er denne test beskrevet, og kan ses udført i eksempel 0.3. Får man en accept af nulhypotesen, har man naturligvis ikke hermed vist at varianserne er ens, men da den følgende test af middelværdier er robust overfor mindre forskelle i varianserne, blot vi har samme antal gentagelser (mindre afvigelser kan dog accepteres), er det tilladeligt i den følgende test af middelværdierne, at antage at varianserne er ens. Vi antager her, at vi får en accept. Det tilfælde, hvor F - testen giver en forkastelse, bliver behandlet i det næste afsnit. 5
10 0. Hypotesetestning ( statistiske variable) X X d ) Nulhypotesen H 0 : µ = µ testes på basis af teststørrelsen t =, som er t - fordelt s0 + n n med f 0 frihedsgrader (jævnfør eksempel 0.3 og oversigt 0.). Hvis spredningerne kan antages ens, har man endvidere mulighed for at foretage en dimensionering, dvs. vælge antal gentagelser n, så P(fejl af type II) holdes under β (se eventuelt eksempel 0.). Eksempel 0.3. Accept af ens spredning. To katalysatorers indflydelse på udbyttet ved en kemisk proces skal undersøges. Den ene katalysator K er billigere end den anden katalysator K. Det påstås imidlertid, at K i middel giver et større udbytte. Kun hvis K i middel giver et udbytte som er mindst enheder større end det udbytte K giver, vil vi vælge katalysator K. Da forsøgene er både tidskrævende og kostbare, har man kun afsat midler til 8 forsøg med hver katalysator. Resultaterne blev: K K ) Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises at K giver et middeludbytte der er enheder større end K ) Angiv endvidere et 95% konfidensinterval for differensen mellem de to middeludbytter. Løsning. ) Lad X = udbyttet ved anvendelse af katalysator K og X = udbyttet ved anvendelse af katalysator K. X og X antages approksimativt normalfordelte med middelværdi og spredning henholdsvis µ, σ og µ, σ. Ved indtastning af forsøgsresultaterne i lommeregneren fås de tilsvarende estimater x = , s = og x = 943., s = a) Først testes om varianserne er ens, dvs. H 0 :σ = σ mod H:σ σ. Vi anvender formlen i oversigt 0.4 række 3: s. 387 Teststørrelsen F = = = 055., er F - fordelt. s F( f, f) = F( 77, ) 33. Da P - værdi =P(F < 0.55)=FCdf(0, 0.55,7,7)= 0.57 > 0.05 accepteres nulhypotesen, dvs. vi vil i den følgende test antage, at spredningerne er ens. Et estimat for den fælles spredning er ( n s n s ) + ( ) ( 8 ) ( 8 ) 33. s0 = = = 80. med f 0 = 4 n + n 4 b) Vi tester nu om udbyttet ved katalysator K er større end ved katalysator K, dvs. opstiller nulhypotesen H 0 :µ µ + mod den alternative hypotese H:µ > µ +. x x Af oversigt 0. fås teststørrelsen t = = = s n n 8 8 Da P - værdi = P(T>.88)= tcdf(.88,,4)= < 0.05 forkastes nulhypotesen.
11 0.3 Test og konfidensintervaller for normalfordelte variable Konklusion: Der er (svagt) statistisk bevis for at K giver et udbytte der er enheder større end K (vi er dog tæt på en accept). ) 95% konfidensinterval: Af oversigt 0. fås x x t α ( f ) s + µ µ x x + t α ( f ) s + n n n n t0975. ( 4) µ µ t0975. ( 4) µ µ 6. Opgaven løst med TI-89 og Statgraphics findes i appendix 0A og 0B De eksakte spredninger er ukendte, men antages at være forskellige. Forklaring af formler. Forkastes nulhypotesen H 0 :σ = σ, benyttes Satterthwaite s approksimation (jævnfør eksempel 0.4 og oversigt 0.). Det skal bemærkes, at er spredningerne tilnærmelsesvis ens, har t -testen i afsnit 0.3. større styrke end Satterthwaite s approksimation, og må derfor foretrækkes. Hvis der er stor forskel på stikprøvestørrelserne, er det meget vigtigt for anvendelsen af t - testen, at forudsætningen om, at varianserne er ens er holdbar. Til gengæld er det også i sådanne tilfælde, man virkelig ser den store forbedring ved at benytte t - testen fremfor Satterthwaite s approksimation. Eksempel 0.4. Forkastelse af ens spredning. Lad os antage, at vi har samme problemstilling som i eksempel 0.3, men at vi denne gang anvender to andre katalysatorer A og B. Der planlægges med 0 delforsøg men desværre mislykkedes to af forsøgene med katalysator A, så der ikke er lige mange gentagelser. Stikprøverne giver estimaterne A: xa = 939., sa = 506. na =8 og B: xb = , sb =. 9, nb = 0. Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises, at A giver et udbytte der er enheder større end B. Løsning: ) Lad X A = udbyttet ved anvendelse af katalysator A og X B = udbyttet ved anvendelse af katalysator B. X A og X B antages approksimativt normalfordelte med middelværdi og spredning henholdsvis µ, σ og µ, σ. A A B B a) Først testes om varianserne er ens, dvs. H0:σ A = σb mod H:σ A σ B. Vi danner teststørrelsen F s A 506. = = = sb 9. Idet P - værdi = FCdf(4.88,,7,9)=0.057 < 0.05 forkastes nulhypotesen, dvs. vi kan ikke tillade os at antage, at spredningerne er ens. b) Vi tester nu om udbyttet ved katalysator A er større end ved katalysator B, hvilket betyder, at vi opstiller nulhypotesen H0:µ A µ B + mod H:µ A > µ B +. Af oversigt 0. fås teststørrelsen En test har større styrke end en anden, hvis den med givne data og et givet signifikansniveau giver den største sandsynlighed for at forkaste nulhypotesen. 7
12 0. Hypotesetestning ( statistiske variable) xa xb s A sb t = hvor c = + = + = c n A nb 8 0 xa xb t = = = 75. c Frihedsgradstallet f beregnes ved Satterthwaite s metode som det nærmeste hele tal, som er c større end g = = = s A s B n A n B n A nb 8 0 P - værdi = P(T>.75)=tCdf(.75,,0)=0.56 > 0.05 accepteres nulhypotesen. Konklusion: Vi kan ikke på dette grundlag vise, at udbyttet ved katalysator A er større end ved katalysator B. Opgaven løst med TI-89 og Statgraphics findes i appendix 0A og 0B De eksakte spredninger er kendte Der kan i visse tilfælde ske, at man ad andre veje kender spredningerne eksakt. I disse tilfælde kan man foretage en U - test, dvs. bruge testfunktionen U X X d =. σ σ + n n Følgende eksempel illustrerer dette Eksempel 0.5. eksakt spredning. På basis af dimensioneringen i eksempel 0. udførte man 40 delforsøg af hver behandling. Efter at forsøgsrækken var afsluttet, opdagede man, at et af forsøgene var mislykket og måtte kasseres. Der var følgelig kun 39 delforsøg med additiv A. Det vides, at spredningerne eksakt er σ A = 3. og σ A = 4. ) Man beregner gennemsnittene af de to stikprøver til x A = 8. 6 og x A = 9. Kan man ud fra disse data bevise på mindst signifikansniveau α = 0.05, at malingen med additivet A tilsat har en mindre middeltørretid end konkurrentens? ) Hvad vil du anbefale virksomheden at gøre, hvis man som nævnt i eksempel 0. kun vil gå over til A hvis tørretiden for A er mindst 0 minutter kortere end for A (bagatelgrænsen). Løsning: X = tørringstiden for maling tilsat additiv A. X = tørringstiden for maling tilsat additiv A. X og X antages at være uafhængige normalfordelte variable med henholdsvis middelværdierne µ og µ og spredningerne σ og σ. Nulhypotese H 0 :µ µ, Alternativ hypotese: H:µ < µ Da spredningerne er kendt eksakt anvendes en U - test (se eventuelt oversigt 0.3). x x u = σ n σ + n = = 357. Da normcdf(,-3.57,0,)= < 0.00 forkastes nulhypotesen (3-stjernet) 8
13 0.3 Test og konfidensintervaller for normalfordelte variable Konklusion: Der er et stærkt statistisk bevis for at additiv A i middel har en kortere tørringstid end additiv A. ) Et 95% konfidensinterval for differensen: s s x x u ±. + =.. ±. + = 0. 6 ± 58. n n [ ] Konfidensintervallet er 6. 43; (se eventuelt oversigt 0.3 ) Konklusion: Da bagatelgrænsen er 0, og næsten 50% af konfidensintervallet ligger under 0, kan det ikke på baggrund af dette materiale anbefales at gå over til det mere kostbare additiv. Bemærk, at dimensioneringen reelt kun har betydning i en acceptsituation, hvor man så med stor sikkerhed kan konkludere, at muligvis giver additiv A en kortere størkningstid, men ikke så meget kortere, at det har praktisk betydning Store stikprøvestørrelser (over 30) Er stikprøvestørrelserne store, viser erfaringen, at det er tilstrækkeligt nøjagtigt at anvende en U - test fremfor de mere præcise metoder der er beskrevet i afsnit 0-3. og Følgende eksempel illustrerer dette Eksempel 0.6. Stor stikprøvestørrelse (over 30) På basis af dimensioneringen i eksempel 0. udførte man 40 delforsøg af hver behandling. Efter at forsøgsrækken var afsluttet, opdagede man, at et af forsøgene var mislykket og måtte kasseres. Der var følgelig kun 39 delforsøg med additiv A. Man fik følgende resultater (i minutter) A 7,0 30,7 7,4 4,4 06,8 5,7 6,5 86,7 4,7 7,9 03,0 33,4 03,6 4,4 3,0 30, 0,5 9,4 7, 5,6 6,5 94,0,7 06,0 4,0 35, 4, 07,9 3,4 6, 3,9 3,4 5,6 8,0 0,6 97, 4,4 34, 5,7 A 6,7, 33,7 08,9,6 57,6 4, 4,9 0,6 4, 58,6 36,9 7,4 7,5 38,9,7 0,5 33,,4 43,0 35,6 35,4 36,8,4 6, 35,7 8,, 3,7 07,0 38,,6 3, 57,3 6,5 30, 6,0 38,6 38,5 06,5 Kan man ud fra disse data bevise på mindst signifikansniveau additivet A tilsat har en mindre middeltørretid end konkurrentens? Løsning: X = tørringstiden for maling tilsat additiv A. X = tørringstiden for maling tilsat additiv A. α = 0.05, at malingen med X og X antages at være uafhængige normalfordelte variable med henholdsvis middelværdierne µ og µ og spredningerne σ og σ. For de to stikprøver har man at x = 8. 6 og x = 9. s = 3. og s = 4. Vi ser, at vi har de samme værdier som i eksempel 0.5, bortset fra at spredningerne nu ikke er kendt. Det bliver derfor samme regninger og dermed samme konklusion. For sammenligningens skyld er i appendix 0A opgaven regnet ved en t - test, og man får ikke overraskende samme resultat. 9
14 0. Hypotesetestning ( statistiske variable) 0.4 Test og konfidensintervaller for binomialfordelte variable. Som nævnt i bind kan man ofte approksimere en binomialfordeling med en normalfordeling. Det er en sådan approksimation, som formlerne i oversigt 0.5 bygger på. I praksis vil disse forudsætninger for approksimation sædvanligvis være opfyldt. Vi belyser anvendelsen af oversigten ved følgende eksempel. Eksempel 0.7. Binomialfordelingstest. Ved et forsøg der skulle afgøre om C - vitamin har en forebyggende virkning mod forkølelse, fik halvdelen af en gruppe på 80 franske skiløbere C - vitamin mens de øvrige fik kalktabletter (placebobehandling). Fordelingen skete randomiseret, og forsøgspersonerne var uvidende om gruppeinddeling og hvilket medikament de fik.efter en passende tid optaltes hvor mange af forsøgspersonerne der var forkølede. Resultaterne kan ses af følgende skema: Forkølet Ikke forkølet Total u = C-vitamin 7 39 Kalktabletter Bemærk, at en enkelt forsøgsperson gled ud af forsøget, så grupperne blev ikke helt lige store. ) Kan det på et signifikansniveau på 5% vises, at C - vitamin har en forebyggende virkning? ) I bekræftende fald angiv er 95% konfidensinterval for differensen mellem parametrene. Løsning: X = antal forkølede personer der har fået C-vitamin. X er binomialfordelt b(39, p ). X = antal forkølede personer der har fået Kalktabletter. X er binomialfordelt b(40, p ). ) Da vi ønsker at vise, at p < pbliver nulhypotesen H0: p pmod Hp : < p. Oversigt 0.5 anvendes : x 7 x 3 x + x $p = =, $p = = og $p = = =. n 39 n 40 n + n Da n p$ = = 39. [ 539 ; 5] og n p$ = = 4. [ 540 ; 5] er forudsætningerne for at approksimere med normalfordelingen opfyldt. Vi finder af formel () p$ p$ p$ ( p$) + n n = = = Da P(U < -.93) = normcdf(,-.93,0,)=0.045 < 0.05 forkastes nulhypotesen (-stjernet) Konklusion: På signifikansniveau 5% er vist, at C-vitamin har en vis forebyggende virkning mod forkølelse, ) Et 95% konfidensinterval for differensen p per ifølge oversigt 0.5: p$ ( p$ ) p$ ( p$ ) p$ ( p$ ) p$ ( p$ ) p$ p$ u α + p p p$ p$ + u α + n n n n 0
15 Test og konfidensintervaller for Poissonfordelte variable ( ) 0 ( 0 ) 0. ( 0. ) 0. ( 0. ) p p p p p p Test og konfidensintervaller for Poissonfordelte variable. Som nævnt i bind kan man ofte approksimere en Poisonfordeling med en normalfordeling. Det er en sådan approksimation, som formlerne i oversigt 0.6 bygger på. I praksis vil disse forudsætninger for approksimation sædvanligvis være opfyldt. Vi belyser anvendelsen af oversigten ved følgende eksempel. Eksempel 0.8. Poissonfordelingstest. En bestemt type TV-apparat produceres på fabrikker A og B. Man har mistanke om, at der er forskel på antallet af loddefejl der findes i apparater fra de to fabrikker. For at teste dette, udtages af den løbende produktion stikprøver på 5 TV-apparater, og man optalte antallet af loddefejl i de 5 apparater. Resultaterne blev: Fabrik A: På 0 apparater fandtes i alt loddefejl Fabrik B: På 9 apparater fandtes i alt 7 loddefejl (et apparat måtte udskydes) Test på dette grundlag, om der er forskel på fejlintensiteten på de to fabrikker. Løsning. X = antal loddefejl pr. apparat på fabrik A. X antages Poissonfordelt p( µ ). X = antal loddefejl pr. apparat på fabrik B. X antages Poissonfordelt p( µ ). Da vi ønsker at vise, at µ µ bliver nulhypotesen H 0 :µ = µ mod H:µ µ. Oversigt 0.6 række 3 anvendes : x x 7 x + x x,, og. = = x = = x = = = n 0 n 9 n + n Da n x = 0 9 = og n x = 9 9 = er forudsætningerne for at approksimere med normalfordelingen opfyldt. 7 Vi finder : x x u = = = = x + + n n Da P(U >.036) = normcdf(.036,,0,) = 0.50 > 0.05 accepteres nulhypotesen. Konklusion: Man kan ikke på det grundlag vise, at der er forskel på fejlintensiteten på de to fabrikker,
16 Oversigt 0. Oversigt 0.. Test af middelværdier µ og µ og konfidensinterval for differens µ µ for normalfordelte variable. X og X er normalfordelte henholdsvis n( µ, σ) og n( µ, σ ). σ σ Givet stikprøver af X og X. med størrelse, gennemsnit og spredning henholdsvis n, x, s og n, x, s. Signifikansniveau er α. x x d Lad d være en given konstant. t = n s n s hvor s,. 0 ( ) + ( ) = f0 = n + n n n s0 + + n n T er en statistisk variabel der er t - fordelt med frihedsgradstallet f 0. Forudsætning. σ og σ ukendte H 0 :σ = σ accepteres ved F - test H 0 : Nulhypotese H: Alternativ hypotese H :µ µ + 0 H:µ > µ + d d H0:µ µ + d H:µ < µ + d H :µ = µ + 0 H:µ µ + d d P - værdi = PT ( t) P - værdi = PT ( t) P - værdi = PT ( t) for P - værdi = PT ( ) for 00 ( α )% Konfidensinterval for differens µ µ : Beregning H 0 forkastes Dimensionering x > x + d t x < x + d P - værdi<α P - værdi < α x x t α ( f0) s0 + µ µ x x + t α ( f0) s0 + n n n n = µ µ d er den mindste ændring i µ der har praktisk interesse. β = P(type II fejl) Antal gentagelser for hver af de to variable findes af dimensioneringstabel 8 For værdier der ikke står i tabellen benyt Mapleprogrammet i oversigt 0.7
17 Oversigt 0. OVERSIGT 0.. Test af middelværdier µ og µ og konfidensinterval for differens µ µ for normalfordelte variable σ σ. X og X er normalfordelte henholdsvis n( µ, σ) og n( µ, σ ). Givet stikprøver af X og X. Størrelse, gennemsnit og spredning henholdsvis n, x, s og n, x, s. Signifikansniveau er α. Lad d være en given konstant. x x d s s t = c, hvor c = + Frihedsgradstallet f er det nærmeste hele tal, som er større end g =. c n n s s n n + n n T er en statistisk variabel der er t - fordelt med frihedsgradstallet f. Forudsætning H 0 : Nulhypotese Beregning H: Alternativ hypotese Approksimativ metode (Satterthwaites test) σ og σ ukendte σ σ dvs. H 0 :σ = σ forkastes ved F - test H :µ µ + d 0 H:µ > µ + d H :µ µ + 0 H:µ < µ + d H :µ = µ + 0 H:µ µ + d d d P - værdi = PT ( t) P - værdi = PT ( t) P - værdi = x > x + d t x < x + d PT ( t) for P - værdi = PT ( ) for 00 ( α )% Konfidensinterval for differens µ µ : x x t α ( f ) c µ µ x x + t α ( f ) c P - værdi<α H 0 forkastes P - værdi < α 3
18 Oversigt 0.3 µ og µ n( µ, σ) n( µ, σ ) OVERSIGT 0.3. Test af middelværdier for normalfordelte variable (spredninger kendte eller stor stikprøvestørrelse) X og X er normalfordelte henholdsvis og. Givet stikprøver af X og X. Størrelse, gennemsnit og spredning henholdsvis n, x, s x x d og n, x, s. Signifikansniveau er α. Lad d være en konstant, og u =. Y en normeret normalfordelt variabel n( 0, ). σ σ + n n Forudsætn. σ og σ kendte eller n 30 og n 30 σ og σ erstattes så af s og s H 0 : Nulhypotese H: Alternativ hypotese H :µ µ + d 0 H:µ > µ + d H :µ µ + 0 H:µ < µ + d H :µ = µ + 0 H:µ µ + d d d P-værdi = PY ( u) P-værdi = PY ( u) P-værdi = PY ( u) for P-værdi = PY ( ) for Beregning H 0 forkastes Dimensionering x > x + d u x < x + d P - værdi <α P - værdi σ σ σ σ 00 ( α )% konfidensinterval for differens µ µ : x x u α + µ µ x x + u α + n n n n < α = µ µ d er den mindste ændring i µ der har praktisk interesse. β = P(type II fejl) u n + u α β σ σ = max{ σ, σ } Betegnelser som ovenfor: u + u α β n σ 4
19 Oversigt 0.4 σ OVERSIGT 0.4. Test af varianser σ og σ og konfidensinterval for for variable. σ X og X er normalfordelte henholdsvis n( µ, σ ) og n( µ, σ ). Givet stikprøver af X og X. Størrelse, gennemsnit og spredning henholdsvis n, x, s og n, x, s. Signifikansniveau er α. F s, Q er F - fordelt Fn ( n, ) s Forudsætn. og µ µ ukendte = H 0 : Nulhypotese H: Alternativ hypotese H 0 :σ σ H:σ > σ H 0 :σ σ H:σ < σ H 0 :σ = σ H:σ σ P - værdi = PQ P - værdi = PQ σ 00 ( α)% Konfidensinterval for forhold : σ Specialtilfælde: (( ) + ( µ ) ) µ µ (( ) ( µ ) ) n s n x n n s + n x n Beregning ( F) ( F) P - værdi < α P - værdi = PQ ( F) for F > P - værdi < α P - værdi = PQ ( F) for F < F F α n n og kendte: F =, Q er F - fordelt Fn (, n). Forudsætn. Nulhypotese H: Alternativ hypotese H 0 forkastes σ F F n n α (, ) (, ) σ Beregning H 0 forkastes og µ µ H 0 :σ σ H:σ > σ P - værdi = PQ ( F) P - værdi < α kendte H 0 :σ σ H:σ < σ P - værdi = PQ ( F) H 0 :σ = σ H:σ σ P - værdi = PQ ( F) for F > P - værdi = PQ ( F) for F < P - værdi < α ( n ) s + n ( x µ ) µ kendt og µ ukendt: F =, Q er F - fordelt s n Fn (, n ) Forudsætn. Nulhypotese Beregning H 0 forkastes µ kendt H 0 :σ σ H:σ > σ P - værdi = PQ ( F) P - værdi < α ukendt µ H 0 :σ σ H:σ < σ P - værdi = PQ ( F) H 0 :σ = σ H:σ σ P - værdi = PQ ( F) for F > P - værdi = PQ ( F) for F < P - værdi < α 5
20 Oversigt 0.5 OVERSIGT 0.5. Oversigt over test af parametre p og p for binomialfordelte variable. X og X er binomialfordelt henholdsvis bn (, p) og bn (, p), hvor n og n er kendte og p og p ukendte. Observerede stikprøveværdier x og x. x x x + x p$ Signifikansniveau er α.lad p$, $, p$ = p = $p = og u =. Y en normeret normalfordelt variabel n( 0, ). n n n + n p$ ( p$) + n n Forudsætning: H 0 : Nulhypotese H: Alternativ hypotese Beregning H 0 forkastes Approksimativ metode p og p ukendte. n p$ [ 5; n 5] n p$ 5; n 5 [ ] H0: p p H p > p : H0: p p H p < p : P-værdi = PY ( > u) P-værdi = PY ( < u) P-værdi < α H0: p = p H p p : Hvis p$ p$ så P-værdi = PY ( > u) Hvis p$ < p$ så P-værdi = PY ( < u) P-værdi < α [ ; ] [ ] Forudsætning: x 5 n 5 x 5; n 5 : 00 ( α)% konfidensinterval for differens p p $ $ p p u α p$ ( p$ ) p$ ( p$ ) p$ ( p$ ) p$ ( p$ ) + p p p$ p$ + u α + n n n n 6
21 Oversigt 0.6 µ µ OVERSIGT 0.6. Oversigt over test af parameter og for Poissonfordelt variable. X og X er Poissonfordelte variable fordelt p( µ ) og p( µ ) hvor µ og µ er ukendte. Der foreligger to stikprøver af størrelsen n med gennemsnit x og n n med gennemsnit x x+ n x x. Signifikansniveau er α. Lad x = og x u =.. Y en normeret normalfordelt variabel n( 0, ). n+ n x + n n Forudsætning H 0 : Nulhypotese H: Alternativ hypotese Beregning H 0 forkastes Approksimativ metode µ og µ ukendte. n x 5 og n x 5 H 0 :µ µ H: µ > µ H 0 :µ µ H: µ < µ P-værdi = PY ( > u) P-værdi = PY ( < u) P-værdi < α H 0 : µ = µ H: µ µ Hvis x x så P-værdi = PY ( > u) Hvis x < x så P-værdi = PY ( < u) P-værdi < α Forudsætning: n x og n x : 0 0 x x x x 00 ( α )% konfidensinterval for differens µ µ x x u x x u α + µ µ + α + n n n n 7
22 Oversigt 0.7 OVERSIGT 0.7. Mapleprogram til dimensionering i og variable. > restart; > with(stats); MAPLE angiver her funktioner i stats > pt:=proc(n,c,a) # variabel (ensidet test) med samme stikprøvestørrelse og samme (ukendte) spredning > local b,d,f,t,cf,gam,x,y; > f:=n-; > gam:=x->int(z^(x-)*exp(-z),z=0..infinity); > cf:=evalf(/(gam(f/)*^((f-)/)));t:=statevalf[icdf,studentst[f]](-a); > y:=cf*int(statevalf [cdf,normald](t/sqrt(f)*u-c*sqrt(n))*u^(f-)*exp(-(u^)/),u=0..infinity); > y > end proc; > MAPLE GENTAGER HER PROGRAM > evalf(pt(6,.87,0.05)); #ensidet test > > evalf(pt(6,.87,0.05))-evalf(pt(6,.,0.975)); #tosidet test > restart;# variable (ensidet test) med samme stikprøvestørrelse og samme(ukendte) spredning > with(stats); > pt:=proc(n,c,a) > local b,d,f,t,cf,gam,x,y,n; > n:=*n-;f:=*n-; > gam:=x->int(z^(x-)*exp(-z),z=0..infinity); > cf:=evalf(/(gam(f/)*^((f-)/)));t:=statevalf[icdf,studentst[f]](-a); > y:=cf*int(statevalf [cdf,normald](t/sqrt(f)*u-c*sqrt(n/))*u^(f-)*exp(-(u^)/),u=0..infinity); > y > end proc; > MAPLE GENTAGER HER PROGRAM > evalf(pt(6,.05,0.05));# ensidet test > evalf(pt(6,.3,0.05))-evalf(pt(6,.3,0.975)); #tosidet test
23 . Indledning Appendix 0A Eksempler regnet på TI Indledning. Det forudsættes, at man kender de grundlæggende operationer på lommeregneren. I Appendix Vejledning i TI - 89" er beskrevet, hvorledes man beregner sandsynligheden for forskellige fordelinger, beregner gennemsnit og spredning, samt hvorledes man tester og beregner konfidensintervaller for funktion af variabel.dette forudsættes ligeledes bekendt.. Hypotesetest og konfidensintervaller for variable. Eksempel 0.3. Accept af ens spredning. Udbyttet ved anvendelse af katalysatorer sammenlignes. Resultaterne blev: K K ) Undersøg, om det på et signifikansniveau på 5% kan påvises, at K giver et udbytte der er enheder større end K ) Angiv endvidere et 95% konfidensinterval for differensen mellem de to middeludbytter. Løsning. APPS, STAT/LIST, indtast data i list og list eller navngiv to kolonner tilhøjre for list 6 med eksempelvis k og k. og indtast data her. Det sidste antages gjort. ) a) H 0 :σ = σ mod H:σ σ F6,9: - SampFtest, ENTER, I menuen vælg Data Input Mathod= Data, ENTER I menu for list " skrives k og for list" skrives k.(benyt evt. VAR-LINK) alternative Hyp = σ σ, ENTER I udskrift findes P - værdi = Da P - værdi =0.454 >0.05 accepteres H 0, dvs. vi vil i den følgende test antage, at spredningerne er ens. b) H 0 :µ µ + mod H:µ > µ + F6, 4: - SampTtest.ENTER I menu for list " skrives k+, for alternative Hyp µ < µ og pooled til YES I udskrift findes P - værdi = Da P - værdi = 0.04 < 0.05 forkastes nulhypotesen (svagt) Konklusion: Der er (svagt) statistisk bevis for at K giver et udbytte der er enheder større end K (vi er dog tæt på en accept). ) Konfidensinterval:F7, 3: -SampTInt Menu er selvforklarende 95% konfidensinterval for differens : C-int=[-7.7; -.6] Ved tosiddede test beregnes summen af begge haler og derfor skal sammenlignes med α og ikke med α / 9
24 Appendix 0A. Eksempler regnet med Ti-89 Eksempel 0.4. Forkastelse af ens spredning. Der laves forsøg med katalysatorer A og B. Stikprøverne giver estimaterne A: xa = 939., sa = 506. na =8 og B: xb = , sb =. 9, nb = 0. Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises, at A giver et udbytte der er enheder større end B. Løsning: APPS, STAT/LIST ) a) H 0 :σ = σ mod H:σ σ F6,9: - SampFtest, ENTER, I menuen vælg Data Input Mathod= Stats, ENTER Udfyld menu s = 506. n =8, s =. 9, n = 0 alternative Hyp = σ σ, ENTER I udskrift findes P - værdi = Da P - værdi =0.033 < 0.05 forkastes H 0, dvs. vi vil i den følgende test antage, at spredningerne ikke er ens. b) H0:µ A µ B + mod H:µ A > µ B +. F6, 4: - SampTtest.Data Input Mathod= Stats., ENTER, Udfyld menu: x = 939., s = 506. n =8 x = , s =. 9, n = 0, alternative Hyp µ > µ, pooled = no I udskrift findes P - værdi = 0.67 Da P - værdi = 0.67> 0.05 accepteres nulhypotesen. Konklusion: Vi kan ikke på dette grundlag vise, at udbyttet ved katalysator A er større end ved katalysator B. Eksempel 0.5. eksakt spredning. Der udføres 39 forsøg med additiv A og 40 forsøg med additiv B. Det vides, at spredningerne eksakt er σ A = 3. og σ A = 4. ) Man beregner gennemsnittene af de to stikprøver til x A = 8. 6 og x A = 9. Kan man på mindst signifikansniveau α = 0.05 bevise, at malingen med additivet A tilsat har en mindre middeltørretid end konkurrentens? ) Hvad vil du anbefale virksomheden at gøre, hvis man som nævnt i eksempel 0. kun vil gå over til A hvis tørretiden for A er mindst 0 minutter kortere end for A (bagatelgrænsen) Løsning: ) Nulhypotese, Alternativ hypotese: < H 0 :µ µ H:µ µ F6, 3: - SampZtest.Data Input Mathod= Stats., ENTER, Udfyld menu: σ = 3., σ = 4., x = 8. 6, n = 39, x = 9., n B = 40, alternative Hyp µ < µ I udskrift findes P - værdi = Da P - værdi = < 0.00 forkastes nulhypotesen (stærkt) Konklusion: Der er et stærkt statistisk bevis for at additiv A i middel har en kortere tørringstid end additiv A. B B Ved tosiddede test beregnes summen af begge haler og derfor skal sammenlignes med α og ikke med α / 0
25 Hypotesetest og konsidensintervaller for variable ) F7, 3: - SampZInt. Udfyld menu (er selvforklarende) C-int=[6.4; -4.77] Konklusion: Da bagatelgrænsen er 0, og næsten 50% af konfidensintervallet ligger under 0, kan det ikke på baggrund af dette materiale anbefales at gå over til det mere kostbare additiv. Eksempel 0.6. Stor stikprøvestørrelse (over 30) Problem som eksempel 0.5, men nu er data opgivet. Vi regner derfor som en sædvanlig t-test, hvor spredningerne ikke er eksakt kendt. Løsning. a) H 0 :σ = σ mod H:σ σ F6,9: - SampFtest, Data Input Mathod= Stats., Menu udfyldes P - værdi = Da P - værdi =0.797> 0.05 accepteres H 0, dvs. vi vil i den følgende test antage, at spredningerne er ens. b) Nulhypotese H 0 :µ µ, Alternativ hypotese: H:µ < µ F6, 4: - SampTtest.Data Input Mathod= Stats., Menu udfyldes herunder pooled=yes Resultat: P - værdi = Da P - værdi = < 0.00 forkastes nulhypotesen (stærkt) Ved sammenligning med resultatet i eksempel 0.5 ses, som forventet, at selv om man anvender en u - test fremfor en t - test, giver det ingen større ændring i P-værdien, da n 30. Konklusion: Der er et stærkt statistisk bevis for at additiv A i middel har en kortere tørringstid end additiv A. Eksempel 0.7. Binomialfordelingstest. Halvdelen af en gruppe på 80 franske skiløbere fik C - vitamin mens de øvrige fik kalktabletter.efter en passende tid optaltes hvor mange af forsøgspersonerne der var forkølede. Resultaterne kan ses af følgende skema: Forkølet Ikke forkølet Total C-vitamin 7 39 Kalktabletter ) Kan det på et signifikansniveau på 5% vises, at C - vitamin har en forebyggende virkning? ) I bekræftende fald angiv er 95% konfidensinterval for differensen mellem parametrene. Løsning: ) H0: p pmod Hp : < p. Forudsætningerne for at approksimere med normalfordelingen er opfyldt (se tidligere) F6, 6: -Prop-ZTest Udfylder menu: Succes x=7, n= 39, succes x=3, n = 40,Alt. hyp : p < p Udskrift giver P- værdi=0.04 Da P - værdi = 0.04 < 0.05 forkastes nulhypotesen (svagt) Konklusion: På signifikansniveau 5% er vist, at C-vitamin har en vis forebyggende virkning mod forkølelse, ) 95% konfidensinterval; F7, 6: -Prop-ZInt, menu udfyldes som under punkt. Udskrift viser C_int=[-0.87 ; -0.0] Eksempel 0.8. Poissonfordelingstest. TI - 89 har ikke dette program
26 Appendix 0B Eksempler regnet på Statgraphics Appendix 0B Eksempler regnet på Statgraphics.. Indledning I Grundlæggende begreber Appendix A er beskrevet hvorledes man beregner sandsynligheden for forskellige fordelinger og beregner gennemsnit og spredning. Dette forudsættes bekendt.. Hypotesetest og konfidensintervaller for variable. Eksempel 0.3. Accept af ens spredning. Udbyttet ved anvendelse af katalysatorer sammenlignes. Resultaterne blev: K K ) Undersøg, om det på et signifikansniveau på 5% kan påvises, at K giver et udbytte der er enheder større end K ) Angiv endvidere et 95% konfidensinterval for differensen mellem de to middeludbytter. Løsning: ) a) H : σ = σ H: σ σ 0 Vælg (Compare\ Two Samples\ Two Samples Comparison). I den fremkomne tabel: Vælg ( K\tryk på ved Sample \K\tryk på ved Sample \ OK) Vælg( gul ikon=tabular options\comparison of Standard Deviations\OK) Resultat: Comparison of Standard Deviations K K Standard deviation, ,37667 Variance 5,69936,409 Df 7 7 Ratio of Variances = 0, ,0% Confidence Intervals Standard deviation of K: [,57844;4,85887] Standard deviation of K: [,357;6,8744] Ratio of Variances: [0,00074;,49676] F-test to Compare Standard Deviations Null hypothesis: sigma = sigma Alt. hypothesis: sigma NE sigma F = 0,49986 P-value = 0,38055 Da P - value = > 0.05 accepteres nulhypotesen, dvs. man kan i den følgende analyse antage, at spredningerne er ens. b) H 0 :µ µ + mod H:µ > µ +. eller hvis H skrives H:µ > µ + µ µ <. Vælg (Compare\ Two Samples\ Two Samples Comparison). I den fremkomne tabel: Vælg ( K\tryk på ved Sample \K\tryk på ved Sample \ OK) Vælg (gul ikon = Tabular Options\Comparison of Means OK ) Vi får en udskrift, som ikke er relevant.
27 Hypotesetest og konfidensintervaller for variable Vælg ( Cursoren på udskrift, højre musetast\ Pane options\null Hyphothesis =- \ alt. hypothesis til Lesser than \ OK ). Markering ved Asume Equal Sigmas Comparison of Means ,0% confidence bound for mean of K: 89,4575 +,599 [9,0566] 95,0% confidence bound for mean of K: 94,5 +,55 [96,747] 95,0% confidence bound for the difference between the means assuming equal variances: -4,665 +,496 [-,738] t test to compare means Null hypothesis: mean - mean = -,0 Alt. hypothesis: less than assuming equal variances: t = -,883 P-value = 0,04034 Da P - værdi = 0.04 < 0.05 forkastes nulhypotesen (svagt) Konklusion: Der er (svagt) statistisk bevis for at K giver et udbytte der er enheder større end K (vi er dog tæt på en accept). ) 95% konfidensinterval: Her beregnes (se ovenstående udskrift) kun et ensidet interval, hvoraf vi kan slutte, at µ µ < 738. µ > µ Ved ensidede test er et 95% konfidensinterval for differensen også ensidet den nedre grænse g er bestemt ved 95% fraktilen: g = x x t0. 95( 4) s + = = =.8 n n 8 8 At dette er mere korrekt, ses også af, at dette konfidensinterval ikke indeholder [ g ; [ Eksempel 0.4. Forkastelse af ens spredning. Der laves forsøg med katalysatorer A og B. Stikprøverne giver estimaterne A: xa = 939., sa = 506. na =8 og B: xb = , sb =. 9, nb = 0. Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises, at A giver et udbytte der er enheder større end B. Løsning: a) Vælg (Compare\ Two Samples\ Hypothesis tests). I tabel Vælg (Normal Sigmas\Sample Sigma = 5,06\Sample Sigma =,9 \ Sample Size = 8, Sample Size = 0\ OK ) Udskrift: Hypothesis Tests Sample standard deviations = 5,06 and,9 Sample sizes = 8 and 0 95,0% confidence interval for ratio of variances: [,639;3,5487] Null Hypothesis: ratio of variances =,0 Alternative: not equal Computed F statistic = 4,8836, P-Value = 0,0338 Reject the null hypothesis for alpha = 0,05 Nulhypotesen forkastes b) Test :µ > µ +. H A B Vælg (Compare\ Two Samples\ Hypothesis tests). Vælg (rød ikon = Input Dialog\ I tabel vælg Normal Means \Null Hypothesis for Difference =, Sample Mean = 93,9\ osv.\ OK ) Vi får en udskrift, som ikke er relevant. Vælg ( Cursoren på udskrift, højre musetast\analysis Options\ alt. hypothesis til Greater than \Ved Asume Equal Sigmas afhænger markeringen af resultatet af en test, her antages de er forskellige \ OK ). hvor 3
VIDEREGÅENDE STATISTIK
MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK (med TI-Nspire og TI 89 ) 7. udgave 013 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen : Statistiske
Læs mereVIDEREGÅENDE STATISTIK
MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK (med TI 89 og SAS - JMP) 5. udgave 011 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen : Statistiske
Læs mereVIDEREGÅENDE STATISTIK
MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 10.b 015 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen :
Læs mereMOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK med Excel
MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK med Excel. udgave 004 i FORORD Denne bog er en fortsættelse af lærebogen M. Oddershede Larsen : Statistiske grundbegreber. Det forudsættes, at man har rådighed
Læs mereKonfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
Læs mereAnvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele
Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om
Læs mereKursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks
Læs mereVIDEREGÅENDE STATISTIK
MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK herunder kvalitetskontrol Udgave 10a 015 FORORD Denne lærebog kan læses på baggrund af en statistisk viden svarende til lærebogen M. Oddershede Larsen :
Læs mereHypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0
Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt
Læs mereAfsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse
Afsnit 8.3 - E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Først skal normalfordelingen lige defineres i Maple, så vi kan benytte den i vores udregninger. Dette gøres
Læs mereNote til styrkefunktionen
Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H
Læs mereEnsidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese
Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet
Læs mereForelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6
Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220
Læs mere3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Læs mereForsøgsplanlægning Stikprøvestørrelse
Basal statistik Esben Budtz-Jørgensen 6. november 2007 Forsøgsplanlægning Stikprøvestørrelse 1 41 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder
Læs mereStatistisk forsøgsplanlægning. med benyttelse af Statgraphics
MOGENS ODDERSHEDE LARSEN Statistisk forsøgsplanlægning med benyttelse af Statgraphics Vekselvirkning CD 10 8 C 1 udbytte 6 4 0 1 3 4 D 11 udgave 00, DTU FORORD Dette notat er baseret på at de studerende
Læs mereForelæsning 9: Inferens for andele (kapitel 10)
Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereVejledende besvarelser til opgaver i kapitel 14
Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden
Læs mereNormalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Læs mereBasal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse
Basal statistik Esben Budtz-Jørgensen 4. november 2008 Forsøgsplanlægning Stikprøvestørrelse 1 46 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder
Læs mereLøsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Læs mereKapitel 7 Forskelle mellem centraltendenser
Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens
Læs mereDen endelige besvarelse af opgaverne gøres ved at udfylde nedenstående skema. Aflever KUN skemaet!
Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 2. juni 2008 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)
Læs mereStastistik og Databehandling på en TI-83
Stastistik og Databehandling på en TI-83 Af Jonas L. Jensen (jonas@imf.au.dk). 1 Fordelingsfunktioner Husk på, at en fordelingsfunktion for en stokastisk variabel X er funktionen F X (t) = P (X t) og at
Læs mereNormalfordelingen. Statistik og Sandsynlighedsregning 2
Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på
Læs mereKapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan
Læs mereEksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af Excel.
Eksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af Excel. Kapitel Deskriptiv statistik Indhold 1. Generelle forhold... 1 Kapitel : Deskriptiv Statistik... 1 Kapitel 4: Normalfordelingen...
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereVi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.
Opgave I I en undersøgelse af et potentielt antibiotikum har man dyrket en kultur af en bestemt mikroorganisme og tilført prøver af organismen til 20 prøverør med et vækstmedium og samtidig har man tilført
Læs mere5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14
Module 5: Exercises 5.1 ph i blod.......................... 1 5.2 Medikamenters effektivitet............... 2 5.3 Reaktionstid........................ 3 5.4 Alkohol i blodet...................... 3 5.5
Læs mereMikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1
Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering
Læs mereLøsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Læs mereOpgaver til kapitel 3
Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer
Læs mereOversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereSupplement til kapitel 7: Approksimationen til normalfordelingen, s. 136
Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereTema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Læs mereReeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
Læs mereKapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet
Læs mereResumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se
Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller
Læs mereProgram. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data
Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration
Læs mereProdukt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Læs mereEn Introduktion til SAS. Kapitel 5.
En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel
Læs mereStatistik viden eller tilfældighed
MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår
Læs mereHvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau
Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi
Læs mereOvenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.
Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder
Læs mere1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2
Indhold 1 Sammenligning af 2 grupper 2 1.1 Responsvariabel og forklarende variabel......................... 2 1.2 Afhængige/uafhængige stikprøver............................ 2 2 Sammenligning af 2 middelværdier
Læs mere1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...
Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................
Læs mereStatistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Læs mereProgram. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter
Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede
Læs mereTema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Læs mereHvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver
Hvad skal vi lave? 1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver 2 Sammenligning af 2 middelværdier Uafhængige stikprøver Uafhængige stikprøver -
Læs mere2 0.9245. Multiple choice opgaver
Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder
Læs mereVejledende besvarelse af eksamen i Statistik for biokemikere, blok
Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder
Læs mereVejledende løsninger kapitel 8 opgaver
KAPITEL 8 OPGAVE 1 Nej den kan også være over 1 OPGAVE 2 Stikprøvestørrelse 10 Stikprøvegennemsnit 1,18 Stikprøvespredning 0,388158 Konfidensniveau 0,95 Nedre grænse 0,902328 Øvre grænse 1,457672 Stikprøvestørrelse
Læs mereTo-sidet varians analyse
To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),
Læs mereOpgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Læs mereMOGENS ODDERSHEDE LARSEN. VIDEREGÅENDE STATISTIK II Regressionsanalyse (TI-89 og Statgraphics)
MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK II Regressionsanalyse (TI-89 og Statgraphics) DANMARKS TEKNISKE UNIVERSITET 6 udgave 005 FORORD Dette notat kan læses på baggrund af en statistisk viden
Læs mereLogistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder
Læs mere1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Læs mereIkke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Læs mereKursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:
Læs mereOpgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)
Kursus 02402: Besvarelser til øvelsesopgaver i uge 9 Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Som model benyttes en binomialfordeling, som beskriver antallet, X, blandt
Læs mere(studienummer) (underskrift) (bord nr)
Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 15. december 2008 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)
Læs mereModule 4: Ensidig variansanalyse
Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2
Læs mereHypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau
ypotese test Repetition fra sidst ypoteser Test af middelværdi Test af andel Test af varians Type 1 og type fejl Signifikansniveau Konfidens intervaller Et konfidens interval er et interval, der estimerer
Læs mereProgram. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger
Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt
Læs mereLogistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π
Læs mereEksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Læs mereI dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)
I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest
Læs mereSandsynlighedsfordelinger for kontinuerte data på interval/ratioskala
3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter
Læs mereOpgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1
Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.
Læs mereStikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader
Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af
Læs mereNormalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Læs mereAnvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Læs merePersonlig stemmeafgivning
Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt
Læs mereMPH specialmodul Epidemiologi og Biostatistik
MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:
Læs mereOversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel
Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:
Læs mere(studienummer) (underskrift) (bord nr)
Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)
Læs merePhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie
Læs mereEstimation og konfidensintervaller
Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,
Læs mereNanostatistik: Opgavebesvarelser
Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,
Læs mereLøsning til eksamen d.27 Maj 2010
DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1
Læs mereTeoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger
Uge 49 I Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte
Læs mereRettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007
Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave
Læs mereForsøgsplanlægning Stikprøvestørrelse
Basal statistik Esben Budtz-Jørgensen 8. november 2011 Videnskabelig hypotese Planlægning af et studie Endpoints Forsøgsplanlægning Stikprøvestørrelse 1 51 Instrumentelle/eksponerings variable Variationskilder
Læs mereModelkontrol i Faktor Modeller
Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk
Læs mereForelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)
Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske
Læs mereI dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd
I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt
Læs mereMikro-kursus i statistik 2. del Mikrokursus i biostatistik 1
Mikro-kursus i statistik 2. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er hypotesetestning? I sundhedsvidenskab:! Hypotesetestning = Test af nulhypotesen Hypotese-testning anvendes til at vurdere,
Læs mereKlasseøvelser dag 2 Opgave 1
Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d
Læs merea) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?
Module 6: Exercises 6.1 To laboranter....................... 2 6.2 Nicotamid i piller..................... 3 6.3 Karakterer......................... 5 6.4 Blodtryk hos kvinder................... 6 6.5
Læs mereAnvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Læs mere4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min
Epidemiologi og biostatistik Uge, torsdag 28. august 2003 Morten Frydenberg, Institut for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (udfra
Læs mereSusanne Ditlevsen Institut for Matematiske Fag susanne
Statistik og Sandsynlighedsregning 1 STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 7. undervisningsuge, mandag 1 Estimation og konfidensintervaller
Læs mereLøsning til eksaminen d. 29. maj 2009
DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Læs mere1. februar Lungefunktions data fra tirsdags Gennemsnit l/min
Epidemiologi og biostatistik Uge, torsdag 3. februar 005 Morten Frydenberg, Afdeling for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (ud
Læs mereVIDEREGÅENDE STATISTIK III Ikke parametriske test
MOGENS ODDERSHEDE LARSEN VIDEREGÅENDE STATISTIK III Ikke parametriske test Statistisk Kvalitetsstyring (Statgraphics) DANMARKS TEKNISKE UNIVERSITET 6. udgave 004 i FORORD Dette notat kan læses på baggrund
Læs mereKursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:
Læs mereOpgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar
Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 30. maj 2006 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)
Læs mere