1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Transkript

1 Indhold 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi Agresti: Oversigt over t-test Signifikanstest for en andel Approksimativt test Binomial test Binomialtest i Rcmdr Agresti: Oversigt over test for middelværdi og andel 12 1

2 1 Statistisk inferens: Hypotese og test Hypotesebegrebet En hypotese er et udsagn om en given population. Som oftest formuleret ved at en populationsparameter har en given værdi eller ligger i et bestemt interval. Eksempler: Kvalitetskontrol af produkter, hvor hypotesen er at produkterne fex har en bestemt vægt, et givet strømforbrug eller en mindste holdbarhed. Det kan være svært at designe forsøg, som belyser sidstnævnte! Videnskabelige hypoteser, fex at der ikke er sammenhæng mellem en virksomheds alder og overskudsgrad. Graden af sammenhæng måles ofte med en parameter kaldet korrelation, og denne er nul, hvis der er mangel på sammenhæng. Signifikanstest Et signifikanstest bruges til at undersøge, hvorvidt data strider mod hypotesen eller ej. Hvis hypotesen siger at en parameter har en bestemt værdi, så skal testet svare på, om stikprøveestimat ligger langt væk fra denne værdi. Eksempelvis: Ventetider i en kø. Vi sampler n kunder og tæller hvor mange, der venter over 5 minutter. Virksomhedens politik er at højst 10% af kunderne må vente over 5 minutter. I en stikprøve med n = 32 observeres 4 med ventetid over 5 minutter, dvs den estimerede andel er ˆπ = 4 32 = 12.5%. Er dette langt over 10%? Spirituspromillen hos en studerende måles 4 gange og giver værdierne 0.504, 0.500, 0.512, 0.524, dvs den estimerede middelværdi er ȳ = Ligger dette langt fra en grænse på 0.5? 1.1 Nulhypotese - alternativ. Nulhypotese Nulhypotesen - betegnet H 0 - vil som oftest specificere, at en populationsparameter antager en bestemt værdi. Eksempelvis µ er populationsmiddelværdien af en promillemåling. Nulhypotesen er H 0 : µ =

3 Alternativ hypotese En Alternativ hypotese - betegnet H a - vil specificere, at populationsparameteren ligger i et sæt af værdier forskellig fra nulhypotesen. Eksempelvis µ er populationsmiddelværdien af en promillemåling. Nulhypotesen er H 0 : µ = 0.5. Alternativ hypotese: H a : µ > Teststatistik Teststatistik Vi kigger på en populationsparameter µ og opstiller nulhypotesen H 0 : µ = µ 0 hvor µ 0 er et kendt tal, fex µ 0 = 0.5. På basis af en stikprøve har vi estimatet ˆµ. En teststatistik T vil typisk afhænge af ˆµ og µ 0 og måle T (ˆµ, µ 0 ): Hvor langt ligger ˆµ fra µ 0? Ofte anvendes T (ˆµ, µ 0 )= antallet af standardafvigelser fra ˆµ til µ 0. Eksempelvis vil det være højst usandsynligt af ligge over 3 standardafvigelser væk fra µ 0, dvs µ 0 er næppe den rigtige værdi af populationsparameteren. 1.3 P-værdi P-værdi Vi betragter H 0 : en nulhypotese. H a : en alternativ hypotese hypotese. T : en teststatistik, hvor vi for det aktuelle eksperiment har beregnet værdien t obs. 3

4 Antag at nulhypotesen er sand. Hvis vi gentager eksperimentet, hvad er så sandsynligheden for at T antager værdien t obs eller en anden værdi, som mere tydeligt peger på H a? Dette kaldes p-værdien. Hvis denne er lav - dvs det er svært af finde T -værdier, som peger mere tydeligt på H a - så må vi være tæt på H a. Ergo Jo lavere p-værdi, jo mindre tillid har vi til H 0. Hvad er en lille p-værdi? Hvis denne er under 5% taler man om signifikans på niveau 5%. 1.4 Signifikansniveau Signifikansniveau Vi betragter H 0 : en nulhypotese. H a : en alternativ hypotese hypotese. T : en teststatistik, hvor vi for det aktuelle eksperiment har beregnet værdien t obs og p- værdien p obs. Små værdier af p obs er kritiske for H 0. I praksis kan det være nødvendigt at beslutte om vi vil forkaste H 0. Beslutningen kan træffes, hvis vi på forhånd har lagt os fast på et såkaldt α-niveau, hvor α er en given procent som opfylder Vi forkaster H 0, hvis p obs er mindre end eller lig med α. α kaldes testets signifikansniveau. Typiske valg af α er 5% eller 1%. 4

5 2 t-test for middelværdi 2.1 Tosidet t-test for middelværdi t-test for middelværdi Vi antager at data er en stikprøve fra N(µ, σ). Estimaterne er ˆµ = ȳ og ˆσ = s baseret på n observationer. H 0 : µ = µ 0, hvor µ 0 er en kendt værdi. H a : µ µ 0. Teststørrelse: t = ȳ µ 0 s, hvor se = se. n Dvs t måler, hvor mange standardafvigelser - med fortegn - vi ligger fra µ 0. Hvis H 0 er sand, så er t en observation fra t-fordelingen med df = n 1. P-værdi: Værdier større end t og mindre end t peger mere på H a end H 0. Vi beregner: p-værdi=2 x øvre halesandsynlighed for t. t-fordelingen med df frihedsgrader. Sandsynligheden beregnes i Eksempel Promillemålinger: 0.504, 0.500, 0.512, Disse antages at være en stikprøve fra en normalfordeling. Vi beregner ȳ = 0.51 og s = se = s n = = H 0 : µ = 0.5, dvs µ 0 = 0.5. t = ȳ µ 0 se = = Vi er altså knap 2 standardafvigelser fra 0.5. Er dette ekstremt i en t-fordeling med 3 frihedsgrader? Eksempel 5

6 Tosidet test: p værdi svarende til t score p værdien er lig med 2q Vi kender t. Find arealet q af det skraverede område Vi har beregnet t = Er dette kritisk i t-fordelingen med 3 frihedsgrader? 3 t t 3 Tæthed for t fordelingen med df=3 Distributions/Continuous distributions/t distribution/ t probabilities... Vi får en p-værdi på , dvs over 15%. Vi kan ikke forkaste H Ensidet t-test for middelværdi Ensidet test Vi antager at data er en stikprøve fra N(µ, σ). Estimaterne er ˆµ = ȳ og ˆσ = s baseret på n observationer. H 0 : µ = µ 0, hvor µ 0 er en kendt værdi. H a : µ > µ 0 (eller µ < µ 0 ). Teststørrelse: t = ȳ µ 0 se, hvor se = s n. Hvis H 0 er sand, så er t en observation fra t-fordelingen med df = n 1. P-værdi: Værdier større end t peger mere på H a end H 0. Vi beregner: p-værdi= øvre halesandsynlighed for t. Sandsynligheden beregnes i t-fordelingen med df frihedsgrader. 6

7 Hvis alternativet er H a : µ < µ 0 beregnes: p-værdi= nedre halesandsynlighed for t. 2.3 Agresti: Oversigt over t-test Oversigt 3 Signifikanstest for en andel Test for andel Givet en stikprøve af størrelse n, hvor vi observerer om en given egenskab er til stede. 7

8 Frekvensen af egenskaben i populationen er π. Denne estimeres ved ˆπ. Nulhypotese: H 0 : π = π 0, hvor π 0 er et kendt tal. Tosidet alternativ hypotese: H a : π π 0. Ensidet alternativ hypotese: H a : π > π 0 (eller H a : π < π 0 ). π Hvis H 0 er sand er standardfejlen på ˆπ givet ved se 0 = 0 (1 π 0 ). n Teststatistik: z = ˆπ π se 0 Dvs z måler, hvor mange standardafvigelser - med fortegn - der er fra ˆπ til π Approksimativt test Approksimativt test Hvis både nˆπ og n(1 ˆπ) er større end 15 gælder fra tidligere at ˆπ er normalfordelt(appoksmativt), dvs Hvis H 0 er sand, så er z en observation fra standardnormalfordelingen. P-værdi for tosidet test: Værdier større end z og mindre end z peger mere på H a end H 0. Vi beregner: p-værdi=2 x øvre halesandsynlighed for z. standardnormalfordelingen. P-værdi for alternativ H a : π > π 0 : p-værdi= øvre halesandsynlighed for z i standardnormalfordelingen. P-værdi for alternativ H a : π < π 0 : p-værdi= nedre halesandsynlighed for z i standardnormalfordelingen. Sandsynligheden beregnes i 8

9 Eksempel Undersøgelse fra Florida Poll i En tilfældig stikprøve på 1200 personer blev ift problemer med financiering af offentlig service spurgt om de foretrak serviceforringelser eller skattestigninger. 52% gik ind for skattestigninger. Repræsenterer disse et flertal? Stikprøve med n = 1200 observationer og estimeret andel ˆπ = Nulhypotese H 0 : π = 0.5. Alternativ H a : π 0.5. Standardfejl se 0 = Teststatistik z = ˆπ π 0 se 0 π 0 (1 π 0 ) n = = = = øvre halesandsynlighed for 1.39 i standardnormalfordelingen er , dvs vi får en p- værdi på %. Konklusion: Der er ikke tilstrækkeligt evidens til at forkaste H 0, dvs vi kan ikke udelukke at holdningen til spørgsmålet er fifty-fifty. 3.2 Binomial test Binomial test Givet en stikprøve af størrelse n, hvor vi observerer om en given egenskab er til stede. Frekvensen af egenskaben i populationen er π. Denne estimeres ved ˆπ. Lad y + = nˆπ være frekvensen af egenskaben i stikprøven. Det kan vises at denne har en såkaldt binomialfordeling med antalsparameter n og sandsynlighedsparameter π. Vi skal bruge betegnelsen Bin(n, π) for denne fordeling Nulhypotese: H 0 : π = π 0, hvor π 0 er et kendt tal. 9

10 Binomialtest P-værdi for tosidet binomialtest: Hvis y + nπ 0 : 2 x øvre halesandsynlighed for y + i Bin(n, π 0 ) fordelingen. Hvis y + < nπ 0 : 2 x nedre halesandsynlighed for y + i Bin(n, π 0 ) fordelingen. P-værdi for alternativ H a : π > π 0 : øvre halesandsynlighed for y + i Bin(n, π 0 ) fordelingen. P-værdi for alternativ H a : π < π 0 : nedre halesandsynlighed for y + i Bin(n, π 0 ) fordelingen. Eksempel Binomial Distribution: n = 30, π= 0.3 Forsøg med n = 30, hvor vi registrerer y + = 14 successer. Vi vil teste H 0 : π = 0.3 mod H a : π 0.3. Da y + > nπ 0 = 9 skal vi beregne sandsynligheden for øvre hale svarende til summen af højderne af de røde pinde i grafen. Probability Mass Number of Successes 10

11 Eksempel Distributions/Discrete Distributions/Binomial distribution/binomial tail probabilities... Tosidet test: pværdi=2 x 0.04=8% Hvis H a : π > 0.3 bliver p-værdien blot 4%. Hvis H a : π < 0.3 bliver p-værdien den nedre halesansynlighed, dvs =96%. 3.3 Binomialtest i Rcmdr Statistics/Proportions/Single sample proportion test... Vi kigger på datasættet Chile i pakken car. Vi interesserer os for variablen sex, dvs kønsfordelingen i stikprøven, hvor vi undersøger H 0 : π = 0.5. Binomialtestet opnås ved at afmærke Exact binomial. 11

12 Vi opnår en p-værdi på godt 27%, dvs der er ikke signifikant forskel på andelen af mænd og kvinder. Det approksimative test giver en p-værdi på godt 26%. 4 Agresti: Oversigt over test for middelværdi og andel Agresti:Oversigt 12