Signifikanstestet. usædvanlig godt godt

Relaterede dokumenter
Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Konfidensinterval for µ (σ kendt)

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Modul 5: Test for én stikprøve

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Forelæsning 8: Inferens for varianser (kap 9)

Ensidet variansanalyse

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Note til styrkefunktionen

Arealer under grafer

Projekt 4.8. Kerners henfald (Excel)

Helbred og sygefravær

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Hvem kender ÅOP? en empirisk undersøgelse

Trivsel og fravær i folkeskolen

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Læsevejledning til resultater på regionsplan

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

BILAG A SPØRGESKEMA. I denne At-vejledning præsenteres et kort spørgeskema med i alt 44 spørgsmål fordelt på otte skalaer.

Funktionalligninger - løsningsstrategier og opgaver

Module 2: Beskrivende Statistik

En intro til radiologisk statistik

Bilag 1 Referat af alle brugerundersøgelser fra 2014

LUP læsevejledning til regionsrapporter

Privatansatte mænd bliver desuden noget hurtigere chef end kvinderne og forholdsvis flere ender i en chefstilling.

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Vejledende besvarelser til opgaver i kapitel 14

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (

EKSEMPEL PÅ INTERVIEWGUIDE

Forslag til løsning af Opgaver til ligningsløsning (side172)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Statistik II 1. Lektion. Analyse af kontingenstabeller

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.

Socialudvalget L Svar på Spørgsmål 6 Offentligt

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Statistik og Sandsynlighedsregning 2

Skoleudvalget i Fredensborg Kommune har besluttet at ca % lønmidlerne skal fordeles på baggrund af sociale indikatorer

TALTEORI Primfaktoropløsning og divisorer.

Danmarks Radio. 24. mar 2015

Kvantitative Metoder 1 - Forår Dagens program

TALTEORI Wilsons sætning og Euler-Fermats sætning.

Psykisk arbejdsmiljø og stress blandt medlemmerne af FOA

Skolers arbejde med at forberede elever til ungdomsuddannelse

Appendiks 2 Beregneren - progression i de nationale læsetest - Vejledning til brug af beregner af læseudvikling

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Arbejdstempo og stress

Opgave 1 Alle tallene er reelle tal, så opgaven er at finde den mindste talmængde, som resultaterne tilhører.

Secret Sharing. Olav Geil Institut for Matematiske Fag Aalborg Universitet URL: olav.

Variabel- sammenhænge

SENIORKURSUS STATA OG BIOSTATISTIK

Det siger FOAs medlemmer om det psykiske arbejdsmiljø, stress, alenearbejde, mobning og vold. FOA Kampagne og Analyse April 2012

c) For, er, hvorefter. Forklar.

Det Energipolitiske Udvalg (2. samling) EPU alm. del - Bilag 98 Offentligt

Grafteori, Kirsten Rosenkilde, september Grafteori

Etiske principper (og hensyn) for prioriteringer i sundhedsarbejdet

Reelle tal. Symbolbehandlingskompetencen er central gennem arbejdet med hele kapitlet i elevernes arbejde med tal og regneregler.

Afstandsformlerne i Rummet

News & Updates Arbejds- og Ansættelsesret. Vikarer ikke omfattet af brugervirksomheds overenskomst

Hvordan bedømmer du kvaliteten af din skoles undervisning?

Statistikkompendium. Statistik

Det Samfundsvidenskabelige Fakultetet Redegørelse for resultater fra UVM 2010

Sæt ord pa sproget. Indhold. Mål. November 2012

Det er altså muligt at dele lige på to kvalitativt forskellige måder: Deling uden forståelse af helheden Deling med forståelse af helheden

Module 12: Mere om variansanalyse

Elevtrivselsundersøgelsen på Esnord

[Om bortfald af tilsyn eller vilkår om samfundstjeneste] 1. Jeg vil tillade mig at besvare samrådsspørgsmål E som det første.

Konfidensintervaller og Hypotesetest

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

Attraktive arbejdspladser er vejen frem

1. Vision for Sundhedsaftalen

Om hvordan Google ordner websider

1RWDWRP. $QWDOVNnQHRJIOHNVMRE XJHXJH &HQWHUIRU /LJHEHKDQGOLQJDI+DQGLFDSSHGH $XJXVW

Identitet og autenticitet

Rundspørge om tilbagetrækning blandt. De Erfarne Ledere

principper for TILLID i Socialforvaltningen

BRUGERUNDERSØGELSE 2015 PLEJEBOLIG ØRESTAD PLEJECENTER

Kommer der automatisk flere i arbejde, når arbejdsstyrken øges?

Det talte ord på samrådet gælder

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

NOTAT: SAMMENHÆNG MELLEM GÆLD OG FORÆLDRES

Til eleverne på Formatskolen

Individuel lønforhandling

Retningslinjer for bedømmelsen. Georg Mohr-Konkurrencen runde

Arbejdsmiljøgruppens problemløsning

Klare tal om effektiviteten i vandsektoren Partner Martin H. Thelle 22. januar 2014

Vejledning til ledelsestilsyn

Fredagseffekt en analyse af udskrivningstidspunktets betydning for patientens genindlæggelse

2012 Nøglehulsmærket og Nøglehullet på spisesteder. Kommentarrapport med grafik for hovedresultater

BESKÆFTIGELSESMINISTERIET 31. august kontor Sag nr Opgave nr. lml

Afstand fra et punkt til en linje

TALTEORI Wilsons sætning og Euler-Fermats sætning.

Kære Stine Damborg, Lone Langballe og Jens Rohde

Brugertilfredshedsundersøgelse 2014 Hjemmeplejen Del 2 Specifikke Horsens Kommune spørgsmål

Kapitel 5. Alkohol. Det står dog fast, at det er de skadelige virkninger af alkohol, der er et af de største folkesundhedsmæssige. (Grønbæk 2004).

Sorteringsmaskinen. Hej med dig!

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Transkript:

Signifikanstestet Fordeling af rygevaner som 45-årig og senere selvrapporteret helbred som 51-årig blandt tilfældigt udvalgte mænd i Københavns Amt i 1987. helbred som 51 årig rygevaner som 45 årig Total aldrig nej 1-14 15-24 25+ usædvanlig godt godt mindre godt elendigt Total 16 73 6 1 96 16,7% 76% 6,3% 1,0% 100% 15 75 6 96 15,6% 78% 6,3% 100% 13 59 7 1 80 16,3% 74% 8,8% 1,3% 100% 10 81 17 3 111 9,0% 73% 15,3% 2,7% 100% 1 29 3 1 34 2,9% 85% 8,8% 2,9% 100% 55 317 39 6 417 13,2% 76% 9,4% 1,4% 100% Hvordan kan man ved hjælp af tallene i tabellen påvise eller i det mindste understøtte en hypotese om at rygning er en helbredsmæssig risikofaktor? At helbredet forringes, jo mere man ryger? 1

Arbejdsgangen i statistiske signifikanstest 1) Definition af nul-hypotese og alternativ 2) Valg og beregning af teststørrelse 3) Fastlæggelse af kritisk niveau og kritiske værdier for teststørrelsen 4) Beregning af signifikanssandsynligheden (p-værdien) 5) Valg mellem nul-hypotese eller alternativ 2

Nul-hypotese og alternativ Nul-hypotesen (H0) Ingen sammenhæng mellem rygning og helbred Alternativ Rygningen påvirker helbredet Hvilken en af de to påstande kan opfattes som arbejdshypotesen? 3

Valg af teststørrelse Teststørrelse = Et talmæssigt udtryk for tilpasningen mellem nul-hypotesen og data. Teststørrelsen konstrueres som regel således at store værdier er udtryk for stor afstand mellem nul-hypotese og data. 4

χ 2 -testet måler for afstanden mellem hypotese og data 1) Beregning af forventede værdier der svarer fuldstændigt til nul-hypotesen. 2) Residualer =Afstanden mellem observerede og forventede værdier beregnes for hver enkelt celle i tabellen. 3) Den samlede afstand = en vægtet sum af de kvadrerede residualer. nulhypotese Forventede værdier afstand Observeret tabel 5

Beregning af χ 2 -teststørrelsen Tabellen med forventede værdier 1) Tabellen skal indeholde det samme antal personer som den observerede tabel. 2) Fordelingen af disse personer mht. rygevaner og mht. helbred skal være den samme som i den observerede tabel. 3) I følge nul-hypotesen er fordelingen af helbredet den samme for alle rygekategorier. Tabellen med forventede værdier skal derfor have de samme procentvise helbredsfrekvenser, for de forskellige rygevaner og de samme som den marginale fordeling af helbredet. 6

Standardterminologi for tovejstabeller: n ij = antallet af personer i cellen i den i te række og den j te søjle af den observerede tabel. n i = n j = n j ij = det samlede antal personer i den i te række af den observerede tabel. n i ij = det samlede antal personer i den j te søjle af den observerede tabel. n = ij n ij = det samlede antal personer i den observerede tabel. 7

Forventede værdier: e ij = det forventede antallet af personer i cellen i den i te række og den j te søjle. e i = e j = e j ij = det samlede antal personer i den i te række af tabellen med forventede værdier. e i ij = det samlede antal personer i den j te søjle af tabellen med forventede værdier. e = ij e ij = det samlede antal personer i tabellen med forventede værdier. 8

Kravene til de forventede værdier: e i = n i, e j = n j, e = n. e e n = = e n n ij ij j i i hvilket vil sige, at e ij = n n j i n 9

Forventede værdier under nul-hypotesen om, at rygevaner og helbred er uafhængige. rygevaner som 45 årig Total aldrig nej 1-14 15-24 25+ usædvanlig godt godt helbred som 51 årig mindre godt elendigt Total 12,7 73,0 9,0 1,4 96,0 12,7 73,0 9,0 1,4 96,0 10,6 60,8 7,5 1,2 80,0 14,6 84,4 10,4 1,6 111,0 4,5 25,8 3,2,5 34,0 55,0 317,0 39,0 6,0 417,0 10

Residualerne Residualer = observeret forventet res ij = n ij - e ij Residualer for sammenhængen mellem rygevaner og helbred. rygevaner som 45 årig aldrig nej 1-14 15-24 25+ helbred som 51 årig usædvanlig godt godt mindre godt elendigt 3,3,0-3,0 -,4 2,3 2,0-3,0-1,4 2,4-1,8 -,5 -,2-4,6-3,4 6,6 1,4-3,5 3,2 -,2,5 11

Den samlede χ 2 -afstand En vægtet sum af de kvadrerede residualer. Hvert enkelt kvadreret residual tildeles en vægt, der er omvendt proportional med det forventede antal i den celle, som residualværdien er taget fra: (n e ) 2 2 ij ij χ = = eij 16,2 Det største bidrag til denne værdi: tobaksforbrug = 15-24 cigaretter om dagen helbred = mindre godt. Forventet = 10.4. Observeret = 17 χ 2 bidraget = 2 (17 10.4) = 4.19 10.4 Er en χ 2 værdi på 16,2 udtryk for god tilpasning til nul-hypotesen? 12

Kritiske værdier χ 2 -testet er defineret således at værdien 0 er et udtryk for perfekt tilpasning mellem nulhypotese og data Værdiområdet for χ 2 deles op i to dele: a) Små værdier ikke kritiske for nulhypotesen. Hvis test-størrelsen ligger i dette område accepteres hypotesen. b) Store værdier kritiske for nulhypotesen. Hvis test-størrelsen ligger i dette område forkastes hypotesen. Grænseværdien mellem det ikke-kritiske og det kritiske område omtales som den kritiske værdi. 13

Teststørrelsen, T, er en funktion af data og er derfor præget af en vis grad af tilfældighed med sandsynligheder, der kan beregnes. Den kritiske værdi fastlægges, således at der kun er en lille sandsynlighed for at forkaste nul-hypotesen hvis nul-hypotesen er sand α = P(T t kritisk ) = testets niveau α, skal være et lille tal således at der kun er en lille risiko for at forkaste en nulhypotese, hvis den er sand. Tommelfingerreglen Det er almen praksis at sætte α = 0.05. 14

χ 2 -teststørrelsens fordeling Hvad er P(χ 2 16.2)? Hvis nul-hypotesen om uafhængighed for en tabel med r rækker og s søjler er korrekt, vil χ 2 -testet være tilnærmelsesvist fordelt som en χ 2 -fordeling med et antal frihedsgrader, der er lig med (r-1)(s-1). Tilpasningen mellem den eksakte og den approksimative fordeling for χ 2 - teststørrelsen er alt andet lige bedre, jo flere observationer, der er i tabellen. 15

Kritiske værdier Kritiske værdier for χ 2 -testet Kritisk niveau antal frihedsgrader 5 % 1 % 1 3.84 6.64 2 5.99 9.21 3 7.81 11.34 4 9.49 13.28 5 11.07 15.09 6 12.59 16.81 7 14.07 18.48 8 15.51 20.09 9 16.92 21.67 10 18.31 23.21 15 25.00 30.58 20 31.41 37.57 25 37.65 44.31 SPSS kan overtales til at beregne signifikanssandsynligheder for χ 2 -testet ved hjælp af syntaks-filen, PCHI.SPS. 16

Rygevaner og helbred Antallet af frihedsgrader er lig med (5-1)(4-1) = 12, P(χ 2 (12) 16.2) er lig med 0.182. χ 2 -testet er ikke signifikant. Nul-hypotesen om uafhængighed bliver derfor accepteret. Ifølge χ²-testet er der altså ikke statistisk belæg for at påstå at rygevanerne påvirker helbredet. Sammenhængen var ellers tydelig at se i tabellen. Kan vi have begået en fejl? 17

Type I fejl Hvis man forkaster en sand nul-hypotese begår man en type I fejl Konventionelle signifikanstest har derfor en risiko på 5% for type I fejl. Men husk at valget af niveauet for statistiske test er arbitrært. Hvis man derfor vælger at foretage et test på 5% niveau betyder det at man synes man kan leve med en type I risiko på 5 % 18

Type II fejl Signifikansniveauet for testet blev valgt således at der kun var 5 % risiko for at forkaste hypotesen, selvom den var sand (type I risikoen). Risikoen for at acceptere en nul-hypotese, der i virkeligheden er falsk omtales som en type II risiko. Risikoen for en type II risiko kan ikke beregnes, men man kan ofte skelne mellem test med stor type II risiko og teststørrelser med mindre type II risiko. Er χ 2 -testets type II risiko optimal eller kan vi gøre noget bedre? (spørgsmålet besvares senere). 19

Signifikanssandsynligheder Signifikansen vurderes lettest, hvis man beregner sandsynligheden (p-værdien) for at få et testresultat der mindst er lige så kritisk for nul-hypotesen som den observerede testværdi, p = P(T t obs ) En χ²-værdi på 16,2 med 12 frihedsgrader svarer til en p-værdi på 18,2 %. Denne værdi er klart større end 5 %, og vi kan derfor endnu engang konstatere, at χ²-testet ikke er signifikant. χ²-testet accepterer nul-hypotesen om, at der ikke er sammenhæng mellem rygning og helbred. 20

Test-logiske problemer Hvad er relationen mellem den faglige hypotese og den statistiske nul-hypotese? Hvad er logikken i det statistiske tests bevisførelse? Hvad bliver bevist og hvad bliver ikke bevist? Teststørrelsen. Ud fra hvilke principper skal man vælge blandt de mange forskellige teststørrelser, som den teoretiske statistik udbyder? Om brugen af flere forskellige statistiske tests til at afprøve den samme nul-hypotese. Kan man tillade sig at bruge mere end et statistisk test? Hvordan skal signifikanssandsynligheden vurderes og tolkes, og - især - hvad må man ikke lægge i p-værdierne? 21

Signifikanstestets logik Problem 1: Der er et misforhold mellem den fagligt begrundede arbejdshypotese og statistikernes nul-hypotese: Arbejdshypotesen Rygning forringer på langt sigt helbredet. Årsagen til problemet: Tabellen støtter arbejdshypotesen, men der er tale om få personer, og en høj grad af indbygget usikkerhed. Tabellen er derfor ikke i sig selv et bevis for den statistiske sammenhæng mellem rygning og helbred, selvom tendensen bekræfter arbejdshypotesen. 22

Løsningen på problemet: Signifikanstestets argumentation svarer til det, der omtales som et indirekte bevis i matematikken. I stedet for at bevise, at der er sammenhæng mellem rygevaner og helbred, forsøger testet at vise, at det modsatte at der ikke er sammenhæng har nogle usandsynlige konsekvenser. 23

Det indirekte matematiske bevis Et indirekte bevis, er et bevis, hvor man forsøger at vise en matematisk sætning, A, ved at vise, at det fører til umulige konsekvenser at antage at sætningen ikke er korrekt. Det indirekte bevis omfatter tre trin: 1) Antag først, at den såkaldte antitese, at A ikke gælder, er korrekt. Antitesen til A angives som regel som A i betydningen ikke A. 2) Udled en eller flere logiske konsekvenser af A. 3) Afprøv, om der er en eller flere af disse logiske konsekvenser, der er umulige. Hvis en af de nævnte konsekvenser af antitesen, der er umulig (falsk), må antitesen også være falsk. Altså følger det, at sætningen, A. må være sand. 24

Nul-hypotesen og alternativet Da data i sig selv ikke kan bevise, at en arbejdshypotese er korrekt, forsøger man i stedet at gennemføre noget, der svarer til et indirekte bevis med den væsentlige forskel, at ordet umulig erstattes med ordet usandsynlig. Sætningen, som man ønsker at bevise, er, at der er sammenhæng mellem rygevaner og helbred. Antitesen er den statistiske nul-hypotese: Der er ikke sammenhæng mellem rygevaner som 45-årig og helbred som 51- årig. Nul-hypotesen opstilles med den hensigt at forsøge at få den afkræftet på en så overbevisende måde, som overhovedet muligt. 25

Det statistiske signifikanstest og den dertil knyttede signifikanssandsynlighed er et udtryk for en logisk konsekvens af nulhypotesen. Hvis nul-hypotesen er korrekt, kan der lægges nogle grænser som det vil være usandsynligt, at teststørrelsen overskrider. F.eks.: Hvis nul-hypotesen, at rygevaner og helbred er uafhængige, er korrekt, følger det, at der kun er en sandsynlighed på 0.00000209 for at opnå en χ 2 -teststørrelse på 50 eller derover. En teststørrelse af en sådan størrelsesorden er ikke umulig, men den er så usandsynlig, at det har mening at sige, at den er næsten umulig. 26

Desværre var det i stedet den mere beskedne værdi på 16.2, der dukkede op, da χ 2 -testet blev beregnet. Det er derfor ikke lykkedes at påvise, at rygning skulle være helbredsforringende. Er sagen dermed afsluttet? 27

Statistisk evidens Afdækning af indirekte statistisk evidens omfatter tre trin, svarende til trinene i det indirekte matematiske bevis: 1) Antag først at nul-hypotesen, dvs. alternativet til arbejdshypotesen, er korrekt. 2) Beregn en eller flere teststørrelser. 3) Afprøv, om der er en eller flere af værdierne af disse teststørrelser, der er usandsynlige. 28

Årsager til at man skal passe på såkaldt bevisførelse i forbindelse med statistiske analyser: Det er, at ordet umulig, er blevet erstattet af ordet usandsynlig. Testproceduren indebærer altid en vis risiko for fejl. De færreste vil betragte en hændelse, der forekommer med sandsynligheden, 0,05, som en hændelse, der kan kaldes usandsynlig grænsende til det umulige. De konventioner, der foreskriver, at det kritiske niveau for et statistisk test skal være lig med 5 %, understøtter derfor ikke umiddelbart tolkningen af et statistisk test som en procedure, der afslører forekomst af usandsynlige hændelser. 29

Forslaget om, at der beregnes en eller flere teststørrelser, betragtes som kontroversielt pga. sandsynlighedsteoretiske problemer. Der kan ikke fastlægges et entydigt kritisk niveau for en testprocedure omfattende to eller flere statistiske teststørrelser, eller beregnes sandsynligheder, der kan fortælle noget om den samlede grad af usikkerhed for alle teststørrelser. I stedet for at tale om statistiske beviser er det bedre at benytte udtrykket, statistisk evidens, fordi det er et svagere og mindre ambitiøst begreb. 30

Graden af signifikans Forskellige grader af signifikans Signifikans p-værdier Betydning svag 0.01 < p 0.05 Sjælden moderat 0.001 < p 0.01 Usædvanlig stærk p 0.001 Usandsynlig Det er kun stærkt signifikante p-værdier, der kan tolkes som udtryk for, at der er observeret en næsten umulig teststørrelse. Hvis p-værdierne er moderate eller svage, er bevisets stilling tilsvarende svag. 31

Når nul-hypotesen accepteres Konklusion nr. 1: Det har ikke været mulig at påvise en sammenhæng mellem rygevaner og helbred 32

Hvad der skal til for at begrunde følgende noget stærkere konklusion? Konklusion 2: Der er ikke sammenhæng mellem rygevaner og helbred Der skal være tale om klart insignifikante testresultater. Man skal kunne overbevise andre om, at man har gjort alt, hvad der overhovedet kunne gøres for at få forkastet nulhypotesen. Man skal kunne forklare, hvorfor de faglige argumenter, der ligger bag arbejdshypotesen, alligevel ikke er korrekte. Man skal kunne forklare, hvorfor eventuelle tidligere resultater, der understøttede arbejdshypotesen, var forkerte. 33

To naturlige, men alligevel forkerte fortolkninger af p-værdierne. p-værdien er et mål for sandsynligheden for at nul-hypotesen er korrekt. p-værdien er et mål for styrken af sammenhængen mellem to variable. Signifikanssandsynligheden afhænger af to argumenter, sammenhængens styrke og stikprøvens størrelse, p = f(styrke,størrelse) p-værdien kan derfor ikke udelukkende tolkes som et udtryk for det ene af disse argumenter. 34

Den eneste tolkning, der holder p-værdien er et udtryk for om det, der er blevet observeret, er mere eller mindre sandsynligt under de betingelser, som nul-hypotesen definerer. 35

To fejltyper: Statistiske fejlslutninger Fejl af type I forekommer, når man forkaster en rigtig nul-hypotese. Fejl af type II forekommer, når man accepterer en forkert nul-hypotese. Krav til testenes størrelse og styrke er krav der begrænser risikoen for statistiske fejl. Testets størrelse er lig med sandsynligheden for, at der ikke begås en type I fejl, hvis nul-hypotesen er korrekt, Størrelse = P(Nul-hypotesen accepteres Sand nul-hypotese) Styrken er sandsynligheden for, at der ikke bliver begået en type II fejl, hvis nul-hypotesen er forkert, Styrke = P(Nul-hypotesen forkastes Falsk nul-hypotese) 36

Et eller flere statistiske tests for den samme hypotese? Et indirekte bevis vil ofte kræve, at man undersøger flere forskellige konsekvenser af antitesen, før man finder en, der er umulig. Analogien mellem signifikanstestet og det indirekte bevis lægger derfor op til at man beregner flere forskellige statistiske test, og forkaster nul-hypotesen, hvis man finder et stærkt signifikant testresultat. Det multiple testproblem: Hvis man beregner mere end et test er dette ganske besværligt at kontrollere størrelsen af testet. 37

Om brugen af korrelationskoefficienter som teststørrelser Argumentationen bag brugen af korrelationskoefficienter som teststørrelser: a) Hvis de to variable er uafhængige, vil den teoretiske korrelationskoefficient være lig med nul. b) Da statistiske data er behæftet med en vis grad af tilfældig variation, vil den empiriske korrelationskoefficient ikke nødvendigvis være lig med nul. Den kan dog forventes at ligge tæt på denne værdi. c) En empirisk korrelationskoefficient, der ligger relativt langt fra værdien 0, er et udtryk for manglende overensstemmelse mellem nul-hypotesens påstand om uafhængighed, og den korrelation, der er fundet i data. 38

Kritiske områder for korrelationskoefficienter Korrelationskoefficientens værdiområde opdeles i to områder, - et kritisk område med værdier, der ligger langt fra nul, og hvor der kun er en lille sandsynlighed f.eks. 5% - for at komme ud, hvis variablene er uafhængige, - et ikke-kritisk område af værdier tæt på nul, med en stor sandsynlighed for at finde den korrelationskoefficient, hvis hypotesen er sand. K = korrelationskoefficienten κ = en kritisk værdi således at P(K -κ ) + P(K κ) = 0.05 p = P(K -k) + P(K k) -1 -κ 0 +κ +1 39

Konverteringen af gammakoefficienten til en statistisk teststørrelse: Standardfejlen, SE 0 (γ), for γ-koefficienten beregnes under forudsætning af at nul-hypotesen er korrekt. Dvs. under forudsætning af, at γ = 0. Derefter beregnes en standardiseret teststørrelse, Z = γ/se 0 (γ). Da γ er tilnærmelsesvist normalfordelt vil Z tilnærmelsesvis have en standardiseret normalfordeling. Antag at z 0 er den observerede værdi af den standardiserede γ-koefficient. p-værdien kan herefter beregnes som summen af to sandsynligheder fra den standardiserede normalfordeling: p = P(Z - z 0 ) + P(Z + z 0 ) 40

Rygevaner og helbred helbred som 51 årig rygevaner som 45 årig Total aldrig nej 1-14 15-24 25+ usædvanlig godt godt mindre godt elendigt Total 16 73 6 1 96 16,7% 76% 6,3% 1,0% 100% 15 75 6 96 15,6% 78% 6,3% 100% 13 59 7 1 80 16,3% 74% 8,8% 1,3% 100% 10 81 17 3 111 9,0% 73% 15,3% 2,7% 100% 1 29 3 1 34 2,9% 85% 8,8% 2,9% 100% 55 317 39 6 417 13,2% 76% 9,4% 1,4% 100% γ = 0.242. Standardfejl under nul-hypotesen = 0.07334. Z = 3.30. p = P(Z -3.300) + P(Z 3.300) = 0.00098 γ-koefficienten omstøder den konklusion, som χ 2 -testet kom frem til. 41

Ensidede eller tosidede test Retningsbestemte hypoteser Den faglige arbejdshypotese: de, der ryger mest, har det dårligste helbred. Dette bør derfor også være alternativet til den statistiske nul-hypotese. Kritiske områder for ensidede test -1 0 +κ +1 Ensidede p-værdier p = P(Z z 0 ) p ensi det = p tosi det γ-koefficienten for sammenhængen mellem rygevaner og helbred har en ensidet p-værdi er på 0.00049. 2 42