matx.dk Undersøgelsesdesign Statistik Dennis Pipenbring 7. april 2011
Indhold 1 Undersøgelsesdesign 5 1.1 Kausalitet............................. 5 1.2 Validitet og bias......................... 6 1.3 Reliabilitet og konfundering.................... 8 1.4 Population og stikprøve...................... 10 1.5 Kvantitativ og kvalitativ..................... 10 2 Stokastiske variable 11 2.1 Skalatyper............................ 12 3 Sandsynlighed 13 3.1 Repræsentativitet......................... 14 3.2 Binomial-test........................... 17 3.3 Konklusion............................ 20 4 Middelværdi og spredning 21 4.1 Summationsnotation....................... 22 4.2 De fire regneregler........................ 25 4.3 Varians og spredning....................... 28 5 T-test 31 5.1 Normalfordeling.......................... 31 5.2 T-testen............................. 32 6 Krydstabeller 34 7 χ 2 -test 36 7.1 χ 2 -fordelingen........................... 37 7.2 Frihedsgrader........................... 38 7.3 Sammenligningstest........................ 39 7.4 Uafhængighedstest........................ 40 2
8 Funktionssammenhæng 44 8.1 Regression............................ 44 9 Tabeller 47 Tabeller 1 t-værdi tabel........................... 47 2 χ 2 -tabel.............................. 48 3
Forord Materiale gennemgår følgende områder. undersøgelsesdesign population og stikprøve 0-hypotese og alternativ hypotese krydstabeller og deres opbygning samt læsning af krydstabeller uafhængighedstest (Test for Independence) og sammenligningstest (goodness of fit) frihedsgrader repræsentativitet bias og validitet konfundering og reliabilitet sandsynlighedsfordelinger (normal-, binominal-, χ 2 -fordelingen signifikansniveau, kritisk værdi og signifikant forskel samlet teststørrelse samt udregne de enkelte bidrag hertil p-værdier Opgaver omhandler alle samme situation og et passende udvalg af opgaver vil samlet udgøre en rapport. Opgaverne kan erstattes af en anden undersøgelse som andre fag f.eks. biologi eller samfundsfag finder mere relevant. 4
1 Undersøgelsesdesign Inden en undersøgelse kan påbegyndes, skal en række elementer overvejes. Kausalitet betyder sammenhæng mellem to begivenheder. Validitet betyder at måle det rigtige. Reliabilitet betyder at måle rigtigt. Bias betyder at det rigtige ikke måles. Konfundering betyder at der ikke måles rigtigt. Population dem undersøgelsen gerne vil sige noget om. Stikprøve dem undersøgelsen siger noget om. Repræsentativitet betyder at stikprøven siger noget om populationen. 1.1 Kausalitet En af de vigtigste regler for opstilling af hypoteser er begrebet kausalitet. Kausalitet betyder årsagssammenhæng mellem det man undersøger. Men skal være i stand til at argumenterer for, at der er en sammenhæng mellem de ting man undersøger. Eksempel 1.1 Det er et problem, at mange unge ryger, på flere niveauer. Det er et problem for den unge fordi det betyder at levetiden bliver afkortet med ca. 10 år og de sidste år af levetiden er forbundet med mange smerter og ubehag. Det er et problem for den unges omgivelser fordi rygning skader også den unges børn og andre som den unge omgås. Det er et problem for samfundet fordi det koster meget at behandle og understøtte den unge når denne bliver syg og uarbejdsdygtig. For at kunne gøre noget ved disse problemer, er det interessant at undersøge hvorfor unge ryger. Det først umiddelbare svar på spørgsmålet om hvorfor unge ryger, er at det skyldes sociale faktorer. 5
Sociale faktorer Unge ryger Selve undersøgelse skal rettes mod unge, der lige er begyndt at ryge. Fordi de stadigvæk kan huske hvad der fik dem til at begynde, og fordi årsagerne kan være tidstypiske. En person som begynde at ryge for 40 år siden, vil givet have haft andre overvejelser i forbindelse med første gang han eller hun begyndte at ryge. Opgave 1.2 En medicinalvirksomhed ønsker at hjælpe fattige i kampen mod HIV, vil at afprøve deres nye produkt. Produktet er fremstillet til at blive anvendt af kvinder. Undersøgelsen skal foretages i Sydafrika. Overvej... 1. hvilke faktorer som medfører, at kvinder udsættes for HIV-virus. 2. om der skal tages specielle hensyn i udvælgelsen af målgruppe for undersøgelsen. 1.2 Validitet og bias Når data indsamles, skal det rigtige måles. At sikre dette gøres på forskellige måder alt efter hvordan data indsamles. Men det er vigtigt at være helt sikker på hvad man ønsker at måle inden undersøgelsen påbegyndes. Eksempel 1.3 I undersøgelsen "Hvorfor ryger unge?"undersøges hvorfor unge begynder at ryge. Fordi rygning skaber afhængighed, så de der ryger gør det fordi, de er begyndt. Årsagen til at en ryger ryger, er ganske simpelt at de er afhængige. Dette kan ikke være årsagen til at de begyndte. Nu er det helt klar hvad undersøgelsens målsætning er, det er det første trin i at sikre validiteten. Som eksempel på manglende validitet, ses her grafen for et forsøg hvor det ikke er det rigtige der er blevet målt, men metoden til at måle med er god nok. Det kunne f.eks. være en afvejning af salt, hvor der ikke blev taget højde for papiret som saltet var på mens det blev vejet. Vægten fungere fint, og det er en god 6
metode til at bestemme massefylden af salt. Men det der blev målt var bare ikke salt men salt+papir. Målepunkterne ligger tilnærmelsesvis på en ret linie, men de ligger ikke på den rette linie som der i følge teorien eller hypotesen er den rigtige. Derfor kan det være, at det ikke er det rigtige, som er blevet målt. Validiteten er lav. Der er bias i undersøgelsen. 1 4 3 2 1 y målepunkter teori/hypotese 1 2 3 4 x Spørgsmålet om validitet, handler om at stille spørgsmålet: "Er det rigtige blevet mål?". I alle tilfælde er det vigtigt, at den stikprøve som data repræsentere er udtaget på den rigtige måde. Ellers vil der være bias i data. Undersøges holdningen til hvornår der er acceptabelt at slå børn som et led i deres opdragelse, vil det skævvride (bios) undersøgelsen, hvis undersøgelsen kun undersøgte personer som selv var blevet slået som et led i deres opdragelse. Undersøges virkningen af en behandling, er det bedst at lave dobbelt blind forsøg. Det betyder at hverken patient eller behandler må vide om behandlingen er virkningsfuld eller ej. På denne måde sikres at det kun er behandlingen, som er forskellen. Det er ikke altid muligt at lave dobbelt blind forsøg, ofte vil det kun være patienten der er uvidende om behandlingen er virkningsfuld eller ej. Ved at lave dobbelt-blind-test sikre man at validiteten er høj, fordi der kun måles på virkningen af behandling. Indsamles data via et spørgeskema er det vigtigt, at spørgsmålene bliver forstået af alle respondenterne. Det er derfor vigtigt, at bruge enkle spørgsmål, og at 7
tænke over rækkefølgen på spørgsmålene. Samt undgå abstrakte begreber og slang. Opgave 1.4 Hvordan skal medicinalfirmaet undersøge virkningen af deres medikament for at data er validt? Hvilken information skal testpersonerne modtage? Overvej hvilke etiske problemstillinger som der er i forbindelse med undersøgelsen. 1.3 Reliabilitet og konfundering Reliabilitet handler om at måle rigtigt. Det handler særligt om at bruge den rigtige metode til at måle med. Eksempel 1.5 Ved undersøgelse af sammenhængen mellem to begivenheder, f.eks. socialefaktorer og den første cigaret. Vil der være nogle variable som der ikke er taget hensyn til. Socialefaktorer Den første cigaret Konfunderingsvariable Det er meget vigtigt for undersøgelsen at afdække hvad konfunderingsvariablene er for nogle for at konklusionen bliver sikker. Problemet kommer når der skal gøres en indsats for at få unge til ikke at begynde at ryge. Så kan indsatsen ramme helt forbi, og undersøgelsen er derfor mislykket. En konfunderingsvariabel kunne være køn, da der kan være forskellige årsager til at drenge og piger begynder at ryge. Der er givet vis flere. Der er derfor vigtigt at have køn med i undersøgelsen som en varibel. Pilotprojekter er væsentlige for at finde ud af om spørgeskemaer og interviewguides er gode nok. Det afslører fejl, tvetydigheder og manglende logik. 8
y Målepunkterne ligger med en stor spredning på en ret linie, men de ligger omkring den rette linie som i følge teorien eller hypotesen er den rigtige. Derfor kan det være, at det ikke er blevet målt rigtigt. Reliabiliteten er lav. Der er konfundering i undersøgelsen. 1 4 3 2 1 1 2 3 4 målepunkter teori/hypotese x Opgave 1.6 Overvej hvilke konfunderingsvariable, som skal med i medicinalfirmaets undersøgelse. Målepunkterne ligger med en stor spredning på en ret linie, og de ligger ikke omkring den rette linie som i følge teorien eller hypotesen er den rigtige. Derfor kan det være, at der hverken er blevet målt rigtigt eller målt det rigtige. Både validiteten og reliabiliteten er lav. Der er konfundering og bias i undersøgelsen. Det er derfor ikke muligt at udtale sige om der er en sammenhæng mellem x og y. 1 4 3 2 1 y målepunkter teori/hypotese 1 2 3 4 x 9
1.4 Population og stikprøve En stikprøve udtages fordi det vil være for dyrt at undersøge hele populationen. Det svære er hvem eller hvordan stikprøven skal udtages. Udtagelsen af stikprøven kan være mere eller mindre tilfældig. Den helt tilfældige undersøgelse, udtager et helt tilfældigt et givet antal cpr-numre f.eks. 1.000 cprnumre, og det er så disse personer som er stikprøven for hele populationen. Udtagelsen kan stratificeres ved f.eks. kun at udtage personer med en given alder f.eks. 16-66-årige. Stratificering er vigtigt fordi næsten alle undersøgelser har en bestemt population de ønsker at udtale sig om. Eksempel 1.7 For at undersøgelsen kan sige noget om hvorfor unge begynder at ryge, er det vigtigt at stikprøven indeholder både personer som er begyndt at ryge og personer som ikke er begyndt at ryge. Fordi det er disse to grupper som undersøgelsen ønsker at sammenligne. Stikprøven skal derfor helst indeholde lige mange personer fra de to grupper, også selvom der i populationen ikke er tale om en ligelig fordeling af rygere og ikke-rygere. Opgave 1.8 Overvej hvilken population undersøgelsen af medikamentet har. Og derfor hvordan stikprøven skal stratificeres. 1.5 Kvantitativ og kvalitativ Data kan være enten, kvalitative eller kvantitative. De kvantitative data er afmålte date, data som kan konverteres til tal. De kvalitative data er ikke afmålte data, f.eks. hårfarven er rød, der der siges ikke noget om hvor rød. Ofte starter man med at indsamle kvalitative data, fordi det kan give en idé om hvilke data der er væsentlige for det område man vil undersøge. På de kvalitative data kan der laves en statistisk bearbejdning, for at teste de teorier / hypoteser man har. Eksempel 1.9 I undersøgelsen "Hvorfor ryger unge"undersøges hvorfor unge begynder at ryge, er det første man bør gøre at snakke med nogle unge som ryger og spørger hvorfor de ryger. Man vil få en række forskellige svar. En siger 10
Jeg ryger fordi min bedste veninde også ryger og så hygger vi os sammen. En anden siger Jeg ryger, fordi det smager godt. En trejde sider Fordi det er sejt. Det interessante er at der næsten aldrig er nogen, som svarer Jeg ryger, fordi jeg er opvokset i en familie med 2 til 3 søskende og med en indkomst mellem 200.000 og 300.000 i index regulerede kroner, efter Danmarks statistiks udregnede forbrugerprisindex. Og fordi jeg har en kort uddannelse og er blevet skilt og bor alene med mine to børn på 2 og 5 år. Og fordi der i min familie har været en tendens til aggressiv opførsel efter WHO ICD-10 s definition. Og fordi jeg på nuværende tidspunkt er blevet afhængig og ikke har overskuddet eller mulighederne til at komme ud af mit misbrug. Selvom jeg er klar over de konsekvenser passiv rygning har for mine børn. Dette vil man aldrig få som svar, fordi mennesker i al almindelighed, ikke er så reflekterede over årsagerne til deres handlinger. Men skal altså selv lave sine hypoteser. Opgave 1.10 Opstil nogle hypoteser om virkningen af medikamentet mod HIV/ AIDS som medicinalfirmaet ønsker at afprøve. 2 Stokastiske variable En stokastisk variabel er en funktion, der, til et givet udfald eller hændelse, giver et tal i betydningen et mål. Men i ordret ligger også et element af tilfældighed, man kan altså ikke på forhånd vide, hvad udfaldet bliver. Der er altså tale om tilfældighed. Idéen man statistik er at undersøge om de udfald som kommer er tilfældige eller om der er en bagvedliggende årsag. 11
2.1 Skalatyper Skalatype Ratio Ordinal Nominal Dikotom Beskrivelse Kategorierne kan rangordnes, og afstanden mellem kategorierne er lige stor på hele skalaen f.eks. alder, højde. Nogle gange indeles kategorierne i intervaller f.eks. Alder 0-10 år, 11-20 år, osv. Kategorierne kan rangordnes, men afstanden mellem kategorierne er ikke lige stor på hele skalaen f.eks. uddannelsesniveau. Kategorierne kan ikke rangordnes f.eks. kommune, land. Der er to kategorier f.eks. køn. En spørgeskemaundersøgelse der har til formål at klarlægge hvorfor unge begynder at ryge er der udformet følgende spørgsmål. 1. Køn Kvinde 1 Mand 2 2. Alder i år År 3. Hvilken type bolig bor du i? Lejelejlighed 1 Andelslejlighed 2 Ejerlejlighed 3 Lejer hus 4 Ejer hus 5 12
4. Hvad er det højest niveau af uddannelse du har afsluttet? 6. klasse 1 7. klasse 2 8. klasse 3 9. klasse 4 10. klasse 5 Ungdomsuddannelse 6 Højere 7 5. Ryger du? Ja 1 Nej 0 6. Har du røget? Ja 1 Nej 0 Opgave 2.1 Inddel spørgsmålene fra undersøgelse i skalatyper. Opgave 2.2 Lav nogle spørgsmål som skal hjælpe medicinalvirksomheden til at udvælge forsøgspersonerne. 3 Sandsynlighed Udover at den stokastiske variabel knytter et tal til hver udfald, høre der en sandsynlighed til hvert udfald. Denne sandsynlighed kan beregnes udfra den forventede hyppighed af udfaldene. Er der tale om et eksperiment f.eks. kast med en lige 6-sidet terning, antages det at alle udfaldene har samme sandsynlighed. Sandsynligheden for at udfaldet bliver f.eks. 1 er derfor 1 6. Er der tale om et spørgsmål til en større gruppe af mennesker, f.eks. Hvad er dit 13
køn? Kan fordelingen undersøges og herved kan sandsynligheden beregnes. 3.1 Repræsentativitet I kvantitative undersøgelser, hvor der tages stikprøver, er det vigtigt, for at opnå den bedst mulige sandhed, at stikprøven er repræsentativ i forhold til den populationen hypotese gælder for. Repræsentativ betyder, at den stikprøve der udtages skal gælde for hele populationen. De personer, der indsamles data fra, taler ikke blot tale for sig selv, men for hele populationen. Fordi alle ikke undersøges, skal dem der spørges tale på vegne af andre. Hver person repræsenterer altså også andre personer i populationen. Eksempel 3.1 I undersøgelsen "Hvorfor ryger unge?"vælger hver person ikke kun årsagerne til at han eller hun begyndte at ryge, men også på vegne af andre. I en stikprøve med 500 personer vil hver person i gennemsnit repræsentere Antal personer i populationen 500 andre personer. Hvis der er 500.000 personer i populationen så vil hver respondent - person der indgår i stikprøven - tale for 5.000 personer. Derfor skal udvælgelsen af respondenterne sikre, at de bedst muligt repræsenterer populationen. Spørgsmålet om repræsentativitet er afgørende, hvis svarene fra stikprøven skal gøre det ud for hele populationen. Der er to måder at opnå repræsentativitet på: statistisk repræsentativitet og strategisk repræsentativitet. Den statistiske udvælgelse sikrer repræsentativitet, når der skal udvælges flere respondenter, og når kendskabet til respondenterne er begrænset. Respondenterne udvælges tilfældigt ud fra et princip om, at netop tilfældigheden sikrer, at alle i populationen bliver repræsenteret, når blot stikprøven er tilstrækkeligt stor. Det er en betingelse at alle i populationen har lige stor chance for at blive trukket ud. Statistisk repræsentative stikprøvers størrelse afgøres af to forhold: 1. Det ønskede signifikansniveau 2. Antallet af opdelinger af stikprøven 14
Eksempel 3.2 I undersøgelsen "Hvorfor ryger unge?"opdeles stikprøven i rygere med ikke-rygere. Vi opdeler altså vores stikprøve i to grupper. Strategisk udvælgelse bygger på overvejelser ved udvælgelsen af respondenterne. F.eks. kan der udtages to lige store grupper som hver repræsentere to politiske partier, det kan bruges til at sammenligne holdninger hos de to partiers støtter. I dette tilfælde vil det politiske tilhørsforhold være kendt. Er data indsamlet ved brug af et spørgeskemaer skal der være en høj svarprocent (over 60 %), ellers vil den stikprøve man har lavet ikke længere være repræsentativ. Fordi da er den statistiske udvælgelse ikke længer strategisk fordi der kan være et mønster i dem, som ikke svarer. Kendes fordelingen i populationen kan det afgøres om stikprøve er en god repræsentation af populationen. En stikprøve siges at være en god repræsentation af populationen hvis fordelingen er den samme i stikprøven som i populationen. Lad nu den stokastiske variabel X være kønnet på en tilfældig gymnasieelev på dit gymnasium. Eksperimentet består nu at vælge én tilfældig elev blandt eleverne på dit gymnasium. Udføres dette eksperiment fås en observation af X. Denne observation betegnes x og antager værdien 0 eller 1, alt efter om der er tale om en dreng/mand (0) eller pige/kvinde (1). Ved hjælp af den stokastiske variabel kan man afgøre hvad sandsynligheden er for udfaldet, altså om der trækkes en dreng/mand eller pige/kvinde. Der kan f.eks. spørges: Hvad er sandsynligheden for at den tilfældigt udvalgte elev er en pige? Med matematiske symboler vil det betegnes P }{{} Sandsynligheden for at ( X }{{} kønnet = }{{} er 1 }{{} en pige ) = }{{} er Hvis der er 387 elever på gymnasiet på det tidspunkt hvor eleven blev udtrykket og af dem var 243 piger, kan spørgsmålet besvares med følgende udregning.? Antallet af piger på gymnasiet P(X = 1) = Antal elever på gymnasiet = 243 387 = 0,6279 15
Sandsynligheden for at den tilfældigt udvalgte elev er en pige er derfor 63%. Hvis der udtages en stikprøve af elever på gymnasiet skal 63% af eleverne i stikprøven være piger for at stikprøven kan siges at være repræsentativ (med hensyn til køn). På gymnasiet hvor man ønsker at undersøge hvorfor unge begynder at ryge ser fordelingen af drenge og piger i en stikprøve således ud. Køn Antal Piger 26 Drenge 14 Total 40 For at kunne sammenligne disse tal med alle elever på hele gymnasiet omregnes til procent. Dette gøres ved at dividerer antallet i den enkelte kategori med det totale antal. Køn Antal Procent Piger 26 65% Drenge 14 35% Total 40 100% For at kunne afgøre hvor sandsynligt det er at udtrække en stikprøve med netop denne fordeling, laves en statistisk test. Den test der skal udføres er om 0-hypotesen, H 0, som siger at: "Den procentvise forskel på antallet af piger i hhv. populationen (62,79%) og stikprøven (65%) skyldes tilfældighed."mod alternativ hypotesen H 1, som siger at: "Den procentvise forskel på antallet af piger i hhv. populationen (62,79%) og stikprøven (65%) skyldes ikke tilfældighed." Kun hvis stikprøven er i væsentligt afvigende overfor populationen antages den ikke at være tilfældig. For at kunne lave en statistisk test skal der vælges et signifikansniveau α. Er test-sandsynligheden mindre end α, betyder det at 0-hypotesen forkastes og at alternativ-hypotesen accepteres. Samtidig vil α være sandsynligheden for at for- 16
kaste en korrekt 0-hypotese, altså laven en fejl. Definition 3.3 Fejl af type I Forkastning af korrekt 0-hypotese. Ved en signifikanstest med fast niveau α f.eks. 5% er sandsynligheden for en type I fejl netop α. I dette tilfælde laves en binomial-test fordi variablen køn er dikotom. 3.2 Binomial-test Binomial-testen hænger sammen med binomial-fordelingen, som er en fordeling af sandsynlighederne for at en hændelse indtræffer et bestemt antal gange. Sandsynligheden for at en hændelse indtræffer r gange er antallet af mulige måder hændelse kan indtræffe på gange sandsynligheden for at det sker en gang. Den matematiske formel for sandsynligheden, P, for at hændelsen, H, med sandsynlighed, p, indtræffer r ud af n gange er P(H = r) = n! r! (n r)! pr (1 p) n r Sandsynligheden for at udtrække 26 (r) piger (p=0,6279) ud af 40 (n) er P(H = 26) = 40! 26! (40 26)! 0,627926 (1 0,6279) 40 26 0,126 Der er altså en sandsynlighed på 12,6% for at det blev netop 26 ud af 40 som var piger. Men dette er ikke nok til at afgøre om denne stikprøve er sandsynlig. Hele fordelingen skal tages i betragtning. Sandsynligheden for at 0 til 40 var piger skal udregnes. Dette er bedst at vise i en graf. 17
P(H = r) 0,15 0,10 0,05 0 5 10 15 20 25 30 35 r Antallet af piger i stikprøven Mulige alternativ hypoteser. Alternativ hypotese Formel til udregning af test-sandsynlighed Andelen af piger er større i stikprøven (r) end i populationen. Andelen af piger er mindre i stikprøven (r) end i populationen. p 1 = p 2 = n i=r r i=0 n! i! (n i)! n! i! (n i)! pi (1 p) n i pi (1 p) n i Er der valgt et 5% signifikansniveau skal de kritiske værdier findes ud fra det valgte signifikansniveau. De kritiske værdier er, de antal af piger som netop kan være i stikprøven for at 0-hypotesen accepteres. 18
Test-sandsynlighed 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 % α (5%) 0 5 10 15 20 25 30 35 Antallet af piger i stikprøven r Af grafen ses det at de kritiske værdier er 20 og 30, det betyder at der skal være mellem 20 og 30 piger i stikprøven for at den kan accepteres. Ved et signifikansniveau på 5%. Er der valgt et 10% signifikansniveau skal de kritiske værdier findes ud fra det valgte signifikansniveau. De kritiske værdier er, de antal af piger som netop kan være i stikprøven for at 0-hypotesen accepteres. % Test-sandsynlighed 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 α (10%) 0 5 10 15 20 25 30 35 Antallet af piger i stikprøven Af grafen ses det at de kritiske værdier er 19 og 29, det betyder at der skal være mellem 19 og 29 piger i stikprøven for at den kan accepteres. Ved et signifikansniveau på 10%. Bemærk at 0-hypotesen forkastes nemmere jo højere signifikansniveauet α er. 19 r
Dette stemmer godt overens med at α netop var sandsynligheden for at forkaste en rigtig 0-hypotese. Opgave 3.4 Befolkningen i Sydafrika er på 47,8 mio. indbyggere hvor af 18% har HIV/AIDS. 14% af kvinderne i alderen 15-49 år har HIV/AIDS og 4% af mændene i alderen 15-49 år har HIV/AIDS.[4] Test om følgende stikprøven kan siges at være signifikant på 5%-niveau. Gruppe Antal Kvinder i alderen 15-49 år med HIV/AIDS 15 Kvinder i alderen 15-49 år uden HIV/AIDS 55 Total 70 Definition 3.5 Fejl af type II Accept af forkert 0-hypotese. Sandsynligheden for at begå en type II fejl er 1 minus testens styrke. 3.3 Konklusion Hele ideen man statistik er, at blive i stand til at afgører om den forskel man ser mellem to målinger er signifikant. Vi har altså i den deskriptive statistik fundet metoder til at overskue store datamængder. Disse metoder viser dog ikke noget om disse forskelle skyldes tilfældighed eller om der er en årsag bag forskellene. Dette ledere frem til det centrale dogme i statistik. Det at forkaste 0-hypotesen ved en statistisk signifikansprøve betyder at man mener at forskellen mellem to grupper af individer eller to målinger er så stor at den ikke kan bero på ren tilfældighed. 0-hypotesen er den hypotese, at der ikke er forskel på de to grupper af individer eller de to målinger. Statistike signifikansprøver er en beregning af sandsynligheden for at forkaste en rigtig hypotese hhv. acceptere en forkert hypotese. Her vi vi komme ind for flere 20
signifikansprøver. Signifikansprøven er afhængig af datatypen. Forskellen mellem to grupper af individer eller to målinger kan være mange forskellige variable. F.eks. kan det være højden på mænd og kvinder. De to grupper er så mænd og kvinder og variablen er højden. Det kan også være holdning der er variablen og grupperne kan være de politiske partier. Grupperne kan også være radioaktive materialer og variablen kan være henfaldstiden...så stor.. Hvornår forskellen er stor nok, afhænger af signifikansniveauet (hvor mange fejl man vil acceptere), mængden af data (stikprøven) og hvor stor forskellen er. Ren tilfældighed vil sige, at der kun er tale om tilfældighed og ikke en underliggende årsag. 4 Middelværdi og spredning Middelværdien µ af et datasæt (eller en stokastisk variabel X) er summen af værdierne divideret med antallet af værdierne. n µ(x) = i P(X = i) i=1 Eksempel 4.1 Ved kast med en terning kom følgende udfald. Middelværdien µ bliver så Øjne 1 2 3 4 5 6 Total Antal 4 6 5 3 6 5 29 µ = 1 4 29 +2 6 29 +3 5 29 +4 3 29 +5 6 29 +6 5 29 = 103 29 3,55 For at kunne være præcis i bevisførelsen i dette emne er det væsentligt at have kendskab til summationsnotation, derfor starter vi med et lille afsnit om det. 21
4.1 Summationsnotation Fordi man ikke vil skrive f.eks. kan man i stedet skrive 1+2+3+4+5+6+7+8+9+10+11 11 n=1 Der startes med selve tegnet dette er det græske bogstav for S og er det første bogstav i sum, som betyder at lægge samme. Man skal altså et eller andet med at lægge sammen, men hvad er det man skal lægge sammen. Vi går videre til n = 1 og 11 dette betyder at vi skal startet med n = 1 og derefter n = 2 og derefter n = 3 osv. til vi kommer til n = 11. Lad os prøve først sætter vi n = 1 dvs. så sætter vi n = 2 dvs. så sætter vi n = 3 dvs. så sætter vi n = 4 dvs. 11 n=1 11 n=1 11 n=1 11 n=1 11 n=1 n n n = 1+ n = 1+2+ n = 1+2+3+ n = 1+2+3+4+ på denne måde forsætter vi til i = 11 dvs. 11 n=1 i = 1+2+3+4+5+6+7+8+9+10+11 22
hvilket er resultatet. Lad os prøve med et anden eksempel 7 1 n = 1 1 + 1 2 + 1 3 + 1 4 + 1 5 + 1 6 + 1 7 og endnu et n=1 8 x n = x 1 +x 2 +x 3 +x 4 +x 5 +x 6 +x 7 +x 8 n=1 og et sidste 5 (2n 1) = (2 0 1)+(2 1 1)+(2 2 1)+(2 3 1)+(2 4 1)+(2 5 1) n=0 Eksempel 4.2 Udvid følgende sum Svar: 4 n=1 Opgave 4.3 Udvid følgende sum Opgave 4.4 Udvid følgende sum Opgave 4.5 Udvid følgende sum 4 n=1 3 1 = 3 1 +3 2 +3 3 +3 4 5 n=1 1 n+3 6 (n 1) n=2 8 n=3 n n+1 23
For rigtigt at kunne udnytte denne summationsnotation skal vi indføre en lille ekstra ting i summationsnotationen, og det er følgende n i=1 Nu står der ikke længere et tal for oven men n, og det betyder at man skal forsætte til man kommer til n. Eksempel 4.6 n i = 1+2+3+4+ +(n 1)+n i=1 dette giver faktisk et resultat nemlig n(n+1) 2 prøv selv! Hvis f.eks. vi sætter n = 7 så vil summationen bliver 7 i = 1+2+3+4+5+6+7 = 28 i=1 og n(n+1) = 7(7+1) 2 2 Dette er naturligvis ikke noget bevis. Eksempel 4.7 Udvid følgende sum n Svar: n i=3 Opgave 4.8 Udvid følgende sum i=3 = 7 8 2 i i+1 = 56 2 = 28 i i+1 = 3 3+1 + 4 4+1 + 5 5+1 + + n n+1 n (i 1) i=2 24
Opgave 4.9 Udvid følgende sum n i=3 i i+1 4.2 De fire regneregler Vi starter med en præcis definition på middelværdien for den stokastisk variabel X. Definition 4.10 Middelværdien, µ, for den stokastiske variabel X er summen af produkterne af værdierne for X og deres sandsynligheder. n µ X = E(X) = x i p i hvor x i er værdierne for X og p i = P(X = x i ) deres sandsynligheder. i=1 Sætning 4.11 Hvis X og Y er stokastiske variable og a R er en konstant, gælder der følgende 4 regneregler: 1. E(a) = a 2. E(a X) = a E(X) 3. E(X +Y) = E(X)+E(Y) 4. E(X +a) = E(X)+a Bevis. Lad u 1,u 2,u 3,...,u n være de n udfald som de stokastiske variable er defineret ud fra. Og lad p 1,p 2,p 3,...,p n være sandsynlighederne for de n udfald. Husk på at sandsynlighederne tilsammen skal give 1. Dvs. n p i = 1 i=1 Og lad x 1,x 2,x 3,...,x n være værdierne for den stokastisk variabel X og lad y 1,y 2,y 3,...,y n være værdierne for den stokastisk variabel Y. Alle disse tal kan 25
opstilles i følgende tabel: u u 1 u 2 u 3 u n P(u) p 1 p 2 p 3 p n X(u) x 1 x 2 x 3 x n Y(u) y 1 y 2 y 3 y n Havde der været tale om kast med mønt ville tabellen se således ud: u plat krone P(u) 0,50 0,50 X(u) 1 2 Y(u) 0 1 Vi kan nu udregne middelværdien for den stokastiske variabel X i det den er summen af produkterne af værdier for X og deres sandsynlighed dvs. n µ X = E(X) = p 1 x 1 +p 2 x 2 +p 3 x 3 + +p n x n = p i x i og tilsvarende for den stokastisk variabel Y µ Y = E(Y) = p 1 y 1 +p 2 y 2 +p 3 y 3 + +p n y n = i=1 n p i y i i=1 Nu vises at E(a) = a E(a) = a p 1 +a p 2 +a p 3 + +a p n Ifølge definitionen af E(a). a sættes udenfor parantes. = a (p 1 +p 2 +p 3 + +p n ) = a 1 Idet n i=1 p i = 1. Nu vises at E(a X) = a E(X) 26
E(a X) = a p 1 x 1 +a p 2 x 2 + +a p n x n Ifølge definitionen af E(a+X). = a (p 1 x 1 +p 2 x 2 + +p n x n ) = a E(X) Nu vises at E(X +Y) = E(X)+E(Y) a sættes udenfor parantes. Ifølge definitionen af E(X). E(X +Y) = n i=1 (x i+y i ) p i Ifølge definitionen af E(X +Y). = n i=1 (x i p i +y i p i ) p i ganges ind i parentesen. = n i=1 (x i p i )+ n i=1 (y i p i ) Summationen deles op. Ifølge definitionen af = E(X)+E(Y) E(X) og E(Y). Nu vises at E(X +a) = E(X)+a E(X +a) = n i=1 (x i+a) p i Ifølge definitionen af E(X +a). = n i=1 (x i p i +a p i ) p i ganges ind i parentesen. = n i=1 (x i p i )+ n i=1 (a p i) Summationen deles op. = n i=1 (x i p i )+a n i=1 p i = E(X)+a 1 a sættes udenfor parantes. Ifølge definitionen på E(X) og idet n i=1 p i = 1. Q.E.D. 27
4.3 Varians og spredning Vi starter med en præcis definition på varians og spredning for den stokastisk variabel X. Definition 4.12 Variansen af den stokastiske variabel, X, er defineret som n Var(X) = E((X µ) 2 ) = (x i µ) 2 p i hvor µ er middelværdien for den stokastiske variabel, X, og x i er værdierne for den stokastiske variabel, X, og p i = P(X = x i ). i=1 Definition 4.13 Spredningen af den stokastiske variabel, X, er defineret som σ(x) = Var(X) Sætning 4.14 Variansen for den stokastiske variabel X kan udregnes som Var(X) = E(X 2 ) E(X) 2 Bevis. Var(X) = E((X µ) 2 ) Ifølge definitionen 4.12. = E(X 2 +µ 2 2 µ X) Parentesen udregnes. = E(X 2 )+E(µ 2 )+E( 2 µ X) If. 3. regel i sæt. 4.11. = E(X 2 )+E(µ 2 ) 2 µ E(X) If. 2. regel i sæt. 4.11. = E(X 2 )+µ 2 2 µ E(X) If. 1. regel i sæt. 4.11. = E(X 2 )+µ 2 2 µ µ Da µ = E(X). = E(X 2 )+µ 2 2 µ 2 = E(X 2 ) µ 2 = E(X 2 ) E(X) 2 Da µ = E(X). Q.E.D. Man kan med fordel bruge 4.14 når man skal beregne middelværdi og spredning 28
for en stokastisk variabel. Eksempel 4.15 Beregn middelværdi og spredning for den stokastisk variabel X. t 1 2 3 4 5 P(X = t) 0,15 0,32 0,23 0,26 0,04 Middelværdien beregnes ved at tage summen af produkterne af værdierne for X og deres sandsynligheder. µ = E(X) = 1 0,15+2 0,32+3 0,23+4 0,26+5 0,04 = 2,72 Variansen beregnes så ved at finde middelværdien af den stokastisk variabel X 2 dvs. t 1 2 3 4 5 P(X = t) 0,15 0,32 0,23 0,26 0,04 X 2 1 4 9 16 15 E(X 2 ) = 1 0,15+4 0,32+9 0,23+16 0,26+25 0,04 = 8,66 Nu kan variansen findes ved at bruge sætning 4.14. Var(X) = E(X 2 ) E(X) 2 = 8,66 2,72 2 = 1,2616 og spredningen bliver σ(x) = Var(X) = 1,2616 = 1,1232 Sætning 4.16 Hvis X er en stokastisk variabel og a og b konstanter, gælder Var(aX +b) = a 2 Var(X) 29
Bevis. Var(aX +b) = E((aX +b) 2 ) (E(aX +b)) 2 Ifølge sætning 4.14 = E(a 2 X 2 +b 2 +2abX) (E(aX +b)) 2 Parentesen udregnes. = b 2 +E(a 2 X 2 +2abX) (E(aX +b)) 2 If. 4. regel i sæt. 4.11. = b 2 +E(a 2 X 2 )+E(2abX) (E(aX +b)) 2 If. 3. regel i sæt. 4.11. = b 2 +a 2 E(X 2 )+2ab E(X) (E(aX +b)) 2 If. 2. regel i sæt. 4.11. = b 2 +a 2 E(X 2 )+2ab E(X) (E(aX)+E(b)) 2 If. 4. regel i sæt. 4.11. = b 2 +a 2 E(X 2 )+2ab E(X) (E(aX)+b) 2 If. 1. regel i sæt. 4.11. = b 2 +a 2 E(X 2 )+2ab E(X) (a E(X)+b) 2 If. 2. regel i sæt. 4.11. = b 2 +a 2 E(X 2 )+2ab E(X) (a 2 E(X) 2 +b 2 +2ab E(X)) = b 2 +a 2 E(X 2 )+2ab E(X) a 2 E(X) 2 b 2 2ab E(X) = a 2 E(X 2 ) a 2 E(X) 2 = a 2 (E(X 2 ) E(X) 2 ) = a 2 Var(X) Q.E.D. Eksempel 4.17 Middelværdi og spredning for den stokastisk variabel X er µ(x) = 4,12 og σ(x) = 9,45 og en stokastisk variabel Y er givet ved Y = 2X +3 Bestem middelværdi og spredning for Y. µ(y) = µ(2x +3) = 2 µ(x)+3 = 2 4,12+3 = 11,24 og σ(y) = σ(2x +3) = Var(2X +3) = 2 2 Var(X) = 2 σ(x) = 2 9,45 = 18,9 Opgave 4.18 En stokastisk variabel X er defineret ved: t 1 2 3 4 5 P(X = t) 0,10 0,33 0,24 0,28 0,05 En stokastisk variabel Y er givet ved 2Y = 2X +3. a) Beregn middelværdi og spredning for den stokastiske variabel X. b) Bestem middelværdi og spredning for den stokastiske variabel Y. Opgave 4.19 En stokastisk variabel X er defineret ved: t 1 2 3 4 5 P(X = t) 0,08 0,35 0,44 0,08 0,05 a) Beregn middelværdi og spredning for den stokastisk variabel X. b) Bestem P(X 4) og P(X < 3). 30
5 T-test T-testen undersøger om der er statistisk forskel på middelværdien på to grupper defineret ved en dikotom variabel (f.eks. dreng, pige). Det antages at de variable, der ses på, er normalfordelt og, at der er forskel på middelværdi og spredning i de to grupper. T-testen udføres på variable der er af skalatype: Ratio, hvor der ikke er inddelt i intervaller. 5.1 Normalfordeling Normalfordelingen afhænger af middelværdien µ og spredningen σ. f(x) = 1 2πσ 2 e (x µ)2 2σ 2 Her ses grafen for normalfordelingen med middelværdi 5 og spredning 3. 0.2 0.1 5 4 3 2 1 0.1 (y) f(x) = 1 2πσ 2 e (x µ)2 2σ 2 µ = 5 σ = 3 1 2 3 4 5 6 7 8 91011121314 (x) Her ses grafen for to normalfordelinger med middelværdi 5 og spredning hhv. 2 og 3. 0.2 0.1 5 4 3 2 1 0.1 (y) f(x) = 1 2πσ 2 e (x µ)2 2σ 2 σ = 2 σ = 3 1 2 3 4 5 6 7 8 91011121314 (x) 31
Her ses grafen for to normalfordelinger med middelværdi 4 og 5 og spredning 1. (y) 0.3 0.2 0.1 5 4 3 2 1 0.1 f(x) = 1 2πσ 2 e (x µ)2 2σ 2 µ = 5 µ = 4 1 2 3 4 5 6 7 8 91011121314 (x) 5.2 T-testen t-værdien udregnes med formlen t = µ 1 µ 2 σ 2 1 n 1 + σ2 2 n 2 hvor n er antallet, µ er middelværdien og σ er spredningen. Efter at t-værdien er udregnet ses på t-fordelingen, her vis ved en t-værdi tabel (Tabel 1). En t-test kan enten være ét-halet eller to halet. Øverst i tabellen ses signifikansniveauet for hhv. ét- og to-halet t-test. 0-hypotese Alternativ hypotese antal haler µ 1 = µ 2 µ 1 > µ 2 1-halet µ 1 = µ 2 µ 1 < µ 2 1-halet µ 1 = µ 2 µ 1 µ 2 2-halet Eksempel 5.1 I undersøgelsen spørges hvilken alder (i måneder) personerne røg første gang. Dette er så fordelt på hhv. piger og drenge. 32
Køn Piger Drenge Antal 218 241 Middelværdi µ 171 måneder cm 155 måneder Spredning σ 12 7 P(X = m) 0,06 0,05 0,04 0,03 0,02 0,01 0 0 50 100 150 200 250 Alder i måneder For at test om der er forskel på de to grupper udregnes t-værdien (teststørrelsen) t = 171 155 = 17,21 12 2 218 + 72 241 Denne t-værdi aflæses i tabel 1. Frihedsgraden (df) i t-testen er antallet af personer i begge grupper minus 2. I dette tilfælde er df = 218+241 2 = 457 Da denne værdi ikke findes i tabellen anvendes den værdi som er umiddelbart mindre en 457 dvs. 100. Her ses det at forskellen er signifikant på 0,002 niveauet for en 2-halet test, som er relevant i dette tilfælde, fordi alternativ hypotesen er at µ drenge µ piger. Dette betyder at sandsynligheden for at forskellen mellem middelalderen for drengens og pigernes røg-debut i stikprøven skyldes tilfældighed er 0,2 % (p-værdien). Derfor må 0-hypotesen forkastes og acceptere at der er forskel på middelalderen for drengens og pigernes røg-debut. 33
6 Krydstabeller For at se forskellen en variabel gør på en anden variabel laves krydstabeller. Eksempel 6.1 I undersøgelsen "Hvorfor ryger unge?", er antallet af rygere i stikprøven undersøgt. Hyppighed Ryger 9 Ryger ikke 31 Total 40 Det er ligeledes undersøgt hvor mange der primært bor i hjem hvor der ryges. Hyppighed Der ryges hjemme 12 Der ryges ikke hjemme 28 Total 40 For at se om der er en sammenhæng mellem om den unge ryger og om der ryges hjemme, laves en krydstabel. Der ryges hjemme Ja Nej Total Ryger Ja 7 2 9 selv Nej 5 26 31 Total 12 28 40 I stedet for at se på antallet kan der omregnes til procent. Dette kan gøres ved at tage udgangspunkt i variablen Ryger selv. 34
Der ryges hjemme Ja Nej Total Ryger Ja 77,8% 22,2% 100% selv Nej 16,1% 83,9% 100% Total 30% 70% 100% Her kan det ses hvor mange procent af dem som selv ryger der kommer fra et hjem hvor der ryges (77,8%) og det kan ses hvor mange procent der ikke selv ryger som kommer fra et hjem hvor der ikke ryges (83,9%). Der kan også tages udgangspunkt i variablen Der ryges hjemme. Der ryges hjemme Ja Nej Total Ryger Ja 58,3% 7,1% 22,5% selv Nej 41,7% 92,9% 77,5% Total 100% 100% 100% Her kan det ses hvor mange procent af de hjem hvor der ryges, ryger den unge også (58,3%) og det kan ses hvor mange procent af de hjem hvor der ikke ryges, ryger den unge heller ikke (92,9%). Det sidste der kan tages udgangspunkt i er det total antal. Der ryges hjemme Ja Nej Total Ryger Ja 17,5% 5,0% 22,5% selv Nej 12,5% 65,0% 77,5% Total 30% 70% 100% Her kan det ses hvor mange procent af alle tilfælde hvor både den unge ryger og der ryges i hjemmet (17,5%) og det kan ses hvor mange procent af alle tilfælde 35
hvor hverken den unge ryger eller der ryges i hjemmet (77,5%). Opgave 6.2 Medicinalfirmaet har undersøgt om der er en sammenhæng mellem om kvinder i alderen 15-49 år dyrker casual eller kommerciel sex og om de har HIV/AIDS. Dyrker casual eller kommerciel sex Ja Nej Total Har Ja 10 5 15 HIV/AIDS Nej 20 35 55 Total 30 40 70 Udregn de tre forskellige procent fordelinger (række, søjle og total) og beskriv dem. Overvej hvad dette har af betydning for udvælgelsen af stikprøven og hvorfor det at nogle kvinder dyrker casual eller kommerciel sex kan være en konfunderingsvariabel i undersøgelsen af virkningen af et middel mod at blive smittet med HIV. 7 χ 2 -test χ 2 -testen bruges på nominelle variable hvor, Sammenligningstest det undersøges om den observerede fordelingen stemmer med den forventede fordeling Uafhængighedstest det undersøges om to nominelle variable er afhængige. χ 2 -værdien (teststørrelsen) udregnes med følgende formel r χ 2 (n i p i ) 2 = i=1 hvor i er de enkelte udfald af forsøget, n i er det observerede antal af de enkelte udfald og p i er det forventede antal af de enkelte udfald. 36 p i
7.1 χ 2 -fordelingen χ 2 -fordelingen er sandsynlighedsfordeling der opstå, som summen af kvadraterne på k indbyrdes uafhængige variable, der er normalfordelt med spredning 1 og middelværdi 0. P 0,5 0,4 0,3 0,2 k = 1 k = 2 k = 3 k = 4 k = 5 k = 6 k = 7 k = 8 k = 9 0,1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 χ2 Sammenhængen mellem fordelingsfunktionen og tabellen er f.eks. for 9 frihedsgrader og en p værdi på 0,95 er χ 2 -værdien 3,325. Dette kan vises på følgende måde på grafen for fordelingsfunktionen. 37
P 0,5 0,4 0,3 0,2 0,1 95% 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 χ2 7.2 Frihedsgrader Antallet at frihedsgrader er antallet af rækker minus én gange antallet af søjler minus én. Eksempel 7.1 Følgende tabel vil have (4 1)(5 1) = 3 4 = 12 frihedsgrader Ktgr A Ktgr B Ktgr C Ktgr D Ktgr 1 Ktgr 2 Ktgr 3 Ktgr 4 Ktgr 5 38
7.3 Sammenligningstest Ved sammenligningstesten undersøges om en nominel variabel passer med en given hypotese (0-hypotesen). Eksempel 7.2 I undersøgelsen "Hvorfor ryger unge?", ønskes at undersøge om fordelingen af rygere passer med fordelingen af rygere i populationen. I stikprøven I populationen Ryger 22,5% 20,2% Ryger ikke 77,5% 79,8% Total 100% 100% Da det undersøges om stikprøven passer med populationen, er der tale om en sammenligningstest. Statistics[ChiSquareGoodnessOf F itt est]([.225,.775],[.202,.798])...,pvalue =.9543171406,... p-værdien er 0.95, hvilket betyder at der er 95% sandsynlighed for at forkaste en korrekt 0-hypotese, derfor accepteres 0-hypotesen. Det konkluderes at fordelingen af rygere i stikprøven passer med fordelingen af rygere i populationen. Stikprøven er altså repræsentativ med hensyn til antallet af rygere. I forbindelse med testen kommer forskellige oplysninger. 39
Resultat hypothesis = true criticalvalue = 3.84145 distribution = ChiSquare(1) pvalue =.954317 statistic = 0.0032817 Betydning Angivelse af om 0-hypotesen er sand, det vil sige om p-værdien er større end signifikansniveauet. Da der ikke er oplyst et et signifikansniveau, antages det at være 0,05 (5%). Den kritiske værdi. Den værdi som teststørelsen skal være mindre end, hvis p-værdien skal være større end signifikansniveauet (0-hypotesen accepteres). Den fordeling som er anvendt ved testen, antallet af frihedsgrader. p-værdien. Sandsynligheden for at 0-hypotesen er sand. Teststørelsen, χ 2 -værdien. Opgave 7.3 Undersøg om fordelingen af kvinder i alderen 15-49 år som har HIV/AIDS i stikprøven passer med fordelingen i populationen. I stikprøven I populationen Har HIV/AIDS 21,4% 14,0% Har ikke HIV/AIDS 78,6% 86,0% Total 100% 100% 7.4 Uafhængighedstest Ved uafhængighedstesten undersøges om en nominel variabel er uafhængig af en anden nominel variabel. At være uafhængig betyder at udfaldet i den ene variabel ikke har betydning for udfaldet i den anden variabel. Eksempel 7.4 I undersøgelsen "Hvorfor ryger unge?", ønskes at undersøge om det gør en forskel om der ryges i det hjem har den unge primært bor. 40
Der ryges hjemme Ja Nej Total Ryger Ja 7 2 9 selv Nej 5 26 31 Total 12 28 40 For at udregne om det påvirker den unge at der ryges hjemme, antages at det ikke påvirker den unge at der ryges hjemme (0-hypotesen). Ud fra denne antagelse udregnes de forventede værdier. Der ryges hjemme Ja Nej Total 12 9 28 9 Ryger Ja = 2,7 = 6,3 9 40 40 12 31 selv Nej = 9,3 28 31 = 21,7 31 40 40 Total 12 28 40 Da der er tale om en undersøgelse af om unge påvirkes af om der ryges i hjemmet skal der laves en uafhængigshedstest. ([ ]) 7 2 Statistics[ChiSquareIndependenceT est] 5 26...,pvalue = 0.0003809652,... Da p-værdien er 0,038% er sandsynlighed for at forkaste en korrekt 0-hypotese mindre end 5%, derfor forkastes 0-hypotesen og det konkluderes at det påvirker unge om der ryges i hjemmet. Opgave 7.5 Medicinalfirmaet har undersøgt om der er en sammenhæng mellem om kvinder i alderen 15-49 år dyrker casual eller kommerciel sex og om de har HIV/AIDS. 41
Dyrker casual eller kommerciel sex Ja Nej Total Har Ja 10 5 15 HIV/AIDS Nej 20 35 55 Total 30 40 70 Undersøg om der er en sammenhæng mellem om kvinderne har HIV/AIDS og det at de dyrker casual eller kommerciel sex. Opgave 7.6 Følgende opgave er en opsamling på ovenstående opgaver. Beskriv hvem (testpersonerne) i vil anbefale medicinalfirmaet at vælge til afprøvningen af deres medicament og hvorfor. Beskriv hvilke spørgsmål i vil stille til testpersonerne før, under og efter testperioden. Beskriv hvilke undersøgelser i vil foretage af af testpersonerne før, under og efter testperioden. Opstil hypoteser for udfaldet af afprøvningen og kom med et gæt på hvordan udfaldet kan se ud og test de opstillede hypoteser. Politikken.dk, Videnskab, 30. sep 2010 kl. 22.49 Vaginalring skal beskytte mod hiv Undersøgelse: 39 procent nedsat risiko for smitte. Sommerens forsøg med en vaginal gele indeholdende mikrobicider viser, at de, der anvendte geleen havde 39 procent mindre risiko for hiv end de, der fik placebo. Undersøgelsen er foretaget af amerikanske non-profit organisation The International Partnership for Microbicides, der arbejder for at hjælpe verdens fattige i kampen mod hiv. 42
Studiet er gennemført blandt 900 kvinder i Sydafrika. Af de 444 kvinder, der modtog placebo, fik 60 hiv mod 38 ud af de 445 kvinder, der anvendte geleen. Prisen endnu ukendt AIDS-Fondets direktør understreger, at det er afgørende, at den nye vaginalring bliver billig og tilgængelig for de udsatte kvinder. Det er endnu ikke klart, hvad prisen vil blive på vaginalringen.»når vi sælger produkter til verdens fattige, aftaler vi altid særpriser. Prisen afspejler, at det på den ene side skal være muligt for velgørenhedsorganisationer og regeringer at købe vores produkter, og på den anden side muligt for os at drive en forretning«, siger Kenneth Stokholm. Vaginalringene vil også blive solgt på de vestlige markeder. Men her vil de blive solgt til en højere pris, end når det er udviklingslande, der er købere. Vaginalringen skal fornyes hver måned for at have den forebyggende effekt og forventes at blive introduceret i 2015. Opgave 7.7 Udregn om der er en signifikant sammenhæng mellem om kvinderne fik HIV eller ej og om de modtog placebo eller om de anvendte geleen. I artiklen omtales at risikoen blev nedsat med 39 procent for dem der anvendte geleen, hvordan fremkommer denne procent? 43
8 Funktionssammenhæng 8.1 Regression Ved en regressionsmodel forstås en model der viser sammenhængen mellem en afhængig og en eller flere uafhængige variable. Alle variable skal have skalatype ratio uden intervalinddeling. Her tager vi udgangspunkt i den lineære model y = ax+b hvor y er den afhængige variabel og x er den uafhængige variabel og a er hældningen på linien og b er liniens skæring med y-aksen. (y) 1 a b (x) Ideen med regression er at minimere kvadratet på den vertikale afstanden mellem modellen og de faktiske værdier. Her ses to forskellige lineære regressioner til værdierne (1,2),(2,5, 2,5) og (3,4). 44
(y) (3,4) 0,46 (1,2) 0,62 0,15 (2,5,2,5) 0,15 2 +0,62 2 +0,46 2 = 0,6185 (x) (y) (3,4) 0,50 0,75 0,50 (1,2) (2,5,2,5) 0,50 2 +0,75 2 +0,50 2 = 1,0625 (x) I dette eksempel er det den venstre model der er den bedste. Fordi det er den model, hvor summen af kvadraterne på de vertikale afstande er mindst. For at vurdere hvor god en model er beregnes R 2 -værdien. R 2 -værdien ligger mellem 0 og 1, hvor 0 betyder at modellen ikke er god og 1 betyder at modellen er rigtigt god. R 2 kaldes også for forklaringsgraden og fortæller noget om hvor god den uafhængige variabel er til at forklare ændringer i den afhængige variabel. R 2 beregnes som 1 minus summen af kvadraterne på de vertikale afstande divideret med summen af kvadraterne på den vertikale afstand mellem de faktiske værdier og deres gennemsnit. R 2 = 1 n i=1 (y i f(x i )) 2 n i=1 (y i y) 2 (y) (3,4) 0,46 Gennemsnit, y = 2,833 (1,2) 0,62 0,15 (2,5,2,5) 0,15 2 +0,62 2 +0,46 2 = 0,6185 (x) (y) (3,4) 0,50 0,75 0,50 (1,2) (2,5,2,5) 0,50 2 +0,75 2 +0,50 2 = 1,0625 (x) 45
For den venstre model bliver R 2 R 2 1 0,6185 0,6185 1 (2 2,833) 2 +(2,5 2,833) 2 +(4 2,833) 2 2,166 0,71 For den højre model bliver R 2 R 2 1 1,0625 1,0625 1 (2 2,833) 2 +(2,5 2,833) 2 +(4 2,833) 2 2,166 0,51 Igen ses at den venstre model er den bedste af de to modeller. Men nu kendes forklaringsgraden og derfor kan vi overordnet sige om der er tale om en god eller dårlig model. For den venstre models vedkommende betyder R 2 at 71% af variationen i y kan forklares af variation i x. Den resterende variation på 29% må forklares af andre variable, usikkerhed og tilfældighed. Vis der anvendes et 5% signifikansniveau skal R 2 derfor være større end 95% for at sammenhængen kan siges at være signifikant. Det er vigtigt at pointere at R 2 ikke fortæller om der er en årsagssammenhæng (kausalitet) mellem den afhængige og uafhængige variabel. Denne sammenhæng skal forklares ud over opstillingen af modellen. 46
9 Tabeller To halet 0.20 0.10 0.05 0.02 0.01 0.002 Ét halet 0.10 0.05 0.025 0.01 0.005 0.001 10 1.372 1.812 2.228 2.764 3.169 4.143 11 1.363 1.796 2.201 2.718 3.106 4.024 12 1.356 1.782 2.179 2.681 3.055 3.929 13 1.350 1.771 2.160 2.650 3.012 3.852 14 1.345 1.761 2.145 2.624 2.977 3.787 15 1.341 1.753 2.131 2.602 2.947 3.733 16 1.337 1.746 2.120 2.583 2.921 3.686 17 1.333 1.740 2.110 2.567 2.898 3.646 18 1.330 1.734 2.101 2.552 2.878 3.610 19 1.328 1.729 2.093 2.539 2.861 3.579 20 1.325 1.725 2.086 2.528 2.845 3.552 21 1.323 1.721 2.080 2.518 2.831 3.527 22 1.321 1.717 2.074 2.508 2.819 3.505 23 1.319 1.714 2.069 2.500 2.807 3.485 24 1.318 1.711 2.064 2.492 2.797 3.467 25 1.316 1.708 2.060 2.485 2.787 3.450 26 1.315 1.706 2.056 2.479 2.779 3.435 27 1.314 1.703 2.052 2.473 2.771 3.421 28 1.313 1.701 2.048 2.467 2.763 3.408 29 1.311 1.699 2.045 2.462 2.756 3.396 30 1.310 1.697 2.042 2.457 2.750 3.385 40 1.303 1.684 2.021 2.423 2.704 3.307 50 1.299 1.676 2.009 2.403 2.678 3.261 60 1.296 1.671 2.000 2.390 2.660 3.232 70 1.294 1.667 1.994 2.381 2.648 3.211 80 1.292 1.664 1.990 2.374 2.639 3.195 90 1.291 1.662 1.987 2.368 2.632 3.183 100 1.290 1.660 1.984 2.364 2.626 3.174 1.282 1.645 1.960 2.326 2.576 3.090 Tabel 1: t-værdi tabel 47
df 0.995 0.99 0.975 0.95 0.90 0.10 0.05 0.025 0.01 0.005 1 0.001 0.004 0.016 2.706 3.841 5.024 6.635 7.879 2 0.010 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210 10.597 3 0.072 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838 4 0.207 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860 5 0.412 0.554 0.831 1.145 1.610 9.236 11.070 12.833 15.086 16.750 6 0.676 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812 18.548 7 0.989 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.278 8 1.344 1.646 2.180 2.733 3.490 13.362 15.507 17.535 20.090 21.955 9 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.589 10 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188 11 2.603 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725 26.757 12 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.300 13 3.565 4.107 5.009 5.892 7.042 19.812 22.362 24.736 27.688 29.819 14 4.075 4.660 5.629 6.571 7.790 21.064 23.685 26.119 29.141 31.319 15 4.601 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578 32.801 16 5.142 5.812 6.908 7.962 9.312 23.542 26.296 28.845 32.000 34.267 17 5.697 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409 35.718 18 6.265 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805 37.156 19 6.844 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191 38.582 20 7.434 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566 39.997 21 8.034 8.897 10.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401 22 8.643 9.542 10.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796 23 9.260 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181 24 9.886 10.856 12.401 13.848 15.659 33.196 36.415 39.364 42.980 45.559 25 10.520 11.524 13.120 14.611 16.473 34.382 37.652 40.646 44.314 46.928 26 11.160 12.198 13.844 15.379 17.292 35.563 38.885 41.923 45.642 48.290 27 11.808 12.879 14.573 16.151 18.114 36.741 40.113 43.195 46.963 49.645 28 12.461 13.565 15.308 16.928 18.939 37.916 41.337 44.461 48.278 50.993 29 13.121 14.256 16.047 17.708 19.768 39.087 42.557 45.722 49.588 52.336 30 13.787 14.953 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672 40 20.707 22.164 24.433 26.509 29.051 51.805 55.758 59.342 63.691 66.766 50 27.991 29.707 32.357 34.764 37.689 63.167 67.505 71.420 76.154 79.490 60 35.534 37.485 40.482 43.188 46.459 74.397 79.082 83.298 88.379 91.952 70 43.275 45.442 48.758 51.739 55.329 85.527 90.531 95.023 100.425 104.215 80 51.172 53.540 57.153 60.391 64.278 96.578 101.879 106.629 112.329 116.321 90 59.196 61.754 65.647 69.126 73.291 107.565 113.145 118.136 124.116 128.299 100 67.328 70.065 74.222 77.929 82.358 118.498 124.342 129.561 135.807 140.169 Tabel 2: χ 2 -tabel 48
Litteratur [1] Flemming Clausen, Poul Printz og Gert Schomacker: Sandsynlighedsregning og statistik, 1. udgave, 1. oplag, Munksgaard, København 1990. [2] Ib Axelsen: Sandsynlighed og Statistik, Gjellerup & Gad, København 1990. [3] Erling B. Andersen, Gorm Gabrielsen, Nils Kousgaard og Anders Milhøj: Statistik for civiløkonomer, 3. udgave, 3. oplag, Akademisk Forlag A/S, 1997. [4] AIDSInfo, http://www.aidsinfoonline.org/. [5] Global Health Council, http://www.globalhealth.org/. [6] Social Research Methods, http://www.socialresearchmethods.net/ [7] Handbook of Biological Statistics, http://udel.edu/ mcdonald/statintro.html 49