matx.dk Undersøgelsesdesign Statistik Dennis Pipenbring

Transkript

1 matx.dk Undersøgelsesdesign Statistik Dennis Pipenbring 7. april 2011

2 Indhold 1 Undersøgelsesdesign Kausalitet Validitet og bias Reliabilitet og konfundering Population og stikprøve Kvantitativ og kvalitativ Stokastiske variable Skalatyper Sandsynlighed Repræsentativitet Binomial-test Konklusion Middelværdi og spredning Summationsnotation De fire regneregler Varians og spredning T-test Normalfordeling T-testen Krydstabeller 34 7 χ 2 -test χ 2 -fordelingen Frihedsgrader Sammenligningstest Uafhængighedstest

3 8 Funktionssammenhæng Regression Tabeller 47 Tabeller 1 t-værdi tabel χ 2 -tabel

4 Forord Materiale gennemgår følgende områder. undersøgelsesdesign population og stikprøve 0-hypotese og alternativ hypotese krydstabeller og deres opbygning samt læsning af krydstabeller uafhængighedstest (Test for Independence) og sammenligningstest (goodness of fit) frihedsgrader repræsentativitet bias og validitet konfundering og reliabilitet sandsynlighedsfordelinger (normal-, binominal-, χ 2 -fordelingen signifikansniveau, kritisk værdi og signifikant forskel samlet teststørrelse samt udregne de enkelte bidrag hertil p-værdier Opgaver omhandler alle samme situation og et passende udvalg af opgaver vil samlet udgøre en rapport. Opgaverne kan erstattes af en anden undersøgelse som andre fag f.eks. biologi eller samfundsfag finder mere relevant. 4

5 1 Undersøgelsesdesign Inden en undersøgelse kan påbegyndes, skal en række elementer overvejes. Kausalitet betyder sammenhæng mellem to begivenheder. Validitet betyder at måle det rigtige. Reliabilitet betyder at måle rigtigt. Bias betyder at det rigtige ikke måles. Konfundering betyder at der ikke måles rigtigt. Population dem undersøgelsen gerne vil sige noget om. Stikprøve dem undersøgelsen siger noget om. Repræsentativitet betyder at stikprøven siger noget om populationen. 1.1 Kausalitet En af de vigtigste regler for opstilling af hypoteser er begrebet kausalitet. Kausalitet betyder årsagssammenhæng mellem det man undersøger. Men skal være i stand til at argumenterer for, at der er en sammenhæng mellem de ting man undersøger. Eksempel 1.1 Det er et problem, at mange unge ryger, på flere niveauer. Det er et problem for den unge fordi det betyder at levetiden bliver afkortet med ca. 10 år og de sidste år af levetiden er forbundet med mange smerter og ubehag. Det er et problem for den unges omgivelser fordi rygning skader også den unges børn og andre som den unge omgås. Det er et problem for samfundet fordi det koster meget at behandle og understøtte den unge når denne bliver syg og uarbejdsdygtig. For at kunne gøre noget ved disse problemer, er det interessant at undersøge hvorfor unge ryger. Det først umiddelbare svar på spørgsmålet om hvorfor unge ryger, er at det skyldes sociale faktorer. 5

6 Sociale faktorer Unge ryger Selve undersøgelse skal rettes mod unge, der lige er begyndt at ryge. Fordi de stadigvæk kan huske hvad der fik dem til at begynde, og fordi årsagerne kan være tidstypiske. En person som begynde at ryge for 40 år siden, vil givet have haft andre overvejelser i forbindelse med første gang han eller hun begyndte at ryge. Opgave 1.2 En medicinalvirksomhed ønsker at hjælpe fattige i kampen mod HIV, vil at afprøve deres nye produkt. Produktet er fremstillet til at blive anvendt af kvinder. Undersøgelsen skal foretages i Sydafrika. Overvej hvilke faktorer som medfører, at kvinder udsættes for HIV-virus. 2. om der skal tages specielle hensyn i udvælgelsen af målgruppe for undersøgelsen. 1.2 Validitet og bias Når data indsamles, skal det rigtige måles. At sikre dette gøres på forskellige måder alt efter hvordan data indsamles. Men det er vigtigt at være helt sikker på hvad man ønsker at måle inden undersøgelsen påbegyndes. Eksempel 1.3 I undersøgelsen "Hvorfor ryger unge?"undersøges hvorfor unge begynder at ryge. Fordi rygning skaber afhængighed, så de der ryger gør det fordi, de er begyndt. Årsagen til at en ryger ryger, er ganske simpelt at de er afhængige. Dette kan ikke være årsagen til at de begyndte. Nu er det helt klar hvad undersøgelsens målsætning er, det er det første trin i at sikre validiteten. Som eksempel på manglende validitet, ses her grafen for et forsøg hvor det ikke er det rigtige der er blevet målt, men metoden til at måle med er god nok. Det kunne f.eks. være en afvejning af salt, hvor der ikke blev taget højde for papiret som saltet var på mens det blev vejet. Vægten fungere fint, og det er en god 6

7 metode til at bestemme massefylden af salt. Men det der blev målt var bare ikke salt men salt+papir. Målepunkterne ligger tilnærmelsesvis på en ret linie, men de ligger ikke på den rette linie som der i følge teorien eller hypotesen er den rigtige. Derfor kan det være, at det ikke er det rigtige, som er blevet målt. Validiteten er lav. Der er bias i undersøgelsen y målepunkter teori/hypotese x Spørgsmålet om validitet, handler om at stille spørgsmålet: "Er det rigtige blevet mål?". I alle tilfælde er det vigtigt, at den stikprøve som data repræsentere er udtaget på den rigtige måde. Ellers vil der være bias i data. Undersøges holdningen til hvornår der er acceptabelt at slå børn som et led i deres opdragelse, vil det skævvride (bios) undersøgelsen, hvis undersøgelsen kun undersøgte personer som selv var blevet slået som et led i deres opdragelse. Undersøges virkningen af en behandling, er det bedst at lave dobbelt blind forsøg. Det betyder at hverken patient eller behandler må vide om behandlingen er virkningsfuld eller ej. På denne måde sikres at det kun er behandlingen, som er forskellen. Det er ikke altid muligt at lave dobbelt blind forsøg, ofte vil det kun være patienten der er uvidende om behandlingen er virkningsfuld eller ej. Ved at lave dobbelt-blind-test sikre man at validiteten er høj, fordi der kun måles på virkningen af behandling. Indsamles data via et spørgeskema er det vigtigt, at spørgsmålene bliver forstået af alle respondenterne. Det er derfor vigtigt, at bruge enkle spørgsmål, og at 7

8 tænke over rækkefølgen på spørgsmålene. Samt undgå abstrakte begreber og slang. Opgave 1.4 Hvordan skal medicinalfirmaet undersøge virkningen af deres medikament for at data er validt? Hvilken information skal testpersonerne modtage? Overvej hvilke etiske problemstillinger som der er i forbindelse med undersøgelsen. 1.3 Reliabilitet og konfundering Reliabilitet handler om at måle rigtigt. Det handler særligt om at bruge den rigtige metode til at måle med. Eksempel 1.5 Ved undersøgelse af sammenhængen mellem to begivenheder, f.eks. socialefaktorer og den første cigaret. Vil der være nogle variable som der ikke er taget hensyn til. Socialefaktorer Den første cigaret Konfunderingsvariable Det er meget vigtigt for undersøgelsen at afdække hvad konfunderingsvariablene er for nogle for at konklusionen bliver sikker. Problemet kommer når der skal gøres en indsats for at få unge til ikke at begynde at ryge. Så kan indsatsen ramme helt forbi, og undersøgelsen er derfor mislykket. En konfunderingsvariabel kunne være køn, da der kan være forskellige årsager til at drenge og piger begynder at ryge. Der er givet vis flere. Der er derfor vigtigt at have køn med i undersøgelsen som en varibel. Pilotprojekter er væsentlige for at finde ud af om spørgeskemaer og interviewguides er gode nok. Det afslører fejl, tvetydigheder og manglende logik. 8

9 y Målepunkterne ligger med en stor spredning på en ret linie, men de ligger omkring den rette linie som i følge teorien eller hypotesen er den rigtige. Derfor kan det være, at det ikke er blevet målt rigtigt. Reliabiliteten er lav. Der er konfundering i undersøgelsen målepunkter teori/hypotese x Opgave 1.6 Overvej hvilke konfunderingsvariable, som skal med i medicinalfirmaets undersøgelse. Målepunkterne ligger med en stor spredning på en ret linie, og de ligger ikke omkring den rette linie som i følge teorien eller hypotesen er den rigtige. Derfor kan det være, at der hverken er blevet målt rigtigt eller målt det rigtige. Både validiteten og reliabiliteten er lav. Der er konfundering og bias i undersøgelsen. Det er derfor ikke muligt at udtale sige om der er en sammenhæng mellem x og y y målepunkter teori/hypotese x 9

10 1.4 Population og stikprøve En stikprøve udtages fordi det vil være for dyrt at undersøge hele populationen. Det svære er hvem eller hvordan stikprøven skal udtages. Udtagelsen af stikprøven kan være mere eller mindre tilfældig. Den helt tilfældige undersøgelse, udtager et helt tilfældigt et givet antal cpr-numre f.eks cprnumre, og det er så disse personer som er stikprøven for hele populationen. Udtagelsen kan stratificeres ved f.eks. kun at udtage personer med en given alder f.eks årige. Stratificering er vigtigt fordi næsten alle undersøgelser har en bestemt population de ønsker at udtale sig om. Eksempel 1.7 For at undersøgelsen kan sige noget om hvorfor unge begynder at ryge, er det vigtigt at stikprøven indeholder både personer som er begyndt at ryge og personer som ikke er begyndt at ryge. Fordi det er disse to grupper som undersøgelsen ønsker at sammenligne. Stikprøven skal derfor helst indeholde lige mange personer fra de to grupper, også selvom der i populationen ikke er tale om en ligelig fordeling af rygere og ikke-rygere. Opgave 1.8 Overvej hvilken population undersøgelsen af medikamentet har. Og derfor hvordan stikprøven skal stratificeres. 1.5 Kvantitativ og kvalitativ Data kan være enten, kvalitative eller kvantitative. De kvantitative data er afmålte date, data som kan konverteres til tal. De kvalitative data er ikke afmålte data, f.eks. hårfarven er rød, der der siges ikke noget om hvor rød. Ofte starter man med at indsamle kvalitative data, fordi det kan give en idé om hvilke data der er væsentlige for det område man vil undersøge. På de kvalitative data kan der laves en statistisk bearbejdning, for at teste de teorier / hypoteser man har. Eksempel 1.9 I undersøgelsen "Hvorfor ryger unge"undersøges hvorfor unge begynder at ryge, er det første man bør gøre at snakke med nogle unge som ryger og spørger hvorfor de ryger. Man vil få en række forskellige svar. En siger 10

11 Jeg ryger fordi min bedste veninde også ryger og så hygger vi os sammen. En anden siger Jeg ryger, fordi det smager godt. En trejde sider Fordi det er sejt. Det interessante er at der næsten aldrig er nogen, som svarer Jeg ryger, fordi jeg er opvokset i en familie med 2 til 3 søskende og med en indkomst mellem og i index regulerede kroner, efter Danmarks statistiks udregnede forbrugerprisindex. Og fordi jeg har en kort uddannelse og er blevet skilt og bor alene med mine to børn på 2 og 5 år. Og fordi der i min familie har været en tendens til aggressiv opførsel efter WHO ICD-10 s definition. Og fordi jeg på nuværende tidspunkt er blevet afhængig og ikke har overskuddet eller mulighederne til at komme ud af mit misbrug. Selvom jeg er klar over de konsekvenser passiv rygning har for mine børn. Dette vil man aldrig få som svar, fordi mennesker i al almindelighed, ikke er så reflekterede over årsagerne til deres handlinger. Men skal altså selv lave sine hypoteser. Opgave 1.10 Opstil nogle hypoteser om virkningen af medikamentet mod HIV/ AIDS som medicinalfirmaet ønsker at afprøve. 2 Stokastiske variable En stokastisk variabel er en funktion, der, til et givet udfald eller hændelse, giver et tal i betydningen et mål. Men i ordret ligger også et element af tilfældighed, man kan altså ikke på forhånd vide, hvad udfaldet bliver. Der er altså tale om tilfældighed. Idéen man statistik er at undersøge om de udfald som kommer er tilfældige eller om der er en bagvedliggende årsag. 11

12 2.1 Skalatyper Skalatype Ratio Ordinal Nominal Dikotom Beskrivelse Kategorierne kan rangordnes, og afstanden mellem kategorierne er lige stor på hele skalaen f.eks. alder, højde. Nogle gange indeles kategorierne i intervaller f.eks. Alder 0-10 år, år, osv. Kategorierne kan rangordnes, men afstanden mellem kategorierne er ikke lige stor på hele skalaen f.eks. uddannelsesniveau. Kategorierne kan ikke rangordnes f.eks. kommune, land. Der er to kategorier f.eks. køn. En spørgeskemaundersøgelse der har til formål at klarlægge hvorfor unge begynder at ryge er der udformet følgende spørgsmål. 1. Køn Kvinde 1 Mand 2 2. Alder i år År 3. Hvilken type bolig bor du i? Lejelejlighed 1 Andelslejlighed 2 Ejerlejlighed 3 Lejer hus 4 Ejer hus 5 12

13 4. Hvad er det højest niveau af uddannelse du har afsluttet? 6. klasse 1 7. klasse 2 8. klasse 3 9. klasse klasse 5 Ungdomsuddannelse 6 Højere 7 5. Ryger du? Ja 1 Nej 0 6. Har du røget? Ja 1 Nej 0 Opgave 2.1 Inddel spørgsmålene fra undersøgelse i skalatyper. Opgave 2.2 Lav nogle spørgsmål som skal hjælpe medicinalvirksomheden til at udvælge forsøgspersonerne. 3 Sandsynlighed Udover at den stokastiske variabel knytter et tal til hver udfald, høre der en sandsynlighed til hvert udfald. Denne sandsynlighed kan beregnes udfra den forventede hyppighed af udfaldene. Er der tale om et eksperiment f.eks. kast med en lige 6-sidet terning, antages det at alle udfaldene har samme sandsynlighed. Sandsynligheden for at udfaldet bliver f.eks. 1 er derfor 1 6. Er der tale om et spørgsmål til en større gruppe af mennesker, f.eks. Hvad er dit 13

14 køn? Kan fordelingen undersøges og herved kan sandsynligheden beregnes. 3.1 Repræsentativitet I kvantitative undersøgelser, hvor der tages stikprøver, er det vigtigt, for at opnå den bedst mulige sandhed, at stikprøven er repræsentativ i forhold til den populationen hypotese gælder for. Repræsentativ betyder, at den stikprøve der udtages skal gælde for hele populationen. De personer, der indsamles data fra, taler ikke blot tale for sig selv, men for hele populationen. Fordi alle ikke undersøges, skal dem der spørges tale på vegne af andre. Hver person repræsenterer altså også andre personer i populationen. Eksempel 3.1 I undersøgelsen "Hvorfor ryger unge?"vælger hver person ikke kun årsagerne til at han eller hun begyndte at ryge, men også på vegne af andre. I en stikprøve med 500 personer vil hver person i gennemsnit repræsentere Antal personer i populationen 500 andre personer. Hvis der er personer i populationen så vil hver respondent - person der indgår i stikprøven - tale for personer. Derfor skal udvælgelsen af respondenterne sikre, at de bedst muligt repræsenterer populationen. Spørgsmålet om repræsentativitet er afgørende, hvis svarene fra stikprøven skal gøre det ud for hele populationen. Der er to måder at opnå repræsentativitet på: statistisk repræsentativitet og strategisk repræsentativitet. Den statistiske udvælgelse sikrer repræsentativitet, når der skal udvælges flere respondenter, og når kendskabet til respondenterne er begrænset. Respondenterne udvælges tilfældigt ud fra et princip om, at netop tilfældigheden sikrer, at alle i populationen bliver repræsenteret, når blot stikprøven er tilstrækkeligt stor. Det er en betingelse at alle i populationen har lige stor chance for at blive trukket ud. Statistisk repræsentative stikprøvers størrelse afgøres af to forhold: 1. Det ønskede signifikansniveau 2. Antallet af opdelinger af stikprøven 14

15 Eksempel 3.2 I undersøgelsen "Hvorfor ryger unge?"opdeles stikprøven i rygere med ikke-rygere. Vi opdeler altså vores stikprøve i to grupper. Strategisk udvælgelse bygger på overvejelser ved udvælgelsen af respondenterne. F.eks. kan der udtages to lige store grupper som hver repræsentere to politiske partier, det kan bruges til at sammenligne holdninger hos de to partiers støtter. I dette tilfælde vil det politiske tilhørsforhold være kendt. Er data indsamlet ved brug af et spørgeskemaer skal der være en høj svarprocent (over 60 %), ellers vil den stikprøve man har lavet ikke længere være repræsentativ. Fordi da er den statistiske udvælgelse ikke længer strategisk fordi der kan være et mønster i dem, som ikke svarer. Kendes fordelingen i populationen kan det afgøres om stikprøve er en god repræsentation af populationen. En stikprøve siges at være en god repræsentation af populationen hvis fordelingen er den samme i stikprøven som i populationen. Lad nu den stokastiske variabel X være kønnet på en tilfældig gymnasieelev på dit gymnasium. Eksperimentet består nu at vælge én tilfældig elev blandt eleverne på dit gymnasium. Udføres dette eksperiment fås en observation af X. Denne observation betegnes x og antager værdien 0 eller 1, alt efter om der er tale om en dreng/mand (0) eller pige/kvinde (1). Ved hjælp af den stokastiske variabel kan man afgøre hvad sandsynligheden er for udfaldet, altså om der trækkes en dreng/mand eller pige/kvinde. Der kan f.eks. spørges: Hvad er sandsynligheden for at den tilfældigt udvalgte elev er en pige? Med matematiske symboler vil det betegnes P }{{} Sandsynligheden for at ( X }{{} kønnet = }{{} er 1 }{{} en pige ) = }{{} er Hvis der er 387 elever på gymnasiet på det tidspunkt hvor eleven blev udtrykket og af dem var 243 piger, kan spørgsmålet besvares med følgende udregning.? Antallet af piger på gymnasiet P(X = 1) = Antal elever på gymnasiet = = 0,

16 Sandsynligheden for at den tilfældigt udvalgte elev er en pige er derfor 63%. Hvis der udtages en stikprøve af elever på gymnasiet skal 63% af eleverne i stikprøven være piger for at stikprøven kan siges at være repræsentativ (med hensyn til køn). På gymnasiet hvor man ønsker at undersøge hvorfor unge begynder at ryge ser fordelingen af drenge og piger i en stikprøve således ud. Køn Antal Piger 26 Drenge 14 Total 40 For at kunne sammenligne disse tal med alle elever på hele gymnasiet omregnes til procent. Dette gøres ved at dividerer antallet i den enkelte kategori med det totale antal. Køn Antal Procent Piger 26 65% Drenge 14 35% Total % For at kunne afgøre hvor sandsynligt det er at udtrække en stikprøve med netop denne fordeling, laves en statistisk test. Den test der skal udføres er om 0-hypotesen, H 0, som siger at: "Den procentvise forskel på antallet af piger i hhv. populationen (62,79%) og stikprøven (65%) skyldes tilfældighed."mod alternativ hypotesen H 1, som siger at: "Den procentvise forskel på antallet af piger i hhv. populationen (62,79%) og stikprøven (65%) skyldes ikke tilfældighed." Kun hvis stikprøven er i væsentligt afvigende overfor populationen antages den ikke at være tilfældig. For at kunne lave en statistisk test skal der vælges et signifikansniveau α. Er test-sandsynligheden mindre end α, betyder det at 0-hypotesen forkastes og at alternativ-hypotesen accepteres. Samtidig vil α være sandsynligheden for at for- 16

17 kaste en korrekt 0-hypotese, altså laven en fejl. Definition 3.3 Fejl af type I Forkastning af korrekt 0-hypotese. Ved en signifikanstest med fast niveau α f.eks. 5% er sandsynligheden for en type I fejl netop α. I dette tilfælde laves en binomial-test fordi variablen køn er dikotom. 3.2 Binomial-test Binomial-testen hænger sammen med binomial-fordelingen, som er en fordeling af sandsynlighederne for at en hændelse indtræffer et bestemt antal gange. Sandsynligheden for at en hændelse indtræffer r gange er antallet af mulige måder hændelse kan indtræffe på gange sandsynligheden for at det sker en gang. Den matematiske formel for sandsynligheden, P, for at hændelsen, H, med sandsynlighed, p, indtræffer r ud af n gange er P(H = r) = n! r! (n r)! pr (1 p) n r Sandsynligheden for at udtrække 26 (r) piger (p=0,6279) ud af 40 (n) er P(H = 26) = 40! 26! (40 26)! 0, (1 0,6279) ,126 Der er altså en sandsynlighed på 12,6% for at det blev netop 26 ud af 40 som var piger. Men dette er ikke nok til at afgøre om denne stikprøve er sandsynlig. Hele fordelingen skal tages i betragtning. Sandsynligheden for at 0 til 40 var piger skal udregnes. Dette er bedst at vise i en graf. 17

18 P(H = r) 0,15 0,10 0, r Antallet af piger i stikprøven Mulige alternativ hypoteser. Alternativ hypotese Formel til udregning af test-sandsynlighed Andelen af piger er større i stikprøven (r) end i populationen. Andelen af piger er mindre i stikprøven (r) end i populationen. p 1 = p 2 = n i=r r i=0 n! i! (n i)! n! i! (n i)! pi (1 p) n i pi (1 p) n i Er der valgt et 5% signifikansniveau skal de kritiske værdier findes ud fra det valgte signifikansniveau. De kritiske værdier er, de antal af piger som netop kan være i stikprøven for at 0-hypotesen accepteres. 18

19 Test-sandsynlighed 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 % α (5%) Antallet af piger i stikprøven r Af grafen ses det at de kritiske værdier er 20 og 30, det betyder at der skal være mellem 20 og 30 piger i stikprøven for at den kan accepteres. Ved et signifikansniveau på 5%. Er der valgt et 10% signifikansniveau skal de kritiske værdier findes ud fra det valgte signifikansniveau. De kritiske værdier er, de antal af piger som netop kan være i stikprøven for at 0-hypotesen accepteres. % Test-sandsynlighed 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 α (10%) Antallet af piger i stikprøven Af grafen ses det at de kritiske værdier er 19 og 29, det betyder at der skal være mellem 19 og 29 piger i stikprøven for at den kan accepteres. Ved et signifikansniveau på 10%. Bemærk at 0-hypotesen forkastes nemmere jo højere signifikansniveauet α er. 19 r

20 Dette stemmer godt overens med at α netop var sandsynligheden for at forkaste en rigtig 0-hypotese. Opgave 3.4 Befolkningen i Sydafrika er på 47,8 mio. indbyggere hvor af 18% har HIV/AIDS. 14% af kvinderne i alderen år har HIV/AIDS og 4% af mændene i alderen år har HIV/AIDS.[4] Test om følgende stikprøven kan siges at være signifikant på 5%-niveau. Gruppe Antal Kvinder i alderen år med HIV/AIDS 15 Kvinder i alderen år uden HIV/AIDS 55 Total 70 Definition 3.5 Fejl af type II Accept af forkert 0-hypotese. Sandsynligheden for at begå en type II fejl er 1 minus testens styrke. 3.3 Konklusion Hele ideen man statistik er, at blive i stand til at afgører om den forskel man ser mellem to målinger er signifikant. Vi har altså i den deskriptive statistik fundet metoder til at overskue store datamængder. Disse metoder viser dog ikke noget om disse forskelle skyldes tilfældighed eller om der er en årsag bag forskellene. Dette ledere frem til det centrale dogme i statistik. Det at forkaste 0-hypotesen ved en statistisk signifikansprøve betyder at man mener at forskellen mellem to grupper af individer eller to målinger er så stor at den ikke kan bero på ren tilfældighed. 0-hypotesen er den hypotese, at der ikke er forskel på de to grupper af individer eller de to målinger. Statistike signifikansprøver er en beregning af sandsynligheden for at forkaste en rigtig hypotese hhv. acceptere en forkert hypotese. Her vi vi komme ind for flere 20

21 signifikansprøver. Signifikansprøven er afhængig af datatypen. Forskellen mellem to grupper af individer eller to målinger kan være mange forskellige variable. F.eks. kan det være højden på mænd og kvinder. De to grupper er så mænd og kvinder og variablen er højden. Det kan også være holdning der er variablen og grupperne kan være de politiske partier. Grupperne kan også være radioaktive materialer og variablen kan være henfaldstiden...så stor.. Hvornår forskellen er stor nok, afhænger af signifikansniveauet (hvor mange fejl man vil acceptere), mængden af data (stikprøven) og hvor stor forskellen er. Ren tilfældighed vil sige, at der kun er tale om tilfældighed og ikke en underliggende årsag. 4 Middelværdi og spredning Middelværdien µ af et datasæt (eller en stokastisk variabel X) er summen af værdierne divideret med antallet af værdierne. n µ(x) = i P(X = i) i=1 Eksempel 4.1 Ved kast med en terning kom følgende udfald. Middelværdien µ bliver så Øjne Total Antal µ = = ,55 For at kunne være præcis i bevisførelsen i dette emne er det væsentligt at have kendskab til summationsnotation, derfor starter vi med et lille afsnit om det. 21

22 4.1 Summationsnotation Fordi man ikke vil skrive f.eks. kan man i stedet skrive n=1 Der startes med selve tegnet dette er det græske bogstav for S og er det første bogstav i sum, som betyder at lægge samme. Man skal altså et eller andet med at lægge sammen, men hvad er det man skal lægge sammen. Vi går videre til n = 1 og 11 dette betyder at vi skal startet med n = 1 og derefter n = 2 og derefter n = 3 osv. til vi kommer til n = 11. Lad os prøve først sætter vi n = 1 dvs. så sætter vi n = 2 dvs. så sætter vi n = 3 dvs. så sætter vi n = 4 dvs. 11 n=1 11 n=1 11 n=1 11 n=1 11 n=1 n n n = 1+ n = 1+2+ n = n = på denne måde forsætter vi til i = 11 dvs. 11 n=1 i =

23 hvilket er resultatet. Lad os prøve med et anden eksempel 7 1 n = og endnu et n=1 8 x n = x 1 +x 2 +x 3 +x 4 +x 5 +x 6 +x 7 +x 8 n=1 og et sidste 5 (2n 1) = (2 0 1)+(2 1 1)+(2 2 1)+(2 3 1)+(2 4 1)+(2 5 1) n=0 Eksempel 4.2 Udvid følgende sum Svar: 4 n=1 Opgave 4.3 Udvid følgende sum Opgave 4.4 Udvid følgende sum Opgave 4.5 Udvid følgende sum 4 n=1 3 1 = n=1 1 n+3 6 (n 1) n=2 8 n=3 n n+1 23

24 For rigtigt at kunne udnytte denne summationsnotation skal vi indføre en lille ekstra ting i summationsnotationen, og det er følgende n i=1 Nu står der ikke længere et tal for oven men n, og det betyder at man skal forsætte til man kommer til n. Eksempel 4.6 n i = (n 1)+n i=1 dette giver faktisk et resultat nemlig n(n+1) 2 prøv selv! Hvis f.eks. vi sætter n = 7 så vil summationen bliver 7 i = = 28 i=1 og n(n+1) = 7(7+1) 2 2 Dette er naturligvis ikke noget bevis. Eksempel 4.7 Udvid følgende sum n Svar: n i=3 Opgave 4.8 Udvid følgende sum i=3 = i i+1 = 56 2 = 28 i i+1 = n n+1 n (i 1) i=2 24

25 Opgave 4.9 Udvid følgende sum n i=3 i i De fire regneregler Vi starter med en præcis definition på middelværdien for den stokastisk variabel X. Definition 4.10 Middelværdien, µ, for den stokastiske variabel X er summen af produkterne af værdierne for X og deres sandsynligheder. n µ X = E(X) = x i p i hvor x i er værdierne for X og p i = P(X = x i ) deres sandsynligheder. i=1 Sætning 4.11 Hvis X og Y er stokastiske variable og a R er en konstant, gælder der følgende 4 regneregler: 1. E(a) = a 2. E(a X) = a E(X) 3. E(X +Y) = E(X)+E(Y) 4. E(X +a) = E(X)+a Bevis. Lad u 1,u 2,u 3,...,u n være de n udfald som de stokastiske variable er defineret ud fra. Og lad p 1,p 2,p 3,...,p n være sandsynlighederne for de n udfald. Husk på at sandsynlighederne tilsammen skal give 1. Dvs. n p i = 1 i=1 Og lad x 1,x 2,x 3,...,x n være værdierne for den stokastisk variabel X og lad y 1,y 2,y 3,...,y n være værdierne for den stokastisk variabel Y. Alle disse tal kan 25

26 opstilles i følgende tabel: u u 1 u 2 u 3 u n P(u) p 1 p 2 p 3 p n X(u) x 1 x 2 x 3 x n Y(u) y 1 y 2 y 3 y n Havde der været tale om kast med mønt ville tabellen se således ud: u plat krone P(u) 0,50 0,50 X(u) 1 2 Y(u) 0 1 Vi kan nu udregne middelværdien for den stokastiske variabel X i det den er summen af produkterne af værdier for X og deres sandsynlighed dvs. n µ X = E(X) = p 1 x 1 +p 2 x 2 +p 3 x 3 + +p n x n = p i x i og tilsvarende for den stokastisk variabel Y µ Y = E(Y) = p 1 y 1 +p 2 y 2 +p 3 y 3 + +p n y n = i=1 n p i y i i=1 Nu vises at E(a) = a E(a) = a p 1 +a p 2 +a p 3 + +a p n Ifølge definitionen af E(a). a sættes udenfor parantes. = a (p 1 +p 2 +p 3 + +p n ) = a 1 Idet n i=1 p i = 1. Nu vises at E(a X) = a E(X) 26

27 E(a X) = a p 1 x 1 +a p 2 x 2 + +a p n x n Ifølge definitionen af E(a+X). = a (p 1 x 1 +p 2 x 2 + +p n x n ) = a E(X) Nu vises at E(X +Y) = E(X)+E(Y) a sættes udenfor parantes. Ifølge definitionen af E(X). E(X +Y) = n i=1 (x i+y i ) p i Ifølge definitionen af E(X +Y). = n i=1 (x i p i +y i p i ) p i ganges ind i parentesen. = n i=1 (x i p i )+ n i=1 (y i p i ) Summationen deles op. Ifølge definitionen af = E(X)+E(Y) E(X) og E(Y). Nu vises at E(X +a) = E(X)+a E(X +a) = n i=1 (x i+a) p i Ifølge definitionen af E(X +a). = n i=1 (x i p i +a p i ) p i ganges ind i parentesen. = n i=1 (x i p i )+ n i=1 (a p i) Summationen deles op. = n i=1 (x i p i )+a n i=1 p i = E(X)+a 1 a sættes udenfor parantes. Ifølge definitionen på E(X) og idet n i=1 p i = 1. Q.E.D. 27

28 4.3 Varians og spredning Vi starter med en præcis definition på varians og spredning for den stokastisk variabel X. Definition 4.12 Variansen af den stokastiske variabel, X, er defineret som n Var(X) = E((X µ) 2 ) = (x i µ) 2 p i hvor µ er middelværdien for den stokastiske variabel, X, og x i er værdierne for den stokastiske variabel, X, og p i = P(X = x i ). i=1 Definition 4.13 Spredningen af den stokastiske variabel, X, er defineret som σ(x) = Var(X) Sætning 4.14 Variansen for den stokastiske variabel X kan udregnes som Var(X) = E(X 2 ) E(X) 2 Bevis. Var(X) = E((X µ) 2 ) Ifølge definitionen = E(X 2 +µ 2 2 µ X) Parentesen udregnes. = E(X 2 )+E(µ 2 )+E( 2 µ X) If. 3. regel i sæt = E(X 2 )+E(µ 2 ) 2 µ E(X) If. 2. regel i sæt = E(X 2 )+µ 2 2 µ E(X) If. 1. regel i sæt = E(X 2 )+µ 2 2 µ µ Da µ = E(X). = E(X 2 )+µ 2 2 µ 2 = E(X 2 ) µ 2 = E(X 2 ) E(X) 2 Da µ = E(X). Q.E.D. Man kan med fordel bruge 4.14 når man skal beregne middelværdi og spredning 28

29 for en stokastisk variabel. Eksempel 4.15 Beregn middelværdi og spredning for den stokastisk variabel X. t P(X = t) 0,15 0,32 0,23 0,26 0,04 Middelværdien beregnes ved at tage summen af produkterne af værdierne for X og deres sandsynligheder. µ = E(X) = 1 0,15+2 0,32+3 0,23+4 0,26+5 0,04 = 2,72 Variansen beregnes så ved at finde middelværdien af den stokastisk variabel X 2 dvs. t P(X = t) 0,15 0,32 0,23 0,26 0,04 X E(X 2 ) = 1 0,15+4 0,32+9 0, , ,04 = 8,66 Nu kan variansen findes ved at bruge sætning Var(X) = E(X 2 ) E(X) 2 = 8,66 2,72 2 = 1,2616 og spredningen bliver σ(x) = Var(X) = 1,2616 = 1,1232 Sætning 4.16 Hvis X er en stokastisk variabel og a og b konstanter, gælder Var(aX +b) = a 2 Var(X) 29

Vis mere