Indblik i statistik - for samfundsvidenskab
Læs mere om nye titler fra Academica på www.academica.dk
Nikolaj Malchow-Møller og Allan H. Würtz Indblik i statistik for samfundsvidenskab Academica
Indblik i statistik for samfundsvidenskab et forlag i Gyldendal Akademisk 1. udgave, 1. oplag, 2009 Forfatterne og Academica, Århus 2009 Forfattere: Nikolaj Malchow-Møller og Allan H. Würtz Forlagsredaktør: Torben Bystrup Jacobsen E-mail: forlaget@academica.dk www.academica.dk Omslag: Martin Bassett Illustrationer/tegninger/grafik: Special-Trykkeriet Viborg a-s et forlag i Gyldendal Akademisk Layout: Special-Trykkeriet Viborg a-s Sats: Special-Trykkeriet Viborg a-s Tryk: Special-Trykkeriet Viborg a-s Printed in Denmark 2009 ISBN 978-87-7675-583-6 et forlag i Gyldendal Akademisk Kopiering fra denne bog kan kun finde sted på institutioner eller virksomheder, der har indgået aftale med Copydan, og kun inden for de rammer, der er nævnt i aftalen. et forlag i Gyldendal Akademisk
Indholdsfortegnelse Forord 11 Om forfatterne 13 1 Statistik og erkendelse 15 1.1 Eksempler på problemstillinger 15 1.2 Deduktion og induktion 17 1.3 Et kort overblik over kapitlerne 19 1.4 Introduktion til Excel 2007 20 2 Populationer 23 2.1 Virkelige populationer 23 2.2 Måleskalaer 24 2.2.1 Nominal skala 25 2.2.2 Ordinal skala 25 2.2.3 Intervalskala 25 2.2.4 Ratioskala 26 2.2.5 Valg af skala 26 2.3 Overblik over et enkelt karakteristikum 26 2.3.1 Frekvenser og histogrammer 27 2.3.2 Median og fraktiler 32 2.3.3 Box plot 34 2.3.4 Middelværdi og varians 35 2.4 Overblik over flere karakteristika 37 2.4.1 Krydstabel og punktdiagram 37 2.4.2 Kovarians og korrelation 39 2.5 Diagrammer i Excel 41 2.5.1 Søjlediagram 42 2.5.2 Lagkagediagram 45 2.5.3 Punktdiagram 45 2.6 Opgaver 46 Indholdsfortegnelse 5
3 Usikkerhed og sandsynligheder 49 3.1 Usikkerhed 49 3.2 Fra population til stikprøve 50 3.2.1 Virkelige populationer 52 3.2.2 Superpopulationer 52 3.2.3 Udvælgelsesmekanisme og stikprøve 53 3.3 Sandsynlighedsmodellen 54 3.3.1 Udfaldsrum 55 3.3.2 Hændelsesalgebra 56 3.3.3 Sandsynlighedsmål 59 3.4 Regneregler for sandsynligheder 63 3.5 Betinget sandsynlighed 65 3.6 Uafhængighed og spuriøse sammenhænge 67 3.6.1 Uafhængighed 67 3.6.2 Direkte, indirekte og spuriøse sammenhænge 69 3.7 Opgaver 71 4 Stokastiske variabler 73 4.1 Definition af en stokastisk variabel 73 4.1.1 To typer af stokastiske variabler 75 4.2 Diskret stokastisk variabel 76 4.2.1 Sandsynlighedsfunktionen 77 4.2.2 Den kumulative sandsynlighedsfunktion 78 4.2.3 Sandsynlighedsfunktioner og andelsfunktioner 80 4.3 Sammenhænge mellem diskrete stokastiske variabler 82 4.3.1 Simultan sandsynlighed 82 4.3.2 Marginal sandsynlighed 83 4.3.3 Betinget sandsynlighed 85 4.3.4 Bayes formel 86 4.3.5 Uafhængighed 88 4.4 Kontinuert stokastisk variabel 89 4.4.1 Den kumulative sandsynlighedsfunktion 90 4.4.2 Tæthedsfunktionen 92 4.5 Sammenhænge mellem kontinuerte stokastiske variabler 94 4.6 Opgaver 95 5 Beskrivende mål 101 5.1 Beskrivende mål og stokastiske variabler 102 5.2 Momenter 103 5.2.1 Forventet værdi af en diskret stokastisk variabel 104 6 Indblik i statistik for samfundsvidenskab
5.2.2 Forventet værdi af en kontinuert stokastisk variabel 108 5.2.3 Varians af en diskret stokastisk variabel 109 5.2.4 Varians af en kontinuert stokastisk variabel 112 5.2.5 Momenter generelt 113 5.3 Fraktiler 114 5.4 Valg af beskrivende mål 119 5.4.1 Modalværdi 119 5.5 Beskrivende mål for sammenhænge mellem stokastiske variabler 120 5.5.1 Forventet værdi af en sum af stokastiske variabler 121 5.5.2 Kovarians 121 5.5.3 Korrelationskoefficient 125 5.6 Beskrivende mål ved hjælp af Excel 126 5.6.1 Middelværdi 126 5.6.2 Varians og standardafvigelse 128 5.6.3 Kovarians og korrelationskoefficient 128 5.7 Opgaver 129 Indholdsfortegnelse 7
8 Indblik i statistik for samfundsvidenskab
Indholdsfortegnelse 9
10 Indblik i statistik for samfundsvidenskab
Forord Denne bog er skrevet med henblik på et indledende kursus (10 ECTS-point) i statistik på videregående samfundsvidenskabelige uddannelser på BA-niveau. Bogen, som i øvrigt er en videreudvikling af Indblik i statistik en grundbog for videregående uddannelser finder således anvendelse inden for studier som fx økonomi, psykologi, statskundskab og sociologi. Kapitel 2-7 dækker sandsynlighedsteori (populationer, sandsynlighedsmål, stokastiske variabler, fordelinger, beskrivende mål og stokastiske processer), mens kapitel 9-18 dækker statistiske metoder (estimatorer, hypotesetest og konfidensintervaller for estimatorer, hypotesetest af sammenhænge samt lineær regression). Gennem hele bogen lægger vi vægt på at forklare sammenhængen mellem sandsynlighedsteori og de statistiske metoder. Således bruger vi kapitel 1 og 8 til at forklare, at det ultimative mål inden for samfundsvidenskab ofte er at bruge en stikprøve til at opnå viden om en ukendt population fx den danske befolknings holdning til et politisk spørgsmål. Men for at kunne håndtere den usikkerhed, der er indeholdt i en stikprøve, er vi nødt til at kende sandsynlighedsteorien. Endvidere lægger vi vægt på at forstå sammenhænge mellem forskellige størrelser, der alle er påvirket af usikkerhed fx sammenhængen indkomst og forbrug af bestemte varer da dette er den typiske situation, man belyser med empiriske undersøgelser inden for samfundsvidenskab. I modsætning til de naturvidenskabelige discipliner har man inden for samfundsvidenskab som oftest ikke mulighed for at lave laboratorieforsøg, hvor man kan undersøge hvad der sker med den ene størrelse (forbruget), når man laver en kontrolleret ændring i den anden (indkomsten). De statistiske metoder er derfor nødt til at tage højde for, at begge størrelser er stokastiske. Derfor lægger vi vægt på at forklare begreber som betinget sandsynlighed og betinget forventning samt metoder til at teste sammenhænge mellem stokastiske variabler. Denne tilgang anvender vi også i forbindelse med den lineære regression i kapitel 17-18 modsat mange andre lærebøger, som antager, at de forklarende variable ikke er stokastiske. Selvom dette måske umiddelbart ser ud til at give Forord 11
en lidt mere besværlig notation, så er fortolkningen til gengæld helt på linje med de øvrige fortolkninger i bogen. Det er desuden en mere realistisk tilgang til de situationer, man støder på i praksis inden for samfundsvidenskab. Afslutningsvis vil forfatterne takke Academicas redaktør Torben Bystrup Jacobsen for grundig gennemgang af manuskriptet. Nikolaj Malchow-Møller og Allan H. Würtz August 2009 12 Indblik i statistik for samfundsvidenskab
Om forfatterne Nikolaj Malchow-Møller er professor i økonomi ved Syddansk Universitet i Odense, og forskningschef ved Centre for Economic and Business Research på Copenhagen Business School. Han har en PhD-grad i økonomi fra Aarhus Universitet i 2002 og en Mastergrad i økonomi og økonometri fra University of Southampton i 1998. Han har undervist i økonometri (statistik) ved Syddansk Universitet i flere år og anvender løbende statistiske og økonometriske metoder i sin forskning inden for områder som international handel, migration, udviklingsøkonomi og iværksætteri. Allan H. Würtz er lektor i økonomi ved Institut for Økonomi, Aarhus Universitet. Han har en PhD-grad i økonomi fra University of Iowa, USA i 1996 og er cand. oecon. fra Aarhus Universitet i 1993. Ud over undervisning ved Aarhus Universitet har han i flere år undervist i økonometri og statistik ved Københavns Universitet og University of New South Wales, Australien. Han forsker i statistiske metoders anvendelse på økonomiske problemstillinger. Om forfatterne 13