2 Populationer I en statistisk sammenhæng er en population en samling af elementer, fx personer, virksomheder, lande, kunder eller mere abstrakte objekter. Fra en population kan man udtage en stikprøve. Forståelsen af samspillet mellem en population og udtrækningen af en stikprøve er helt afgørende i statistiske analyser og derfor et centralt element i denne bog. Inden vi undersøger dette samspil nærmere i de følgende kapitler, vil vi bruge dette kapitel til at kaste et første blik på nogle populationer og deres elementer. I dette kapitel vil vi udelukkende beskæftige os med virkelige populationer. I afsnit 2.1 forklarer vi, hvad vi mere præcist forstår ved en sådan population og dens elementer. I det efterfølgende afsnit viser vi, hvordan man kan repræsentere og sammenligne både kvalitative og kvantitative karakteristika ved de enkelte elementer i en population. Fordi en population kan indeholde mange elementer, kan det ofte være nyttigt at kunne sammenfatte elementerne på en overskuelig måde. I afsnit 2.3 viser vi, hvordan dette kan gøres ved hjælp af grafiske redskaber som fx et histogram eller med enkle talstørrelser som fx en middelværdi. Mens vi i afsnit 2.3 vil koncentrere os om at sammenfatte et enkelt karakteristikum ved elementerne i en population, som fx elementernes alder eller deres indkomst, ser vi i afsnit 2.4 på, hvordan man kan beskrive sammenhænge mellem sådanne karakteristika i en population. Endelig viser vi i afsnit 2.5, hvordan Excel kan anvendes i denne forbindelse. 2.1 Virkelige populationer En population er en samling af elementer, hvor hvert element kan have en række karakteristika. En population kan fx bestå af alle danskere, hvor hver person har karakteristika som fx alder, køn, uddannelse, bopæl, beskæftigelse og indkomst. Selvom elementerne i en population kan have mange forskellige karakteristika, fokuserer vi typisk kun på det eller de karakteristika, som er af interesse i en given undersøgelse, fx personernes alder og/eller deres indkomst. Når både elementerne i en population og deres karakteristika eksisterer, kalder vi populationen for en virkelig population. En virkelig population kan Populationer 23
således i princippet observeres. I de næste kapitler vil vi argumentere for nytten af også at definere såkaldte superpopulationer, der er mere abstrakte populationer. 2.2 Måleskalaer For at lave statistiske analyser er det nødvendigt, at man kan måle elementernes karakteristika. Målinger opgøres på forskellige typer af skalaer. Typen af skala har konsekvenser for hvilke analysemetoder, der efterfølgende kan anvendes. I dette afsnit kigger vi derfor nærmere på forskellige måleskalaer. Vi arbejder i denne bog udelukkende med karakteristika, som man kan repræsentere med en talværdi. Dette er ikke så restriktivt, som det lyder. Tænk fx på en person, hvor det relevante karakteristikum er, om hun er for eller imod et lovforslag. Dette lugter ikke umiddelbart af tal, men vi kan alligevel sagtens repræsentere for med talværdien 0 og imod med talværdien 1. Man måler forskellige karakteristika på forskellige skalaer. En persons ægteskabelige status (enlig, gift, skilt, enke) er fx målt på en anden skala end en persons vægt i kilo. Fordi typen af skala har stor betydning for valg af analysemetode, opdeler vi målinger i kvalitative og kvantitative målinger. Når det ikke er meningsfyldt at anvende de fire basale regnearter (addition, subtraktion, multiplikation og division) på værdierne fra en måling, så er målingen kvalitativ. Hvis det derimod er meningsfyldt at bruge de fire regnearter, siges målingen at være kvantitativ. Man skelner desuden mellem to typer af måleskalaer for en kvalitativ måling: Nominale og ordinale. Ligeledes skelner man mellem to slags måleskalaer i forbindelse med en kvantitativ måling: Intervalskalaer og ratioskalaer. Opdelingen er illustreret i tabel 2.1 sammen med de matematiske operationer, der er meningsfulde at anvende i forbindelse med hver af de fire måleskalaer. De fire skalaer uddybes yderligere i de følgende afsnit. Tabel 2.1: Målinger, måleskalaer og matematiske operationer Måling Måleskala Meningsfulde matematiske operationer Kvalitativ Nominal =, Ordinal =,, >, < Kvantitativ Interval =,, >, <, +, - Ratio =,, >, <, +, -,., / 24 Indblik i statistik for samfundsvidenskab
2.2.1 Nominal skala Et eksempel på en nominal måleskala er hårfarven på en person. Antag for eksemplets skyld, at hårfarven kun kan være hvid, sort eller rød, og at hvid repræsenteres med værdien 1, sort med værdien 2 og rød med værdien 3. Det giver ingen mening at bruge de fire regnearter her, fx ved at gange hvid med rød. Det giver heller ikke mening at tale om, at rød er større end sort, selvom rød er repræsenteret ved talværdien 3, mens sort kun har talværdien 2. Faktisk kan man i dette eksempel kun sige, om hårfarven på en person er lig med eller forskellig fra hårfarven på en anden person. Det vil sige, man kan skelne de forskellige værdier på skalaen: 1 = hvid; 2 = sort; og 3 = rød. Dette karakteriserer en nominal måleskala: Der er ingen struktur eller sammenhæng mellem værdierne på skalaen. 2.2.2 Ordinal skala Modsat en nominal skala giver det på en ordinal skala mening at tale om, at nogle værdier er større eller mindre end andre værdier. Hvis man fx skal måle de studerendes opfattelser af kaffens kvalitet i kantinen og angiver tre svarmuligheder: tilfreds, meget tilfreds eller super tilfreds på spørgeskemaet, så kan disse repræsenteres med talværdierne 1, 2 og 3. Her giver det mening at tale om, at tilfreds (= 1) er mindre end meget tilfreds (= 2), som igen er mindre end super tilfreds (= 3). En ordinal skala er således karakteriseret ved, at værdierne på skalaen er rangordnede. På en ordinal skala giver det imidlertid ikke mening at vurdere størrelsen af forskellen mellem to værdier. For eksempel kan man ikke konkludere, at forskellen mellem meget tilfreds og super tilfreds er den samme som mellem tilfreds og meget tilfreds. Man kan altså ikke trække talværdierne fra hinanden på en meningsfuld måde. 2.2.3 Intervalskala På en intervalskala giver det mening at tale om forskellen mellem to værdier. For eksempel er forskellen i kropstemperatur mellem to personer med temperaturer på henholdsvis +37 grader Celsius og +38 grader Celsius lig med 1 grad Celsius, hvilket er det samme som forskellen mellem to personer med henholdsvis +38 og +39 grader Celsius i kropstemperatur. Det giver derimod ikke mening at tale om et relativt forhold mellem to temperaturer målt i Celsius. Selvom det umiddelbart kunne virke meningsfuldt at sige, at +40 grader Celsius er dobbelt så varmt som +20 grader Celsius, så kan man se det problematiske i dette ved på samme måde at forsøge at sammenligne +30 grader Celsius med 10 grader Celsius. For at give relative sammenligninger mening er det nødvendigt med et naturligt nulpunkt. Et sådant nulpunkt er defineret Populationer 25
ved, at intet af det givne karakteristikum er til stede. Når temperaturen er 0 grader Celsius, så betyder det imidlertid ikke, at temperaturen ikke er til stede. 2.2.4 Ratioskala En ratioskala er en intervalskala med et naturligt nulpunkt. Vægten af en person har fx et naturligt nulpunkt, som er der, hvor han ikke vejer noget (og dermed ikke er til stede). Her giver det derfor mening at tale om det relative forhold mellem to værdier. Fx vejer en mand på 210,40 kg dobbelt så meget som en mand på 105,20 kg. Værdierne på en ratioskala kan også være heltal som for eksempel antallet af ægteskaber, en person har bag sig. Antallet af ægteskaber har det naturlige nulpunkt 0, som er fraværet af tidligere ægteskaber. 2.2.5 Valg af skala Det er værd at bemærke, at man ofte kan måle det samme karakteristikum på forskellige skalaer. Nogle gange vil måleskalaen være dikteret af de fysiske rammer for det, man måler. Der er dog ofte også et element af subjektivitet i valget af måleskala. Fx tilhører måling af temperaturer i Celsius en intervalskala, hvorimod måling af temperaturer i Kelvin tilhører en ratioskala. I samfundsvidenskaberne er det ikke usædvanligt, at det, man vil måle, ikke er præcist defineret fysisk. Et eksempel på dette er en persons intelligens eller en persons holdning til kaffens kvalitet i kantinen. Dermed er det ikke altid oplagt, hvordan måleskalaen skal udformes og fortolkes. Der opstår således et tæt samspil mellem målingen af et karakteristikum og den analytiker, som står for målingen. 2.3 Overblik over et enkelt karakteristikum For at kunne skabe sig overblik over interessante aspekter ved en population er det nyttigt at have metoder til at sammenfatte karakteristika i populationen. Dette er specielt vigtigt, når der er mange elementer i populationen. Men selv med blot 50 personer i en population kan det være svært at danne sig et overblik over fx deres indkomster eller alder blot ved at betragte de 50 forskellige værdier for disse. I dette afsnit vil vi derfor gennemgå en række grafiske og numeriske metoder til at sammenfatte og illustrere udvalgte karakteristika ved elementerne i en virkelig population. Til dette formål er det praktisk at indføre lidt notation. Lad derfor N pop være antallet af elementer i populationen, lad a j være det j te elements værdi af karakteristikum a (fx indkomst) og lad b j være det j te elements værdi at et andet karakteristikum benævnt b (fx forbrug), hvor j er et heltal mellem 1 og N pop. 26 Indblik i statistik for samfundsvidenskab
Eksempel 2.1: Indkomst og forbrug del 1 Tabel 2.2: Populationens elementer I en population bestående af fem individer, N pop = 5, har hvert individ en månedlig indkomst (karakteristikum a) og et månedligt dagligvareforbrug (karakteristikum b). Værdierne for disse karakteristika er vist i tabellen nedenfor: j (individ) a j (indkomst i tusinde kr.) b j (forbrug i tusinde kr.) 1 36 9 2 28 5 3 25 6 4 32 8 5 28 6 Indkomsten for individ nummer 3 er således a 3 = 25 (tusinde kr.). Individ nummer 2 og 5 har samme indkomst, så her er a 2 = a 5 = 28 (tusinde kr.). Forbruget for individ nummer 5 er b 5 = 6 (tusinde kr.). 2.3.1 Frekvenser og histogrammer En måde at sammenfatte en egenskab for en population på er ved at udregne andelen af elementer i populationen, som har en bestemt værdi af et karakteristikum. Fordi vi ofte er interesserede i denne størrelse, definerer vi en funktion, kaldet andelsfunktionen, som giver os disse andele. Lad z være en værdi af et karakteristikum. Andelsfunktionen, g(z), er da defineret som i følgende boks: Andelsfunktionen, g(z), for et karakteristikum i en virkelig population er defineret ved: antal elementer med værdien z g(z) = antal elementer i populationen Antallet af elementer i populationen er lig med N pop. Tælleren i den ovenstående brøk kaldes også for frekvensen, og g(z) kaldes også for den relative frekvens af elementer med værdien z. Hvis man ønsker et visuelt billede af andelsfunktionen, kan man afbilde den i et søjlediagram som vist i det følgende eksempel. Populationer 27
Eksempel 2.2: I eksempel 2.1 er andelen af elementer med en indkomst på 28 lig med 2/5 = Indkomst og 0,4. Andelsfunktionen udregnet for alle de forskellige værdier af indkomst i forbrug del 2 populationen er: Figur 2.1: Et søjlediagram g(z) = 0,2 hvis z = 25 0,4 hvis z = 28 0,2 hvis z = 32 0,2 hvis z = 36 For alle andre værdier af z er g(z) = 0. Man siger også, at den relative frekvens af indkomsten 28 er 0,4. I søjlediagrammet i figur 2.1 er de relative frekvenser repræsenteret ved højden af de forskellige pinde. Når man skal illustrere mange forskellige værdier af et karakteristikum, bliver et søjlediagram hurtigt uoverskueligt. I stedet er det ofte nyttigt at lave et histogram. Et histogram minder om et søjlediagram, men adskiller sig ved, at det slår værdier, der ligger tæt på hinanden, sammen i grupper. Derfor er et histogram specielt nyttigt ved kvantitative målinger. Hvor det i et søjlediagram er højden af en pind (eller søjle), der angiver den relative frekvens af given værdi, så er det i et histogram arealet af en søjle, der angiver den relative frekvens af en gruppe. Man kan konstruere et histogram på følgende måde: Inddel værdierne af et karakteristikum i grupper eller intervaller. Hvis fx værdierne ligger mellem 0 og 100, så kan man lave 10 intervaller med bredden 10, hvor det første interval indeholder alle værdier større end (eller lig med) 0 og mindre end eller lig 28 Indblik i statistik for samfundsvidenskab
med 10. Det andet interval indeholder værdier, der er større end 10 og mindre end eller lig med 20, osv. Læg mærke til, at en værdi skal tilhøre én, og kun én, gruppe. Man kalder da det første interval for 5-gruppen, fordi 5 er midtpunktet i intervallet. Det næste skridt er at konstruere en søjle, hvis areal svarer til den relative frekvens af elementer i gruppen. Hvis en gruppe således indeholder 25 % af elementerne og har bredden 10, så skal højden på søjlen være: 0,25 10 = 0,025 (eller 2,5 hvis man regner i procent). Det næste eksempel illustrerer forskellen på et søjlediagram og et histogram. Eksempel 2.3: Et fodboldhold I en mindre fodboldklub er målene gennem sæsonen blevet scoret af 12 forskellige spillere. Disse spillere danner derfor en population, hvor elementerne har følgende værdier: 1, 2, 3, 4, 5, 6, 7, 8, 13, 13, 13, 17, som er antallet af mål scoret af hver spiller. Et søjlediagram med de relative frekvenser er vist i figur 2.2: Figur 2.2: Et søjlediagram Det ses af søjlediagrammet, at værdien 13 udgør 25 % af værdierne. Man kan nu konstruere et histogram for værdierne ved at inddele dem i grupper (intervaller) af bredden 5. Første gruppe er da værdierne 0 til og med 5, kaldet 2,5-gruppen, næste gruppe er værdierne fra 5 til og med 10, kaldet 7,5-gruppen, tredje gruppe er værdierne fra 10 til og med 15, kaldet 12,5-gruppen, og endelig er sidste gruppe værdierne fra 15 til og med 20, kaldet 17,5-gruppen. Figur 2.3 viser histogrammet. Populationer 29
Figur 2.3: Et histogram version 1 Da hver gruppe har bredden 5, og eftersom 12,5-gruppen indeholder 25 % af elementerne i populationen (3 ud af 12), så er højden af denne søjle lig med 0,25/5 = 0,05. Tilsvarende inkluderer 2,5-gruppen i alt 5 elementer, hvorfor højden af denne søjle er (5/12)/5 = 0,083. Når man laver et histogram, behøver alle grupper ikke have samme bredde. Man kunne fx slå de to sidste grupper sammen til én gruppe, som da vil gå fra 10 til og med 20. Dermed får denne gruppe bredden 10, og da den rummer 4 ud af 12 elementer, vil dens søjle have højden (4/12)/10 = 0,033 som vist i figur 2.4. Figur 2.4: Et histogram version 2 30 Indblik i statistik for samfundsvidenskab
En anden type af diagram, som illustrerer andelsfunktionen, er et lagkagediagram. I et lagkagediagram repræsenterer lagkagen hele populationen, og de forskellige stykker repræsenterer forskellige værdier (eller grupper af værdier) i populationen. Et stykkes andel af lagkagen svarer da til dets værdis relative frekvens i populationen. Er arealet af hele lagkagen lig med én, er arealet af et lagkagestykke derfor givet ved andelsfunktionen. Lagkagediagrammet er nyttigt i forbindelse med både kvalitative og kvantitative målinger. Eksempel 2.4: Indkomst og forbrug del 3 Et lagkagediagram for indkomsterne i populationen fra eksempel 2.1 er vist i figur 2.5. Figur 2.5: Et lagkagediagram Nogle gange kan det være interessant at kende den andel af populationen, der har en indkomst mindre end eller lig med en given værdi. Fx andelen af personer, der lever under fattigdomsgrænsen. Sådanne andele kaldes også for kumulative andele eller kumulative relative frekvenser. Formelt kan man definere en kumulativ andelsfunktion, G(z), på følgende måde: Den kumulative andelsfunktion, G(z), for et karakteristikum i en virkelig population er defineret ved: antal elementer med værdi z G(z) = antal elementer i populationen Populationer 31
Eksempel 2.5: Indkomst og forbrug del 4 Frekvenser, relative frekvenser og kumulative relative frekvenser for populationen fra eksempel 2.1 er udregnet i nedenstående tabel: Tabel 2.3: Kumulative relative frekvenser Værdier Frekvens Relativ frekvens Kumulativ relativ frekvens 25 1 0,2 0,2 28 2 0,4 0,6 32 1 0,2 0,8 36 1 0,2 1,0 Den kumulative andelsfunktion for denne population er da: 0 hvis z 25 0,2 hvis 25 z < 28 G(z) = 0,6 hvis 36 z < 32 0,8 hvis 36 z < 36 1 hvis 36 z Man kan aflæse direkte af den kumulative andelsfunktion, at andelen af populationen med en indkomst på højst 28 er G(28) = 0,6. Bemærk, at man også kan aflæse den kumulative andelsfunktion for en indkomstværdi, som ikke findes i populationen. For eksempel er andelen af populationen med en indkomst på højst 33 lig med 0,8, idet G(33) = 0,8. 2.3.2 Median og fraktiler Ofte er det nyttigt at kunne beskrive en population med nogle få nøgletal. Et sådant nøgletal er medianen. En median er en værdi, som deler elementerne i populationen i to lige store grupper, hvor den ene gruppe har værdier større end medianen, og den anden gruppe har værdier mindre end medianen. Det giver primært mening at udregne medianen ved en kvantitativ måling. En måde, hvorpå man kan finde medianen, er ved at rangordne alle værdierne fra den mindste til den største. Man betegner da den mindste værdi med a (1), hvor parentesen om fodtegnet angiver, at der er tale om en rangordnet værdi. Det er altså ikke nødvendigvis tilfældet, at a (1) = a 1, hvor a 1 er værdien af det første element. Kun hvis det første element også er det mindste element, er a (1) = a 1. Den næstmindste værdi i populationen betegner man da a (2) og den største værdi a (N pop). 32 Indblik i statistik for samfundsvidenskab
Medianen er den midterste rangordnede værdi. Hvis der fx er 25 elementer i populationen, så er medianen værdien af det 13. mindste element, a (13), da der så er 12 værdier, a (14),, a (25), der er mindst lige så store som a (13), og 12 værdier, a (1),, a (12), der er mindst lige så små som a (13). Er der et lige antal elementer i populationen, findes der ikke ét element, der deler populationen i to lige store dele. Hvis fx populationen har 10 elementer, tager man i stedet gennemsnittet af det 5. og 6. mindste element, nemlig: 0,5 (a (5) + a (6) ). Ud fra dette kan man opskrive en generel regel til brug for udregningen af medianen i en virkelig population: Medianen af et karakteristikum a i en virkelig population er givet ved: median = a (0,5 Npop + 0,5), hvis N pop er ulige 0,5(a (0,5 Npop ) + a (0,5 Npop + 1)), hvis N pop er lige hvor N pop er antallet af elementer i populationen og a (j) er det j te mindste rangordnede element i populationen. Eksempel 2.6: Indkomst og forbrug del 5 Tabel 2.4: Rangordnede værdier Tabel 2.4 viser de rangordnede indkomstværdier for elementerne i populationen fra eksempel 2.1: Rangordning, j Rangordnet værdi a (j) 1 25 2 28 3 28 4 32 5 36 Da N pop er et ulige tal i dette eksempel, så er medianen a (0,5 5 + 0,5) = a (3) = 28. Medianen er et eksempel på en fraktil. Generelt er en p-fraktil en værdi, hvorom det gælder, at andelen p af elementerne i populationen har en værdi mindre end p-fraktilen. Derfor er p altid et tal mellem 0 og 1. Hvis man fx undersøger alderen for personerne i en population, så er 0,1-fraktilen lig med den alder, hvorom det gælder, at 10 % er yngre og 90 % er ældre. Medianen er derfor en 0,5-fraktil. Populationer 33
Som for medianen kan man opstille en regneregel for udregningen af en p-fraktil i en virkelig population. Til dette formål er det praktisk at definere [x] til at betyde heltalsværdien af et tal, x. For eksempel er [5,5] = 5 og [831,97] = 831. Så kan man udregne p-fraktilen på følgende vis: p-fraktilen af et karakteristikum a i en virkelig population er givet ved: p-fraktil = a ([p Npop + 1]), hvis p N pop ikke er heltal 0,5(a (p Npop ) + a (p Npop + 1)), hvis p N pop er et heltal hvor N pop er antallet af elementer i populationen, a (j) er det j te mindste rangordnede element i populationen og [ ] angiver heltalsværdien af et tal. Eksempel 2.7: I populationen fra eksempel 2.1 kan man finde 0,75-fraktilen som: a ([0,75 5+1]) Indkomst og = a ([4,75]) = a (4) = 32, idet 0,75 N pop = 0,75 5 = 3,75 ikke er et heltal. forbrug del 6 Man betragter ofte 0,1-, 0,25-, 0,75- og 0,9-fraktilerne, når man vil sammenfatte en population ved hjælp af fraktiler. Sammen med medianen giver disse størrelser et godt billede af, hvordan værdierne i populationen fordeler sig. Eksempel 2.8: Den danske befolkning Tabel 2.5: Fraktiler for kvinder og mænds alder i Danmark Der er godt 5 millioner personer i Danmark. Nedenstående tabel er baseret på tal fra Danmarks Statistik for januar 2008 og viser udvalgte fraktiler for henholdsvis danske kvinder og mænds alder målt i år. Fraktiler 0,1 0,25 0,5 0,75 0,9 Kvinder 8 20 40 58 72 Mænd 7 19 38 56 68 Det ses af tabellen, at der er en større andel af mænd, som er unge, sammenlignet med kvinder. Således er fx halvdelen af mændene 38 år eller derunder, mens halvdelen af kvinderne er 40 år eller derover. 34 Indblik i statistik for samfundsvidenskab
Figur 2.6: Et box plot 2.3.3 Box plot I et box plot (også kaldet et box-and-whisker plot ) afsætter man den mindste værdi, 0,25-fraktilen, medianen, 0,75-fraktilen og den største værdi i populationen som vist i figur 2.6. Grafisk forbinder man den mindste værdi og 0,25-fraktilen med en streg, og ligeledes forbinder man 0,75-fraktilen og den største værdi med en streg. Man tegner dernæst et rektangel med 0,25-fraktilen og 0,75-fraktilen som de to endestykker. Endelig markerer man medianen med en lodret streg gennem rektanglet. Et box plot er nyttigt, når man fx vil sammenligne forskellige populationer. 2.3.4 Middelværdi og varians Ved kvantitative målinger har man mulighed for at udregne nogle flere nøgletal, som beskriver centrale egenskaber ved populationen. Et sådant nøgletal er middelværdien. Middelværdien af et karakteristikum a i en virkelig population er defineret på følgende måde: Middelværdien af et karakteristikum a i en virkelig population er givet ved: N pop 1 1 N pop N pop j=1 µ a = (a 1 + a 2 + + a Npop ) = a j hvor N pop er antallet af elementer i populationen og a 1, a 2,, a Npop er de forskellige værdier af karakteristikum a i populationen. Sumtegnet, Np o p j= 1 a j, betyder, at man skal summere alle værdierne af a i populationen. Middelværdien er således den gennemsnitlige værdi af et karakteristikum i populationen. Det er den værdi, man får, hvis man deler summen i populationen, Np o p j= 1 a j, ligeligt ud på alle elementer i populationen, så hvert element får en N pop te del af summen. Populationer 35
Eksempel 2.9: Indkomst og forbrug del 7 I populationen fra eksempel 2.1 er middelværdien af indkomsten lig med: µ indkomst = 1_ (36 + 28 + 25 + 32 + 28) = 29,8 (tusinde kr.) 5 Bemærk, at der er ingen af individerne, som rent faktisk har en indkomst lig med middelværdien. Tilsvarende kan man vise, at middelværdien af forbruget i populationen er µ forbrug = 6,8 (tusinde kr.) To populationer kan have samme middelværdi, men alligevel være meget forskellige. Hvis den ene population rummer to elementer med værdierne 15 og 13, så er middelværdien 14. Men middelværdien er også 14 i en population med to elementer, hvor det ene element har værdien 26 og det andet har værdien 2. I den sidste population er værdierne imidlertid spredt mere ud end i den første population. Middelværdien er altså ikke en fuldstændig beskrivelse af en population. En nøgletal, der giver overblik over spredningen i en population, er variansen. Variansen giver et indtryk af, hvordan værdierne i populationen er spredt omkring middelværdien. Variansen for en virkelig population er defineret i følgende boks: Variansen af et karakteristikum a i en virkelig population er givet ved: 1 1 N pop N pop j=1 σ a 2 = ((a 1 µ a ) 2 + (a 2 µ a ) 2 + + (a Npop µ a) 2 ) = (a j µ a ) 2 N pop hvor N pop er antallet af elementer i populationen, a 1, a 2,, a Npop er de forskellige værdier af karakteristikum a i populationen, og µ a er middelværdien af karakteristikum a. I det ekstreme tilfælde, hvor alle elementer i populationen har samme værdi, a 1 = a 2 = = a N pop, er variansen 0. I alle andre tilfælde er variansen større end 0. Man udregner ofte også kvadratroden af variansen, fordi denne har samme måleenhed som værdierne selv. Denne kaldes standardafvigelsen og er defineret som: 36 Indblik i statistik for samfundsvidenskab
Standardafvigelsen af et karakteristikum a i en virkelig population er givet ved: σ a = σ a 2, hvor σ a 2 er variansen af karakteristikum a i populationen. Standardafvigelsen er et mål for den gennemsnitlige afvigelse fra middelværdien i populationen. Eksempel 2.10: Indkomst og forbrug del 8 I populationen fra eksempel 2.1 er variansen af indkomsten lig med: σ 2 indkomst = 1_ 5 ((36 29,8)2 + (28 29,8) 2 + (25 29,8) 2 + (32 29,8) 2 + (28 29,8) 2 ) = 14,56 Variansen måles i dette tilfælde i (tusinde kroner) 2. Standardafvigelsen er derimod σ indkomst = 3,82 tusinde kr. Variansen eller standardafvigelsen kan man bruge til at sammenligne to populationer, fx indkomster i Danmark og indkomster i USA. Umiddelbart vil vi forvente, at variansen er noget højere i det sidste tilfælde. I kapitel 5 vender vi tilbage til fortolkningen af både middelværdi og varians. 2.4 Overblik over flere karakteristika Inden for samfundsvidenskab er man ofte interesseret i at undersøge, hvordan forskellige karakteristika samvarierer. For eksempel er der mange, der har undersøgt, om der er sammenhæng mellem køn og indkomst, således at fx mænd har en tendens til at tjene mere end kvinder. I dette afsnit skal vi derfor se på en række metoder, grafiske såvel som numeriske, til at sammenfatte og illustrere sammenhænge mellem to (eller flere) karakteristika i en virkelig population. 2.4.1 Krydstabel og punktdiagram Til at beskrive sammenhænge mellem to karakteristika i en population kan man opstille en krydstabel. En krydstabel tabulerer frekvenserne eller de relative frekvenser af de forskellige kombinationer af de to karakteristika i populationen. Populationer 37
Eksempel 2.11: Køn og sportsgrene Tabel 2.6: En krydstabel med frekvenser Betragt følgende population med 12 elementer, hvor hvert element er en person med to karakteristika: (1) personens køn: kvinde eller mand; og (2) personens foretrukne sportsgren ud af tre mulige: fodbold, håndbold eller isdans. De 12 elementer i populationen ser ud som følger: (mand, isdans), (kvinde, håndbold), (kvinde, isdans), (kvinde, isdans), (mand, fodbold), (kvinde, håndbold), (mand, fodbold), (kvinde, håndbold), (mand, fodbold), (mand, håndbold), (kvinde, håndbold) og (kvinde, fodbold). Et mere overskueligt billede af denne population får man ved at lave en krydstabel med frekvensen af hver mulig kombination af de to karakteristika som vist i tabel 2.6. Fodbold Håndbold Isdans Kvinde 1 4 2 Mand 3 1 1 Man kan også lave en krydstabel med relative frekvenser som vist i tabel 2.7. Tabel 2.7: En krydstabel med relative frekvenser Tabel 2.8: En krydstabel med relative frekvenser for hvert køn Fodbold Håndbold Isdans Kvinde 1/12 4/12 2/12 Mand 3/12 1/12 1/12 Forskellene mellem mænd og kvinder skyldes både forskelle i foretrukne sportsgrene samt et forskelligt antal mænd og kvinder i populationen. Hvis man vil vurdere forskellen mellem mænd og kvinders foretrukne sportsgren, så kan det være mere nyttigt at udregne de relative frekvenser for hvert køn for sig. Dette er gjort i tabel 2.8. Det ses da, at andelen af kvinder, som foretrækker håndbold er betydelig større end andelen af mænd, som foretrækker håndbold. Fodbold Håndbold Isdans Kvinde 1/7 4/7 2/7 Mand 3/5 1/5 1/5 Til at få et godt visuelt billede af samvariationen mellem to karakteristika kan man tegne et punktdiagram. I et punktdiagram angiver man for hvert element værdierne af de to karakteristika med en prik i et todimensionelt koordinatsystem. 38 Indblik i statistik for samfundsvidenskab
Eksempel 2.12: I figur 2.7 er værdierne af de to karakteristika (indkomst og forbrug) afbildet Indkomst og for de fem elementer i populationen fra eksempel 2.1. Værdien af indkomsten forbrug del 9 (karakteristikum a) er vist på den vandrette akse, mens værdien af forbruget (karakteristikum b) fremgår af den lodrette akse. Således repræsenterer prikken længst til højre det første element i populationen, som har indkomst lig med 36 (tusinde kr.) og forbrug på 9 (tusinde kr.), jf. tabel 2.2. Af figuren ser der ud til at være en positiv sammenhæng mellem indkomst og forbrug i populationen. Figur 2.7: Et punktdiagram 2.4.2 Kovarians og korrelation Sammenhænge mellem karakteristika i en population kan også opsummeres i simple nøgletal. Lad som ovenfor a j være det j te elements værdi af et karakteristikum a, mens b j er det j te elements værdi af karakteristikum b. Kovariansen, σ a,b, mellem de to karakteristika i en virkelig population, er defineret i følgende boks: Kovariansen mellem to karakteristika, a og b, i en virkelig population, er: 1 σ a,b = ((a 1 µ a )(b 1 µ b ) +(a 2 µ a)(b 2 µ b ) + N pop + (a Npop µ a)(b Npop µ b )) N pop 1 = (a j µ a )(b j µ b ) N pop j=1 hvor a 1, a 2,, a Npop og b 1, b 2,, b Npop er værdierne af de to karakteristika for de N pop elementer i populationen, og µ a og µ b er middelværdierne af de to karakteristika i populationen. Populationer 39
karakteristika for de elementer i populationen og og er middelværdierne af de to karakteristika i populationen. En positiv kovarians betyder, at der er en tendens til, at et element med en høj værdi af det ene karakteristikum også har en høj værdi af En positiv kovarians betyder, at der er en tendens til, at et element med en høj det andet karakteristikum. Er kovariansen negativ, betyder det, at der værdi af det ene karakteristikum også har en høj værdi af det andet karakteristikum. Er kovariansen negativ, betyder det, at der er en tendens til, at et ele- er en tendens til, at et element med en høj værdi af det ene karakteristikum har en lav værdi af det andet karakteristikum. "Høje" ment med en høj værdi af det ene karakteristikum har en lav værdi af det andet karakteristikum. Høje og lave værdier er her set i forhold til og "lave" værdier er her set i forhold til middelværdierne af de pågældende karakteristika. middelværdierne Det er ofte mere af de informativt pågældende at karakteristika. se på korrelationskoefficienten,, Det er ofte mere informativt at se på korrelationskoefficienten, ρ a,b, som er som er et tal mellem 1 og 1: et tal mellem 1 og 1: Korrelationskoefficienten mellem to karakteristika, og, i en Korrelationskoefficienten virkelig population, mellem er: to karakteristika, a og b, i en virkelig population, er: σ ab, ρab, = σ σ hvor er kovariansen mellem de to karakteristika og og er hvor σ standardafvigelserne a,b er kovariansen mellem de to karakteristika, og σ af de to karakteristika i populationen. a og σ b er standardafvigelserne af de to karakteristika i populationen. a b Korrelationskoefficienten har samme fortegn som kovariansen. Hvis Korrelationskoefficienten korrelationskoefficienten har samme er positiv, fortegn siger som man, kovariansen. at der er Hvis positiv korrelationskoefficienten korrelation mellem er positiv, de to siger karakteristika. man, at der Er er korrelationskoefficienten positiv mellem de to karakteristika. negativ, siger Er man, korrelationskoefficienten der er negativ korrelation negativ, mellem siger man, de at to der er negativ karakteristika. korrelation mellem de to karakteristika. Eksempel 2.13: Indkomst og forbrug ñ del 10 Eksempel 2.13: I populationen fra eksempel 2.1 er kovariansen mellem indkomst og forbrug: Indkomst og I populationen 1 fra σ indkomst, forbrug = 1_ eksempel 2.1 er kovariansen mellem indkomst og σ forbrug: indkomst, forbrug = ( ( 36 5 ((36 29,8 )( 9 29,8)(9 6,8 ) + ( 6,8) 28 29,8 + (28 )( 5 29,8)(5 6,8 ) 6,8) forbrug del 5 10 + (25 + 25 29,8)(6 66,8) + + (32 32 29,8)(8 8 6,8) + (28 29,8)(6 6 6,8 6,8)) ) = 4, = 4,96 ( )( ) ( )( ) ( )( ) Korrelationskoefficienten er: 4,96 ρ indkomst, forbrug = = 0,88 14,56 3,82 1,47 2,16 Der er positiv korrelation mellem indkomst og forbrug. Dermed er der tendens til, at individer med et relativt h jt forbrug ogsâ har en relativt h j indkomst. Dette passer fint med det indtryk, man fâ r af at se pâ punktdiagrammet i figur 2.7. Der er positiv korrelation mellem indkomst og forbrug. Dermed er der tendens til, at individer med et relativt højt forbrug også har en relativt høj indkomst. Dette passer fint med det indtryk, man får af at se på punktdiagrammet i figur 2.7. Bemærk, at man ikke kan konkludere noget om en årsagssammenhæng alene baseret på korrelationen. I eksempel 2.13 er der en positiv korrelation mellem indkomst og forbrug. Det kan fx skyldes, at man kan forbruge mere med en høj indkomst, og dermed at indkomsten er årsagen til det højere forbrug. Det kan dog også 40 Indblik skyldes, i statistik en for samfundsvidenskab person ønsker at have et højt forbrug, hvilket nødvendiggør en høj indkomst. Dermed bliver forbruget årsagen til den højere indkomst. Endelig kan det være helt andre faktorer som fx livsstilsvalg eller sociale tilhørsforhold, der bestemmer både ens forbrug og ens indkomst. Vi vender tilbage til dette senere i bogen.
Bemærk, at man ikke kan konkludere noget om en årsagssammenhæng alene baseret på korrelationen. I eksempel 2.13 er der en positiv korrelation mellem indkomst og forbrug. Det kan fx skyldes, at man kan forbruge mere med en høj indkomst, og dermed at indkomsten er årsagen til det højere forbrug. Det kan dog også skyldes, at en person ønsker at have et højt forbrug, hvilket nødvendiggør en høj indkomst. Dermed bliver forbruget årsagen til den højere indkomst. Endelig kan det være helt andre faktorer som fx livsstilsvalg eller sociale tilhørsforhold, der bestemmer både ens forbrug og ens indkomst. Vi vender tilbage til dette senere i bogen. 2.5 Diagrammer i Excel Vi vil i dette afsnit se på, hvordan man kan bruge Excel til at få overblik over en population. Konkret vil vi vise, hvordan man kan konstruere søjlediagrammer, lagkagediagrammer og punktdiagrammer i Excel. I kapitel 5 vil det blive vist, hvordan Excel også kan bruges til at udregne middelværdier, varianser m.m. I de første syv rækker af regnearket nedenfor er vist populationen fra tabel 2.2. Række 9-13 indeholder desuden frekvenser og relative frekvenser af de fire forskellige værdier af forbrug, b j, i populationen. Prøv at taste tallene ind i et regneark, så du selv kan prøve at udføre de efterfølgende operationer i Excel. Populationer 41
2.5.1 Søjlediagram Hvis man fx vil lave et søjlediagram over forbruget, kan det gøres på følgende måde: Klik på Indsæt i den øverste menu og derefter på Søjle i menuen nedenunder. I den drop-down menu, der fremkommer, vælges den første mulighed under 2D-søjlediagram. Der fremkommer nu et blankt område midt på skærmen samt en ny menu foroven. I denne menu klikkes på Vælg data, hvorefter følgende dialogboks dukker op: 42 Indblik i statistik for samfundsvidenskab
Her skal vi først have angivet cellereferencerne for de frekvenser, der skal afbildes. Dette gøres ved at klikke på knappen Tilføj, hvorved følgende dialogboks åbner sig: I rubrikken under Serienavn kan man fx skrive Forbrug for at angive, at det drejer sig om frekvenser for forbrug i populationen. Dernæst klikker man på regnskabsikonet til højre for rubrikken under Serieværdier. Man kan derefter med musen markere de celler, hvor frekvenserne befinder sig (cellerne C10 til C13), hvorefter man trykker Return. Excel vil da selv angive cellereferencerne i rubrikken under Serieværdier som vist nedenfor: Derefter klikker man OK, og man ryger da tilbage til den oprindelige dialogboks: Populationer 43
Det næste skridt er at angive cellereferencerne for de forskellige værdier af forbrug, b j, i populationen. Dette gøres ved at klikke på knappen Rediger under Vandrette (Kategori) akseetiketter. Da fremkommer følgende dialogboks: I rubrikken angiver man cellereferencerne for de fire værdier af forbrug, som er A10:A13. Dernæst klikker man på OK, og man ryger endnu engang tilbage til den oprindelige dialogboks: Nu har man fået angivet både de forskellige værdier af forbrug i populationen og de tilhørende frekvenser. Tilbage er blot at klikke OK. Man har da et søjlediagram over de relative frekvenser for forbruget i populationen: 44 Indblik i statistik for samfundsvidenskab
2.5.2 Lagkagediagram Et lagekagediagram konstrueres på stort set samme måde som et søjlediagram. Man klikker først på Indsæt i den øverste menu og derefter på Cirkel. I den drop-down menu, der fremkommer, vælges den første mulighed under 2D-cirkel. Derefter følges nøjagtig samme fremgangsmåde som ved konstruktionen af søjlediagrammet. 2.5.3 Punktdiagram Excel kan også anvendes til at konstruere punktdiagrammer. Klik på Indsæt og dernæst på Punktdiagram. I den drop-down menu, der fremkommer, vælges den første mulighed ( Punktdiagram kun med datamærker ). Populationer 45
Igen fremkommer der et blankt område midt på skærmen samt en ny menu foroven. I denne menu klikkes som før på Vælg data og derefter på Tilføj, hvorefter følgende dialogboks dukker op: I rubrikken under Serienavn skriver man fx Indkomst og forbrug. Under X- serieværdier angiver man cellereferencerne for indkomstobservationerne i populationen, som er B3:B7. Dette gøres som før ved at klikke på regnskabsikonet og derefter markere cellerne med musen. Under Y-serieværdier angiver man tilsvarende cellereferencerne for forbrugsobservationerne i populationen, som er C3:C7. Dernæst klikkes OK, hvorefter man returnerer til den oprindelige dialogboks. Her klikkes igen OK, og man får da punktdiagrammet. 2.6 Opgaver 1. Repetitionsspørgsmål a) Hvad er en virkelig population? b) Gør kort rede for de fire typer af måleskalaer. c) Forklar hvad andelsfunktionen og den kumulative andelsfunktion viser. d) Forklar forskellen på et søjlediagram og et histogram. e) Hvordan finder man medianen og en p-fraktil i en virkelig population? f) Forklar hvordan man udregner middelværdien, variansen og standardafvigelsen i en virkelig population. g) Hvad viser en krydstabel og et punktdiagram? h) Forklar hvordan man udregner en kovarians og en korrelationskoefficient, og hvordan man fortolker disse. 2. Efter en rustur på universitetet opgjorde man henholdsvis alderen og antallet af indtagne genstande for de deltagende studerende. Populationens størrelse var på 21 personer, som havde følgende karakteristika (alder, antal genstande): 46 Indblik i statistik for samfundsvidenskab
(18, 5), (22, 0), (18, 21), (22, 7), (24, 2), (20, 10), (20, 7), (27, 0), (19, 32), (20, 5), (20, 10), (22, 12), (24, 2), (24, 4), (22, 10), (20, 14), (24, 6), (27, 0), (22, 0), (20, 10), (20, 21) og (24, 2). a) Opstil andelsfunktionen og den kumulative andelsfunktion for antal genstande i populationen. b) Tegn et søjlediagram med de relative frekvenser af antal genstande. c) Tegn et histogram for antal genstande med intervalbredden 5. d) Konstruér et lagkagediagram for antal genstande. e) Find medianen af antal genstande samt 0,25- og 0,75-fraktilerne. f) Tegn et box plot for antal genstande. g) Beregn middelværdi, varians og standardafvigelse af antal genstande i populationen. 3. Betragt populationen fra opgave 2. a) Konstruér en krydstabel for de relative frekvenser af alder og antal genstande. b) Tegn et punktdiagram for alder og antal genstande c) Udregn kovariansen mellem alder og antal genstande. Hvad fortæller den dig? d) Udregn også korrelationskoefficienten. Populationer 47