Bilag 1. Om læsning og tolkning af kort udformet ved hjælp af korrespondanceanalysen. Korrespondanceanalysen er en multivariat statistisk analyseform, som i modsætning til mange af de mere traditionelle statistiske metoder, hvor man forsøger at isolere uafhængige variable, bruges korrespondanceanalysen til at studere den gensidige indvirkning en række variable har på hinanden. Frem for at fokusere på få, isolerede egenskaber analyseres det samlede billede af gensidigt interagerende egenskaber. Tanken er, at når variable og disses egenskaber ikke i det virkelige liv fungerer isolerede af hinanden så må man benytte en statistisk metode, der ikke gør vold på den vekselvirkning, der vitterligt eksisterer. Korrespondanceanalysen viser individer og deres egenskaber i forhold til hvad der adskiller dem fra hinanden og hvad der adskiller dem fra gennemsnittet, og illustrerer dette grafisk på et kort, som gør en rumlig analyse mulig. Udgangspunktet for en korrespondanceanalyse er en tovejstabel, hvor individerne udgør rækkerne i tabellen og individernes egenskaber udgør søjlerne. Egenskaberne skal kunne opgøres som kategoriale variable, men i praksis ser man også kategorier i form af interval indgå, f.eks. aldersinterval eller indkomststørrelser. Det er desuden et krav at de egenskaber, man inddrager i analysen, er indbyrdes uafhængige, således at een egenskab ikke per automatik fører til en anden egenskab. Et eksempel på dette kan være, hvis man i det ene spørgsmål spørger sine respondenter om deres uddannelse og i et andet spørgsmål om de har praktikperioder i deres uddannelsesforløb. For uddannelser med indlagt praktik (sygeplejersker, lærer o.a.) vil der ikke være nogen uafhængighed mellem uddannelse og praktik. Korrespondanceanalysekortet viser grafisk den bedste projektion af alle punkter på en plan, dvs. på de to mest beskrivende dimensioner. Grundlæggende tolkes en korrespondanceanalysegraf efter følgende principper: Hver variabel tolkes for sig, og det er mønsteret på korrespondanceanalysekortene af variablenes kategorier, der kan relateres til hinanden. Punkternes placering på kortet langs hver akse tolkes for sig. Til hvert punkt er knyttet en værdi (contribution value CTR eller Quality), der angiver det enkelte punkts kvalitet i den pågældende afbildning. 309
Jo større denne er, jo mere betydning kan det enkelte punkt tillægges i tolkningen Dette kan illustreres med et eksempel: I forbindelse med en undersøgelse er der bl.a. indsamlet informationer om forskellige typer af aktiviteter. Aktiviteterne blev sat i forhold til en variabel, der dækkede såvel køn som alder, og som var opdelt i 6 underkategorier: Mænd op til 39 år, mænd 40-59 år og mænd 60 år og derover samt kvinder i samme aldersgrupper. Respondenterne blev spurgt om de kunne danse til popmusik, danse vals, om de kunne spille skak og om de kunne afkorte bukser, der var for lange. Svarmulighederne var ja, en smule og nej. Data fremgår af tabellen nedenfor: M op til 39 år M 40-59 år M over 60 år K op til 39 år K 40-59 år K over 60 år Sum Danser vals - ja 208 298 208 426 425 323 1888 Danser vals - en smule 178 103 64 158 69 52 624 Danser vals - nej 235 84 52 109 27 54 561 Spiller skak - ja 287 146 114 87 47 23 704 Spiller skak - en smule 143 68 44 118 54 27 454 Spiller skak - nej 195 269 167 485 419 375 1910 Lægger bukser op - ja 167 109 91 637 500 406 1910 Lægger bukser op - en smule 132 76 62 32 12 12 326 Lægger bukser op - nej 308 291 165 23 10 11 808 Danser til popmelodier - ja 386 145 33 535 214 67 1380 Danser til popmelodier - en smule 138 105 33 92 88 32 488 Danser til popmelodier - nej 95 234 249 58 208 312 1156 Antal svar i alt 2472 1928 1282 2760 2073 1694 12209 Tabel 1.1: Tovejstabel som til udgangspunkt for en korrespondanceanalyse. Korrespondanceanalysen vil på baggrund af data fra tabellen først udregne et gennemsnit og herudfra afgøre, hvor meget hvert enkelt punkt rækkepunkt og kolonnepunkt - afviger fra denne gennemsnit. 310 Data fra undersøgelsen Aligemeine Bevollgerungsumtrage der Sozialwissenschaften -ALLBUS 1986 findes hos Zentralarchiv fur empirische Sozialforschung, Study number S1500 (Blasius, 1994).
Teknisk går vejen via et mangedimensionalt rum, som projiceres ned på det mindst mulige antal dimensioner, som tilsammen beskriver det samlede datamateriale 100 %. I det aktuelle eksempel kan data beskrives ved hjælp af fem dimensioner, hvor den 1. dimension beskriver 63,92 % og den 2. dimension 32,24 %. De 2 første dimensioner forklarer dermed 96,1% af den totale variation. Figur 1.2 viser et korrespondanceanalysekort, som illustrerer, hvordan de enkelte variable er knyttet til hinanden i det mangedimensionale rum. Figur 1.2: Symmetrisk kort med række- og kolonneværdier Den første akse (den vandrette linie) forklarer 69,3 % af den totale inerti. Ved at projicere de 6 kolonnevariable ned på denne akse ser man, at denne akse er domineret af kontrasten mellem mænd og kvinder : de tre kategorier af mænd findes på højre side og de tre kategorier kvinder findes på venstre side. Dimensionen kan derfor kaldes kønsdimension. Den anden akse forklarer 32,2 % af den totale inerti. Ved at projicere de seks kolonnevariable ind på den anden akse ses det, at kategorierne mænd på 39 og derunder og kvinder på 39 og derunder er at finde i den øvre del af aksen mens For detaljeret beskrivelse, se Høyen, 2004. 311
kategorierne mænd på 60 og derover samt kvinder på 60 og derover findes på den nedre del af aksen. Denne akse kan derfor kaldes aldersdimension. Ved at sammenholde løsningerne for kolonnerne (de seks kategorier med kønalder) og de tolv rækker ( spille skak, vals afkorte bukser og pop-musik, hver med 3 mulige svarkategorier) med den første akse, ser man, at især færdigheden af kunne afkorte bukser og men i mindre grad (fordi punkterne befinder sig tættere på origo) færdigheden at kunne danse vals og den manglende færdighed i at spille skak er placeret til venstre. Disse korresponderer til de tre kategorier af kvinder. Dette kan summeres op til, at kvinder relativt ofte har færdigheder i at kunne danse vals og til at afkorte bukser, og at de relativt sjældent har færdigheder i at spille skak. Kategorierne på højre side af første akse er ikke at kunne afkorte bukser, at kunne spille skak, at kunne en smule afkorte bukser så vel som igen i mindre grad kategorierne i nogen grad at kunne spille skak, i nogen grad at kunne danse vals og i nogen grad at kunne danse til pop-musik. I forhold til disse resultater er mænd under gennemsnittet med hensyn til færdigheden at kunne afkorte bukser men relativt ofte kan de spille skak. Man skal være opmærksom på, at man tolker profiler, ikke absolutte værdier afbildet på en akse. Det betyder, at når vi taler om høje værdier, taler vi om høje værdier i forhold til gennemsnittet. Ved at fokusere på den 2. akse ses det, at variablen danse til pop-musik befinder sig i toppen og ikke danse til pop-musik befinder sig i bunden. Sammenholdes positionerne for rækkepunkterne med positionerne for kolonnepunkterne kan man udlede, at unge mennesker (mænd og kvinder) relativt ofte har færdigheder i at danse til pop-musik mens ældre mennesker (mænd og kvinder) relativt sjældent har denne færdighed. De talværdier, der ligger til grund for kortet og for tolkningen af det, er følgende: Koordinater Rækkepunkter Dim1 Dim2 Quality Mass Inertia Danser vals - ja -0,2118 0,1279 0,9020 0,1546 0,0374 Danser vals - en smule 0,2185-0,1700 0,9548 0,0511 0,0146 Danser vals - nej 0,4667-0,2275 0,7978 0,0459 0,0554 Spiller skak - ja 0,6537-0,0512 0,9676 0,0577 0,0914 Spiller skak - en smule 0,2532-0,2491 0,9768 0,0372 0,0171 Spiller skak - nej -0,2959 0,0800 0,9750 0,1564 0,0538 Lægger bukser op - ja -0,5362-0,1063 0,9918 0,1564 0,1681 312 Lægger bukser op - en smule 0,7380 0,0465 0,9788 0,0267 0,0532
Lægger bukser op - nej 0,9287 0,2387 0,9762 0,0662 0,2223 Danser til popmelodier - ja -0,0013-0,5314 0,9901 0,1130 0,1150 Danser til popmelodier - en smule 0,2254-0,1177 0,5805 0,0400 0,0159 Danser til popmelodier - nej -0,0721 0,6698 0,9834 0,0947 0,1558 Kolonnepunkter Dim1 Dim2 Quality Mass Inertia M op til 39 år 0,5621-0,2525 0,9807 0,2025 0,2796 M 40-59 år 0,3751 0,2197 0,8927 0,1579 0,1192 M over 60 år 0,3134 0,4629 0,9673 0,1050 0,1210 K op til 39 år -0,2930-0,3726 0,9883 0,2261 0,1833 K 40-59 år -0,4413 0,0308 0,9564 0,1698 0,1239 K over 60 år -0,4670 0,3376 0,9497 0,1388 0,1730 Tabel 1.3: Nogle af resultaterne fra korrespondanceanalysen. Tallene er sat i samme tabel af hensyn til overskueligheden I tabel B.3 indeholder kolonne 2 og 3 oplysning om hver variabels position på de første to akser, dvs. deres koordinater i det todimensionelle rum. Kolonnen Masse viser den relative masse for hver kategori i en variabel, hvilket har at gøre med antallet af svar i den pågældende kategori. Størrelsen inerti angiver, i hvilken grad hver variabelkategori afgør den geometriske orientering af aksen. Man kan se, at dimensionerne 1 og 2 især får sin orientering fra det, ikke at kunne forkorte bukser (Lægger bukser op - nej, Inerti = 0,2223), fra det, at kunne afkorte bukser (Lægger bukser op, Inerti = 0,1681), lige så vel som fra henholdsvis det at kunne danse og ikke at kunne danse til popmusik. (Danser til popmelodier - ja og Danser til popmelodier - nej, Inerti=0,1150 og 0,1558). De grupper, som har angivet en smule bidrager kun med lidt i det samlede billede. På kolonneniveau har variabelkategorierne Mænd op til 39 år (Inerti = 0,2796), Kvinder mellem 40 og 59 (Inerti = 0,1239), og Kvinder, 60 år og derover (Inerti = 0,1730) den største indflydelse på orienteringen af 1. akse. Et højt bidrag til intertien kan alene skyldes at der er mange svar i den pågældende kategori hvorfor masseværdien er blevet høj. Omvendt hænger et lavt bidrag til inertien ikke sammen med, at variabelkategorien er svagt korreleret med den pågældende akse. 313
314