Statistiske behandlinger af emnet arbejdsulykker

Transkript

1 Statistiske behandlinger af emnet arbejdsulykker Forord Datamaterialet til denne analyse er stillet til rådighed af arbejdsmedicinskklinik i Herning, og indeholder såvel kvantitative som kvalitative data. Datasættet findes i SPSS-format som Industri-data.sav og omhandler samt klarlægger forskellige holdninger og synspunkter i forbindelse med de forskellige aspekter vedrørende sikkerhed og arbejdsulykker. Datasættet er desuden tilgængeligt i excel-format som Industri-data.xls. Formålet med dette materiale er, at illustrere hvorledes statistiske analyser kan benyttes til at lokalisere uhensigtsmæssigheder og som grundlag for beslutningstagning. Nærværende dokument illustrerer således hvilke analyseformer der kan anvendes i forbindelse med måling registrering af arbejdsulykker, og består således af en række almindelige statistiske test samt to multivariateanalyseteknikker. Systematikken vil være den, at analyseteknikkerne dels bliver gennemgået ved opstilling af hypoteser og konklusion ved eksempelvis at sammenligne en teststørrelse med en kritisk værdi og dels ved tolkning af et udskrift fra en SPSS-kørsel. For en teoretisk gennemgang af de gængse analyser henvises til Grundlæggende Statistik fra Forlaget JaVoL samt Videregående DATA-ANALYSE med SPSS og AMOS fra Forlaget Systime. Side

2 Oversigt over måleniveauer Måleniveau Kvalitativ variabel Egenskaber Nominal Ordinal Interval Kvantitativ variabel Forholdstal (Ratio) Forskel Rangordne Afstande Forhold Operationer Nominal Ordinal Interval Forholdstal (Ratio) Skelne værdierne fra hinanden (=, ) Rangordne værdierne (> og <) Addere og subtrahere (+ og -) Dividere og multiplicere Eksempler Køn Vurdering Temperatur Kapital Variabelværdier Mand Kvinde God Middel Dårlig Antal grader Celcius Kr. Variable fra datasættet Industri vsg s s6 s6_ s7_ s9_8 s9_ua_p s_ s_8_hv s_ s8_ s s s4 s5_ s5_ alder s9 s9_au_a s s_8_ Kilde: Jan Laursen & John Vestergaard Olesen, Grundlæggende Sandsynlighedsteori & Beskrivende Statistik,. udgave,, side 85 Side

3 Beskrivelse af datasættet Der er god kutyme at præsentere læseren for det datasæt der behandles og analyseres. Datasættet Industri-Pilot består grundlæggende af observationer og 8 variable fordelt på 8 spørgsmål. Der tilføjes endnu en variable obs_nr, hvis formål udelukkende tjener som en identifikationsvariabel. Derudover er der på variablen s, der omhandler det årstal respondenten er født, udarbejdet en ny variabel alder. Indledningsvis præsenteres en række analyser der giver et grundlæggende overblik i form af tabeller og grafer. Kønsfordelingen S S Kvinde, /,7% Valid Mand Kvinde Cumulative Frequency Percent Valid Percent Percent 97, 97, 97,,7,7,,, Mand, / 97,% Karakteristika for variablen alder ALDER ALDER N Mean Std. Deviation Statistics Valid Missing 8 5 4,8,65 Skewness Std. Error of Skewness,4, Frequency Std. Dev =,6 Mean = 4,8 N = 8,,, 4, 5, 6, 5, 5, 45, 55, 65, Kurtosis Std. Error of Kurtosis Minimum Maximum -,,46 65 ALDER Side

4 Sammenhængen mellem branche og uddannelse S6 * S6_ Crosstabulation 7 Count S6 Ufaglært Faglært S6_ industri Bygge Anlæg S6_ Count Ufaglært Faglært industri Bygge Anlæg S6 Respondenterne opdelt efter deres stillingsbetegnelse S7 Valid Maskinarbejder Kleinsmed CNC-operatør Elektriker Lagerarbejder Andet industri tømrer murer jord og betonarbejder andet BA Cumulative Frequency Percent Valid Percent Percent 7 6, 6, 6, 5,, 7,,9,9 8,,7,7 4,7,9,9 4,6 6 4, 4, 55,8 8 5,9 5,9 7,7 6 4, 4, 85,8,8,8 87,6 4,4,4,,, 4 S7 Frequency andet BA jord og betonarbejde Maskinarbejder CNC-operatør Andet industri Lagerarbejder Elektriker Kleinsmed tømrer murer Side 4

5 Test på én middelværdi I denne analyse ønskes der udarbejdet test på én middelværdi. Der tages udgangspunkt i spørgsmål 9, hvor respondenten bliver spurgt om vedkommende inden for de sidste måneder har været udsat for en arbejdsulykke, og hvis respondenten svarer ja, bedes man oplyses hvor mange gange. Spørgsmålet lyder derfor: Kan det påvises, at det gns. antal arbejdsulykker der er forekommet inden for de sidste måneder er lig? Spørgsmålet besvares først med udgangspunkt i by-hand metoden, hvor hele fremgangsmåden fra opstilling af hypoteser og forudsætninger til selve konklusionen gennemgås, og derefter besvares spørgsmålet ud fra et givet analyseværktøj eksempelvis SPSS. Der tages allerførst udgangspunkt i oversigten nedenfor. σ kendt Teststørrelse z Test = x µ σ n σ ukendt, n>- 5 z Test x µ = s n σ ukendt, n<- 5 Test x µ tdf = n = s n H :µ = µ H :µ µ Forkast H hvis z Test > z α eller z Test < - z. α Forkast H hvis z Test > z α eller z Test < - z. α Forkast H hvis Test t tdf = n > eller = <- Test tdf n t DF =n, α DF =n, α H :µ µ H :µ > µ Forkast H hvis z Test > z α Forkast H hvis z Test > z α Forkast H hvis Test t tdf = n > DF = n, α H :µ µ H :µ < µ Forkast H hvis z Test < - z α Forkast H hvis z Test < - z α Forkast H hvis Test tdf = n <- t DF = n, α Side 5

6 By-Hand Spørgsmålet indikerer en to-sidet test. Det noteres, at σ selvfølgelig er ukendt og n>-5. Forudsætninger Da variansen er ukendt benyttes en T-fordeling. T-fordelingen kræver at stikprøvegennemsnittet X stammer fra en population, der er normalfordelt. Ved store stikprøver ( n større end eller lig jf. den centrale grænseværdi-sætning, CGV ) ser man bort fra disse krav. Endvidere kan normalitetskravet vurderes ud fra skewness og kurtosis, der begge skal være tilnærmelsesvise tæt på. Da der her er tale om en stor stikprøve vil T-fordelingen tilnærme sig en standardnormalfordeling. (T-fordelingen approksimerer til en standardnormalfordeling, når antallet af frihedsgrader ( n -) er større end ca. 5). Data Descriptive Statistics N Minimum Maximum Sum Mean Std. Variance Skewness Kurtosis Statistic Statistic Statistic Statistic Statistic Statistic Statistic Statistic Std. Error Statistic Std. Error Antal arbejdsulykker samlet de sidste m 5 7,7 6,57 4,65 4,49,7 7,684,45 Valid N (listwise) Hypoteser H : µ = H : µ Teststørrelse Z Test = X µ s n Z Test,7 = =,55 6,57 Kilde: Laursen & Vestergaard Olesen, Grundlæggende Sandsynlighedsteori & Beskrivende Statistik, side 7 Side 6

7 Kritisk værdi α = 5% z = ±, 96 α Beslutningsregel Forkast H hvis: z Test > z eller z Test < - z. α α,55 >,96 eller,55 < -,96 Konklusion H forkastes, og dermed påviser vi H (skarp udtalelse), hvilket betyder at det gennemsnitlige antal arbejdsulykker der er forekommet inden for de sidste måneder ikke kan antages at være lig. Da teststørrelsen er positiv, kan vi faktisk påvise, at det gennemsnitlige antal arbejdsulykker er større end. I SPSS One-Sample Test Antal arbejdsulykker samlet de sidste mdr Test Value = 95% Confidence Interval of the Mean Difference t df Sig. (-tailed) Difference Lower Upper,6,4,7,5,5 I ovenstående tabel fremgår teststørrelsen på,6 samt det dertilhørende prob-værdi på,4. Da prob-værdien er lavere end vores signifikansniveau på 5 %, forkastes H og dermed påvises H atter. For en god ordens skyld skal det nævnes, at en forskel i prob-værdi udregnet manuelt og i SPSS skyldes. at SPSS som default anvender T-testen og at der til den manuelle udregning typisk vil anvendes en Z-fordeling. Kilde: Erlang S, side - Side 7

8 Test på én andel... I denne analyse ønsker vi at teste på én andel og illustrerer dette ved at teste om andelen af personer, der har været udsat for en eller flere arbejdsulykker er større end 5 %.. Der tages endnu en gang udgangspunkt i spørgsmål 9, men kun i den del af spørgsmålet der går på om respondenten har været udsat for en arbejdsulykke inden for de sidste måneder. Det er derfor nødvendigt, at konstruere en variabel der tager højde for de 8 delspørgsmål i spørgsmål 9, således at en respondenten reelt kan havde været udsat for flere forskellige arbejdsulykker. Variablen der konstrueret er navngivet s9_au_p og har to udfald, har ikke været udsat eller har været udsat for en arbejdsulykke. Spørgsmålet lyder derfor: Er andelen af personer der har været udsat for en arbejdsulykke inden for de sidste måneder større end 5 %? Fremgangsmåden er ikke helt som tidligere. Spørgsmålet besvares kun med udgangspunkt i by-hand metoden, hvor hele fremgangsmåden fra opstilling af hypoteser og forudsætninger til selve konklusionen gennemgås. Der tages udgangspunkt i oversigten nedenfor. H H Hypoteser : p = p : p p H : p p H : p > p Beslutningsregel Forkast H hvis z Test > z α eller z Test < - z. α Forkast H hvis z Test > z α H : p p H : p < p Forkast H hvis z Test < - z α Side 8

9 Data Andel af personer der har været udsat for en arbejdsulykke inden for mdr. Valid Har ikke været udsat Har været udsat Cumulative Frequency Percent Valid Percent Percent 47 4,6 4,6 4, ,4 58,4,,, Forudsætninger... Vi antager, at stikprøven udgør mindre end 5 % af populationen. For at tilnærme til en normalfordeling skal følgende to forudsætninger være opfyldt:. p * n > 5 Da p er ukendt, anvender vi pˆ. ( p )* n > 5 Ad. p * n,584 * 66 = 8,54 Har været udsat for en arbejdsulykke Dvs. forudsætningen er opfyldt. Har været udsat for en arbejdsulykke Ad. ( p ) * n (-,584)*66 = 7,46 > 5 Har været udsat for en arbejdsulykke Dvs. forudsætningen er opfyldt. Har været udsat for en arbejdsulykke Hypoteser H : P Har været udsat,5 H : P Har været udsat >,5... Teststørrelse Z Test = pˆ p p *( p n ) =,584,5,5*(,5) =,78 Side 9

10 Kritisk værdi α = 5% z α =, 645 Beslutningsregel Forkast H hvis: z Test > z α,78 >,645 Konklusion H forkastes da teststørrelsen er større end den kritiske værdi. Vi kan derfor påvise med det pågældende signifikansniveau, at andelen af personer der har været udsat for en arbejdsulykke inden for de sidste måneder er større end 5 %. Side

11 Test på to middelværdier Hypotesetest på forskel mellem to middelværdier fra to uafhængige stikprøver I denne analyse ønskes der udarbejdet en test på to middelværdier. Der tages igen udgangspunkt i spørgsmål 9, hvor respondenten bliver spurgt om vedkommende inden for de sidste måneder har været udsat for en arbejdsulykke, og variabel s6_, der klassificerer hvilken branche respondenten tilhører. Spørgsmålet lyder derfor: Kan det påvises, at der er forskel i det gennemsnitlige antal af arbejdsulykker der er forekommet inden for de sidste måneder mellem industrien og byggebranchen? Fremgangsmåden er tilsvarende tidligere test på middelværdi. Spørgsmålet besvares først med udgangspunkt i by-hand metoden, hvor hele fremgangsmåden fra opstilling af hypoteser og forudsætninger til selve konklusionen gennemgås, og derefter besvares spørgsmålet ud fra et givet analyseværktøj eksempelvis SPSS. Der tages allerførst udgangspunkt i oversigten nedenfor. Start Er σ og kendte? σ Ja Z-test X X (µ µ ) Z= σ σ + n n Nej Er n og n? Ja Tilnærmet Z-test X X (µ µ ) Z= s s + n n Nej Er σ = σ? (Testes ved et F-test) Ja T-test n + n = X X (µ µ ) spooled + n n T Tilnærmet T-test X X (µ µ ) T DF = s s + n n Side

12 By-Hand Da vi skal teste om der er forskel på ulykkesniveauet målt på antal imellem de to brancher, er vi nødt til, at vurdere om der er tale om parvise- eller uafhængige stikprøver. Da der ikke er nogen sammenhæng mellem antallet af arbejdsulykker som respondent nummer i i industri og respondent nummer i i byggebranchen har været udsat for, er der tale om uafhængige stikprøver. At der ikke kan være tale om parvise observationer understreges selvfølgelig af, at antallet af observationer fra henholdsvis Industri og Bygge Anlæg ikke er lige store. Definitioner n antal observationer fra Industri n antal observationer fra Bygge Anlæg X Stikprøvemiddelværdi Industri X D s Stikprøvemiddelværdi Bygge Anlæg Stikprøvevarians Industri s Stikprøvevarians Bygge Anlæg Forskel i mellem populationernes gennemsnit. Vi vil teste om der er en forskel, derfor er D =. Forudsætninger Da der er tale om store stikprøver sikrer CGV, at såvel, X og ( X X ) X bliver normalfordelte, uanset om moderpopulationerne er det eller ej. Da varianserne i vores datasæt er ukendte, estimeres de med stikprøvevarianserne s og s. T-fordelingen approksimerer til en standardnormalfordeling, idet antallet af frihedsgrader ( + n ) n er større end ca Der skal ikke korrigeres for endelig population, da det antages, at stikprøverne udgør mindre end 5 % af samtlige respondenter der er tilknyttet branchen henholdsvis industrien og bygge anlæg. Side

13 Data S6_ industri Bygge Anlæg Antal arbejdsulykker samlet de sidste mdr Valid N (listwise) Antal arbejdsulykker samlet de sidste mdr Valid N (listwise) Descriptive Statistics N Minimum Maximum Sum Mean Std. Variance Skewness Kurtosis Statistic Statistic Statistic Statistic Statistic Statistic Statistic Statistic Std. Error Statistic Std. Error ,9 7,77 6,46 4,5,9,79, ,5 4,64 7,4,,5,87, Hypotese H H : µ µ = : µ µ Teststørrelse Z Test ( X = X s X X ) D ( X = X ) D Z s s + n n Test = (,9,5) 6, , =,8 Kritisk værdi α = 5% z = ±, 96 α Normalfordeling Beslutningsregel Forkast H hvis: H H H z Test > z eller z Test < - α z. α,8 >,96 eller,8 < -,96 -,96,96 Teststørrelse på,8 Konklusion Vi kan ikke forkaste H, da teststørrelsen på,8 er lavere end den kritiske værdi på,96. Der er simpelthen ikke tilstrækkelig data til at kunne påvise H. Med andre ord betyder det, at der ikke kan påvises en signifikant forskel på antallet af arbejdsulykker registreret inden for de sidste måneder mellem industrien og byggebranchen. Side

14 I SPSS Group Statistics Antal arbejdsulykker samlet de sidste mdr S6_ industri Bygge Anlæg Std. Error N Mean Std. Deviation Mean 67,9 7,77,95 46,5 4,64,64 Independent Samples Test Antal arbejdsulykker samlet de sidste mdr Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Mean Std. Error Difference F Sig. t df Sig. (-tailed) Difference Difference Lower Upper,9,7,45,6,56,55 -,94 4,49,8 5,64,7,56, -,679,85 I den øverste tabel fremkommer en smule beskrivende statistik. Af sidste tabel fremgår testen mellem to middelværdier mellem de to brancher. Inden resultatet aflæses, skal man lige huske at kontrollere sine forudsætninger, således at man vælger det rette resultat. I dette tilfælde er der ikke forudsat ens varians, hvorfor resultatet i den nederste række med en teststørrelse på,8 vælges. Ligeledes kan det aflæses at prob-værdien på de,7 er væsentlig højere end vores signifikansniveau på 5 %, hvorfor konklusionen atter bliver, at vi ikke kan forkaste H. Side 4

15 Test på to andele I denne analyse ønsker vi at teste om der er forskel på andelen af personer der har været udsat for en eller flere arbejdsulykker for henholdsvis industrien og byggebranchen. Der tages endnu engang udgangspunkt i spørgsmål 9, variabel s9_au_p, ligeledes anvendes variable s6_, til at klassificerer hvilken branche respondenten tilhører. Spørgsmålet lyder derfor: Er der forskel i andelen af personer der har været udsat for en arbejdsulykke inden for de sidste måneder, alt efter om respondenten er tilknyttet industrien eller byggebranchen? Fremgangsmåden er tilsvarende tidligere andelstest. Spørgsmålet besvares kun med udgangspunkt i by-hand metoden, hvor hele fremgangsmåden fra opstilling af hypoteser og forudsætninger til selve konklusionen gennemgås. Der tages udgangspunkt i oversigten nedenfor. Teststørrelse pd = i p i n i < 5 % N i n >5, n ( p ) >5 i Test z = (pˆ pˆ ) pˆ d ( pˆ P ) ( + ) n n Y i n i ni N i 5 % N i n i p i ( p i ) N >5-9 Test z = (pˆ pˆ ) N n N n pˆ P ( pˆ P ) ( + ) n N n N i p D Test z = (pˆ pˆ ) p pˆ ( pˆ ) pˆ ( pˆ ) + n n D Test z = (pˆ pˆ ) p pˆ ( pˆ ) N n pˆ ( pˆ ) N n + n N n N D Som det fremgår af notationen, er teststørrelsen i alle 4 situationer tilnærmelsesvis standardnormalfordelt. Side 5

16 Beslutningsreglerne er dermed givet ved følgende oversigt: Hypotese Beslutningsregel H : p p H : p p = p p D D Forkast H hvis z Test > eller z α z Test < - z. α H : p H : p p p p > p D D Forkast H hvis z Test > z α H : p H : p p p p < p D D Forkast H hvis z Test < - z α Definitioner n...4 Stikprøvestørrelse Industri n...5 Stikprøvestørrelse Bygge Anlæg x...6 Antal personer med mindst en arbejdsulykke Industri x...7 Antal personer med mindst en arbejdsulykke Bygge Anlæg p ) Sandsynlighed for arbejdsulykker, Industri p )...8 Sandsynlighed for arbejdsulykker, Bygge Anlæg p )...9 Fælles estimat sandsynligheden for Pooled Side 6

17 arbejdsulykker ) ) S( p ) p... Fælles estimat for spredning Data Andel af personer der har været udsat for en arbejdsulykke inden for mdr. S6_ Industri Bygge Anlæg Valid Valid Har ikke været udsat Har været udsat Har ikke været udsat Har været udsat Cumulative Frequency Percent Valid Percent Percent 7 4, 4, 4, 4 59,7 59,7, 67,, 4,5 4,5 4,5 6 56,5 56,5, 46,, Forudsætninger... Vi antager, at begge stikprøver udgør mindre end 5 % af populationerne. For at tilnærme til en normalfordeling skal følgende to forudsætninger være opfyldt:. p i * ni > 5 Da p er ukendt, anvender vi pˆ. ( p i ) * ni > 5 Ad. p * =,597 * 67 = 4, > 5 Industri n Industri p * n =,565 * 46 = 6, > 5 Bygge Anlæg Bygge Anlæg Dvs. forudsætningen er opfyldt. Ad. ( p )* n = (-,597)*67 = 7, > 5 Industri Industri ( p )* n = (-,565)*46 =, > 5 Bygge Anlæg Bygge Anlæg Dvs. forudsætningen er opfyldt. Side 7

18 Side 8 Hypoteser D D p p p : H p p p : H = Udregninger, *,565 4*,597 * * = + + = + + = Pooled P Pooled n n P n P n P ( ),4 6 4 *,5844,5844* P P S n n * P * P P P S P P = + = + = Teststørrelse,578,4,565,597 = = = Test Test Z P P S P P Z Kritisk værdi = 5% α 96, = ± α z Beslutningsregel Forkast H hvis: z Test > α z eller z Test < - α z,578 >,96 eller,578 < -,96 Konklusion: H accepteres. Vi kan derfor ikke påvise, at der er forskel i andel af personer der har været udsat for en arbejdsulykke inden for de sidste måneder uanset branche.

19 Side 9

20 Analysemetoder Følgende oversigt giver læseren et overblik over hvilke analyseteknikker, der er til rådighed i givne situationer, afhængig af om der er tale om afhængighedsteknikker og afhængig af hvilket måleniveau de indgående variable er på. I nærværende materiale, vil vi dels benytte en faktoranalyse til at klarlægge de bagvedliggende faktorer der omhandler forhold som sikkerhed på arbejdspladsen og dels benytte en klyngeanalyse til at undersøge, hvorvidt det er muligt at inddele stikprøvens respondenter i nogle homogene klynger, indenfor hvilke respondenterne har mere eller mindre ensartede holdninger til forhold som sikkerhed og årsager til arbejdsulykker. Kilde: Niels J. Blunch, Analyse af Markedsdata, rev. udg., side 9 Side

21 Faktoranalyse Nedenstående model anvendes som fremgangsmåde ved gennemførelse af faktoranalyserne. Hver af faserne i modellen omtales kort nedenfor inden selve faktoranalyserne udføres. Problemformulering Konstruer korrelationsmatrix Fastlæg antal faktorer Rotér faktorer Fortolk faktorer Beregn faktorscorer Udvælg surrogatvariable Bestem modellens fit Ad. Problemformulering Inden den praktiske gennemførelse af faktoranalysen i et analyseværktøj opstilles den pågældende problemstilling og det specificeres, hvad formålet er med analysen. Ligeledes udvælges de variable, der skal indgå faktoranalysen. Ad. Konstruer korrelationsmatrix Som nævnt ovenfor har faktoranalysen til formål at forklare korrelationen mellem de oprindelige variable vha. et færre antal faktorer. For at en faktoranalyse skal give mening, er der derfor nødt til optræde korrelationer af en vis størrelse mellem variablene. Hvorvidt dette Kilde: Naresh K. Malhotra: Marketing Research, An Applied Approach, s. 58 Side

22 er tilfældet undersøges ved at teste på, om korrelationsmatricen (R) kan siges at være forskellig fra identitetsmatricen (I). Jf. nedenstående hypoteser og teststørrelse: H Hypotese: H : R = I : R I Teststørrelse: χ = [ n 6 ( k + 5) ] ln u k (k ) hvor n er antal observationer, k er antal variable og u er determinanten af korrelationsmatricen (det(r)). Såfremt nul-hypotesen forkastes, er korrelationsmatricen signifikant forskellig fra identitetsmatricen og variablene er derfor tilstrækkeligt korrelerede til at en faktoranalyse kan gennemføres. Det er korrelationsmatricen, der anvendes som input til faktoranalysen. I princippet kunne kovariansmatricen også have været anvendt, under den forudsætning, at variablene er på sammenlignelig skala. Imidlertid vælges korrelationsmatricen som udgangspunkt for faktoranalysen i dette eksempel. Ad. Fastlæg antal faktorer I forbindelse med en faktoranalyse er hensigten selvfølgelig at finde nogle faktorer, der udgør et færre antal end de oprindelige variable dvs. m < k. 4 Endvidere gælder der, at følgende to uligheder skal være opfyldt: () Antal respondenter > antal variable () (k m) (k + m) > Der findes derudover flere metoder til at fastlægge det optimale antal faktorer, som skal identificeres i faktoranalysen. To af de mest anvendte er Kaiser-kriteriet og scree-plottet: - Kaiser-kriteriet: Medtag det antal faktorer, som der er egenværdier over gennemsnittet. Anvendelse af korrelationsmatricen som udgangspunkt for faktoranalysen medfører, at gennemsnittet af egenværdierne er. Dvs. der medtages lige så mange faktorer som der er egenværdier over. 5 4 m = antal faktorer, k = antal variable 5 Forklaringen er, at som følge af standardisering har alle variablene en varians på. Egenværdierne er udtryk for, hvor stor en varians der er tilknyttet faktorerne. Dette betyder, at hvis egenværdien er under, så ville en variabel i sig selv forklare lige så meget som faktoren, hvorfor faktoren ikke medtages. Side

23 - Scree-plot: I et scree-plot er egenværdierne "plottet" over for antal faktorer, og der medtages det antal faktorer, som ligger før første knæk eller der, hvor "kurven" flader ud. I forbindelse med faktoranalyserne i dette eksempel foretages det optimale valg af antal faktorer med udgangspunkt i en komplementær anvendelse af Kaiser-kriteriet og scree-plottet. Ad. Rotér faktorer Med henblik på fortolkning og navngivning af faktorerne er det mest hensigtsmæssigt, at hver variabel kun er stærkt korreleret med én faktor og (tilnærmelsesvist) ukorreleret med andre faktorer. Af den årsag gennemføres en rotationsprocedure, der roterer koordinatsystemet, således at der bliver en mere simpel struktur. Jf. nedenstående figur. Der findes adskillige rotationsprocedurer, som F overordnet set kan opdeles i ortogonale og ikke-ortogonale (oblique) rotationer. Ved en ortogonal rotation forstås, at akserne i koordinatsystemet forbliver vinkelrette på hinanden, hvilket også er tilfældet i figuren. Dette resulterer i, at faktorerne er ukorrelerede, hvorfor navngivningen simplificeres væsentligt. Ved en ikke-ortogonal rotation tillades det, at akserne ikke står vinkelrette på hinanden, hvorved der fremkommer en faktorstruktur, der indeholder korrelation mellem faktorerne. Som eksempel på ortogonale og ikkeortogonale rotationsmetoder kan nævnes henholdsvis Varimax og Promax. Den mest anvendte af disse er Varimax, hvorfor faktor-rotation i denne opgave foretages vha. denne. Dog gennemføres også en Promax-rotation for at undersøge validiteten/reliabiliteten af faktoranalysen. F F F Side

24 Ad. Fortolk faktorer Fortolkning og navngivning af faktorer er primært et spørgsmål om, at identificere hvilke variable, der loader mest på den samme faktor dvs. hvilke variable, der har en høj korrelation med faktoren. Det er disse variable, der skal indgå i navngivning af faktoren. Der findes ikke nogen egentlig regel for, hvor store disse faktor-loadings (korrelationskoefficienter) skal være, for at de skal indgå i navngivningen. Man bruger dog ofte som tommelfingerregel, at såfremt stikprøven er større end 5, så skal faktor-loadingen (korrelations-koefficienten) numerisk være større end,. Ad. Beregn faktorscorer/udvælg surrogatvariable Der findes forskellige metoder til, hvorledes resultatet af en faktoranalyse kan anvendes som input i videre analyser. Det er bl.a. muligt at beregne faktorscorer for hver respondent i datamaterialet, som kan anvendes i forbindelse med eksempelvis regression eller variansanalyse. Ligeså er det muligt at udvælge en surrogatvariabel. Herved forstås, at man lader den variabel, der har den største korrelation (loading) med en faktor optræde som surrogat (erstatning) for alle de andre variable, der korrelerer signifikant med den pågældende faktor. 6 En fordel ved at anvende en surrogatvariabel frem for en faktorscore er, at førstnævnte holdes på den oprindelige skala, hvor faktorscorerne ligger på en "usynlig" skala, der kan være svær at tolke. Hvis formålet med faktoranalysen imidlertid kun er at forklare den underliggende struktur i variablene, er det ikke nødvendigt hverken at beregne faktorscorer eller udvælge surrogatvariable, og en fortolkning/navngivning af faktorerne er derfor tilstrækkelig. 7 6 Kilde: Hair & Anderson: Multivariate Data Analysis, s Kilde: Hair & Anderson: Multivariate Data Analysis, s. 5 Side 4

25 Ad. Bestem modellens fit Følgende metoder anvendes til at undersøge modellens fit: - MSA (Measure of sampling adequacy): Kaiser har opstillet følgende indeks for MSAmålet: 8,9,: marvelous,8,9: meritorious,7,8: middling,6,7: mediocre,5,6: miserable,,5: unacceptable - variansen: Man stiller ofte som krav, at modellen skal forklare minimum 5 % af totalvariansen. Dette opgøres på følgende måde: hi Forklaret varians = #variable hvor tælleren er fællesfaktorernes varians (kummunaliteten) og nævneren er den totale varians. (Jf. at som følge af standardisering må totalvariansen svare til antal variable) - Residualerne: Residualerne kan teknisk set betegnes som forskellen mellem de observerede korrelationer og de reproducerede korrelationer. 9 Der gælder, at hvis residualerne er store, så er modellens fit ikke særlig godt. I SPSS-koderne til faktoranalyserne er derfor tilføjet optionen 'res', der genererer residualerne i outputtet. I eksempelet vurderes modellen til at være god, såfremt residualerne ikke overstiger ±,.... Endvidere sammenlignes den fremkomne faktorstruktur med, hvorledes denne ville have set ud, hvis rotationen var foretaget vha. metoden Promax (Oblique rotation). Denne vil og bør naturligvis ikke give præcist det samme billede men trods alt en indikation af, om konklusionen synes forholdsvis fornuftig. 8 Kilde: Michael S. Lewis-Beck: Factor Analysis & Related Techniques, s. 9 Kilde: John V. Olesen: Noter til Kvantitative metoder - Side 5

26 Gennemførelse af faktoranalyse Problemformulering I henhold til teorien bag faktoranalyse, skal der fastlægges hvilke variable, der skal anvendes til denne faktoranalyse, for herved at kunne vurdere forhold som sikkerhed og årsager til arbejdsulykker indenfor industrien og byggebranchen. Det ønskes således undersøgt om variablene, der er forklarende for sikkerheden samt årsager til arbejdsulykker hermed, kan forklares ud fra færre bagvedliggende faktorer. Formålet med denne analyse er, at klarlægge de bagvedliggende faktorer der omhandler forhold som sikkerhed på arbejdspladsen. Der findes flere forskellige metoder til gennemførelse af en faktoranalyse, afhængig af formålet med analysen. Da vi i denne analyse primært er interesseret i datareduktion anvendes Extraction Metoden Principal Component Analysis.... Med udgangspunkt i denne problemstilling er der foretaget en selektiv udvælgelse af de variable, der kan relateres til det ovenstående. Der medtages i alt 9 variable fordelt på 5 hovedspørgsmål....4 Konstruer korrelationsmatrix Korrelationsmatricen fremkommer i bilagsmaterialet, og en umiddelbar vurdering af denne tyder på, at der eksisterer tilstrækkeligt høje korrelationer til, at faktoranalysen kan gennemføres. Dog gennemføres nedenstående test på, om korrelationsmatricen (R) kan siges at være signifikant forskellig fra identitetsmatricen (I): Hypoteser H : R = I H : R I α=5 % Side 6

27 Test af korrelationsmatricens sammenhænge er signifikante KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy.,758 Bartlett's Test of Sphericity Approx. Chi-Square df Sig., 74, Kaiser-Meyer_Olkin skal være større end,5 før en faktoranalyse er rimelig at anvende. Det ideale vil være lig,. Teststørrelse Har man ikke dataværktøjet SPSS til rådighed, kan udregningen af teststørrelsen samt den kritiske værdi foregå efter formlerne nedenfor. χ test = [ n 6 ( k + 5) ] ln u n = antal observationer k = antal variable u = determinanten af korrelationsmatricen χ test [ 94 6 ( 9 + 5) ] ln 6,58 =., = E Kritisk værdi χ kritisk = χ = χ df = 74, α = 5% k ( k ) = 85,44 Konklusion Idet teststørrelsen er større end den kritiske værdi forkastes H. Dvs. det kan konstateres, at korrelationsmatricen er forskellig fra identitetsmatricen, hvorfor faktoranalysen kan gennemføres. Fastlæg antal faktorer Som nævnt tidligere kræver Kaiser-kriteriet, at der medtages det antal faktorer, som der er egenværdier over. Jævnfør bilagsmaterialet, fremkommer der egenværdier over. Dog er de to sidste egenværdier kun lige over værdien, hvorfor det kan diskuteres, hvorvidt der skal medtages 9 eller faktorer. I Scree-plottet i bilagsmaterialet, ses det, at kurven flader ud efter 8 faktorer, hvorfor der i første kørsel medtages 8 faktorer, herefter 9, og til sidst. Side 7

28 Efter vurdering af resultaterne fra de forskellige kørsler fremkommer en sammenhæng mellem antallet af faktorer og antallet af variable, således at jo flere faktorer der indgår i kørslen, jo færre variable er der til hver af de sidste faktorer, hvilket betyder at der er færre variable til at navngivne den enkelte faktor. Ud fra de forskellige kørsler, egenværdier samt scree-plottet, gennemføres den endelig faktorkørsel med 8 faktorer. Herved opfyldes de tidligere nævnte forudsætninger ligeledes: Antal respondent er > antal variable 84 > 9 ( k m) ( k + m) > (9 8) (9 + 8) = 94 > Side 8

29 Rotér faktorer Af bilagsmaterialet, er vist, hvordan faktorstrukturen ser ud før rotation. En fortolkning og navngivning af faktorer ud fra denne vil være temmelig besværlig især når faktorerne er indbyrdes korrelerede. Der gennemføres derfor en faktorrotation. Denne er som før nævnt foretaget vha. den ortogonale rotationsmetode Varimax. Den roterede faktor struktur fremgår nedenfor: Rotated Component Matrix a S_ S_ S_4 S5_5 S5_6 S5_4 S5_8 S_ S_6 S_5 S8_5 S5_7 S8_4 S5_ S5_ S5_ S6_8 S6_4 S6_6 S6_7 S4_ S6_5 S6_ S6_ S6_ S4_6 S4_5 S4_7 S4_ S8_ S8_6 S8_ S8_ S6_9 S6_ S4_ S4_8 S4_4 S6_ Component ,8,799,765,759,79,7,4 -,7,57,69 -,65,67 -,6,55,58 -,45,48 -,464,88,7,7,688 -,44,6 -,46 -,4, -,4,77 -,,74,7,447,48,774,686,65 -,4,54,88,78,765,6 -,8,85,65 -,6,7,477,6 -,9,45 -,449,96,9,76,7,7,9 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 7 iterations. Det ses, at denne struktur er væsentligt lettere at overskue og fortolke især da stort set alle variable kun loader mere end, på én faktor. Side 9

30 Fortolk faktorer Navngivningen og fortolkningen af de enkelte faktorer bunder i hvor meget de enkelte spørgsmål/variable loader på den enkelte faktor. Eksempelvis tages der udgangspunkt i faktor, variabel s5_4 og s5_8, kan det ses at de trækker i hver sin retning. Variabel s5_4 trækker talmæssigt i en positiv retning, hvilket skal tilgodeses ved navngivning og fortolkning af variablen. Variabel s5_8 trækker talmæssigt i en negativ retning, hvilket ikke nødvendigvis er dårligt, set i forhold til spørgsmålet. Derfor er det særdeles vigtigt, at man er omhyggelig med navngivningen og fortolkningen af de enkelte faktorer. I nedenstående skema er de 8 fundne faktorer, på baggrund af loadings i den roterede faktorstruktur, navngivet som følgende: Faktor : Faktor : Faktor : Faktor 4: Faktor 5: Faktor 6: Faktor 7: Faktor 8: Overordnet sikkerhed set i forhold til instruktion, prioritering, belønning, motivation er særdeles vigtigt Individuelle sikkerhedsforanstaltninger Er presset til at bryde sikkerhedsforanstaltninger og regler Arbejdsmæssigt nemmere, dovenskab Det fysiske arbejdsmiljø, indretning mm. Medarbejdernes involvering i sikkerhedsbeslutninger Uansvarlighed Årsager til arbejdsulykker Sikkerhedsforhold samt årsager til arbejdsulykker kan derfor forklares ud fra de ovenstående 8 faktorer. Spørgsmålet lyder: Min nærmeste leder roser medarbejderne, når han ser at et stykke arbejde bliver udført i overensstemmelse med sikkerhedsreglerne. Spørgsmålet lyder: Så længe arbejdet bliver udført i overensstemmelse med tidsplanen, er min nærmeste leder ligeglad med, hvordan det sker. Side

31 Beregn faktorscorer/udvælg surrogatvariable I SPSS kan man vælge at få beregnet factorscores i forbindelse med kørslen hvilket bevirker, at SPSS tilføjer disse variable i det eksisterende datasæt, således at der for hver respondent er beregnet 8 faktorscorer. Faktorerne anvendes dog ikke yderligere i denne omgang, da det primære formål med denne analyse var, at forklare den underliggende struktur i variablene vha. 8 ovenstående faktorer. De enkelte faktorscores indgår i datasættet som variablene fac_ - fac_8. Bestem modellens fit Det blev ovenfor konstateret, at korrelationsmatricen er forskellig fra identitetsmatricen, hvilket understøtter modellens anvendelighed. Derudover vurderes modellens fit ud fra følgende forhold: - MSA (Measure of Sampling Adequacy): Det fremgik tidligere, at MSA overall er lig,758, hvilket ifølge Kaiser kan karakteriseres som værende middling dvs. middelgod. - varians: Af bilagsmaterialet, ses, hvor stor varians hver enkelt faktor forklarer. Den samlede varians beregnes til 5,59 Andelen af variansen, der er forklaret af fællesfaktorerne er således: i h 5,59 = =,656 = 65,6% Antal variable 9 Dette er tilfredsstillende, da man som nævnt ofte stiller som minimumskrav, at 5 % af totalvariansen skal forklares ud fra fællesfaktorerne. - Residualer: Residualernes korrelationsmatrix er opstillet i bilagsmaterialet. Af denne fremgår det, at det kun er ganske få steder, hvor den numeriske værdi overstiger,, hvilket alt andet lige betyder, at modellen er god. Samlet set må modellens fit siges at være god, og det støttes endda af at faktorstrukturen ved anvendelse af Promax rotationsmetoden tilnærmelsesvis er den samme som ved Varimax rotationsmetode. Dette er yderligere med til at understøtte modellens validitet. Faktorstruktur v/ Promax-rotation fremgår af bilagsmaterialet. Side

32 Klyngeanalyse Klyngeanalyse er en ikke-statistisk metode, hvis formål er at segmentere respondenterne. I praksis foregår det ved at respondenterne gruppes i nogle klynger, hvor respondenterne er relativt ens på udvalgte variable. Klyngerne består således af et antal homogene respondenter. En direkte parallel vil i afsætningsverden eksempelvis være kundesegmentering. Der findes metoder til gennemførsel af en klyngeanalyse. Den hierarkiske metode og den ikke-hierarkiske metode. Valget mellem metoderne afhænger af analysens formål samt datamaterialet. Hvilken model der bør anvendes, gennemgås senere. Ligesom ved faktoranalysen foretages klyngeanalysen via en struktureret tilgang. Processen som følges ved klyngeanalysen ser således ud: Indholdet af de enkelte faser gennemgås kort nedenfor, inden den egentlige klyngeanalyse gennemføres. Problemformulering Valg af afstandsmål Valg af klynge-procedure Beslutning vedr. antal klynger Fortolkning og profilering af klynger Måling af validitet og reliabilitet Kilde: Naresh K. Malhotra: Marketing Research, An Applied Approach, s. 64 Side

33 Ad. Problemformulering I problemformuleringen defineres formålet med klyngeanalysen, samt hvilke variable der skal danne baggrund for en segmentering af respondenterne. Det skal i den forbindelse klarlægges hvilke respondenter, der ønskes segmenteret. Ad. Valg af afstandsmål Når respondenterne skal inddeles i klynger, foretages det ud fra nogle ligheder (interafhængige sammenhænge) mellem respondenterne for herved at skabe homogene klynger. Afstandsmålingen mellem de enkelte observationer er ens for den hierarkiske og ikkehierarkiske metode. Det mest anvendte afstandsmål den euklidiske afstand (den direkte afstand) 4. Den hierarkisk metode: Klyngedannelsen sker ved at observationerne med Single linkage mindst indbyrdes afstand (euklidisk afstand) bliver slået sammen først, og derefter dem med næstmindst Minimal afstand afstand osv. Klynge Klynge For at kunne slå klynger sammen skal der defineres Complete linkage et mål for afstanden mellem klynger. Der findes mange måder hvorpå dette kan gøres jf. eksempler Maximal afstand herpå i figuren til højre. Klynge Klynge Det kan ikke siges, at den ene måde er bedre end den Average linkage anden. Problemet er imidlertid, at valget af metode kan have Klynge Gennemsnitsafstand Klynge afgørende betydning for analysens udfald. 4 Kilde: Naresh K. Malhotra: Marketing Research An Applied Approach Malhotra, side 64 Side

34 Den ikke-hierarkisk metode: Den ikke-hierarkiske model opererer med et på forhånd fastlagt antal klynger. Disse fordeles ud i rummet hvor observationerne er angivet, og benævnes klyngecentre. Observationerne bliver tilknyttet nærmeste klyngecenter (euklidisk afstand) og alle klyngecentrene bliver defineret ud fra deres gennemsnitsafstand til de tilknyttede observationer. Herefter bliver observationerne igen tilknyttet det nærmest beliggende klyngecenter, og denne proces fortsætter. Det skal derfor i SAS angives hvor mange gange denne proces skal foretages. Koden herfor er maxiter=. Det skal bemærkes, at der ved den ikke-hierarkiske metode ikke skal defineres et mål for afstanden mellem klyngerne, da disse ikke skal slås sammen, idet antallet af klynger er givet på forhånd. Ad. Valg af klynge-procedure Som tidligere skrevet, kan klyngeanalysen gennemføres på forskellige metoder: ) Den hierarkiske metode: Når respondenterne er tilknyttet en klynge forbliver de i denne. Ulempen ved denne metode er, at jo flere respondenter som skal grupperes jo mere vilkårligt kan grupperingen blive. Dette skyldes, at når analysen er gennemført kan enkelte respondenter passe bedre på andre klynger end dem, som de befinder sig i. Den hierarkiske metode er derfor mest anvendelig ved små stikprøver (- respondenter). 5 Fordelen ved den hierarkiske metode er, at den er meget hurtig at gennemføre og kræver få overvejelser. Endvidere skaber den hierarkiske model et godt overblik og SAS peger via egenværdierne selv på det optimale valg af antal klynger (Således er antallet af klynger ikke på forhånd fastlagt). Den hierarkiske model kan med fordel benyttes selvom modellen ikke danner grundlag for den endelige klyngeinddeling, idet modellen er overbliksgivende og giver en indikation af hvor mange klynger der bør dannes. 5 Kilde: Engelund og Rasmussen: Gennemførelse af multivariable statistiske teknikker i SAS, s.8 Side 4

35 Side 5

36 ) Den ikke-hierarkiske metode: Denne metode er mere omfattende end den hierarkiske model, idet respondenterne her kan skifte klynger undervejs. Ulempen ved denne metode er, at den kræver flere overvejelser og at antallet af klynger skal angives på forhånd. Hvorledes fastlæggelsen af antal klynger foretages senere. En klar fordel ved denne metode, er at respondenterne kan skifte klynge undervejs i analysen. Den ikke-hierarkiske metode er derfor den bedste ved større stikprøver ( eller derover), idet klyngerne bliver mere homogene. Hvilken af de to modeller, der bør vælges afhænger af analysens formål. Hvis der ønskes en hurtig klyngeinddeling benyttes den hierarkiske model. Hvis der derimod ønskes en mere korrekt inddeling benyttes den ikke-hierarkiske model. Uanset stikprøvestørrelse vil den ikkehierarkiske altid danne de mest homogene klynger, dog bør man ved stikprøver med over respondenter ikke kun benytte sig af den hierarkiske model 6. Man kan derfor med fordel altid gennemføre den hierarkiske model og danne sig et overblik og få en indikation om, hvor mange klynger der bør dannes, for herefter at gennemføre den ikke-hierarkiske. Ad. Beslutning vedr. antal klynger Fastlæggelsen af antal klynger er forskellig for de to ovenstående modeller. Ved den hierarkiske model peger SAS på det optimale antal klynger. SAS anbefaler altid at der medtages lige så mange klynger som der er egenværdier over. Ved den ikke-hierarkiske model skal antal af klynger indgives på forhånd. Her kan man eksempelvis vælge det antal som SAS anbefalede ved den hierarkiske model. En mere kompliceret måde hvorpå antallet af klynger kan bestemmes, er ved at se på RSQ/(- RSQ) værdierne. 7 Størrelsen af RSQ/(-RSQ) værdier afhænger af det antal klynger der medtages i kørslen. Der gennemføres derfor flere kørsler med forskelligt antal fastlagte klynger. Kørslernes respektive RSQ/(-RSQ) værdier indtegnes i et koordinatsystem, og det 6 Kilde: Engelund og Rasmussen: Gennemførelse af multivariable statistiske teknikker i SAS s.8 7 Udtrykker (variationen mellem klynger/variationen indenfor klynger). Der ønskes derfor en høj RSQ/(-RSQ) værdi, dog medtages der ikke en ekstra klynge med medmindre RSQ/(-RSQ)-værdien er væsentlig større, end den forrige. Bemærk: værdien aflæses ved over-all i SAS-outputtet. Side 6

37 endelige valg af antal klynger foretages ud fra kurvens forløb. Antallet af klynger der bør medtages, aflæses på x-aksen, der hvor kurven begynder at flade ud. Den mest optimale måde, at fastlægge antallet af klynger, vil være en kombination af ovenstående, men med hovedvægten lagt på RSQ/(-RSQ)-kurven. Endvidere kan antallet af klynger fastlægges ud fra a priori viden og/eller en logisk tilgangsvinkel. Beslutningen vedr. antallet af klynger er derfor i vist omfang subjektiv. Ad. Fortolkning og profilering af klyngerne Når analysen er gennemført skal klyngerne fortolkes og navngives. I forbindelse med navngivningen ses på klyngernes centroider (Cluster Means), hvor høje/lave værdier indikerer at variablen bør vægtes højt i forbindelse med navngivningen. Det er dog vigtigere, at se på hvor den enkelte klynge adskiller sig fra de øvrige klynger og navngive klyngen ud fra dette. Til dette formål kan ANOVA-tests samt simultane konfidensintervaller med fordel benyttes til fastlæggelse af signifikante forskelle klyngerne imellem. Ad. Måling af validitet og reliabilitet Der findes ingen direkte måde hvorpå validiteten og reliabiliteten kan måles, hvilket er en svaghed ved klyngeanalysen, især ud fra den betragtning, at klyngeanalysen er meget følsom overfor outliers. Til at undersøge klyngeanalysens validitet og reliabilitet anbefales det derfor, at der foretages supplerende klyngeanalyser, hvor der benyttes forskellige metoder. Disse metoder kan være en opdeling af datasættet i mindre datasæt, eller at datasættet sorteres efter en tilfældig valgt variabel. Herefter foretages der en sammenligning af de gennemførte analyser, for herved at vurdere klyngeanalysen validitet og reliabilitet. Side 7

38 Gennemførelse af klyngeanalyse Problemformulering I henhold til teorien bag klyngeanalyse, skal der fastlægges hvilke variable, der skal anvendes til denne klyngeanalyse, for herved at kunne vurdere forhold som sikkerhed og årsager til arbejdsulykker indenfor industrien og byggebranchen. Det ønskes undersøgt, hvorvidt det er muligt at inddele samtlige stikprøvens respondenter i nogle homogene klynger, for herved at skabe et overblik over respondenternes vurderinger af forhold som sikkerhed og årsager til arbejdsulykker indenfor industrien og byggebranchen. Opgavens undersøgelsesområde er diverse forhold i forbindelse med arbejdsulykker, hvorfor klyngeanalysen vil blive gennemført på de samme udvalgte variable som ved faktoranalysen. Det er dog muligt, at anvende de otte fremkomne faktorer fra faktoranalysen som inputvariable til klyngeanalysen. Som nævnt ved gennemførelsen af faktoranalysen, blev ca. 66 % af totalvariansen forklaret ud fra fællesfaktorerne. Det vurderes, at en for stor mængde af information går tabt ved anvendelse af faktorerne, frem for anvendelse af de oprindelige variable som input. Endvidere medfører brugen af de oprindelige variable, at cluster means forbliver på likertskalaen, hvorved navngivning og fortolkning af klyngerne forenkles. Valg af mål for distance eller lighed...5 Her benyttes det euklidiske afstandsmål til afstandsmåling mellem observationerne. Til måling af afstanden mellem klyngerne for den hierarkiske metode, er der valgt average linkage. SAS-koden for denne metode er average. Desuden benyttes koden nosquare, da SAS ellers vil kvadrere afstandene. Valg af procedure Da analysen gennemføres på et stort antal respondenter, er det mest hensigtsmæssigt at benytte den ikke-hierarkiske metode. Metoden kræver, at antallet af klynger skal være givet på forhånd, hvorfor der springes til næste trin i processen Beslutning vedr. antal af klynger inden den ikke-hierarkiske metode gennemføres. Side 8

39 Beslutninger vedr. antal klynger Antallet af klynger vil blive vurderet ud fra både den hierarkiske metode, hvor der ses på egenværdierne og ud fra den ikke-hierarkiske metode, hvor der ses på RSQ/(-RSQ)-kurvens forløb. Den hierarkiske metode anvendes udelukkede til at give en indikation af antallet af klynger.. Egenværdierne (Den hierarkiske metode): The CLUSTER Procedure Average Linkage Cluster Analysis Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative Side 9

40 Root-Mean-Square -Sample Standard Deviation =.4 Mean Distance Between Observations = Ud fra egenværdierne kan det udledes, at der bør dannes klynger, som er antallet af egenværdier over. Disse er i ovenstående output markeret med fed. Side 4

41 . RSQ/(-RSQ)-kurvens forløb (Den ikke-hierarkiske metode): RSQ Kurves forløb,4, RSQ(-RSQ),8,6,4, Antal Klynger RSQ/(-RSQ)-kurven peger på klynger, idet kurven flader meget ud lige efter. Jf. de ovenstående egenværdier burde der dannes klynger, hvilket ikke kan udledes af RSQ/(- RSQ)-kurven. Da denne vægtes højest gennemføres den endelige klyngeanalyse med klynger, hvilket gerne skulle munde ud i en fornuftig navngivning. Fortolkning og profilering af klyngerne Efter at have kørt den egentlige klyngeanalyse ud fra ovenstående forudsætninger, skal klyngerne navngives. Navngivning sker på baggrund af Cluster Means som ses i bilagsmaterialet. For overskuelighedens skyld er cluster means for de klynger vist i nedenstående graf: Side 4

42 Klyngeforløbet for de tre klynger 5 4,5 4 Cluster Mean,5,5,5 Variable Klynge Klynge Klynge s8_6 s8_5 s8_4 s8_ s8_ s8_ s6_ s6_ s6_9 s6_8 s6_7 s6_6 s6_5 s6_4 s6_ s6_ s6_ s5_8 s5_7 s5_6 s5_5 s5_4 s5_ s5_ s5_ s4_8 s4_7 s4_6 s4_5 s4_4 s4_ s4_ s4_ s_6 s_5 s_4 s_ s_ s_...6 Navngivningen af klyngerne skal ske på baggrund af de enkelte klyngers høje og lave værdier, samt hvor klyngerne adskiller sig signifikant fra hinanden. Det er her vigtigt at bemærke, at lave værdier er tegn på stor enighed pga. variablenes kodning. Til at klarlægge de variable, hvor der optræder en signifikant forskel mellem cluster means gennemføres en variansanalyse på hver variabel. ANOVA-tabellerne samt Bonferroni s konfidensintervaller fremgår af bilagsmaterialet. Klyngetilhørsforholdet er registreret i datasættet som variablen cluster I forbindelse med en variansanalyse er der forudsætninger om, at der skal være varianshomogenitet og at stikprøverne skal stamme fra normalfordelte populationer. Idet stikprøverne er store og tilnærmelsesvis lige store, er testen imidlertid robust overfor brud på forudsætningerne, hvorfor det ikke anses nødvendigt at undersøge hvorvidt disse er opfyldt. Karakteristika til klynge : Respondenterne i klynge er markant mere uenige i forhold som instruktioner i sikkerhed, prioritering af sikkerhed i arbejdet, med særlig fokus på den nærmeste leder. Ligeledes er respondenterne uenige i udsagnene vedrørende involvering af medarbejdere i sikkerhedsbeslutninger med fokus på den enkelte medarbejderes forslag og inddragelse i beslutninger vedrørende sikkerhed. Ellers har respondenterne i denne klynge en forholdsvis Side 4

43 neutral holdning til forhold som: årsager til arbejdsulykker, prioritering af sikkerheden i arbejdet i forbindelse med øget produktionspres og strammere tidsplaner. Karakteristika til klynge : Respondenterne i klynge er markant meget enige i udsagnene vedrørende instruktioner i sikkerhed, prioritering af sikkerheden i arbejdet samt involvering af medarbejdere i sikkerhedsbeslutninger. Disse respondenter vurderes på baggrund af besvarelserne omhandlende sikkerhedsreglerne, som værende betydeligt mere ansvarlige samt professionelle i deres job. Respondenterne har dog en tilnærmelsesvis neutral holdning til udsagnene om årsager til arbejdsulykker, med undtagelse af udsagn. Respondenterne mener ikke at det er forhold som et for stort arbejdspres, arbejdspladsen indretning eller manglende vedligeholdelse af maskiner eller redskaber der er årsager til arbejdsulykker. Side 4

44 Karakteristika til klynge : Respondenterne i klynge er kendetegnet ved at være mere moderate i deres besvarelser, hvilket svarer til en mellemting med klynge &. Respondenterne har svaret forholdsvis neutralt til forholdene vedrørende instruktioner i sikkerhed, årsager til arbejdsulykker samt prioritering af sikkerhed i arbejdet. Respondenternes udsagn vedrørende sikkerhedsregler indikerer om en fornuftig og ansvarlig opførsel på arbejdspladsen. Klyngeanalysens gennemførelse med klynger synes, at være et godt valg, idet navngivningen har været mulig. For at kunne benytte klyngeanalysen til at måle graden af respondenternes enighed på de enkelte variable, skal klyngernes antal af respondenter fastlægges. Respondenternes fordeling på de enkelte klynger fremgår af det nygenerede datasæt Klyngeuddata. Nedenstående frekvenstabel udtrykker, hvor mange respondenter de enkelte klynger repræsenterer: Cluster Summary Maximum Distance RMS Std from Seed Radius Nearest Distance Between Cluster Frequency Deviation to Observation Exceeded Cluster Cluster Centroids ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Det kan således ses, at de klynger tilnærmelsesvis er lige store, hvilket indikerer en blandet holdningstilkendegivelse målt på de udvalgte variable om forhold vedrørende sikkerhed og årsager til arbejdsulykker. Måling af validitet og reliabilitet...9 Klyngeanalysens validitet undersøges ved, at opdele datasættes respondenter i to nye datasæt, som hver indeholder hver anden respondent. Det første datasæt indeholder alle de ulige observationer (indu_), hvor det andet datasæt indeholder de lige observationer (indu_) fra datasættet Industri. Klyngeanalysen vil blive gennemført på begge de nye datasæt, for at undersøge den faktiske klyngeanalyses validitet. Den faktiske klyngeanalyse er Side 44

Vis mere