Bilag 12 Regressionsanalysens tabeller og forklaringer

Transkript

1 Bilag 12 Regressionsanalysens tabeller og forklaringer Regressionsanalysens tabeller og forklaringer Regressionsanalysen vil være delt op i 2 blokke. Første blok vil analysere hvor meget de tre TPB variabler forklarer Adfærdsintentionen. Blok 2 vil bruge Adfærdsintentionen som en uafhængig variable sammen med evne variablerne Vaner og Subjektiv viden, involveringsniveau og demografiske variabler til at analysere hvor meget de forklarer adfærden tilsammen. Blok 1 I blok 1 analyseres forholdene mellem den afhængige variabel Adfærdsintentionen (DV) og de tre uafhængige variabler (IV er) Holdning, Subjektiv Norm og Subjektiv Adfærdskontrol. Se figur??? Herunder. Data er analyseret gennem SPSS regression og første trin er at teste modellens forudsætninger, anden trin er at evaluere modellen og tredje trin er at evaluere hver IV. Trin 1: Test af forudsætninger Forudsætninger i modellen skal testes både før og efter Bilag 12 - Side 1 af 17

2 Forudsætning 1: = - Zero mean - linearitet Dette er den vigtigste forudsætning, for den klarlægger om der overhoved er tale om et lineært sammenhæng mellem den afhængige og uafhængige variabler. Er der ikke tal om en lineær sammenhæng mellem variablerne, så vil den bedste rette linje ikke give rigtige værdier for de fleste værdier af x og forskellen mellem og den forudsagte værdi vil have en middelværdi der ikke er = 0{{71 Hansen, Kenneth 2007}}. Denne forudsætning er altid opfyldt når der er en konstant variable i modellen {{69 Jensen 2009}} og derfor er forudsætningen i dette sammenhæng opfyldt. Endvidere vil usignifikante variabler (hvor der ingen sammenhæng er mellem DV og IV) blive fjernet ved en gennem gang af en multipel regressionsanalyse. Forudsætning 2: = Homoskedasitet af residualer Punkterne i plottet burde ligge jævnt fordelt omkring 0. Selvom der er til dels systematik i punkterne vurderes det at de ikke er nok til at konkludere heteroskedasitet. I tilfælde af heteroskedasitet ville det betyde at variansen ikke Bilag 12 - Side 2 af 17

3 varierer mellem de individuelle fejlled. Homoskedasitet er relateret til antagelsen om normalitet, fordi når man antager normalitet er forholdet mellem variablerne homoskedastiske {{27 G. Tabachnic, Barbara 2005}}. Forudsætning 3:, = - Mutually uncorrelated Denne forudsætning er kun problematisk i forhold til tidsserie data. Men da denne opgave bygger på cross-section data antages denne forudsætning at være opfyldt. Forudsætning 4:, = 0 En fjerde forudsætning er at fejlledene er uafhængige af hinanden. Da dataen er indsamlet via spørgeskemaer som er sendt ud til folks private adresse er der ingen sandsynlighed for at der er sammenhæng mellem fejlledene, da deltagerne ikke har haft nogen indflydelse på hinandens svar. Dette kan også testes i en Durbin-Watson Test som SPSS udfører. Værdien skal lægge mellem 1,5 og 2,5 og gerne omkring 2{{70 Fidell, A.P 2009}}: Da dette er tilfældet antages forudsætningen at være opfyldt. Forudsætning 5: ~.., for alle Normalitet Normalitet af standardiserede residualer Da residualerne lægger i en forholdsvis ret linje antages det at der ikke er nogen store afvigelser fra normalitet. Bilag 12 - Side 3 af 17

4 Forudsætning 6: Ingen outliers mellem den afhængige og de uafhængige variabler Fidell & Tabanhnick {{27 G. Tabachnic, Barbara 2005}} definer cases som outliers hvis de har et standardiseret residual på mere end 3,3 eller mindre end -3,3. Pallant {{72 Pallant, Julie 2007}} vurdere at det ikke er unormalt at finde et par outliers i en stor stikprøve. I residualplottet under forudsætning 2 ser det ikke umiddelbart ud til at der er nogle outliers. Det er valgt at teste via Mahalanobis distances, da det er mere sikkert at sammenligne tal. Slår man den kritiske værdi op for 3 uafhængige variabler er den og sammenlignet med for afhandlingens datasæt. Det tyder på at der er outliers. Ved at se på den nye variabel MAH_Intention i Data view vinduet, ser man at der specielt er en outliers som overskrider den kritiske værdi. Denne case er slettet fra videre analyser, fordi overskridelsen af den kritiske værdi er stor og det er efterfølgende testet at forudsætning 1-5 stadig er opfyldt. Forudsætning 7: Ingen Multicollinaritet eller singularitet Ser man på Tolerance så indikere tallene hvor meget af variansen i adfærdsintentionen som holdning alene forklare. Altså den varians som de andre variabler ikke er i stand til at forklare. Ingen af værdierne er under 0,10 og derfor tyder det ikke på at der er multikollinearitet mellem variablerne, altså at de forklarer den samme varians. Ser man videre på Variansens inflations faktor (VIF) så tyder det ligeledes ikke på at der er multikollinearitet mellem variablerne da VIF værdierne i den situation ville være noget højere, over 10. Multikollinearitet kan også afvises ved at se på modellens korrelationsmatrix. Se afsnit herunder om evaluering af modellen. Bilag 12 - Side 4 af 17

5 Trin 2: Evaluering af model I denne model ses det at pga. missung values er der forskel i antal deltagere (N) der indgår i analysen. I korrelationsmatrixen ses det at der er korrelation mellem Adfærdsintention og de uafhængige variabler. Niveauerne for korrelation burde være over 0,3 og under 0,7. Korrelationsforholdet mellem Adfærdsintentionen og Holdning er på 0,293. Afvigelsen er så lille at det vælges at se bort fra den. Den lave korrelation tyder på at Holdning kun forklarer en lille del af variansen i Adfærdsintentionen, men dog så meget at variablen forbliver i analysen indtil videre. Ingen af korrelationerne er over 0,7 hvilket betyder at de uafhængige variabler ikke i høj grad korrelere mellem hinanden, altså forklarer den samme varians i Adfærdsintentionen. De ses at de 3 uafhængige variabler (Holdning, Subjektiv Norm & Subjektiv Adfærdskontrol) forklarer 39,1 % af variansen i Adfærdsintentionen. Bilag 12 - Side 5 af 17

6 For at modellen kan betragtes som signifikant skal p < a. Modellens p-værdi er 0,000 og a = hvilket betyder at modellen er signifikant i forhold til at forklarer forholdet mellem de 3 uafhængige variabler og adfærdsintentionen. Trin 3: Evaluering af IV erne Når Iv erne skal evalueres skal der igen ses på Koefificienterne. Som det første ses der på Beta værdierne under standardiseret koefficienter. Den højeste værdi Subjektiv adfærdskontrol: 0,370. Dette betyder at subjektiv adfærdskontrol giver det største unikke bidrag til Adfærdsintentionen (DV) når der er kontrolleret for variansen af alle andre variabler i modellen. Beta værdien for Subjektiv Norm er lidt lavere (0,308) hvilket betyder den giver et lidt mindre unikt bidrag og mindste bidrag er Holdning (0,184). Herefter bliver signifikant værdierne undersøgt for at finde ud af om variablerne giver et en unik statistisk signifikant bidrag til regressionsligningen. Før dette er opfyldt skal værdierne være under 0,05. I afhandlingens koefficient tabel kan det ses at alle tre variabler her en p-værdi under 0,05 og det kan derfor konkluderes at hver uafhængig variabel giver et unikt statistisk signifikant bidrag til regressionsligningen. Som det tredje bliver det undersøgt hvor meget hver IV bidrager med til Forklaringsgraden R squre. Ved at sætte værdierne for hvert variabel i anden fx 0,180 =0,0324. Det vil betyde at Holdning bidrager til 3,2% af forklaringsgraden, hvilket man må sige er temmelig lidt. Subjektiv Norm der i mod bidrager væsentlig mere 0,284 =0,080 altså 8,0%. Men mest af alt bidrager Subjektiv Adfærdskontrol 0,341 =0,116, altså med 11,6%. Da disse tal ikke giver den total forklaringsgrad når de bliver lagt sammen er det fordi at disse part correlations værdier kun repræsentere det unikke bidrag fra hver af de uafhængige variabler, resten af forklaringsgraden skal findes i fælles variansen, altså den del af variansen i Adfærdsintentionen som ikke er unik for de enkelte variabler. Bilag 12 - Side 6 af 17

7 Blok 2 Den anden del af den multiple regressionsanalyse medtager flere variabler. Nu bliver Adfærdsintentionen til en uafhængig variable der sammen med evne variablerne Vaner og subjektiv viden, involveringsniveau og demografiske variabler skal forklarer den faktiske adfærd. Trin 1 Test af forudsætninger Forudsætning 1 = Gennemsnittet skal være lig nul linearitet Som var tilfældet i Blok 1 så skal der være linearitet mellem fejlledene. Igen er forudsætningen opfyldt da der er en kontant i regressionsligningen, nemlig adfærden. Forudsætning 2: = Homoskedasitet af residualer Da punkterne ligger jævnt fordelt omkring 0, antges at der er homoskedasitet i fejlledene. Forudsætning 3:, = - Mutually uncorrelated Denne forudsætning er kun problematisk i forhold til tidsserie data. Men da denne opgave bygger på cross-section data antages denne forudsætning at være opfyldt. Forudsætning 4:, En fjerde forudsætning er at fejlledene er uafhængige af hinanden. Da dataene er indsamlet via spørgeskemaer som er sendt ud til folks private adresse er der ingen sandsynlighed for at der er sammenhæng mellem fejlledene, da deltagerne ikke har haft nogen indflydelse på hinandens svar. Dette kan også testes i en Durbin-Watson Test som SPSS udfører. Værdien skal lægge mellem 1,5 og 2,5 og gerne omkring 2: Bilag 12 - Side 7 af 17

8 Durbin-Watson testen viser også at fejlledene er uafhængige af hinanden. Bilag 12 - Side 8 af 17

9 Forudsætning 5: ~.., for alle Normalitet Da residualerne lægger i en forholdsvis ret linje antages det at der ikke er nogen store afvigelser fra normalitet. Forudsætning 6: Ingen outliers mellem den afhængige og de uafhængige variabler Slår man kritisk værdi af Chi squres op i en tabel finder man at for 14 uafhængige variabler finder man at for en p- værdi på 0,001 er den kritiske værdi 36,123. Det ses, efter at have slettet 3 cases at der ikke længere er nogle ekstreme værdier og derfor ingen outliers. De værdier der blev slettet var hhv. 48,085, og Efterfølgende er det tjekket at forudsætning 1-5 stadig er opfyldt efter de 3 cases er slettet. Bilag 12 - Side 9 af 17

10 Forudsætning 7: Ingen Multicollinaritet eller singularitet Ser man på Tolerance så indikere tallene hvor meget af variansen i adfærdsintentionen som holdning alene forklare. Altså den varians som de andre variabler ikke er i stand til at forklare. Ingen af værdierne er under 0,10 og derfor tyder det ikke på at der er multikollinearitet mellem variablerne, altså at de forklarer den samme varians. Ser man videre på Variansens inflations faktor (VIF) så tyder det heller ikke på at der er singularitet mellem variablerne da VIF værdierne i den situation ville være noget højere, over 10. Multikollinearitet kan også afvises ved at se på modellens korrelationsmatrix. Se afsnit herunder om evaluering af modellen. Trin 2: Evaluering af model Bilag 12 - Side 10 af 17

11 Her ses Korrelationsmatrixen. Pga. den størrelse med så mange uafhængige variabler kan den være utydelig. Men det kan dig ses at er korrelation mellem Adfærden og de uafhængige variabler. Niveauerne for korrelation burde være over 0,3 mellem Adfærden og de uafhængige variabler og ikke over 0,7 mellem de uafhængige variabler. Det ses at kan, objektiv viden, hus sammensætning, boligform (eje/leje), boligbeskrivelse (m.havne/u.have), Uddannelsesniveau, profession, årsindkomst, og antal km til nærmeste genbrugsplads ikke korrelere særlig højt med Adfærden. Der vil sige at de ikke forklarer særlig meget af adfærden. Det vil sige at mange ad de demografiske variabler ikke er særlig effektive i forklaringen af adfærd. Ingen bliver taget ud af modellen endnu, det er hver enkelt IV s signifikans der bestemmer det senere i analysen. Det kan ses at der ikke er høj korrelation mellem nogle af de uafhængige variabler, altså multikollinearitet. Intention og vaner har en høj korrelation på 6,46 man den er stadig under 7 og derfor anses det ikke vor at være et problem på nuværende tidspunkt. Ud fra R square kan det ses at vores uafhængige variabler forklarer 74,8% af variansen i Adfærden. Det må siges at være et højt antal. For at modellen kan betragtes som signifikant skal p < a. Modellens p-værdi er 0,000 og a = hvilket betyder at modellen er signifikant i forhold til at forklarer forholdet mellem de 13 uafhængige variabler og adfærdsintentionen. Bilag 12 - Side 11 af 17

12 Trin 3: Evaluering af IV erne Som det første ses der på Beta værdierne under standardiseret koefficienter. Den højeste værdi Vaner Total: 0,722. Dette betyder at Vaner total giver det største unikke bidrag til Adfærden (DV) når der er kontrolleret for variansen af alle andre variabler i modellen. Beta værdien for Subjektiv Viden er noget lavere (0,161) hvilket betyder den giver et lidt mindre unikt bidrag, næst efter kommer Person sammensætning af husene med 0,129, Objektiv viden med -0,105, Profession med -0,100. resten af variablerne giver næsten ingen unikke bidrag til adfærden. Herefter bliver signifikant værdierne undersøgt for at finde ud af om variablerne giver et en unik statistisk signifikant bidrag til regressionsligningen. Før dette er opfyldt skal værdierne være under 0,05. i signifikant niveauet ses det at det kun er vaner og subjektiv viden, som er signifikant i modellen. Resten af variablerne et usignifikante, derfor bliver den uafhængigvariable som er mest usignifikant taget ud af modellen og der bliver lavet en ny multiple regression ind til alle uafhængige variabler der indgår i modellen er signifikante. Første uafhængige variable der bliver taget ud af modellen er overraskende nok adfærdsintentionen, altså den afhængige variable fra blok 1 herefter i denne rækkefølge: Km til nærmeste genbrugsplads, alder, involveringsniveau, boligbeskrivelse, uddannelses niveau, køn, Eje/lejebolig, personsammensætning i husstanden, årsindkomst og objektiv viden. Det betyder at alle demografiske variabler på nær profession er taget ud af modellen. Overraskende så er involveringsniveau også usignifikant i forhold til at forklarer adfærden og derfor også taget ud. Den endelige model indeholder kun Evne variablerne: vaner og subjektiv viden, samt den demografiske variable profession. Bilag 12 - Side 12 af 17

13 Når der er taget variabler ud af en regressions model skal forudsætningerne testen igen. Forudsætning 1 Gennemsnittet skal være lig nul linearitet Som var tilfældet i Blok 1 så skal der være linearitet mellem fejlledene. Igen er forudsætningen opfyldt da der er en kontant i regressionsligningen, nemlig adfærden. Forudsætning 2: Homoskedasitet af residualer Da punkterne ligger jævnt fordelt omkring 0, antages at der er homoskedasitet i fejlledene. Forudsætning 3:, Gensidigt ukorreleret Denne forudsætning er kun problematisk i forhold til tidsserie data. Men da denne opgave bygger på cross-section data antages denne forudsætning at være opfyldt. Forudsætning 4:, En fjerde forudsætning er at fejlledene er uafhængige af hinanden. Da dataene er indsamlet via spørgeskemaer som er sendt ud til folks private adresse er der ingen sandsynlighed for at der er sammenhæng mellem fejlledene, da deltagerne ikke har haft nogen indflydelse på hinandens svar. Dette kan også testes i en Durbin-Watson Test som SPSS udfører. Værdien skal lægge mellem 1,5 og 2,5 og gerne omkring 2: Bilag 12 - Side 13 af 17

14 Durbin-Whatsom testen er næsten præcis 2 og derfor antages forudsætningen at være overholdt. Forudsætning 5: ~.., for alle Normalitet Da residualerne lægger i en forholdsvis ret linje antages det at der ikke er nogen store afvigelser fra normalitet Forudsætning 6: Ingen outliers mellem den afhængige og de uafhængige variabler For 3 variabler er den kritiske chi square værdi 16,27 og da maximum værdier i Mahalanobis testen er 13,81 er forudsætningen overholdt. Der er altså ingen outliers i datasættet. Bilag 12 - Side 14 af 17

15 Forudsætning 7: Ingen Multicollinaritet eller singularitet Ser man på Tolerance så indikere tallene hvor meget af variansen i adfærdsintentionen som holdning alene forklare. Altså den varians som de andre variabler ikke er i stand til at forklare. Ingen af værdierne er under 0,10 og derfor tyder det ikke på at der er multikollinearitet mellem variablerne, altså at de forklarer den samme varians. Ser man videre på Variansens inflations faktor (VIF) så tyder det ligeledes ikke på at der er multikollinearitet mellem variablerne da VIF værdierne i den situation ville være noget højere, over 10. Multikollinearitet kan også afvises ved at se på modellens korrelationsmatrix. Se afsnit herunder om evaluering af modellen. Trin 2: Evaluering af model Ser man på beskrivende statisitk kan man se at stort set at næsten alle deltagerne har svaret på alle spørgsmålene i de 4 variabler, dog er der flest der har svaret på profession. Her ses Korrelationsmatrixen som er korrelation mellem Adfærden og de 3 uafhængige variabler som er signifikante i forhold til at forklare adfærden. Niveauerne for korrelation bør ikke være under 0,3 mellem Adfærden og de uafhængige variabler og ikke over 0,7 mellem de uafhængige variabler. Dog er profession noget lav da den Bilag 12 - Side 15 af 17

16 ikke engang korreler med Adfærden på 0,01. Det betyder at profession kun forklarer en meget lille del af adfærden, men dog er den signifikant og bliver i modellen. Vaner derimod forklarer, som før, rigtig meget adfærden med en korrelation på 0,829 og i midten er subjektiv viden som også forklarer Adfærden fornuftigt, nemlig emd en korrelation på 0,572. Der man på R Squre, kan man se at de tre uafhængige variabler forklarer 71,9% af variansen i adfærden. Det må antages at være rimelig godt. Dog er det ikke hele variansen der kan forklares via de 3 variabler og der må derfor være andre faktorer som forklarer de sidste 30% af variansen. Vigtigst af alt er om den muliple regresstion overhoved er signifikant i forhold til at forklarer adfærden. Før det kan bekræftes skal P<a = Da p=0,000 er regressionslingningen signifikant er vaner, subjektiv viden og profession signifikant i forhold til at forklarer adfærden. Evaluering af VI erne Til sidst skal IV erne evalueres endnu engang. Det er dog konstateret at de alle er signifikante og regressionsligningen er signifikant. Men for at se lidt nærmere på hvor meget de forskellige uafhængige variabler hver især forklarer ses der nærmere på koefficienterne igen. Bilag 12 - Side 16 af 17

17 Som det sidste bliver det undersøgt hvor meget hver IV bidrager med til Forklaringsgraden R squre. Ved at sætte værdierne for hvert variabel i anden fx 0,621 =0,385. Det vil betyde at Holdning bidrager til 38,5% af forklaringsgraden, hvilket man må sige er temmelig meget. Subjektiv Viden der i mod bidrager væsentlig mindre 0,112 =0,012 altså kun 1,2%. Mens Profession også kun bidrager lidt 0,113 =0,017, altså med 1,7%. Da disse tal ikke giver den total forklaringsgrad når de bliver lagt sammen er det fordi at disse part correlations værdier kun repræsentere det unikke bidrag fra hver af de uafhængige variabler, resten af forklaringsgraden skal findes i fælles variansen, altså den del af variansen i Adfærden som ikke er unik for de enkelte variabler. Regressionsligning Adfærd = * Vaner +137 * Subjektiv Viden * Profession. Det betyder at Bilag 12 - Side 17 af 17