Lineær regressionsanalyse8



Relaterede dokumenter
Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Bilag 6: Økonometriske

Regressionsanalyse. Epidemiologi og Biostatistik. 1.Simpel lineær regression (Kapitel 11) systolisk blodtryk og alder

Binomialfordelingen. Erik Vestergaard

Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller

Udvikling af en metode til effektvurdering af Miljøstyrelsens Kemikalieinspektions tilsyn og kontrol

Sandsynlighedsregning og statistik med binomialfordelingen

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Morten Frydenberg Biostatistik version dato:

Økonometri 1. Lineær sandsynlighedsmodel. Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)?

6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, fredag

Tabsberegninger i Elsam-sagen

Beregning af strukturel arbejdsstyrke

Inertimoment for arealer

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Note til Generel Ligevægt

Ugeseddel 8. Gruppearbejde:

Fagblok 4b: Regnskab og finansiering 2. del Hjemmeopgave kl til kl

FTF dokumentation nr Viden i praksis. Hovedorganisation for offentligt og privat ansatte

Real valutakursen, ε, svinger med den nominelle valutakurs P P. Endvidere antages prisniveauet i ud- og indland at være identisk, hvorved

Kvantitative metoder 2

HVIS FOLK OMKRING DIG IKKE VIL LYTTE, SÅ KNÆL FOR DEM OG BED OM TILGIVELSE, THI SKYLDEN ER DIN. Fjordor Dostojevskij

NOTAT: Benchmarking: Roskilde Kommunes serviceudgifter i regnskab 2013

Forberedelse til den obligatoriske selvvalgte opgave

Notat om porteføljemodeller

Analytisk modellering af 2D Halbach permanente magneter

2. Sandsynlighedsregning

Kreditrisiko efter IRBmetoden

Nøglebegreber: Objektivfunktion, vægtning af residualer, optimeringsalgoritmer, parameterusikkerhed og korrelation, vurdering af kalibreringsresultat.

Fra små sjove opgaver til åbne opgaver med stor dybde

Fastlæggelse af strukturel arbejdsstyrke

Økonometri 1. Avancerede Paneldata Metoder I 24.november F18: Avancerede Paneldata Metoder I 1

Støbning af plade. Køreplan Matematik 1 - FORÅR 2005

Introduktion Online Rapport Din skridt-for-skridt guide til den nye Online Rapport (OLR) Online Rapport

SERVICE BLUEPRINTS KY selvbetjening 2013

Samarbejdet mellem jobcentre og a-kasser inden for FTFområdet

DANMARKS NATIONALBANK WORKING PAPERS

Statistisk mekanik 13 Side 1 af 9 Faseomdannelse. Faseligevægt

TEORETISKE MÅL FOR EMNET:

Udviklingen i de kommunale udligningsordninger

BLÅ MEMOSERIE. Memo nr Marts Optimal adgangsregulering til de videregående uddannelser og elevers valg af fag i gymnasiet.

FOLKEMØDE-ARRANGØR SÅDAN!

Statistik Lektion 14 Simpel Lineær Regression. Simpel lineær regression Mindste kvadraters metode Kovarians og Korrelation

Kulturel spørgeguide. Psykiatrisk Center København. Dansk bearbejdelse ved Marianne Østerskov. Januar udgave. Kulturel spørgeguide Jan.

Kunsten at leve livet

Variansanalyse (ANOVA) Repetition, ANOVA Tjek af model antagelser Konfidensintervaller for middelværdierne Tukey s test for parvise sammenligninger

Handleplan for Myndighed (Handicap og Socialpsykiatri)

Men tilbage til regression og Chi-i-anden. test. Begge begreber refererer til normalfordelingen med middelværdi μ og spredning σ.

Transkript:

Lneær regressonsanalyse8

336 8. Lneær regressonsanalyse Lneær regressonsanalyse Fra kaptel 4 Mat C-bogen ved v, at man kan ndtegne en række punkter et koordnatsystem, for at afgøre, hvor tæt på en ret lne dsse punkter lgger. Dette gennemgk v under overskrften Lneær regresson, sde 66, og v bestemte denne lneære funkton ved hjælp af bl.a. CAS-værktøj. Lneær regresson er altså en måde, hvorpå man tl et gvet antal punkter koordnatsystemet kan bestemme den lneære funkton, hvs graf passer bedst på dsse punkter. Den tlpassede lnje (eller estmerede) skrver v som ŷ= ax+ b. Symbolet over ŷ læses som y hat. ŷ = ax + b ŷ = f(x ) = ax + b ê = y ŷ = y (ax + b) = y ax b y x Fgur V kan på punkterne fgur se, at de er fordelt omkrng den ndtegnede rette lne. Derfor vl det være naturlgt at vælge regressonsfunktonen som den tlpassede lnje, dvs. ŷ= ax+ b. Bemærk, at v altså forlanger, at v, nden regressonsanalysen foretages, ved, hvlken type funkton der er tale om. Dette kan f.eks. som ovenstående tlfælde kontrolleres grafsk. På fguren er der ndtegnet en ret lne, der på øjemål ser ud

8. Lneær regressonsanalyse 337 tl at være den bedste. Men hvad vl det sge at fnde den bedste lne, og hvorfor er det den bedste? I det følgende skal v ud fra nogle gvne krterer forsøge at fnde den lne, der repræsenterer alle punkterne bedst, dvs. v skal bestemme a og b denne lnes lgnng: ŷ= ax+ b. Det er ofte sådan, at ngen af de afsatte punkter lgger på grafen for den fundne rette lne. Et krterum for at bestemme den bedste rette lne kan være, at den lodrette afstand, der måles fra punktet og op/ned tl lnen, samlet set skal være så llle som mulgt. Dvs. v kan måle afstanden fra punktet tl lnen for hvert eneste målepunkt og derefter summere alle dsse afstande. Hvs lnen er den bedste, vl den samlede summerede afstand være så llle som overhovedet mulgt. Forestller v os, at der på fgur er afsat n punkter ( x, y),( x, y ),...,( xn, yn) vl et vlkårlgt punkt kunne betegnes ( x, y ), hvor =,..., n. Denne betegnelse vl v benytte fremover. I hvert eneste punkt er y-værden y, og funktonsværden for den rette lne er yˆ = f( x) = ax + b. Derved kan v nu beregne den lodrette afstand ê (se fgur ) mellem punkt og lne. Denne forskel kalder v for den estmerede models resdualer og betegnes med ê. V har derfor at eˆ = y yˆ = y ( ax + b) = y ax b se fgur

338 8. Lneær regressonsanalyse Lad os se på et eksempel. Eksempel Sammenhængen mellem X og Y fremgår af tabel. X Y 50,4 60,48 65,6 75 3,03 80 3,35 85 3,44 00 4,48 0 4,43 5 4,60 0 4,76 Tabel Lad os prøve at bestemme resdualerne. Ved hjælp af CASværktøj bestemmer v først den bedste lnje tl yˆ 0, 039x 3, 685. = Se fgur : 4,8 4,4 4,0 3,6 3,,8,4,0 50 60 70 80 90 00 0 0 Fgur

8. Lneær regressonsanalyse 339 Resdsualerne, som er afrundet tl hele tal, fremgår af tabel : Bedste lnje Resdual Obs. nr. X Y yˆ 0, 039 x 3, 685. eˆ = y yˆ = 50,4,65 0,075 60,48,555-0,070 3 65,6,750-0,40 4 75 3,03 3,40-0,0 5 80 3,35 3,335 0,05 6 85 3,44 3,530-0,090 7 00 4,48 4,5 0,365 8 0 4,43 4,505-0,075 9 5 4,6 4,700-0,00 0 0 4,76 4,895-0,35 Tabel Summen af resdualerne får v tl: e = 0, 39. Symbolet 0 = betegner summen af de 0 resdualer, dvs. summen: e = e +e +e 3 + +e 0. Dette vender v tlbage tl afsnttet om test af forudsætnnger, dvs. modelkontrol. 0 Da afstanden e kan antage postve såvel som negatve værder, kan man opnå, at summen = 0, selvom alle n punkter e = lgger langt fra lnen, derfor bruges kvadratet på afstanden, e. V vl derfor undersøge den kvadrerede afstand: e = ( y yˆ ) Ved at regne med kvadratet på afstanden, er de enkelte bdrag n e 0, så den samlede sum e 0. Lghedstegnet gælder = kun, hvs alle punkter lgger på den rette lne. har opløftet anden, dvs. kvadreret Summen af de kvadrerede afstande fra alle punkter tl lnen blver nu:

340 8. Lneær regressonsanalyse e + e +... + e = e = ( y y ˆ ) n n n = = = ( y ax b) + ( y ax b) +... + ( y ax b) n n Denne størrelse udtrykker altså, hvor stor den samlede (kvadrerede) afstand er fra punkterne tl regressonslnen, og formålet må være, at gøre denne sum så llle som mulgt. har lagt alle afstandene sammen har ndsat e = y ˆ y hvor ˆ y = ax + b Menngen er nu, at v skal bestemme a og b, således at denne sum blver mnmeret. a og b er altså varable og kke konstanter, som de plejer at være. Den metode v skal anvende tl at bestemme a og b kaldes Mndste Kvadraters Metode (MKM), da a og b jo netop bestemmes således, at blver så llle som n mulgt. e = Eksempel Lad der være gvet punkterne ( 3, ), (,) og ( 58 ; ). Ved ndtegnng fås følgende y (5,8) 7 5 3 (,) (-3,) -3 - - 0 3 4 5 x Fgur 3

8. Lneær regressonsanalyse 34 V ønsker ved hjælp af MKM at bestemme den rette n lne, der passer bedst tl punkterne, forstået sådan, at e blver så llle som = mulgt: e + e + e 3 = ( y ax b) + ( y ax b) + ( y ax b) 3 3 har skrevet de tre kvadrerede afstande op (da der er tre punkter) har ndsat e = y ax b = ( a ( 3) b) + ( a b) + ( 8 a 5 b) har ndsat koordnaterne = ( + 3a b) + ( a b) + ( 8 5a b) har reduceret Ideen er nu, at v skal bestemme a og b således, at udtrykket ( + 3a b) + ( a b) + ( 8 5a b ) mnmeres, dvs. blver så llle som mulgt. V ved fra kaptel 3 B-bogen, at en måde at mnmere en funkton på, er ved at dfferentere og sætte lg med 0. Så når v skal bestemme værden af kke én men to varable størrelser (nemlg a og b), vl v opfatte ( + 3a b) + ( a b) + ( 8 5a b ) først som en funkton, hvor a er den varable størrelse, og derefter som en funkton, hvor b er den varable størrelse. At dfferentere sådan en funkton af to varable kaldes at dfferentere partelt (partel = delvs). ) a er varabel: ha ( ) = ( + 3a b) + ( a b) + ( 8 5a b) h'( a) = ( + 3a b) 3+ ( a b) ( ) + ( 8 5 a b) 5 ( ) h'( a) = 6+ 8a 6b 4+ a+ b 80+ 50a+ 0b h'( a) = 70a+ 6b 78 har ndført funktonen h har dfferenteret, bl.a. ved hjælp af reglen om dfferentaton af sammensatte funktoner, se sætnng 4 kaptel B- bogen. Bemærk, at a er varabel og b er konstant. har ganget nd parenteserne har reduceret

34 8. Lneær regressonsanalyse ) b er varabel: kb ( ) = ( + 3a b) + ( a b) + ( 8 5a b) har ndført funktonen k k'( b) = ( + 3a b) ( ) + ( a b) ( ) + ( 8 5a b) ( ) har dfferenteret, bl.a. ved hjælp af reglen om dfferentaton af sammensatte funktoner, se kaptel B-bogen. Bemærk, at b er varabel og a er konstant. k'( b) = 6a+ b 4+ a+ b 6 + 0a+ b k'( b) = 6a+ 6b har ganget nd parenteserne har reduceret V ved også, at hvs begge funktoner skal mnmeres, skal der gælde: h'( a) = 0 og k'( b) = 0 70a+ 6b 78= 0 og 6a+ 6b = 0 følge sætnng kaptel 3 B-bogen har ndsat h'( a) og k'( b) Dette er to lgnnger med to ubekendte, som v kender fra MAT C, og hvs v løser dem med de metoder, der blev gennemgået MAT C, kaptel 3, fås: a = 0, 875 og b =, 79 og derved blver regressonsfunktonen, den bedste rette lne, yˆ = 0, 875x+, 79. Anvender v et CAS-værktøj får v følgende output: RegEqn m*x+b m 0.875 b.796666666667 r² 0.8546567907 r 0.9447345649 Og v ser, at a = 0, 875 og b =, 79. Samme resultat som v fk ved brug af den ovenfor gennemgåede metode, MKM. Se fgur 4.

8. Lneær regressonsanalyse 343 y (5,8) 7 5 y = 0,875 x +.7067 3 (,) (-3,) -3 - - 0 3 4 5 x Fgur 4 Øvelse Sktsér samme koordnatsystem såvel punkter som regressonslne fra eksempel. At v vrkelg har fundet et mnmum eksempel, kan v se af udtrykket, der skulle mnmeres: ( + 3a b) + ( a b) + ( 8 5a b) Hvs man forestllede sg, at v orkede at udregne dette udtryk, vlle man se, at der samlet set vl komme tl at stå 35a som et af leddene, og 3b som et andet af leddene. Begge dsse led har postve tal foran varablene a og b (nemlg 35 og 3), og så ved v fra MAT C om andengradsfunktoner, at det er parabler, der vender grenene opad. Så ved at sætte de afledede lg med 0, må det være parablernes toppunkter, dette tlfælde altså deres mnmumspunkter, v fnder. V kan let overbevse os selv om, at den gennemgåede metode eksempel 6 er tdkrævende med flere punkter end de tre koordnatsystemet. Så v konkluderer følgende uden bevs:

344 8. Lneær regressonsanalyse Sætnng Lad ( x, y ),( x, y ),...,( x, y ) n n være en række punkter et koordnatsystem. Den rette n n lne f( x)= ax + b mnmerer e = ( y ax b), hvs: = = a = n = ( x x) ( y y) n = ( x x) og b = y ax x og y står for gennemsnttene for x- og y-koordnaterne, og det vser sg, at regressonslnen går gennem punktet ( xy, ). Lad os se, hvordan dsse formler fungerer prakss: Eksempel 3 V vender tlbage tl eksempel med punkterne (-3,), (,) og ( 58, ). V udregner: x = 3 + + 5 = 3 og y = + + 8 = 3, 667 3 Herefter fås ved brug af sætnng : a = n = ( x x) ( y y) n = ( x x) a = ( 3 ) ( 3, 667 ) + ( ) ( 3, 667 ) + ( 5 ) ( 8 3, 667) ( 3 ) + ( ) + ( 5 ) har udregnet de to gennemsnt følge sætnng har ndsat koordnaterne a = 0, 875 har udregnet b= y ax følge sætnng b = 3, 667 0, 875 b =, 79 har ndsat de kendte størrelser har udregnet Dermed er værderne for a og b de samme som eksempel.

8. Lneær regressonsanalyse 345 Af CAS-udskrften ovenfor fremgår tllge at r = 0, 94 og r = 0, 855. Tallet r kaldes korrelatonskoeffcenten, og det angver hvor god overensstemmelse, der er mellem den beregnede funkton og de punkter, der er opgvet. Hvs der er fuldstændg overensstemmelse, er r = r =, og hvs der slet kke er nogen overensstemmelse, er r = 0. Hvs lnen er aftagende er r negatv. Værderne af r vl lgge ntervallet: r. Tallet r kaldes determnatonskoeffcenten, og den angver tlpasnngsgraden af en estmeret regressonslne. Hvs der er fuldstændg tlpasnng, er r =, og hvs der slet kke er nogen tlpasnng, er r = 0. Værderne af r vl lgge ntervallet: 0 r, hvlket betyder, at r kan opfattes som en procentdel, og det er meget almndelgt at konklusonen for r = 0, 855 er, at 85,5 % af varatonen den afhængge varabel (y) kan forklares af varatonen den uafhængge varabel (x). V kan gennemføre regressonsanalyser som er baseret på andre end lneære sammenhænge. V bestemmer altså på forhånd hvlken type regresson v vl gennemføre. Nedenfor fremgår resultatet af en eksponentel regressonsanalyse med de samme punkter som ovenfor. Som det ses, har både r og r bedre værder, hvorfor den eksponentelle funkton f( x) =, 943, 97 er bedre overensstemmelse med de x gvne data. V skal kke gå nærmere nd de forskellge regressonstyper, men alene se på lneære regressoner. Resultat af eksponentel regressonsanalyse: RegEqn a*b^x a.94306388307 b.9683955465 r² 0.9648574857 r 0.989805060697

346 8. Lneær regressonsanalyse Eksempel 4 Sammenhængen mellem X og Y fra eksempel er: X Y 50,4 60,48 65,6 75 3,03 80 3,35 85 3,44 00 4,48 0 4,43 5 4,60 0 4,76 Tabel 3 V ønsker at bestemme korrelatons- og determnatonskoeffcenten. Ved hjælp af CAS-værktøj får v følgende resultat: r² 0.9744998975 r 0.98767664 Som det ses, er der en høj grad af lneær overensstemmelse samt tlpasnngsgrad mellem X og Y. Anvender v fortolknngen af r som v så ovenfor, betyder det dette eksempel, at 97,4 % af varatonen (udsvng) den afhængge varabel (Y) kan forklares af varatonen (udsvng) den uafhængge varabel (X). Øvelse Sammenhængen mellem dsponbel ndkomst efter fradrag af faste udgfter og daglgvareforbrug pr. husholdnng, fremgår af tabel 4.

8. Lneær regressonsanalyse 347 Indkomst Forbrug 54600 3400 5500 3340 54000 47700 55800 33000 55800 3400 55800 390 5750 338 5800 3400 63600 36900 67800 35400 7000 37340 7538 4400 Tabel 4 Bestem den bedste rette lne samt r og r regresson. vha. lneær Øvelse 3 Sammenhængen mellem ugentlg salg tusnde kr. og testscores for en stkprøve bestående af 8 salgskonsulenter fremgår af tabel 5: Ugentlg salg 0 8 4 8 6 5 Test scores 55 60 85 75 80 85 65 60 Tabel 5 Bestem den bedste rette lne samt r og r vha. lneær regresson.

348 8. Lneær regressonsanalyse Øvelse 4 Prsen på DVD-afspllere sættes forskellgt 8 forskellge regoner af landet, se nedenfor. Prsen er opgvet hundrede dollar, se tabel 6: Antal solgt 40 380 350 400 440 380 450 40 Prs 5,5 6,0 6,5 6,0 5,0 6,5 4,5 5,0 Tabel 6 Bestem den bedste rette lne samt r og r regresson. vha. lneær Test lneære regressoner Spørgsmålet er, om det v har gennemgået ovenfor, er tlstrækkelg tl at anvende resultatet fra en lneær regresson tl prognoser? Når vores resultater baseres på populatonsdata, vl resultatet af undersøgelsen være sand. Men, som v har set kaptlet om test MAT B-bogen, vl v prakss sjældent undersøge et spørgsmål ved at bruge data fra hele populatonen, men ved at udtage en stkprøve fra populatonen. Det betyder, at resultatet af sådan en stkprøve er behæftet med uskkerhed, det en anden stkprøve fra samme populaton jo kunne gve et andet resultat. V må derfor supplere ovenstående med gennemførelse af test lneære regressoner. I denne sammenhæng vl v koncentrere os to test:. Test af forudsætnnger.. Test af om stgnngstallet β antager vsse værder, herunder konfdensnterval for lnjens stgnngstal. β er det teoretske stgnngstal den lneære regressonsmodel: y= a+β x. β er det græske bogstav, der svarer tl b Læg mærke tl at forhold tl den måde v normalt skrver lnens lgnng y= ax+ b på, er det almndelgt statstkbøger at skrve det som y= a+β x.

8. Lneær regressonsanalyse 349 Styrken ved lneær regresson lgger endvdere det faktum, at modellen, som nævnt, kan anvendes tl forudsgelser (prognoser), hvorfor det er særdeles vgtgt, at v kan stole på modellens resultater. Når v gennem lneær regresson fastlægger den bedste lne, er det udtryk for et estmat, som v resten af kaptlet skrver således: ŷ= a+ bx. Læg mærke tl, at modellen har en hat over y et, hvlket betyder, som v så ovenfor, at der er tale om et bedste bud (= estmat) for den lneære sammenhæng. b angver stgnngstallet og a skærng med y-aksen. V gennemfører altså kke en test af modellens hældnngskoeffcenten b, men af den teoretske hældnngskoeffcent β. Test af forudsætnnger, modelkontrol Som v har set ovenfor defnerede v resdualerne som forskellen mellem de observerede og de tlpassede y-værder, dvs.: eˆ y yˆ =. Den vgtgste forudsætnng, som skal være opfyldt, for gennemførelse af smpel lneær regressonsanalyse er, at: E( e ) = 0, dvs. at mddelværden af resdualerne skal være 0, eller tæt på 0. Hvs der kke ekssterer en lneær sammenhæng mellem de to varable, vl den bedste lnje kke gve de rgtge værder for de fleste x-værder, og mddelværden af resdualerne vl være forskellg fra 0. Normalt vl man, udover at teste om E( e ) = 0, skulle undersøge om yderlgere fre forudsætnnger er opfyldt. V nøjes denne sammenhæng med at nævne to af dsse forudsætnnger:. e erne er normalfordelte. σ σ ( e ) =, dvs. samme sprednng for alle resdualerne Eksempel 5 Lad os se på de data v har fra eksempel, og undersøge om forudsætnngen E e ( ) = 0 er opfyldt. Ved hjælp af CAS-værktøj får v tegnet en tendenslnje, se fgur og fgur 5 øverst.

350 8. Lneær regressonsanalyse 0 Som v kan se af fgur 5 er punkterne pænt og jævnt fordelt omkrng regressonslnen, hvorfor forudsætnngen ser 0 ud tl at være opfyldt. V så endvdere, at e = 0, 39, hvlket betyder, at E( e )= 0, 039, e = 0, 39, hvlket betyder, at E( e )= 0, 039, som ermeget tæt på0. = V kan endvdere tegne et såkaldt resdualplot over resdualerne, jfr. tabel. Resdualplottet ses nedenfor fgur 5 sammen med tendenslnjen: = y 4,8 4,4 4,0 3,6 3,,8 y = 0,038854 x 3.68483,4,0 50 60 70 80 90 00 0 0 x 0,30 0,5 0,00-0,5 Fgur 5 Nedenfor fgur 6 har v medtaget et plot og en tendenslne hvor forudsætnngen kke er opfyldt, da punkterne kke lgger pænt og jævnt fordelt omkrng regressonslnen, men lgger klumper på hver sde af regressonslnen.

8. Lneær regressonsanalyse 35 y 6 4 y = 0,396553 x + 8,9076 0 Fgur 6 3 4 5 6 7 8 9 0 3 x Øvelse 5 Anvend data fra henholdsvs øvelse, 3 og 4 og undersøg ved hjælp af tendenslnen om forudsætnngen E( e ) = 0 ser ud tl at være opfyldt. Beregn eventuelt E( e ). Suppler eventuelt med et resdualplot. β -test I en β -test tester man følgende hypoteser: H 0 : β = 0 ; ngen lneær sammenhæng mellem Xog Y H : β 0 ; lneær sammenhæng mellem Xog Y Man undersøger om der er en lneær sammenhæng mellem den afhængge varabel (Y) og den uafhængge varabet (X). Af H 0 ses det, at hvs β = 0 vl alle X-værder blve ganget med 0, og X-værderne vl dermed kke påvrke Y-værderne. Kun hvs H 0 afvses, dvs. at β 0, tyder det på, at der fndes en lneær sammenhæng. Når v gennemfører en β -test undersøger v altså om β antager vsse værder.

35 8. Lneær regressonsanalyse Følgende defnton er vgtg: Defnton Den lneære regressonsmodel y = a+βx er sgnfkant, hvs β 0 Det skal fastslås at en model, som er sgnfkant betyder, at alle p-værderne, med hensyn tl hældnngskoeffcenten β, er mndre end sgnfkansnveauet α. Se kaptel 7 B-bogen. Lad os se på et eksempel, hvor der er udtaget en stkprøve og hvor v ønsker at gennemføre en β -test. Eksempel 6 For at få undersøgt årsagerne tl udsvngene salget af cykelhjelme, har man sammenlgnet salget med en række andre varable. De enkelte data er ndsamlet for 4 tlfældgt udvalgte måneder og gengves nedenstående tabel. I undersøgelsen ndgk der 3 forskellge varable, salg af cykler, reklamendex og prsndex, der havde ndflydelse på salget af cykelhjelme. V vl koncentrere os salg af cykler, dvs. én varabel (= smpel lneær regresson), det v kke skal komme nærmere nd på det, der betegnes som multpel lneær regressonsanalyse.

8. Lneær regressonsanalyse 353 Sammenhængen mellem salg af cykler og salget af cykelhjelme. Salg af cykler x Salg af cykelhjelme y 653 38 508 99 634 60 76 30 658 98 744 39 539 63 68 4 6688 94 584 07 5444 4987 8 53 76 5677 Tabel 7 Anvender v et CAS værktøj får v følgende resultat: RegEqn m*x+b m 0.06374693500087 b -46.500677657 r² 0.8809635770904 r 0.93859659976485

354 8. Lneær regressonsanalyse y 30 80 40 y = 0,063747 x 46,50 00 60 4800 5000 500 5400 5600 5800 6000 600 6400 6600 6800 7000 700 7400 7600 Fgur 7 Som det ses af plottet og CAS-udskrften kan den estmerede model fastlægges således: yˆ = 46, 5007 + 0, 0637 x. Af værderne r og r kan v endvdere se, at der er en god overensstemmelse og forklarngsgrad mellem salget af cykler og salget af cykelhjelme. x For at gennemføre en β -test, opstller v, jfr. ovenfor, følgende hypoteser: H H 0 : β = 0 : β 0 Som det ses af H 0 har salget af cykler ngen ndflydelse på salget af cykelhjelme. På samme måde ses det af H at salget af cykler vl have ndflydelse på salget af cykelhjelme. V skal kke gå detaljer med selve teoren bag denne test, men koncentrere os om testresultatet, hvor v vl fokusere på p-værden.

8. Lneær regressonsanalyse 355 Beslutnngsregel Ved fastlæggelse af et sgnfkansnveau på α = 005, vl v afvse nulhypotesen hvs p < α. Eksempel 7 Anvender v data fra eksempel 6 og bruger et CAS-værktøj får v følgende resultat: Alternatv Hyp β 0 RegEqn a+b*x PVal 6.773355760999E-7 df. V skal fokusere på tallet PVal = p-værd. Ved p-værden forstås sandsynlgheden for at observere noget, der er mndst lge så ekstremt som det forelggende, på betngelse af at nul-hypotesen er korrekt. Sagt på en anden måde: Sgnfkanssandsynlghed kan fortolkes som sandsynlgheden for at forskellen mellem det forventede (hypotetske) og det observerede (= observerede salg af cykelhjelme på bass af solgte cykler) er tlfældg. Er sandsynlgheden tlstrækkelgt llle, dvs. p < α, antages forskellen (afvgelsen) kke tlfældg og så forkastes påstanden dvs. nulhypotesen (H o ). Tallet er skrevet på såkaldt eksponentel form, hvlket betyder, at tallet 6,7733 skal ganges med0 =, eller 7 7 0 mere populært sagt, så skal du flytte kommaet 7 pladser tl venstre, hvlket gver os en p-værd = 0,0000006773. Ifølge beslutnngsreglen kan v afvse nulhypotesen (v sger at parameteren salg af cykler er sgnfkant, da p-værden er stort set 0), hvlket betyder, at det med 95 % sandsynlghed må antages, at der fndes en lneær sammenhæng mellem salget af cykler og salget af cykelhjelme.

356 8. Lneær regressonsanalyse Som tdlgere nævnt lgger styrken den lneære regresson, at man kan anvende modellen tl prognoser eller forudsgelser. I vores eksempel vl det være nteressant at kunne forudsge salget af cykelhjelme på bass af et antal solgte cykler, hvor de anvendte data kke har været en del af stkprøven. Det skal dog bemærkes, at man skal være meget forsgtg med at lave forudsgelser, når man anvender x-værder (dvs. salg af cykler) udenfor det observerede nterval, da v jo kke kan have skkerhed for, at udvklngen salg af cykelhjelme fortsætter lneært. Den estmerede model er, jævnfør eksempel 6: yˆ = 46, 5007 + 0, 0637 x, for 4987 < x < 744. Ønsker v at forudsge antallet af solgte cykelhjelme ved et salg på 6.500 cykler, som lgger ndenfor ntervallet, se tabel 7, så kan v bestemme dette vha. følgende: yˆ = aˆ+ bx ˆ. V ndsætter modellen: y ˆ = 46, 5007 + 0, 0637 6500 = 67, 5493. Det må altså forudsges, at ved et salg på 6.500 cykler, vl det kunne forventes at der sælges 67 cykelhjelme. Problemet med denne forudsgelse er, at der kke tages højde for den uskkerhed der er knyttet hertl. V vl derfor stedet bestemme det såkaldte 95 % forudsgelsesnterval. Igen skal v kke komme nærmere nd på formlerne bag bestemmelsen af dette nterval, men anvende et CAS-værktøj tl at beregne det. V får v følgende: Antal solgte cykelhjelme vl med 95% sandsynlghed lgge mellem 6 og 309, når der sælges 6500 cykler. Øvelse 6 I denne øvelse skal du arbejde vdere med eksemplet ovenfor, det salget af cykelhjelme nu søges forklaret vha. reklamendex. Reklamendex er et ndex for det anvendte beløb tl reklame. Tallene fremgår af tabel 8.

8. Lneær regressonsanalyse 357 Reklame-ndex x Salg af cykelhjelme y 3 38 99 5 60 98 30 77 98 30 39 76 63 5 4 60 94 07 3 94 8 94 76 34 Tabel 8 a) Bestem den bedste lneære model, der forklarer salget af cykelhjelme på bass af reklamendex. b) Vurder modellens holdbarhed vha. r og r. c) Gennemfør en β -test. d) Bestem et 95 % forudsgelsesnterval på salget af cykelhjelme, hvs reklamendex er 80. Øvelse 7 I denne øvelse skal du gen arbejde vdere med eksemplet ovenfor, det salget af cykelhjelme nu søges forklaret vha. prsndexet. Prsndexet er udtryk for det generelle prsnveau samfundet de valgte måneder. Tallene fremgår af tabel 9. Sammenhængen mellem prsndex og salget af cykelhjelme.

358 8. Lneær regressonsanalyse Prsndex x Salg af cykelhjelme y 3 38 99 3 60 3 30 98 0 39 0 63 4 3 94 9 07 9 8 8 76 3 Tabel 9 a) Bestem den bedste lneære model, der forklarer salget af cykelhjelme på bass af prsndex. b) Vurder modellens holdbarhed vha. r og r. c) Test forudsætnngen om at E( e ) = 0. Suppler eventuelt med et resdualplot. d) Gennemfør en β - test. e) Bestem et 95 % forudsgelsesnterval på salget af cykelhjelme, hvs prsndex er henholdsvs og 6. Tl sdst vl v se på fastlæggelse af konfdensnterval for lnens hældnngskoeffcent. Et konfdensnterval er, som v så kaptel 7 MAT B-bogen, et nterval hvor v med en vs stor sandsynlghed har tlld tl, at den sande værd for lnens hældnngskoeffcent lgger. Uden at v kommer yderlgere nd på det, bestemmes et konfdensnterval for lnens hældnngskoeffcent ved hjælp af CAS-værktøj.

8. Lneær regressonsanalyse 359 Eksempel 8 Lad os gen tage udgangspunkt de data v har fra eksempel. Ved hjælp af CAS-værktøj får v følgende 95 % -konfdensnterval for hældnngskoeffcenten b: 0, 0337 < b < 0, 0439. Det betyder, at b med 95 % skkerhed lgger mellem 0,0337 og 0,0439. Eksempel 9 Lad os nu tage udgangspunkt eksempel 6, hvor v så på sammenhængen mellem salg af cykler og salg af cykelhjelme. Ved hjælp af CAS-værktøj får v følgende 95 % -konfdensnterval for hældnngskoeffcenten b: 0, 0490 < b < 0, 0785. Af dette kan v tolke, at b med 95 % skkerhed lgger mellem 0,0490 og 0,0785. V er altså 95 % skre på, at antallet af solgte cykelhjelme stger med et antal mellem 0,0490 og 0,0785, når salget af cykler stger med. Øvelse 8 Anvend data fra øvelse, 3 og 4 tl bestemmelse af et 95 % -konfdensnterval for hældnngskoeffcenten b.

360 8. Lneær regressonsanalyse Opgaver Opgave Marketngafdelngen en større vrksomhed har samarbejde med deres brancheorgansaton besluttet at nvestere salgsfremmende foranstaltnnger. Salget af vare A påvrkes selvfølgelg af prsen. For at vurdere denne faktor har de første omgang bedt statstkafdelngen om at udarbejde en regressonsanalyse, som beslutnngsgrundlag. Resultatet fremgår af tabel 0. Prsndeks for vare A Antal solgte vare A 0 700 00 7 0 44 376 09 398 5 3733 00 3 766 6 3095 99 93 0 30 Tabel 0 a) Bestem den bedste lneære model, der forklarer salget af vare A på bass af prsndex. b) Vurder modellens holdbarhed vha. r og r. c) Test forudsætnngen om at E( e ) = 0. Suppler eventuelt med et resdualplot. d) Gennemfør en β -test. e) Bestem et 95 % forudsgelsesnterval på salget af vare A, hvs prsndex er 05.

8. Lneær regressonsanalyse 36 Opgave Vrksomheden IT Onlne, som kke øjeblkket har harddsk-optagere st sortment, ønsker på grund af den store efterspørgsel at udvde st sortment tl også at omfatte harddsk-optagere. For at få en fornem melse af hvlke harddsk-optagere der sælger bedst, har vrksomheden ndhentet salgsoplysnnger på 5 tlfældg forskellge harddskoptagere for aprl 0. I første omgang har man koncentreret sg om sammenlgnng af prs og afsætnng. Resultatet ses tabel. Afsætnng Prs kr. 630 746 60 787 870 430 90 33 987 558 630 450 000 933 833 663 730 70 000 398 00 03 599 73 887 905 796 76 95 770 Tabel a) Bestem den bedste lneære model, der forklarer salget af harddsk-optagere på bass af prsen. b) Vurder modellens holdbarhed vha. r og r. c) Test forudsætnngen om at E( e ) = 0. Suppler eventuelt med et resdualplot. d) Gennemfør en β -test. e) Bestem et 95 % forudsgelsesnterval på salget af harddsk-optagere, hvs prsen er 80 kr.

36 8. Lneær regressonsanalyse Opgave 3 En vrksomhed sælger hængelåse og marketngafdelngen har undersøgt sammenhængen mellem antal solgte hængelåse og prsen på hængelåsene, udtrykt ved henholdsvs prsndekset samt den korte rente. Sammenhængen fremgår af tabel. Tabel Antal solgte hængelåse Den korte rente Prsndeks for hængelåse 700 3,00 0 7,90 00 44,90 0 376 3, 398 3,40 09 3733,80 5 00 3,30 766 3,0 3 3095 3,30 6 93 3,70 99 30 3,0 0 Gennemfør en lneær regressonsanalyse samt β -test forklaret ved henholdsvs den korte rente og prsndeks. Vurder hvlken model, der bedst gver en forklarng på antal solgte hængelåse. Du kan også gennemføre forudsgelser.

8. Lneær regressonsanalyse 363 Opgave 4 Udvklngen prsndeks for ejendomssalg fordelt på enfamlehuse peroden 99-006. Sammenhængen fremgår af tabel 3. Prsndeks for ejendomssalg (006=00) efter td og ejendomskategor Enfamlehuse 009 88, 008 0, 007 04,9 006 00,0 005 8,3 004 70, 003 64,4 00 6,5 00 60, 000 56,9 999 53,4 998 50,0 997 45,9 996 4, 995 37, 994 34,6 993 3,0 99 3, Tabel 3 Klde: Statstkbanken, Danmarks Statstk. a) Gennemfør en lneær regressonsanalyse samt β -test. b) Test forudsætnngen om at E( e ) = 0. Suppler eventuelt med et resdualplot. c) Bestem et 95 % -konfdensnterval for hældnngskoeffcenten b. Du kan eventuelt overveje hvad der er årsagerne tl, at prsndekset er faldet fra 006 tl 009.

364 8. Lneær regressonsanalyse Opgave 5 Fra sundhedsmyndghedernes sde er man nteresseret at undersøge hvad der er bestemmende for sprtusforbruget. Man har udtaget en stkprøve på 4 personer og sammenlgnet sprtusforbruget med deres alder og uddannelsestd. Resultatet fremgår af tabel 4. Sprtusforbrug Antal genstande pr. uge alder Uddannelsestd Antal år alt 8 4 36 4 7 0 8 6 9 9 9 4 6 3 55 6 9 6 5 0 5 9 0 9 54 5 8 3 4 49 8 8 33 9 4 57 8 5 4 7 7 0 4 3 4 4 38 55 8 0 8 8 9 0 8 6 8 4 48 Tabel 4

8. Lneær regressonsanalyse 365 a) Gennemfør to lneære regressonsanalyser, hvor den forklarende varabel er henholdsvs alder og uddannelsestd. b) Undersøg gennem en β -test af de to regressoner hvlken af de to varable (alder eller uddannelsestd), der gver den bedste forklarng på det ugentlge sprtusforbrug. Opgave 6 Brug Danmarks Statstks Databank tl at gennemføre lneære regressonsanalyser samt β -test.

366 8. Lneær regressonsanalyse Sammenfatnng I lneær regressonsanalyse bestemmes den bedste lneære sammenhæng mellem måleresultater af to varable x og y. Resdualerne bestemmes som: eˆ = y yˆ. Test forudsætnngen om at E( e ) = 0. Metoden tl bestemmelse af den bedste lne kaldes Mndste Kvadraters Metode (MKM). β-test ( β = det græske bogstav beta): Den lneære regressonsmodel ŷ= a+β x er sgnfkant, hvs β 0. For at gennemføre en β -test opstller v følgende hypoteser: H H 0 : β = 0 : β 0 Beslutnngsregel vedr. β -test: V fastsætter sgnfkansnveauet tl α = 005, og vl afvse nulhypotesen hvs p < α. Konfdensnterval for lnens hældnngskoeffcent bestemmes ved hjælp af CAS-værktøj. 95 % forudsgelsesnterval: Angver med 95 % sandsynlghed hvlket nterval det må antages at det afhængge varabel vlle lgge.