6. Regression. Hayati Balo,AAMS. 1. Nils Victor-Jensen, Matematik for adgangskursus, B-niveau 1

6. Regression Hayati Balo,AAMS Følgende fremstilling er baseret på 1. Nils Victor-Jensen, Matematik for adgangskursus, B-niveau 1 6.0 Indledning til funktioner eller matematiske modeller Mange gange kan man komme ud for, at man har nogle målinger, som man indtegner i et koordinatsystem, hvor man kan se, at der tilsyneladende en eller anden sammenhæng mellem disse tal. Altså at der må findes en funktion, som kan beskrive denne sammenhæng - en såkaldt matematisk model. Men hvilken type model er der tale om? Er det en lineær sammenhæng, en eksponentiel sammenhæng, en potens sammenhæng eller noget helt fjerde. Og hvad er så regneforskriften for den funktion, som bedst beskriver de givne data, dvs. hvilken regneforskrift giver en graf, ligger tættest muligt på samtlige punkter? Beregning af denne funktion kaldes regression. Dette er ikke simpelt at regne ud. Man vil derfor altid bruge et matematisk værktøj til at foretage beregningerne (grafregner,matematik program som GeoGebra etc). Det, der er vigtigt for dig, er at du lærer at vurdere, hvilken form for sammenhæng der er mellem de data, du har og at se på hvor godt den regneforskrift du får 1

beregnet, passer med dine data. Vi vi i de følgende afsnit undersøge lineære, eksponentielle og potens sammenhænge. 6.1 Lineær regression Lad os forestille os at vi har følgende data som kommer fra et eksperiment. Vi vil gerne undersøge om der er en sammenhæng mellem x- og y-variablerne og hvor god er denne sammenhæng og forsøge at finde en regneforskrift for denne sammenhæng. Regneforskriften bruges til at forudsige fremtidige sammenhæng dvs. hvordan vil denne sammenhæng udvikle sig i fremtiden. Eller hvordan havde denne sammnehæng eller udvikling været det i fortiden? x y 2 1 5 2 6 3 7 4 9 5 Vi bruger GeoGebras regneark funktion til at indsætte tallene og vælger Two variable regression analysis. Man får med det samme den bedste linie der passer til data og en regneforskrift. 2

Samtidig får vi også information om hvor godt den beregnede linie passer med punkterne. Den er givet ved korrelationskoefficienten r = 0.9774. Men endu bedre mål for sammenhængen er R 2 = 0.9552. Den sidste bruges især når man har flere enslydende modeller hvor man ikke umiddelbart kan se forskel ved at sammenligne r. Herom senere. Til at afgøre hvilke linie der bedst passer til punkterne (der kan være mange linier), benytter man typisk en metode der hedder mindste kvadraters metode. Den går ud på, at man kigger på den lodrette afstand mellem linien og hvert enkelt punkt og minimere summen af disse afstande. Summen af kvadraterne af disse afstande kaldes kvadratsummen. Den linie der giver den mindste kvadratsum, er den bedst mulige linie og denne kaldes regressionslinien. Den information i form af r = 0,9774 kaldes korrelationskoefficient. - Hvis r = 1 er hældningskoefficienten positiv og samtlige punkter ligger på linien. - Hvis 0 < r < 1 er hældningskoefficienten positiv. Jo tættere r er på 1 jo tættere ligger punkterne på den beregnede linie. 3

- Hvis r = 0 (eller tæt på nul) er sammenhøngen mellem punkterne ikke lineær. - Hvis 1 < r < 0er hældningskoefficienten negativ. Jo tættere r er på 1 jo tættere ligger punkterne på den beregnede linie. -Hvis r = 1 er hældningskoefficienten negativ og samtlige punkter ligger på linien. I praksis gør du det, at du indtaster dine punkter, vælger en passende model (lineær,eksponentiel osv.) og beder programmet eller grafregneren om at få beregnet regressionslinien. Men under alle omstændigheder giver grafregneren eller GeoGebra dig både korrelationskoefficienten r, R 2, grafen og regneforskriften y = ax + b. 6.1.2 Øvelse Ved en undersøgelse har man fundet følgende sammenhæng mellem størrelserne x og y. Bestem regneforskriften for den linie, som passer bedst muligt punkterne. Løsning: x -1 0,5 5 6 8 y -3-1 1 2 4 Vi bruger GeoGebra s regneark funktion til at indsætte tallene vælger kommandoen FitLine[list1] og vi får følgende graf med regneforskrift og korrelationskoefficient. Vi kan også markere begge kolonner i regnearket og vælge Two Variable Regression Analysis. 4

Vi har 0 < r < 1. Det betyder en positiv hældningskoefficient og r er meget tæt på 1, dvs sammenhængen er meget sikker, altså der er tale om en lineær sammenhæng mellem x og y. Regneforskriften kan ses i figuren. 6.2 Eksponential regression Hvis det formodes, at der er en eksponentiel sammnhæng mellem punkterne, anvendes eksponentiel regression. Fremgångsmåden er den samme som før. Man anvender igen et matematisk værktøj (Geogebra, grafregners, etc) og indtaster punkterne og vælger at få beregnet regneforskriften og korrelationskoefficient for den eksponential funktion y = b a x, der passer bedst muligt med punkterne. 6.2.1 Eksempel Lad os bruge følgende tabel og indtaste værdierne i GeoGebra s regneark og analysere data for at se om der er tale om eksponential sammenhæng. 5

x 0 2 4 6 8 10 12 14 16 18 y 4,9 5,2 5,9 6,9 8,0 9,4 10,6 13,1 15,3 19,0 Vi vælger kommandoen FitExp[list1] ( eller vælger Two Variabel regression analyse og exponential model) og vi får følgende graf. Regneforskriften aflæses sammen med korrelationskoefficienten (og RSquare). 6.2.2 Øvelse Ved nogle målinger har man fundet følgende sammenhæng mellem størrelserne x og y. Bestem regneforskriften for den eksponentialfunktion, som passer bedst muligt med punkterne. x 2 3 5 13 y 5 5,6 7 17 6

Løsning: Igen bruger vi GeoGebra men denne gang vælger vi Two variable regression analyse i stedet for at bruge kommandoen FitExp[list1] da denne metode giver direkte korrelationskoefficienten og RSquare. Det er for at vise at man kan bruge GeoGebra s mange faciliteter. Regneforskriften bliver f (x) = 4,01 e 0,11x og r = 0,9947 7

6.3 Potens regression Hvis det formodes, at der er en potens sammenhæng mellem punkterne, anvendes potens regression. Fremgangsmåden er den samme som før. Man anvdender et matematisk værktøj -GeoGebra eller Grafregner-, indtaster punkterne og vælger at få beregnet regneforskriften for den potensfunktion y = b x a ( Husk eksponentiel funktion er y = b a x ), der passer bedst muligt med punkterne. Korrelationskoeficienten eller RSquare fortæller på samme måde som før, hvor godt den beregnede graf passer med punkterne og dermed hvor godt er sammenhængen mellem variablerne. 6.3.1 Eksempel Vi har fundet følgende talpar ved nogle målinger. Vi vil nu gerne se hvilke sammenhæng der er mellem variablerne og finde sammenhængens regneforskrift. Løsning: x 0,5 2 6 30 y 0,2 0,4 0,8 1,5 Vi bruger Geogebra s regnearks facilitet til at indtste og få beregnet regneforskriften for sammenhængen. 8

6.3.2 Øvelse Ved nogle målinger har man fundet følgende sammenhæng mellem størrelseren x og y. Bestem regneforskriften for den potensfunktion, som passer bedst muligt med punkterne. Løsning: x 2 4 7 9 13 16 y 8,5 24 55,6 80 140,6 193,1 9

6.3.3 Øvelse Ved nogle målinger har man fundet følgende sammenhæng mellem størrelserne x og y. Undersøg ved regression, hvilken af de tre modeller der bedst beskriver disse målinger. Løsning: x 2 4 7 9 13 16 y 8,5 24 55,6 80 140,6 193,1 For at finde ud af hvilke model der bedst beskriver talmaterialet er vi nødt til at lave en sammenligning af forskellige modellers korrelationskoefficienter eller RSquare. Den koefficient der er størst må være den model der bedst beskriver data. Vi bruger igen GeoGebra med de tre modeller og få følgende resultater 1. Lineær model: r = 0,992 Regneforskrift: y = f(x) = 13,2459x-28,9571 2. Potens model: r = 0,992 Regneforskrift: y = f(x) =2,9992 x 1,4998 3. Eksponentiel model: r = 0,992 Regneforskrift: y = f (x) = 9,0689 e 0,209x Ud fra korrelationskoefficienterne kan vi umiddelbart konstatere at der ingen forskel på dem og dermed er alle tre modeller lige gode! Men prøv at sammenlighe R 2 og se om der er forskel! 10

Opgave En gruppe studerende fra Maskinmesterskolen har fået til opgave at bestemme sammenhængen mellem snorlængde og svingningstid for et pendul. For at opnå en større nøjagtighed for en enkelt svingning, har gruppen målt tiden for 10 svingninger for et pendul som vist på figuren nedenunder. Skemaet herunder viser de opnåede resultater. Snorlængden betegnes L og svingningstiden T. L(m) 1,00 1,25 1,50 1,75 2,00 2,25 2,50 10 T (s) 21,0 23,8 25,6 28,4 30,4 32,7 34,1 T (s) 2,10 2,38 2,56 2,84 3,04 3,27 3,41 a) Vis at data tilnærmelsesvis kan beskrives ved en potensfunktion. b) Bestem en forskrift for potensfunktionen. På linket her,(http://hyperphysics.phy-astr.gsu.edu/hbase/pend.html ) findes en grundlæggende beskrivelse af det matematiske pendul: 11

A simple pendulum is one which can be considered to be a point mass suspended from a string or rod of negligible mass. It is a resonant system with a single resonant frequency. For small amplitudes, the period of such a pendulum can be approximated by: L T = 2π g hvor g er den lokale tyngdeacceleration 9,82m/s 2. c) Omskriv udtrykket til formen T = k L n Hvilke værdier får man for k og n? 12