Brugen af R^2 i gymnasiet

Relaterede dokumenter
Lineær regressionsanalyse8

Kvantitative metoder 2

6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, fredag

Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

Statikstik II 4. Lektion. Generelle Lineære Modeller

Økonometri 1. Heteroskedasticitet 27. oktober Økonometri 1: F12 1

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelkontrol

EKSAMEN I MATEMATIK-STATISTIK, 27. JANUAR 2006, KL 9-13

Morten Frydenberg Biostatistik version dato:

Note til Generel Ligevægt

Økonometri 1. Test for heteroskedasticitet. Test for heteroskedasticitet. Dagens program. Heteroskedasticitet 26. oktober 2005

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelsøgning Modelkontrol

Regressionsanalyse. Epidemiologi og Biostatistik. 1.Simpel lineær regression (Kapitel 11) systolisk blodtryk og alder

Binomialfordelingen. Erik Vestergaard

Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller

Statistik Lektion 15 Mere Lineær Regression. Modelkontrol Prædiktion Multipel Lineære Regression

Binomialfordelingen: april 09 GJ

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Udvikling af en metode til effektvurdering af Miljøstyrelsens Kemikalieinspektions tilsyn og kontrol

Økonometri 1 Efterår 2006 Ugeseddel 9

Økonometri 1. Lineær sandsynlighedsmodel. Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)?

TALTEORI Følger og den kinesiske restklassesætning.

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Brugen af R 2 i gymnasiet

Kvantitative metoder 2

Kvantitative metoder 2

Indtjening, konkurrencesituation og produktudvikling i danske virksomheder

Kvantitative metoder 2

Forberedelse til den obligatoriske selvvalgte opgave

Brugen af R 2 i gymnasiet

Beregning af strukturel arbejdsstyrke

Sandsynlighedsregning og statistik med binomialfordelingen

Nøglebegreber: Objektivfunktion, vægtning af residualer, optimeringsalgoritmer, parameterusikkerhed og korrelation, vurdering af kalibreringsresultat.

DLU med CES-nytte. Resumé:

Bilag 6: Økonometriske

SERVICE BLUEPRINTS KY selvbetjening 2013

Tabsberegninger i Elsam-sagen

Økonometri lektion 7 Multipel Lineær Regression. Testbaseret Modelkontrol

Ugeseddel 8. Gruppearbejde:

Fagblok 4b: Regnskab og finansiering 2. del Hjemmeopgave kl til kl

HVIS FOLK OMKRING DIG IKKE VIL LYTTE, SÅ KNÆL FOR DEM OG BED OM TILGIVELSE, THI SKYLDEN ER DIN. Fjordor Dostojevskij

Kvantitative metoder 2 Forår 2007 Ugeseddel 9

TEORETISKE MÅL FOR EMNET:

Inertimoment for arealer

Støbning af plade. Køreplan Matematik 1 - FORÅR 2005

Forberedelse INSTALLATION INFORMATION

Lineær regression lidt mere tekniske betragtninger om R^2 og et godt alternativ

Økonometri 1. Avancerede Paneldata Metoder II Introduktion til Instrumentvariabler 27. november 2006

Kreditrisiko efter IRBmetoden

FTF dokumentation nr Viden i praksis. Hovedorganisation for offentligt og privat ansatte

Morten Frydenberg Biostatistik version dato:

Kvantitative metoder 2 Forår 2007 Ugeseddel 10

BLÅ MEMOSERIE. Memo nr Marts Optimal adgangsregulering til de videregående uddannelser og elevers valg af fag i gymnasiet.

TO-BE BRUGERREJSE // Personligt tillæg

Antag X 1,..., X n stokastiske variable med fælles middelværdi µ og varians σ 2. Hvis µ er ukendt estimeres σ 2 ved 1/36.

Kvantitative metoder 2

Syddansk Universitet. Notat om Diabetes i Danmark Juel, Knud. Publication date: Document Version Også kaldet Forlagets PDF. Link to publication

Fastlæggelse af strukturel arbejdsstyrke

Stadig ligeløn blandt dimittender

Aalborg Universitet. Borgerinddragelse i Danmark Lyhne, Ivar; Nielsen, Helle; Aaen, Sara Bjørn. Publication date: 2015

χ 2 -fordelte variable

Eleven kan deltage i længere, spontane samtaler og argumentere for egne synspunkter

Vi ønsker også at teste hypoteser om parametrene. F.eks: Kan µ tænkes at være 0 (eller anden fast, kendt værdi)? Eksempel: dollarkurser

Fra små sjove opgaver til åbne opgaver med stor dybde

Uforudsete forsinkelser i vej- og banetrafikken - Værdisætning

Landbrugets efterspørgsel efter Kunstgødning. Angelo Andersen

Luftfartens vilkår i Skandinavien

Validering og test af stokastisk trafikmodel

Ligeløn-stilling blandt dimittender

PRODUKTIONSEFFEKTEN AF AVL FOR HANLIG FERTILITET I DUROC

Stadig ligeløn blandt dimittender

G Skriverens Kryptologi

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Trængselsopgørelse Københavns Kommune 2013

Økonometri 1. Avancerede Paneldata Metoder I 24.november F18: Avancerede Paneldata Metoder I 1

Regressionsmodeller. Kapitel Ikke-lineær regression

Kunsten at leve livet

Solvarmeanlæg ved biomassefyrede fjernvarmecentraler

Undersøgelse af pris- og indkomstelasticiteter i forbrugssystemet - estimeret med AIDS

Husholdningsbudgetberegner

Økonometri 1 Efterår 2006 Ugeseddel 13

Fisk en sjælden gæst blandt børn og unge

Kulturel spørgeguide. Psykiatrisk Center København. Dansk bearbejdelse ved Marianne Østerskov. Januar udgave. Kulturel spørgeguide Jan.

Europaudvalget EUU alm. del Bilag 365 Offentligt

Notat om porteføljemodeller

Analytisk modellering af 2D Halbach permanente magneter

4. KLASSE UNDERVISNINGSPLAN MATEMATIK

De naturlige bestande af ørreder i danske ørredvandløb målt i forhold til ørredindekset DFFVø

Værktøj til beregning af konkurrenceeffekter ved udlægning af nyt butiksområde

10. Usikkerhed og fejlsøgning

Økonometri 1. Interne evalueringer. Interne evalueringer. Dagens program. Heteroskedaticitet (Specifikation og dataproblemer) 2.

Danskernes Rejser. Christensen, Linda. Publication date: Link to publication

faktaark om nybygningens og 5. sporets kapacitet

FOLKEMØDE-ARRANGØR SÅDAN!

FRIE ABELSKE GRUPPER. Hvis X er delmængde af en abelsk gruppe, har vi idet vi som sædvanligt i en abelsk gruppe bruger additiv notation at:

Kort fortalt: Indledning. Hvilke data(informationer):

Simple værktøjer til helhedsorienteret vurdering af alternative teknologier til regnvandshåndtering

Transkript:

Downloaded from orbt.dtu.dk on: Dec 0, 017 Brugen af R^ gymnaset Brockhoff, Per B.; Hansen, Ernst; Ekstrøm, Claus Thorn Publshed n: LMFK-Bladet Publcaton date: 017 Document Verson Publsher's PDF, also known as Verson of record Lnk back to DTU Orbt Ctaton (APA): Brockhoff, P. B., Hansen, E., & Ekstrøm, C. T. (017). Brugen af R^ gymnaset. LMFK-Bladet, 017(), -31. General rghts Copyrght and moral rghts for the publcatons made accessble n the publc portal are retaned by the authors and/or other copyrght owners and t s a condton of accessng publcatons that users recognse and abde by the legal requrements assocated wth these rghts. Users may download and prnt one copy of any publcaton from the publc portal for the purpose of prvate study or research. You may not further dstrbute the materal or use t for any proft-makng actvty or commercal gan You may freely dstrbute the URL dentfyng the publcaton n the publc portal If you beleve that ths document breaches copyrght please contact us provdng detals, and we wll remove access to the work mmedately and nvestgate your clam.

Brugen af R gymnaset Per Bruun Brockhoff, DTU Compute, Ernst Hansen, KU Matematk og Claus Thorn Ekstrøm, KU Bostatstk Der lader tl at være en vs forvrrng blandt og uenghed mellem forskellge faggrupper omkrng R værden, også kaldet "forklarngsgraden" eller "determnatonskoeffcenten". Uengheden omkrng brugen og nytten af R som et mål tl at bekrve en statstsk model optræder kke kun gymnaset: globalt set skaber brugen af R tlsvarende gndnnger. Den anvendes rgtg meget vsse mljøer. Man kan mdlertd fnde en del fagstatstkere, der vl tænde advarselslampen overfor forskellge over og fejlfortolknnger af R værden, som det er let at lade sg besnære af, og som mange mljøer uden tvvl gør sg skyldge engang mellem. For en fagstatstker kan det derfor være frstende smpelthen at fraråde brugen af R det hele taget for at undgå, at folk fejlfortolker resultatet og/eller msbruger størrelsen. Med dette ndspark håber v at kunne bdrage tl den fælles forståelse for hvad R kan og kke kan gøre for os, og pege på et alternatv, der mange faglge sammenhænge kunne være en mere drekte størrelse at beregne. Et eksempel: Anscombes data Et klasssk eksempel, der vser, hvorfor R sg selv er problematsk, er Anscombes fre datasæt vst nedenfor (Anscombe 1973). Det er den samme bedste rette lnje, der går gennem punkterne alle fre fgurer (hældnng 0,5 og skærng 3). Desuden har alle 4 datasæt samme R = 0,667 = 66,7 %, men det er klart, at de modeller, der er gvet ved de fre rette lnjer kke beskrver data lge godt. I den øverste højre fgur er sammenhængen mellem x og y åbenlyst kke-lneær, og sammenhængen fguren nederste højre hjørne gver det slet kke menng at modellere som en ret lnje. Fra dette smple eksempel burde det være åbenlyst, at det kke gver menng at bruge værden af R alene tl at vurdere om en model er god tl at beskrve data. Helt kort og overordnet: R kan være OK som et led at sætte tal på værden af en statstsk model, men vær varsom! R kan vsse stuatoner fortælle noget relevant om data/stuatonen mangel af en bedre betegnelse, så vl v det efterfølgende referere tl sådanne stuatoner som "relevante tlfælde" Der er vgtge og centrale begrænsnnger hvad man kan uddrage alene af en R værd, selv nden for de relevante stuatoner En R værd bør aldrg stå helt alene kombner altd med vsualserng/plot af data. Man kan huske og ndprente sg mantraen: "Man skal tegne før man må regne" Det sdste punkt er måske det vgtgste. Hvs man vælger at bruge R som et led at vurdere en model, så skal man vde for det første vde, at det kke er nok blot at udregne værden. Der skal noget mere eller noget andet tl. Hvad er R? Defntonen af R værden fremgår de fleste lærebøger, og er også udførlg beskrevet på eksempelvs Wkpeda, og v y1 y 5 10 15 0 5 10 15 0 x1 x Matematk y3 5 10 15 0 x3 Fra dette LMFK-bladet smple eksempel /017 burde det være åbenlyst, at det kke gver menng at bruge værden y4 5 10 15 0 x4

vl kke gengve formlen her. Flere teknske detaljer er præsenteret Brockhoff, Ekstrøm, and Hansen (017). For det første kan en R værd beregnes for såvel den mest smple lneære model med en y varabel og netop een x varabel som for mere generelle modeller med flere x nput, de såkaldte multple lneære regressonsmodeller, og herunder således også de såkaldte polynomelle regressonsmodeller, hvor en kke lneær sammensstruktur mellem y og x kan håndteres. Bemærk, at man således godt kan modellere en kke lneær relaton mellem x og y med en lneær model. Der fndes naturlgvs også egentlg kke lnære modeller, men selvom R kan defneres for sådanne kke lneære regressonsmodeller, så har den kke længere sn sædvanlge fortolknng som "forklarngsgrad''. Der er yderlgere matematske fnurlgheder forbundet med såvel beregnngen og fortolknngen af sådanne størrelser forbndelse med egentlg kke lneære modeller, altså fx modeller, hvor klassske kke lneære funktoner som logartme, eksponental, snus og cosnus funktoner ndgår, og/eller hvor eventuelt flere ukendte elementer af modelfunktonen ndgår på en kke lneær måde. Det afholder kke nødvendgvs statstsk software af forskellge slags at anføre en eller anden varant af en R værd for sådanne modeller. Der er faktsk mange eksempler på, at den fulde ndsgt forskellge statstske metoders betydnng og begrænsnng kke har forplantet sg helt ud alle hjørner af verden (se Ekstrøm, Hansen, and Brockhoff 017). V vl formulerngerne fokusere på det første smple setup dette notat, altså netop en x varabel og y varabel men vl nd mellem påpege, hvordan mange af betragtnngerne enten kan anvendes drekte eller tlpasset form tl de multple lneære setups. 1. R er et relatvt mål for hvor tæt punkterne gennemsntlg lgger på den bedste rette lnje et plot af data fra to varable, x og y (målt ved lodrette y afstande). R gver en værd mellem 0 (eller 0 %) og 1 (svarende tl 100%), hvor 0 svarer tl stuatonen, hvor der kke er nogen form for lneær sammenhæng mellem x og y, og værden 1 opnås, når alle punkterne lgger præcst på en ret lnje.. R er også den kvadrerede (Pearson) korrelatonskoeffcent mellem x og y (set som en procent), der også bruges statstk tl at beskrve, hvor tæt/ stramt punkterne et plot lgger omkrng den bedste rette lnje. På hjemmesden guessthecorrelaton.com kan man splle sg tl en forståelse af, hvad forskellge punktskyer svarer tl korrelaton. Kvadrerer man korrelatonskoeffcenterne spllet får man således "forklarngsgrader" og det kan ses som et R spl stedet. (Alle punktskyer spllet svarer tl "relevante stuatoner"). 3. Når en R naturlgvs aldrg prakss antager værden 100% (vrkelge data vl kke falde eksakt på en lne), skyldes det faktsk to tng: Den lneære model vl prakss aldrg være en 100 % korrekt model for den vrkelghed man forsøger at modellere Selv hvs den var, så er der varaton mellem ndvduelle y værder flere observatoner med samme x værd vl varere (fx vl forskellge personer med samme højde (x) typsk have forskellge vægte (y)) 4. R er et samlet mål for (summen af) de to slags afvgelser svarende tl de to netop nævnte fænomener, men skelner kke mellem de to, se eksemplet med Anscombes data ovenfor. 5. Hvs man har skret sg at ens data stuatonen kke er for "mærkelge" og også har skret sg at kke lnearteten enten overhovedet kke kan ses eller er så llle, at den blver rrelevant, så kan man fnt fortolke på R værden. (Der er dog stadg grænser for hvad den kan bruges tl). 6. Når den så er relevant, kan man fortolke tallet som den del af y varatonen som x va den statstske model (den rette lnje) kan "forklare" fx vl en vs procentdel af vores vægtforskellghed kunne forklares af vores højdeforskellgheder. 7. For lneære modeller med flere x'er: Alle punkter ovenfor gælder stadg med følgende tlpasnnger. Generelt: Erstat "lnje" med "hyperplan". I punkt : R er den kvadrerede korrelatonskoeffcent mellem de estmerede modelværder og y. Hvad er R så IKKE? Foruden problemet vst Ascombes eksempel ovenfor er der andre punkter, man skal være opmærksom på, hvs man har tænkt sg at bruge R : 1. R er kke et mål for den drekte kvanttatve sammenhæng mellem x og y. R sger altså ntet om lnjens skærng og hældnng, som er de værder, der beskrver den aktuelle sammenhæng den relevante kontekst.. Ordet "forklarng" "forklarngsgrad" kan kke forstås som "kausaltet"/"årsags sammenhæng" det er alene et mål for den kvanttatve sammenhæng. Det kræver helt andre overvejelser omkrng den pågældende stuaton at forsøge at fortolke et resultat kausalt. 3. R tallet kan sg selv kke fortælle om en lneær model er "korrekt": En llle R kan godt være udtryk for en korrekt lneær gennemsntssammenhæng, der beskrver et system med en stor varaton En høj R kan godt stadgvæk levne rum for at der vlle være en statstsk endnu højere R værd, hvs man fk fat den "korrekte" kke lneære sammenhæng en stuaton Matematk LMFK-bladet /017 3

Matematk 4. Der fndes ngen menngsfulde globale krterer for hvad der er "acceptable" R værder på tværs af fagområder. En R værd på 0,65 kan være tlfredsstllende nogle stuatoner, mens en R værd på 0,95 kan være den ønskede grænse et konkret tlfælde for et andet fagområde. Igen betyder det, at talværden alene kke gver os tlstrækkelg nformaton tl at vurdere kvalteten af en model. 5. R er transformatons afhængg: hvs man eksempelvs anvender en logtransformaton på y værderne vl lnearteten og derved parameterfortolknngen samt R værden ændre sg. 6. R er kke en sandhed skåret grant: R er, som alt andet man beregner, behæftet med statstsk uskkerhed, som der dog for netop R s vedkommende kke er så stor tradton for at kgge på. Som alle andre sammenhænge gælder der, at uskkerheden vl være større jo mndre datamængder, der er tl rådghed. 7. Man kan skelne mellem stuatoner hvor man selv har bestemt x værderne, fx et doss respons forsøg kem, og så en stuaton hvor såvel x som y er tlfældge udfald, fx højde vægt eksemplet, hvor man vlle udtage mennesker tlfældgt, og dernæst måle såvel højde (x) som vægt (y). Lneær regresson kan gve fn menng begge stuatoner, men R værden (eller tlsvarende korrelatonskoeffcenten, r) kan have en mere fundamental fortolknng det sdste tlfælde end det første. I det sdste kan det (hvs alt ellers er orden) fortolkes som en grundlæggende bologsk størrelse. I det første kan man faktsk selv langt hen ad vejen bestemme R værden de valg af x værder man gør: Jo større forskellghed og afstand mellem de selvvalgte x værder jo større vl R blve, hvlket betyder, at den person, der laver forsøget kan gøre R større smpelthen ved at sprede x værderne ud! Man kan kke sge at R værden blver decderet "forkert" det er et tal, der er en tl en relaton med andre ganske fornuftge beregnngsstørrelser blot er fortolknngen stuatonsafhængg. 8. For lneære modeller med flere x'er: Alle punkter ovenfor gælder uden anden tlpasnng end at x skal læses og forstås flertal. R er et problematsk værktøj forbndelse med modellerng generelt, altså valget mellem forskellge multple modeller en R værd vl altd stge, hvs en model gøres mere nuanceret (et matematsk faktum), så en stgnng alene kan kke bruges tl noget. Kun når en sådan sammenlgnng kombneres med andre statstske værktøjer kan det bruges tl noget relevant. Se også bloggen sandsynlgvs.dk for flere detaljer om dette (det er skrevet af statstkere, så "en god model" = "en tlstrækkelg korrekt model", uanset hvor stor varatonen er, se dskussonen nedenfor). Et godt alternatv tl R : sprednngen σ R er som fortalt et relatv mål for hvor tæt modellen lgger på data. Dette anvendes ofte stuatoner, hvor skalaen på varablene sg selv kke betyder så meget, fx samfundsfag, socolog, psykolog, og så vdere, hvor det kan være forskellge spørgeskemaskalaer, der er brug. Taler v om anvendelser nden for teknk og naturvdenskab, vl der ofte være ret konkrete skalaer for såvel x som y. I sådanne tlfælde kan det være et godt alternatv at kgge specfkt på den mere drekte eller absolutte forskel mellem modellen og data, også kaldet "restsprednngen" eller "resdualsprednngen", σ, der udtrykker den gennemsntlge (lodrette) afstand mellem datapunkterne og modellnjen. Beregnngerne vl v kke vse her, men kan fndes mange steder, fx (Brockhoff, Ekstrøm, and Hansen 017). Tallet vl også have en drekte fundamental fortolknng den anvendte lneære regressonsmodel: højde vægt eksemplet, hvor vægten modelleres som en lneær funkton af højden, vl σ udtrykke vægtsprednngen for mennesker med samme fastholdte højde. Dette tal vl typsk være noget mndre end vægtsprednngen populatonen som helhed på tværs af alle højder. I Anscombes eksempel ovenfor blver σ 1,37, som således kan fortolkes på samme skala og med samme fysske enhed som y data kommer med. Værden for σ er øvrgt præcs som for R det samme tal alle fre tlfælde! Tallet σ er således hverken mere eller mndre "rgtgt" eller "forkert" at beregne end R, og det kan hverken mere eller mndre benyttes tl alle de tng, som v berører ovenfor. Tl gengæld har tallet en fortolknng, der kan være drekte relateret tl den konkrete problemstllng, hvlket passer bedre forhold tl punkt 7 ovenfor, og så kan man modsætnng tl R kke sådan lge påvrke σ tallet bare ved at ændre på x værderne. Måske vl σ for mange være et tal man lettere kan forholde sg tl, og måske man ldt mndre grad vl være frstet tl at drage forhastede konklusoner, hvs man benytter σ som hvs man bruger R. Man kan sge, at det absolutte mål σ sådan set ndgår det relatve mål, som R faktsk er. Omend der faktsk er en llle fnurlg men nydelg krølle på dette ræsonnement, se Brockhoff, Ekstrøm, and Hansen (017). Det er øvrgt så også et drekte eksempel på det fundamentale begreb varans og/eller sprednng, som nok fortjener ldt større bevågenhed uddannelsessystemet, herunder på gymnasenveau (Ekstrøm, Hansen, and Brockhoff 017). "Omvendt" regresson? Der kan konkrete tlfælde med to varable u og v opstå en overvejelse omkrng, hvlken der skal tage rollen som x og hvlken som y. Den nysgerrge studerende kunne spørge sg selv og/eller sn lærer: "hvad sker der egentlg, hvs man vender det om, og ombytter rollerne for de to varable?" Man kan forholde sg tl denne overvejelse på to nveauer: hvad der sker rent beregnngsmæssgt, og hvad der 4 LMFK-bladet /017

Matematk forhold tl den kontekstspecfkke anvendelse er det mest relevante. R værden, og tlsvarende korrelatonskoeffcenten afhænger kke af hvordan tngene vender, men selve estmatet for den bedste rette lnje og σ beregnngen vl gve to forskellge tng. Det kræver mulgvs ldt forståelsesmæssg tlvænnng, men det gver faktsk god menng: Det er to forskellge tng at fnde den bedste rette lnje som beskrver vægt som en lneær funkton af højde, hvor man mnmerer vægtafvgelser, og så at fnde den bedste rette lnje, som beskrver højde som funkton af vægt, hvor man mnmerer højdeafvgelser. Der er præcse matematske relatoner mellem de to løsnnger. Folk med matematsk baggrund kender skkert tl mulgheden for at fnde en helt tredje beregnngsvarant, der lgger præcs mdt mellem de to andre, og som mnmerer de vnkelrette afstande tl den rette lnje. Denne kommer som en konsekvens af en analysemetode, der også kaldes prncpal komponent analyss (PCA), som faktsk bruges stor stl tl eksploratv analyse af højdmensonale data og tl dmensonsredukton. Men PCA er faktsk kke sg selv en regressonsmetode, og den PCA baserede lnje er kke det korrekte svar på nogen af de to oplagte fagspecfkke spørgsmål: Hvad er modellen for u som funkton af v eller hvad er modellen for v som funkton af u? Det korrekte svar på hvert af dsse spørgsmål er det tlsvarende valg af den "asymmetrske" beregnng, hvor den ene får y-rollen, og den anden x-rollen. Denne dskusson skal ses forhold tl punkt 7 ovenfor. Hvs man selv har bestemt x værderne, så har R, som beskrevet, kke så god en fortolknng, og den kontekstspecfkke problemstllng, altså hvad der er x og hvad der er y er defneret fra starten. I den anden mere symmetrske (x, y) stuaton, kan begge veje gve teoretsk lge god menng, og det er således alene den kontekstspecfkke betragtnng, der skal afgøre hvlket spørgsmål man vl besvare, og så lave beregnngerne og konklusonerne derefter. Hvordan skrer man sg, at man er et "relevant tlfælde"? Der fndes desværre kke et og kun et tal, man kan beregne, der kan besvare dette spørgsmål med et klart ja eller nej. Det er en del af den komplekstet man må vænne sg tl omkrng brugen af "statstsk ræssonerng", se Ekstrøm, Hansen, and Brockhoff (017). Der er mange redskaber, der forsøger at belyse forskellge aspekter af om en model er god, og på gymnasenveau skal man fnde en passende smpel måde at håndtere dette. Det prmære værktøj er vsualserng af selve (x, y) relatonen: ser punktskyen nogenlunde lneær og "samlet" ud? Hvordan ser modelafvgelserne ud, når de plottes mod de forventede værder, og/eller mod x nputs: Er de tlstrækkelg uden struktur? Er der ngen enkeltafvgelser, der er helt ekstreme? Og ser de ellers ud tl at følge en normalfordelng? Det sdste kunne vurderes boxplots og hstogrammer af afvgelserne. Det er kke nemt pædagogsk og præcst at ndkredse denne del af den statstske proces. Hvad angår undersøgelsen af om den lneære model er tlstrækkelg korrekt kan man også anvende modellerng med mere komplekse modeller for helt konkret at vurdere om de mere komplekse modeller faktsk er nødvendge. Hvs kke, kan man med mere ro sndet anvende den lneære. Helt konkret kunne man tlpasse en mere generel funkton tl data, og så plotte denne tlpasnng sammen med nogle konfdensgrænser for sammenhængen, og derefter vurdere, om man med rmelghed kan antage, at den rette lne er at fnde ndenfor konfdensbåndene. V er med på, at dette kke lgger nden for almndelg gymnasepensum, men hvs man udvdede pensum tl at omfatte multpel regressonsanalyse vlle dette falde ndenfor. Kommunkatonsudfordrng V tror, at en del af forklarngen på de gndnnger, der måske opstår mellem faggrupper, kan være af kommunkatonsmæssg karakter. Måske forskellge folk lægger forskellge tng ord som "en god model" versus "en dårlg model", og tlsvarende et begreb som en "korrekt model". Model, som begreb og som ord, kan naturlgvs også betyde vdt forskellge tng afhængg af sammenhængen det ndgår. Man man forestlle sg, at en matematker/statstker naturlgt vl sætte lghedstegn mellem "en god model" og en "tlstrækkelg korrekt model", mens anvendere de faglge mljøer, fx samfundsfag eller andet kan forestlles at mene, at "en god model" er lg med en model, der både er tlstrækkelg korrekt og har en llle varaton, så den lgger konkret tæt på data. Begge betragtnnger gver på sn vs ganske god menng! Idet R måler begge dele et samlet mål, så er det på den ene sde et fornuftgt mål for anvenderen, men på den anden sde skelner målet kke mellem de to bdrag, og matematkeren/statstkeren har dermed helt ret, at R kke er noget godt mål for "korrektheden" af modellen, og at der dermed kan gemme sg nuancer nedenunder, som man kan overse uden denne nuancerng. At tale om en "tlstrækkelg korrekt model" er en typsk fagstatstsk termnolog og tankegang, hvor udgangspunktet ofte er at alle modeller er forkerte, men nogen er brugbare (Box and Draper 1987, 44). Det er en tankegang, der mulgvs hos nogle naturvdenskabsfolk, der søger de "sande mekansmer" = "korrekte modeller" kan være ldt fremmed. Men det afspejler nok, at rgtg mange af de komplekse problemstllnger, som søges løst med statstske og matematske modeller samfundsmæssge, ndustrelle og forsknngsmæssge sammenhænge kke lader sg løse med en enkelt unversel, kendt og veldefneret sand/korrekt model. Der behøver dog kke være nogen rgtg modstrd de to tankegange. Det kan være særdeles fornuftgt at søge at beskrve fænomener med kendte modeller, hvad enten det er fysske, kemske, bologsk eller andre typer modeller. Man kan nogen gange beskrve en del af strukturerne et fænomen med 30 LMFK-bladet /017

kendte og velunderbyggede modeller, og lade resten modelleres af mere emprsk baserede modeller for resterende struktur og varaton. Så længe man kke lader sg "teorforblænde" af modeller, der alene på grund af dverse hstorske årsager og begrænset nformaton har tlkæmpet sg uretmæssge forsknngsmæssge postoner. Det er vgtgt at fortælle den samme hstore Det vgtgste må være, at de studerende lærer noget, som 1) de forstår hvad måler, og som de ) har kompetencen tl at bruge (og vde, hvornår man kke kan bruge). Det bør derfor tlstræbes, at de forskellge fagmljøer hvs man fortsat vælger at bruge R som et led statstkundervsnngen gymnaset fortæller den samme hstore omkrng R. Desværre fndes der kke en smpel, objektv måde at vurdere korrektheden af en statstsk model på, men det understreger blot vgtgheden af, at alle faggrupper er stand tl at formdle alle de fordele og ulemper, der måtte være, ved den valgte metode. Referencer Anscombe, F. J. 1973. Graphs n Statstcal Analyss. Amercan Statstcan 7: 17 1. Box, G. E. P., and N. R. Draper. 1987. Emprcal Model-Buldng and Response Surfaces. John Wley; Sons. Brockhoff, Per Bruun, Claus Thorn Ekstrøm, and Ernst Hansen. 017. Lneær Regresson: Ldt Mere Teknske Betragtnnger Om R Og et Godt Alternatv. LMFK bladet. Ekstrøm, Claus Thorn, Ernst Hansen, and Per Bruun Brockhoff. 017. Statstk I Gymnaset. LMFK bladet. Lneær regresson ldt mere teknske betragtnnger om R og et godt alternatv Per Bruun Brockhoff, DTU Compute, Claus Thorn Ekstrøm, KU Bostatstk og Ernst Hansen, KU Matematk Dette ekstra llle notat om den såkaldte R værd, som kan beregnes forbndelse med lneær regresson, skal ses sammenhæng med vores kke teknske notat om samme emne. Ud over at få defneret tngene matematsk præcst, vl v foreslå sprednngen σ som et godt alternatv. De to hænger nært sammen, måler for så vdt det samme, R på en relatv måde og σ på en absolut måde. Sprednngen σ kan ses ret drekte sammenhæng med uskkerhedsbetragtnnger mere generelt, som v det store bllede mener er ret vgtge. Defnton af R den smple lneære regressonsstuaton Lad os lge mnde om hvad v overhovedet taler om. Den smpleste forekomst af R optræder den lneære regressonsmodel y = α + βx + ε, = 1,, n. Tl hver målng y er der knyttet en kovarat x, og man kan ønske at undsøger om kovaraten har en lneær påvrknng af målngen og gvet fald at kvantfcere og fortolke sammenhængen og måske at benytte den tl at forudsge y værden for nye x værder. Parametrene α og β er ukendte, og analysen af regressonsmodellen fokuserer normalt på at estmere dem. De tlbageværende størrelser ε 1,..., ε n er såkaldte støjvarable, der skal redde modellen fra at kollapse mødet med vrkelgheden, hvor parrene (x, y ) jo aldrg lgger præcs på en matematsk ret lnje. Den sædvanlge antagelse om støjvarablene er, at de er uafhængge, og at de er normalfordelte med mddelværd 0 og samme varans σ (endnu en parameter modellen). I denne ramme defneres R ved formlen R SSxy = SS SS xx yy, (1) hvor SS xy, SS xx og SS yy er nogle af de standard beregnngsstørrelser, man allgevel ofte regner ud forbndelse med estmaton af de tre parametre α, β og σ : β α hvor SSxy = SSxx = y βx SS = ( x x) xx = 1 n SS = ( y y) yy SS = ( x x) y y xy n = 1 () (3) (4) (5) (6) LMFK-bladet /017 31 n = 1 ( ) Dsse resultater er også velkendte fra mndste kvadraters metode, og gver modellens estmerede hældnng og skærng (på baggrund af de tlgængelge data). Med de estmerede parametre kan v bruge modellen tl at udregne de forventede værder, y, der beskrver, hvad v gennemsnt forventer at observere for en gven x værd: y = α + βx Matematk