Kvadratisk regression



Relaterede dokumenter
Analyse af en lineær regression med lav R 2 -værdi

Funktioner. 3. del Karsten Juul

Bedste rette linje ved mindste kvadraters metode

Forelæsning 11: Kapitel 11: Regressionsanalyse

Lineære sammenhænge, residualplot og regression

Matema10k. Matematik for hhx C-niveau. Arbejdsark til kapitlerne i bogen

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kapitel 11 Lineær regression

For at få tegnet en graf trykkes på knappen for graftegning. Knap for graftegning

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Graph brugermanual til matematik C

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Rygtespredning: Et logistisk eksperiment

Potensfunktioner samt proportional og omvent proportional. for hf Karsten Juul

Residualer i grundforløbet

1 Regressionsproblemet 2

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Modelkontrol i Faktor Modeller

Projekt 6.1 Rygtespredning - modellering af logistisk vækst

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Lineær Regression. Anders Rønn-Nielsen Copenhagen Business School. Bo Markussen Købanhavns Universitet. 6. april, 2018

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Matricer og lineære ligningssystemer

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Fig. 1 Billede af de 60 terninger på mit skrivebord

Excel tutorial om lineær regression

Modellering af elektroniske komponenter

Computerundervisning

Produkt og marked - matematiske og statistiske metoder

Lineær Regression A-niveau

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Statistik i GeoGebra

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

qwertyuiopåasdfghjklæøzxcvbnmqw ertyuiopåasdfghjklæøzxcvbnmqwert yuiopåasdfghjklæøzxcvbnmqwertyui Polynomier opåasdfghjklæøzxcvbnmqwertyuiopå

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Perspektiver i Matematik-Økonomi: Linær regression

Aflevering 4: Mindste kvadraters metode

Der er facit på side 7 i dokumentet. Til opgaver mærket med # er der vink eller kommentarer på side 6.

Kapitel 3 Lineære sammenhænge

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

Dig og din puls Dig og din puls Side 1 af 17

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Vektorer og lineær regression

Studieretningsprojekter i machine learning

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Undersøge funktion ved hjælp af graf. For hf-mat-c.

Vektorer og lineær regression. Peter Harremoës Niels Brock

Analyse af måledata II

Anvendt Statistik Lektion 7. Simpel Lineær Regression

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Projekt 1.4 Tagrendeproblemet en instruktiv øvelse i modellering med IT.

OpenOffice Calc ver 3.3 (regneark)

Deskriptiv statistik for hf-matc

Kapitel 8. Hvad er matematik? 1 ISBN Øvelse 8.2

gudmandsen.net 1 Parablen 1.1 Grundlæggende forhold y = ax 2 bx c eksempelvis: y = 2x 2 2x 4 y = a x 2 b x 1 c x 0 da x 1 = x og x 0 = 1

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Deskriptiv statistik for matc i stx og hf

Dansk Erhvervs gymnasieanalyse Sådan gør vi

Lineære sammenhænge. Udgave Karsten Juul

MATEMATIK A-NIVEAU 2g

1 Ligninger. 2 Ligninger. 3 Polynomier. 4 Polynomier. 7 Vækstmodeller

Undervisningsbeskrivelse

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Matematik B-niveau 31. maj 2016 Delprøve 1

Løsningsforslag Mat B August 2012

GUX. Matematik Niveau B. Prøveform b

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Mundtlige spørgsmål til 2v + 2b. mat B, sommer Nakskov Gymnasium & Hf.

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

qwertyuiopåasdfghjklæøzxcvbnmqw ertyuiopåasdfghjklæøzxcvbnmqwert yuiopåasdfghjklæøzxcvbnmqwertyui opåasdfghjklæøzxcvbnmqwertyuiopå

Statistik viden eller tilfældighed

Eksponentielle funktioner for C-niveau i hf

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

6. Regression. Hayati Balo,AAMS. 1. Nils Victor-Jensen, Matematik for adgangskursus, B-niveau 1

Mat H /05 Note 2 10/11-04 Gerd Grubb

Det grafiske billede af en andengradsfunktion er altid en parabel. En parabels skæring med x-aksen kaldes nulpunkter eller rødder.

Udeladelse af én observation. Note til kapitlerne 4, 5 og 6

Andengradspolynomier - Gymnasienoter

2 Erik Vestergaard

Stx matematik B maj 2009

Dansk Erhvervs gymnasieeffekt - sådan gør vi

Matematik B, august 2017 Løsninger CAS-værktøj: Nspire. Delprøven uden hjælpemidler

Undervisningsbeskrivelse

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge

Undervisningsbeskrivelse

gudmandsen.net 1 Parablen C-niveau y = ax 2 bx c eksempelvis: y = 2x 2 2x 4

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Pointen med Differentiation

Eksempel på logistisk vækst med TI-Nspire CAS

Transkript:

Kvadratisk regression Helle Sørensen Institut for Matematiske Fag Københavns Universitet Juli 2011 I kapitlet om lineær regression blev det vist hvordan man kan modellere en lineær sammenhæng mellem to variable, x og y, hvor man samtidig tager højde for at y-variablen varierer tilfældigt. Dette svarer til at observationer af (x, y) ligger omkring en ret linie således at y a x + b. Her er a hældningen på linien og b angiver den værdi man ville forvente at få af y når x = 0. Sammenhængen mellem to variable behøver selvfølgelig ikke være lineær. Den kunne være eksponentiel således at observationer af (x, y) opfylder y b e kx. Eller der kunne være tale om en potenssammenhæng således at observationer af (x, y) opfylder y b x a. I dette kapitel skal vi se på en helt fjerde mulighed, nemlig den situation hvor observationer af (x, y) varierer omkring en parabel. Dette svarer til at og kaldes kvadratisk regression. y ax 2 + bx + c Eksempel: Høsttidspunkt for ris Ved dyrkning af afgrøder i landbruget har høsttidspunktet stor betydning for udbyttet. Hvis man vil undersøge denne sammenhæng, må man udføre et eksperiment hvor man varierer høsttidspunktet og registrerer udbyttet for de forskellige høsttidspunkter. Vi skal se på data fra et eksperiment vedrørende dyrkning af ris. Data stammer fra Indien og er publiceret i en artikel af S. Bal og T.P. Ojha fra 1975. I forsøget blev der plantet ris på 16 marker, og man observerede hvornår risen var afblomstret. Man havde på forhånd besluttet at høste risen henholdsvis 16, 18, 20,..., 46 dage efter afblomstring, og udbyttet efter høst blev registreret i enheden kg per hektar. Data fra de 16 marker er gengivet i tabellen nedenfor. Dage efter afblomstring 16 18 20 22 24 26 28 30 Udbytte (kg per hektar) 2508 2518 3304 3423 3057 3190 3500 3883 Dage efter afblomstring 32 34 36 38 40 42 44 46 Udbytte (kg per hektar) 3823 3646 3708 3333 3517 3241 3103 2776 Figur 1 illustrerer hvordan udbyttet afhænger af høsttidspunktet. Hvis man høster for tidligt, er risene ikke fuldt udviklet, og man får et forholdsvis lavt udbytte. Hvis man høster for sent, er risene tørret for meget, således at udbyttet målt i kg per hektar igen er forholdsvis

2 Udbytte (kg per hektar) 2600 3000 3400 3800 15 20 25 30 35 40 45 Antal dage efter blomstring Fig. 1: Data vedrørende dyrkning af ris. lavt. Indimellem er der et tidspunkt hvor det er optimalt at høste risen. Det ser ud til at datapunkterne ligger omkring en parabel, således at det er rimeligt at lave kvadratisk regression. Hvis vi lader x betegne antal dage efter abomstring og y betegne udbyttet, vil vi altså beskrive sammenhængen som y ax 2 + bx + c. I analysen af disse data er opgaven derfor følgende: Find den parabel eller det andengradspolynomium dvs. koecienterne a, b og c der passer 'bedst muligt' til data. Ligesom for lineær regression vil vi bruge mindste kvadraters metode. Find det optimale høsttidspunkt. Når vi først har fundet det andengradspolynomium der passer bedst muligt til data, er dette simpelt, da det optimale tidspunkt kan beregnes udfra koecienterne i polynomiet. Mere om det senere. Bemærk at man på forhånd havde besluttet hvilke marker der skulle høstes hvornår. Dette er vigtigt for at konklusionerne fra forsøget kan bruges mere generelt. Hvis man i stedet havde kigget på risens udvikling og for eksempel høstet hurtigt voksende ris tidligt og sent udviklet ris sent, ville man have sammenblandet forskellige sammenhænge. Hvilke marker der skal høstes hvornår, må heller ikke afhænge af ens viden om de forskellige marker, for eksempel at nogle marker plejer at give højere udbytte end andre. Dette ville igen forplumre konklusionerne. For at undgå dette trækker man lod om hvilke marker der skal høstes hvornår. Forudsætninger Forudsætningerne for kvadratisk regression er de samme som for lineær regression, bortset fra at middelværdien af y givet x er et andengradspolynomiun i x i stedet for en lineær funktion. Forudsætningerne er altså: 1. For et givet x er det tilhørende y normalfordelt. Dette er ofte en rimelig antagelse for biologiske data som dem fra eksemplet med ris. Antagelsen er i øvrigt ikke strengt nødvendig; analysen nedenfor er fornuftig hvis 'bare' antagelserne 24 er opfyldt.

3 2. Middelværdien af y givet x er et andengradspolynomium i x, dvs. ax 2 + bx + c. 3. Spredningen på y givet x er den samme uanset værdien af x. 4. Der er ikke fælles information i y'erne i den forstand at afvigelsen mellem observation og parabel for et enkelt y ikke giver os nogen information om afvigelsen mellem observation og parabel for de andre y'er. Bedste parabel (mindste kvadraters metode) En af forudsætningerne ovenfor er at middelværdien for et y givet det tilhørende x er ax 2 + bx + c for et eller andet sæt af værdier a, b og c. Vi kalder som regel a, b og c for parametre i den kvadratiske regressionsmodel. Vi vil nu bestemme de værdier af a, b og c der får parablen til at passe bedst muligt med de observerede data. Som illustration vil vi i første omgang benytte følgende tal (som er opfundet til lejligheden): x -4-3 -2-1 0 1 2 3 4 y 23.1 11.5 5.8 6.0 1.8-1.4 0.2 6.4 9.8 Observationerne er tegnet i den øverste gur i gur 2 sammen med to forskellige parabler. Ligningen for den blå parabel er y = 0.957x 2 1.452x + 0.642, mens ligningen for den røde parabel er y = x 2 2x + 0.5. Altså: Blå : a = 0.957 b = 1.452, c = 0.642 Rød : a = 1, b = 2, c = 0.5. Bemærk at parablerne ikke er særlig forskellige for de to sæt af værdier i hvert fald på intervallet fra 5 til 5 selvom værdierne af parametrene er ret forskellige, og det er med det blotte øje svært at afgøre hvilke af de to parabler der 'passer bedst' med data. Som for lineær regression vil vi benytte mindste kvadraters metode. Betragt 'den røde gur' nederst til venstre i gur 2. For hver x-værdi har vi dels den tilhørende observation og dels værdien 0.5 2x+x 2 på parablen. Afstanden mellem observationen og værdien på parablen kaldes residualet for observationen og betegnes y. Længden af de sorte liniestykker i guren svarer netop til residualerne. Størrelsen af de røde kvadrater svarer derfor til ( y) 2. For observationen med x = 3 har vi for eksempel y = 6.4, 0.5 2x + x 2 = 3.5 og dermed y = 2.9 og ( y) 2 = 12.25. I den nederste højre del af gur 2 har vi gjort det samme for den blå parabel. For nogle af datapunkterne er de røde kvadrater større end de blå, for andre er det omvendt, men samlet set er størrelsen af de blå kvadrater tydeligvis mindre end de røde. Pointen er at forskellige værdier af a, b og c fører til forskellige parabler og dermed til forskellige residualer og forskellige størrelse af de tilhørende kvadrater. Vi vil gerne nde de værdier af a, b og c som gør den samlede størrelse af de tilhørende kvadrater så lille som muligt. Formelt set leder vi efter de værdier af a, b og c der gør ( y 1 ) 2 + ( y 2 ) 2... + ( y n ) 2 så lille som muligt. Her har vi brugt notationen n for antallet af datapunkter (her er n = 8) og y 1, for eksempel, for residualet hørende til det første datapunkt.

4 y 0 5 10 15 20 25 4 2 0 2 4 x y 0 5 10 15 20 25 y 0 5 10 15 20 25 4 2 0 2 4 x 4 2 0 2 4 x Fig. 2: Illustration af mindste kvadraters metode. Øverst ses datapunkterne sammen med parablen givet ved ligningen y = 0.957x 2 1.452x+0.642 (blå) og parablen givet ved ligningen y = x 2 2x+0.5 (rød). Nederst illustrerer de blå/røde arealer størrelsen af de kvadrerede residualer ( y) 2 for hver af de to parabler. Man kan faktisk skrive formler op for det optimale valg af a, b, og c, men det vil vi ikke gøre her, og i praksis får man en lommeregner eller en computer til nde værdierne. For vores lille datasæt fra gur 2 viser det sig den blå parabel er den der anledning til de mindste kvadrerede residualer (samlet set). Altså: hvis vi rykker på parablen, kan det godt være at nogle af de kvadrerede residualer bliver mindre, men der er til gengæld andre der bliver større således at summen af de kvadrerede residualer bliver større. Vi har med andre ord fundet ud af at andengradspolynomiet 0.957x 2 1.452x + 0.642 er det der passer bedst til vores data. Vi skriver som regel â = 0.957, ˆb = 1.452, ĉ = 0.642 med 'hat' over a, b og c for at indikere at dette er estimater for parametrene. Excel Beregningerne kan udføres i Excel på følgende måde:

5 Tallene indlæses som to søjler i Excel. Tallene plottes i et 'punktdiagram' (svarende til plottet øverst i gur 2, blot uden parablerne) ved at gå til 'Indsæt' i værktøjslinien og vælge 'Punktdiagram' og 'Punktdiagram kun med datamærker'. *** OK på dansk? Har selv kun engelsk version af Excel?*** Den bedste parabel beregnes og tegnes ved at højreklikke på et af punkterne og vælge 'Tilføj tendenslinie' og derefter 'Polynomium'. I 'Indstillinger' markeres 'Vis ligning i diagram'. Prøv selv med data fra gur 2! Eksempel: Høsttidspunkt for ris (fortsat) Vi kan også nde de værdier af a, b og c, der passer bedst muligt med data vedrørende høsttidspunkt og udbytte for ris. Her viser det sig at â = 4.536, ˆb = 293.483, ĉ = 1070.398. Den tilhørende parabel er indtegnet i gur 3 sammen med datapunkterne. Udbytte (kg per hektar) 2600 3000 3400 3800 15 20 25 30 35 40 45 Antal dage efter blomstring Fig. 3: Data vedrørende dyrkning af ris sammen med den bedste parabel, y = 4.536x 2 + 293.483x 1070.398. Toppunktet for parablen er også vist. Faktisk var vi interesseret i at nde det optimale høsttidspunkt, altså den værdi af x hvor y er størst muligt. Hvis g(x) = ax 2 + bx + c, ) = D 4a hvor D = b2 4ac er ved vi at g har maksimum når x = b 2a, og maksimum er g ( b 2a diskriminanten. Hvis vi indsætter estimaterne af a, b og c får vi en (estimeret) diskriminant på ˆD = ˆb 2 4âĉ = 293.483 2 4 4.536 1070.398 = 66710.97,

6 et optimalt høsttidspunkt på og et optimalt udbytte på ˆb 2â = 293.483 2 4.536 = 32.35 ˆD 4â = 66710.97 4 4.536 = 3676.751 Toppunktet er illustreret med de stiplede linier i gur 3. Baseret på de foreliggende data kan vi altså konkludere at det er optimalt at høste cirka 32 dage efter afblomstring. Man kan naturligvis ikke være sikker på at dette altid er det optimale tidspunkt eftersom vejr, jorbundsforhold osv. har betydning. Simulation Det er vigtigt at gøre sig klart at resultater opnået ved dataanalyse er behæftet med usikkerhed på grund af den variation der er i data. Hvis vi udførte riseksperimentet igen, ville vi få nogle (lidt) anderledes data og dermed nogle (lidt) anderledes estimater, og i sidste ende et (lidt) andet toppunkt. I statistik har vi imidlertid redskaber der giver mulighed for at beskrive og vurdere variationen i estimaterne og dermed usikkerheden på konklusionerne. Lad os prøve at få en fornemmelse af usikkerheden ved hjælp af simulerede data fra den kvadratiske regressionsmodel. Vi lader som om værdierne â = 4.536, ˆb = 293.483, ĉ = 1070.398 er sande i den forstand at vi antager at det tilhørende andengradspolynomium pånær tilfældig variation beskriver sammenhængen mellem antallet af dage efter afblomstring (x) og udbytte (y). Husk at disse værdier giver et toppunkt for x = 32.35. Vi antager altså at udbyttet x dage efter afblomstring er normalfordelt med middelværdi 4.536x 2 + 293.483x 1070.398. Vi antager at spredningen i normalfordelingen er 204. Det er den værdi der passer bedst med de oprindelige data i en passende forstand som vi ikke vil komme nærmere ind på her. Venstre del af gur 4 er lavet på følgende måde: Grafen for middelværdifunktionen f(x) = 4.536x 2 + 293.483x 1070.398 er tegnet med sort. For hver værdi af x (x = 16, 18,..., 46) har vi simuleret en værdi af y fra normalfordelingen med den relevante middelværdi og spredning 204. De simulerede data er tegnet som røde punkter. De simulerede data er brugt som data i en ny kvadratisk regression, dvs. vi har ved hjælp af mindste kvadraters metode fundet den parabel der passer bedst til de nye data. Den estimerede parabel er tegnet med rødt. Vi kan se at den estimerede røde parabel er ganske forskellig fra den 'sande' sorte, men vi ser også der ikke er særlig stor forskel på toppunkterne. Toppunktet for den røde parabel viser sig at være givet ved x = 34.37. Det er ikke nok at lave en enkelt simulation for at vurdere usikkerheden den simulerede parabel kunne jo være meget usædvanlig. I højre del af gur 4 har vi derfor gentaget proceduren

7 Simuleret udbytte (kg per hektar) 2800 3000 3200 3400 3600 3800 15 20 25 30 35 40 45 Antal dage efter blomstring Estimeret udbytte (kg per hektar) 2800 3000 3200 3400 3600 3800 15 20 25 30 35 40 45 Antal dage efter blomstring Fig. 4: Estimerede parabler for simulerede data. Den sorte parabel svarer til y = 4.536x 2 + 293.483x 1070.398, og data er simuleret fra en normalfordeling med denne middelværdi og spredning 204. Plottet til venstre viser datapunkterne fra en enkelt simulation og den tilhørende estimerede parabel. Plottet til højre viser de estimerede parabler for 10 simulerede sæt af datapunkter. 10 gange. Den sorte kurve er stadig den sande parabel, mens de røde er estimaterede parabler fra 10 sæt af simulerede data. Vi har ikke tegnet de tilhørende datapunkter. Igen ser vi at parablerne ser ganske forskellige ud, men toppunktet er stabilt. Det varierer fra 30.85 til 32.94 med gennemsnit på 32.30. Vi gentog også proceduren 5000 gange. Et histogram over de 5000 simulerede toppunkter er vist i gur 5. De simulere toppunkter ligger mellem 30 og 35.5, og 95% af værdierne ligger mellem 31.1 og 33.8. Gennemsnittet er 32.39 hvilket stemmer godt overens med det 'sande' toppunkt på 32.35 (svarende til den lodrette røde linie i histogrammet). Vi kan konkludere at hvis den kvadratiske regressionsmodel er en god model for sammenhængen mellem høsttidspunkt og udbytte, så er det optimale høsttidspunkt bestemt med en usikkerhed på et par dage. Konklusion I dette afsnit har vi diskuteret mindste kvadraters metode i forbindelse med kvadratisk regression, og vi har analyseret et datasæt vedrørende risdyrkning. Nogle vigtige pointer er følgende: Hvis man vil vide noget om sammenhængen mellem to (eller ere variable) må man indsamle data bestående af sammenhørende værdier af variablene. Dataindsamling skal foretages omhyggeligt, og det skal på forhånd besluttes hvordan dataindsamlingen/eksperimentet skal udføres. Dette foregår ved lodtræning for at undgå at der sker en sammenblanding af x og andre variable med indydelse på y. For eksempel må vi ikke se på rismarken og beslutte hvornår der skal høstes; dette skal være afgjort ved lodtrækning på forhånd. Mere generelt må vi ikke lade indsamlede data bestemme hvordan resten af eksperimentet udføres, idet det vil påvirke resultatet af dataanalysen. De indsamlede datapunkter vil aldrig ligge præcis på en parabel (eller en ret linie hvis vi snakker om lineær regression). Der er variation i risudbyttet som vi ikke kan forklare blot

8 0 500 1000 1500 30 31 32 33 34 35 Optimalt høsttidspunkt Fig. 5: Histogram over 5000 simulerede optimale høsttidspunkter (toppunkter). Data er simuleret fra en normalfordeling med middelværdifunktion y = 4.536x 2 + 293.483x 1070.398 og spredning 204. Det optimale høsttidspunkt for disse værdier (32.35) er vist med den lodrette røde linie. ved at inddrage tiden siden afblomstringen. Selv hvis vi vidste alting om rismarkerne, ville vi næppe kunne forudsige udbyttet præcist. Der er en naturlig variation som vi hverken kan eller vil beskrive. De indsamlede data giver anledning til en estimeret parabel som punkterne varierer omkring. Hvis vi gentog eksperimentet eller dataindsamlingen, ville vi få andre y-værdier og dermed en anden estimeret parabel. Der er altså en vis usikkerhed behæftet med den estimerede parabel eller de estimerede parametre. En meget vigtig del af en statistisk analyse er at kunne gøre rede for denne usikkerhed, dvs. gøre rede for hvor meget vi kan stole på den estimerede sammenhæng. Det var det vi forsøgte at gøre i afsnittet om simulation, men i statistik har vi også andre redskaber til at beskrive denne usikkerhed. I denne bog har I set at man kan bruge mindste kvadraters metode til at lineær regression og kvadratisk regression. Metoden kan også bruges i andre situationr, for eksempel hvis der er en eksponentiel sammenhæng eller en potensssammenhæng mellem x og y, eller hvis værdien af y beskrives ved hjælp af ere x-variable. Det sidste kaldes multipel regression. Opgave (Brudstyrke af kraftpapir) Kraftpapir bruges blandt andet til papirsposer, og det er derfor vigtigt at trækstyrken og brudstyrken er høj. Kraftpapir består hovedsageligt af træ fra nåletræer, men løvtræ kan tilsættes træmassen under produktionen. Spørgsmålet er hvor meget løvtræ der bør bruges for at opnå størst mulig brudstyrke. I tabellen nedenfor er vist sammenhørende værdier af andelen af løvtræ (procent af træmassen) og den maksimale belastning før brud. Belastningen er målt i enheden psi, dvs. 'pounds per square inch' eller pund per kvadrattomme. Data kommer fra en artikel af Joglekar, Schuenemeyer og LaRiccia fra 1989.

9 Løvtræ Brudstyrke Løvtræ Brudstyrke Løvtræ Brudstyrke 1.0 6.3 5.5 34.0 11.0 52.5 1.5 11.1 6.0 38.1 12.0 48.0 2.0 20.0 6.5 39.9 13.0 42.8 3.0 24.0 7.0 42.0 14.0 27.8 4.0 26.1 8.0 46.1 15.0 21.9 4.5 30.0 9.0 53.1 5.0 33.8 10.0 52.0 1. Indtast data i Excel. Overvej hvilken variabel (løvtræ eller brudstyrke) der skal bruges som y, og hvilken der skal bruges som x. Tegn derefter data. 2. Gør rede for at det er fornuftigt at bruge en kvadratisk regressionsmodel til at beskrive sammenhængen mellem andelen af løvtræ og brudstyrken. 3. Beregn estimaterne i den kvadratiske regressionsmodel i Excel, og indtegn den estimerede parabel i guren med data. Overvej om du synes parablen passer godt til data. 4. Beregn et estimat for den andel af løvtræ der giver størst brudstyrke, samt et estimat for den tilhørende brudstyrke. 5. Beregn et estimat for brudstyrken for kraftpapir med 13.5% løvtræ. Tror du man kan stole på dette estimat? 6. Beregn et estimat for brudstyrken for kraftpapir med 20% løvtræ. Tror du man kan stole på dette estimat?