Projekt 9.4 t-test som lineær regressionstest: Box s helikoptereksperiment

Transkript

1 Projekt 9.4 t-test som lineær regressionstest: Box s helikoptereksperiment Indhold 1. Modellering af fald med papirhelikopter: Et eksempel på lineær regression... 2 Empiri... 2 Helikoptereksperimentet Lineær regression som deskriptiv statistik... 5 Mindste kvadraters metode... 6 Forklaringsgraden... 8 Residualplottet En forenklet lineær model Lineær regression som hypotesetest Er der overhovedet en sammenhæng? Når der nu er en sammenhæng, hvorfor er den så lineær? Usikkerhedsvurdering: 95% konfidensintervaller for hældningen Afsluttende bemærkninger: Hvad sker der, hvis der kun er en faldtid for hver faldhøjde? Bilag. Nogle generelle bemærkninger om lineære regressionsmodeller Ustrukturerede og strukturerede datasæt Reduktion af strukturerede datasæt Projektet er et oplæg til læreren og rummer et undervisningsforløb i lineær regression, der detaljeret gennemgår alle aspekter heraf og samtidig giver en indføring i, hvordan et værktøjsprogram kan anvendes i undersøgelsen af et datamateriale, bl.a. med en udførlig gennemgang af simuleringsteknikken, der ofte kaldes for omrøring. Projektet er en fortsættelse af projekt 2.8 på C-niveau, der omfatter afsnit 1 og 2. I disse afsnit bliver vi inden for den deskriptive statistik, illustrerer mindste kvadraters metode og giver en indføring i, hvad forklaringsgraden er et udtryk for. I afsnit 3 inddrages den bekræftende statistik med hypotesetest. Afsnittet indeholder en gennemgang af simuleringstest med omrøring. Endvidere en diskussion af fordele og ulemper ved at reducere et datamateriale og gå over til at se på middelværdier dermed inddrage det kanoniske t-test. Dette bliver foldet ud i en gennemgang af lineær regressionstest med inddragelse af konfidensintervaller. I et bilag er der en mere teknisk gennemgang af især anvendelsen af t-test. Projektet bygger på et berømt eksperiment designet af den amerikanske statistiker George Box, der anvendte målinger på papirhelikopteres faldtid til at illustrerer væsentlige statistiske pointer. Vi har valgt at illustrere nogle af de mange muligheder med en konkret analyse af et datasæt, men tanken er selvfølgelig at klassen beslutter sig for hvilke aspekter af den lineære regressionsmodel projektet skal omfatte og designer eksperimentet og dataanalysen derefter. 1

2 1. Modellering af fald med papirhelikopter: Et eksempel på lineær regression Modellering af lineære fænomener har en lang historie bag sig. Hovedmodellen er den lineære regressionsmodel fra den deskriptive statistik baseret på mindste kvadraters metode, men den kan også udvides til en hypotesetest af den lineære afhængighed samt en analyse af konfidensintervaller for hældningen (dvs. i fysikterminologi: Om usikkerheden på hældningen fundet ved lineær regression). I dette eksempel vil vi forsøge at gå hele vejen og undervejs omtale nogle faldgruber. Empiri Selve eksperimentet er en klassiker, der stammer fra den indflydelsesrige amerikanske statistiker George Box (død i 2013), som havde nære forbindelser til statikkens fader Ronald Fisher. Det er en del af et større eksperiment om variabel kontrol (experimental design i statistisk fagjargon) og du kan høre George Box selv fortælle om det på videoklippet Sren-Bisgaard-and-Conrad-A_-Fung.html På denne webside kan du også finde referencer til nogle af Box originale artikler, hvor han beskriver eksperimentet, ikke mindst George Box: Teaching Engineers Experimental Design with a Paper Helicopter (1991) Men selv om det er oplagt at udvide projektet til et større projekt om variabelkontrol vil vi her udelukkende koncentrere os om sammenhængen mellem to variable, faldhøjden og faldtiden for en papirhelikopter, der slippes fra en aftalt højde. Bemærkning: I fysikundervisningen er der tradition for et lignende eksperiment med kaffefiltre, der slippes fra forskellige højder. Det kan selvfølgelig sagtens erstatte helikopterstyrtet. 2

3 Helikoptereksperimentet Men her tager vi altså udgangspunkt i en papirhelikopter, der klippes ud og foldes efter et fast design som vist og til sidst forsynes med en papirklips i halen. Eksperimentet kan nu udføres med støtte fra et målebånd og et stopur og kan bruges lige fra Naturvidenskabeligt grundforløb til Fysik A, afhængigt af hvor dybt man vil gå ned i data-analysen. Men man kan selvfølgelig også videofilme helikopterstyrtet og bruge videofilmene som udgangspunkt for dataanalysen. 3

4 For at udføre eksperimentet skal klassen selvfølgelig selv bruge en skabelon, som du kan hente her, og klippe og samle deres egen helikopter i stift papir eller karton. Det kan fx gøres gruppevis, men også enkeltvis Det afgørende er at de bruger samme type papir og samme type klips, så alle helikopterne statistisk set er ens. Herefter kan der udføres forskellige former for data-analyse. For at give en ide om hvad der kan gøres med sådanne data illustrerer vi dem med forsøgsdata fra en Amerikansk skole: Som det ses har man fastlagt fem bestemte højder inde i en idrætshal ud fra forskellige højder for tilskuerpladserne samt en balkon i den anden ende af hallen. Derefter har man delt klassen op i grupper, så man for hver af de fem højder har opmålt 10 helikopterstyrt. Tildelingen af højder til de enkelte grupper foregår ved lodtrækning (randomisering), for at undgå at eleverne selv optræder som konfunderende variable. Det er altså disse data vi vil analysere i det følgende, men det er selvfølgelig altid sjovere at analysere klassens egne data. 4

5 2. Lineær regression som deskriptiv statistik I det følgende benyttes TI-Nspire CAS. Men analysen kan selvfølgelig tilpasses andre CAS-værktøjer. Dataene tastes ind i et Lister og Regneark-værksted i TI-Nspire CAS og vi afbilder dem som et punktplot i Diagrammer og Statistik: Vi har valgt faldhøjden som den uafhængige variabel, da den er fastlagt på forhånd, mens faldtiden er den afhængige variabel, som vi måler gentagne gange. Som det ses er der en betydelig spredning i faldtiderne, men samtidigt en klar voksende tendens: Jo større faldhøjden er, jo større er faldtiden alt andet lige, selv om man godt kan finde individuelle målinger, der bryder med tendensen (fx udvalgte faldtider fra 2.29 meter, der er mindre end udvalgte faldtider fra 1.77 meter). Vi kan fremhæve strukturen af faldtidernes fordeling ved at tvinge faldhøjden til at blive afbildet som en kategorisk variabel. Det giver fem grupper af faldtider, der som vist kan afbildes som boksplot. Vi har også tilføjet middelfaldtiderne til boksplottene. Igen er den voksende tendens klar og det synes ikke urimeligt at benytte en lineær model. Man skal dog passe lidt på med det kategoriske plot, idet der i virkeligheden er længere afstand mellem de to sidste faldhøjder end mellem de øvrige. Man kan også med en vis rimelighed se de enkelte grupper af faldtider som rimeligt ens fordelte, om end det sidste boksplot synes at have en klar større spredning. Man kunne derfor overveje at droppe den sidste måling fra balkonen, som der var mindre styr over end de øvrige målinger (bl.a. fordi læreren opholdt sig i gymnastiksalen og derfor ikke kunne overvåge kvaliteten af målingerne fra balkonen i den anden ende af hallen). Men i den følgende analyse beholder vi alle data! 5

6 Vi udfører derfor nu en lineær regression på data: Den lineære model får da ligningen y= x Her er det især hældningen, som er interessant. Den kan tolkes som en faldkonstant. Betydningen af faldkonstanten er den tid det tager en helikopter at falde 1 meter. Eller i matematik-jargon: For hver meter vi øger faldhøjden øges faldtiden alt andet lige med 0.73 sekunder. Der rejser sig nu naturligt to spørgsmål ved den lineære regressionsmodel: Hvor kommer den fra og hvad er betydningen af størrelserne r 2 (forklaringsgraden eller determinationskoefficienten) og r (korrelationskoefficienten). Da determinationskoefficienten r 2 er kvadratet på korrelationskoefficienten r er det nok at gøre rede for betydningen af den ene af dem. Vi vælger her at fokusere på determinationskoefficienten eller forklaringsgraden som i vores tilfælde altså er 86%. Mindste kvadraters metode Men først skal vi gøre rede for hvorfra den lineære regressionsmodel stammer: Vi højreklikker derfor på den lineære regressionslinje og vælger Vis residuelle kvadrater. 6

7 Som det ses bliver hvert datapunkt nu tilknyttet et kvadrat, hvis side netop er den lodrette afstand fra datapunktet til regressionslinjen. Ydermere får vi at vide, at summen af kvadraterne (dvs. summen af deres arealer) er givet ved , et tal, som vi noterer i regnearket til senere brug. Ideen er nu, at den lineære regressionsmodel er fastlagt ved mindste kvadraters metode, dvs. ved at gøre summen af disse kvadrater så lille som overhovedet muligt. Vi kan illustrere ideen ved at tilføje endnu en ret linje (vælg Undersøg Data 4 Tilføj Flytbare linjer). Også denne linje kan vi nu højreklikke på for at få vist de residuelle kvadrater. For at tydeliggøre billedet har vi nu farvet regressionslinjen blå og den flytbare linje rød. Vi har endvidere skjult de residuelle kvadrater for regressionslinjen, for at lade de residuelle kvadrater for den flytbare linje træde tydeligere frem! 7

8 Ved at trække i den flytbare linje (ude i enderne drejer man linjen, inde midt på flytter man linjen lige op og ned) kan man nu ved selvsyn konstatere at kvadratsummen for den flytbare linje altid ligger over kvadratsummen for regressionsmodellen og at jo tættere man lægger den flytbare linje opad regressionslinjen jo tættere kommer kvadratsummen for den flytbare linje til kvadratsummen for regressionslinjen. Det er netop i overensstemmelse med mindste kvadraters metode, der siger at regressionslinjen udvælges bland alle mulige linjer, så kvadratsummen er mindst mulig, dvs. så regressionslinjen i en vis forstand ligger tættest muligt på datapunkterne. Derfor kaldes regressionslinjen også ofte for bedste rette linje. Forklaringsgraden Vi ved nu hvor regressionslinjen stammer fra. Men det siger jo ikke noget om hvor god modellen er! Vi vil derfor nu konstruere et mål for modellens kvalitet, dvs. overensstemmelsen mellem datapunkterne og den lineære regressionsmodel. Den generelle ide er nu at vi opfatte data som en sum af modelværdien plus en afvigelse, det såkaldte residual: DATA = LINEÆR MODEL + RESIDUAL Her skal den lineære model nu vælges så residualerne er så små som muligt, dvs. ved mindste kvadraters metode (dvs. det er faktisk summen af residualerne kvadrater, der er så lille som mulig). I vores tilfælde er kvadratsummen for den lineære regressionsmodel altså givet ved Spørgsmålet er så om det kan 8

9 betragtes som et lille tal eller et stort tal? Det giver selvfølgelig ikke nogen mening at spørge om dette med mindre vi har noget at sammenligne det med! Vi indfører derfor endnu en konkurrerende model, som vi kan sammenligne med den lineære regressionsmodel, Det er den konstante model, hvor vi slet ikke forsøger at foregøgle nogen sammenhæng mellem faldhøjden og faldtiden, dvs. vi antager at faldtiden i virkeligheden slet ikke afhænger af faldhøjden, hvilket jo netop vil sige at den er konstant. DATA = KONSTANT + RESIDUAL Igen skal vi da vælge konstanten, så residualerne er mindst mulige. Ved at trække forsigtigt i enderne af den flytbare linje, kan den drejes indtil den er vandret. Herefter kan vi skubbe den op og ned (inde på midten af den flytbare linje!) indtil kvadratsummen er så lille som muligt. Vi finder da noget i retning af følgende: Den bedste konstant er altså med den tilhørende kvadratsum , som vi også overfører til regnearket. Men hvor kommer de nu fra? Ved at se på enkeltvariabelstatistikken for faldtiden er det nærliggende at gætte på at der netop er tale om middelværdien af faldtiden. Middelfaldtiden er og den tilhøren- 9

10 de kvadratsum (sidste celle i søjlen) er netop ! Men kan da også forholdsvis simpelt vise, at blandt alle konstanter er middelværdien den, der giver den mindste kvadratsum! I det følgende lader vi derfor den lineære regressionsmodel konkurrere mod den konstante model: DATA = MIDDELVÆRDI + RESIDUAL Hvis ikke kvadratsummen for den lineære regressionsmodel er væsentligt mindre end kvadratsummen for den konstante model, kunne vi lige så godt beskrive data ved den kontante model og lade være med at foregøgle os en lineær sammenhæng! I vores tilfælde har den lineære regressionsmodel da også kvadratsummen , der heldigvis er meget mindre end kvadratsummen for den konstante model med , og dette retfærdiggør den lineære model! Men hvor meget mindre er kvadratsummen for den lineære regresionsmodel end kvadratsummen for den konstante model? Det udtrykkes ofte i procent. I stedet for at se hvor mange procent kvadratsummen for den lineære mode udgør af kvadratsummen for den konstante model fokuserer man typisk i stedet for på hvor mange procent mindre den er! Dvs. hvor stor en procentdel af variationen i faldtiden er det lykkedes at fjerne ved at gå fra den konstante model til den lineære model. Vi ser da at vi finder (skærmbillede næste side) 10

11 kvadratsum for lineær model = 1 - = kvadratsum for konstant model Men det er jo netop forklaringsgraden r 2. Så nu har vi også gjort rede for betydningen af denne! Dermed er vi kommet igennem den vigtigste del af den deskriptive statistik. Residualplottet Vi tilføjer dog et par bemærkninger her til sidst: Man kan godt få TI-Nspire CAS til at vise residualplottet, dvs. residualerne som funktion af faldhøjden. Det sker igen ved at højreklikke på den lineære regressionsmodel og vælge Vis residual plot: 11

12 Som det ses er der lidt slingren i residualerne, der typisk ligger mellem -0.5 og 0.5. Hvis den lineære model er en god model skal residualerne fordele sig fuldstændigt tilfældigt. Igen er den mest tydelige tendens nok den større spredning for den største faldhøjde på 4.39 meter. Men ellers er der næppe systematiske tendenser i residualplottet, så der er ikke noget der tyder på at vi ville vinde noget ved at skifte til fx en kvadratisk model eller en eksponentiel model. Til gengæld kan vi se at konstantleddet i den lineære regressionsmodel er så lille i forhold til residualerne at det ikke ville være urimeligt at sætte den til nul, dvs. at skifte til en proportionalmodel: Faldtid = s Faldhøjde m Men faldkonstanten findes stadigvæk mest præcist ud fra den lineære regressionsmodel! Det automatisk genererede residualplot er rent illustrativt, dvs. vi kan ikke regne på det. For at kunne regne på residualerne er det nødvendigt at trække dem ud af modellen. De står pakket ind i gåseøjne i cellen F7. For at trække dem ud som en liste bruger vi derfor kommandoen expr(), der netop laver en tekststreng om til et matematisk udtryk. Derved kan vi som vist oprette et residualplot som et rigtigt punktplot i et separat Diagrammer og Statistik-vindue: 12

13 En af de interessante beregninger vi kan udføre på residualerne er nu at vi som vist kan udføre en lineær regression på dem! Ikke overraskende får vi resultatet y= x Dvs. når vi tager højde for afrundingsfejl indenfor programmets beregningsområde er der reelt tale om y = 0. Vi har altså fjernet enhver lineær tendens ved at trække den lineære regressionsmodel ud af data. Men det betyder samtidigt at residualerne ikke er helt tilfældige: De opfylder to bånd svarende til at såvel hældningen som konstantleddet i den lineære regressionsmodel for residualerne er 0. Ofte formuleres de to bånd lidt mere simpelt: a) Det første bånd siger ganske enkelt at summen af residualerne er nul b) Det andet siger at den vægtede sum af residualerne med x-værdierne som vægte også er nul Begge egenskaber kan nemt tjekkes i regnearket: 13

14 Hvis man kender værdien af de 48 residualer kan man altså nemt bruge disse to bånd til at finde de to sidste værdier. Residualerne spiller en stor rolle i forståelsen af den lineære regressionsmodel og vi vender tilbage til dem i afsnittet om hypotesetest. En forenklet lineær model Hvis man underviser i lineære modeller på et begynderniveau kan man vinde meget ved selv at lade eleverne finde den lineære model ved hjælp af flytbare linjer. Det er da nærliggende at forenkle datasættet ved at erstatte faldtiderne for en given højde med deres middelværdi, så man slipper for det meget grumsede punktplot. Det nemmeste er da at udregne middelværdierne direkte fra de rå data, dvs. indføre to reducerede variable h_m, der udregner middelværdierne for grupperne af faldhøjder og t_s, der udregner middelværdierne for grupperne af faldtider. Der er så kun fem datapunkter i det reducerede datasæt og man kan med rimelighed selv trække en ret linje gennem datasværmen: 14

15 Men kunne da også få den ide at anvende lineær regression på det reducerede datasæt. 15

16 Men det skal man være varsom med! Den bedste rette linje får godt nok præcis den samme ligning som før, idet vi har komprimeret datasættet ved at trykke data sammen til deres middelværdier, hvilket netop fører til den mindste kvadratsum. Men forklaringsgraden er nu pludselig formelt steget til 97%. Men det er jo fordi vi har smidt en masse slør ud af modellen ved at komprimere den. Og modellen bliver naturligvis ikke bedre og mere overbevisende af at man fjerner information i form af tilfældig støj i modellen. En lineær regressionsmodel bør så vidt muligt udføres på de oprindelige rå data og vælger man alligevel som vist at komprimere data kan man ikke længere bruge forklaringsgraden til at vurdere modellens kvalitet! 16

17 3. Lineær regression som hypotesetest Er der overhovedet en sammenhæng? Der er flere spørgsmål vi kan tage op under hypotesetesten. Hvis vi nu betragter forsøgsdataene som en stikprøve fra en stor population af data hvor ikke bare en enkelt klasse udfører forsøget, men rigtigt mange klasser udfører forsøget, kan vi så sige noget om hvorvidt den observerede lineære sammenhæng er statistisk signifikant? Først må vi gøre os klart at der ikke findes nogen simpel sammenhæng mellem forklaringsgraden og den statistiske signifikans. En lineær sammenhæng kan sagtens være statistisk signifikant selv om forklaringsgraden er forbløffende lav, fx 5%. Der findes historisk berømte eksempler på sådanne situationer, fx Vietnam-lotteriet, se projekt 9.6 i C-bogen. Forklaringsgraden hører hjemme under den deskriptive statistik og kan ikke udnyttes i hypotesetest! Vi må altså gå den slagne vej, sådan som vi fx kender den fra c 2 -testen. Vi må da først og fremmest opstille en nulhypoteses og vælge et signifikansniveau: Nulhypotesen H 0 : Der er ingen sammenhæng mellem faldhøjde og faldtid. Faldtiden er altså uafhængig af faldhøjden. De forskellige faldtider skyldes altså alene tilfældige fluktuationer. Læg mærke til, at det netop svarer til den konstante model. Som signifikansniveau vælger vi som sædvanligt 5% og skal nu teste nulhypotesen. Det gør vi først rent eksperimentelt ved hjælp af en omrøringstest, dvs. vi omrører det givne rå datasæt for at bryde en eventuel sammenhæng mellem den observerede faldhøjde og den observerede faldtid. Det er præcis den samme teknik som vi bruger i c 2 -testen for uafhængighed! Vi indfører altså igen lister for de observerede faldhøjder højde_m og de observerede faldtider tid_s, men tilføjer denne gang også den omrørte tid: sim_ tid : = randsamp( tid _ s,50,1) Her har vi trukket en tilfældig stikprøve på 50 elementer uden tilbagelægning, dvs. den simulerede tid, sim_tid, er netop en tilfældig permutation af den observerede tid, tid_s! Vi kan så oprette punktplot for såvel den observerede tid som funktion af faldhøjden som den simulerede tid som funktion af faldhøjden: 17

18 Taster vi nu Ctrl/Cmd R inde i regnearket vil vi få genberegnet simulationen igen og igen. Vi kan så se hvor nemt det er at frembringe en hældning, der er lige så stor som den observerede, dvs. vi kan skønne over p- værdien. De simulerede hældninger vil være såvel positive som negative og i middel vil de være 0 i overensstemmelse med nulhypotesen. I en proto-test prøver man netop 20 gange (fordi signifikansniveauet er 5% = 1/20). Hvis der slet ikke forekommer nogen ekstreme hældninger skønner vi derfor at p-værdien er under 5% og nulhypotesen falder. Her har vi samlet billederne af de første 20 simuleringer i en fælles graf: 18

19 Vi er ikke i nærheden af den røde observerede hældning, så proto-testen antyder kraftigt at p-værdien er et godt stykke under 5% og dermed at nulhypotesen må afvises. Hvis vi vil udføre en mere præcis uafhængighedstest kan vi overføre værdien af den observerede hældning til variablen obs_hæld (det sker i rød celle H5 med celleformlen: obs_hæld:=e3) og tilsvarende den simulerede hældning til variablen sim_hæld (det sker i grøn celle H3 med celleformlen: obs_hæld:=g3). Vi kan så udføre en automatisk datafangst af den simulerede hældning, hvor vi gentager fangsten 1000 gange (vi holder øje med antallet af målinger i celle H8 med celleformlen =count(måling). Målingerne afsættes i to Diagrammer og statistik-vinduer, til venstre som prikdiagram og til højre som histogram overlejret med en normalfordeling. Som det ses er middelhældningen meget tæt på 0. I begge diagrammer har vi også indsat den observerede hældning. Ingen af de 1000 simuleringer kommer i nærheden af den observerede hældning så skønnet over p- værdien ligger et godt stykke under 1 promille. Nulhypotesen må altså forkastes! Vi kan godt danne os et skøn over p-værdiens størrelse ved at udnytte normalfordelingsapproksimationen og finde arealet til højre for den observerede hældning. Da nulhypotesen ikke favoriserer et bestemt fortegn kunne de ekstreme hældninger lige så godt være negative og vi skal derfor gange det fundne areal med 2. Arealet findes ved at højreklikke på normalfordelingskurven og vælge Skraver under funktion. Area- 19

20 let er dog under , så vi kan ikke finde decimalerne på den måde. I stedet må vi udføre en beregning i et Note-værksted: Vi slutter af med en såkaldt kanonisk test, idet vi udfører det indbyggede lineære regressionstest: Ifølge nulhypotesen er såvel hældningen b som korrelationskoefficienten r lig med 0. Ifølge den alternative hypotese er de begge forskellige fra 0. Igen fås en astronomisk lille p-værdi og nulhypotesen må på det bestemteste afvises! Læg mærke til antallet af frihedsgrader som er 48, dvs. 2 mindre end de 50 datapunkter. Det skyldes de to bånd der lægges på residualerne. Når der nu er en sammenhæng, hvorfor er den så lineær? Vi har nu afvist nulhypotesen om uafhængighed og må derfor vælge den alternative hypotese: Faldtiden er afhængig af faldhøjden og afhængigheden er tydeligvis voksende. Men hvorfor lige netop en lineær afhængighed, hvorfor ikke en kvadratisk eller en eksponentiel eller? Det er straks sværere at svare på, men vi er nødt til at forsøge at begrunde den lineære model! Som støtte for den lineære model kan vi nu fremføre to typer argumenter: Det ene kommer fra den deskriptive statistik: Hvis der er andet på spil end den lineære sammenhæng burde data vise en tydelig krumning hvilket også burde slå igennem på residualplottet i form af fx en tydelig hængebug. Men det har vi ikke set, så krumningen er ikke specielt åbenlys. 20

21 Det andet kommer fra en bagvedliggende teori. Vi kan håbe på en simpel fysisk forklaring på hvorfor vi bør forvente en lineær sammenhæng. Og det kan man faktisk godt give: Faldet deles i to faser: Den indledende fase: Helikopteren begynder at falde og rotere. I løbet af tidsrummet t 0 falder det dybden s 0, hvorefter faldet stabiliseres, fordi luftmodstanden er vokset i størrelse, indtil den netop matcher tyngdekraften. Herefter falder helikopteren jævnt med farten v, der netop er afpasset så luftmodstanden er lige så stor som tyngdekraften! Vi forventer altså en sammenhæng af typen ( ) s- s = v t-t ( 0 ) 1 æ 1 ö t = t + s- s = s+ ç t0 - s0 v v è v ø Den forventede sammenhæng mellem faldhøjden s og faldtiden t er netop lineær. Læg mærke til at denne simple forklaring ikke favoriserer en proportional sammenhæng. Som alternativ hypotese vælger vi altså en model på formen Data = Lineær model + Residual Faldtid = a Faldhøjde + b + e Denne opskrivning betyder, at den systematiske sammenhæng ligger i den lineære model og residualerne anses for at variere fuldstændigt tilfældigt med middelværdi 0. I videregående statistik vil man ofte antage at residualerne for de enkelt faldhøjder følger en normalfordeling med middelværdi 0 og en fælles ukendt spredning s. Usikkerhedsvurdering: 95% konfidensintervaller for hældningen Det fører os til den sidste problemstilling. Når først vi har accepteret den lineære model y= x hvor sikre kan vi så være på hældningen? Det er klart at jo mere residualerne spreder sig jo større usikkerhed er der på hældningen. Vi kan nu eksperimentelt fastlægge et 95% konfidensinterval for hældningen på følgende måde: Vi accepterer den lineære model som udtryk for den systematiske sammenhæng, men residualerne svinger tilfældigt. Gentages forsøget vil vi derfor få nogle andre residualer og dermed en anden hældning for regressionsligningen. Vi kan simulere det slør, der kommer fra de tilfældige variationer i residualerne ved at omrøre residualerne! Vi trækker derfor residualerne ud som en selvstændig liste og foretager en omrøring i residualerne ved hjælp af randsamp-kommandoen lige som før(se figur næste side): Ser vi nu på de simulerede residualer, så har de faktisk en hældning, men i middel er den selvfølgelig 0, når vi gentager simuleringen uendeligt mange gange. Vi overfører nu den simulerede hældning til variablen slør ved hjælp af cellekommandoen slør:=l3. 21

22 Herefter kan vi lave automatisk dataopsamling på sløret ligesom før. Vi gentager simuleringen af residualerne 1000 gange: 22

23 De 1000 simulerede residualhældninger er da med god tilnærmelse normalfordelte med middelværdi meget tæt på 0 og en spredning meget tæt på Vi skal da have fundet de 95% midterste simulerede hældninger. Det gøres nemmest ved at højreklikke på normalfordelingen, vælge Skraver under funktion og justere arealet så vi lægge halvdelen, dvs. 2.5% ude i den højre hale: Det passer godt med tommelfingerreglen der siger, at 95%-konfidensintervallet svarer til to spredninger! Usikkerheden på hældningen skønnes altså til at være på 0.087, dvs. faldkonstanten (den tid det tager helikopteren at styrte 1 meter) bør opgives som ± svarende til usikkerhedsintervallet [0.641;0.815]. Igen kan vi supplere med en kanonisk beregning af 95%-konfidensintervallet: 23

24 Vi får da vide at usikkerheden, dvs. Margin of Error eller bare ME, er i fin overensstemmelse med det eksperimentelle resultat. Tilsvarende er usikkerhedsintervallet givet ved [ C ; C ] = [0.642;0.815] igen i fin overensstemmelse med det eksperimentelle resultat. Lower Upper 24

25 Afsluttende bemærkninger: Hvad sker der, hvis der kun er en faldtid for hver faldhøjde? På forhånd er det klart, at vi ikke uden videre kan tillade os at udføre hypotesetesten på de komprimerede data, hvor vi erstatter de ti faldtider indenfor en given faldhøjde med deres middelværdi. Men hvad nu hvis vi slet ikke har foretaget 10 tilfældige målinger pr faldhøjde, men kun en, dvs. for hver af de fem faldhøjder har vi udført netop et eksperiment, fx det første i den oprindelige serie. Så har vi kun fem målepunkter at lege med. Det gør selvfølgelig kvaliteten af målingerne langt dårligere: I princippet kan man dog stadigvæk udføre hypotesetest. Godt nok kan man ikke uden videre vurdere antagelsen om at y-værdierne har den samme spredning for de forskellige x-værdier, for der er jo kun en y- værdi for hver x-værdi. Men man kan stadigvæk vurdere residualerne samlet, og bruge deres spredning som skøn over den fælles spredning, under forudsætning af at man altså tror på regressionsmodellen og dermed også tror på at y-værdierne er fordelt med en middelværdi, der varierer lineært med x og en fælles spredning. Men det er klart et tyndere grundlag at arbejde videre med end hvis man har gentagne forsøg for de forskellige x-værdier. Samtidigt har man stadigvæk mistet 2 frihedsgrader og har derfor kun tre reelle frihedsgrader tilbage til at teste modellen på. Det er et tyndt grundlag. Man vil da også opleve, at der ikke længere er nogen særlig god overensstemmelse mellem de eksperimentelle tests udført som i det foregående på den ene side og de kanoniske t-test på den anden side. 25

26 Når man tilrettelægger sit forsøg, er det derfor absolut anbefalelsesværdigt at man gentager målingerne flere gange for de forskellige x-værdier, der indgår! 26

27 Bilag. Nogle generelle bemærkninger om lineære regressionsmodeller Dette afsnit indeholder en del nyttige informationer om lineære regressionsmodeller i almindelighed. Men det kan godt overspringes i første omgang, så man kan gå direkte i gang med eksperimenterne. Så kan man altid vende tilbage til dette afsnit for at få uddybet nogle af de problemstillinger, der omtales i projektet. Hvis man anvender dele af projektet på C- eller B-niveau bør man helt klart springe dette afsnit over. Den lineære regressionsmodel bygger som forklaret i kapitel 9 A-bogen på mindste kvadraters metode. Givet et (x,y)-punktplot kan vi altid finde den bedste rette linje ved at minimere summen af afstandskvadraterne fra datapunkterne ( x1, y1),...,( xn, y n) til den rette linje y= a x+ b, dvs. vi vælger parametrene a og b, så de minimerer summen ( ( a x1 + b) - y1 ) ( ( a xn+ b) -yn ) 2 2 Det viser imidlertid ikke noget om hvorvidt der er tale om en god eller dårlig model. Sommetider kan man se det med det blotte øje grafisk om modellen fungerer eller ej, men andre gange er det rart at have et mål for hvor god modellen er. Her bliver det nu afgørende om vi befinder os i den deskriptive statistik eller i den bekræftende statistik. I den deskriptive statistik opfattes datasættet som en population vi forsøger at beskrive bedst muligt. Vi bruger da typisk forklaringsgraden som et kvantitativt mål for hvor god modellen er. Forklaringsgraden siger noget om hvordan den lineære model er i forhold til den konkurrerende konstante model, dvs. at y- værdierne er uafhængige af x-værdierne. 27

28 I den bekræftende statistik opfattes datasættet som en tilfældig stikprøve udtaget af en større population. Man kan da teste nulhypotesen dvs. uafhængigheden af x-værdierne og y-værdierne, dvs. se om den fremkomne hældning i virkeligheden ikke er signifikant forskellig fra nul, og at den fremkomne hældning kun afspejler tilfældige fluktuationer i stikprøven. Hvis nulhypotesen forkastes, dvs. den observerede hældning afviger signifikant fra nul, vælger vi den lineære model til at beskrive datasættet. I den bekræftende statistik kan uafhængigheden testes på flere måder: Dels kan man bruge et simuleringstest via omrøring, dels kan man bruge en kanonisk test, det såkaldte t-test for regression. Normalt opfatter vi de to metoder som ækvivalente, men t-testet stiller faktisk særlige krav til datasættets strukturering, som det kan være værd at have for øje. Ustrukturerede og strukturerede datasæt Datasættet kan være ustruktureret, dvs. blot en tilfældig samling af datapunkter ( x1, y1),...,( xn, y n), men det kan også være struktureret, dvs. til hver x-værdi har man målt en serie tilfældige y-værdier. I den strukturerede version forestiller man sig altså, at man kan kontrollere x-værdierne med den ønskede præcision, mens y-værdierne varierer stokastisk omkring nogle forventede værdier givet ved den lineære model. Det kan fx være eksperimentet med hastigheden for et nervesignal, hvor man måler udbredelsestiden for et nervesignal, der sendes gennem en kæde af elever, der holder hinanden i hånden, se projekt 1.2 i C- bogen: Her kan vi nemt kontrollere kædens længde, dvs. hvor mange elever skal der være i kæden. Det er vores x- værdi, dvs. den uafhængige variabel. Men udbredelsestiden er vi nødt til at måle, og den vil variere lidt fra gang til gang, når vi gentager målingen. Hvis datasættet er ustruktureret måler vi bare udbredelsestiden én gang, men hvis det er struktureret, måler vi det mange gange, fx fem gange for hver kædelængde på 5 personer, 10 personer, 15 personer osv. Det sidste giver selvfølgelig langt mere information om de stokastiske fluktuationer i udbredelsestiden. Det kan også være resultatet af en spørgeskemaundersøgelse som i samfundsfagsprojektet om elevers alkoholforbrug, der kommer til at ligge som projekt i A-bogens studieretningskapitel om samfundsfag og matematik. Her udspørges eleverne i en klasse om deres ugentlige alkoholforbrug. I en typisk klasse vil der være en 3-4 aldersgrupper svarende til hvor mange år de er gamle, fx fra 16 til 19 år med overvægt af de årige. Det svarer til vores x-værdi, dvs. den uafhængige variabel. Men alkoholforbruget vil typisk variere tilfældigt fra elev til elev. Det svarer til vores y-værdi, dvs. den afhængige variabel. Datasættet vil nu være struktureret, dvs. til hver x-værdi, vil der svare mange y-værdier. Men det er ikke helt så pænt som 28

29 det foregående eksempel, fordi der typisk vil være et forskelligt antal y-værdier knyttet til de enkelte x- værdier. Man kan så teste nulhypotesen, om alkoholforbruget er uafhængigt af alderen, eller om der alternativt synes at være fx en stigende tendens i alkoholforbruget, så datasættet bedst beskrives med en lineær (voksende) model. I et struktureret datasæt har vi altså et antal x-værdier værdi: Til x 1 er knyttet y-værdierne y11, y12,..., y1n 1 Til x 2 er knyttet y-værdierne y21, y22,..., y2n 2 Til y, y,..., y k x k er knyttet y-værdierne k1 k2 kn x,..., 1 x k og til hver af disse x-værdier er knytte en y- Det samlede antal datapunkter er derfor givet ved n= n1 + n nk. I et simpelt struktureret datasæt er der lige mange y-værdier til hver x-værdi, dvs. n1 = n2 =... = nk jfr. eksempel med udbredelsen af nervesignalet, men det behøver altså ikke være tilfældet, jfr. eksemplet med alkoholforbruget i en klasse. I den bekræftende statistik opfatter man nu den lineære regressionsmodel som en model af formen yij = a xi + b+ eij Det skal forstås sådan at y-værdien y ij (det j te datapunkt hørende til x i ) udregnes som summen af en lineær funktion af den tilhørende x-værdi og et tilfældigt varierende residual med middelværdi 0 og en fast fælles spredning s : e ij, der antages normalfordelt 29

30 Øvelse 1: a) Opret en passende stokastisk lineær regressionsmodel, dvs. vælg en lineær model, fx y= 2x-1og en spredning for residualerne, fx s = 1. Opret derefter kolonner for en passende serie x-værdier, fx listen {1,2,3,4,5}, der hver for sig gentages fx 5 gange, så du i alt har 25 datapunkter. Opret tilsvarende kolonner for de tilhørende y-værdier ifølge den lineære model yi = a xi + b, henholdsvis den stokastiske model y = a x + b+ randnorm(0,1,25) eller noget tilsvarende alt efter hvad den i i normalfordelte stokastiske variabel hedder i dit værktøjsprogram. b) Tegn såvel grafen for den lineære model som punktplottet for datasættet, dvs. den stokastiske model. c) Udfør en lineær regressionsmodel på datasættet. Kommentér resultatet, dvs. sæt ord på hvorfor den fundne regressionslinje ikke stemmer helt overens med den teoretiske lineære model. Hvis datasættet er struktureret giver det god mulighed for at vurdere størrelsen af den fælles spredning, netop fordi der til hver x-værdi hører mange y-værdier, så vi kan estimere spredningerne for de enkelte x- værdier og se om de stemmer rimeligt overens. Men hvis datasættet er ustruktureret mister vi denne mulighed: Det kanoniske t-test er derfor ikke særligt brugbart for ustrukturerede datasæt! Det viser sig dog at t-testet er rimeligt robust, så i praksis anvendes det også for ustrukturerede datasæt, men så bør der være mange datapunkter. Hvis man fx kun har fem tilfældige datapunkter som man vil t- teste for uafhængighed i håb om at etablere en lineær sammenhæng er t-testen meget tyndt og man skal ikke forvente nogen god overensstemmelse mellem simuleringstestet og den kanoniske t-test! Men har man datapunkter går det væsentligt bedre. Reduktion af strukturerede datasæt Hidtil har vi fokuseret på den bekræftende statistik, men de ovenstående bemærkninger om ustrukturerede og strukturerede datasæt til punktplot er også relevante for den beskrivende statistik. Typisk starter man nemlig med et struktureret datasæt, de rå data, idet man fx måler udbredelsestiden fem gange for hver kædelængde. Men så tager man gennemsnittet af de fem målinger og bruger middelværdien som estimat for udbredelsestiden for den pågældende kædelængde. Derefter får man et plot, der så gerne skulle pege på en voksende lineær sammenhæng mellem kædelængde og udbredelsestid. Det kan fx se således ud: 30

31 Men de rå data er statistikkens hellige gral! Ved at reducere datasættet fra et struktureret til et ustruktureret datasæt baseret på middelværdier mister man værdifuld information om spredningen af udbredelsestiden for de enkelte kædelængder. Det er særligt slemt i den bekræftende statistik, hvor det vanskeliggør brugen af hypotesetesten betydeligt, men det er også problematisk i den beskrivende statistik! Dels skal man passe på den bedste rette linje, der uheldigvis godt kan ændres ved reduktionen, dels skal man passe på forklaringsgraden, som skifter helt karakter: Forklaringsgraden for det oprindelige rå datasæt er noget helt andet end forklaringsgraden for det reducerede strukturerede datasæt. Vi ser først på den bedste rette linje hørende til det rå datasæt: Her skal vi minimere afstandskvadratet 2 ætilsvarende bidrag fra ö a x1+ b - y11 + a x1+ b - y ( a x1+ b - y1n ) ç ède andre x-værdier ø 2 ( ( ) ) ( ( ) ) ( ) Men det kan omskrives på formen ( ) ( ) ( n ) ( n ) n a x + b - 2 a x + b y + y +... y + y + y y Her er det sidste led med summen af y-kvadraterne irrelevant, da parametrene a og b slet ikke indgår! Hvad de to andre led angår så indgår alene antallet af y-værdier hørende til x 1, dvs. n 1, og summen af y- værdierne, dvs. y11 + y y1n. 1 31

32 Konklusion: Når vi skal minimere summen af afstandskvadraterne kan vi erstatte alle datapunkterne ( x, y ),( x, y ),...,( x, y ) med middelværdipunkterne n1 æ y11 + y y1n ö æ y y y1n ö 1 ç x1,,..., ç x1, è n1 ø è n1 ø uden at det ændrer på værdierne for de to første led i afstandskvadratsummen. Vi finder derfor præcis den samme bedste rette linje, hvis vi bruger middelværdipunkterne, når blot vi husker at gentage det første datapunkt n 1 gange, det andet n 2 gange osv. Hvis ydermere det rå datasæt er simpelt struktureret, dvs. der er lige mange y-værdier til hver x-værdi, behøver vi slet ikke gentage middelværdipunkterne! Det reducerede ustrukturerede middelværdipunkts datasæt giver altså nøjagtig den samme bedste rette linje som det strukturerede rå datasæt! Hvis det rå datasæt ikke er simpelt struktureret er det lidt mere kompliceret, fordi de enkelte x-værdier så skal vægtes i forhold til hvor mange y-værdier der er knyttet til x-værdien. Men denne vægtning kan de fleste værktøjsprogrammer også håndtere rimeligt simpelt. Konklusionen er altså at reduktionen af datasættet fra et råt struktureret datasæt (med mange y-værdier hørende til hver x-værdi) til et ustruktureret bearbejdet datasæt (hvor der til hver x-værdi kun er knyttet middelværdien af de tilhørende y-værdier) ikke ændrer den bedste rette linje hørende til datasættet! Øvelse 2: a) Opret en passende stokastisk lineær regressionsmodel, dvs. vælg en lineær model, fx y= 2x-1og en spredning for residualerne, fx s = 1. Opret derefter kolonner for en passende serie x-værdier, fx listen {1,2,3,4,5}, der hver for sig gentages fx 5 gange, så du i alt har 25 datapunkter. Opret tilsvarende kolonner for de tilhørende y-værdier ifølge den lineære model yi = a xi + b, henholdsvis den stokastiske model y = a x + b+ randnorm(0,1,25) eller noget tilsvarende alt efter hvad den i i normalfordelte stokastiske variabel hedder i dit værktøjsprogram. b) Udregn for hver x-værdi middelværdien for de tilhørende y-værdier. c) Opret punktplot for såvel det ustrukturerede som det strukturerede datasæt. d) Udfør en lineær regressionsmodel på såvel det ustrukturerede bearbejdede datasæt som det strukturerede rå datasæt. Kommentér resultatet. Men når vi kommer til forklaringsgraden er historien en helt anden! Forklaringsgraden hørende til det rå datasæt har en helt betydning end forklaringsgraden hørende til det reducerede middelværdidatasæt. Vi kan illustrere det med en typisk vejledende eksamensopgave fra samfundsfag: Der er givet to figurer (se næste side), der illustrerer sammenhængen mellem antal år under uddannelse og timelønnen i den private sektor. Her er det oplagt hvordan man fastlægger uddannelsens længde i hele år, men timelønnen varierer selvfølgelig meget. Så man må gå ud fra at det er noget i retning af den gennemsnitlige timeløn, der er afbildet. De virkelige rå data ville give en helt uoverskuelig punktsværm. 32

33 Graferne viser nu en tydelig voksende tendens for gennemsnitslønnen: Men den fortæller i virkeligheden ikke så meget om hvad der sker med den individuelle løn, idet vi helt mangler oplysninger om spredningen på den individuelle løn. Så forklaringsgraden viser kun, at der er en rimelig god overensstemmelse mellem den lineære model og gennemsnitslønnens udvikling, men der kan sagtens være en stor procentdel lønmodtagere med kort uddannelse, der tjener mere end en tilsvarende stor procentdel lønmodtagere med lang uddannelse. Det kan man kun vurdere, hvis man fx havde et boksplot for timelønnen i stedet for kun at have et punkplot over gennemsnitslønnen. Tilsvarende kan man intet sige om forklaringsgraden for de rå data, der sagtens kan være meget lavere end de forklaringsgrader, der er oplyst i diagrammerne for de reducerede data. Så i modsætning til ligningerne for de lineære regressionsmodeller, der formentlig ligner de tilsvarende ligninger for de rå data, så er vi på herrens mark, hvis vi vil vide noget om forklaringsgraden for de individuelle timelønninger i modsætning til forklaringsgraden for gennemsnitslønningerne. 33

34 34