Projekt 9.4 t-test som lineær regressionstest: Box s helikoptereksperiment

Størrelse: px
Starte visningen fra side:

Download "Projekt 9.4 t-test som lineær regressionstest: Box s helikoptereksperiment"

Transkript

1 Projekt 9.4 t-test som lineær regressionstest: Box s helikoptereksperiment Indhold 1. Modellering af fald med papirhelikopter: Et eksempel på lineær regression... 2 Empiri... 2 Helikoptereksperimentet Lineær regression som deskriptiv statistik... 5 Mindste kvadraters metode... 6 Forklaringsgraden... 8 Residualplottet En forenklet lineær model Lineær regression som hypotesetest Er der overhovedet en sammenhæng? Når der nu er en sammenhæng, hvorfor er den så lineær? Usikkerhedsvurdering: 95% konfidensintervaller for hældningen Afsluttende bemærkninger: Hvad sker der, hvis der kun er en faldtid for hver faldhøjde? Bilag. Nogle generelle bemærkninger om lineære regressionsmodeller Ustrukturerede og strukturerede datasæt Reduktion af strukturerede datasæt Projektet er et oplæg til læreren og rummer et undervisningsforløb i lineær regression, der detaljeret gennemgår alle aspekter heraf og samtidig giver en indføring i, hvordan et værktøjsprogram kan anvendes i undersøgelsen af et datamateriale, bl.a. med en udførlig gennemgang af simuleringsteknikken, der ofte kaldes for omrøring. Projektet er en fortsættelse af projekt 2.8 på C-niveau, der omfatter afsnit 1 og 2. I disse afsnit bliver vi inden for den deskriptive statistik, illustrerer mindste kvadraters metode og giver en indføring i, hvad forklaringsgraden er et udtryk for. I afsnit 3 inddrages den bekræftende statistik med hypotesetest. Afsnittet indeholder en gennemgang af simuleringstest med omrøring. Endvidere en diskussion af fordele og ulemper ved at reducere et datamateriale og gå over til at se på middelværdier dermed inddrage det kanoniske t-test. Dette bliver foldet ud i en gennemgang af lineær regressionstest med inddragelse af konfidensintervaller. I et bilag er der en mere teknisk gennemgang af især anvendelsen af t-test. Projektet bygger på et berømt eksperiment designet af den amerikanske statistiker George Box, der anvendte målinger på papirhelikopteres faldtid til at illustrerer væsentlige statistiske pointer. Vi har valgt at illustrere nogle af de mange muligheder med en konkret analyse af et datasæt, men tanken er selvfølgelig at klassen beslutter sig for hvilke aspekter af den lineære regressionsmodel projektet skal omfatte og designer eksperimentet og dataanalysen derefter. 1

2 1. Modellering af fald med papirhelikopter: Et eksempel på lineær regression Modellering af lineære fænomener har en lang historie bag sig. Hovedmodellen er den lineære regressionsmodel fra den deskriptive statistik baseret på mindste kvadraters metode, men den kan også udvides til en hypotesetest af den lineære afhængighed samt en analyse af konfidensintervaller for hældningen (dvs. i fysikterminologi: Om usikkerheden på hældningen fundet ved lineær regression). I dette eksempel vil vi forsøge at gå hele vejen og undervejs omtale nogle faldgruber. Empiri Selve eksperimentet er en klassiker, der stammer fra den indflydelsesrige amerikanske statistiker George Box (død i 2013), som havde nære forbindelser til statikkens fader Ronald Fisher. Det er en del af et større eksperiment om variabel kontrol (experimental design i statistisk fagjargon) og du kan høre George Box selv fortælle om det på videoklippet Sren-Bisgaard-and-Conrad-A_-Fung.html På denne webside kan du også finde referencer til nogle af Box originale artikler, hvor han beskriver eksperimentet, ikke mindst George Box: Teaching Engineers Experimental Design with a Paper Helicopter (1991) Men selv om det er oplagt at udvide projektet til et større projekt om variabelkontrol vil vi her udelukkende koncentrere os om sammenhængen mellem to variable, faldhøjden og faldtiden for en papirhelikopter, der slippes fra en aftalt højde. Bemærkning: I fysikundervisningen er der tradition for et lignende eksperiment med kaffefiltre, der slippes fra forskellige højder. Det kan selvfølgelig sagtens erstatte helikopterstyrtet. 2

3 Helikoptereksperimentet Men her tager vi altså udgangspunkt i en papirhelikopter, der klippes ud og foldes efter et fast design som vist og til sidst forsynes med en papirklips i halen. Eksperimentet kan nu udføres med støtte fra et målebånd og et stopur og kan bruges lige fra Naturvidenskabeligt grundforløb til Fysik A, afhængigt af hvor dybt man vil gå ned i data-analysen. Men man kan selvfølgelig også videofilme helikopterstyrtet og bruge videofilmene som udgangspunkt for dataanalysen. 3

4 For at udføre eksperimentet skal klassen selvfølgelig selv bruge en skabelon, som du kan hente her, og klippe og samle deres egen helikopter i stift papir eller karton. Det kan fx gøres gruppevis, men også enkeltvis Det afgørende er at de bruger samme type papir og samme type klips, så alle helikopterne statistisk set er ens. Herefter kan der udføres forskellige former for data-analyse. For at give en ide om hvad der kan gøres med sådanne data illustrerer vi dem med forsøgsdata fra en Amerikansk skole: Som det ses har man fastlagt fem bestemte højder inde i en idrætshal ud fra forskellige højder for tilskuerpladserne samt en balkon i den anden ende af hallen. Derefter har man delt klassen op i grupper, så man for hver af de fem højder har opmålt 10 helikopterstyrt. Tildelingen af højder til de enkelte grupper foregår ved lodtrækning (randomisering), for at undgå at eleverne selv optræder som konfunderende variable. Det er altså disse data vi vil analysere i det følgende, men det er selvfølgelig altid sjovere at analysere klassens egne data. 4

5 2. Lineær regression som deskriptiv statistik I det følgende benyttes TI-Nspire CAS. Men analysen kan selvfølgelig tilpasses andre CAS-værktøjer. Dataene tastes ind i et Lister og Regneark-værksted i TI-Nspire CAS og vi afbilder dem som et punktplot i Diagrammer og Statistik: Vi har valgt faldhøjden som den uafhængige variabel, da den er fastlagt på forhånd, mens faldtiden er den afhængige variabel, som vi måler gentagne gange. Som det ses er der en betydelig spredning i faldtiderne, men samtidigt en klar voksende tendens: Jo større faldhøjden er, jo større er faldtiden alt andet lige, selv om man godt kan finde individuelle målinger, der bryder med tendensen (fx udvalgte faldtider fra 2.29 meter, der er mindre end udvalgte faldtider fra 1.77 meter). Vi kan fremhæve strukturen af faldtidernes fordeling ved at tvinge faldhøjden til at blive afbildet som en kategorisk variabel. Det giver fem grupper af faldtider, der som vist kan afbildes som boksplot. Vi har også tilføjet middelfaldtiderne til boksplottene. Igen er den voksende tendens klar og det synes ikke urimeligt at benytte en lineær model. Man skal dog passe lidt på med det kategoriske plot, idet der i virkeligheden er længere afstand mellem de to sidste faldhøjder end mellem de øvrige. Man kan også med en vis rimelighed se de enkelte grupper af faldtider som rimeligt ens fordelte, om end det sidste boksplot synes at have en klar større spredning. Man kunne derfor overveje at droppe den sidste måling fra balkonen, som der var mindre styr over end de øvrige målinger (bl.a. fordi læreren opholdt sig i gymnastiksalen og derfor ikke kunne overvåge kvaliteten af målingerne fra balkonen i den anden ende af hallen). Men i den følgende analyse beholder vi alle data! 5

6 Vi udfører derfor nu en lineær regression på data: Den lineære model får da ligningen y= x Her er det især hældningen, som er interessant. Den kan tolkes som en faldkonstant. Betydningen af faldkonstanten er den tid det tager en helikopter at falde 1 meter. Eller i matematik-jargon: For hver meter vi øger faldhøjden øges faldtiden alt andet lige med 0.73 sekunder. Der rejser sig nu naturligt to spørgsmål ved den lineære regressionsmodel: Hvor kommer den fra og hvad er betydningen af størrelserne r 2 (forklaringsgraden eller determinationskoefficienten) og r (korrelationskoefficienten). Da determinationskoefficienten r 2 er kvadratet på korrelationskoefficienten r er det nok at gøre rede for betydningen af den ene af dem. Vi vælger her at fokusere på determinationskoefficienten eller forklaringsgraden som i vores tilfælde altså er 86%. Mindste kvadraters metode Men først skal vi gøre rede for hvorfra den lineære regressionsmodel stammer: Vi højreklikker derfor på den lineære regressionslinje og vælger Vis residuelle kvadrater. 6

7 Som det ses bliver hvert datapunkt nu tilknyttet et kvadrat, hvis side netop er den lodrette afstand fra datapunktet til regressionslinjen. Ydermere får vi at vide, at summen af kvadraterne (dvs. summen af deres arealer) er givet ved , et tal, som vi noterer i regnearket til senere brug. Ideen er nu, at den lineære regressionsmodel er fastlagt ved mindste kvadraters metode, dvs. ved at gøre summen af disse kvadrater så lille som overhovedet muligt. Vi kan illustrere ideen ved at tilføje endnu en ret linje (vælg Undersøg Data 4 Tilføj Flytbare linjer). Også denne linje kan vi nu højreklikke på for at få vist de residuelle kvadrater. For at tydeliggøre billedet har vi nu farvet regressionslinjen blå og den flytbare linje rød. Vi har endvidere skjult de residuelle kvadrater for regressionslinjen, for at lade de residuelle kvadrater for den flytbare linje træde tydeligere frem! 7

8 Ved at trække i den flytbare linje (ude i enderne drejer man linjen, inde midt på flytter man linjen lige op og ned) kan man nu ved selvsyn konstatere at kvadratsummen for den flytbare linje altid ligger over kvadratsummen for regressionsmodellen og at jo tættere man lægger den flytbare linje opad regressionslinjen jo tættere kommer kvadratsummen for den flytbare linje til kvadratsummen for regressionslinjen. Det er netop i overensstemmelse med mindste kvadraters metode, der siger at regressionslinjen udvælges bland alle mulige linjer, så kvadratsummen er mindst mulig, dvs. så regressionslinjen i en vis forstand ligger tættest muligt på datapunkterne. Derfor kaldes regressionslinjen også ofte for bedste rette linje. Forklaringsgraden Vi ved nu hvor regressionslinjen stammer fra. Men det siger jo ikke noget om hvor god modellen er! Vi vil derfor nu konstruere et mål for modellens kvalitet, dvs. overensstemmelsen mellem datapunkterne og den lineære regressionsmodel. Den generelle ide er nu at vi opfatte data som en sum af modelværdien plus en afvigelse, det såkaldte residual: DATA = LINEÆR MODEL + RESIDUAL Her skal den lineære model nu vælges så residualerne er så små som muligt, dvs. ved mindste kvadraters metode (dvs. det er faktisk summen af residualerne kvadrater, der er så lille som mulig). I vores tilfælde er kvadratsummen for den lineære regressionsmodel altså givet ved Spørgsmålet er så om det kan 8

9 betragtes som et lille tal eller et stort tal? Det giver selvfølgelig ikke nogen mening at spørge om dette med mindre vi har noget at sammenligne det med! Vi indfører derfor endnu en konkurrerende model, som vi kan sammenligne med den lineære regressionsmodel, Det er den konstante model, hvor vi slet ikke forsøger at foregøgle nogen sammenhæng mellem faldhøjden og faldtiden, dvs. vi antager at faldtiden i virkeligheden slet ikke afhænger af faldhøjden, hvilket jo netop vil sige at den er konstant. DATA = KONSTANT + RESIDUAL Igen skal vi da vælge konstanten, så residualerne er mindst mulige. Ved at trække forsigtigt i enderne af den flytbare linje, kan den drejes indtil den er vandret. Herefter kan vi skubbe den op og ned (inde på midten af den flytbare linje!) indtil kvadratsummen er så lille som muligt. Vi finder da noget i retning af følgende: Den bedste konstant er altså med den tilhørende kvadratsum , som vi også overfører til regnearket. Men hvor kommer de nu fra? Ved at se på enkeltvariabelstatistikken for faldtiden er det nærliggende at gætte på at der netop er tale om middelværdien af faldtiden. Middelfaldtiden er og den tilhøren- 9

10 de kvadratsum (sidste celle i søjlen) er netop ! Men kan da også forholdsvis simpelt vise, at blandt alle konstanter er middelværdien den, der giver den mindste kvadratsum! I det følgende lader vi derfor den lineære regressionsmodel konkurrere mod den konstante model: DATA = MIDDELVÆRDI + RESIDUAL Hvis ikke kvadratsummen for den lineære regressionsmodel er væsentligt mindre end kvadratsummen for den konstante model, kunne vi lige så godt beskrive data ved den kontante model og lade være med at foregøgle os en lineær sammenhæng! I vores tilfælde har den lineære regressionsmodel da også kvadratsummen , der heldigvis er meget mindre end kvadratsummen for den konstante model med , og dette retfærdiggør den lineære model! Men hvor meget mindre er kvadratsummen for den lineære regresionsmodel end kvadratsummen for den konstante model? Det udtrykkes ofte i procent. I stedet for at se hvor mange procent kvadratsummen for den lineære mode udgør af kvadratsummen for den konstante model fokuserer man typisk i stedet for på hvor mange procent mindre den er! Dvs. hvor stor en procentdel af variationen i faldtiden er det lykkedes at fjerne ved at gå fra den konstante model til den lineære model. Vi ser da at vi finder (skærmbillede næste side) 10

11 kvadratsum for lineær model = 1 - = kvadratsum for konstant model Men det er jo netop forklaringsgraden r 2. Så nu har vi også gjort rede for betydningen af denne! Dermed er vi kommet igennem den vigtigste del af den deskriptive statistik. Residualplottet Vi tilføjer dog et par bemærkninger her til sidst: Man kan godt få TI-Nspire CAS til at vise residualplottet, dvs. residualerne som funktion af faldhøjden. Det sker igen ved at højreklikke på den lineære regressionsmodel og vælge Vis residual plot: 11

12 Som det ses er der lidt slingren i residualerne, der typisk ligger mellem -0.5 og 0.5. Hvis den lineære model er en god model skal residualerne fordele sig fuldstændigt tilfældigt. Igen er den mest tydelige tendens nok den større spredning for den største faldhøjde på 4.39 meter. Men ellers er der næppe systematiske tendenser i residualplottet, så der er ikke noget der tyder på at vi ville vinde noget ved at skifte til fx en kvadratisk model eller en eksponentiel model. Til gengæld kan vi se at konstantleddet i den lineære regressionsmodel er så lille i forhold til residualerne at det ikke ville være urimeligt at sætte den til nul, dvs. at skifte til en proportionalmodel: Faldtid = s Faldhøjde m Men faldkonstanten findes stadigvæk mest præcist ud fra den lineære regressionsmodel! Det automatisk genererede residualplot er rent illustrativt, dvs. vi kan ikke regne på det. For at kunne regne på residualerne er det nødvendigt at trække dem ud af modellen. De står pakket ind i gåseøjne i cellen F7. For at trække dem ud som en liste bruger vi derfor kommandoen expr(), der netop laver en tekststreng om til et matematisk udtryk. Derved kan vi som vist oprette et residualplot som et rigtigt punktplot i et separat Diagrammer og Statistik-vindue: 12

13 En af de interessante beregninger vi kan udføre på residualerne er nu at vi som vist kan udføre en lineær regression på dem! Ikke overraskende får vi resultatet y= x Dvs. når vi tager højde for afrundingsfejl indenfor programmets beregningsområde er der reelt tale om y = 0. Vi har altså fjernet enhver lineær tendens ved at trække den lineære regressionsmodel ud af data. Men det betyder samtidigt at residualerne ikke er helt tilfældige: De opfylder to bånd svarende til at såvel hældningen som konstantleddet i den lineære regressionsmodel for residualerne er 0. Ofte formuleres de to bånd lidt mere simpelt: a) Det første bånd siger ganske enkelt at summen af residualerne er nul b) Det andet siger at den vægtede sum af residualerne med x-værdierne som vægte også er nul Begge egenskaber kan nemt tjekkes i regnearket: 13

14 Hvis man kender værdien af de 48 residualer kan man altså nemt bruge disse to bånd til at finde de to sidste værdier. Residualerne spiller en stor rolle i forståelsen af den lineære regressionsmodel og vi vender tilbage til dem i afsnittet om hypotesetest. En forenklet lineær model Hvis man underviser i lineære modeller på et begynderniveau kan man vinde meget ved selv at lade eleverne finde den lineære model ved hjælp af flytbare linjer. Det er da nærliggende at forenkle datasættet ved at erstatte faldtiderne for en given højde med deres middelværdi, så man slipper for det meget grumsede punktplot. Det nemmeste er da at udregne middelværdierne direkte fra de rå data, dvs. indføre to reducerede variable h_m, der udregner middelværdierne for grupperne af faldhøjder og t_s, der udregner middelværdierne for grupperne af faldtider. Der er så kun fem datapunkter i det reducerede datasæt og man kan med rimelighed selv trække en ret linje gennem datasværmen: 14

15 Men kunne da også få den ide at anvende lineær regression på det reducerede datasæt. 15

16 Men det skal man være varsom med! Den bedste rette linje får godt nok præcis den samme ligning som før, idet vi har komprimeret datasættet ved at trykke data sammen til deres middelværdier, hvilket netop fører til den mindste kvadratsum. Men forklaringsgraden er nu pludselig formelt steget til 97%. Men det er jo fordi vi har smidt en masse slør ud af modellen ved at komprimere den. Og modellen bliver naturligvis ikke bedre og mere overbevisende af at man fjerner information i form af tilfældig støj i modellen. En lineær regressionsmodel bør så vidt muligt udføres på de oprindelige rå data og vælger man alligevel som vist at komprimere data kan man ikke længere bruge forklaringsgraden til at vurdere modellens kvalitet! 16

17 3. Lineær regression som hypotesetest Er der overhovedet en sammenhæng? Der er flere spørgsmål vi kan tage op under hypotesetesten. Hvis vi nu betragter forsøgsdataene som en stikprøve fra en stor population af data hvor ikke bare en enkelt klasse udfører forsøget, men rigtigt mange klasser udfører forsøget, kan vi så sige noget om hvorvidt den observerede lineære sammenhæng er statistisk signifikant? Først må vi gøre os klart at der ikke findes nogen simpel sammenhæng mellem forklaringsgraden og den statistiske signifikans. En lineær sammenhæng kan sagtens være statistisk signifikant selv om forklaringsgraden er forbløffende lav, fx 5%. Der findes historisk berømte eksempler på sådanne situationer, fx Vietnam-lotteriet, se projekt 9.6 i C-bogen. Forklaringsgraden hører hjemme under den deskriptive statistik og kan ikke udnyttes i hypotesetest! Vi må altså gå den slagne vej, sådan som vi fx kender den fra c 2 -testen. Vi må da først og fremmest opstille en nulhypoteses og vælge et signifikansniveau: Nulhypotesen H 0 : Der er ingen sammenhæng mellem faldhøjde og faldtid. Faldtiden er altså uafhængig af faldhøjden. De forskellige faldtider skyldes altså alene tilfældige fluktuationer. Læg mærke til, at det netop svarer til den konstante model. Som signifikansniveau vælger vi som sædvanligt 5% og skal nu teste nulhypotesen. Det gør vi først rent eksperimentelt ved hjælp af en omrøringstest, dvs. vi omrører det givne rå datasæt for at bryde en eventuel sammenhæng mellem den observerede faldhøjde og den observerede faldtid. Det er præcis den samme teknik som vi bruger i c 2 -testen for uafhængighed! Vi indfører altså igen lister for de observerede faldhøjder højde_m og de observerede faldtider tid_s, men tilføjer denne gang også den omrørte tid: sim_ tid : = randsamp( tid _ s,50,1) Her har vi trukket en tilfældig stikprøve på 50 elementer uden tilbagelægning, dvs. den simulerede tid, sim_tid, er netop en tilfældig permutation af den observerede tid, tid_s! Vi kan så oprette punktplot for såvel den observerede tid som funktion af faldhøjden som den simulerede tid som funktion af faldhøjden: 17

18 Taster vi nu Ctrl/Cmd R inde i regnearket vil vi få genberegnet simulationen igen og igen. Vi kan så se hvor nemt det er at frembringe en hældning, der er lige så stor som den observerede, dvs. vi kan skønne over p- værdien. De simulerede hældninger vil være såvel positive som negative og i middel vil de være 0 i overensstemmelse med nulhypotesen. I en proto-test prøver man netop 20 gange (fordi signifikansniveauet er 5% = 1/20). Hvis der slet ikke forekommer nogen ekstreme hældninger skønner vi derfor at p-værdien er under 5% og nulhypotesen falder. Her har vi samlet billederne af de første 20 simuleringer i en fælles graf: 18

19 Vi er ikke i nærheden af den røde observerede hældning, så proto-testen antyder kraftigt at p-værdien er et godt stykke under 5% og dermed at nulhypotesen må afvises. Hvis vi vil udføre en mere præcis uafhængighedstest kan vi overføre værdien af den observerede hældning til variablen obs_hæld (det sker i rød celle H5 med celleformlen: obs_hæld:=e3) og tilsvarende den simulerede hældning til variablen sim_hæld (det sker i grøn celle H3 med celleformlen: obs_hæld:=g3). Vi kan så udføre en automatisk datafangst af den simulerede hældning, hvor vi gentager fangsten 1000 gange (vi holder øje med antallet af målinger i celle H8 med celleformlen =count(måling). Målingerne afsættes i to Diagrammer og statistik-vinduer, til venstre som prikdiagram og til højre som histogram overlejret med en normalfordeling. Som det ses er middelhældningen meget tæt på 0. I begge diagrammer har vi også indsat den observerede hældning. Ingen af de 1000 simuleringer kommer i nærheden af den observerede hældning så skønnet over p- værdien ligger et godt stykke under 1 promille. Nulhypotesen må altså forkastes! Vi kan godt danne os et skøn over p-værdiens størrelse ved at udnytte normalfordelingsapproksimationen og finde arealet til højre for den observerede hældning. Da nulhypotesen ikke favoriserer et bestemt fortegn kunne de ekstreme hældninger lige så godt være negative og vi skal derfor gange det fundne areal med 2. Arealet findes ved at højreklikke på normalfordelingskurven og vælge Skraver under funktion. Area- 19

20 let er dog under , så vi kan ikke finde decimalerne på den måde. I stedet må vi udføre en beregning i et Note-værksted: Vi slutter af med en såkaldt kanonisk test, idet vi udfører det indbyggede lineære regressionstest: Ifølge nulhypotesen er såvel hældningen b som korrelationskoefficienten r lig med 0. Ifølge den alternative hypotese er de begge forskellige fra 0. Igen fås en astronomisk lille p-værdi og nulhypotesen må på det bestemteste afvises! Læg mærke til antallet af frihedsgrader som er 48, dvs. 2 mindre end de 50 datapunkter. Det skyldes de to bånd der lægges på residualerne. Når der nu er en sammenhæng, hvorfor er den så lineær? Vi har nu afvist nulhypotesen om uafhængighed og må derfor vælge den alternative hypotese: Faldtiden er afhængig af faldhøjden og afhængigheden er tydeligvis voksende. Men hvorfor lige netop en lineær afhængighed, hvorfor ikke en kvadratisk eller en eksponentiel eller? Det er straks sværere at svare på, men vi er nødt til at forsøge at begrunde den lineære model! Som støtte for den lineære model kan vi nu fremføre to typer argumenter: Det ene kommer fra den deskriptive statistik: Hvis der er andet på spil end den lineære sammenhæng burde data vise en tydelig krumning hvilket også burde slå igennem på residualplottet i form af fx en tydelig hængebug. Men det har vi ikke set, så krumningen er ikke specielt åbenlys. 20

21 Det andet kommer fra en bagvedliggende teori. Vi kan håbe på en simpel fysisk forklaring på hvorfor vi bør forvente en lineær sammenhæng. Og det kan man faktisk godt give: Faldet deles i to faser: Den indledende fase: Helikopteren begynder at falde og rotere. I løbet af tidsrummet t 0 falder det dybden s 0, hvorefter faldet stabiliseres, fordi luftmodstanden er vokset i størrelse, indtil den netop matcher tyngdekraften. Herefter falder helikopteren jævnt med farten v, der netop er afpasset så luftmodstanden er lige så stor som tyngdekraften! Vi forventer altså en sammenhæng af typen ( ) s- s = v t-t ( 0 ) 1 æ 1 ö t = t + s- s = s+ ç t0 - s0 v v è v ø Den forventede sammenhæng mellem faldhøjden s og faldtiden t er netop lineær. Læg mærke til at denne simple forklaring ikke favoriserer en proportional sammenhæng. Som alternativ hypotese vælger vi altså en model på formen Data = Lineær model + Residual Faldtid = a Faldhøjde + b + e Denne opskrivning betyder, at den systematiske sammenhæng ligger i den lineære model og residualerne anses for at variere fuldstændigt tilfældigt med middelværdi 0. I videregående statistik vil man ofte antage at residualerne for de enkelt faldhøjder følger en normalfordeling med middelværdi 0 og en fælles ukendt spredning s. Usikkerhedsvurdering: 95% konfidensintervaller for hældningen Det fører os til den sidste problemstilling. Når først vi har accepteret den lineære model y= x hvor sikre kan vi så være på hældningen? Det er klart at jo mere residualerne spreder sig jo større usikkerhed er der på hældningen. Vi kan nu eksperimentelt fastlægge et 95% konfidensinterval for hældningen på følgende måde: Vi accepterer den lineære model som udtryk for den systematiske sammenhæng, men residualerne svinger tilfældigt. Gentages forsøget vil vi derfor få nogle andre residualer og dermed en anden hældning for regressionsligningen. Vi kan simulere det slør, der kommer fra de tilfældige variationer i residualerne ved at omrøre residualerne! Vi trækker derfor residualerne ud som en selvstændig liste og foretager en omrøring i residualerne ved hjælp af randsamp-kommandoen lige som før(se figur næste side): Ser vi nu på de simulerede residualer, så har de faktisk en hældning, men i middel er den selvfølgelig 0, når vi gentager simuleringen uendeligt mange gange. Vi overfører nu den simulerede hældning til variablen slør ved hjælp af cellekommandoen slør:=l3. 21

22 Herefter kan vi lave automatisk dataopsamling på sløret ligesom før. Vi gentager simuleringen af residualerne 1000 gange: 22

23 De 1000 simulerede residualhældninger er da med god tilnærmelse normalfordelte med middelværdi meget tæt på 0 og en spredning meget tæt på Vi skal da have fundet de 95% midterste simulerede hældninger. Det gøres nemmest ved at højreklikke på normalfordelingen, vælge Skraver under funktion og justere arealet så vi lægge halvdelen, dvs. 2.5% ude i den højre hale: Det passer godt med tommelfingerreglen der siger, at 95%-konfidensintervallet svarer til to spredninger! Usikkerheden på hældningen skønnes altså til at være på 0.087, dvs. faldkonstanten (den tid det tager helikopteren at styrte 1 meter) bør opgives som ± svarende til usikkerhedsintervallet [0.641;0.815]. Igen kan vi supplere med en kanonisk beregning af 95%-konfidensintervallet: 23

24 Vi får da vide at usikkerheden, dvs. Margin of Error eller bare ME, er i fin overensstemmelse med det eksperimentelle resultat. Tilsvarende er usikkerhedsintervallet givet ved [ C ; C ] = [0.642;0.815] igen i fin overensstemmelse med det eksperimentelle resultat. Lower Upper 24

25 Afsluttende bemærkninger: Hvad sker der, hvis der kun er en faldtid for hver faldhøjde? På forhånd er det klart, at vi ikke uden videre kan tillade os at udføre hypotesetesten på de komprimerede data, hvor vi erstatter de ti faldtider indenfor en given faldhøjde med deres middelværdi. Men hvad nu hvis vi slet ikke har foretaget 10 tilfældige målinger pr faldhøjde, men kun en, dvs. for hver af de fem faldhøjder har vi udført netop et eksperiment, fx det første i den oprindelige serie. Så har vi kun fem målepunkter at lege med. Det gør selvfølgelig kvaliteten af målingerne langt dårligere: I princippet kan man dog stadigvæk udføre hypotesetest. Godt nok kan man ikke uden videre vurdere antagelsen om at y-værdierne har den samme spredning for de forskellige x-værdier, for der er jo kun en y- værdi for hver x-værdi. Men man kan stadigvæk vurdere residualerne samlet, og bruge deres spredning som skøn over den fælles spredning, under forudsætning af at man altså tror på regressionsmodellen og dermed også tror på at y-værdierne er fordelt med en middelværdi, der varierer lineært med x og en fælles spredning. Men det er klart et tyndere grundlag at arbejde videre med end hvis man har gentagne forsøg for de forskellige x-værdier. Samtidigt har man stadigvæk mistet 2 frihedsgrader og har derfor kun tre reelle frihedsgrader tilbage til at teste modellen på. Det er et tyndt grundlag. Man vil da også opleve, at der ikke længere er nogen særlig god overensstemmelse mellem de eksperimentelle tests udført som i det foregående på den ene side og de kanoniske t-test på den anden side. 25

26 Når man tilrettelægger sit forsøg, er det derfor absolut anbefalelsesværdigt at man gentager målingerne flere gange for de forskellige x-værdier, der indgår! 26

27 Bilag. Nogle generelle bemærkninger om lineære regressionsmodeller Dette afsnit indeholder en del nyttige informationer om lineære regressionsmodeller i almindelighed. Men det kan godt overspringes i første omgang, så man kan gå direkte i gang med eksperimenterne. Så kan man altid vende tilbage til dette afsnit for at få uddybet nogle af de problemstillinger, der omtales i projektet. Hvis man anvender dele af projektet på C- eller B-niveau bør man helt klart springe dette afsnit over. Den lineære regressionsmodel bygger som forklaret i kapitel 9 A-bogen på mindste kvadraters metode. Givet et (x,y)-punktplot kan vi altid finde den bedste rette linje ved at minimere summen af afstandskvadraterne fra datapunkterne ( x1, y1),...,( xn, y n) til den rette linje y= a x+ b, dvs. vi vælger parametrene a og b, så de minimerer summen ( ( a x1 + b) - y1 ) ( ( a xn+ b) -yn ) 2 2 Det viser imidlertid ikke noget om hvorvidt der er tale om en god eller dårlig model. Sommetider kan man se det med det blotte øje grafisk om modellen fungerer eller ej, men andre gange er det rart at have et mål for hvor god modellen er. Her bliver det nu afgørende om vi befinder os i den deskriptive statistik eller i den bekræftende statistik. I den deskriptive statistik opfattes datasættet som en population vi forsøger at beskrive bedst muligt. Vi bruger da typisk forklaringsgraden som et kvantitativt mål for hvor god modellen er. Forklaringsgraden siger noget om hvordan den lineære model er i forhold til den konkurrerende konstante model, dvs. at y- værdierne er uafhængige af x-værdierne. 27

28 I den bekræftende statistik opfattes datasættet som en tilfældig stikprøve udtaget af en større population. Man kan da teste nulhypotesen dvs. uafhængigheden af x-værdierne og y-værdierne, dvs. se om den fremkomne hældning i virkeligheden ikke er signifikant forskellig fra nul, og at den fremkomne hældning kun afspejler tilfældige fluktuationer i stikprøven. Hvis nulhypotesen forkastes, dvs. den observerede hældning afviger signifikant fra nul, vælger vi den lineære model til at beskrive datasættet. I den bekræftende statistik kan uafhængigheden testes på flere måder: Dels kan man bruge et simuleringstest via omrøring, dels kan man bruge en kanonisk test, det såkaldte t-test for regression. Normalt opfatter vi de to metoder som ækvivalente, men t-testet stiller faktisk særlige krav til datasættets strukturering, som det kan være værd at have for øje. Ustrukturerede og strukturerede datasæt Datasættet kan være ustruktureret, dvs. blot en tilfældig samling af datapunkter ( x1, y1),...,( xn, y n), men det kan også være struktureret, dvs. til hver x-værdi har man målt en serie tilfældige y-værdier. I den strukturerede version forestiller man sig altså, at man kan kontrollere x-værdierne med den ønskede præcision, mens y-værdierne varierer stokastisk omkring nogle forventede værdier givet ved den lineære model. Det kan fx være eksperimentet med hastigheden for et nervesignal, hvor man måler udbredelsestiden for et nervesignal, der sendes gennem en kæde af elever, der holder hinanden i hånden, se projekt 1.2 i C- bogen: Her kan vi nemt kontrollere kædens længde, dvs. hvor mange elever skal der være i kæden. Det er vores x- værdi, dvs. den uafhængige variabel. Men udbredelsestiden er vi nødt til at måle, og den vil variere lidt fra gang til gang, når vi gentager målingen. Hvis datasættet er ustruktureret måler vi bare udbredelsestiden én gang, men hvis det er struktureret, måler vi det mange gange, fx fem gange for hver kædelængde på 5 personer, 10 personer, 15 personer osv. Det sidste giver selvfølgelig langt mere information om de stokastiske fluktuationer i udbredelsestiden. Det kan også være resultatet af en spørgeskemaundersøgelse som i samfundsfagsprojektet om elevers alkoholforbrug, der kommer til at ligge som projekt i A-bogens studieretningskapitel om samfundsfag og matematik. Her udspørges eleverne i en klasse om deres ugentlige alkoholforbrug. I en typisk klasse vil der være en 3-4 aldersgrupper svarende til hvor mange år de er gamle, fx fra 16 til 19 år med overvægt af de årige. Det svarer til vores x-værdi, dvs. den uafhængige variabel. Men alkoholforbruget vil typisk variere tilfældigt fra elev til elev. Det svarer til vores y-værdi, dvs. den afhængige variabel. Datasættet vil nu være struktureret, dvs. til hver x-værdi, vil der svare mange y-værdier. Men det er ikke helt så pænt som 28

29 det foregående eksempel, fordi der typisk vil være et forskelligt antal y-værdier knyttet til de enkelte x- værdier. Man kan så teste nulhypotesen, om alkoholforbruget er uafhængigt af alderen, eller om der alternativt synes at være fx en stigende tendens i alkoholforbruget, så datasættet bedst beskrives med en lineær (voksende) model. I et struktureret datasæt har vi altså et antal x-værdier værdi: Til x 1 er knyttet y-værdierne y11, y12,..., y1n 1 Til x 2 er knyttet y-værdierne y21, y22,..., y2n 2 Til y, y,..., y k x k er knyttet y-værdierne k1 k2 kn x,..., 1 x k og til hver af disse x-værdier er knytte en y- Det samlede antal datapunkter er derfor givet ved n= n1 + n nk. I et simpelt struktureret datasæt er der lige mange y-værdier til hver x-værdi, dvs. n1 = n2 =... = nk jfr. eksempel med udbredelsen af nervesignalet, men det behøver altså ikke være tilfældet, jfr. eksemplet med alkoholforbruget i en klasse. I den bekræftende statistik opfatter man nu den lineære regressionsmodel som en model af formen yij = a xi + b+ eij Det skal forstås sådan at y-værdien y ij (det j te datapunkt hørende til x i ) udregnes som summen af en lineær funktion af den tilhørende x-værdi og et tilfældigt varierende residual med middelværdi 0 og en fast fælles spredning s : e ij, der antages normalfordelt 29

30 Øvelse 1: a) Opret en passende stokastisk lineær regressionsmodel, dvs. vælg en lineær model, fx y= 2x-1og en spredning for residualerne, fx s = 1. Opret derefter kolonner for en passende serie x-værdier, fx listen {1,2,3,4,5}, der hver for sig gentages fx 5 gange, så du i alt har 25 datapunkter. Opret tilsvarende kolonner for de tilhørende y-værdier ifølge den lineære model yi = a xi + b, henholdsvis den stokastiske model y = a x + b+ randnorm(0,1,25) eller noget tilsvarende alt efter hvad den i i normalfordelte stokastiske variabel hedder i dit værktøjsprogram. b) Tegn såvel grafen for den lineære model som punktplottet for datasættet, dvs. den stokastiske model. c) Udfør en lineær regressionsmodel på datasættet. Kommentér resultatet, dvs. sæt ord på hvorfor den fundne regressionslinje ikke stemmer helt overens med den teoretiske lineære model. Hvis datasættet er struktureret giver det god mulighed for at vurdere størrelsen af den fælles spredning, netop fordi der til hver x-værdi hører mange y-værdier, så vi kan estimere spredningerne for de enkelte x- værdier og se om de stemmer rimeligt overens. Men hvis datasættet er ustruktureret mister vi denne mulighed: Det kanoniske t-test er derfor ikke særligt brugbart for ustrukturerede datasæt! Det viser sig dog at t-testet er rimeligt robust, så i praksis anvendes det også for ustrukturerede datasæt, men så bør der være mange datapunkter. Hvis man fx kun har fem tilfældige datapunkter som man vil t- teste for uafhængighed i håb om at etablere en lineær sammenhæng er t-testen meget tyndt og man skal ikke forvente nogen god overensstemmelse mellem simuleringstestet og den kanoniske t-test! Men har man datapunkter går det væsentligt bedre. Reduktion af strukturerede datasæt Hidtil har vi fokuseret på den bekræftende statistik, men de ovenstående bemærkninger om ustrukturerede og strukturerede datasæt til punktplot er også relevante for den beskrivende statistik. Typisk starter man nemlig med et struktureret datasæt, de rå data, idet man fx måler udbredelsestiden fem gange for hver kædelængde. Men så tager man gennemsnittet af de fem målinger og bruger middelværdien som estimat for udbredelsestiden for den pågældende kædelængde. Derefter får man et plot, der så gerne skulle pege på en voksende lineær sammenhæng mellem kædelængde og udbredelsestid. Det kan fx se således ud: 30

31 Men de rå data er statistikkens hellige gral! Ved at reducere datasættet fra et struktureret til et ustruktureret datasæt baseret på middelværdier mister man værdifuld information om spredningen af udbredelsestiden for de enkelte kædelængder. Det er særligt slemt i den bekræftende statistik, hvor det vanskeliggør brugen af hypotesetesten betydeligt, men det er også problematisk i den beskrivende statistik! Dels skal man passe på den bedste rette linje, der uheldigvis godt kan ændres ved reduktionen, dels skal man passe på forklaringsgraden, som skifter helt karakter: Forklaringsgraden for det oprindelige rå datasæt er noget helt andet end forklaringsgraden for det reducerede strukturerede datasæt. Vi ser først på den bedste rette linje hørende til det rå datasæt: Her skal vi minimere afstandskvadratet 2 ætilsvarende bidrag fra ö a x1+ b - y11 + a x1+ b - y ( a x1+ b - y1n ) ç ède andre x-værdier ø 2 ( ( ) ) ( ( ) ) ( ) Men det kan omskrives på formen ( ) ( ) ( n ) ( n ) n a x + b - 2 a x + b y + y +... y + y + y y Her er det sidste led med summen af y-kvadraterne irrelevant, da parametrene a og b slet ikke indgår! Hvad de to andre led angår så indgår alene antallet af y-værdier hørende til x 1, dvs. n 1, og summen af y- værdierne, dvs. y11 + y y1n. 1 31

32 Konklusion: Når vi skal minimere summen af afstandskvadraterne kan vi erstatte alle datapunkterne ( x, y ),( x, y ),...,( x, y ) med middelværdipunkterne n1 æ y11 + y y1n ö æ y y y1n ö 1 ç x1,,..., ç x1, è n1 ø è n1 ø uden at det ændrer på værdierne for de to første led i afstandskvadratsummen. Vi finder derfor præcis den samme bedste rette linje, hvis vi bruger middelværdipunkterne, når blot vi husker at gentage det første datapunkt n 1 gange, det andet n 2 gange osv. Hvis ydermere det rå datasæt er simpelt struktureret, dvs. der er lige mange y-værdier til hver x-værdi, behøver vi slet ikke gentage middelværdipunkterne! Det reducerede ustrukturerede middelværdipunkts datasæt giver altså nøjagtig den samme bedste rette linje som det strukturerede rå datasæt! Hvis det rå datasæt ikke er simpelt struktureret er det lidt mere kompliceret, fordi de enkelte x-værdier så skal vægtes i forhold til hvor mange y-værdier der er knyttet til x-værdien. Men denne vægtning kan de fleste værktøjsprogrammer også håndtere rimeligt simpelt. Konklusionen er altså at reduktionen af datasættet fra et råt struktureret datasæt (med mange y-værdier hørende til hver x-værdi) til et ustruktureret bearbejdet datasæt (hvor der til hver x-værdi kun er knyttet middelværdien af de tilhørende y-værdier) ikke ændrer den bedste rette linje hørende til datasættet! Øvelse 2: a) Opret en passende stokastisk lineær regressionsmodel, dvs. vælg en lineær model, fx y= 2x-1og en spredning for residualerne, fx s = 1. Opret derefter kolonner for en passende serie x-værdier, fx listen {1,2,3,4,5}, der hver for sig gentages fx 5 gange, så du i alt har 25 datapunkter. Opret tilsvarende kolonner for de tilhørende y-værdier ifølge den lineære model yi = a xi + b, henholdsvis den stokastiske model y = a x + b+ randnorm(0,1,25) eller noget tilsvarende alt efter hvad den i i normalfordelte stokastiske variabel hedder i dit værktøjsprogram. b) Udregn for hver x-værdi middelværdien for de tilhørende y-værdier. c) Opret punktplot for såvel det ustrukturerede som det strukturerede datasæt. d) Udfør en lineær regressionsmodel på såvel det ustrukturerede bearbejdede datasæt som det strukturerede rå datasæt. Kommentér resultatet. Men når vi kommer til forklaringsgraden er historien en helt anden! Forklaringsgraden hørende til det rå datasæt har en helt betydning end forklaringsgraden hørende til det reducerede middelværdidatasæt. Vi kan illustrere det med en typisk vejledende eksamensopgave fra samfundsfag: Der er givet to figurer (se næste side), der illustrerer sammenhængen mellem antal år under uddannelse og timelønnen i den private sektor. Her er det oplagt hvordan man fastlægger uddannelsens længde i hele år, men timelønnen varierer selvfølgelig meget. Så man må gå ud fra at det er noget i retning af den gennemsnitlige timeløn, der er afbildet. De virkelige rå data ville give en helt uoverskuelig punktsværm. 32

33 Graferne viser nu en tydelig voksende tendens for gennemsnitslønnen: Men den fortæller i virkeligheden ikke så meget om hvad der sker med den individuelle løn, idet vi helt mangler oplysninger om spredningen på den individuelle løn. Så forklaringsgraden viser kun, at der er en rimelig god overensstemmelse mellem den lineære model og gennemsnitslønnens udvikling, men der kan sagtens være en stor procentdel lønmodtagere med kort uddannelse, der tjener mere end en tilsvarende stor procentdel lønmodtagere med lang uddannelse. Det kan man kun vurdere, hvis man fx havde et boksplot for timelønnen i stedet for kun at have et punkplot over gennemsnitslønnen. Tilsvarende kan man intet sige om forklaringsgraden for de rå data, der sagtens kan være meget lavere end de forklaringsgrader, der er oplyst i diagrammerne for de reducerede data. Så i modsætning til ligningerne for de lineære regressionsmodeller, der formentlig ligner de tilsvarende ligninger for de rå data, så er vi på herrens mark, hvis vi vil vide noget om forklaringsgraden for de individuelle timelønninger i modsætning til forklaringsgraden for gennemsnitslønningerne. 33

34 34

Lineære sammenhænge, residualplot og regression

Lineære sammenhænge, residualplot og regression Lineære sammenhænge, residualplot og regression Opgave 1: Er der en bagvedliggende lineær sammenhæng? I mange sammenhænge indsamler man data som man ønsker at undersøge og afdække eventuelle sammenhænge

Læs mere

Residualer i grundforløbet

Residualer i grundforløbet Erik Vestergaard www.matematikfysik.dk 1 Residualer i grundforløbet I dette lille tillæg til grundforløbet, skal vi kigge på begreberne residualer, residualplot samt residualspredning. Vi vil se, hvad

Læs mere

Projekt 6.1 Rygtespredning - modellering af logistisk vækst

Projekt 6.1 Rygtespredning - modellering af logistisk vækst Projekt 6.1 Rygtespredning - modellering af logistisk vækst (Projektet anvender værktøjsprogrammet TI Nspire) Alle de tilstedeværende i klassen tildeles et nummer, så med 28 elever i klassen uddeles numrene

Læs mere

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab

Læs mere

I. Deskriptiv analyse af kroppens proportioner

I. Deskriptiv analyse af kroppens proportioner Projektet er delt i to, og man kan vælge kun at gennemføre den ene del. Man kan vælge selv at frembringe data, fx gennem et samarbejde med idræt eller biologi, eller man kan anvende de foreliggende data,

Læs mere

Rygtespredning: Et logistisk eksperiment

Rygtespredning: Et logistisk eksperiment Rygtespredning: Et logistisk eksperiment For at det nu ikke skal ende i en omgang teoretisk tørsvømning er det vist på tide vi kigger på et konkret logistisk eksperiment. Der er selvfølgelig flere muligheder,

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Eksempel på logistisk vækst med TI-Nspire CAS

Eksempel på logistisk vækst med TI-Nspire CAS Eksempel på logistisk vækst med TI-Nspire CAS Tabellen herunder viser udviklingen af USA's befolkning fra 1850-1910 hvor befolkningstallet er angivet i millioner: Vi har tidligere redegjort for at antallet

Læs mere

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave]

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave] Statistik med TI-Nspire CAS version 3.2 Bjørn Felsager September 2012 [Fjerde udgave] Indholdsfortegnelse Forord Beskrivende statistik 1 Grundlæggende TI-Nspire CAS-teknikker... 4 1.2 Lister og regneark...

Læs mere

Modellering af elektroniske komponenter

Modellering af elektroniske komponenter Modellering af elektroniske komponenter Formålet er at give studerende indblik i hvordan matematik som fag kan bruges i forbindelse med at modellere fysiske fænomener. Herunder anvendelse af Grafregner(TI-89)

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Analyse af en lineær regression med lav R 2 -værdi

Analyse af en lineær regression med lav R 2 -værdi Analyse af en lineær regression med lav R 2 -værdi Denne gennemgang omhandler figur 13 i Regn med biologi. Man kan sagtens lave beregninger på egne data. Forsøgsmæssigt kræver det bare en tommestok tapet

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM FORMÅL - BEKENDTGØRELSEN STX MATEMATIK A Kompetencer anvende simple statistiske eller sandsynlighedsteoretiske modeller

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) Projekt 2.4 Menneskets proportioner (Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) I. Deskriptiv analyse

Læs mere

Kvadratisk regression

Kvadratisk regression Kvadratisk regression Helle Sørensen Institut for Matematiske Fag Københavns Universitet Juli 2011 I kapitlet om lineær regression blev det vist hvordan man kan modellere en lineær sammenhæng mellem to

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF Sammenligning af to måleserier En af de mest grundlæggende problemstillinger i statistik består i at undersøge om to forskellige måleserier er signifikant forskellige eller om forskellen på de to serier

Læs mere

for gymnasiet og hf 2017 Karsten Juul

for gymnasiet og hf 2017 Karsten Juul for gymnasiet og hf 75 50 5 017 Karsten Juul Statistik for gymnasiet og hf 017 Karsten Juul 5/11-017 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm Hæftet må benyttes i undervisningen

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Løsninger til kapitel 14

Løsninger til kapitel 14 Opgave 14.1 a) Linjetilpasningsplottet bliver: Løsninger til kapitel 14 Idet datapunkterne ligger tæt på og jævnt fordelt omkring den rette linje, så ser det ud til, at der med rimelighed er tale om en

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse.

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse. Opdateret 28. maj 2014. MD Ofte brugte kommandoer i Geogebra. Generelle Punktet navngives A Geogebra navngiver punktet Funktionen navngives f Funktionen navngives af Geogebra Punktet på grafen for f med

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium Man kan nemt lave χ 2 -test i GeoGebra både goodness-of-fit-test og uafhængighedstest. Den følgende vejledning bygger på GeoGebra version

Læs mere

Analyse af måledata II

Analyse af måledata II Analyse af måledata II Usikkerhedsberegning og grafisk repræsentation af måleusikkerhed Af Michael Brix Pedersen, Birkerød Gymnasium Forfatteren gennemgår grundlæggende begreber om måleusikkerhed på fysiske

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Uafhængighed et eksempel på en rød tråd i statistikken

Uafhængighed et eksempel på en rød tråd i statistikken Uafhængighed et eksempel på en rød tråd i statistikken Statistiknoter til TI-Nspire CAS version 2.0 Bjørn Felsager Marts 2010 Indholdsfortegnelse: Forord side 1 1. Unges alkoholforbrug som funktion af

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Uafhængighed et eksempel på en rød tråd i statistikken

Uafhængighed et eksempel på en rød tråd i statistikken Uafhængighed et eksempel på en rød tråd i statistikken Statistiknoter til TI-Nspire CAS version 3.1 Bjørn Felsager Revideret November 2011 329 Uafhængighed et eksempel på en rød tråd i statistikken Chi-i-anden-testen

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

Perspektiver i Matematik-Økonomi: Linær regression

Perspektiver i Matematik-Økonomi: Linær regression Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, email: jlj@imf.au.dk Perspektiver i Matematik-Økonomi: Linær regression p. 1/34 Program for i dag 1. Indledning: sammenhæng mellem

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Dig og din puls Lærervejleding

Dig og din puls Lærervejleding Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014 Vejledning til udvalgte opgave fra Matematik B, sommer 2014 Opgave 7 Størrelsen og udbudsprisen på 100 fritidshuse på Rømø er indsamlet via boligsiden.dk. a) Grafisk præsentation, der beskriver fordelingen

Læs mere

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Baggrund: I de senere år har en del gymnasieskoler eksperimenteret med HOT-programmet i matematik og fysik, hvor HOT står for Higher

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Projekt 1.4 Tagrendeproblemet en instruktiv øvelse i modellering med IT.

Projekt 1.4 Tagrendeproblemet en instruktiv øvelse i modellering med IT. Projekt 1.4 Tagrendeproblemet en instruktiv øvelse i modellering med IT. Projektet kan bl.a. anvendes til et forløb, hvor en af målsætningerne er at lære om samspillet mellem værktøjsprogrammernes geometriske

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Fig. 1 Billede af de 60 terninger på mit skrivebord

Fig. 1 Billede af de 60 terninger på mit skrivebord Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt

Læs mere

Vektorer og lineær regression. Peter Harremoës Niels Brock

Vektorer og lineær regression. Peter Harremoës Niels Brock Vektorer og lineær regression Peter Harremoës Niels Brock April 2013 1 Planproduktet Vi har set, at man kan gange en vektor med et tal. Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden.

Læs mere

Deskriptiv statistik for matc i stx og hf

Deskriptiv statistik for matc i stx og hf Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede

Læs mere

Excel tutorial om lineær regression

Excel tutorial om lineær regression Excel tutorial om lineær regression I denne tutorial skal du lære at foretage lineær regression i Microsoft Excel 2007. Det forudsættes, at læseren har været igennem det indledende om lineære funktioner.

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

For at få tegnet en graf trykkes på knappen for graftegning. Knap for graftegning

For at få tegnet en graf trykkes på knappen for graftegning. Knap for graftegning Graftegning på regneark. Ved hjælp af Excel regneark kan man nemt tegne grafer. Man åbner for regnearket ligger under Microsoft Office. Så indtaster man tallene fra tabellen i regnearkets celler i en vandret

Læs mere

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008 Den eksperimentelle metode i statistik Den naturvidenskabelige metode er i fokus efter gymnasiereformen. Det starter med naturvidenskabeligt grundforløb: Aktivitetsmappe for introkurset til Naturvidenskabeligt

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Eksponentielle funktioner for C-niveau i hf

Eksponentielle funktioner for C-niveau i hf Eksponentielle funktioner for C-niveau i hf 2017 Karsten Juul Procent 1. Procenter på en ny måde... 1 2. Bestem procentvis ændring... 2 3. Bestem begyndelsesværdi... 2 4. Bestem slutværdi... 3 5. Vækstrate...

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Vektorer og lineær regression

Vektorer og lineær regression Vektorer og lineær regression Peter Harremoës Niels Brock April 03 Planproduktet Vi har set, at man kan gange en vektor med et tal Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Kapitel 11 Lineær regression

Kapitel 11 Lineær regression Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),

Læs mere

Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode

Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode Man kan skifte mellem tekst- og matemamatikmode ved at trykke på F5. I øjeblikket er jeg i tekstmode.. 2. lektion.

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Statistik for Biokemikere Projekt

Statistik for Biokemikere Projekt Statistik for Biokemikere Projekt Institut for Matematiske Fag Inge Henningsen og Helle Sørensen Københavns Universitet November 2008 Formalia Dette projekt udgør en del af evalueringen i kurset Statistik

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

Potensfunktioner samt proportional og omvent proportional. for hf Karsten Juul

Potensfunktioner samt proportional og omvent proportional. for hf Karsten Juul Potensfunktioner samt proportional og omvent proportional for hf 2018 Karsten Juul Potensfunktion 1. Oplæg til forskrift for potensfunktion...1 2. Forskrift for potensfunktion...2 3. Udregn x eller y i

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Maple 11 - Chi-i-anden test

Maple 11 - Chi-i-anden test Maple 11 - Chi-i-anden test Erik Vestergaard 2014 Indledning I dette dokument skal vi se hvordan Maple kan bruges til at løse opgaver indenfor χ 2 tests: χ 2 - Goodness of fit test samt χ 2 -uafhængighedstest.

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst

Baggrundsnotat: Søskendes uddannelsesvalg og indkomst 17. december 2013 Baggrundsnotat: Søskendes uddannelsesvalg og indkomst Dette notat redegør for den økonometriske analyse af indkomstforskelle mellem personer med forskellige lange videregående uddannelser

Læs mere