Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Størrelse: px
Starte visningen fra side:

Download "Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF"

Transkript

1 Sammenligning af to måleserier En af de mest grundlæggende problemstillinger i statistik består i at undersøge om to forskellige måleserier er signifikant forskellige eller om forskellen på de to serier lige så godt kan tilskrives tilfældige variationer. Der findes selvfølgelig utallige simple eksperimenter, der giver anledning til en sådan sammenligning af måleserier, men her vil vi se på et simpelt eksperiment, der nemt kan udføres fra starten af 1g: Måling af reaktionstiden. Det sker som vist ved at man lader en lineal falde og derefter ser, hvor langt den falder, og dernæst bruger denne faldlængde til at udregne reaktionstiden. Det forudsætter altså lidt teori om faldloven: Ifølge Galileis faldlov, som er en af hjørnestenene i den moderne naturvidenskab, er sammenhængen mellem faldtiden t og faldlængden s givet ved formlen: 1 2 s = g t 2 hvor g er tyngdeaccelerationen, der varierer en lille smule fra sted til sted. Her vil vi ignorere de lokale variationer og bruge den såkaldte standardacceleration, der har værdien m/s 2. Vi kan derfor omsætte en faldlængde til en faldtid ved at isolere t i formlen: 2s t = g 1

2 Eleverne arbejder sammen to og to, hvor den ene skal slippe linealen uventet, mens den anden skal forsøge at stande linealen i dens fald så hurtigt som muligt. Derefter bytter de rolle. I hver runde har de netop 10 forsøg. Resultatet er altså en måleserie for hver af eleverne på netop 10 faldlængder, som omregnes til 10 reaktionstider. I det følgende benytter vi autentiske data fra to elever Janus og Vincent (mens billederne viser to andre elever i færd med at udføre eksperimentet!). Til selve databehandlingen kan vi benytte et hvilket som helst databehandlingsprogram. Her illustrerer vi udregningerne med DataMeter som er det databehandlingsprogram vi er gået over til at anvende på Haslev Gymnasium, hvor vi tidligere benyttede Excel. Vi opretter derfor en tabel med to variable, en for eleven og en for faldlængden, så man for hvert af eksperimenterne kan se, hvem der udførte det og hvad resultatet blev. Dernæst udregner vi faldtiderne, hvilket sker ved hjælp af Galileis faldlov. DataMeter har også indbygget alle de gængse naturkonstanter, så DataMeter kender godt standardtyngdeacceleration. Det giver anledning til den følgende tabel over navne, faldlængder og faldtider. Det er disse data vi vil diskutere i det følgende. Reaktionstid Elev enhed = Faldlængde centimeter Janus 14.5 cm Janus 11.0 cm Janus 10.0 cm Janus 5.5 cm Janus 8.5 cm Janus 16.0 cm Janus 6.0 cm Janus 15.2 cm Janus 10.0 cm Janus 5.7 cm Vincent 23.5 cm Vincent 26.0 cm Vincent 12.0 cm Vincent 10.5 cm Vincent 13.0 cm Vincent 10.4 cm Vincent 11.9 cm Vincent 14.0 cm Vincent 10.3 cm Vincent 12.0 cm 2

3 Reaktionstid Elev Faldlængde Faldtid enhed centimeter sekunder = Faldlængde g Janus 14.5 cm s Janus 11.0 cm s Janus 10.0 cm s Janus 5.5 cm s Janus 8.5 cm s Janus 16.0 cm s Janus 6.0 cm s Janus 15.2 cm s Janus 10.0 cm s Janus 5.7 cm s Vincent 23.5 cm s Vincent 26.0 cm s Vincent 12.0 cm s Vincent 10.5 cm s Vincent 13.0 cm s Vincent 10.4 cm s Vincent 11.9 cm s Vincent 14.0 cm s Vincent 10.3 cm s Vincent 12.0 cm s For at få en visuel fornemmelse for dataene trækker vi en graf ind i dokumentet og trækker dernæst den numeriske variabel Reaktionstid ind på førsteaksen og den kategoriserede variabel Elev ind på andenaksen. Allerede med prikdiagrammet får vi da en klar fornemmelse af forskellen på de to drenges reaktionsmønster: De har begge en stor variation i reaktionstiderne, men Vincent har mere samling på sine data med kun to reaktionstider, der halter lidt bagefter, mens Janus' reaktionstider falder i tre adskilte klumper. Samtidigt ser det ud som om Janus har en tendens til at være lidt hurtigere på aftrækkeren end Vincent. 3

4 Reaktionstid Prikdiagram Vincent Janus Faldtid (sekunder) Skifter vi til boksplot og afsætter middelværdien (Plot værdi) fås et tilsvarende mønster: Reaktionstid Boksplot Vincent Janus Faldtid (sekunder) middel ( ) = s Janus' reaktionstider er rimeligt symmetrisk fordelt med en forholdsvis stor kvartilbredde, mens Vincents data er højreskæve med to perifere værdier samt en betragtelig forskel på medianen og middelværdien. Det kunne også godt se ud som om Janus er hurtigere end Vincent: Faktisk ligger hele den nederste halvdel af måleserien for Janus under måleserien for Vincent. De ovenstående forhold er typiske for mange måleserier: De er ikke specielt stabile og rummer tit nogle kraftige skæverter, også i form af ekstremt små reaktionstider i de tilfælde, hvor det lykkes eleven at gætte sig til hvornår linealen slippes. Vi anbefaler derfor eleverne at de bruger den robuste median som et mål for den typiske reaktionstid! Trækker vi en beregningsboks ind i dokumentet kan vi nemt finde medianerne ved at trække variablene Faldtid og Elev ind i oversigtstabellen og efterfølgende rette i formlen, så den udregner medianen. I dette tilfælde opnår de to elever altså følgende typiske reaktionstider: 4

5 Reaktionstid Elev Janus Vincent Søjle total R1 = median ( ) Faldtid s s s På basis af denne foreløbige numeriske og grafiske analyse af dataene (en såkaldt Explorative Data Analysis) synes konklusionen altså at være: Janus er hurtigere end Vincent. Men det er selvfølgelig en konklusion Vincent ikke kan være helt tilfreds med, så vi vil give ham lov til at udfordre den i en statistisk test! Er Janus så virkeligt hurtigere end Vincent? Vi har set at Janus har en median, der ligger under Vincents median, og at mange af Janus reaktionstider ligger under Vincents reaktionstider. På den anden side er der kun 10 observationer fra hver, så hvor overbevisende er Janus sejr egentlig? Kunne den ikke lige så godt tilskrives tilfældigheder? Det vil vi nu udføre en statistisk test på og for bedre at kunne leve sig ind i argumentationen vil vi benytte en meget udbredt metafor for en sådan statistisk test i form af en retssag: Sagen Janus versus Vincent De får hver lov til at fremlægge deres påstand: Janus: Jeg har vundet fordi jeg er den bedste! Jeg vinder med overvældende sandsynlighed også næste gang! Vincent: Du har alene vundet fordi du er heldig! Næste gang kan det lige så godt være mig, der vinder! Teknisk bemærkning: Kernen i enhver statistisk test er en undersøgelse af om en observeret forskel skyldes systematiske variationer i data eller tilfældige variationer i data. De to påstande knyttet til den statistiske test kaldes hypoteser: Påstanden om at forskellen skyldes tilfældige variationer i data kaldes nulhypotesen H 0. Den udsiger altså at der ingen systematisk forskel er på de to måleserier, dvs. den systematiske forskellen er nul. Påstanden om at forskellen skyldes systematiske variationer i data kaldes den alternative hypotese H a. Strengt taget skal disse hypoteser foreligge før målingerne udføres. Man må altså forestille sig at Janus kigger Vincent dybt i øjnene og siger: "Jeg er bare hurtigere end dig" og at Vincent efterfølgende udfordrer ham på en reaktionstest for at få sat påstanden fra Janus på prøve. Det er så resultaterne fra denne test, der skal afgøre om Janus kan opretholde sin påstand. 5

6 Spørgsmålet er nu hvordan vi kan finde en rimelig afgørelse på tvisten? Vi må altså blive enige om nogle spilleregler. Der findes nu forskellige strategier for hvordan man udfører detaljerne i testen, men det er de samme overordnede rammer man anvender i de forskellige typer test. I alle tilfælde går man ud fra Vincents påstand om at der i virkeligheden ikke er nogen forskel og at de observerede forskelle alene skyldes tilfældigheder (den såkaldte nulhypotese) og antager altså midlertidigt at han har ret: Retten bygger sin dom på en analyse af den følgende midlertidige antagelse: Det er alene tilfældigheder, der har afgjort konkurrencen mellem de to. Både Janus og Vincent forpligter sig naturligvis på dette udgangspunkt. Dernæst vælges en teststørrelse: Hvorfor mener Janus han er bedre end Vincent. Det kan han have mange gode grunde til, men han er nødt til at vælge en af dem for at gennemføre testen. Janus kan så fx sige: Jeg er bedre end Vincent, fordi jeg har en bedre median. Vi vedtager altså at testen skal gå på medianforskellen. Igen må begge siderne altså forpligte sig på at lade retten basere sin afgørelse på en analyse af denne teststørrelse. Hvis det alene var tilfældet som rådede, ville man forvente en medianforskel på 0 s : Det ville være lige så sandsynligt at Janus vandt som at Vincent vandt. I den faktiske konkurrence finder man nu en medianforskel på s, dvs. så meget hurtigere er Janus i forhold til Vincent målt på medianen: Reaktionstid s R1 = median ( Faldtid; Elev = "Janus") median ( Faldtid; Elev = "Vincent" ) Janus fastholder nu, at denne forskel virker meget stor, og derfor svær at opnå ved alene at lade tilfældet råde, mens Vincent fastholder, at den virker meget lille, og derfor er nem at forklare alene ved tilfældighedernes spil. I retten udregner man nu sandsynligheden for at konkurrencen kunne ende så skævt, som den faktisk gjorde: Hvis denne sandsynlighed er meget stor, står Vincent stærkt: Hvis man alene lader tilfældet råde vil det være nemt at få et udfald som det faktisk observerede. Hvis denne sandsynlighed derimod er meget lille, står Vincent dårligt: Der skal da nærmest et mirakel til for at få et så ekstremet udfald blot ved at lade tilfældet råde. Problemet er selvfølgelig, hvor grænserne ligger for en klar afgørelse. Også disse grænser bør aftales på forhånd! Der er da tradition for at man fastlægger et kritisk niveau. Det kan fx være på 1%. Hvis sandsynligheden er under 1% vil man altså højst kunne opnå et så skævt resultat i 1 ud af 100 konkurrencer, hvis det alene var tilfældet. Det svækker Vincent betydeligt, for det gør det højst usandsynligt at de skulle få et så skævt resultat, når de kun prøvede kræfter den ene gang. Igen skal de to kombattanter forpligte sig på det kritiske niveau og respektere rettens afgørelse: 6

7 Aftalen: Hvis sandsynligheden for, at det kan ende så skævt som det rent faktisk gjorde når vi lader tilfældighederne råde, er under 1% vinder Janus retssagen. I modsat fald vinder Vincent retssagen. Tilbage er så blot spørgsmålet om hvordan vi finder sandsynligheden! Det kan gøres på to væsentligt forskellige metoder: Ved en rent teoretisk beregning af teststørrelsens fordeling. Ved en rent eksperimentel undersøgelse af teststørrelsens fordeling. Bemærkning: Det er den teoretiske analyse af testsandsynligheden, der er meget krævende. Udover et stort matematisk apparat afhænger den meget af en lang række detaljer såsom kendskab til den teoretiske fordeling af reaktionstiderne hos de to kombattanter og det specifikke valg af teststørrelse. I praksis afgør man derfor sådanne tvistigheder ved hjælp af en række kanoniske tests, der på forhånd er undersøgt teoretisk i alle detaljer, hvorfor man kan nøjes med at checke om forudsætningen for teorien er opfyldt og derefter slå sandsynligheden op i en tabel eller udregne den via et program. I vores konkurrence, ville man således traditionelt anvende et t-test. Det forudsætter at 1. reaktionstiderne er normalfordelte (herunder symmetriske), hvad vi allerede har set de ikke er! 2. spredningerne er de samme, hvad vi også har set de ikke er! 3. vi vælger forskellen i middelværdi som teststørrelse, hvad vi netop ikke har gjort! Hvis vi skulle basere rettens afgørelse på en teoretisk funderet kanonisk test ville vi altså være ilde stedt! Vi vælger derfor den anden mulighed og gennemfører rettens analyse ud fra en eksperimentel undersøgelse af teststørrelsens fordeling. Vi kommer da til at træffe endnu et valg: Hvor præcist vil vi kende fordelingen? Hvis den kritiske sandsynlighed er 1% skal vi i praksis kende fordelingen med en nøjagtighed på nogle få promille. Det må vi altså tage højde for i det følgende! Tilbage står så blot at simulere udfaldene af eksperimentet på tilfældig vis. Det kan gøres på forskellige måder, men her benytter vi følgende synsvinkel: Hvis Vincent har ret er det i virkeligheden rent tilfældigt hvordan de fremkomne reaktionstider er fordelt på de to kombattanter. Vi kan derfor simulere de tilfældige udfald af eksperimentet ved at rører rundt i variablene i datasættet, dvs. vi gennemfører en tilfældig permutation af navnene og bryder dermed enhver sammenhæng mellem personer og reaktionstider. I så fald vil vi få et datasæt, hvor forskellen mellem de to personer med garanti kan tilskrives tilfældigheder. Spørgsmålet er så i hvor høj grad det omrørte datasæt ligner det originale datasæt. Hvis de ligner hinanden meget taler det for også at opfatte forskellene mellem de to personer i det originale datasæt som værende fremkommet ved tilfældigheder. Hvis de derimod overhovedet ikke ligner hinanden taler det for at opfatte forskellen mellem de to personer i det originale datasæt som en reel systematisk forskel, dvs. at Janus reelt synes at være hurtigere end Vincent. 7

8 Retten er sat! Omrøring i hånden: Inden vi gennemfører omrøringen med DataMeter vil vi lige påpege at det er nemt at udføre omrøringen i hånden. Det kan derfor være en god ide at gennemføre en omrøring med klassen i hånden så de kan derved bedre kan fange ideen. Hver elev får da to sæt kort af ti kort med hver sin farve, fx blå og gul, og tildeler Janus 10 blå kort og Vincent 10 gule kort. Reaktionstiderne for Janus skrives op på de blå kort, mens reaktionstiderne for Vincent skrives op på de gule kort. Derefter blandes kortene rigtig godt og grundigt og de tyve kort fordeles nu på Janus og Vincent på en systematisk måde, fx de ti første kort til Janus og de ti sidste kort til Vincent. Eleverne har da netop fået omrørt observationerne godt og grundigt og derved sikret at Janus i det omrørte datasæt får en tilfældig blanding af blå og gule kort og tilsvarende med Vincent. Eleverne lægger nu de ti omrørte kort for Janus op i rækkefølge efter stigende reaktionstid og noterer hans median i det omrørte sæt. Tilsvarende gøres for Vincent. Til sidst finder eleverne forskellen mellem medianerne for reaktionstiderne for Janus og Vincent. Det er her tydeligvis en fordel at vi arbejder med medianen og ikke fx middelværdien, da vi så stort set slipper for at foretage manuelle udregninger. Der kan højst blive tale om gennemsnittet af to tal! Med en klasse på fx 25 har vi altså nu 25 forskellige målinger af forskellen i medianerne i de scramblede datasæt. Gentages det nogle gange kan man rimeligt hurtigt opbygge en samling på 100 målinger af forskellen mellem medianerne i de omrørte datasæt. Disse medianforskelle kan løbende indtastes i et datasæt, så man hurtigt kan få frembragt et billede af deres fordeling og supplere med de nødvendige udregninger. Det gør det muligt at se hvor typisk forskellen i det originale datasæt er, idet man kan se om den ligger midt inde i klumpen af de omrørte forskelle, eller tværtimod langt ude i enderne. Derved kan man finde sandsynligheden for at frembringe den observerede forskel ved et rent tilfælde. Hvis denne sandsynlighed er endog meget lav tyder det på at forskellen på Janus og Vincent er reel. Ellers kan vi lige så godt forklare den ved tilfældigheder! For at udføre en enkelt omrøring højreklikker vi på datasættet for Reaktionstider og vælger Rør rundt i en variabel fra menuen (eller det tilsvarende menupunkt på Datasæt-menuen). Der dukker da et nyt afledet datasæt på skærmen med navnet Omrøring af Reaktionstid som vi kan inspicere ved at dobbeltklikke på det. Som det sidste faneblad finder vi Omrøring. Her kan vi vælge hvilken variabel vi vil omrøre. I dette tilfælde er der tre variable: Elev, Faldlængde og Faldtid. Som udgangspunkt røres der rundt i den første variabel. Det passer fint her, fordi vi så rører rundt i den kategoriserede variabel, dvs. navnet. Men da man kun kan røre rundt i uafhængige variable skal man huske at klippe formlen for Faldtid først! Ellers går der kludder i enhederne. 8

9 Vi skal nu have oprettet en måling af forskellen i medianer i det omrørte datasæt (hvis vi da ikke på forhånd har indført målingen i det oprindelige datasæt og dermed trukket den med over i det omrørte datasæt). Det sker ved at åbne fanebladet for målinger og så indskrive formlen (eller kopiere den og indsætte den, hvis den allerede er indført i en beregningsboks) Vi kan nu se hvordan eksperimentet opfører sig, når vi gentager omrøringen. Visuelt kan man fx se på hvordan boksplottene for de to kombattanter opfører sig når vi gentager omrøringen: Omrøring af Reaktionstid Boksplot Omrøring af Reaktionstid Boksplot Vincent Vincent Janus Janus Faldtid (sekunder) Faldtid (sekunder) Vi ser da at det sommetider er Janus, der vinder, og sommetider er det Vincent, der vinder. Og i snit vinder de selvfølgelig ca. lige mange gange hver i den omrørte version, fordi det nu netop kun er tilfældighedernes spil, der råder. Men det interessante er så med hvor meget de vinder, dvs. hvor stor forskellen bliver mellem medianerne. Vi foretager derfor en gentagen måling på det omrørte datasæt ved at højreklikke og vælge menupunktet Udfør gentagne målinger. Der oprettes da et nyt afledet datasæt med de gentagne målinger og på det sidste faneblad i den tilhørende datainspektør kan vi sætte betingelserne for den gentagne måling: 9

10 Her har vi slået animationen fra (som er tidsrøvende idet alle andre grafer osv. hele tiden skal opdateres løbende mens målingerne gentages). Tilsvarende har vi slået Erstat de eksisterende målinger til, så vi starter forfra på målingerne. Derved bliver det nemmere at holde styr på det samlede antal målinger. Endelig har vi sat antallet af målinger til 1000, hvilket er mange, men det giver en rimelig høj sikkerhed for at præcist billede af fordelingen: Målinger fra Omrøring af Reaktionstid Prikplot Medianforskel (sekunder) s = s Som det ses af prikdiagrammet er fordelingen for medianforskellene grynet. Det er karakteristisk for fordelinger, der involverer medianer: Der er kun et forholdsvis lille antal mulige medianer, og dermed også kun et overskueligt antal medianforskelle. 10

11 Endvidere kan vi også se at den observerede medianforskel på s slet ikke er så usædvanlig endda. Vi kan nu nemt finde ud af hvilken sandsynlighed den observerede medianforskel svarer til, dvs. hvor mange observationer der går forud for den observerede forskel. Det kan fx ske ved at tælle kugler i det tilhørende Prikdiagram eller ved hjælp af en formel i en Beregningsboks. Målinger fra Omrøring af Reaktionstid 103 R1 = tæl ( Medianforskel s ) Vi finder altså at 103 af kuglerne ligger mindst lige så langt ude, dvs. i ca. 1/10 af tilfældene vil vi kunne frembringe en forskel, der er mindst lige så stor. Det tyder på at vi forholdsvis nemt kan forklare den observerede forskel som et resultat af tilfældigheder, så mere overbevisende er Janus sejr altså heller ikke! Vi konkluderer derfor at det blev Vincent, der har vundet retssagen: Janus har ikke kunnet overbevise retten om at han reelt er bedre end Vincent. Til slut vil vi lige kort se på hvad der sker, hvis vi i stedet for at sammenligne medianer benytter den indbyggede standardtest til at sammenligne middelværdier. Vi trækker derfor Test-værktøjet ned og vælger testet for sammenligning af to middelværdier: Test af to middelværdier Stikprøveresultater Første variabel (numerisk): Ikke tildelt Anden variabel (numerisk eller kategoriseret): Ikke tildelt Stikprøvens størrelse for Første variabel : 20 Stikprøvens størrelse for Anden variabel : 20 Stikprøvens middelværdi for Første variabel : 100 Stikprøvens middelværdi for Anden variabel : 110 Standardafvigelsen for Første variabel : 10 Standardafvigelsen for Anden variabel : 15 Standardfejlen for middelværdien af Første variabel : Standardfejlen for middelværdien af Anden variabel : Alternativ hypotese: Populationsmiddelværdien af Første variabel er forskellig fra den fra Anden variabel Teststørrelsen, Student's t, på grundlag af ukombinerede varianser, er Der er frihedsgrader. Hvis det var sandt at populationsmiddelværdien af Første variabel var den samme som den fra Anden variabel (nulhypotesen), og vi gentog stikprøven mange gange, ville sandsynligheden for at få en værdi for Student's t der var med en numerisk værdi, der er mindst lige så stor være Vi får da en skabelon for testen, hvor vi skal indsætte forskellige oplysninger markeret med blå skrift. Hvis vi som her har de rå data til rådighed kan vi simpelthen trække de to relevante variable ind i skemaet. Ellers må vi selv indskrive nøgletallene: stikprøveantal, stikprøvemiddelværdier samt standardafvigelser. Disse nøgletal kunne fx være oplyst i en opgavetekst. 11

12 Men her trækker vi de to variable ind. Første variabel er numerisk og giver direkte anledning til middelværdierne. Det er altså variablen Faldtid. Anden variabel er kategorisk med to forskellige værdier, som splitter den første variabel i to kategorier, her Elev. Test af to middelværdier Test fra Reaktionstid Første variabel (numerisk): Faldtid Anden variabel (numerisk eller kategoriseret): Elev Stikprøveantal fra Elev = Janus: 10 Stikprøveantal fra Elev = Vincent: 10 Stikprøvemiddelværdi fra Faldtid når Elev = Janus: s Stikprøvemiddelværdi fra Faldtid når Elev = Vincent: s Standardafvigelse af Faldtid når Elev = Janus: s Standardafvigelse af Faldtid når Elev = Vincent: s Standardfejl af Faldtid når Elev = Janus: s Standardfejl af Faldtid når Elev = Vincent: s Alternativ hypotese: Populationsmiddelværdien for Faldtid når Elev = Janus er forskellig fra den som opfylder Elev = Vincent Teststørrelsen, Student's t, på grundlag af ukombinerede varianser, er Der er frihedsgrader. Hvis det var sandt at populationsmiddelværdien af Faldtid når Elev = Janus var den samme som den fra Faldtid når Elev = Vincent (nulhypotesen), og vi gentog stikprøven mange gange, ville sandsynligheden for at få en værdi for Student's t med en numerisk værdi, der er mindst lige så stor være Det giver anledning til den viste udfyldning af skemaet. Men her har vi stadigvæk mulighed for at justere den alternative hypotese (mens nulhypotesen ligger fast: De to middelværdier er ens og enhver observeret forskel skyldes tilfældige variationer). I vores tilfælde var den alternative hypotese at Janus er hurtigere end Vincent og dermed har en mindre middelværdi: Teknisk bemærkning: Endelig er der en lidt kryptisk bemærkning om at teststørrelsen er beregnet på grundlag af ukombinerede varianser. Forudsætningen for at udføre et kanonisk test er at de to måleserier har samme varians, og at denne fælles værdi derfor kan beregnes ved at samle de to måleserier til en lang måleserie. Men man kunne også give et skøn over den fælles varians ved at kombinere de to stikprøvevarianser. Det endelige resultat fra testværktøjet giver en testsandsynlighed på 2.9%, så heller ikke her er Janus alt for overbevisende! Vi ligger dog og roder nede i nærheden af 1%, så denne gang ville vi konkludere at testet var niveaufølsomt (og afgørelsen derfor ikke helt klar til fordel for en af hypoteserne). 12

13 Test fra Reaktionstid Test af to middelværdier Første variabel (numerisk): Faldtid Anden variabel (numerisk eller kategoriseret): Elev Stikprøveantal fra Elev = Janus: 10 Stikprøveantal fra Elev = Vincent: 10 Stikprøvemiddelværdi fra Faldtid når Elev = Janus: s Stikprøvemiddelværdi fra Faldtid når Elev = Vincent: s Standardafvigelse af Faldtid når Elev = Janus: s Standardafvigelse af Faldtid når Elev = Vincent: s Standardfejl af Faldtid når Elev = Janus: s Standardfejl af Faldtid når Elev = Vincent: s Alternativ hypotese: Populationsmiddelværdien for Faldtid når Elev = Janus er mindre end den som opfylder Elev = Vincent Teststørrelsen, Student's t, på grundlag af ukombinerede varianser, er Der er frihedsgrader. Hvis det var sandt at populationsmiddelværdien af Faldtid når Elev = Janus var den samme som den fra Faldtid når Elev = Vincent (nulhypotesen), og vi gentog stikprøven mange gange, ville sandsynligheden for at få en værdi for Student's t mindst lige så lille være Igen kunne vi have tilføjet middelforskellen som en måling og lave 1000 gentagne målinger af middelforskellen og derved eksperimentelt fastslå sandsynligheden for at få et resultat, der er mindst lige så skævt som den observerede middelforskel på s. Ved en prøvekørsel fandt jeg da også 1.9% i rimelig overensstemmelse med p-værdien på 2.9% fra den officielle t-test. Målinger fra Omrøring af Reaktionstid Prikdiagram Middelforskel (sekunder) s = s 13

14 Reaktionstider for en hel årgang Nu har vi længe nok vadet grundigt rundt i et opgør mellem to elever. Vi slutter med at se på den typiske fordeling af reaktionstiderne for en større population, fx fra en bestemt årgang. Her ses fx resultaterne fra den lille årgang 2003 på Haslev Gymnasium. Der er også medtaget en enkelt lærer (mig selv!) for at få det til at gå op med et lige antal: Reaktionstider fra en hel årgang Elev Klasse Reaktionstid Køn enhed sekunder = bx s p 38 1bx s d 39 1bx s d 40 1a s p 41 1a s p 42 1y 0.11 s d 43 1z s p 44 1z s p 45 1bx s p 46 1bx s p 47 1z s d 48 1z s d 49 1a s p 50 1a s p 51 1bx 0.16 s p 52 1bx s p 53 1a s d 54 Lærer 0.15 s d For at danne os et overblik over datasættet tegner vi forskellige grafer over fordelingen, der på mange måder viser det samme fra lidt forskellige synsvinkler: Et prikdiagram, et histogram, et boksplot og et normalfordelingsplot. På alle graferne har vi tilføjet middelværdien og på prikdiagrammet og normalfordelingsplottene har vi ydermere tilføjet grænserne for normalområdet, dvs. middelværdien ± 2 standardafvigelser. Det fremgår af graferne at fordelingen er trukket lidt højreskæv af en enkelt perifer værdi, samt at middelværdien er s og at alle observationerne bortset fra den hurtigste og den langsomste ligger i normalområdet. Der er altså kun to observationer der skiller sig ud. Fordelingen kan også med rimelighed beskrives ved en normalfordeling med middelværdi s og spredning s. 14

15 Reaktionstider fra en hel årgang Prikdiagram Reaktionstider fra en hel årgang Boksplot Reaktionstid (sekunder) middel ( ) = s middel ( ) 2 s ( ) = s middel ( ) + 2 s ( ) = s Reaktionstid (sekunder) middel ( ) = s Reaktionstider fra en hel årgang Histogram Reaktionstid (sekunder) middel ( ) = s Reaktionstider fra en hel årgang Normalfraktil Reaktionstid = Normalfraktil Normalfraktil = 2 Normalfraktil = 2 Normalplot Er det så hvad man ville forvente for en undersøgelse af reaktionstider? For at besvare dette spørgsmål må vi kende lidt til mere omfattende undersøgelser af reaktionstider. Sådanne undersøgelser ligger bl.a. til grund for nogle simple maskiner, der tidligere blev brugt til at måle reaktionstiden. Her er vist et billede af en hollandsk maskine, men tilsvarende maskiner har også tidligere været stillet op i Danmark. Maskinen fungerer ved at man skubber en mønt ind, som på et tilfældigt tidspunkt efterfølgende falder frit. Ved at trykke på en tast kan man stoppe faldet og aflæse på skalaen, hvor lang tid man har brugt og hvor hurtig man har været. Af det tilhørende skema fremgår at en normal reaktionstid går fra 0.13 s til 0.17 s med en midterværdi på 0.15 s. Det passer fint med en observeret middelværdi på s. Vores observerede normalområde, der går fra 0.10 s til 0.20 s passer også pænt med de afgrænsende områder SNEL og ZER SNEL (der rækker ned til 0.09 s) på den ene side og LANGZAAM (der rækker helt op til 0.21 s) på den anden side. Vi har ingen elever, der er BLIKSEMSNEL og kun en enkelt der er GERING. 15

16 Når man har en hel årgang til rådighed kan man også sammenligne fx drenge og piger. Vi trækker derfor variablen Køn ind på andenaksen i et boksplot: Reaktionstider fra en hel årgang Boksplot p d Reaktionstid (sekunder) middel ( ) = s 16

17 Vi ser da at drengenes fordeling er pænt symmetrisk, mens pigernes trækkes skævt af den perifere langsomme pige. Vi ser også at drengene tilsyneladende i middel er lidt hurtigere end pigerne ligesom pigernes fordeling falder i to tydelige halvdele. Men fjerner vi den hurtigste dreng og den langsomste pige fx ved at sætte et passende filter på er forskellen knap så markant (om end pigernes fordeling stadigvæk er trukket lidt skæv til højre): Reaktionstider fra en hel årgang Boksplot p d Reaktionstid (sekunder) middel ( ) = s ( Reaktionstid > 0.10s ) og ( Reaktionstid < 0.20s Som i eksemplet med Janus og Vincent kan vi teste om forskellen er signifikant. Her nøjes vi med at se på udfaldet af en kanonisk t-test med tilhørende grafisk fremstilling af testfordelingen: Test af to middelværdier Test fra Reaktionstider fra en hel årgang Første variabel (numerisk): Reaktionstid Anden variabel (numerisk eller kategoriseret): Køn Stikprøveantal fra Køn = d: 21 Stikprøveantal fra Køn = p: 33 Stikprøvemiddelværdi fra Reaktionstid når Køn = d: s Stikprøvemiddelværdi fra Reaktionstid når Køn = p: s Standardafvigelse af Reaktionstid når Køn = d: s Standardafvigelse af Reaktionstid når Køn = p: s Standardfejl af Reaktionstid når Køn = d: s Standardfejl af Reaktionstid når Køn = p: s Alternativ hypotese: Populationsmiddelværdien for Reaktionstid når Køn = d er forskellig fra den som opfylder Køn = p Teststørrelsen, Student's t, på grundlag af ukombinerede varianser, er Der er frihedsgrader. Hvis det var sandt at populationsmiddelværdien af Reaktionstid når Køn = d var den samme som den fra Reaktionstid når Køn = p (nulhypotesen), og vi gentog stikprøven mange gange, ville sandsynligheden for at få en værdi for Student's t med en numerisk værdi, der er mindst lige så stor være 0.1. Test fra Reaktionstider fra Funktionsgraf en hel år Student's t y = ttæthed ( x ; frihedsgrader) Der synes altså ikke at være signifikant forskel på drengenes og pigernes reaktionstider (målt på middelværdierne af de to stikprøver). 17

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF Tusind kugler Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF I en nyligt udkommen ungdomsroman om en ung svensk gymnasiepiges fortrædeligheder bruges et kuglespil ('galtonbræt') som en

Læs mere

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet Projekt 1 Spørgeskemaanalyse af Bedst på Nettet D.29/2 2012 Udarbejdet af: Katrine Ahle Warming Nielsen Jannie Jeppesen Schmøde Sara Lorenzen A) Kritik af spørgeskema Set ud fra en kritisk vinkel af spørgeskemaet

Læs mere

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab

Læs mere

for gymnasiet og hf 2017 Karsten Juul

for gymnasiet og hf 2017 Karsten Juul for gymnasiet og hf 75 50 5 017 Karsten Juul Statistik for gymnasiet og hf 017 Karsten Juul 5/11-017 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm Hæftet må benyttes i undervisningen

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Projekt 6.1 Rygtespredning - modellering af logistisk vækst

Projekt 6.1 Rygtespredning - modellering af logistisk vækst Projekt 6.1 Rygtespredning - modellering af logistisk vækst (Projektet anvender værktøjsprogrammet TI Nspire) Alle de tilstedeværende i klassen tildeles et nummer, så med 28 elever i klassen uddeles numrene

Læs mere

Et historisk eksempel i statistik: Bjørn Felsager, Haslev Gymnasium & HF

Et historisk eksempel i statistik: Bjørn Felsager, Haslev Gymnasium & HF Challenger ulykken 1 Challenger ulykken er en af den nyere tids mest spektakulære teknologiske ulykker: Den 28. januar 1986 forulykkede rumfærgen Challenger kort efter starten på opsendelsen. Tragedien

Læs mere

Et historisk eksempel i statistik: Bjørn Felsager, Haslev Gymnasium & HF

Et historisk eksempel i statistik: Bjørn Felsager, Haslev Gymnasium & HF Challenger ulykken 1 Challenger ulykken er en af den nyere tids mest spektakulære teknologiske ulykker: Den 28. januar 1986 forulykkede rumfærgen Challenger kort efter starten på opsendelsen. Tragedien

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

I. Deskriptiv analyse af kroppens proportioner

I. Deskriptiv analyse af kroppens proportioner Projektet er delt i to, og man kan vælge kun at gennemføre den ene del. Man kan vælge selv at frembringe data, fx gennem et samarbejde med idræt eller biologi, eller man kan anvende de foreliggende data,

Læs mere

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14 Module 5: Exercises 5.1 ph i blod.......................... 1 5.2 Medikamenters effektivitet............... 2 5.3 Reaktionstid........................ 3 5.4 Alkohol i blodet...................... 3 5.5

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) Projekt 2.4 Menneskets proportioner (Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) I. Deskriptiv analyse

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave]

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave] Statistik med TI-Nspire CAS version 3.2 Bjørn Felsager September 2012 [Fjerde udgave] Indholdsfortegnelse Forord Beskrivende statistik 1 Grundlæggende TI-Nspire CAS-teknikker... 4 1.2 Lister og regneark...

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi

Læs mere

Rygtespredning: Et logistisk eksperiment

Rygtespredning: Et logistisk eksperiment Rygtespredning: Et logistisk eksperiment For at det nu ikke skal ende i en omgang teoretisk tørsvømning er det vist på tide vi kigger på et konkret logistisk eksperiment. Der er selvfølgelig flere muligheder,

Læs mere

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Baggrund: I de senere år har en del gymnasieskoler eksperimenteret med HOT-programmet i matematik og fysik, hvor HOT står for Higher

Læs mere

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012 MATEMATIK A-NIVEAU Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012 Kapitel 4 Statistik & sandsynlighedsregning 2016 MATEMATIK A-NIVEAU Vejledende eksempler på eksamensopgaver

Læs mere

Analyse af en lineær regression med lav R 2 -værdi

Analyse af en lineær regression med lav R 2 -værdi Analyse af en lineær regression med lav R 2 -værdi Denne gennemgang omhandler figur 13 i Regn med biologi. Man kan sagtens lave beregninger på egne data. Forsøgsmæssigt kræver det bare en tommestok tapet

Læs mere

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Kapitel 8 Chi-i-anden (χ 2 ) prøven Kapitel 8 Chi-i-anden (χ 2 ) prøven Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 19 Indledning Forskelle mellem stikprøver undersøges med z-test eller t-test for data målt på

Læs mere

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau... Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Deskriptiv statistik for matc i stx og hf

Deskriptiv statistik for matc i stx og hf Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF

Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF Vi ønskede at planlægge og afprøve et undervisningsforløb, hvor anvendelse af

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Dig og din puls Lærervejleding

Dig og din puls Lærervejleding Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet

Læs mere

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014 Vejledning til udvalgte opgave fra Matematik B, sommer 2014 Opgave 7 Størrelsen og udbudsprisen på 100 fritidshuse på Rømø er indsamlet via boligsiden.dk. a) Grafisk præsentation, der beskriver fordelingen

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

s ( Tid_Lektier; Hypotese: Gælder dette for alle unge tyskere? Vi deler op i to hypoteser H_0 og H_1.

s ( Tid_Lektier; Hypotese: Gælder dette for alle unge tyskere? Vi deler op i to hypoteser H_0 og H_1. Fritid delstat Tyskland Køn Alder Højde Vægt BMI Tid_TV Tid_Musik Tid_Comp Tid_Sport Tid_Lekt... Tid_Job Fritid delstat Tyskland 1 maennlich 17 1,88 70 19,8053 10 2 4 2 3 2 weiblich 14 0 35 0 4 3 weiblich

Læs mere

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2. C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b. 5.000 4.800 4.600 4.400 4.00 4.000 3.800 3.600 3.400 3.00 3.000 1.19% 14.9% 7.38% 40.48% 53.57% 66.67% 79.76% 9.86% 010 011

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Opgaver til kapitel 3

Opgaver til kapitel 3 Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM FORMÅL - BEKENDTGØRELSEN STX MATEMATIK A Kompetencer anvende simple statistiske eller sandsynlighedsteoretiske modeller

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Taldata 1. Chancer gennem eksperimenter

Taldata 1. Chancer gennem eksperimenter Taldata 1. Chancer gennem eksperimenter Indhold 1. Kast med to terninger 2. Et pindediagram 3. Sumtabel 4. Median og kvartiler 5. Et trappediagram 6. Gennemsnit 7. En statistik 8. Anvendelse af edb 9.

Læs mere

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008 Den eksperimentelle metode i statistik Den naturvidenskabelige metode er i fokus efter gymnasiereformen. Det starter med naturvidenskabeligt grundforløb: Aktivitetsmappe for introkurset til Naturvidenskabeligt

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

Hvad er meningen? Et forløb om opinionsundersøgelser

Hvad er meningen? Et forløb om opinionsundersøgelser Hvad er meningen? Et forløb om opinionsundersøgelser Jette Rygaard Poulsen, Frederikshavn Gymnasium og HF-kursus Hans Vestergaard, Frederikshavn Gymnasium og HF-kursus Søren Lundbye-Christensen, AAU 17-10-2004

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Afsnit 8.3 - E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Først skal normalfordelingen lige defineres i Maple, så vi kan benytte den i vores udregninger. Dette gøres

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Kvadratisk regression

Kvadratisk regression Kvadratisk regression Helle Sørensen Institut for Matematiske Fag Københavns Universitet Juli 2011 I kapitlet om lineær regression blev det vist hvordan man kan modellere en lineær sammenhæng mellem to

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model). Hypotesetests, fejltyper og p-værdier og er den nu også det? Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet (updated: 2019-03-17) 1 / 40 Statistisk test Et statistisk test er en konfrontation

Læs mere

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05 Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS INDHOLD 2 Formål 2 LOPAKS 3 Begreber 6 Eksempler 6. december 2010 LOPAKS er nu udvidet med en ny tabel, der giver mulighed for at opgøre lønspredning på

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Fig. 1 Billede af de 60 terninger på mit skrivebord

Fig. 1 Billede af de 60 terninger på mit skrivebord Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt

Læs mere

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

for matematik pä B-niveau i hf

for matematik pä B-niveau i hf for matematik pä B-niveau i hf 014 Karsten Juul TEST 1 StikprÅver... 1 1.1 Hvad er populationen?... 1 1. Hvad er stikpråven?... 1 1.3 Systematiske fejl ved valg af stikpråven.... 1 1.4 TilfÇldige fejl

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008 Den eksperimentelle metode i statistik Den naturvidenskabelige metode er i fokus efter gymnasiereformen. Det starter med naturvidenskabeligt grundforløb: Aktivitetsmappe for introkurset til Naturvidenskabeligt

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary 1 Kontingenstabeller Betinget fordeling Uafhængighed 2 Chi-kvadrat test for uafhængighed Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Læs mere

Eksempel på logistisk vækst med TI-Nspire CAS

Eksempel på logistisk vækst med TI-Nspire CAS Eksempel på logistisk vækst med TI-Nspire CAS Tabellen herunder viser udviklingen af USA's befolkning fra 1850-1910 hvor befolkningstallet er angivet i millioner: Vi har tidligere redegjort for at antallet

Læs mere

Statistik (deskriptiv)

Statistik (deskriptiv) Statistik (deskriptiv) Ikke-grupperede data For at behandle ikke-grupperede data i TI, skal data tastes ind i en liste. Dette kan gøres ved brug af List, hvis ikon er nr. 5 fra venstre på værktøjsbjælken

Læs mere

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium Man kan nemt lave χ 2 -test i GeoGebra både goodness-of-fit-test og uafhængighedstest. Den følgende vejledning bygger på GeoGebra version

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Stastistik og Databehandling på en TI-83

Stastistik og Databehandling på en TI-83 Stastistik og Databehandling på en TI-83 Af Jonas L. Jensen (jonas@imf.au.dk). 1 Fordelingsfunktioner Husk på, at en fordelingsfunktion for en stokastisk variabel X er funktionen F X (t) = P (X t) og at

Læs mere

Excel tutorial om lineær regression

Excel tutorial om lineær regression Excel tutorial om lineær regression I denne tutorial skal du lære at foretage lineær regression i Microsoft Excel 2007. Det forudsættes, at læseren har været igennem det indledende om lineære funktioner.

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve

Læs mere

Nanostatistik: Opgaver

Nanostatistik: Opgaver Nanostatistik: Opgaver Jens Ledet Jensen, 19/01/05 Opgaver 1 Opgaver fra Indblik i Statistik 5 Eksamensopgaver fra tidligere år 11 i ii NANOSTATISTIK: OPGAVER Opgaver Opgave 1 God opgaveskik: Når I regner

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Dig og din puls. 17-10-2004 Dig og din puls Side 1 af 17

Dig og din puls. 17-10-2004 Dig og din puls Side 1 af 17 Dig og din puls Jette Rygaard Poulsen, Frederikshavn Gymnasium og HF-kursus Hans Vestergaard, Frederikshavn Gymnasium og HF-kursus Søren Lundbye-Christensen, AAU 17-10-2004 Dig og din puls Side 1 af 17

Læs mere