Bjørn Felsager Seks guidede ture med DataMeter
|
|
|
- Bodil Carstensen
- 10 år siden
- Visninger:
Transkript
1 Bjørn Felsager Seks guidede ture med DataMeter DataMeter 1_0 September 2005
2
3 Seks guidede ture med DataMeter Indholdsfortegnelse Forord Eksempel 1: Kasseproblemet side 1 1. Problembeskrivelsen side 1 2. Tabelværktøjet side 1 3. Grafværktøjet side 6 4. Parameterværktøjet side Afsluttende bemærkning om inspektørerne side Datasættet side 16 Eksempel 2: Some like it hot Tilfældige rektangler side 17 HOT: Higher Order Thinking side 17 Introduktionen til projektet: Tilfældige rektangler side 17 Tilfældige rektangler som en DataMeter-øvelse side 18 Mellemspil: Datasættet som et udstillingsvindue side 20 Graferne hørende til de tilfældige rektangler side 22 Slutspil: Sandsynlighedsfordelinger for omkreds og areal side 29 Eksempel 3: Tusind kugler side 37 Introduktion til bogen: Tusind kugler side 37 Simpel simulering af et kuglespil side 37 Mellemspil: Hvor ofte gennembrydes loftet? side 41 Avanceret simulering af kuglespil side 44 Udfordring: Hvad sker der når spillereglerne ændres? side 49 Afsluttende bemærkning om binomialfordeling side 49 Eksempel 4: Hvem er den hurtigste? side 51 Måling af reaktionstiden side 51 Sagen Janus versus Vincent side 55 Retten er sat: Omrøring af reaktionstider side 58 Traditionel hypotesetest side 61 Avanceret mellemspil: Mann-Whitney testen side 64 Reaktionstider for en hel årgang Eksempel 5: Challenger ulykken side 73 Introduktion til Challenger ulykken side 73 Challenger ulykkken som en DataMeter-øvelse side 75 Hypotesetesten udført eksperimentelt side 79 Traditionel hypotesetest side 82 Eksempel 6: Buffons nåleproblem side 83 Indledning side 83 Simulering side 83 Buffons nåleproblem som en DataMeter-øvelse side 84 Buffons generelle nåleproblem side 89 Avanceret slutspil: Fordelingen for t = sin(v) side 93
4 Seks guidede ture med DataMeter Forord: Dette hæfte tjener som en introduktion til databehandlingsprogrammet Data- Meter. Det er skrevet for lærere som dels ønsker at sætte sig ind i programmets virkemåde, dels ønsker at orientere sig i nogle af de muligheder programmet tilbyder for en eksperimentel tilgang til undervisningen i matematik. Selvom eksemplerne er primært hentet fra matematiske emner: Variabelsammenhænge, modellering, sandsynlighedsregning og statistik, betyder det dog ikke at programmet kun bør anvendes i matematik. Ethvert fag, der betjener sig af databehandling som værktøj, kan med fordel udnytte DataMeters muligheder; det gælder ikke mindst de naturvidenskabelige fag og samfundsfag. Det har blot ikke været muligt at vise hele programmets spændvidde i disse få udvalgte eksempler. Man kan orientere sig på programmets hjemmeside www. DataMeter.dk for eksempler på andre anvendelser af programmet. Ideen med hæftet er altså at læreren sætter sig ved en computer med Data- Meter åbent og arbejder eksemplerne igennem trin for trin. Samtidigt vises typiske eksempler på projekter i matematikundervisningen, der lægger op til en eksperimentel tilgang. I den daglige undervisning er disse projekter naturligvis tænkt åbne og kan udvikle sig af mange forskellige veje i samspil med klassen. Men i praksis har jeg været nødt til at vise én mulig vej gennem projektet for at kunne give konkrete illustrationer af hvordan programmets værktøjer kan anvendes. Det er derfor vigtigt at understrege at disse tekster netop er oplæg til lærerne, der dels viser noget om programmets muligheder, dels viser noget om hvor projektet kan føre hen. Men de kan ikke bruges som undervisningsmateriale til eleverne. Teksterne giver alt for mange pointer væk pointer som nok vil være trivielle for lærerne, men som ikke er det for klassen. Det vil være ødelæggende for projekterne at fratage klassen muligheden for selv at gå på opdagelse i projekterne og selv nå frem til centrale pointer af deres egne kringlede veje. Det vil også låse en eventuel afrapportering fra eleverne helt urimeligt, hvis de får udleveret disse tekster. I overensstemmelse med reformens intentioner er der benyttet realistiske navne på de variable der indgår. Men projekterne kan selvfølgelig sagtens gennemføres med traditionelle betegnelser som x og y for den uafhængige og afhængige variable. Tilsvarende er der af hensyn til samarbejdet med de naturvidenskabelige fag konsekvent udnyttet mulighederne for at arbejde med enheder. Der er ellers ikke rigtig tradition for at benytte enheder i matematiske opgaver; og de kan da også fjernes fra projekterne uden at der går væsentlige pointer tabt. Men en sådan strategi ville netop ødelægge reformens mulighed for at styrke elevernes udvikling gennem fagenes synergi: Enheder er så væsentligt et naturvidenskabeligt værktøj at det vil være en stor fordel for eleverne, hvis også matematik 'leger med'. Eksemplernes rækkefølge er tilrettelagt, så de simpleste projekter, der kan udnyttes lige fra starten af 1g, kommer først. Samtidigt bliver værktøjerne introduceret i stor detalje de første gange, mens brugen af værktøjerne i de senere eksempler kun bliver skitseret nødtørftigt. For en nybegynder vil det derfor klart være en fordel at gennemarbejde eksemplerne i rækkefølge. Bjørn Felsager Haslev Gymnasium & HF September 2005
5 Eksempel 1: Kasseproblemet Eksempel 1: Kasseproblemet Vi begynder med et meget simpelt og velkendt problem der egner sig fortrinligt til den første øvelse i DataMeter med en 1g klasse: Kasseproblemet. Vi får da samtidigt chancen for at stifte bekendtskab med de tre vigtigste grundlæggende værktøjer: Tabelværktøjet, grafværktøjet og parameterværktøjet! 1. Problembeskrivelsen Vi skal altså forestille os at vi skal skære fire hjørner ud af et rektangulært papir og folde papiret til en kasse eller endnu bedre: Vi starter med at lade klassen folde kasser med forskellige højder, så vi rent fysisk producerer kassen og kan begynde at gætte på hvilken form kassen skal have for at få det største rumfang. Dertil er det også godt at prøve at udregne rumfanget for kassen! P 20 cm 30 cm Hvis papiret har bredden 20 cm og dybden 30 cm finder vi nu hurtigt ud af at der er en simpel sammenhæng mellem det afskårne stykke og dybden, bredden og højden for boksen. Det afskårne stykke bliver netop højden, mens boksens bredde bliver 20 cm minus to af de afskårne stykker og dybden bliver 30 cm minus to af de afskårne stykker. 2. Tabelværktøjet Det er da på tide at åbne DataMeter og trække en tabel ned fra værktøjsbjælken: Der dukker da et meget rudimentært regneark op på skærmen, hvor vi skal have udfyldt et skema for de forskellige variable, der indgår i kasseproblemet: Højde, Bredde, Dybde og Rumfang 1
6 Eksempel 1: Kasseproblemet Vi starter derfor med at indskrive den mest fundamentale variabel, højden, som netop er givet ved længde af det afskårne hjørne. Vi kan da fx sætte højden til at vokse med 1 cm ad gangen, dvs. tildele højden værdierne 0 cm, 1 cm, 2 cm,, 10 cm. Vi taster derfor variabelnavnet Højde ind i feltet <ny>: Der sker da uden videre tre ting: Vi får tildelt et datasæt Datasæt 1, som vi vil omdøbe om et øjeblik. Det skal indeholde de relevante data for de individuelle kasser. Vi får tildelt et felt lige neden under titelfeltet Højde til at begynde at indskrive værdierne for variablen Højde. Vi får tildelt et nyt felt <ny> som vi kan tildele en ny variabel. Vi indskriver derfor værdierne for højden, og ligeså snart vi har indskrevet den første værdi med enhed, dvs. skrevet 0 cm, sker der igen noget pr automatik: Der tilføjes en række for enheder lige neden under titelrækken for de variable! DataMeter har genkendt enheden cm og skriver selv navnet ud i enhedsfeltet. Hvis det fylder lidt for meget, kan vi trække i titelfeltets højre kant og på den måde justere bredden af søjlen til vi kan se hele navnet for den anvendte enhed (eller endnu bedre: dobbeltklikke på den højre kant, hvorved bredden justeres automatisk til at vise hele indholdet af søjlen). 2
7 Eksempel 1: Kasseproblemet Herefter kan vi indskrive resten af værdierne og denne gang behøver vi ikke huske enhederne, der tilføjes automatisk. Vi kan også klikke på titlen for datasættet, dvs. Datasæt 1 (læg mærke til at markøren skifter til en hånd, når vi placerer den på titlen for datasættet, og at det er ligegyldigt om vi klikker på titlen for tabellen eller på titlen for skattekisten), og omdøbe titlen til Kasseproblemet: Vi er nu klar til at lade de to næste variable, bredden og dybden for kassen, komme i spil. Vi kunne selvfølgelig blot indtaste deres værdier, men denne gang er der ikke tale om uafhængige variable. Deres værdier er givet direkte ud fra det afskårne stykke, dvs. ud fra variablen Højde. Vi skal derfor selvfølgelig udregne dem ved hjælp af en formel. De relevante formler ser således ud: Bredde = 30 cm 2 Højde Dybde = 20 cm 2 Højde Læg mærke til enhederne i formlen: Glemmer vi dem, får vi en fejlmeddelelse (inkompatible enheder). Når vi først er begyndt med enheder hænger vi på dem, hvilket kan være ret så sundt! Vi indfører derfor to nye variable: Bredde og Dybde. Derefter kan vi fx få lov til at indskrive formlerne ved at vælge en variabel og højreklikke. Men det er nok endnu nemmere at tilføje en formellinje ved først at vælge tabellen og dernæst vælge menupunktet Vis formler i Tabel-menuen: 3
8 Eksempel 1: Kasseproblemet 4
9 Eksempel 1: Kasseproblemet Der dukker da netop en formellinje op under titellinjen og enhedslinjen: Ved at klikke i formelcellen får vi adgang til formeleditoren og kan nu indskrive formlerne. Det er da bekvemt at hente variabelnavnene direkte fra formeleditoren som vist: Efter at have justeret bredderne for søjlerne passende og tilføjet endnu en variabel for rumfanget, der styres af formlen: ser vores datatabel endelig således ud: Rumfang = Højde Bredde Dybde 5
10 Eksempel 1: Kasseproblemet Vi kan da som vist fx aflæse at det maksimale rumfang blandt de kasser, der ligger i datasættet, er givet ved 1056 cm 3. Det opnås ved at afskære et hjørne med længden 4 cm. Dermed har vi opnået en første tilnærmelse til en løsning af problemet om at finde den største kasse. Vi kunne nu forfine tabellen og derved få en mere præcis løsning, men det vil vi ikke: Det er tid til at introducere grafværktøjet! 3. Grafværktøjet Vi trækker altså denne gang et grafværktøj ned fra værktøjsbjælken: 6
11 Eksempel 1: Kasseproblemet Det åbner som et tomt grafvindue. Vi kunne nu klikke i menuen Graf oppe i højre hjørne og skifte til Funktionsgraf. Derved ville vi få en grafregner stillet til rådighed. Men det er datasættet vi vil have afbildet, så det gør vi ikke. I stedet skal vi have fat i den uafhængige variabel: Højde. Den går vi ind og griber i tabellen i titelfeltet og trækker den derefter ned til førsteaksen i grafvinduet: Den derved fremkomne graf er selvfølgelig ikke specielt ophidsende: Men det er fordi vi mangler den afhængige variabel, dvs. rumfanget. Vi går derfor igen ind i tabellen og griber den afhængige variabel Rumfang og trækker den ind på andenaksen: 7
12 Eksempel 1: Kasseproblemet Derved dukker netop grafen for den forventede sammenhæng op: Klikker vi nu på datapunktet for det højeste rumfang dukker netop den tilsvarende række op i tabellen. Klikker vi i stedet på en række i datatabellen fremhæves tilsvarende det tilhørende datapunkt på grafen. Grafen er altså knyttet dynamisk til tabellen: 8
13 Eksempel 1: Kasseproblemet Men vi ville nu gerne kunne styre problemet lidt mere præcist på grafen. Vi indskriver derfor den fundne sammenhæng for rumfanget som en funktion af højden direkte i grafrummet. Først skal vi lige have bygget funktionsudtrykket op så den afhængige variabel Rumfang alene udtrykkes ved den uafhængige variabel Højde: Rumfang = Højde Bredde Dybde = Højde (20cm 2Højde) (30cm 2Højde) Igen er det afgørende at vi husker at behandle enhederne med respekt! Dernæst højreklikker vi i grafrummet for at få adgang til at plotte en funktion (nederste punkt på menuen): Vi indskriver rumfangsfunktionen og klikker OK (eller Enter). Straks dukker den nydeligste graf op: 9
14 Eksempel 1: Kasseproblemet Heraf kan vi nu se mønstret fra dataplottet så meget tydeligere og specielt kan vi bevæge markøren hen til grafen, klikke på grafen og følge den (spore den). Der dukker da et rødt grafpunkt op ligesom vi får oplyst koordinaterne for dette grafpunkt. Derved kan vi aflæse toppunktet lidt mere præcist: Toppunktet ligger altså i (3.9 cm; 1056,3 cm) idet x-værdien ikke er særligt præcist fastlagt, eftersom grafen er meget flad! Men vi kan også zoome ind på grafen. Det kan da betale sig først at oprette en dublet af grafrummet og dernæst zoome ind på dubletten, der tjener som dokumentation af toppunktet. Det sker ved at højreklikke på grafrummet eller benytte tastaturgenvejen SKIFT CTRL D. Dernæst zoomer vi ind. Det sker ved at holde CTRL-tasten nede, hvorved markøren forvandles til et. (Tilsvarende kan vi zoome ud igen ved at holde SHIFT-CTRL-tasterne ned). Læg mærke til at vi både kan zoome ind på et punkt i grafrummet såvel som et punkt på en af akserne. Det sidste er bekvemt, når vi kun ønsker at ændre en af akserne. Herved kan vi undgå at grafen blot bliver mere og mere flad i takt med at vi zoomer ind på toppunktet. Derved kan vi hurtigt få frembragt et mere præcist billede af toppunktets lokalisering: 10
15 Eksempel 1: Kasseproblemet Vi ser da, at det største rumfang fås ved at afskær på cm. Men det tilhørende rumfang oplyses ikke meget mere præcist, selv om vi tydeligt kan aflæse det fra grafvinduet til den følgende værdi cm 3. Men så mange decimaler kan vi selvfølgelig heller ikke rigtigt bruge til noget i praksis. Dermed har vi løst kasseproblemet i stor detalje. 4. Parameterværktøjet Vi slutter med at lege lidt med det sidste simple værktøj: Parameterværktøjet. Vi trækker altså et Parameterværktøj ned fra værktøjshylden: Den fungerer som en dynamisk global parameter vi kan lege med overalt i DataMeter! Her vil vi benytte den til at styre x-koordinaten i grafvinduet. Vi dobbeltklikker derfor på navnet og ændrer det til xpos. Tilsvarende dobbeltklikker vi på værdien og ændrer den til cm. Læg mærke til enheden! Uden enhed får vi ikke adgang til grafrummet, da det jo netop er forsynet med enheder! I første omgang ser det ikke så præcist ud som forventet, men det er fordi vi stadigvæk arbejder med et stort definitionsinterval. Vi dobbeltklikker derfor i skyderen og får adgang til den såkaldte inspektør, hvor vi kan sætte værdierne for det mindste og største tal på skyderen: Vi henter disse værdier fra grafrummet og straks indstiller skyderen sig til den større præcision: 11
16 Eksempel 1: Kasseproblemet Det er så på tide at vi sætter skyderen på arbejde. Vi højreklikker derfor i grafrummet og vælger det næstsidste menupunkt Plot Værdi. Formeleditoren åbnes da og vi vælger da som vist at plotte værdien xpos: Straks dukker der en lodret linje op i grafrummet svarende til værdien xpos. Vi kan så benytte skyderen til at lokalisere og aflæse toppunktets x-koordinat med større præcision. Efter at have zoomet ind adskillige flere gange fås fx: Tilsvarende kan vi selvfølgelig indføre en skyder ypos til aflæsning af y-koordinaten. Men her kan det nu være fristende at gå skridtet videre og låse y- parameteren til x-parameteren via rumfangsfunktionen. Som før trækker vi altså et parameterværktøj ned fra værktøjshylden og navngiver den ypos. Derefter højreklikker vi i skyderen og indskriver formlen for ypos udtrykt ved xpos: 12
17 Eksempel 1: Kasseproblemet Vi taster OK (eller Enter) og vi har nu frembragt en y-parameter, der er låst til x-parameteren og hele tiden viser det tilsvarende rumfang: Det ser godt nok ikke ud som y-parameteren rykker på sig, når vi trækker x- skyderen. Men det er fordi vi har valgt et alt for stort område på y-skalaen. Vi dobbeltklikker derfor i skyderen og åbner derved for inspektøren og sætter grænserne ind fra grafrummet: og : Straks justerer skyderen sig ind efter de indtastede grænser og nu kan sammenhængen ses tydeligt: 13
18 Eksempel 1: Kasseproblemet Trækker vi i x-parameteren følger y-parameteren lige så nydeligt med og vender når vi passerer toppunktet. Og vi kan kun trække i x-parameteren fordi y- parameteren er en afhængig parameter! Vi mangler så kun at få tegnet den vandrette linje svarende til ypos. Men det er jo grafen for en konstant funktion, så vi højreklikker i grafrummet og vælger det sidste menupunkt Plot funktion: Derved dukker der det nydeligste kryds op i grafrummet, hvor krydset er låst til grafen. Trækker vi i x-parameteren kan vi da lokalisere toppunktet med ekstremt stor præcision: 14
19 Eksempel 1: Kasseproblemet Dermed har vi demonstreret nogle få af de mangfoldige anvendelser af parametre. Selvfølgelig behøvede vi ikke at zoome så kraftigt ind for at løse kasseproblemet, men det demonstrerede at DataMeter godt kan arbejde med stor præcision, når det måtte være påkrævet. 5. Afsluttende bemærkning om inspektørerne: Ligesom parameterværktøjet har også grafværktøjet sin egen inspektør, som man får adgang til ved at dobbeltklikke i grafvinduet: Det giver mulighed for at sætte vinduesgrænserne xnedre, xøvre, ynedre og yøvre manuelt. Tilsvarende giver det mulighed for at vende akserne, hvilket kan være bekvemt i visse situationer. Endelig kan man sætte punktstørrelsen for punkterne i dataplottet, så størrelsen kan afstemmes passende efter fx antallet af datapunkter. 15
20 Eksempel 1: Kasseproblemet 6. Datasættet Selv om vi ikke har brugt det til noget særligt, så dukkede der et datasæt op i samme øjeblik vi indskrev tabellen: Det rummer dataene for de 11 kasser med højder fra 0 cm til 10 cm. Man kan åbne datasættet ved at trække i hjørnet: Som standard vises de enkelte data som guldkugler med undertitlen data. Men man kan skræddersy ikonerne og titlen efter behov. Det kan være tricket at indføre 3-dimensionale ikoner, så vi holder os til de indbyggede ikoner. Dobbeltklikker vi i vinduet for datasættet åbnes inspektøren, hvor vi vælger fanebladet Udseende og indskriver de følgende formler: Derved får vi netop frembragt en frise med de 11 kasser stillet op i rækkefølge med en størrelse, der afspejler rumfanget: 16
21 Eksempel 2: Tilfældige rektangler Eksempel 2: Some like it hot Tilfældige rektangler I de senere år har en del gymnasieskoler eksperimenteret med HOT-programmet i matematik og fysik, hvor HOT står for Higher Order Thinking. HOTprogrammet blev oprindeligt udviklet i England under akronymet CASE (Cognitiv Acceleration through Science Education) af Adey og Schayer. Omkring år 2000 blev HOT-programmet introduceret i Danmark af Jens Holbech og Poul V. Thomsen fra Center for Naturfagenes Didaktik ved Århus Universitet: I begyndelsen koncentrerede man sig om faget fysik i 1g, men senere blev matematik i 1g (og også naturfag) inddraget i HOT-programmet. Centralt i HOTprogrammet står bl.a. variabelbegrebet og hvordan man kan lære at håndtere sammenhænge mellem mange variable på en gang. Eleverne introduceres fra starten til variabelbegrebet og lærer at klassificere variable på forskellig vis: Kvantitative og kvalitative variable Uafhængige og afhængige variable Sammensatte variable Dernæst lærer de at håndtere simple sammenhænge mellem variable, først kvalitativt (stigende, faldende), dernæst kvantitativt (ligefrem proportionalitet, omvendt proportionalitet, lineær sammenhæng). Endelig lærer de variabelkontrol, dvs. hvordan man på systematisk vis afgør, hvilke variable, der har indflydelse på en given variabel. Her vil vi kigge på en typisk øvelse fra matematikdelen af HOT-programmet, den første der blev stillet i min egen forsøgsklasse. Introduktionen til projektet: Tilfældige rektangler: Vi tegnede et rektangel på tavlen og snakkede om hvilke variable, der kunne karakterisere rektanglet. Eleverne kom med mange forslag som vi noterede på tavlen, herunder også nogle som vi ikke kunne bruge, fx vinkel (der jo netop ikke varierer i et rektangel) og rumfang. Til slut håndplukkede vi så de fire følgende variable: grundlinje, højde, omkreds og areal Af hensyn til øvelsen valgte jeg ikke at bruge navnene længde og bredde, men grundlinje og højde. Dels viser det med det samme at grundlinjen er den linje, der tegnes vandret, og højden den linje der tegnes lodret. Dels er det ligegyldigt, hvem der er længst, mens nogle elever kan finde på at insistere på at længden skal være længere end bredden! 17
22 Eksempel 2: Tilfældige rektangler Efterfølgende skulle eleverne skrive en rapport over forsøget. Her fik eleverne de følgende holdepunkter: Rapporten om tilfældige rektangler bør indeholde de følgende punkter: En beskrivelse af forsøget herunder hvordan man frembringer de fire lister ved dels at udnytte tilfældighedsgeneratorer for grundlinjen og højden, dels at udnytte formlerne for omkredsen og arealet af et rektangel. En beskrivelse af de fire variable, en diskussion af deres værdier og en klassifikation af hvem der er uafhængige og hvem der er afhængige. Det vil også være godt med en diskussion af hvilke kombinationer, der er relevante. En beskrivelse af de fire figurer, der fremkommer, herunder en diskussion af deres form og ligningerne for de afgrænsende figurer. Det vil også være godt med en diskussion af hvordan disse ligninger er fremkommet. Ok, vi er nu klar til at udføre øvelsen i DataMeter. Vi åbner derfor for DataMeter og trækker en tabel ned i dokumentet. Vi slår med det samme Vis formler samt Vis enheder til i Tabel-menuen, og er nu klar til at indskrive de variable: Læg mærke til at ligeså snart vi har indført en variabel dukker der et datasæt op på skærmen (en tom skattekiste). Den kan vi passende navngive 'Tilfældige rektangler'. Så skal vi have konstrueret de tilfældige rektangler. Vi højreklikker derfor på datatabellen og tilføjer 1000 nye observationer (Tilføj nye data). Der dukker straks kugler op i skattekisten og observationerne nummereres i den yderste søjle. Man kalder observationens nummer for dens indeks, når man skal referere til den i formler mm. 18
23 Eksempel 2: Tilfældige rektangler Grundlinjen og højden er uafhængige variable så de indskrives med formlen tilfældig() cm for et tilfældigt tal mellem 0 og 1. Læg mærke til at vi har tilføjet en enhed. Det er ikke strengt nødvendigt for øvelsen, men det er godt at øve sig på at bruge enheder fra starten. Hvis man ikke kan huske kommandoen kan man som vist slå den op i formeleditoren og få en forklaring på brugen samtidigt: Derved dukker der 1000 data op i de to første søjler: 19
24 Eksempel 2: Tilfældige rektangler Det er lidt mere tricket at få beregnet omkredsen og arealet, da de er afhængige variable. Her skal vi altså bruge sammenhængene: Omkreds = 2 Grundlinje + 2 Højde Areal = Grundlinje Højde Dem skriver vi derfor også ind i formeleditoren og bemærker at DataMeter selv holder styr på enhederne: Omkredsen kommer ud som en længde i cm, mens arealet kommer ud i kvadratcentimeter, som det sig hør og bør: Læg mærke til at tallene for Grundlinje og Højde bliver genberegnet af tilfældighedsgeneratoren når vi piller ved tabellen (som her ved at tilføje formler for de to resterende variable). I denne øvelse arbejder vi altså med stokastiske variable, hvis værdier hele tiden fluktuerer tilfældigt. Læg også mærke til at variabelnavnene er tilgængelige i formeleditoren, så vi ikke behøver stave os igennem dem efter hukommelsen: 20
25 Eksempel 2: Tilfældige rektangler Mellemspil: Hvis vi åbner skattekisten (ved at trække i et hjørne) kan vi se at den nu indeholder guldkugler svarende til de enkelte rektangler: Men det ville jo være sjovere, hvis skattekisten i stedet viste rektanglerne selv. Det kan vi imidlertid godt få den til på følgende måde. Dobbeltklik i skattekisten for at åbne datainspektøren og skift til fanebladet Udseende: 21
26 Eksempel 2: Tilfældige rektangler Vi får da adgang til selv at vælge billedet (Billede) ved at indskrive en formel, der bl.a. kan referere til et ikon. Her vælger vi som vist sortkvadratikon. Det vil selvfølgelig vise et lille sort kvadrat, men vi kan lave det om til et rektangel med den rigtige form ved at sætte bredden og højden for ikonet til en passende skalering af de rigtige mål. Endelig kan vi sætte teksten (Titel) til at gengive datanummeret (Indeks), der skrives direkte eller hentes under Specielle funktioner nederst i formeleditorens funktionsliste. Resultatet ser således ud: 22 Slut på mellemspil! Vi har nu styr på de variable og kan begynde at lege med dem. Først og fremmest vil vi kigge på de grafiske sammenhænge. Med fire variable giver det umiddelbart anledning til 16 kombinationer, men de fleste er trivielle eller gentagelser af tidligere kombinationer. Da ydermere grundlinjen og højden er ækvivalente variable er der i realiteten kun fire kombinationer, der er væsensforskellige: Grundlinje Højde, Grundlinje Omkreds, Grundlinje Areal, Omkreds Areal. Her har vi listet dem med den uafhængige variabel først. Vi trækker derfor fire grafværktøjer ned i dokumentet og trækker de viste variabelkombinationer ind på akserne (se næste side). Det giver anledning til fire forskellige områder, der udfyldes med datapunkter. Den første graf er den simpleste: Når vi afsætter højden mod grundlinjen svarer datapunktet netop til det øverste højre hjørne i rektanglet afsat ud fra (0,0) som det nederste venstre hjørne. De 1000 rektangler fylder derfor enhedskvadratet rimeligt jævnt ud:
27 Eksempel 2: Tilfældige rektangler Tilfældige rektangler 1.0 XY-plot Grundlinje (centimeter) Dobbeltklikker vi på et datapunkt lyser det op i alle grafer, markeres i selve datasættet ligesom grafinspektøren automatisk bladrer hen til dets generalieblad. Vi kan også markere et område fx ved at trække et rektangel med markøren. Her har vi fx udpeget den nederste kvadrant til venstre: Tilfældige rektangler 1.0 XY-plot Grundlinje (centimeter) Flytter vi markøren op til datasættet vil vi da kunne aflæse antallet af markerede rektangler på statuslinjen: 23
28 Eksempel 2: Tilfældige rektangler Det passer meget godt med de forventede 250 ud af Her ses nu de fire grafer samlet: De fire fundamentale sammenhænge mellem variablene for de tilfældige rektangler! De tre øvrige områder er mere komplicerede: Et trapez, en trekant og en underlig form, der er afgrænset af en kurve, som måske kunne være en parabel. Det er ikke svært at gætte sig frem til ligningerne for de afgrænsende linjer og derefter benytte Plot Funktion til at få dem tegnet og checket visuelt om vi gættede rigtigt (se figuren næste side). I alle tilfældene er det nemt at aflæse to pæne punkter på linjen og derved fastlægge såvel hældningen som skæringen. Det er langt sværere at begrunde de således fundne sammenhænge og oven i købet få strikket et pænt argument samme i ord, der kan sættes ned på et papir, så andre kan læse og forstå det! 24
29 Eksempel 2: Tilfældige rektangler Eksempel: Figur 2 med omkredsen som funktion af grundlinjen. For en given grundlinje må omkredsen mindst være 2 Grundlinje svarende til en minimal højde på 0 cm, dvs. der må gælde: Omkreds 2 Grundlinje. Tilsvarende kan omkredsen højst være 2 Grundlinje + 2 cm, svarende til en maksimal højde på 1 cm, dvs. der må gælde: Omkreds 2 Grundlinje + 2 cm. Det giver derfor netop de fundne ligninger for de to linjer, der afgrænser trapezet for neden og foroven i grafen, der viser omkredsens afhængighed af grundlinjen: Minimal omkreds for given grundlinje: Omkreds = 2 Grundlinje Maksimal omkreds for given grundlinje: Omkreds = 2 Grundlinje + 2 cm 25
30 Eksempel 2: Tilfældige rektangler Den sidste krumlinjede figur bygger på langt mere komplicerede sammenhænge. Hvis vi gætter på en parabel (og det er ikke alle eleverne i 1g, der ved hvad en parabel er, men der vil altid være nogle der kender lidt til parabler i forvejen), så kan vi som udgangspunkt benytte ligningen for en parabel i hovedstillingen: y = A x 2 Spørgsmålet er så blot hvordan vi finder værdien for A. Der er flere muligheder, men det er instruktivt at introducere en parameter A ved at trække et parameterværktøj ind i dokumentet. Derefter kan vi plotte funktionen med forskriften Areal = A Omkreds 2. Ved at trække i parameteren kan vi nu se om vi kan få parablen til at følge randen (undervejs kan man med fordel zoome ind på parameteraksen ved at holde Ctrl-tasten nede imens man klikker på aksen): Det ser jo meget lovende ud! Spørgsmålet er så blot bare hvilken værdi for parameteren A der er den 'rigtige'? Hvis vi gætter på at parablen skal gå gennem punktet (4;0) (den øverste spids på figuren) må vi nødvendigvis sætte A til 1/16 = Dermed har vi eksperimentelt fundet frem til parablens ligning. Men igen kommer så det langt sværere problem: Hvordan begrunder vi den fundne ligning? Her kan det hjælpe, at vi netop kan udpege interessante datapunkter på en af graferne og se hvor de tilsvarende punkter dukker op i de andre grafer henholdsvis datasættet. Fx kan vi prøve at udpege datapunkter på randen af parablen og se at de netop svarer til næsten kvadratiske rektangler. Det kan da betale sig at oprette en dublet af grafen som vi kan zoome ind på for tydeligere at kunne udvælge et randpunkt for figuren. (Her har vi også sat punktstørrelsen op på datapunkterne for at vi nemmere kan se, hvilket randpunkt vi har valgt!): 26
31 Eksempel 2: Tilfældige rektangler Grafinspektøren viser at der er tale om rektangel 133 (hvad der gør det meget nemmere at finde i datasættes udstillingsvindue!) samt at grundlinjen næsten er den samme som højden: Det kan lede til en frugtbar diskussion af hvilket rektangel, der har det største areal, når omkredsen holdes fast, og lige så vigtigt: Hvilket rektangel, der har det mindste areal, når omkredsen holdes fast. Her vil man med fordel kunne inddrage GeoMeter i diskussionen, men det er et helt projekt i sig selv, så vi nøjes med konklusionen: Rektanglet med det største areal for en given omkreds er et kvadrat. Rektanglet med det mindste areal for en given omkreds har højden 0 cm, hvis omkredsen er mindre end 2 cm, idet omkredsen da fordeles ligeligt på de to vandrette sider (dvs. grundlinjen). Rektanglet med det mindste areal for en given omkreds har grundlinjen 1 cm, hvis omkredsen er større end 2 cm, idet den resterende omkreds da fordeles ligeligt på de to lodrette sider (dvs. højden). En anden mere avanceret mulighed for at undersøge sammenhængen består i at udpege områder ved hjælp af filtre. Hvis vi fx vil forstå randen af det parabellignende område kan vi tilføje filtret 2 Omkreds 2 Areal > cm 4 dvs. vi medtager kun de rektangler, hvor arealet højst afviger cm 2 fra det maksimale areal. Vi får da som vist netop udskilt randen af den parabellignende figur. 27
32 Eksempel 2: Tilfældige rektangler Det samme filter anvendt på Grundlinje-Højde-grafen udvælger en stribe omkring diagonalen. Men det er jo netop langs diagonalen, hvor grundlinjen er den samme som højden, at vi finder kvadraterne: På tilsvarende måde kan vi opstille et filter svarende til den nederste rand, som viser at enten er grundlinjen 1 cm eller også er højden 1 cm: Bemærkning: Man tilføjer et filter til et objekt (tabel, graf, datasæt osv. ) ved at højreklikke på objektet og vælge menupunktet Tilføj filter eller ved at udpege objektet og dernæst bruge tastaturgenvejen Ctrl F. Når man først har oprettet filtret for det ene grafrum kan man kopiere formlen over i det andet grafrum ved at højreklikke på formlen og vælge menupunktet Kopier filter. Herefter kan man tilføje et filter til det andet grafrum ved at vælge menupunktet Indsæt filter eller ved hjælp af standardgenvejen Ctrl V i formeleditoren. 28
33 Eksempel 2: Tilfældige rektangler Slutspil Dermed er vi igennem de vigtigste forhold omkring HOT-øvelsen med de tilfældige rektangler. Men som med så mange af den slags øvelser kan vi give den en lille drejning og vende tilbage til den senere i gymnasieforløbet, når vi er i gang med mere avancerede emner. Her vil vi se på et eksempel fra B- og A-niveauerne, hvor vi leger med sandsynlighedsfordelinger. Da Grundlinje (og Højde) bygger på tilfældige tal mellem 0 og 1 kan vi opfatte dem som eksempler på stokastiske variable, der er ligefordelte over enhedsintervallet [0;1]. Vi kan få denne ligefordeling at se ved at trække dem ind i et grafrum. I første omgang fremstilles de da som prikdiagrammer: Tilfældige rektangler Prikdiagram Tilfældige rektangler Prikdiagram Grundlinje (centimeter) Højde (centimeter) Men strukturen vil blive tydeligere ved at skifte graftype og se på de tilhørende histogrammer. Vi har ydermere valg at skalere histogrammet efter tæthed (hvilket man vælger under menupunktet Skalering på Graf-menuen): Tilfældige rektangler 1.4 Histogram Tilfældige rektangler 1.4 Histogram Grundlinje (centimeter) Tæthed for Grundlinje = Højde (centimeter) Tæthed for Højde = 1 De empiriske fordelinger svinger selvfølgelig lidt op og ned omkring den forventede teoretisk konstante tæthed på 1, men der synes ikke at være systematiske afvigelser om end grundlinjen har nogle forholdsvis store dyk (fx lige efter 0.8). Om det bør give anledning til en reel bekymring kan kun afgøres ved en større statistisk undersøgelse ved at gentage fordelingen mange gange og se på fordelingen af det største dyk. 29
34 Eksempel 2: Tilfældige rektangler Ser vi derimod på de stokastiske variable Omkreds og Areal, så giver det anledning til nogle helt andre fordelinger: Tilfældige rektangler Histogram Tilfældige rektangler Histogram Omkreds (centimeter) Areal (cm^2) De er tydeligvis ikke ligefordelte! Omkredsen kunne godt ligne en symmetrisk savtakfordeling med toppunkt i (2;½). Vi kan lægge grafen for savtakfordelingen ind over tæthedsfordelingen og checke om det ser rimeligt ud: Tilfældige rektangler Histogram Omkreds (centimeter) Omkreds 4cm Tæthed for Omkreds = hvis ( Omkreds < 2cm) Omkreds 1 4cm Det ser jo ikke så tosset ud. Vi kan også godt begrunde hvorfor det må være en savtakfordeling. Omkredsen er en afhængig sammensat variabel opbygget ud fra de to uafhængige variable Grundlinje og Højde: Omkreds = 2 Grundlinje + 2 Højde Omkredsen er altså i det væsentlige en sum af to stokastiske variable. 30
35 Eksempel 2: Tilfældige rektangler Kigger vi nu på den simultane fordeling af Grundlinjen og Højden så er den jo ligefordelt over enhedskvadratet, dvs. sandsynligheden for at trække et datapunkt indenfor et bestemt område, fx et kvadrat eller en cirkel, er proportional med arealet af området: Tilfældige rektangler 1.0 XY-plot Tilfældige rektangler 1.0 XY-plot Grundlinje (centimeter) 0.25cm = 0.25 cm 0.75cm = 0.75 cm Højde = 0.25cm Højde = 0.75cm ( 0.25cm < Grundlinje ) og ( Grundlinje < 0.75cm) og Grundlinje (centimeter) Højde = 0.5cm + Højde = 0.5cm 2 ( 0.25cm) 2 ( 0.25cm) ( Grundlinje 0.5cm) 2 ( Grundlinje 0.5 cm) 2 ( Grundlinje 0.5cm) 2 + ( Højde 0.5cm) 2 ( 0.25cm) 2 Kvadratet med centrum i (0.5 cm; 0.5 cm) og sidelængden 0.5 cm har fx arealet 0.25 cm 2, hvilket udgør en fjerdedel af enhedskvadratet, hvorfor vi forventer ca. 250 observationer. Vi observerer 248, så det passer fint. Cirklen med centrum i (0.5 cm; 0.5 cm) og radius 0.25 cm har arealet π (0.25cm) 2 = cm 2, hvorfor vi forventer ca. 196 observationer indenfor cirklen. Vi observerer 199, så det er også fint. Ingen data Slip en variabel her R1 = π ( 0.25cm) cm^2 Trækker vi nu Omkreds med ind i selve grafrummet for den simultane fordeling kan vi få frembragt en graf, der viser hvordan Omkreds afhænger af Grundlinje og Højde. Dette er DataMeters måde at håndtere sammenhængen mellem tre forskellige variable på en gang. Det kunne da godt se ud som om Omkredsen varierer jævnt langs hoveddiagonalen fra det nederste venstre hjørne til det øverste højre hjørne, eller med andre ord at niveaukurverne for Omkredsen er parallelle med den anden diagonal. Det bekræftes af sammenhængen mellem histogrammet for Omkredsen og den simultane fordeling for Grundlinje og Højde: 31
36 Eksempel 2: Tilfældige rektangler Tilfældige rektangler 1.0 XY-plot Grundlinje (centimeter) Omkreds (centimeter) Tilfældige rektangler 1.0 XY-plot Tilfældige rektangler Histogram Omkreds (centimeter) Omkreds 4cm Tæthed for Omkreds = hvis ( Omkreds < 2cm) Omkreds 1 4cm Grundlinje (centimeter) Omkreds (centimeter) Dermed har vi givet en god begrundelse for den observerede savtakfordeling. Hvis vi vil udlede den på mere systematisk maner kan vi fx først udlede formlen for den kumulerede fordeling og dernæst differentiere denne for at finde tæthedsfordelingen. I dette tilfælde er problemet så simpelt at vi kan håndregne os igennem det. Vi kan illustrere udregningen grafisk ved at indføre en dynamisk parameter k, som løber mellem 0 og 4: 32
37 Eksempel 2: Tilfældige rektangler k = Tilfældige rektangler 1.0 XY-plot Tilfældige rektangler Histogram Omkreds (centimeter) Omkreds 4cm Tæthed for Omkreds = hvis ( Omkreds < 2cm) Omkreds 1 4cm k = 1 cm Grundlinje (centimeter) Højde = k Omkreds 2 Omkreds k Vi har samtidigt indført den lodrette linje Omkreds = k på histogrammet ved hjælp af kommandoen Plot værdi (hvor vi fx finder k under globale værdier i formeleditoren, men vi kan selvfølgelig også bare taste den ind i hånden!) Tilsvarende har vi tilføjet filtret Omkreds k på den simultane fordeling for Grundlinje og Højde samt grafen for randen af det filtrerede område: Højde = k/2 Omkreds Ved at trække i parameteren k kan vi nu visualisere sammenhængen mellem histogrammet for tæthedsfordelingen og den simultane fordeling. For at bestemme den kumulerede sandsynlighed P(Omkreds k) skal vi fastlægge arealet for det filtrerede område. Men det er jo simpelthen arealet for en ligebenet retvinklet trekant med siderne k/2 og k/2, dvs. arealet er k 2 /8 (så længe k holder sig under 2!). Der gælder altså: P ( Omkreds k) = 8 Differentieres med hensyn til k fås tæthedsfunktionen: 2 k k f ( Omkreds = k) = 4 (alt sammen så længe k holder sig under 2!). Vi har dermed genfundet den tidligere formel for tæthedsfunktionen for Omkredsen idet den anden gren fx følger af symmetrien! 33
38 Eksempel 2: Tilfældige rektangler Men hvad så med arealfordelingen? Arealet er en afhængig sammensat variabel opbygget ud fra de to uafhængige variable Grundlinje og Højde: Areal = Grundlinje Højde Omkredsen er altså i det væsentlige en sum af to stokastiske variable. Vi går nu frem på samme måde som før. Først frembringer vi grafen for hvordan den sammensatte variabel Areal afhænger af Grundlinje og Højde: Tilfældige rektangler 1.0 XY-plot Grundlinje (centimeter) Areal (cm^2) Det kunne da godt se ud som om også Arealet varierer systematisk langs hoveddiagonalen fra det nederste venstre hjørne til det øverste højre hjørne. Men kigger vi nærmere på sammenhængen mellem histogrammet for Omkredsen og den simultane fordeling for Grundlinje og Højde ser vi at niveaukurverne for Arealet denne gang er hyperbelkurver: Tilfældige rektangler Histogram Areal (cm^2) Tilfældige rektangler XY-plot Grundlinje (centimeter) 34
39 Eksempel 2: Tilfældige rektangler Vi vil nu forsøge at udlede formlen for Arealets tæthedsfordeling ved først at udlede formlen for den summerede fordeling og dernæst differentiere for at finde tæthedsfordelingen. Vi illustrerer igen udregningen grafisk ved at benytte den indførte dynamiske parameter k, som denne gang løber mellem 0 og 1: k = cm^ Tilfældige rektangler Histogram Areal (cm^2) k = 0.25 cm^2 Tilfældige rektangler XY-plot Grundlinje (centimeter) k Højde = Grundlinje Areal k Vi har indført den lodrette linje Areal = k på histogrammet ved hjælp af kommandoen Plot værdi (hvor vi fx finder k under globale værdier i formeleditoren, men vi kan selvfølgelig også bare taste bogstavet k ind i hånden!) Tilsvarende har vi tilføjet filtret Areal k på den simultane fordeling for Grundlinje og Højde samt grafen for randen af det filtrerede område: Højde = k/grundlinje. Ved at trække i skyderen for k kan vi nu visualisere sammenhængen mellem histogrammet for tæthedsfordelingen og den simultane fordeling. For at bestemme den kumulerede sandsynlighed P (Areal k) skal vi nu fastlægge arealet for det filtrerede område. Denne gang er det mere kompliceret fordi det filtrerede område afgrænses af en hyperbelgren, der starter i Grundlinje = k. Vi er derfor nødt til at finde arealet ved hjælp af et symbolsk integral, hvilket selvfølgelig ligger helt uden for DataMeters domæne. Her illustrerer vi udregningen i TI-Interactive men et hvilket som helst CAS-program kan selvfølgelig bruges: k 1 Grundlinje + 0 k 1 k Grundlinje Grundlinje k > 0 = k - k ln k Der gælder altså: P ( Areal k) = k k ln( k). Differentieres med hensyn til k fås tæthedsfunktionen: f ( Areal = k) = ln( k). 35
40 Eksempel 2: Tilfældige rektangler En grafisk illustration af tæthedsfunktionen bekræfter det ovenstående: Tilfældige rektangler Histogram Areal (cm^2) Areal Tæthed for Areal = ln ( ) cm 2 Vi kan så finde sandsynligheden for at arealet lander i et bestemt område, fx intervallet mellem 0.25 cm^2 og 0.75 cm^2, som arealet under grafen for tæthedsfunktionen. Det giver et forventet antal på 369, hvor vi observerer 370: Tilfældige rektangler Areal (cm^2) Areal Tæthed for Areal = ln ( cm 2 ) 0.25cm 2 = 0.25 cm^2 0.75cm 2 = 0.75 cm^2 Histogram ln Areal Areal =
41 Eksempel 3: Tusind kugler Eksempel 3: Tusind kugler I en nyligt udkommen ungdomsroman om en ung svensk gymnasiepiges fortrædeligheder bruges et kuglespil ('galtonbræt') som en metafor for tilværelsens tilfældige forudsigelighed. Den matematisk begavede hovedperson Åsa er dybt fascineret af de naturvidenskabelige forklaringsmodeller med deraf følgende spændinger for hende i forholdet til hendes mandlige lærer i samfundsfag. I et appendiks beskriver forfatteren nu nærmere virkningen af et sådant kuglespil med 50 opsamlingsbåse, hvor de 1000 kugler skiftevis triller til højre og venstre i 49 trin når de rammer piggene i kuglespillet. Bogen giver en meget fin beskrivelse af det random walk mønster (diskret normalfordeling), som hovedpersonen Åsa er så fascineret af, og som hun bruger megen tid på at studere; først konkret med et galtonbræt hun har fået forærende som barn, siden elektronisk efter at hun som fjortenårig har fået en computer at lege med. Men har forfatteren selv leget med bogens kuglespil? Er fx beskrivelsen af variationen i antallet af kugler der havner i de enkelte bokse realistisk? Hvordan kan man nu undersøge det? Det er ikke særligt nemt at konstruere et præcist kuglespil, men vi kan nemt simulere kuglespillet i DataMeter. Ved at udnytte tilfældighedsgeneratoren tilfældigtheltal(0;1), der veksler tilfældigt mellem tallene 0 og 1, kan vi simulere udfaldet af en enkelt kugle ved at lægge 49 af disse stokastiske funktioner sammen fx i grupper af 7. Det gør nok indskrivningen af formlen lidt nemmere at bruge kopiér og indsæt flittigt undervejs! Vi trækker altså en tabel ind i dokumentet, opretter en variabel Båsnr, tænder for Vis formler i Tabel-menuen og indskriver formlen (hvor det er vigtigt at huske at benytte semikolon som skilletegn); eller endnu nemmere, vi ignorerer argumenterne, da de under alle omstændigheder har standardværdierne 0 og 1. Endelig giver vi tabellen (og dermed datasættet) titlen Tusind kugler: 37
42 Eksempel 3: Tusind kugler Bemærkning: Jo, der findes mere elegante måder at udføre eksperimentet på, men dette er nok den nemmeste i første omgang! Vi vil senere se på mere avancerede varianter. Derefter oprettes 1000 nye data (ved at højreklikke og vælge Tilføj data) og vi har fået opbygget udfaldene for de 1000 kugler. Tusind kugler Båsnr < = tilfældigtheltal ( )
43 Eksempel 3: Tusind kugler Vi er nu klar til at oprette et histogram for fordelingen ved først at trække et grafvindue ind i dokumentet og dernæst trække variablen Båsnr ind i grafrummet på førsteaksen. Vi kan således efter få minutter ved selvsyn se hvordan et realistisk forløb af kuglespillet ser ud. Faktisk kan vi ved at strække et prikdiagram få en rimelig realistisk fornemmelse af kuglebanens udseende. Tusind kugler Prikdiagram Båsnr Men tilbage til histogrammet (hvor intervalbredden sættet til 1): Tusind kugler Histogram Båsnr Hyppighed for Båsnr =
44 I teksten står nu følgende påstand: Eksempel 3: Tusind kugler I hver af de to midterste båse havnede mellem 110 og 115 kugler, nogle gange lidt flere, nogle gange lidt færre, men aldrig mere end 120, hvilket spillets konstruktør må have været klar over, idet båsene ikke kan rumme mere end 120 kugler. Nogle gange var der en eller to kugler mere i den højre bås, nogle gange i den venstre. For det meste var der lige mange og aldrig færre end 104. Først er der påstanden om at der aldrig falder mere end 120 kugler i de to midterste båse og at det derfor ikke er nødvendig at lade opsamlingsbåsene rumme mere end 120 kugler. Det kan vi som vist checke ved at højreklikke og vælge Plot Funktion og dernæst indskrive den konstante funktion 120 i formeleditoren. Allerede i det første forsøg kan vi altså se at vi har ramt loftet idet opsamlingsbåsen nr. 24 rummer 126 kugler som det også fremgår af statusbjælken, når man fører musen hen til opsamlingsbåsen og marker den: Tusind kugler 140 Histogram Båsnr Hyppighed for Båsnr = 120 Vi kan bruge kommandoen Gentag simulering til at gentage kuglespillet og så udføre en hurtig optælling af hvor hyppigt vi bryder loftet. Kommandoen udføres enten med tastaturgenvejen Ctrl-U (simulering) eller den kan findes i øverste højre hjørne af et udfoldet datasæt. I mit dokument ser jeg for eksempel at 5 ud af de første 10 kuglespil gennembryder loftet. Vi gennembryder altså loftet ca. halvdelen af gangene. Forfatteren (eller måske oversætteren?) har altså ikke selv prøvet at lege med et kuglespil for så ville han have haft en meget klarere fornemmelse af variationen i spillene. 40
45 Eksempel 3: Tusind kugler Mellemspil: Vi kan udbygge eksperimentet med en måling til at finde fordelingen for hvor ofte loftet gennembrydes. Vi må da ført konstruere en hyppighedstabel for kuglespillet, så vi kan finde den maksimale hyppighed. Det sker ved at trække beregningsværktøjet ned i dokumentet og derefter trække variablen Båsnr ind i tabellen, men husk at holde SKIFT-tasten nede, for tricket består i at håndtere Båsnr som en kategoriseret variabel (altså samme teknik som i grafrummet): Tusind kugler Båsnr Søjle total R1 = tæl ( ) Celler fra Tusind kugler oversigtstabel Båsnr R1 <ny> I dette tilfælde var det altså bås nr. 24 der fik det største antal kugler, nemlig 138 (og dermed stødte mod loftet). Men resultatet af en sådan hyppighedstabel kan som vist samles i et selvstændigt afledet datasæt ved at højreklikke og vælge menupunktet Overfør celler til nyt datasæt. Og når vi først har fået overført hyppighederne til et afledet datasæt kan vi udføre en måling på dette afledte datasæt Celler fra Tusind kugler oversigtstabel. Dermed kan vi trække den maksimale hyppighed ud som en måling. Da målingerne ligger gemt i selve datasættet dobbeltklikker vi på dette og åbner dets inspektør, hvorefter vi skifter til fanebladet Måling: 41
46 Eksempel 3: Tusind kugler Så snart vi har oprettet målingen MaksHyp kan vi udføre gentagne målinger fra Datasæt-menuen eller ved at højreklikke på datasættet Celler fra Tusind kugler oversigtstabel. Vi vælger da at gentage målingen 1000 gange (det kræver lidt tålmodighed, da vi i så fald skal kaste de 1000 kugler 1000 gange): Først udføres målingen automatisk fem gange med animationen slået til. Ved at dobbeltklikke på datasættet for målingerne kan vi efterfølgende som vist slå animationen fra og udføre 1000 nye målinger, der erstatter de første. Vi trækker derefter den gentagne måling af MaksHyp ind i et grafrum og markere samtidigt målingerne fra 121 og frem. Som det ses overskrider en betydelig del af de tusinde målinger den kritiske værdi 120. I modsætning til tekstens påstand er det altså et højst normalt fænomen at kuglerne løber ud over den øvre grænse. Ved at markere området til højre for den kritiske grænse kan vi hurtigt tælle hvor mange gange ud af 1000, idet resultatet aflæses på statusbjælken når vi fører markøren op til datasættet for de gentagne målinger: 42
47 Eksempel 3: Tusind kugler Målinger fra Celler fra Tusind kugler oversigtstabel 70 Histogram MaksHyp I 46% af tilfældene overskrider vi altså den kritiske grænse i en af opsamlingsbåsene. Derimod kommer vi kun meget sjældent under 104, præcis som bogen påstår. Målinger fra Celler fra Tusind kugler R1 = tæl ( MaksHyp > 120) R2 = tæl ( MaksHyp < 104) Ved hjælp af sådanne simple eksperimenter kan vi også hurtigt checke nogle af de andre påstande, fx påstanden om hvor meget antallet af kugler i de to centrale båse ligner hinanden: Nogle gange var der en eller to kugler mere i den højre bås, nogle gange i den venstre. For det meste var der lige mange. Påstanden kan give anledning til at formode at der typisk er næsten lige mange kugler i de centrale båse med numrene 24 og 25. For at undersøge dette indføres målingen Forskel i det oprindelige datasæt: Som før gentager vi målingen 1000 gange, hvilket igen kræver en del tålmodighed, da vi jo igen skal kaste de 1000 kugler i alt 1000 gange. Trækker vi derefter den gentagne måling Forskel ind på førsteaksen i et grafrum og opretter histogram og Boksplot fås følgende: 43
48 Eksempel 3: Tusind kugler Målinger fra Tusind kugler 70 Histogram Forskel Der er intet der tyder på at der for det meste er lige mange kugler i de to centrale opsamlingsbåse. Det sker kun i under 4% af tilfældene. Målinger fra Tusind kugler Boksplot Forskel Tilsvarende vil forskellen på antallet af kugler i de to centrale opsamlingsbåse i halvdelen af tilfældene ligge mellem 4 og 17 med en median på 10. Slut på mellemspil: Avanceret simulering af den enkelte kugles bane Som lovet viser vi nu en mere sofistikeret simulering af en kuglebane. Vi opretter da et datasæt kuglespil for den enkelte kugles bane. De enkelte opsamlingsbåse nummereres fra 0 til 49. Vi starter da midt mellem de to centrale båse 24 og 25, dvs. startpositionen er Hver gang vi rammer en pind falder kuglen tilfældigt til venstre eller højde, dvs. hver gang lægger vi enten ½ til den forrige position eller vi trækker ½ fra den forrige position (i tilfældig rækkefølge). Da vi skal passere 49 pinde opretter vi 49 nye data og indskriver derfor formlen (med semikolon som skilletegn!): 44
49 Eksempel 3: Tusind kugler Formlen har altså den følgende betydning: Hver ny værdi af kuglens bane afhænger af den foregående, idet vi på tilfældig vis lægger ±½ til den foregående position. Hvis der ikke er nogen foregående position benytter vi startpositionen Kuglespil 50 Linjeplot Kuglens_bane Trækker vi kuglens_bane ind på første aksen og vælger et linjeplot fås netop en grafisk fremstilling af banen, med den ene fejl at kuglen bevæger sig opad andenaksen. Vi kan bedre følge kuglens bane ned gennem kuglespillet ved at vende aksen. Det sker ved at åbne for grafinspektøren og sætte ymodsatskala til sand (og samtidigt sætte xnedre til 0 og xøvre til 50): 45
50 Eksempel 3: Tusind kugler Ved at taste Ctrl-U (for simulering) kan vi nu spille kuglespil! Kuglespil 0 Linjeplot Kuglens_bane Men nu er vi jo faktisk mest interesseret i slutpositionen! Vi indfører derfor en måling af slutpositionen, der er givet ved funktionen sidste: Vi kan da tage gentagne målinger af slutpositionen. Faktisk har vi brug for 1000 gentagne målinger for at lade i alt 1000 kugler falde ned gennem kuglespillet! Derefter trækkes Slutposition ind i et grafrum for at få oprettet et histogram over slutpositionerne for de 1000 kugler: 46
51 Eksempel 3: Tusind kugler Målinger fra Kuglespil Slutposition Målinger fra Kuglespil Histogram Slutposition Herefter kan vi fortsætte som før. Men når vi nu er i gang med visualiseringerne kan vi også lige se på hvordan kuglerne fyldes op i båsene. Vi indfører da en dynamisk parameter Kuglenr med heltallige værdier fra 1 til 1000: Kuglenr = Derefter sætter vi et filter på grafen for Målinger fra Slutspil, så vi kun ser kuglerne med numre (indeks) op til kuglenr. Det er mest overbevisende, hvis vi vælger et prikdiagram og låser grafrummet til at gå fra 0 til 49: 47
52 Eksempel 3: Tusind kugler Målinger fra Kuglespil Prikdiagram Slutposition indeks kuglenr Trækker vi nu i den dynamiske parameter ser vi kuglerne en for en fylde båsene op i kuglespillet: Målinger fra Kuglespil Prikdiagram Slutposition indeks kuglenr Sætter vi den dynamiske parameter til at animere forløbet ved at klikke på trekanten er det endda som om der er optaget en film, der først spilles forfra og dernæst bagfra! 48
53 Eksempel 3: Tusind kugler Udfordring: Bogen Tusind kugler handler om tre unges skæbner: Markus, Åsa og Allan. Markus, Åsa og Allan gik i klasse sammen, da de var børn; Åsa og Markus var kærester, Markus og Allan var tætte venner. Siden udvikledes deres liv sig i vidt forskellige retninger, og deres veje skiltes. Men en dag krydses deres veje igen! I bogen fortæller Åsa Markus om sine overvejelser omkring en opgave hun er ved at skrive om en ungdomsforbryder, som netop viser sig at være Allan. Åsa er meget fascineret af samspillet mellem orden og tilfældighed, og ikke mindst af hvordan orden opstår spontant ud af tilfældighed: Den enkelte kugle falder tilfældigt ned gennem kuglespillet, men tusinde kugler frembringer en klokkeformet fordeling, normalfordelingen, og der er i praksis meget snævre grænser for hvor meget det enkelte kuglespil kan afvige fra den ideelle normalfordeling. Større afvigelser peger utvetydigt på at nogle har pillet ved spillet og trukket det 'skævt'. Hun er fx så fortrolig med spillet at hun med det samme opdager at hendes lillebror har sat en mønt fast under den ene side af spillet. Men selv når man forsøger at ændre spillereglerne, hvilket hun har eksperimenteret meget med på sin computer, har kuglerne en forunderlig tendens til stadigvæk at samle sig i en normalfordeling om end den flytter og skifter form i forhold til den oprindelige normalfordeling. Normalfordelingen er meget stædig: den bryder kun sammen, hvis man direkte bryder spillereglerne. Åsa bruger sine erfaringer med kuglespillet til at opdage snyd i den virkelige verden, som fx når journalisterne overdriver de forbrydelser der tilskrives den ukendte kriminelle som Markus ved i virkeligheden er Allan. Hun kan se at mønstrene ikke længere passer sammen og hun får Markus med på at opspore Allan for at finde ud af hvad der i virkeligheden er foregået. Med udgangspunkt i en sådan tekst kan man stille forskellige opgaver til projekter i sandsynlighedsregning, fx: Prøv om du kan simulere et skævt kuglespil, hvor sandsynligheden p ikke er den samme for at falde til venstre som til højre. Hvad sker der med formen af slutspillet? Prøv også om du kan simulere et kuglespil, hvor sandsynlighederne afhænger af, hvor langt ude du er i kuglespillet. Du får da brug for at kunne overføre positionen i kuglespillet til din stokastiske funktion, dvs. parameteren p skal nu også afhænge af positionen. Afsluttende bemærkning om binomialfordeling I det foregående har jeg ikke forudsat noget større kendskab til sandsynlighedsregning. Men det er klart at hvis klassen i forvejen har haft et systematisk forløb om binomialfordelinger, så er det i realiteten en symmetrisk binomialfordeling vi simulerer. Vi kan da trække på den indbyggede tilfældighedsgenerator for binomialfordelingen: 49
54 Eksempel 3: Tusind kugler Formlen binomialtilfældig(49) simulerer altså netop slutpositionen for en kugle i et kuglespil med 49 pinde, idet fordelingen som udgangspunkt er symmetrisk. Læg mærke til at vi også kan simulere en klassisk random Walk gående fra -49 til 49 ved hjælp af kommandoen binomialtilfældig(49;0.5;-49;49). Random Walk med 49 skridt Random_Walk = binomialtilfældig ( 49; 0.5; 49; 49) Random Walk med 49 skridt Histogram Random_Walk 50
55 Eksempel 4: Hvem er den hurtigste? Eksempel 4: Hvem er den hurtigste? En af de mest grundlæggende problemstillinger i statistik består i at undersøge om to forskellige måleserier er signifikant forskellige eller om forskellen på de to serier lige så godt kan tilskrives tilfældige variationer. Der findes selvfølgelig utallige simple eksperimenter, der giver anledning til en sådan sammenligning af måleserier, men her vil vi se på et simpelt eksperiment, der nemt kan udføres fra starten af 1g: Måling af reaktionstiden. Det sker som vist ved at man lader en lineal falde og derefter ser, hvor langt den falder, og dernæst bruger denne faldlængde til at udregne reaktionstiden. Det forudsætter altså lidt teori om faldloven: Ifølge Galileis faldlov, som er en af hjørnestenene i den moderne naturvidenskab, er sammenhængen mellem faldtiden t og faldlængden s givet ved formlen: 1 2 s = g t 2 hvor g er tyngdeaccelerationen, der varierer en lille smule fra sted til sted. Her vil vi ignorere de lokale variationer og bruge den såkaldte standardacceleration, der har værdien m/s 2. Vi kan derfor omsætte en faldlængde til en faldtid ved at isolere t i formlen: 2s t = g 51
56 Eksempel 4: Hvem er den hurtigste? Eleverne arbejder sammen to og to, hvor den ene skal slippe linealen uventet, mens den anden skal forsøge at stande linealen i dens fald så hurtigt som muligt. Derefter bytter de rolle. I hver runde har de netop 10 forsøg. Resultatet er altså en måleserie for hver af eleverne på netop 10 faldlængder, som de i DataMeter omregner til 10 reaktionstider. I det følgende benytter vi autentiske data fra to elever Janus og Vincent. Vi skal da have oprettet en tabel med to variable, en for eleven og en for faldlængden, så man for hvert af eksperimenterne kan se, hvem der udførte det og hvad resultatet blev: Reaktionstid Elev Faldlængde <ny> enhed centimeter = 1 Janus 14.5 cm 2 Janus 11.0 cm 3 Janus 10.0 cm 4 Janus 5.5 cm 5 Janus 8.5 cm 6 Janus 16.0 cm 7 Janus 6.0 cm 8 Janus 15.2 cm 9 Janus 10.0 cm 10 Janus 5.7 cm 11 Vincent 23.5 cm 12 Vincent 26.0 cm 13 Vincent 12.0 cm 14 Vincent 10.5 cm 15 Vincent 13.0 cm 16 Vincent 10.4 cm 17 Vincent 11.9 cm 18 Vincent 14.0 cm 19 Vincent 10.3 cm 20 Vincent 12.0 cm Teknisk bemærkning: Hvis man synes det er for besværligt at skrive navnene ind et for et kan man starte med at tilføje 20 data og dernæst udregne navnene ved hjælp af formlen: Bagefter klippes formlen, da Elev gerne skulle kunne bruges som en uafhængig variabel! 52
57 Eksempel 4: Hvem er den hurtigste? Dernæst skal vi have udregnet faldtiderne, hvilket sker ved hjælp af Galileis faldlov. Datameter har også indbygget alle de gængse naturkonstanter, så Datameter kender godt standardtyngdeacceleration. Det giver anledning til den følgende tabel over navne, faldlængder og faldtider: Reaktionstid Elev Faldlængde Faldtid enhed centimeter sekunder = Faldlængde g Janus 14.5 cm s Janus 11.0 cm s Janus 10.0 cm s Janus 5.5 cm s Janus 8.5 cm s Janus 16.0 cm s Janus 6.0 cm s Janus 15.2 cm s Janus 10.0 cm s Janus 5.7 cm s Vincent 23.5 cm s Vincent 26.0 cm s Vincent 12.0 cm s Vincent 10.5 cm s Vincent 13.0 cm s Vincent 10.4 cm s Vincent 11.9 cm s Vincent 14.0 cm s Vincent 10.3 cm s Vincent 12.0 cm s Det er disse data vi vil diskutere i det følgende. For at få en visuel fornemmelse for dataene trækker vi en graf ind i dokumentet og trækker dernæst den numeriske variabel Reaktionstid ind på førsteaksen og den kategoriserede variabel Elev ind på andenaksen. Allerede med prikdiagrammet får vi en klar fornemmelse af forskellen på de to drenges reaktionsmønster. De har begge en stor variation i reaktionstiderne, men Vincent har mere samling på sine med kun to reaktionstider, der halter lidt bagefter, mens Janus' reaktionstider falder i tre adskilte klumper. Samtidigt ser det ud som om Janus har en tendens til at være lidt hurtigere på aftrækkeren end Vincent. 53
58 Eksempel 4: Hvem er den hurtigste? Reaktionstid Prikdiagram Vincent Janus Faldtid (sekunder) Skifter vi til boksplot og afsætter middelværdien (Plot værdi) fås et tilsvarende mønster: Reaktionstid Boksplot Vincent Janus Faldtid (sekunder) middel ( ) = s Janus' reaktionstider er rimeligt symmetrisk fordelt med en forholdsvis stor kvartilbredde, mens Vincents data er højreskæve med to perifere værdier samt en betragtelig forskel på medianen og middelværdien. Det kunne også godt se ud som om Janus er hurtigere end Vincent: Faktisk ligger hele den nederste halvdel af måleserien for Janus under måleserien for Vincent. De ovenstående forhold er typiske for mange måleserier: De er ikke specielt stabile og rummer tit nogle kraftige skæverter, også i form af ekstremt små reaktionstider i de tilfælde, hvor det lykkes eleven at gætte sig til hvornår linealen slippes. Vi anbefaler derfor eleverne at de bruger den robuste median som et mål for den typiske reaktionstid! Trækker vi en beregningsboks ind i dokumentet kan vi nemt finde medianerne ved at trække variablene Faldtid og Elev ind i oversigtstabellen og efterfølgende rette i formlen, så den udregner medianen. I dette tilfælde opnår de to elever altså følgende typiske reaktionstider: 54
59 Eksempel 4: Hvem er den hurtigste? Reaktionstid Elev Janus Vincent Søjle total R1 = median ( ) Faldtid s s s På basis af denne foreløbige numeriske og grafiske analyse af dataene (en såkaldt Explorative Data Analysis) synes konklusionen altså at være: Janus er hurtigere end Vincent. Men det er selvfølgelig en konklusion Vincent ikke kan være helt tilfreds med, så vi vil give ham lov til at udfordre den i en statistisk test! Er Janus så virkeligt hurtigere end Vincent? Vi har set at Janus har en median, der ligger under Vincents median, og at mange af Janus reaktionstider ligger under Vincents reaktionstider. På den anden side er der kun 10 observationer fra hver, så hvor overbevisende er Janus sejr egentlig? Kunne den ikke lige så godt tilskrives tilfældigheder? Det vil vi nu udføre en statistisk test på og for bedre at kunne leve sig ind i argumentationen vil vi benytte en meget udbredt metafor for en sådan statistisk test i form af en retssag: Sagen Janus versus Vincent De får hver lov til at fremlægge deres påstand: Janus: Jeg har vundet fordi jeg er den bedste! Jeg vinder med overvældende sandsynlighed også næste gang! Vincent: Du har alene vundet fordi du er heldig! Næste gang kan det lige så godt være mig, der vinder! Teknisk bemærkning: Kernen i enhver statistisk test er en undersøgelse af om en observeret forskel skyldes systematiske variationer i data eller tilfældige variationer i data. De to påstande knyttet til den statistiske test kaldes hypoteser: Påstanden om at forskellen skyldes tilfældige variationer i data kaldes nulhypotesen H 0. Den udsiger altså at der ingen systematisk forskel er på de to måleserier, dvs. den systematiske forskellen er nul. Påstanden om at forskellen skyldes systematiske variationer i data kaldes den alternative hypotese H a. Strengt taget skal disse hypoteser foreligge før målingerne udføres. Man må altså forestille sig at Janus kigger Vincent dybt i øjnene og siger: "Jeg er bare hurtigere end dig" og at Vincent efterfølgende udfordrer ham på en reaktionstest for at få sat påstanden fra Janus på prøve. Det er så resultaterne fra denne test, der skal afgøre om Janus kan opretholde sin påstand. 55
60 Eksempel 4: Hvem er den hurtigste? Spørgsmålet er nu hvordan vi kan finde en rimelig afgørelse på tvisten? Vi må altså blive enige om nogle spilleregler. Der findes nu forskellige strategier for hvordan man udfører detaljerne i testen, men det er de samme overordnede rammer man anvender i de forskellige typer test. I alle tilfælde går man ud fra Vincents påstand om at der i virkeligheden ikke er nogen forskel og at de observerede forskelle alene skyldes tilfældigheder (den såkaldte nulhypotese) og antager altså midlertidigt at han har ret: Retten bygger sin dom på en analyse af den følgende midlertidige antagelse: Det er alene tilfældigheder, der har afgjort konkurrencen mellem de to. Både Janus og Vincent forpligter sig naturligvis på dette udgangspunkt. Dernæst vælges en teststørrelse: Hvorfor mener Janus han er bedre end Vincent. Det kan han have mange gode grunde til, men han er nødt til at vælge en af dem for at gennemføre testen. Janus kan så fx sige: Jeg er bedre end Vincent, fordi jeg har en bedre median. Vi vedtager altså at testen skal gå på medianforskellen. Igen må begge siderne altså forpligte sig på at lade retten basere sin afgørelse på en analyse af denne teststørrelse. Hvis det alene var tilfældet som rådede, ville man forvente en medianforskel på 0 s : Det ville være lige så sandsynligt at Janus vandt som at Vincent vandt. I den faktiske konkurrence finder man nu en medianforskel på s, dvs. så meget hurtigere er Janus i forhold til Vincent målt på medianen: Reaktionstid s R1 = median ( Faldtid; Elev = "Janus") median ( Faldtid; Elev = "Vincent" ) Janus fastholder nu, at denne forskel virker meget stor, og derfor svær at opnå ved alene at lade tilfældet råde, mens Vincent fastholder, at den virker meget lille, og derfor er nem at forklare alene ved tilfældighedernes spil. I retten udregner man nu sandsynligheden for at konkurrencen kunne ende så skævt, som den faktisk gjorde: Hvis denne sandsynlighed er meget stor, står Vincent stærkt: Hvis man alene lader tilfældet råde vil det være nemt at få et udfald som det faktisk observerede. Hvis denne sandsynlighed derimod er meget lille, står Vincent dårligt: Der skal da nærmest et mirakel til for at få et så ekstremet udfald blot ved at lade tilfældet råde. Problemet er selvfølgelig, hvor grænserne ligger for en klar afgørelse. Også disse grænser bør aftales på forhånd! Der er da tradition for at man fastlægger et kritisk niveau. Det kan fx være på 1%. Hvis sandsynligheden er under 1% vil man altså højst kunne opnå et så skævt resultat i 1 ud af 100 konkurrencer, hvis det alene var tilfældet. Det svækker Vincent betydeligt, for det gør det højst usandsynligt at de skulle få et så skævt resultat, når de kun prøvede kræfter den ene gang. Igen skal de to kombattanter forpligte sig på det kritiske niveau og respektere rettens afgørelse: 56
61 Eksempel 4: Hvem er den hurtigste? Aftalen: Hvis sandsynligheden for at det kan ende så skævt som det rent faktisk gjorde når vi lader tilfældighederne råde er under 1% vinder Janus retssagen. I modsat fald vinder Vincent retssagen. Tilbage er så blot spørgsmålet om hvordan vi finder sandsynligheden! Det kan gøres på to væsentligt forskellige metoder: Ved en rent teoretisk beregning af teststørrelsens fordeling. Ved en rent eksperimentel undersøgelse af teststørrelsens fordeling. Bemærkning: Det er den teoretiske analyse af testsandsynligheden, der er meget krævende. Udover et stort matematisk apparat afhænger den meget af en lang række detaljer såsom kendskab til den teoretiske fordeling af reaktionstiderne hos de to kombattanter og det specifikke valg af teststørrelse. I praksis afgør man derfor sådanne tvistigheder ved hjælp af en række kanoniske tests, der på forhånd er undersøgt teoretisk i alle detaljer, hvorfor man kan nøjes med at checke om forudsætningen for teorien er opfyldt og derefter slå sandsynligheden op i en tabel eller udregne den via et program. I vores konkurrence, ville man således traditionelt anvende et t-test. Det forudsætter at 1. reaktionstiderne er normalfordelte (herunder symmetriske), hvad vi allerede har set de ikke er! 2. spredningerne er de samme, hvad vi også har set de ikke er! 3. vi vælger forskellen i middelværdi som teststørrelse, hvad vi netop ikke har gjort! Hvis vi skulle basere rettens afgørelse på en teoretisk funderet kanonisk test ville vi altså være ilde stedt! Vi vælger derfor den anden mulighed og gennemfører rettens analyse ud fra en eksperimentel undersøgelse af teststørrelsens fordeling. Vi kommer da til at træffe endnu et valg: Hvor præcist vil vi kende fordelingen? Hvis den kritiske sandsynlighed er 1% skal vi i praksis kende fordelingen med en nøjagtighed på nogle få promille. Det må vi altså tage højde for i det følgende! Tilbage står så blot at simulere udfaldene af eksperimentet på tilfældig vis. Det kan gøres på forskellige måder, men her benytter vi følgende synsvinkel: Hvis Vincent har ret er det i virkeligheden rent tilfældigt hvordan de fremkomne reaktionstider er fordelt på de to kombattanter. Vi kan derfor simulere de tilfældige udfald af eksperimentet ved at rører rundt i variablene i datasættet, dvs. vi gennemfører en tilfældig permutation af navnene og bryder dermed enhver sammenhæng mellem personer og reaktionstider. I så fald vil vi få et datasæt, hvor forskellen mellem de to personer med garanti kan tilskrives tilfældigheder. Spørgsmålet er så i hvor høj grad det omrørte datasæt ligner det originale datasæt. Hvis de ligner hinanden meget taler det for også at opfatte forskellene mellem de to personer i det originale datasæt som værende fremkommet ved tilfældigheder. Hvis de derimod overhovedet ikke ligner hinanden taler det for at opfatte forskellen mellem de to personer i det originale datasæt som en reel systematisk forskel, dvs. at Janus reelt synes at være hurtigere end Vincent. 57
62 Eksempel 4: Hvem er den hurtigste? Retten er sat! Omrøring i hånden: Inden vi gennemfører omrøringen med DataMeter vil vi lige påpege at det er nemt at udføre omrøringen i hånden. Det kan derfor være en god ide at gennemføre en omrøring med klassen i hånden så de kan derved bedre kan fange ideen. Hver elev får da to sæt kort af ti kort med hver sin farve, fx blå og gul, og tildeler Janus 10 blå kort og Vincent 10 gule kort. Reaktionstiderne for Janus skrives op på de blå kort, mens reaktionstiderne for Vincent skrives op på de gule kort. Derefter blandes kortene rigtig godt og grundigt og de tyve kort fordeles nu på Janus og Vincent på en systematisk måde, fx de ti første kort til Janus og de ti sidste kort til Vincent. Eleverne har da netop fået omrørt observationerne godt og grundigt og derved sikret at Janus i det omrørte datasæt får en tilfældig blanding af blå og gule kort og tilsvarende med Vincent. Eleverne lægger nu de ti omrørte kort for Janus op i rækkefølge efter stigende reaktionstid og noterer hans median i det omrørte sæt. Tilsvarende gøres for Vincent. Til sidst finder eleverne forskellen mellem medianerne for reaktionstiderne for Janus og Vincent. Det er her tydeligvis en fordel at vi arbejder med medianen og ikke fx middelværdien, da vi så stort set slipper for at foretage manuelle udregninger. Der kan højst blive tale om gennemsnittet af to tal! Med en klasse på fx 25 har vi altså nu 25 forskellige målinger af forskellen i medianerne i de scramblede datasæt. Gentages det nogle gange kan man rimeligt hurtigt opbygge en samling på 100 målinger af forskellen mellem medianerne i de omrørte datasæt. Disse medianforskelle kan løbende indtastes i et datasæt, så man hurtigt kan få frembragt et billede af deres fordeling og supplere med de nødvendige udregninger. Det gør det muligt at se hvor typisk forskellen i det originale datasæt er, idet man kan se om den ligger midt inde i klumpen af de omrørte forskelle, eller tværtimod langt ude i enderne. Derved kan man finde sandsynligheden for at frembringe den observerede forskel ved et rent tilfælde. Hvis denne sandsynlighed er endog meget lav tyder det på at forskellen på Janus og Vincent er reel. Ellers kan vi lige så godt forklare den ved tilfældigheder! For at udføre en enkelt omrøring højreklikker vi på datasættet for Reaktionstider og vælger Rør rundt i en variabel fra menuen (eller det tilsvarende menupunkt på Datasæt-menuen). Der dukker da et nyt afledet datasæt på skærmen med navnet Omrøring af Reaktionstid som vi kan inspicere ved at dobbeltklikke på det. Som det sidste faneblad finder vi Omrøring. Her kan vi vælge hvilken variabel vi vil omrøre. I dette tilfælde er der tre variable: Elev, Faldlængde og Faldtid. Som udgangspunkt røres der rundt i den første variabel. Det passer fint her, fordi vi så rører rundt i den kategoriserede variabel, dvs. navnet. Men da man kun kan røre rundt i uafhængige variable skal man huske at klippe formlen for Faldtid først! Ellers går der kludder i enhederne. 58
63 Eksempel 4: Hvem er den hurtigste? Vi skal nu have oprettet en måling af forskellen i medianer i det omrørte datasæt (hvis vi da ikke på forhånd har indført målingen i det oprindelige datasæt og dermed trukket den med over i det omrørte datasæt). Det sker ved at åbne fanebladet for målinger og så indskrive formlen (eller kopiere den og indsætte den, hvis den allerede er indført i en beregningsboks) Vi kan nu se hvordan eksperimentet opfører sig, når vi gentager omrøringen. Visuelt kan man fx se på hvordan boksplottene for de to kombattanter opfører sig når vi gentager omrøringen: Omrøring af Reaktionstid Boksplot Omrøring af Reaktionstid Boksplot Vincent Vincent Janus Janus Faldtid (sekunder) Faldtid (sekunder) Vi ser da at det sommetider er Janus, der vinder, og sommetider er det Vincent, der vinder. Og i snit vinder de selvfølgelig ca. lige mange gange hver i den omrørte version, fordi det nu netop kun er tilfældighedernes spil, der råder. Men det interessante er så med hvor meget de vinder, dvs. hvor stor forskellen bliver mellem medianerne. Vi foretager derfor en gentagen måling på det omrørte datasæt ved at højreklikke og vælge menupunktet Udfør gentagne målinger. Der oprettes da et nyt afledet datasæt med de gentagne målinger og på det sidste faneblad i den tilhørende datainspektør kan vi sætte betingelserne for den gentagne måling: 59
64 Eksempel 4: Hvem er den hurtigste? Her har vi slået animationen fra (som er tidsrøvende idet alle andre grafer osv. hele tiden skal opdateres løbende mens målingerne gentages). Tilsvarende har vi slået Erstat de eksisterende målinger til, så vi starter forfra på målingerne. Derved bliver det nemmere at holde styr på det samlede antal målinger. Endelig har vi sat antallet af målinger til 1000, hvilket er mange, men det giver en rimelig høj sikkerhed for at præcist billede af fordelingen: Målinger fra Omrøring af Reaktionstid Prikdiagram Medianforskel (sekunder) s = s Som det ses af prikdiagrammet er fordelingen for medianforskellene grynet. Det er karakteristisk for fordelinger, der involverer medianer: Der er kun et forholdsvis lille antal mulige medianer, og dermed også kun et overskueligt antal medianforskelle. 60
65 Eksempel 4: Hvem er den hurtigste? Endvidere kan vi også se at den observerede medianforskel på s slet ikke er så usædvanlig endda. Vi kan nu nemt finde ud af hvilken sandsynlighed den observerede medianforskel svarer til, dvs. hvor mange observationer der går forud for den observerede forskel. Det kan fx ske ved at tælle kugler i det tilhørende Prikdiagram eller ved hjælp af en formel i en Beregningsboks. Målinger fra Omrøring af Reaktionstid 124 R1 = tæl ( Medianforskel s ) Vi finder altså at 124 af kuglerne ligger mindst lige så langt ude, dvs. i mere end 1/10 af tilfældene vil vi kunne frembringe en forskel, der er mindst lige så stor. Det tyder på at vi forholdsvis nemt kan forklare den observerede forskel som et resultat af tilfældigheder, så mere overbevisende er Janus sejr altså heller ikke! Vi konkluderer derfor at det blev Vincent, der har vundet retssagen: Janus har ikke kunnet overbevise retten om at han reelt er bedre end Vincent. Til slut vil vi lige kort se på hvad der sker, hvis vi i stedet for at sammenligne medianer benytter den indbyggede standardtest til at sammenligne middelværdier. Vi trækker derfor Test-værktøjet ned og vælger testet for sammenligning af to middelværdier: Test af to middelværdier Stikprøveresultater Første variabel (numerisk): Ikke tildelt Anden variabel (numerisk eller kategoriseret): Ikke tildelt Stikprøvens størrelse for Første variabel : 20 Stikprøvens størrelse for Anden variabel : 20 Stikprøvens middelværdi for Første variabel : 100 Stikprøvens middelværdi for Anden variabel : 110 Standardafvigelsen for Første variabel : 10 Standardafvigelsen for Anden variabel : 15 Standardfejlen for middelværdien af Første variabel : Standardfejlen for middelværdien af Anden variabel : Alternativ hypotese: Populationsmiddelværdien af Første variabel er forskellig fra den fra Anden variabel Teststørrelsen, Student's t, på grundlag af ukombinerede varianser, er Der er frihedsgrader. Hvis det var sandt at populationsmiddelværdien af Første variabel var den samme som den fra Anden variabel (nulhypotesen), og vi gentog stikprøven mange gange, ville sandsynligheden for at få en værdi for Student's t der var med en numerisk værdi, der er mindst lige så stor være Vi får da en skabelon for testen, hvor vi skal indsætte forskellige oplysninger markeret med blå skrift. Hvis vi som her har de rå data til rådighed kan vi simpelthen trække de to relevante variable ind i skemaet. Ellers må vi selv indskrive nøgletallene: stikprøveantal, stikprøvemiddelværdier samt standardafvigelser. Disse nøgletal kunne fx være oplyst i en opgavetekst. 61
66 Eksempel 4: Hvem er den hurtigste? Men her trækker vi de to variable ind. Første variabel er numerisk og giver direkte anledning til middelværdierne. Det er altså variablen Faldtid. Anden variabel er kategorisk med to forskellige værdier, som splitter den første variabel i to kategorier, her Elev. Teknisk bemærkning: Ifølge skemaet kunne anden variabel også være numerisk. I så fald rummer de to variable simpelthen værdierne for de to måleserier, hvis middelværdi skal sammenlignes. Test af to middelværdier Test fra Reaktionstid Første variabel (numerisk): Faldtid Anden variabel (numerisk eller kategoriseret): Elev Stikprøveantal fra Elev = Janus: 10 Stikprøveantal fra Elev = Vincent: 10 Stikprøvemiddelværdi fra Faldtid når Elev = Janus: s Stikprøvemiddelværdi fra Faldtid når Elev = Vincent: s Standardafvigelse af Faldtid når Elev = Janus: s Standardafvigelse af Faldtid når Elev = Vincent: s Standardfejl af Faldtid når Elev = Janus: s Standardfejl af Faldtid når Elev = Vincent: s Alternativ hypotese: Populationsmiddelværdien for Faldtid når Elev = Janus er forskellig fra den som opfylder Elev = Vincent Teststørrelsen, Student's t, på grundlag af ukombinerede varianser, er Der er frihedsgrader. Hvis det var sandt at populationsmiddelværdien af Faldtid når Elev = Janus var den samme som den fra Faldtid når Elev = Vincent (nulhypotesen), og vi gentog stikprøven mange gange, ville sandsynligheden for at få en værdi for Student's t med en numerisk værdi, der er mindst lige så stor være Det giver anledning til den viste udfyldning af skemaet. Men her har vi stadigvæk mulighed for at justere den alternative hypotese (mens nulhypotesen ligger fast: De to middelværdier er ens og enhver observeret forskel skyldes tilfældige variationer). I vores tilfælde var den alternative hypotese at Janus er hurtigere end Vincent og dermed har en mindre middelværdi: Teknisk bemærkning: Endelig er der en lidt kryptisk bemærkning om at teststørrelsen er beregnet på grundlag af ukombinerede varianser. Forudsætningen for at udføre et kanonisk test er at de to måleserier har samme varians, og at denne fælles værdi derfor kan beregnes ved at samle de to måleserier til en lang måleserie. Men man kunne også give et skøn over den fælles varians ved at kombinere de to stikprøvevarianser. Det endelige resultat fra testværktøjet giver en testsandsynlighed på 2.9%, så heller ikke her er Janus alt for overbevisende! Vi ligger dog og roder nede i nærheden af 1%, så denne gang ville vi konkludere at testet var niveaufølsomt (og afgørelsen derfor ikke helt klar til fordel for en af hypoteserne). 62
67 Eksempel 4: Hvem er den hurtigste? Test fra Reaktionstid Test af to middelværdier Første variabel (numerisk): Faldtid Anden variabel (numerisk eller kategoriseret): Elev Stikprøveantal fra Elev = Janus: 10 Stikprøveantal fra Elev = Vincent: 10 Stikprøvemiddelværdi fra Faldtid når Elev = Janus: s Stikprøvemiddelværdi fra Faldtid når Elev = Vincent: s Standardafvigelse af Faldtid når Elev = Janus: s Standardafvigelse af Faldtid når Elev = Vincent: s Standardfejl af Faldtid når Elev = Janus: s Standardfejl af Faldtid når Elev = Vincent: s Alternativ hypotese: Populationsmiddelværdien for Faldtid når Elev = Janus er mindre end den som opfylder Elev = Vincent Teststørrelsen, Student's t, på grundlag af ukombinerede varianser, er Der er frihedsgrader. Hvis det var sandt at populationsmiddelværdien af Faldtid når Elev = Janus var den samme som den fra Faldtid når Elev = Vincent (nulhypotesen), og vi gentog stikprøven mange gange, ville sandsynligheden for at få en værdi for Student's t mindst lige så lille være Igen kunne vi have tilføjet middelforskellen som en måling og lave 1000 gentagne målinger af middelforskellen og derved eksperimentelt fastslå sandsynligheden for at få et resultat, der er mindst lige så skævt som den observerede middelforskel på s. Ved en prøvekørsel fandt jeg da også 1.9% i rimelig overensstemmelse med p-værdien på 2.9% fra den officielle t-test. Målinger fra Omrøring af Reaktionstid Prikdiagram Middelforskel (sekunder) s = s 63
68 Eksempel 4: Hvem er den hurtigste? Avanceret mellemspil: Mann-Whitney testen Som vi har set står Janus væsentlig stærkere i en kanonisk t-test, hvor man sammenligner middelværdier, end ved en direkte test på medianer. Vincent straffes i t-testen for sine perifere værdier, der trækker såvel fordelingen som hans middelværdi skæv. Omvendt er det et problem for Janus at medianen kun afhænger af de midterste værdier og det derfor er ligegyldigt at hans bedste værdier alle ligger under Vincents værdier. Det kunne give anledning til at man i stedet valgte en kanonisk test med de følgende egenskaber: Den skal være robust, så den hænger sig ikke så meget i de absolutte størrelser for reaktionstiderne, men i stedet hæfter sig ved rækkefølgen. Derved bliver Vincent ikke straffet for sine perifere værdier. Den skal tage hensyn til alle data, så man fx ikke kan nøjes med blot at se på medianerne, der kun tager hensyn til rækkefølgen for de midterste data. Derved bliver Janus ikke straffet for at det er så svært at skubbe medianerne så langt fra hinanden. Det gør det nærtliggende at anvende en Mann-Whitney test. Den findes i flere forskellige varianter, men her vil vi se på den symmetriske variant, da det er den nemmeste at forklare. Når vi ser på de opnåede reaktionstider, går vi først alle Janus reaktionstider igennem en for en og for hver reaktionstid noteres hvor mange gange den er bedre end reaktionstiderne for Vincent. Det giver antallet af sejre i Janus favør. Bagefter gås alle Vincents reaktionstider igennem en for en og for hver reaktionstid noteres hvor mange gange den er bedre end reaktionstiderne for Janus. Det giver antallet af sejre for Vincent. Janus Vincent Her har vi illustreret princippet i Excel (efter først at have ordnet reaktionstiderne i stigende rækkefølge), hvor det er nemmere at opbygge et kvadratisk skema og tælle de respektive sejre for begge sider. Det viser sig da at Janus har 73 sejre, mens Vincent har 27 sejre. Det giver et overskud til Janus på 46 sejre. Det er denne teststørrelse vi skal undersøge fordelingen af. Hvis det nu var tilfældighedernes spil der rådede ville de i gennemsnit have lige mange sejre. Men i det konkrete tilfælde har Janus altså et overskud. Spørgsmålet er om dette overskud lige så godt kunne forklares med tilfældighedernes spil! Det første problem bliver da at udregne antallet af sejre for de to kombattanter. Men her kan vi udnytte at vi kan sortere data i faldende rækkefølge: 64
69 Eksempel 4: Hvem er den hurtigste? Reaktionstid Elev enhed Faldtid sekunder = Vincent s Vincent s Janus s Janus s Janus s Vincent s Vincent s Vincent s Vincent s Vincent s Janus s Vincent s Vincent s Vincent s Janus s Janus s Janus s Janus s Janus s Janus s Vi ser da at Indeks netop giver rækkefølgen for reaktionstiderne. Janus har de højeste indekser i overensstemmelse med at han har de hurtigste reaktionstider. Lægger vi indeksene sammen for Janus fås derfor antallet af sejre over Vincent inklusive antallet af sejre over Janus selv. De sidste skal selvfølgelig trækkes fra, dvs. vi skal korrigere for de 11 10/2 = 55 point Janus får, uanset hvilke tider Vincent opnår. Det samme gælder selvfølgelig Vincent. Vi finder da: Reaktionstid 46 R1 = sum ( Indeks; Elev = "Janus") tæl ( Navn = "Janus") ( hvor vi har indskrevet den lange formel: 65
70 Eksempel 4: Hvem er den hurtigste? Dermed er vi klar til at oprette en måling for Mann-Whitney teststørrelsen (givet ved den ovenstående formel) og dermed fastlægge dens fordeling via 1000 gentagne målinger på det omrørte datasæt. Vi finder da det følgende histogram, hvor vi også har indtegnet værdien for teststørrelsen i det faktiske eksperiment, dvs. 46: Målinger fra Omrøring af Reaktionstid 40 Histogram Mann_Whitney 46 = 46 66
71 Eksempel 4: Hvem er den hurtigste? Som det ses ligger der en betydelig hale uden for den faktiske testværdi, og det lover ikke så godt for Janus! En optælling viser da også at 48 ud af 1000, dvs. tæt ved 5% rammer længere ude. Det synes altså som om det ikke er så svært at få så skævt et resultat ved rene tilfældigheder og Janus taber derfor også denne test (om end den igen må karakteriseres som niveaufølsom)! Målinger fra Omrøring af Reaktionstid Mann_Whitney 48 R1 = tæl ( Mann_Whitney 46) Vi slutter det avancerede mellemspil om Mann-Whitney-testen med at se lidt på mulighederne for en teoretisk beregning. Det viser sig imidlertid at man ikke kan opstille en lukket formel for hyppighederne for Mann-Whitney teststørrelsen. Man kan godt beregne dem rekursivt, men det er et tungt apparat. Så i praksis nøjes man med at bruge en normalfordelingsapproksimation. Ligesom med binomialfordelinger er den bedst hvis fordelingen ikke er for grov eller for skæv. Begge parter skal altså have et rimeligt antal forsøg. Her er en nedre grænse på ti forsøg til hver i praksis god nok. Det underbygges af et normalfordelingsplot, hvor spredningen også ligger rimeligt tæt på den forventede spredning: n1 n2 ( n1 + n2 + 1) ( ) = = Målinger fra Omrøring af Reaktionstid 80 Normalplot Normalfraktil Mann_Whitney = 26.7Normalfraktil Normalfraktil = 2 Normalfraktil = 2 Bemærkning: Læg mærke til at vi lægger normalfordelingsplottet med dataaksen lodret. Det gør det nemmere at aflæse middelværdi (her 1.2) og spredning (her 26.7) for normalfordelingsapproksimationen. Vi kan også indtegne normalfordelingstætheden på histogrammet, der da bør skaleres til at vise tætheden: 67
72 Eksempel 4: Hvem er den hurtigste? Målinger fra Omrøring af Reaktionstid Histogram Mann_Whitney Tæthed for Mann_Whitney = normtæthed ( Mann_Whitney; midde Vi kan så benytte normalfordelingsapproksimationen til at udregne den ønskede sandsynlighed. Hvis teststørrelsen skal være større end eller lig med 46 skal den udsmurte normalfordeling være større end eller lig med 45, idet teststørrelsen springer med 2 ad gangen, idet Mann-Whitney teststørrelsen kun tager lige (eller kun ulige) værdier, der går fra n 1 n 2 til +n 1 n 2 ). Målinger fra Omrøring af Reaktionstid Mann_Whitney R1 = 1 normsummeret ( 45; 0; 10 kvrod ( 7) ) R2 = 1 normsummeret ( 45; middel ( Mann_Whitney) ; s ( Mann_Whitney) ) Her har vi beregnet disse sandsynligheder både ud fra den teoretiske formel (ca. 4.5%) og fra normalfordelingsapproksimationen til den omrørte fordeling (ca. 5.0%). I begge tilfælde fås altså værdier der ligger tæt på de observerede 4.8%. Slut på avanceret mellemspil 68
73 Eksempel 4: Hvem er den hurtigste? Reaktionstider for en hel årgang Nu har vi længe nok vadet grundigt rundt i et opgør mellem to elever. Vi slutter med at se på den typiske fordeling af reaktionstiderne for en større population, fx fra en bestemt årgang. Her ses fx resultaterne fra årgang 2003 på Haslev Gymnasium. Der er også medtaget en enkelt lærer (mig selv!) for at få det til at gå op med et lige antal: Reaktionstider fra en hel årgang Elev Klasse Reaktionstid Køn enhed sekunder = bx s p 38 1bx s d 39 1bx s d 40 1a s p 41 1a s p 42 1y 0.11 s d 43 1z s p 44 1z s p 45 1bx s p 46 1bx s p 47 1z s d 48 1z s d 49 1a s p 50 1a s p 51 1bx 0.16 s p 52 1bx s p 53 1a s d 54 Lærer 0.15 s d For at danne os et overblik over datasættet tegner vi forskellige grafer over fordelingen, der på mange måder viser det samme fra lidt forskellige synsvinkler: Et prikdiagram, et histogram, et boksplot og et normalfordelingsplot. På alle graferne har vi tilføjet middelværdien og på prikdiagrammet og normalfordelingsplottene har vi ydermere tilføjet grænserne for normalområdet, dvs. middelværdien ± 2 standardafvigelser. Det fremgår af graferne at fordelingen er trukket lidt højreskæv af en enkelt perifer værdi, samt at middelværdien er s og at alle observationerne bortset fra den hurtigste og den langsomste ligger i normalområdet. Der er altså kun to observationer der skiller sig ud. Fordelingen kan også med rimelighed beskrives ved en normalfordeling med middelværdi s og spredning s. 69
74 Eksempel 4: Hvem er den hurtigste? Reaktionstider fra en hel årgang Prikdiagram Reaktionstider fra en hel årgang Boksplot Reaktionstid (sekunder) middel ( ) = s middel ( ) 2 s ( ) = s middel ( ) + 2 s ( ) = s Reaktionstid (sekunder) middel ( ) = s Reaktionstider fra en hel årgang Histogram Reaktionstid (sekunder) middel ( ) = s Reaktionstider fra en hel årgang Normalfraktil Reaktionstid = Normalfraktil Normalfraktil = 2 Normalfraktil = 2 Normalplot Er det så hvad man ville forvente for en undersøgelse af reaktionstider? For at besvare dette spørgsmål må vi kende lidt til mere omfattende undersøgelser af reaktionstider. Sådanne undersøgelser ligger bl.a. til grund for nogle simple maskiner, der tidligere blev brugt til at måle reaktionstiden. Her er vist et billede af en hollandsk maskine, men tilsvarende maskiner har også tidligere været stillet op i Danmark. Maskinen fungerer ved at man skubber en mønt ind, som på et tilfældigt tidspunkt efterfølgende falder frit. Ved at trykke på en tast kan man stoppe faldet og aflæse på skalaen, hvor lang tid man har brugt og hvor hurtig man har været. Af det tilhørende skema fremgår at en normal reaktionstid går fra 0.13 s til 0.17 s med en midterværdi på 0.15 s. Det passer fint med en observeret middelværdi på s. Vores observerede normalområde, der går fra 0.10 s til 0.20 s passer også pænt med de afgrænsende områder SNEL og ZER SNEL (der rækker ned til 0.09 s) på den ene side og LANGZAAM (der rækker helt op til 0.21 s) på den anden side. Vi har ingen elever, der er BLIKSEMSNEL og kun en enkelt der er GERING. 70
75 Eksempel 4: Hvem er den hurtigste? Når man har en hel årgang til rådighed kan man også sammenligne fx drenge og piger. Vi trækker derfor variablen Køn ind på andenaksen i et boksplot: Reaktionstider fra en hel årgang Boksplot p d Reaktionstid (sekunder) middel ( ) = s 71
76 Eksempel 4: Hvem er den hurtigste? Vi ser da at drengenes fordeling er pænt symmetrisk, mens pigernes trækkes skævt af den perifere langsomme pige. Vi ser også at drengene tilsyneladende i middel er lidt hurtigere end pigerne ligesom pigernes fordeling falder i to tydelige halvdele. Men fjerner vi den hurtigste dreng og den langsomste pige fx ved at sætte et passende filter på er forskellen knap så markant (om end pigernes fordeling stadigvæk er trukket lidt skæv til højre): Reaktionstider fra en hel årgang Boksplot p d Reaktionstid (sekunder) middel ( ) = s ( Reaktionstid > 0.10s ) og ( Reaktionstid < 0.20s Som i eksemplet med Janus og Vincent kan vi teste om forskellen er signifikant. Her nøjes vi med at se på udfaldet af en kanonisk t-test med tilhørende grafisk fremstilling af testfordelingen: Test af to middelværdier Test fra Reaktionstider fra en hel årgang Første variabel (numerisk): Reaktionstid Anden variabel (numerisk eller kategoriseret): Køn Stikprøveantal fra Køn = d: 21 Stikprøveantal fra Køn = p: 33 Stikprøvemiddelværdi fra Reaktionstid når Køn = d: s Stikprøvemiddelværdi fra Reaktionstid når Køn = p: s Standardafvigelse af Reaktionstid når Køn = d: s Standardafvigelse af Reaktionstid når Køn = p: s Standardfejl af Reaktionstid når Køn = d: s Standardfejl af Reaktionstid når Køn = p: s Alternativ hypotese: Populationsmiddelværdien for Reaktionstid når Køn = d er forskellig fra den som opfylder Køn = p Teststørrelsen, Student's t, på grundlag af ukombinerede varianser, er Der er frihedsgrader. Hvis det var sandt at populationsmiddelværdien af Reaktionstid når Køn = d var den samme som den fra Reaktionstid når Køn = p (nulhypotesen), og vi gentog stikprøven mange gange, ville sandsynligheden for at få en værdi for Student's t med en numerisk værdi, der er mindst lige så stor være 0.1. Test fra Reaktionstider fra Funktionsgraf en hel år Student's t y = ttæthed ( x ; frihedsgrader) Der synes altså ikke at være signifikant forskel på drengenes og pigernes reaktionstider (målt på middelværdierne af de to stikprøver). 72
77 Eksempel 5: Challenger ulykken Eksempel 5: Challenger ulykken Challenger ulykken er en af den nyere tids mest spektakulære teknologiske ulykker: Den 28. januar 1986 forulykkede rumfærgen Challenger kort efter starten på opsendelsen. Tragedien fik en enorm medieomtale bl.a. fordi det var første gang en skolelærer, Christa McAuliffe, skulle med i rumfærgen, det såkaldte 'Teacher in Space'-programme, hvorfor mange amerikanske skoler fulgte opsendelsen intenst. Ulykken blev undersøgt af en national kommission, der bl.a. udpegede fysikeren og nobelpristageren Richard Feynman som et af sine medlemmer. Det skulle blive Feynman, der løste gåden om den uheldssvangre rumfærges forlis, men meget tyder på, at han blev kraftigt støttet af folk fra NASA, der godt kendte problemerne, men ønskede løsningen fremlagt af en kendt fysiker udefra, så opklaringen kunne få den rigtige effekt, såvel eksternt som internt i den store organisation. Feynman selv har beskrevet hændelsesforløbet i bogen: "What do you care what other people think?". Herhjemme har rektor Claus Jensen fra Fåborg Gymnasium udgivet bogen: Challenger et teknisk uheld (Samleren 1993). Der er masser af stof til tværfagligt samarbejde fx mellem fag som samfundsfag, fysik og matematik. Her vil jeg dog holde mig til matematikken, dvs. specielt statistikken. Hovedspørgsmålet er da: Kunne ulykken være undgået? Havde NASA rent faktisk tilstrækkelig med forhåndsviden til at de burde have udsat flyvningen? 73
78 Eksempel 5: Challenger ulykken Feynman er hård i sin kritik af NASA s håndtering af ulykkesvurderingerne, og har især hæftet sig ved den markante forskel mellem vurderingerne foretaget af ingeniørerne henholdsvis administrationen. Ingeniørerne opfattede langt fra rumfærgeflyvningerne som egentligt sikre. Ved en almindelig rumflyvning siger tommelfingerregler at ca. 4 ud af 100 ender galt, men ingeniørerne var godt klar over at bemandede rumflyvninger blev checket grundigere; Alligevel mente de stadigvæk at risikoen for et alvorligt uheld var af størrelsesordenen 1%. Administrationen satte derimod risikoen for et alvorligt uheld til Begrundelsen var en lang og kompliceret udregning, som Feynman fandt totalt meningsløs, idet den byggede på et mylder af forudsætninger, der var rent vilkårlige og tilsyneladende kun tjente til at vise at slutrisikoen var af den ønskede størrelse! Feynmans konklusion var derfor at rumfærgeopsendelserne nærmest måtte sammenlignes med russisk roulette med en ikke-forsvindende risiko for at ende i en katastrofe, men hvor man fortsatte flyvningerne nærmest fordi det jo endnu ikke var gået galt. Som Richard Feynman bemærkede det: When playing Russian roulette the fact that the first shot got off safely is little comfort for the next. I den konkrete flyvning samlede interessen sig hurtigt om de såkaldte O-ringe. Optagelser fra opsendelsen viste tydelige lække af brændende gasser, og de kunne klart være hovedårsagen til den kraftige eksplosion af hovedtanken. Lækken skulle være sket ved at gas strømmede forbi to O-ringe, fordi disse af en eller anden grund ikke havde sluttet helt tæt. Disse ringe var af gummi og skulle udvide sig hurtigt under opsendelsen: På grund af den kraftige varmeudvikling og de kraftige rystelser udvidede mellemrummet omkring O-ringene sig nemlig under opsendelsen. Tidligere flyvninger og test af sammenslutningerne havde vist at dette kunne føre til erosion af O-ringene. Men jo koldere ringene er jo mere stive er ringene, og dette kunne føre til en problematisk forsinkelse af deres udvidelse. Netop på ulykkesdagen den 28. januar var det betydeligt koldere (lige under frysepunktet) end ved nogen tidligere opsendelse og dette kunne have fået katastrofale konsekvenser. Inden en offentlig høring lykkedes det Feynman at skille en model af rumfærgen ad og tiltuske sig en O-ring, så han kunne få afprøvet dens manglende fleksibilitet, når ringen blev lagt i et glas med isvand. Derefter blev modellen samlet igen så han på det rette tidspunkt under en tv-transmitteret høring offentligt kunne skille modellen ad og med stor dramatik demonstrere, hvordan ringen stivnede i isvand og derfor tog nogle sekunder inden den rettede sig ud igen, når den blev løftet op af isvandet. Dermed havde man fundet årsagen til ulykken, men det besvarer jo ikke problemet om hvorvidt NASA burde have forudset det. NASA havde godt nok siden 1977 været klar over at O-ringene var et ekstremt svagt led, og de havde derfor skærpet testrutinerne omkring deres samling gennem årene, men ingen havde for alvor testet temperaturafhængigheden. Man samlede derfor nu alle tilgængelige oplysninger om opsendelsestemperaturer og problemer omkring O- ringene fra tidligere flyvninger med rumfærger. I en berømt telefonsamtale mellem Thiokols ingeniører og Nasas ledelse aftenen før den fatale flyvning forsøgte ingeniørerne at stoppe flyvningen netop på grund af den mulige sammenhæng mellem den lave opsendelsestemperatur og så problemerne med O-ringene stabilitet, der kunne gå hen og blive skæbnesvangre. Men det lykkedes ikke for ingeniørerne at påvise en klar sammenhæng og Nasa afviste derfor at udsætte 74
79 Eksempel 5: Challenger ulykken flyvningen. Episoden er senere blevet kendt som 'The Greatest Missed Opportunity in Statistiscs'. Det er denne historiske diskussion af problemerne med O-ringene vi vil prøve at belyse i det følgende. Der er forskellige kilder til de data Thiokols ingeniører havde til rådighed, og tolkningen af NASA s egne rapporteringer omkring tidligere problemer er ikke helt klar, men vi vælger her at følge Feynmans egen forenklede oversigt. Den er blevet standardkilden i de utallige diskussioner man fx finder på Internettet. Se den også i andre henseender meget interessante hjemmeside under Missed Opportunities: Gallery of Data Visualization: Grafen viser sammenhængen mellem den beregnede temperatur ved overfladen af rumfærgen og antallet af konstaterede fejl i O-ringene. Så hvilke konklusioner kan vi nu drage af disse data? Det er på tide at vi åbner for DataMeter, hvor dataene er samlet i eksempelfilen Challengerulykken som du finder ved at vælge menupunktet Åbn eksempel og derefter følge stien Statistik Inferens Hypotesetest Opsendelser Burde NASA have afstået fra opsendelsen af rumfærgen Challenger på ulykkesdagen? Her er data fra de tidligere opsendelser. Træf din egen beslutning! De tilhørende data ser således ud, hvor tabellen rummer data fra de foregående 24 flyvninger med rumfærgerne ordnet kronologisk. Filen rummer 6 variable: 75
80 Eksempel 5: Challenger ulykken Opsendelser Flyvning Temperatur Fejl Dato Rumfærge O_ringe 1 STS-1 66 NEJ Columbia 0 2 STS-2 70 JA Columbia 1 3 STS-3 69 NEJ Columbia 0 4 STS-4 80 NEJ Columbia 0 5 STS-5 68 NEJ Columbia 0 6 STS-6 67 NEJ Challenger 0 7 STS-7 72 NEJ Challenger 0 8 STS-8 73 NEJ Challenger 0 9 STS-9 70 NEJ Columbia 0 10 STS 41-B 57 JA Challenger 1 11 STS 41-C 63 JA Challenger 1 12 STS 41-D 70 JA Discovery 1 13 STS 41-G 78 NEJ Challenger 0 14 STS 51-A 67 NEJ Discovery 0 15 STS 51-C 53 JA Discovery 3 16 STS 51-D 67 NEJ Discovery 0 17 STS 51-B 75 NEJ Challenger 0 18 STS 51-G 70 NEJ Discovery 0 19 STS 51-F 81 NEJ Challenger 0 20 STS 51-I 76 NEJ Discovery 0 21 STS 51-J 79 NEJ Atlantis 0 22 STS 61-A 75 JA Challenger 2 23 STS 61-B 76 NEJ Atlantis 0 24 STS 61-C 58 JA Columbia 1 Flyvning: Den tekniske betegnelse for den pågældende mission. Temperatur: Luftens gennemsnitstemperatur omkring rumfærgen under opsendelsen (målt i Fahrenheit!). Fejl: Om der efterfølgende var konstateret alvorlige fejl på en eller flere af O_ringene. Dato: Datoen for opsendelsen i formatet: år-måned-dag. Rumfærge: Hvilken af de fire rumfærger der var tale om. O_ringe: Antallet af O-ringe, hvor der efterfølgende blev konstateret alvorlige fejl. Med disse data til rådighed kan vi hurtigt frembringe diverse grafer til at belyse sammenhængene mellem de forskellige variable. Et linjeplot over antallet af O- ringe viser ikke nogen klar sammenhæng mellem antallet af uheld og hvornår de er sendt op, altså om det ser ud som om der fx bliver flere og flere ulykker med tiden: 76
81 Eksempel 5: Challenger ulykken Opsendelser Linjeplot Indeks Opsendelser Atlantis Challenger Columbia Rumfærge Prikdiagram Tilsvarende er der heller ikke nogen tydelig sammenhæng mellem antallet af uheld og hvilken rumfærge der er involveret. Når Atlantis ikke har haft nogen uheld kunne det jo sagtens forklares med at den kun var blevet sendt op to gange. For de andre rumfærgers vedkommende ser det ud til at der sker uheld med O-ringene ca. hver tredje gang. Vi kigger derfor nu på temperaturens indflydelse: Discovery Opsendelser XY-plot Temperatur Opsendelser XY-plot Temperatur O_ringe > 0 Den første graf svarer ret nøje til Feynmans graf og viser sammenhængen mellem temperaturen og antallet af konstaterede fejl for O-ringene. Det værste uheld med tre ødelagte O-ringe ligger ved den laveste temperatur 53 F (den øverste prik til venstre), men det næstværste uheld med to ødelagte O-ringe ligger ved den forholdsvise høje temperatur 75 F; noget som administrationen ikke var sene til at påpege ved diskussionerne forud for opsendelsen. Ydermere begik man den afgørende fejl i diskussionen forud for flyvningen at man ignorerede de fejlfrie flyvninger og derfor udelukkende kiggede på den anden graf over de flyvninger, der rent faktisk havde vist fejl. Det gør det endnu sværere at se en klar sammenhæng og det var stærkt medvirkende til at det ikke lykkedes ingeniørerne at overbevise administrationen om at udsætte opsendelsen på grund af den ekstremt lave temperatur ved opsendelsestidspunktet. 77
82 Eksempel 5: Challenger ulykken Det gør det heller ikke meget mere overbevisende at tilføje en tendenslinje. Selv om den har negativ hældning, og derfor påpeger en mulig sammenhæng mellem mange uheld og lave temperaturer, er forklaringsgraden helt ned på 32% (eller endnu værre helt nede på 7% hvis vi udelukker de fejlfrie flyvninger), så det er bestemt tvivlsomt, hvor stærk en sådan sammenhæng kan regnes for at være. Opsendelser XY-plot Temperatur O_ringe = Temperatur ; r 2 = 0.32 Opsendelser XY-plot Temperatur O_ringe = Temperatur ; r 2 = O_ringe > 0 Vi skifter derfor strategi og kigger i stedet på boksplottene for de to grupper af opsendelser, dem med fejl og dem uden fejl. Samtidigt med tilføjer vi middeltemperaturerne: Opsendelser Boksplot NEJ JA Temperatur middel ( ) = 70 Her synes der at være en langt tydeligere sammenhæng med temperaturen: Der er klart flest fejl, når temperaturen er lav. Men igen er der er vist overlap, så hvor stærk er sammenhængen? Kan den motivere en udsættelse? Trods alt var den Amerikanske præsident Ronald Reagan klar med sin årlige tale til kongressen, hvori rumfærgens "Teacher in Space" program blev omtalt som en af årets spændende nyheder, ligesom der var fastsat en direkte telefonsamtale mellem besætningen og præsidenten. Der var således et betydeligt politisk pres på NASA om ikke at foretage unødige udsættelser af flyvningen. 78
83 Eksempel 5: Challenger ulykken Hypotesetesten udført eksperimentelt Vi kommer ikke udenom at foretage en hypotesetest for at kunne vurdere styrken i den observerede mønster. I den såkaldte retsags-metafor for hypotesetest skal vi altså fælde dom i en sag om to påstande: a) Ingeniørerne hævder, at der er en systematisk sammenhæng, og at man derfor skal være yderst varsom med opsende rumfærgen ved kolde temperaturer på grund af den forøgede risiko (den såkaldt alternative hypotese H a ). b) Administrationen hævder, at de observerede variationer i antallet af uheld ligeså godt kan tilskrives tilfældigheder, og at der derfor ikke er nogen grund til at udskyde opsættelsen (den såkaldte nulhypotese). Der er ikke noget fældende bevis, så afgørelsen skal træffes på grundlag af indicier. Vi skal da på forhånd blive enige om to forhold: Hvilket signifikansniveau vil vi lægge til grund for domfældelsen (dvs. hvor stærke skal indicierne være) og hvilken teststørrelse vil vi benytte til at afgøre det? Først signifikansniveauet: Typisk vil man benytte et signifikansniveau på 5%: Hvis sandsynligheden kommer under 5% for at den observerede variation kan forklares med rene tilfældigheder, vil vi følge ingeniørerne og dømme systematisk variation på grundlag af indicier. Hvis sandsynligheden derimod kommer over 5%, vil vi i stedet følge administrationens påstand og dømme tilfældig variation, fordi indicierne ikke er stærke nok. Så teststørrelsen: Her er også et stort spillerum, men igen skal vi blive enige på forhånd. Fx kunne vi kigge på middeltemperaturen i de to grupper eller på mediantemperaturen i de to grupper og så udregne deres forskel. Her vælger vi middeltemperaturen, for det vil give os mulighed for at sammenligne den eksperimentelle metode med den traditionelle teoretiske metode. Som teststørrelse vælger vi altså forskellen på middeltemperaturerne i de to grupper og vil nu finde sandsynligheden for at denne forskel kan tilskrives rene tilfældigheder! Simulering i hånden: Inden vi gennemfører en simulering med DataMeter vil vi igen påpege at det er nemt at udføre en simulering i hånden. Hver elev får da 24 kort med temperaturerne for de 24 flyvninger. Derefter blandes kortene rigtig godt og grundigt og eleven trækker de første 7 af de 24 kort. De første 7 kort repræsenterer da flyvningerne med fejl, mens de resterende 17 repræsenterer de fejlfrie flyvninger. På denne måde sikres det at fejlene fordeles tilfældigt på flyvningerne. Eleverne udregner nu middeltemperaturen for de 7 første kort og tilsvarende for de 17 sidste kort og trækker derefter de to middeltemperaturer fra hinanden. Med en klasse på fx 25 elever har vi altså nu 25 forskellige målinger af forskellen i middeltemperaturer. Gentages det nogle gange kan man rimeligt hurtigt opbygge en samling på 100 målinger af forskellen i middeltemperaturer. Disse kan løbende indtastes i et datasæt, så man hurtigt kan få frembragt et billede af deres fordeling og supplere med de nødvendige udregninger. Det gør det netop muligt at se hvor typisk forskellen i det originale datasæt er, idet man kan se om den ligger midt inde i klumpen af de omrørte forskelle, eller tværtimod langt ude i enderne. Derved kan man finde sandsynligheden for at frembringe den observerede forskel ved et rent tilfælde. Hvis denne sandsynlighed er endog meget lav tyder det på at forskellen er reel og at ingeniørerne derfor står stærkt i deres krav om at udsætte flyvningen. 79
84 Eksempel 5: Challenger ulykken Vi udregner derfor den valgte teststørrelse, dvs. forskellen i middeltemperaturer, som en måling for vores datasæt ved at dobbeltklikke på datasættet Opsendelser og dernæst vælge fanebladet Målinger inde i datainspektøren: Derved sikrer vi os, at vi kan finde fordelingen af teststørrelsen, når vi om lidt laver om på den. I det konkrete tilfælde var forskellen altså F. Så skal vi have udregnet sandsynligheden for at man kan få så stor en forskel ved rene tilfældigheder. Vi bryder derfor en eventuel afhængighed mellem temperaturerne og fejlene ved at omrøre fejlene, dvs. røre rundt i dem uafhængigt af temperaturerne. Vi permuterer med andre ord fejlværdierne! Det gøres ved at højreklikke på datasættet og vælge kommandoen Rør rundt i en variabel. Straks dukker der et afledet datasæt op med de omrørte variable: Omrøring af Opsendelser I første omgang omrøres den første variabel, dvs. her Flyvning. Men det kan vi rette ved at dobbeltklikke på det omrørte datasæt og vælge fanebladet Omrøring, hvor vi udskifter variablen Flyvning med Fejl: Derefter gentages omrøringen naturligvis! Til illustration fremskaffer vi også en graf over Fejl som funktion af Temperatur inklusive middelværdierne, der afsættes med Plot Værdi: Omrøring af Opsendelser Boksplot NEJ JA Temperatur middel ( ) = 70 Ikke overraskende ligner de to grupper nu hinanden meget mere og begge middeltemperaturerne ligger tæt ved den fælles middeltemperatur på 70 F. 80
85 Eksempel 5: Challenger ulykken Vi er nu klar til at udføre målingerne af de omrørte temperaturforskelle, hvor vi altså har sikret os, at enhver mulig sammenhæng mellem Temperatur og Fejl er brudt, fordi fejlen fordeles fuldstændigt tilfældigt på de 24 flyvninger. Vi højreklikker altså på det omrørte datasæt og vælger menupunktet Udfør gentagne målinger. Under de fem obligatoriske målinger blafrer boksplottene frem og tilbage, idet somme tider den ene og somme tider den anden lægger sig i spidsen. Ved at dobbeltklikke på det afledte datasæt over målingerne kan vi nu få frembragt 1000 gentagne målinger, idet vi husker at slukke for animationen, så der ikke spilles tid med at få opdateret resultaterne fra den nye måling: Det tager ikke særlig lang tid at få udført de 1000 omrøringer med tilhørende målinger og dermed få udregnet de 1000 forskelle i middeltemperaturer for de to grupper under antagelsen af at de i virkeligheden er uafhængige (den såkaldte nulhypotese)! Dermed kan vi få tegnet et histogram over målingerne sammen med den observerede forskel i middeltemperaturer på F: Målinger fra Omrøring af Opsendelser 140 Histogram Middelforskel fraktil ( 5; Middelforskel) = = Histogrammet viser klart, hvor svært det er at frembringe en så stor forskel alene ved tilfældigheder. Den observerede forskel ligger et godt stykke inde i den kritiske zone afgrænset ved 5%-fraktilen, der slutter ved F. 81
86 Eksempel 5: Challenger ulykken Vi kan også få udregnet den faktiske sandsynlighed i en beregningsboks. Vi trækker først datasættet for de gentagne målinger ind i boksen og udregner derefter formlen Målinger fra Omrøring af Opsendelser 5 R1 = tæl ( Middelforskel ) Det viser sig da at der kun er 5 ud af 1000 målinger, der ligger lige så langt eller længere ude, så sandsynligheden for at den observerede forskel skyldes rene tilfældigheder er altså ca. ½%. Dermed har ingeniørerne vundet retssagen (men i den virkelige verden valgte administrationen altså at sidde deres advarsler overhørige!) Bemærkning: Vi kan også gennemføre testen mere traditionelt. Vi trækker da et testværktøj ned i dokumentet og ser hvilke muligheder vi har. Vi vælger Sammenlign middelværdier og der dukker nu en skabelon op for testen, som vi skal have udfyldt. Dels skal vi have trukket de to fundamentale variable Temperatur (numerisk) og Fejl (kategorisk) ind i testskemaet, dels skal vi have rettet i den alternative hypotese: Påstanden fra ingeniørerne var ikke blot at der var en sammenhæng, men at fejlen var hyppigere ved lave temperaturer, så den alternative hypotese skal ændres til at middeltemperaturen for de fejlbefængte flyvninger er mindre end middeltemperaturen for de fejlfri flyvninger: Test af to middelværdier Test fra Opsendelser Første variabel (numerisk): Temperatur Anden variabel (numerisk eller kategoriseret): Fejl Stikprøveantal fra Fejl = JA: 7 Stikprøveantal fra Fejl = NEJ: 17 Stikprøvemiddelværdi fra Temperatur når Fejl = JA: Stikprøvemiddelværdi fra Temperatur når Fejl = NEJ: Standardafvigelse af Temperatur når Fejl = JA: Standardafvigelse af Temperatur når Fejl = NEJ: Standardfejl af Temperatur når Fejl = JA: Standardfejl af Temperatur når Fejl = NEJ: Alternativ hypotese: Populationsmiddelværdien for Temperatur når Fejl = JA er mindre end den som opfylder Fejl = NEJ Teststørrelsen, Student's t, på grundlag af ukombinerede varianser, er Der er frihedsgrader. Hvis det var sandt at populationsmiddelværdien af Temperatur når Fejl = JA var den samme som den fra Temperatur når Fejl = NEJ (nulhypotesen), og vi gentog stikprøven mange gange, ville sandsynligheden for at få en værdi for Student's t mindst lige så lille være Vi ser da at sandsynligheden for at forklare den observerede forskel i middeltemperaturerne alene som et resultat af rene tilfældigheder er nede på 1.4%. Det fører altså til samme konklusion som før! 82
87 Eksempel 6: Buffons nåleproblem Eksempel 6: Buffons nåleproblem Buffons nåleproblem er et projekt i elementær sandsynlighedsregning, der egner sig bedst til B-niveauet, idet det også involverer elementær integralregning. Indledning: Det er godt først selv at udføre det klassiske eksperiment med eleverne i klassen. Hvert hold får fx udleveret en pakke tandstikkere og et stort stykke papir, fx et A3-ark. Arket forsynes med ækvidistante lodrette striber, der tegnes så afstanden mellem striberne netop svarer til længden af en tandstikker. Derefter kastes pakken med tandstikkere op i luften, så de enkelte tandstikkere falder tilfældigt ned på arket. Til sidst tæller man hvor mange tandstikkere, der rammer en stribe. Det giver anledning til et skøn over sandsynligheden for at en tilfældig valgt tandstikker rammer en lodret stribe. Simulering: v d Næste skridt er en simulering i DataMeter. Det kræver først en grundig diskussion af de variable i problemet. Som uafhængige variable fandt vi fx efter en hel del diskussion de følgende: 1) Afstanden d fra tandstikkerens venstre endepunkt til den nærmeste højre stribe. Den må formodes at være ligefordelt. Sætter vi afstanden mellem striberne til 1 (dvs. bruger afstanden mellem to striber som længdeenhed) får den værdierne [0;1[. 2) Vinklen v mellem tandstikkeren og lodret. Den fastlægger retningen og må formodes at være uafhængig af afstanden. Hvis vi kaster 'ordentligt' må den desuden formodes at være ligefordelt i intervallet [0; [ (idet DataMeter arbejder i radianer!). Det kræver dog omtanke at kaste en håndfuld tandstikkere på en fornuftig måde. Hvis de fx holdes i hånden så de fra starten har samme retning får slutretningerne en tydelig tendens. 3) Højden h fra papirets kant. Vi blev dog hurtigt enige om, at den ikke var relevant for skæringen. 4) Nummeret n for den stribe vi landede i. Igen blev vi hurtigt enige om, at den ikke var relevant for skæring. Dermed havde vi fastlagt tandstikkerens position fuldstændigt. Nu skulle vi blot finde et kriterium for skæringen. Her blev vi enige om at kigge på den følgende afhængige variabel: ' 5) Afstanden test fra tandstikkerens højre endepunkt til den lodrette linje gennem det venstre endepunkt. Hvis denne afstand var større end d måtte der foreligge skæring. Ved hjælp af simpel trigonometri fandt vi ud af at vores teststørrelse netop var sinus til retningsvinklen: test = sin(v) 83
88 Eksempel 6: Buffons nåleproblem v d sin(v) Dermed er vi klar til at simulere Buffons nåleproblem i DataMeter. Først oprettes en tabel med fx data (nålekast), hvilket kræver en rimelig stærk maskine, og dernæst indskrives formlerne for såvel de uafhængige som den afhængige variabel: Buffons nåleproblem d v test = tilfældig ( 0; 1) tilfældig ( 0; π ) sin ( v ) Så afbildes afstanden d og teststørrelsen test i et grafvindue: Det er tydeligt at datapunkterne klumper sig sammen foroven og at der derfor vil være flest datapunkter i den øverste halvdel oven over diagonalen. Men det er jo netop denne halvdel der svarer til skæring. 84
89 Eksempel 6: Buffons nåleproblem Vi skal nu blot finde en måde at få talt disse punkter på. Det kan ske på mange måder, fx ved hjælp af en simpel beregning: Buffons nåleproblem 6321 R1 = tæl ( test > d ) Der er altså 6321 nåle der skærer, svarende til en eksperimentel sandsynlighed på 63.2%. Den er selvfølgelig behæftet med en vis usikkerhed, men hvis vi prøver at gentage simuleringen ligger sandsynligheden typisk mellem 62 og 65%. Indskud: Hvis vi vil undersøge fordelingen af den eksperimentelle sandsynlighed nærmere må vi indføre en måling af sandsynligheden for skæring: Derefter kan vi hurtigt samle på målinger, fx 1000 målinger. Det giver mulighed for at afbilde fordelingen for den eksperimentelle sandsynlighed: Målinger fra Buffons nåleproblem 140 Histogram Sandsynlighed fraktil ( 2.5; Sandsynlighed) = fraktil ( 97.5; Sandsynlighed) = middel ( Sandsynlighed) = Vi ser da at i 95% af simuleringerne ligger den eksperimentelle sandsynlighed mellem og Det kaldes usikkerhedsintervallet. Middelværdien for den eksperimentelle sandsynlighed er 0.636, som ligger lige midt i usikkerhedsintervallet. Vi lægger også mærke til den karakteristiske klokkeform for fordelingen (det er meget tæt på en normalfordeling). Vi forventer derfor at den teoretiske sandsynlighed ligger meget tæt på dette tal. 85
90 Eksempel 6: Buffons nåleproblem Vi går så videre med Buffons nåleproblem. Vi fandt ud af at det kunne være smart med en teststørrelse, som var kategoriseret og kun havde to værdier: 'Ja' hvis der var skæring og 'Nej', hvis der ikke var skæring. Men det kan vi jo opnå ved hjælp af den følgende funktion: Hvis( Test > d; 'Ja', 'Nej'). Vi tilføjer derfor denne nye teststørrelse som vi kaldte Skæring og afbilder den i et søjlediagram. Det gør det som vist nemt at sammenholde de forskellige grafer: Buffons nåleproblem Søjlediagram tæl ( ) Ja Skæring Nej Vi styrer nu mod direkte at fastlægge sandsynligheden teoretisk. Udgangspunktet er de to uafhængige variable v og d som er ligefordelte og indbyrdes uafhængige: Hvis vi afbilder dem samtidigt i et koordinatsystem fås derfor en jævn fordeling af punkterne i rektanglet med siderne π og 1. Når vi skal fastlægge sandsynligheden for at lande i et bestemt område af dette rektangel skal vi derfor blot have fundet arealet af området og dividere det med det samlede areal, dvs. π: 86
91 Eksempel 6: Buffons nåleproblem antal gunstige Arealet af området p ( område) = = antal mulige Det samlede areal Det er her integralregningen kommer ind i billedet, fordi vi netop typisk skal benytte integralregning til at finde arealet af et 'kompliceret' område. I dette tilfælde drejer det sig altså om området svarende til skæring: Buffons nåleproblem Søjlediagram tæl ( ) Ja Skæring Nej Klassen gættede først på at det nok var en sur parabel. Men den kan vi jo nemt finde ligningen for, da vi ved den har nulpunkter i 0 og π, samt at den har toppunkt i (π/2; 1). Ligningen for parablen kan nemt findes ved regression, men den er heller ikke svær at skrive op i hånden! En sur parabel med nulpunkter i 0 og π må have en ligning på formen: y = k x (π x). Ved at indsætte x = π/2 fås 1 = k π 2 /4, dvs. værdien for k er givet ved k = 4/π 2. Den søgte parabel har derfor ligningen 4 y = x ( π x) 2 π Vi tilføjer derfor grafen for denne parabel til vores grafrum og ser hvad der sker! (Der var lidt diskussion om hvorvidt vi skulle kalde den uafhængige variabel for x eller for v, men DataMeter er ligeglad!). Kigger vi nu omhyggeligt efter kan man godt se at de røde punkter altid ligger indenfor parablen, men nogle af de grå punkter slipper faktisk med ind i parablen, som altså er lidt for stor! Vi kan altså ikke bruge parablen til at finde den rigtige sandsynlighed. Men derfor kan vi jo godt prøve at finde arealet (fx med behørig støtte fra et CAS-værktøj): 4 π π 0 2 x ( π x) dx = 2π 3 Det svarer til en sandsynlighed på 2/3. Men vi fandt jo også eksperimentelt at sandsynligheden for skæringen var en lille smule mindre end 2/3! 87
92 Eksempel 6: Buffons nåleproblem Vi må altså tænke os lidt om for at finde ligningen for den grænsekurve der skiller skæring fra ikke-skæring. Men betingelsen for skæring er jo netop givet ved: d < sin(v). Heraf følger at grænsekurven, der skiller skæring fra ikkeskæring, må have ligningen: d = sin(v). Der må altså være tale om en sinuskurve! Og vi har allerede ligningen, så vi kan med det samme checke grafisk: 88
93 Eksempel 6: Buffons nåleproblem Nu er det en enkel sag at finde den teoretiske sandsynlighed, idet vi blot skal have udregnet arealet under sinus-kurven (igen fx med behørig støtte af et CAS-værktøj): π 0 sin( v ) dv = 2 Det viser sig at være 2, hvorfor den søgte sandsynlighed for skæring netop er givet ved tallet: arealet under sinus kurven 2 p ( skæring) = = = arealet af rektanglet π Det passer jo meget fint med middelværdien for vores simulerede sandsynlighed Buffons generelle nåleproblem Kommet så langt kan vi generalisere problemet! Hvad nu hvis afstanden mellem striberne ikke længere passer med længden af nålene? Hvad bliver så den tilsvarende sandsynlighed? Hvis vi har forstået den foregående diskussion til bunds er vi klar til at kigge nærmere på dette generelle Buffons nåleproblem. Som før sætter vi afstanden mellem striberne til 1. Men denne gang er der en ekstra parameter n, der repræsenterer længden af nålene. Det er nu bekvemt at skelne mellem to tilfælde: 1. Afstanden mellem striberne er større end længden af nålene (n < 1). 2. Afstanden mellem striberne er mindre end længden af nålene (n > 1). Afstanden test fra tandstikkerens højre endepunkt til den lodrette linje gennem det venstre endepunkt er denne gang givet ved test = n sin(v) Hvis den er større end d er der som før tale om skæring. Vi indfører nu en dynamisk parameter n fx med værdier i intervallet [0;2]. Derefter rettes formlen for teststørrelsen, og der fortsættes som før med n = 0.5: Buffons generelle nåleproblem = d v test Skæring tilfældig ( 0; 1) tilfældig ( 0; π ) n sin ( v ) hvis ( test > d ) "Ja" "Nej" Nej Nej Ja Nej Nej Dernæst tegnes grafen, der viser det område, der fører til skæring. Denne gang afgrænses det af kurven med ligningen d = n sin(v) 89
94 Eksempel 6: Buffons nåleproblem Da n er mindre end 1 ligger området helt inden for rektanglet og arealet bliver derfor blot n gange så lille. Det samme gælder da sandsynligheden: 2n For n < 1 fås sandsynligheden: p(skæring) = π Men for n større end 1 er det mere kompliceret, fordi den skalerede sinuskurve nu bryder gennem loftet! Her viser vi det med n = 1.5: 90
95 Eksempel 6: Buffons nåleproblem Det gør det lidt mere kompliceret at finde arealet, fordi vi så først skal have fat i grænserne: n sin(v) = 1 v = sin 1 (1/n) v = π sin 1 (1/n) På grund af symmetrien omkring v = π/2 behøver vi dog kun bekymre os om den første: Areal: 2 arcsin 1 n n sin v v + 0 π 2 arcsin 1 n n n - 2 arccos 1 = n 1 v n > 1 Sandsynlighed: expand n n - 2 arccos 1 n π -2 2 = n - 1 π + 2 n π - 2 arcsin Denne gang består formlen altså af det samme led som før, men nu fulgt af tre ekstra led, der skal kompensere for at vi gennembryder loftet. For n = 1.5 fås den konkrete sandsynlighed: n n - 2 arccos 1 n π π 1 n + 1 n = 1.5 = Bemærkning: Den kan selvfølgelig også udregnes eksakt -2 arcsin π π + 3 π + 1 Det passer fint med den eksperimentelle sandsynlighed: Buffons generelle nåleproblem 7714 R1 = tæl ( test > d ) Dermed har vi afklaret Buffons generelle nåleproblem! Inden vi forlader det generaliserede nåleproblem vil vi lige kaste et nærmere blik på sandsynligheden som funktion af parameteren n (der repræsenterer forholdet mellem nålens længde og afstanden mellem de lodrette striber). Vi indskriver derfor sandsynlighedsfunktionen i et sædvanligt koordinatsystem som en funktionsgraf: 91
96 Eksempel 6: Buffons nåleproblem Ingen data 1.0 Funktionsgraf x 2 x π y = hvis ( x 1 ) 2 x π y = arcsin ( ) x + 1 π 2 x 2 1 π y = 2x π Den er retlinjet frem til x = 1, hvor den bøjer af og nærmer sig y = 1 asymptotisk. Vi kan endda sige noget nærmere om den asymptotiske opførsel. Når n er meget stor er grafen for n sin(v) stort set retlinjet gennem (0,0) med hældningen n. Arealet udenfor sinuskurven består da stort set af to trekanter med grundlinjen 1/n og højden 1. Derfor bidrager de med det samlede areal 1/n. Asymptotisk er sandsynligheden derfor givet ved (π 1/n)/π = 1 1/(nπ) : Ingen data 1.0 Funktionsgraf x π y = hvis ( x 1 ) 2 x π y = 1 y = x 1 πx 1 2 arcsin ( ) x + 1 π 2 x 2 1 Approksimationen 1 1/(π x) er altså en ganske udmærket approksimation til sandsynligheden for store værdier af x, fx x > 2. π 92
97 Eksempel 6: Buffons nåleproblem Avanceret slutspil: Fordelingen for t = sin(v) Vi slutter med at se nærmere på fordelingen af teststørrelsen. Afbilder vi den i et histogram kan vi som lodret skala vælge Tæthed. Det samlede areal af histogrammet er da normeret til 1. Sandsynligheden for at teststørrelsen befinder sig i et bestemt delinterval svarer da til arealet under histogramkurven: Buffons nåleproblem 6 Histogram test Der er tydeligvis ikke tale om en ligefordeling. Vi skal nu finde den teoretiske tæthedsfunktion, som histogrammet nærmer sig, når antallet af kast går mod uendelig. Hvis vi fx sætter antallet af kast op fra til får vi et 'pænere' histogram: Buffons nåleproblem 6 Histogram test 93
98 Eksempel 6: Buffons nåleproblem Vi vil også forsøge at finde ligningen for den summerede fordeling. Dertil benytter vi et fraktilplot: Det ses tydeligt at den summerede sandsynlighed først vokser nogenlunde jævnt, men til sidst bliver kurven endog meget stejl og kunne godt se ud til at have en lodret tangent i højre endepunkt. Som sædvanlig tager vi udgangspunkt i den jævne fordeling for vinklen v. Vi kan da argumentere således. Sandsynligheden for at vi lander i det lille interval dv fra v til v+dv er netop givet ved brøken. Tilsvarende er sandsynligheden for π at vi lander i et lille interval fra t til t+dt givet ved f(t) dt, hvor f(t) er tæthedsfunktionen for histogrammet (som vi ikke kender!). Men vi kender sammenhængen mellem de to variable: t = sin(v) Differentierer vi denne sammenhæng fås: dt dv = cos( v) dt = cos( v) dv dt dv = = cos( v) dt 2 1 sin ( v) = dt 1 t 2 Det giver nu netop sandsynligheden for at vi lander i intervallet fra t til t + dt: 1 dv dt dv På grund af symmetri er der to bidrag fra v. Vi finder derfor 94
99 Eksempel 6: Buffons nåleproblem 2dv p ([ t; t + dt[) = π = π 2dt 1 t 2 = π 2 1 t 2 dt Men det betyder jo at tæthedsfunktionen må være givet ved: Vi checker grafisk: 2 f ( t) = π 1 t 2 Buffons nåleproblem 6 Histogram test 2 Tæthed for test = π 1 t 2 Så er der den summerede fordeling: P ( t) = p( Test t) = f ( t) dt Den må netop være stamfunktionen til tæthedsfunktionen. Vi kan finde den direkte geometrisk eller vi kan finde den ved integration: t = sin( v) v = sin 1 ( t) 1 t v Igen er der to bidrag: 95
100 Eksempel 6: Buffons nåleproblem v0 2 1 P ( t0) = p( t t0) = 2 p( v v0) = 2 = sin ( t0) π π Havde vi i stedet integreret havde vi fået: 2 π 1 - t 2 t 2 arcsin t = π Endelig kan vi checke grafisk ved hjælp af fraktilplottet (der går fra 0 til 100, hvorfor vi skal gange den summerede fordeling med 100): Slut på det avancerede slutspil! 96
101
102 Hæftet Seks guidede ture til DataMeter følger med som pdf-dokument til det dynamiske databehandlingsprogram DataMeter version 1.0, der udgives af forlaget Malling Beck. For nærmere oplysninger om DataMeter se hjemmesiden: For nærmere oplysninger om forlaget Malling Beck, herunder priser for programmet mm., se hjemmesiden:
Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge
Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Baggrund: I de senere år har en del gymnasieskoler eksperimenteret med HOT-programmet i matematik og fysik, hvor HOT står for Higher
Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF
Tusind kugler Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF I en nyligt udkommen ungdomsroman om en ung svensk gymnasiepiges fortrædeligheder bruges et kuglespil ('galtonbræt') som en
Projekt 1.4 Tagrendeproblemet en instruktiv øvelse i modellering med IT.
Projekt 1.4 Tagrendeproblemet en instruktiv øvelse i modellering med IT. Projektet kan bl.a. anvendes til et forløb, hvor en af målsætningerne er at lære om samspillet mellem værktøjsprogrammernes geometriske
Projekt 1.5: Tagrendeproblemet en modelleringsøvelse!
Projekt 1.5: Tagrendeproblemet en modelleringsøvelse! Det er velkendt at det største rektangel med en fast omkreds er et kvadrat. Man kan nemt illustrere dette i et værktøjsprogram ved at tegne et vilkårligt
Excel regneark. I dette kapitel skal I arbejde med noget af det, Excel regneark kan bruges til. INTRO EXCEL REGNEARK
Excel regneark Et regneark er et computerprogram, der bl.a. kan regne, tegne grafer og lave diagrammer. Regnearket kan bruges i mange forskellige sammenhænge, når I arbejder med matematik. Det kan gøre
Analyse af en lineær regression med lav R 2 -værdi
Analyse af en lineær regression med lav R 2 -værdi Denne gennemgang omhandler figur 13 i Regn med biologi. Man kan sagtens lave beregninger på egne data. Forsøgsmæssigt kræver det bare en tommestok tapet
Deskriptiv statistik for hf-matc
Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...
Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF
Sammenligning af to måleserier En af de mest grundlæggende problemstillinger i statistik består i at undersøge om to forskellige måleserier er signifikant forskellige eller om forskellen på de to serier
Deskriptiv statistik for matc i stx og hf
Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede
Mathcad Survival Guide
Mathcad Survival Guide Mathcad er en blanding mellem et tekstbehandlingsprogram (Word), et regneark (Ecel) og en grafisk CAS-lommeregner. Programmet er velegnet til matematikopgaver, fysikrapporter og
Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:
Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab
Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium
Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,
Computerundervisning
Frederiksberg Seminarium Computerundervisning Koordinatsystemer og Funktioner Lærervejledning 12-02-2009 Udarbejdet af: Pernille Suhr Poulsen Christina Klitlyng Julie Nielsen Indhold Introduktion... 3
Graph brugermanual til matematik C
Graph brugermanual til matematik C Forord Efterfølgende er en guide til programmet GRAPH. Programmet kan downloades gratis fra nettet og gemmes på computeren/et usb-stik. Det betyder, det også kan anvendes
Første del: Eksempel på en eksamensopgave løst med GeoMeter
Optimeringsproblemer med GeoMeter Bjørn Felsager, Haslev Gymnasium & HF, 2003 Den følgende artikel er skrevet for at illustrere hvor langt man egentlig kan komme med GeoMeter som værktøj i undervisningen,
Variabel- sammenhænge
Variabel- sammenhænge 2008 Karsten Juul Dette hæfte kan bruges som start på undervisningen i variabelsammenhænge for st og hf. Indhold 1. Hvordan viser en tabel sammenhængen mellem to variable?... 1 2.
Lineære sammenhænge, residualplot og regression
Lineære sammenhænge, residualplot og regression Opgave 1: Er der en bagvedliggende lineær sammenhæng? I mange sammenhænge indsamler man data som man ønsker at undersøge og afdække eventuelle sammenhænge
Projekt 6.1 Rygtespredning - modellering af logistisk vækst
Projekt 6.1 Rygtespredning - modellering af logistisk vækst (Projektet anvender værktøjsprogrammet TI Nspire) Alle de tilstedeværende i klassen tildeles et nummer, så med 28 elever i klassen uddeles numrene
Brug af Word til matematik
Flex på KVUC, matematik C Brug af Word til matematik Word er et af de gængse tekstbehandlingssystemer der slipper bedst fra det at skrive matematiske formler. Selvfølgelig findes der andre systemer der
Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()
Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices
Potensfunktioner samt proportional og omvent proportional. for hf Karsten Juul
Potensfunktioner samt proportional og omvent proportional for hf 2018 Karsten Juul Potensfunktion 1. Oplæg til forskrift for potensfunktion...1 2. Forskrift for potensfunktion...2 3. Udregn x eller y i
Differentialregning. Et oplæg Karsten Juul L P
Differentialregning Et oplæg L P A 2009 Karsten Juul Til eleven Dette hæfte kan I bruge inden I starter på differentialregningen i lærebogen Det meste af hæftet er små spørgsmål med korte svar Spørgsmålene
Simulering af stokastiske fænomener med Excel
Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen
Funktioner generelt. for matematik pä B- og A-niveau i stx og hf. 2014 Karsten Juul
Funktioner generelt for matematik pä B- og A-niveau i st og hf f f ( ),8 014 Karsten Juul 1 Funktion og dens graf, forskrift og definitionsmängde 11 Koordinatsystem I koordinatsystemer (se Figur 1): -akse
Gratisprogrammet 27. september 2011
Gratisprogrammet 27. september 2011 1 Brugerfladen: Små indledende øvelser: OBS: Hvis et eller andet ikke fungerer, som du forventer, skal du nok vælge en anden tilstand. Dette ses til højre for ikonerne
Projekt 1.3 Brydningsloven
Projekt 1.3 Brydningsloven Når en bølge, fx en lysbølge, rammer en grænseflade mellem to stoffer, vil bølgen normalt blive spaltet i to: Noget af bølgen kastes tilbage (spejling), hvor udfaldsvinklen u
Kapitel 2 Tal og variable
Tal og variable Uden tal ingen matematik - matematik handler om tal og anvendelse af tal. Matematik beskæftiger sig ikke udelukkende med konkrete problemer fra andre fag, og de konkrete tal fra andre fagområder
1. Graftegning i Derive
1. Graftegning i Derive Kapitel 1: Graftegning i Derive Det er meget simpelt at tegne grafer i Derive: Man åbner et 2-dimensionalt grafvindue, skifter tilbage til algebravinduet (home) og indskriver et
Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave]
Statistik med TI-Nspire CAS version 3.2 Bjørn Felsager September 2012 [Fjerde udgave] Indholdsfortegnelse Forord Beskrivende statistik 1 Grundlæggende TI-Nspire CAS-teknikker... 4 1.2 Lister og regneark...
Rygtespredning: Et logistisk eksperiment
Rygtespredning: Et logistisk eksperiment For at det nu ikke skal ende i en omgang teoretisk tørsvømning er det vist på tide vi kigger på et konkret logistisk eksperiment. Der er selvfølgelig flere muligheder,
Excel tutorial om lineær regression
Excel tutorial om lineær regression I denne tutorial skal du lære at foretage lineær regression i Microsoft Excel 2007. Det forudsættes, at læseren har været igennem det indledende om lineære funktioner.
χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium
χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium Man kan nemt lave χ 2 -test i GeoGebra både goodness-of-fit-test og uafhængighedstest. Den følgende vejledning bygger på GeoGebra version
Opsætte f.eks. en rejsebeskrivelse med tekst og billede i Draw side 1
side 1 Hvis man vil lave en opsætning af rejsebeskrivelse og billeder, kan man også gøre det i DRAW. Denne vejledning vil vise hvordan man indsætter hjælpelinjer så man laver en pæn opstilling med billede
Lineære sammenhænge. Udgave 2. 2009 Karsten Juul
Lineære sammenhænge Udgave 2 y = 0,5x 2,5 2009 Karsten Juul Dette hæfte er en fortsættelse af hæftet "Variabelsammenhænge, 2. udgave 2009". Indhold 1. Lineære sammenhænge, ligning og graf... 1 2. Lineær
Indhold. Installation af DataMeter Datasæt (Ctrl D) Tabel (Ctrl T) Graf (Ctrl G) Funktionsgraf Beregning (Ctrl M)...
Indhold Installation af DataMeter... 2 Datasæt (Ctrl D)... 4 Tabel (Ctrl T)... 6 Graf (Ctrl G)... 7 Funktionsgraf... 8 Beregning (Ctrl M)... 9 Skøn... 10 Test... 11 Model... 12 Parameter Ctrl Skift P)...
Excel tutorial om indekstal og samfundsfag 2008
Excel tutorial om indekstal og samfundsfag 2008 I denne note skal vi behandle data fra CD-rommen Samfundsstatistik 2008, som indeholder en mængde data, som er relevant i samfundsfag. Vi skal specielt analysere
Lektion 7 Funktioner og koordinatsystemer
Lektion 7 Funktioner og koordinatsystemer Brug af grafer og koordinatsystemer Lineære funktioner Andre funktioner lignnger med ubekendte Lektion 7 Side 1 Pris i kr Matematik på Åbent VUC Brug af grafer
Matematik og samfundsfag Gini-koefficienten
Erik Vestergaard www.matematikfysik.dk Matematik og samfundsfag Gini-koefficienten Den såkaldte Gini-koefficient, introduceret i 92 i en artikel af den italienske statistiker, demograf og sociolog Corrado
Kompendium til Geogebra
Kompendium til Geogebra Hardsyssel Efterskole Matematik 8. Klasse Side 1 af 12 Kompendium til Geogebra 1. Generel præsentation af Geogebra 1.1 Download af programmet Geogebra kan gratis downloades fra
Grafværktøjer til GeoMeter Grafværktøjer Hjælp Grafværktøjer.gsp Grafværktøjer
Grafværktøjer til GeoMeter Bjørn Felsager, Haslev Gymnasium & HF, 2003 Når man installerer GeoMeter på sin maskine følger der en lang række specialværktøjer med. Men det er også muligt at skræddersy sine
I. Deskriptiv analyse af kroppens proportioner
Projektet er delt i to, og man kan vælge kun at gennemføre den ene del. Man kan vælge selv at frembringe data, fx gennem et samarbejde med idræt eller biologi, eller man kan anvende de foreliggende data,
Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen
Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk
How to do in rows and columns 8
INTRODUKTION TIL REGNEARK Denne artikel handler generelt om, hvad regneark egentlig er, og hvordan det bruges på et principielt plan. Indholdet bør derfor kunne anvendes uden hensyn til, hvilken version
(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)
Projekt 2.4 Menneskets proportioner (Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) I. Deskriptiv analyse
Fig. 1 Billede af de 60 terninger på mit skrivebord
Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt
På opdagelse i Mandelbrot-fraktalen En introduktion til programmet Mandelbrot
Jørgen Erichsen På opdagelse i Mandelbrot-fraktalen En introduktion til programmet Mandelbrot Hvad er en fraktal? Noget forenklet kan man sige, at en fraktal er en geometrisk figur, der udmærker sig ved
Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1
Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke
Differentialligninger med TI Nspire CAS version 3.1
Differentialligninger med TI Nspire CAS version 3.1 Der er tilføjet en ny graftype til Graf værkstedet kaldet Diff lign. Denne nye graftype er en implementering af differentialligningerne som vi kender
Simulering af stokastiske fænomener med Excel
Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen
Projekt 5.9. Geometriske fraktaler og fraktale dimensioner
Projekt 5.9. Geometriske fraktaler og fraktale dimensioner Indhold 1. Fraktaler og vækstmodeller... 2 2. Kløverøen... 2 3. Fraktal dimension... 4 3.1 Skridtlængdemetoden... 4 3.2 Netmaskemetoden... 7 3.3
Some like it HOT: Højere Ordens Tænkning med CAS
Some like it HOT: Højere Ordens Tænkning med CAS Bjørn Felsager, Haslev Gymnasium & HF, 2001 I år er det første år, hvor CAS-forsøget er et standardforsøg og alle studentereksamensopgaverne derfor foreligger
Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1
Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke
Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?
Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.
Seriediagrammer - Guide til konstruktion i LibreOffice Calc
Seriediagrammer - Guide til konstruktion i LibreOffice Calc På forbedringsvejlederuddannelsen anvender vi seriediagrammer til at skelne mellem tilfældig og ikketilfældig variation. Med et seriediagram
Funktioner. 1. del Karsten Juul
Funktioner 1. del 0,6 5, 9 2018 Karsten Juul 1. Koordinater 1.1 Koordinatsystem... 1 1.2 Kvadranter... 1 1.3 Koordinater... 2 1.4 Aflæs x-koordinat... 2 1.5 Aflæs y-koordinat... 2 1.6 Koordinatsæt... 2
Statistik (deskriptiv)
Statistik (deskriptiv) Ikke-grupperede data For at behandle ikke-grupperede data i TI, skal data tastes ind i en liste. Dette kan gøres ved brug af List, hvis ikon er nr. 5 fra venstre på værktøjsbjælken
Hvad er nyt i version 3.6?
Hvad er nyt i version 3.6? 1. Dokumentformater Den afgørende nyhed og også den mest problematiske er indførelsen af nye dokumentformater: Vi har hidtil arbejdet med et flydende dokumentformat. Når man
Lommeregnerkursus 2008
Mikkel Stouby Petersen Lommeregnerkursus 008 Med gennemregnede eksempler og øvelser Materialet er udarbejdet til et kursus i brug af TI-89 Titanium afholdt på Odder Gymnasium. april 008 1. Ligningsløsning
Symbolsprog og Variabelsammenhænge
Indledning til Symbolsprog og Variabelsammenhænge for Gymnasiet og Hf 1000 kr 500 0 0 5 10 15 timer 2005 Karsten Juul Brugsanvisning Du skal se i de fuldt optrukne rammer for at finde: Regler for løsning
Mini AT-forløb om kommunalvalg: Mandatfordeling og Retfærdighed 1.x og 1.y 2009 ved Ringsted Gymnasium MANDATFORDELING
MANDATFORDELING Dette materiale er lavet som supplement til Erik Vestergaards hjemmeside om samme emne. 1 http://www.matematiksider.dk/mandatfordelinger.html I dette materiale er en række øvelser der knytter
Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau)
Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter En sumkurve fremkommer ifølge definitionen, ved at vi forbinder en række punkter afsat i et koordinatsystem med rette
d Kopier formlen fra celle A3 ned i kolonne A. Kopier formlen fra celle C3 ned i kolonne C. Undersøg, hvad der sker med formlen, når den kopieres.
KOPIARK 17 # ligninger og formler i excel 2007, 1 1 Du skal lave et regneark, som kan bruges til at løse ligningen 5 x 11 = 7 + 3 x. a Lav et regneark som vist. HUSK: Gør en kolonne bredere Man kan gøre
Geogebra Begynder Ku rsus
Navn: Klasse: Matematik Opgave Kompendium Geogebra Begynder Ku rsus Kompendiet indeholder: Mål side længder Mål areal Mål vinkler Vinkelhalveringslinje Indskrevne cirkel Midt normal Omskrevne cirkel Trekant
Introducerende undervisningsmateriale til Geogebra
Klaus Frederiksen & Christine Hansen Introducerende undervisningsmateriale til Geogebra - Dynamisk geometriundervisning www.bricksite.com/ckgeogebra 01-03-2012 Indhold 1. Intro til programmets udseende...
for gymnasiet og hf 2017 Karsten Juul
for gymnasiet og hf 75 50 5 017 Karsten Juul Statistik for gymnasiet og hf 017 Karsten Juul 5/11-017 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm Hæftet må benyttes i undervisningen
Eksponentielle funktioner for C-niveau i hf
Eksponentielle funktioner for C-niveau i hf 2017 Karsten Juul Procent 1. Procenter på en ny måde... 1 2. Bestem procentvis ændring... 2 3. Bestem begyndelsesværdi... 2 4. Bestem slutværdi... 3 5. Vækstrate...
for matematik på C-niveau i stx og hf
VariabelsammenhÄnge generelt for matematik på C-niveau i stx og hf NÅr x 2 er y 2,8. 2014 Karsten Juul 1. VariabelsammenhÄng og dens graf og ligning 1.1 Koordinatsystem I koordinatsystemer (se Figur 1):
Computerundervisning
Frederiksberg Seminarium Computerundervisning Koordinatsystemer og funktioner Elevmateriale 30-01-2009 Udarbejdet af: Pernille Suhr Poulsen Christina Klitlyng Julie Nielsen Opgaver GeoGebra Om at genkende
Introduktion til Calc Open Office med øvelser
Side 1 af 8 Introduktion til Calc Open Office med øvelser Introduktion til Calc Open Office... 2 Indtastning i celler... 2 Formler... 3 Decimaler... 4 Skrifttype... 5 Skrifteffekter... 6 Justering... 6
Arealet af en trekant Der er mange formler for arealet af en trekant. Den mest kendte er selvfølgelig
Arealet af en trekant Der er mange formler for arealet af en trekant. Den mest kendte er selvfølgelig som også findes i en trigonometrisk variant, den såkaldte 'appelsin'-formel: Men da en trekants form
1. Opbygning af et regneark
1. Opbygning af et regneark Et regneark er et skema. Vandrette rækker og lodrette kolonner danner celler, hvori man kan indtaste tal, tekst, datoer og formler. De indtastede tal og data kan bearbejdes
Kapitel 3 Lineære sammenhænge
Matematik C (må anvendes på Ørestad Gymnasium) Lineære sammenhænge Det sker tit, at man har flere variable, der beskriver en situation, og at der en sammenhæng mellem de variable. Enhver formel er faktisk
Introduktion til EXCEL med øvelser
Side 1 af 10 Introduktion til EXCEL med øvelser Du kender en almindelig regnemaskine, som kan være til stort hjælp, når man skal beregne resultater med store tal. Et regneark er en anden form for regnemaskine,
SPAM-mails. ERFA & Søren Noah s A4-Ark 2010. Køber varer via spam-mails. Læser spam-mails. Modtager over 40 spam-mails pr. dag. Modtager spam hver dag
SPAM-mails Køber varer via spam-mails Læser spam-mails Modtager over 40 spam-mails pr. dag Modtager spam hver dag 0 10 20 30 40 50 60 70 80 90 ERFA & Søren Noah s A4-Ark 2010 Datapræsentation: lav flotte
Om at finde bedste rette linie med Excel
Om at finde bedste rette linie med Excel Det er en vigtig og interessant opgave at beskrive fænomener i naturen eller i samfundet matematisk. Dels for at få en forståelse af sammenhængende indenfor det
Matematik A, STX. Vejledende eksamensopgaver
Matematik A, STX EKSAMENSOPGAVER Vejledende eksamensopgaver 2015 Løsninger HF A-NIVEAU AF SAEID Af JAFARI Anders J., Mark Af K. & Saeid J. Anders J., Mark K. & Saeid J. Kun delprøver 2 Kun delprøve 2,
Emneopgave: Lineær- og kvadratisk programmering:
Emneopgave: Lineær- og kvadratisk programmering: LINEÆR PROGRAMMERING I lineær programmering løser man problemer hvor man for en bestemt funktion ønsker at finde enten en maksimering eller en minimering
ALMINDELIGT ANVENDTE FUNKTIONER
ALMINDELIGT ANVENDTE FUNKTIONER I dette kapitel gennemgås de almindelige regnefunktioner, samt en række af de mest nødvendige redigerings- og formateringsfunktioner. De øvrige redigerings- og formateringsfunktioner
Undersøge funktion ved hjælp af graf. For hf-mat-c.
Undersøge funktion ved hjælp af graf. For hf-mat-c. 2018 Karsten Juul Bestemme x og y 1. Bestemme x eller y...1 Andengradspolynomium 2. Forskrift for andengradspolynomium...2 3. Graf for andengradspolynomium...2
Opgave 1 - Lineær Funktioner. Opgave 2 - Funktioner. Opgave 3 - Tredjegradsligning
Sh*maa03 1508 Matematik B->A, STX Anders Jørgensen, delprøve 1 - Uden hjælpemidler Følgende opgaver er regnet i hånden, hvorefter de er skrevet ind på PC. Opgave 1 - Lineær Funktioner Vi ved, at år 2001
for gymnasiet og hf 2016 Karsten Juul
for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen
Differentialregning med TI-Interactive! Indledende differentialregning Tangenter Monotoniforhold og ekstremum Optimering Jan Leffers (2009)
Differentialregning med TI-Interactive! Indledende differentialregning Tangenter Monotoniforhold og ekstremum Optimering Jan Leffers (2009) Indholdsfortegnelse Indholdsfortegnelse...2 Indledende differentialregning...3
FP9. 1 Esters fritidsjob 2 Katrine maler 3 Backgammon 4 Halvmaratonløb 5 Babyloniernes formel for arealet af en firkant.
FP9 9.-klasseprøven Matematisk problemløsning December 2014 Et svarark er vedlagt til dette opgavesæt 1 Esters fritidsjob 2 Katrine maler 3 Backgammon 4 Halvmaratonløb 5 Babyloniernes formel for arealet
2 Erik Vestergaard www.matematikfysik.dk
Erik Vestergaard www.matematikfysik.dk Erik Vestergaard www.matematikfysik.dk 3 Lineære funktioner En vigtig type funktioner at studere er de såkaldte lineære funktioner. Vi skal udlede en række egenskaber
DENNE LILLE MANUAL TIL GEOGEBRA DÆKKER NOGENLUNDE DE EMNER, DER VEDRØRER FOLKESKOLEN TIL OG MED 10. KLASSE.
Geogebra. DENNE LILLE MANUAL TIL GEOGEBRA DÆKKER NOGENLUNDE DE EMNER, DER VEDRØRER FOLKESKOLEN TIL OG MED 10. KLASSE. (dvs. det er ikke alle emner i SYMBOLLINIEN, der beskrives). Navnet GEOGEBRA er en
Kursusmappen Kommuniker: På Tryk 2 (med ordforslag fra CD-ORD)
Kursusmappen Kommuniker: På Tryk 2 (med ordforslag fra CD-ORD) Øvelser Indhold Indhold... 2 Øvelse 1... 3 Start Kommuniker: På Tryk 2 og åbn nogle af de medfølgende dokumenter... 3 Øvelse 2... 4 Grundfunktioner
Projekt 3.7. Pythagoras sætning
Projekt 3.7. Pythagoras sætning Flere beviser for Pythagoras sætning... Bevis for Pythagoras sætning ved anvendelse af ensvinklede trekanter... Opgave 1: Et kinesisk og et indisk bevis for Pythagoras sætning...
Bedste rette linje ved mindste kvadraters metode
1/9 Bedste rette linje ved mindste kvadraters metode - fra www.borgeleo.dk Figur 1: Tre datapunkter og den bedste rette linje bestemt af A, B og C Målepunkter og bedste rette linje I ovenstående koordinatsystem
Deskriptiv statistik (grupperede observationer)
Deskriptiv statistik (grupperede observationer) Tallene er hentet fra Arbejdsbog B1 (2.udg.) eller Arbejdsbog B2, øvelse 408: Der åbnes et Lister og Regneark værksted og observationerne indtastes og navngives:
Grupperede observationer
Grupperede observationer Tallene i den følgende tabel viser antallet af personer på Læsø 1.januar 2012, opdelt i 10-års intervaller. alder antal 0 131 10 181 20 66 30 139 40 251 50 318 60 421 70 246 80
Lad os prøve GeoGebra.
Brug af Geogebra i matematik Programmet Geogebra er et matematisk tegneprogram. Det findes i øjeblikket i flere versioner. Direkte på nettet uden download. http://www.geogebra.org/cms/ Klik på billedet.!
Vektorfunktioner. (Parameterkurver) x-klasserne Gammel Hellerup Gymnasium
Vektorfunktioner (Parameterkurver) x-klasserne Gammel Hellerup Gymnasium Indholdsfortegnelse VEKTORFUNKTIONER... Centrale begreber... Cirkler... 5 Epicykler... 7 Snurretoppen... 9 Ellipser... 1 Parabler...
Pointen med Funktioner
Pointen med Funktioner Frank Nasser 0. april 0 c 0080. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette er en
Filtyper, filformat og skabelon. Tabel. Tekstombrydning. Demo Fremstil, gem og brug en skabelon. Øvelser Fremstil, gem og brug en skabelon
Disposition for kursus i Word 2007 Filtyper, filformat og skabelon Demo Fremstil, gem og brug en skabelon Øvelser Fremstil, gem og brug en skabelon Tabel Demo Opret en tabel ud fra en tekst Øvelser Opret
Kom godt i gang med Fable-robotten
Kom godt i gang med Fable-robotten 1. Først skal du installere programmet på din computer. Gå ind på shaperobotics.com og under support vælger du download: Her vælger du, under PC App om du kører Windows
π er irrationel Frank Nasser 10. december 2011
π er irrationel Frank Nasser 10. december 2011 2008-2011. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Indhold 1 Introduktion
Introduktion til MatLab Matematisk Modellering af Dynamiske Modeller ved Kasper Bjering Jensen, RUC, februar 2010
Introduktion til MatLab Matematisk Modellering af Dynamiske Modeller ved Kasper Bjering Jensen, RUC, februar 2010 Computere er uvurderlige redskaber for personer der ønsker at arbejde med matematiske modeller
Fable Kom godt i gang
Fable Kom godt i gang Opdateret: 26-03-2018 Indholdsfortegnelse 1. Først skal du installere programmet på din computer 3 2. Når programmet er installeret er du klar til at pakke robotten ud 4 3. Nu er
Emmas og Frederiks nye værelser - maling eller tapet?
Emmas og Frederiks nye værelser - maling eller tapet? Emmas og Frederiks familie skal flytte til et nyt hus. De har fået lov til at bestemme, hvordan væggene på deres værelser skal se ud. Emma og Frederik
En lille vejledning til lærere og elever i at bruge matematikprogrammet WordMat (begynderniveau)
Matematik i WordMat En lille vejledning til lærere og elever i at bruge matematikprogrammet WordMat (begynderniveau) Indholdsfortegnelse 1. Introduktion... 3 2. Beregning... 4 3. Beregning med brøker...
