The lady tasting tea

Størrelse: px
Starte visningen fra side:

Download "The lady tasting tea"

Transkript

1 The lady tasting tea En eksperimentel indføring i hypotesetest Bjørn Felsager Foredrag ved Regionalmødet i Herning den 19. januar 2012

2 Indholdsfortegnelse 1. Indledning s. 2 Nye læreplaner og undervisningsvejledning Undervisningsmaterialer på EMU en Vejledende eksamensopgaver og autentiske eksamensopgaver på UVM Den statistiske metode 2. The Lady Tasting Tea s. 7 Youtube video fra the Chang School at Ryerson University Design of Experiments (Fisher) Nulhypotese og signifikansniveau Simulering af eksperimentet Datafangst og fordelingen af teststørrelsen Pascals trekant og den eksakte fordeling Retssagsmetaforen 3. Uafhængighedstest s. 17 Youtube video fra Gladsakse Gymnasium: Er piger venstreorienterede En spørgeskemaundersøgelse fra samfundsfag Omrøring Forventede værdier, bidrag til teststørrelsen Frihedsgrader Simulering af nulhypotesen Datafangst og fordelingen af teststørrelsen Det indbyggede χ 2 uafhængighedstest 4. Eksempler på eksamensopgaver s. 29 Opgave 10 fra 18. maj 2011 (A niveau Nat) Opgave 16 fra 24. maj 2011 (A niveau Nat) 5. Appendiks: Gensyn med The Lady Tasting Tea s. 32 Hvad med reglen om at de forventede værdier bør være mindst 5? Eksakt gennemregning af the Lady Tasting Tea som et χ2 uafhængighedstest Litteratur s. 35 1

3 En eksperimentel indføring i hypotesetest Bjørn Felsager: Matematiklærer, Emeritus, Midtsjællands Gymnasieskoler, Denmark, Bjoern.Felsager@Skolekom.dk 1. Indledning Årsagen til den store interesse for hypotesetest i det almene studieretningsgymnasium er selvfølgelig den nylige justering af gymnasiereformen, hvor udførelse af hypotesetest blev optaget som et af de faglige mål i læreplanen og hvor chi i anden testen blev gjort til kernestof, og dermed til et muligt emne for den skriftlige eksamen. I undervisningsvejledningen blev det uddybet hvad man egentlig forventede at man skal kunne I forbindelse med et chi i anden test. Her vil jeg blot pege på at p værdien er særlig interessant, fordi man I samfundsfag har besluttet at gøre tolkningen af p værdien til det centrale omdrejningspunkt for chi i anden testen. I det følgende vil jeg derfor fokusere på p værdien fremfor den kritiske værdi, som ellers har været en traditionel indfaldsvinkel til testteorien I matematik. 2

4 Det er også bemærkelsesværdigt at undervisningsvejledningen indleder med at fortælle hvad der ikke forventes i undervisningen, idet det fastslås at den sandsynlighedsteoretiske formalisme og det formelle begreb stokastisk variabel ikke indgår I det fælles kernestof. Det betyder selvfølgelig ikke at man ikke har lov til at gribe statistikken traditionelt an med en solid teoretisk indføring I sandsynlighedsfelter osv., men det er blot ikke påkrævet. Heraf følger også at der må være andre tilgange til undervisningen i hypotesetest og det er en af disse mere eksperimentelle tilgange jeg vil benytte I det følgende. Denne eksperimentelle tilgang lægger stor vægt på begrebsforståelse og udgør et glimrende udgangspunkt for den mundtlige eksamen. Ved den skriftlige eksamen vil man dog kunne komme væsentligt hurtigere frem til en fuldt acceptabel besvarelse ved at benytte sig af de indbyggede værktøjer som eleven har til rådighed via et regneark som Excel eller et passende CAS værktøj. Den eksperimentelle tilgang letter dog forståelsen af disse værktøjer betydeligt, så også ved den skriftlige eksamen vil det være en fordel for eleverne med en dyb forståelse af de begreber, der indgår i hypotesetest. I det følgende vil jeg benytte TI Nspire C AS som er det værktøj, jeg selv har brugt I undervisningen, men tilsvarende metoder kan sagtens implementeres i andre værktøjer, som fx GeoGebra eller Maple. Undervisningsministeriet har lagt undervisningsmateriale ud som man kan bruge som baggrundsorientering for sin egen undervisning i hypotesetest eller direkte som undervisningsmateriale i sin klasse. Man kan finde materialet ved at gå ind på matematiks hjemmeside (dvs. EMU en matematikside) hvor man klikker sig ind i venstre spalte under Undervisningsforløb > Statistik (CHI2): 3

5 Susanne Christensen har forfattet det eksemplariske materiale: At træffe sine valg i en usikker verden (det såkaldte elevmateriale), som dækker alle de centrale begreber i kernepensum. En gruppe gymnasielærere har kommenteret og udvidet dette materiale, så det er mere grydeklart til undervisning i klassen (det såkaldte kursusmateriale). Der ligger også en lang række eksempler på hvordan man kan håndtere hypotesetesen med hjælp af forskellige programmer (Maple, TI Nspire CAS, TI Interactive, DataMeter og MathCad). Der findes også interessante materialer på undervisningsministeriets egen hjemmeside for matematik (anden spalte Ministeriet for Børn og undervisning > Faget matematik på MBU). Efter en del klikkeri kommer man endeligt frem til fagsiden for matematik under stx: og dagtilbud/gymnasiale uddannelser/studieretningerog fag/studentereksamen %28stx%29/Fag paa stx/matematik stx Her finder man de vejledende eksamensopgaver vedrørende hypotesetest Vejledende eksamensopgaver vedr. hypotesetest stx A og B Disse vejledende eksamensopgaver dækker hele spektret af den type spørgsmål, som man skal kunne håndtere til den skriftlige eksamen. Men nok så interessant finder man længere nede under forsøg med digitale eksamensopgaver de første autentiske eksamensopgaver der er stillet til chi2 testen. Her kan man altså for alvor danne sig et indtryk af hvordan de rent faktisk bliver udformet. Vi vender tilbage til disse opgaver til sidst i foredraget. 4

6 5

7 Før vi går i gang med et større eksempel kan det være nyttigt med en kort oversigt over den statistiske metode. Den handler om stokastiske fænomener, dvs. fænomener, der rummer et element af tilfældighed. Det arketypiske stokastiske fænomen i matematik er terningekastet. Det er fra diskussionen af hasardspil, herunder spil med terningekast, at den matematiske teori om sandsynlighed udvikledes af Pascal og Fermat. Ved kast med en fair terning forventer vi at alle siderne optræder lige hyppigt i lange serier af kast. Vi tilskriver derfor hver af siderne sandsynligheden 1/6. Men hvis vi nu får lov til at kaste en prøveserie med en terning, for at undersøge om vi tør tro på at der er tale om en fair terning, og det viser sig at der kommer 10 seksere i en serie på 24 kast, hvad skal vi så stille op med denne viden? Er påstanden om at terningen er fair stadigvæk en troværdig påstand eller skal vi forkaste den? Påstanden om at terningen er fair kaldes nulhypotesen. Ifølge nulhypotesen ville vi forvente at en sjettedel af kastene resulterede i en sekser. I en serie på 24 kast ville vi derfor forvente 4 seksere. Men vi observerede 10. Vores observerede antal afviger altså 6 fra det forventede antal. Er det nu en stor afvigelse eller en lille afvigelse? Det kan vi kun udtale os om hvis vi har en standard for afvigelsen som vi kan sammenligne den med. En afvigelse på 6 er ikke i sigs selv stor eller lille. Så vi skal på en eller anden måde have delt de mulige afvigelser i to kategorier: På den ene side de store såkaldt kritiske afvigelser, der får os til at forkaste nulhypotesen, fordi det observerede resultat er så usædvanligt at det forekommer mere rimeligt at tro på den alternative hypotese: At terningen er skæv, fx fordi nogen har boret et lille hul i terningen og puttet bly i det ene hjørne for at tvinge den til at give seksere oftere end forventet af en fair terning. På den anden side de små såkaldte acceptable afvigelser, hvor vi ikke kan afvise at afvigelsen nemt kan fremkomme som resultat af de uundgåelige tilfældige udsving. Denne opdeling i kritiske og acceptable afvigelser fremkommer nu ud fra en undersøgelse af nulhypotesen selv. På basis af nulhypotesen finder man frem til fordelingen af afvigelsen, og dermed hvor sandsynligt det er at en given afvigelse er opstået som følge af nulhypotesen. Det kan man enten gøre ved at regne på fordelingen indenfor en klassisk sandsynlighedsteoretisk ramme, en teoretisk deduktion af konsekvenserne af nulhypotesen, eller vi kan gøre det ved hjælp af en eksperimentel simulering af nulhypotesen. Den teoretiske tilgang kræver i dette eksempel et indgående kendskab til binomialfordelingen (og i andre eksempler et indgående kendskab til andre fordelinger, fx den hypergeometriske fordeling). Den eksperimentelle tilgang kræver at man kan simulere nulhypotesen, hvilket i praksis typisk sker ved hjælp af simuleringsteknikker i et dynamisk regneark, herunder brugen af tilfældighedsgeneratorer. Det er denne eksperimentelle tilgang og herunder kompetencen til at kunne simulere en nulhypotese vi vil fokusere på i det følgende. 6

8 2. Lady Tasting Tea Foredrag ved Regionalmødet i Herning den 19. januar 2012 The Lady tasting tea er et klassisk eksempel til at gøre rede for de centrale ideer bag hypotesetest. Det blev brugt af Fisher, der grundlagde teorien bag hypotesetest, i den epokegørende bog Design of Experiments fra Før vi går i detaljer med eksperimentet kan man med fordel se den charmerede fremstilling af problemstillingen I you tube videoen: Lady Tasting Tea. The Chang School at Ryerson University presents: Lady Tasting Tea Ronald Fisher udviklede de afgørende teknikker bag hypotesetesten, mens han arbejdede på Rothamstead Plantation Station i 1920 erne. Det var her han udviklede de afgørende begreber som nulhypotesen og signifikansniveauet. Han samlede sine metoder i den meget indflydelsesrige bog Statistical Methods for Research Workers fra 1925, som indeholdt et separat kapitel om Design of Experiments. Dette kapitel blev kraftigt udvidet I de følgende udgaver og til sidst udskilt som en selvstændig bog, The Design of Experiments, fra I det indledede kapitel gør Fisher rede for sine grundlæggende tanker om hypotesetesten ved hjælp af et nu legendarisk eksperiment, the Lady Tasting Tea. For nylig har man underøgt den historiske baggrund for eksperimentet, og interviews med tidligere medarbejdere og ikke mindst hans datter har sandsynliggjort at eksperimentet rent faktisk fandt sted I 1920 erne, omend detaljer omkring dets udførelser varierer alt efter hvem man spørger. Men her skal man huske på at de begivenheder man refererede til på det tidspunkt lå mere en 50 år tilbage I tiden! Så her følger vi især datterens version af hvad der rent faktisk skete: Efter arbejdet var slut en sommerdag på Rothamsted Plantation Station ønskede Fisher at være galant overfor den unge biolog Muriel Bristol og tilbød hende en kop te. Men da hun spurgte ham om han havde husket at 7

9 komme mælk i først måtte han indrømme, at det havde han ikke skænket en tanke. Men han protesterede også over at det skulle have nogen som helst betydning, for hvordan skulle hun dog kunne smage forskel: Når først mælken og teen var blandet sammen ville man umuligt kunne mærke forskel i smagen. Ikke desto mindre påstod Muriel Bristol at hun rent faktisk kunne smage forskel og gik derfor hen for selv at skænke en kop te fremstillet på den foretrukne vis. Hendes kæreste, der stod i baggrunden af rummet og observerede hændelsen, skreg da til Fisher: Du kan teste hende! Og det var præcis, hvad Fisher gjorde, hvorved han udødeliggjorde the Lady tasting tea som det arketypiske statistiske eksperiment. The Lady Tasting Tea er også titlen på en meget underholdende bog af David Salsburg om fremkomsten af den moderne statistik. Fishers eget kapitel er faktisk meget velskrevet og informativt og kan derfor bruges direkte I undervisningen. Det dækker alle de grundlæggende begreber I hypotesetest og giver eleverne en chance for at høre de klare og overbevisende argumenter direkte fra manden, der opfandt dem. I det ovenstående dias er der en beskrivelse af eksperimentet, der involverer otte kopper te, hvoraf de første fire er fremstillet ved at hælde mælken I først og de sidste fire er fremstillet ved at hælde teen I først. Læg også mærke til hvordan Fisher lægger vægt på randomiseringen af eksperimentet og på hvordan man kan opnå en sådan randomisering: Enten ved hjælp af en fysisk genatand, som fx brugen et terningekast, eller ved at slå op I en tabel over tilfældige tal. I dag er tabellen erstattet af en computer, men i det væsentlige fungerer computeren på samme måde: Den har en indbygget tilfældighedsfunktion, der i realiteten svarer til at slå op i en meget lang liste af tilfældige tal. 8

10 På det næste dias finder du Fishers karakterisering af nulhypotesen og signifikansniveauet: Læg i sær mærke til at nulhypotesen altid forklarer observationerne som et resultat af rene tilfældigheder. Så i tilfældet med the Lady Tasting Tea svarer nulhypotesen til at hun simpelt hen gætter og at udfaldet af hendes gæt derfor alene er resultatet af rene tilfældigheder: Hver gang hun smager på en kop har hun derfor netop 50% chance for at gætte rigtigt med hensyn til om det var mælken eller teen, der blev hældt I først. Det er selvfølgelig præcis det modsatte af Muriel s egen påstand om at hun rent faktisk er i stand til at smage forskel og at hun på ingen måde gætter. Pointen er imidlertid at vi nemt kan udregne konsekvenserne af rene tilfældigheder, og dermed at vi kan undersøge nulhypotesen matematisk. Afhængigt af hvad der kommer ud af analysen sætter det os i stand til at træffe et rationelt valg mellem nulhypotesen om de rene tilfældigheder og den alternative hypotese om at hun rent faktisk i et eller andet omfang kan smage forskel. Læg også mærke til den vægt Fishers lægger på det faktum at man aldrig kan bevise en nulhypotese, man kan kun gøre det rimeligt at afvise den som en konsekvens af eksperimentet. 9

11 Kommet så langt vil vi nu opbygge en simulering af nulhypotesen og åbner derfor et Lister og Regneark værksted I TI Nspire TM CAS. Vi indskriver her en liste kaldet bakke, der antager otte værdier: fire gange Mælk og fire gange Te svarende til den fysiske udførelse af eksperimentet: På en bakke anbringes otte kopper te, hvor de første fire er fremstillet ved at hælde mælken i først og de sidste fire er fremstillet ved at hælde teen i først. Husk at der skal bruge gåseøjne, når man indskriver tekster i cellerne. Variablen bakke er nemlig en kategorisk variabel og har derfor tekststrenge som værdier. I modsætning til fx Excel er det vigtigt med gåseøjnene fordi regnearket i TI Nspire CAS er et symbolsk regneark og det vil derfor forsøge at tolke en tekst om et matematisk udtryk, hvis teksten ikke er indesluttet I gåseøjnene. Dermed har vi frembragt en model af den bakke, der skal bruges i testen. Vi skal nu også oprette en liste over de gæt som Muriel kunne have fremsat, såfremt nulhypotesen var rigtig og at hun derfor simpelthen gættede. Men dertil skal vi bare frembringe en ny liste over de same otte kopper anbragt i en rent tilfældig rækkefølge. Det gøres med en randsamp kommando, dvs. ved at trække en tilfældig stikprøve fra bakken. Kommandoen har som vist I kataloget tre parametre: Vi skal anføre hvilken liste vi trækker fra (populationen), hvor mange elementer vi trækker og endelig et det vagfrit at angive om udtrækningen sker med tilbagelægning (standard) eller uden tilbagelægning. I vores tilfælde er det vigtigt at udtrækningen sker uden tilbagelægning, hvorfor det er afgørende at tilføje parameteren 1. Stikprøven kaldes simulering, fordi den afspejler nulhypotesen, hvor vi først gætter på fremstillingsmetoden for den første kop, derefter den anden kop osv. I den ovenstående simulering har vi gættet korrekt for den tredje, fjerde, sjette og syvende kop. Vi har altså i alt gættet korrekt fire gange. Bemærkning: Når man udfører simuleringen i klassen vil man typisk opleve at eleverne overraskes over at de alle frembringer den samme tilfældige simulering! Det virker selvfølgeligt frustrerende for eleverne, for hvordan kan en simulering, der forgår fuldstændigt tilfældigt frembringe præcis de samme resultater. Det korte svar er at simuleringen foregår ved hjælp af en indbygget tabel over tilfældige tal, og hvis de ikke gør noget for at forhindre det, slår de alle sammen op i tabellen 10

12 fra dens begyndelse. Men vi kan sagtens gentage simuleringen ved at tast CTRL R (R for recalculation). Hvis man holder CTRL R tasten nede et kort øjeblik vil simuleringen blive gentaget så tilpas mange gange og opslaget derfor foregå så langt henne I tabellen, at resultaterne med garanti ikke længere vil være ens! Vi kan også konstruere et diagram, der fremstiller udfaldet af vores eksperiment. For at gøre det splitter vi vinduet og åbner et Diagrammer og statistik værksted. Vi afbilder nu variablen bakke langs førsteaksen, hvorefter vi højreklikker på aksefeltet for den første akse og vælger Opdel kategorier efter variable og vælger at splitte variablen bakke efter variablen simulering. Det fremkomne prikdiagram kan nemt konverteres til et søjlediagram, hvor andenaksen reguleres så den kan vise op til fire kopper for en given kategori, ligesom vi kan slå Vis alle etiketter til. I mælkekategorien svarer antallet af blå mælke simuleringer til antallet af succeser, mens det i tekategorien er antallet af orange te simuleringer, der svarer til succeser. I kraft af den måde simuleringen er konstrueret vil disse to antal altid være de samme. Har vi placeret 3 mælke simuleringer blandt mælkene må den fjerde netop være en te simulering, og vi har derfor kun 3 te simuleringer tilbage til te kategorien! Det er også nemt at lade programmet tælle antallet af succeser. Først opretter vi da en ny liste kaldet udfald, hvor vi burger listekommandoen iffn() til at finde ud af hvor de to lister stemmer overens. 11

13 Vi har derefter optalt antallet af succeser I den næste søjle ved hjælp af cellekommandoen: Læg mærke til at denne søjle ikke har noget navn! Det er derfor ikke en del af Liste regnearket, hvorfor vi kan bruge cellerne præcis som vi er vant til det fra fx Excel! Når vi er kommet så langt kan vi udføre en foreløbig hypotesetest af the Lady Tasting Tea! Vi får da brug for de følgende to informationer: a) For det første får vi brug for at kende de observerede udfald, dvs. vi skal vide hvad der rent faktisk skete en sommerdag på Rothamstead Plantation Station, da de udførte eksperimentet. Hvor mange succeser opnåede Muriel? Det viser sig, at hun rent faktisk ramte fuldt hus, dvs. hun fik 8 succeser. b) For det andet skal vi have aftalt et signifikansniveau før eksperimentet vurderes! Vi vil her benytte standardværdien, dvs.. 5%. Det svarer til brøkdelen 1:20. Vi vil derfor udføre 20 simuleringer for at se om vi kan fange et fuldt hus. Det sker ved at taste CTRL R 20 gange. I mit tilfælde fik jeg ikke nogen fulde huse. Det betyder at brøkdelen af skæve udfald, dvs. udfald der er mindst lige så skæve som det observerede, synes at ligge under 5%. Det antyder kraftigt at det ikke er nemt at simulere sig til et fuldt hus og at nulhypotesen derfor ikke er en overbevisende forklaring på det observerede udfald. På dette tidspunkt har vi altså tilsyneladende gode grunde til at afvise nulhypotesen, fordi det observerede resultat synes at være statistisk signifikant. Det støtter Muriels påstand om at hun rent faktisk er i stand til at smage forskel: Det er mere rimeligt at tro hende end at betvivle hende! 12

14 Man bør selvfølgelig være bekymret over om 20 simuleringer virkelig udgør et sikkert grundlag for at træffe en endelig afgørelse! Industristandarden for at udføre hypotesetest eksperimentelt er 500 simuleringer. Så vi har oplagt brug for en automatisering af simuleringsprocessen. Det kan gøres ved hjælp af en datafangst. Det er dog noget mere teknisk end bare at simulere en nulhypotese, så vi vil nu gå igennem processen I større detaljer. Før det første skal vi være I stand til at fange antallet succeser I en given simulering.. Dette antal, der udregnes I en celle, skal derfor lagres I en variabel, som vi kalder test. Den nemmeste måde at lagre variable på er at skrive variabelnavnet umiddelbart efterfulgt af et kolon foran lighedstegnet: Cellen fremstår nu i fed for at fremhæve, at den afspejler værdien af en lagret variabel. Derefter indfører vi en søjle kaldet måling og taster Enter for at flytte ned til formelfeltet umiddelbart under variabelnavnet. Men vi taster ikke Enter for at træde ind I formelfeltet, vi nøjes med at vælge det så undgå at taste Enter to gange! Vi kan så gå til Data menuen og vælger kommandoen Datafangst > Manuelt: Måske undrer du dig over forskellen på en automatisk og en manuel datafangst: En automatisk datafangst registrerer kun værdien af den overvågede variable, når denne ændres! Til gengæld gør den det automatisk, hver gang værdien ændres. Manuel datafangst registrerer kun værdien af den overvågende variable, når den får besked på at gøre det. Til gengæld gør det det aå, uanset om værdien er ændret eller ej. Så den manuelle datafangst er meget sikrere. Til gengæld kræver den en instruks om at fange data, hvilket viser sig at være et tryk på tasterne CTRL. (altså CTRL Punktum). Den overvågende variable fanges altså hver gang du taster CTRL.! Derefter oplyser du navnet på den variable, der skal overvåges, i dette tilfælde variablen test. Og dermed er du klar til at gå på datafangst. For at se resultatet af fangsten splitter vi nu vinduet endnu engang og tilføjer et Diagrammer og statistik værksted, hvor vi afbilder variablen måling langs førsteaksen og tilpasser værdierne til at gå fra 0 til 8. Derefter skifter vi tilbage til Lister og regneark værkstedet! Hold nu CTRL tasten ned med én finger og tryk skiftevis på tasten R og tasten Punktum med to andre fingre. Så kan du netop se fordelingen af antallet af succeser blive bygget op skridt for skridt: 13

15 Fortsæt indtil du har fanget alle de mulige udfald mindst én gang. Vi kan tælle antallet af simuleringer samt antallet af skæve udfald og den brøkdel, de udgør, p værdien, således: 14

16 Vi ser da at den estimerede p værdi er 1.0 %, som er et pænt stykke under signifikansniveauet på 5%, så endnu engang afvises nulhypotesen og Muriel s påstand står til troende! På nuværende tidspunkt har vi løst problemet eksperimentelt gennem en simulering af nulhypotesen. I mange tilfælde er det imidlertid muligt at gennemføre en teoretisk analyse af problemet og dermed beregne p værdien eksakt. Fisher bemærker netop at det er muligt i dette tilfælde ved at benytte helt elementær kombinatorik. For at gøre analysen mere fleksibel, så den nemt kan generaliseres til fx et andet antal kopper, vil vi benytte Pascals trekant til at holde styr på optællingerne. Bakken rummer fire kopper, fremstillet med mælken først, og fire kopper femstillet med tenen først. Bakke: Mælk, Mælk, Mælk, Mælk Te, Te, Te, Te For at gætte må vi fordele fire gæt med mælk først og fire gæt med te først. For at opnå 8 rigtige: Der er netop én fordeling af gættene, der opfylder kravet om 8 rigtige: Fire gæt på mælk efterfulgt af fire gæt på te. For at gætte 6 rigtige: Det betyder at vi gætter forkert på en af mælke kopperne og tilsvarende at vi gætter forkert på en af te kopperne. Så denne gang skal vi kombinere et fejlgæt for mælk med et fejlgæt på te. Det fører til 4 4 udfald, idet fejlgættet for mælk kan fordeles på fire kopper og tisvarende med fejlgættet for te. Fortsætter vi på denne made ser vi at de forventede hyppigheder for de forskellige udfald svarer til kvadraterne på tallene I den fjerde række af Pascals trekant, dvs. 1 2, 4 2, 62, 4 2 og

17 Ydermere kan vi aflæse det samlede antal udfald i det midterste tal for den ottende række af Pascals trekant, dvs. i dette tilfælde 70! Den eksakte sandsynlighed for fuldt hus er derfor 1/70 eller 1.4%. Som det ses afviger det fra den estimerede p værdi med 0.4%. Ønsker man et mere præcist estimat må man sætte antallet af simuleringer op! Den forventede fordeling er også afbildet som et kombinations diagram (læg mærke til ikonet it det nederste venstre hjørne). Det er femkommet ved en manuel indtastning af de ideelle hyppigheder i regnearket,. For at frembringe et kombinationsdiagram tilføjes hyppighederne som en værdiliste ved at klikke i aksefeltet for andenaksen. Den ovenstående analyse kan nemt generaliseres til 10 eller 12 kopper på bakken. Endelig kan vi også opsummere diskussionen af hypotesetesten ved at bruge den velkendte retssagsmetafor for hypotesetest: Dermed er vores diskussion af eksperimentet the Lady Tasting Tea afsluttet for denne gang! 16

18 3. Uafhængighedstest Foredrag ved Regionalmødet i Herning den 19. januar 2012 VI vender os nu mod uafhængighedstesten som er det ene af chi2 testene og som er meget anvendt i samfundsfag. Vi får da brug for at kunne simulere uafhængighed af to kategoriske stokastisk variable. Det kan gøres på flere måder, men omrøringen er særlig instruktiv. Den kan gennemføres på computer, men den kan også gennemføres med kortspil som vist i det særdeles informative og underholdende videoklip fremstillet af Susanne Højte og Lars Donatzky fra Gladsakse Gymnasium og lagt ud på YouTube. Det kan kraftigt anbefales at man ser denne video sammen med klassen og diskuterer hvad der foregår både med kortspillene og med simuleringen på computer. Er piger venstreorienterede? En film af Susanne Højte og Lars Donatzky - Gladsakse Gymnasium I den foregående diskussion af the Lady Tasting Tea arbejdede vi med to identiske kategoriske variable, en for den faktiske fremstillingsmetode for kopperne på bakken og en for Muriel s bedømmelse af fremstillingen henholdsvis simuleringen af nulhypotesen. Begge variable havde værdierne fire Mælk og fire Te. Spørgsmålet var som om disse to variable, altså fremstillingsmetoden henholdsvis bedømmelsen på en eller anden måde afhang af hinanden, sådan som Mueriel påstod det (idet hun faktisk hævdede de var identiske), eller om de var uafhængige, dvs. den fysiske fremstilling ingen indflydelse havde på Muriel s bedømmelse, sådan som nulhypotesen påstod det. I almindelighed ønsker vi at undersøge sammenhængen mellem to kategoriske variable, der ikke behøver have nogen som helst værdier fælles. I samfundsfag er man fx interesseret I at analysere udfaldet af en spørgeskemaanalyse. I det ovenstående videoklip handler det fx om hvorvidt der er 17

19 en sammenhæng mellem køn og politisk holdning. Svarene på et spørgsmål I en sådan spørgeskemaanalyse er typisk værdierne for en stokastisk variabel, hvor nogle spiller rollen som forklarende eller uafhængige variable, som fx variablen køn med værdierne mand og kvinde, mens andre spiller rollen som responsvariable eller afhængige variable, som fx variablen holdning, hvis værdier afspejler respondentens grad af enighed med en eller anden passende påstand. Eftersom vi arbejder med kategoriske variable kan vi ikke gøre andet end at foretage en optælling af de mulige kombinationer af værdierne for de individuelle variable i form af såkaldte krydstabeller (pivot tabeller i Excel). Et typisk eksempel ser således ud: Spørgsmålet er så om der er signifikant forskel mellem holdningerne for mænd og kvinder, eller om de tværtimod synes at følge den samme fordeling, når man ser bort fra de uundgåelige tilfældige fluktuationer, der altid følger med en tilfældig stikprøve. Det sidste udgør så nulhypotesen. Men hvis de underliggende fordelinger er identiske kan vi også sige at variablen holdning er uafhængig af variablen køn. Vi har altså to ækvivalente beskrivelser af nulhypotesen: Den ene fokuserer på homogeniteten af stikprøverne for mænd og kvinder (dvs. de repræsenterer den samme fordeling). Den anden fokuserer på uafhængigheden af to stokastiske variable indenfor en samlet stikprøve (dvs. på at den stokastiske variabel holdning er uafhængig af den stokastiske variabel køn). De to synsvinkler fører til den same test, der derfor sommetider kaldes en homogenitetstest og sommetider en uafhængighedstest. Du vil sommetider se en forskel I den måde stikprøverne udføres: I homogenitetstesten fokuserer vi på to forskellige populationer: En for kvinder og en for mænd, og vi trækker derfor to stikprøver, én fra hver af populationerne. I uafhængighedstesten er der kun én population og kun én stikprøve, som vi opdeler efter værdierne for to stokastiske kategoriske variable. Men selve testproceduren er identisk I de to tilfælde, så i det følgende fokuserer vi på uafhængighestesten. 18

20 Vi skal nu i gang med at simulere nulhypotesen, dvs. uafhængigheden mellem de to variable. Det kan man gøre ved at benytte en snedig teknik kaldet omrøring af de observerede data. Først skærer vi kartotekskortene over på midten og adskiller derved informationen om køn fra informationen om holdning. Derefter udfører vi en tilfældig permutation af kortene med holdning, dvs. vi blander kortene med holdning godt og grundigt, hvilket netop svarer til omrøringen. Denne omrøring bryder oplagt en hvilken som helst sammenhæng, der måtte have været mellem de to variable. Endelig sætter vi de to halvdele af kortene sammen igen og kombinerer derved den oprindelige information om køn med den omrørte information om holdning. På denne måde har vi frembragt en simulering af nulhypotesen, dvs. uafhængigheden af de to variable. 19

21 Læg mærke til at omrøringen bevarer de såkaldte marginale totaler for de to variable. Selv om vi har omrørt kortene for variablen holdning har vi ikke ændret på det totale antal, som er helt enige osv. Og eftersom vi slet ikke har gjort noget ved kortene med køn, har vi heller ikke ændret på antallet af kvinder osv.! Bemærkning: Omrøringen er den væsentligste metode til simulering af uafhængighed for to variable uanset om de er ketgoriske eller ej. Men χ 2 testen kan kun anvendes på kategoriske variable. Lige så snart man blander en numerisk variable ind i uafhængighedstesten må man derfor skifte testtype, typisk til en t test Vi er nu klar til at analysere de observerede data, der i det aktuelle eksempel er optalt i en krydstabel. Læg mærke til, at krydstabellen er indskrevet under stregen, dvs. der er hverken titler eller formler knyttet til søjlerne i regnearket over stregen alting fungerer altså fuldstændigt som I Excel, så længe vi ikke involverer navngivne lister! Under antagelse af nulhypotesen vil vi nu udregne de forventede værdier for de forskellige kombinationer af de to variable. Vi må da først udregne totalerne, dvs. søjletotalerne, rækketotalerne og tabeltotalen. Det gøres ved hjælp af celle kommandoen sum(): 20

22 Lige så snart du har udregnet den første søjlesum i celle b7 trækkes den på tværs af tabellen for at udregne de resterende søjletotaler. Derefter udregner du den første rækkesum i celle d2 og trækker den ned langs tabellen for at udregne de øvrige rækketotaler. Ifølge nulhypotesen følger fordelingerne for kvinder og mænd nu den samme fordeling, som derfor må være givet ved fordelingen af rækketotalerne, hvor vi har lagt hyppighederne for mænd og kvinder sammen. I følge nulhypotesen forventer vi derfor at 36/195 af kvinderne (og tilsvarende for mændene) er helt enige. Men eftersom der i alt er 94 kvinder betyder det, at vi forventer at 36/ af kvinderne er helt enige. Udregningen foretages nu ved først at kopiere helte tabellen (inklusive totalerne) og derefter trækker en celleformel opbygget efter det ovenstående mønster rundt i den nye tabel over de forventede værdier. Her skal vi nu være omhyggelige og skelne mellem relative og absolutte cellereferencer. Når vi trækker celleformlen rundt i tabellen skal den hele tiden pege på totalerne, dvs. vi skal låse søjle række 7 såvel som søjle d med dollartegn. Vi kan se om vi har gjort det rigtigt ved at holde øje med totalerne som igen skal summere op til de samme værdier som før! Bemærkning: Læg mærke til at de forventede værdier er decimaltal I modsætning til de observerede værdier, som altid er naturlige tal. Det er helt I orden eftersom de forventede værdier repræsenterer gennemsnitsværdier for et uendeligt antal stikprøver, og udregningen af gennemsnit kan godt føre til decimaler. Vi kan nu sammenligne de observerede værdier med de forventede 21

23 værdier. I følge nulhypotesen vil eventuelle forskelle kunne forklares med de tilfældige udsving, der er forbundet med udtagningen af en stikprøve. Vi forventer derfor at forskellene er små. I 1900 opdagede Pearson nu at det det kunne betale sig at udregne forskellen mellem den observerede tabel og den forventede tal som en vægtet sum af kvadraterne på differencerne: ( observeret ) 2 i forventeti χ = forventet i Det er denne størrelse, der benyttes som teststørrelse i χ 2 testen, hvor store teststørrelser altså repræsenterer store afvigelser mellem de observerede og forventede tabeller og dermed vil store tesstørrelser være signifikante brud med nulhypotesen og føre til at nulhypotesen forkastes. Det er instruktivt at udregne alle bidragene til tesstørrelsen særskilt ved at kopiere den observerede tabel endnu engang og dernæst udregne brøken (observeret_tal forventet_tal) 2 /forventet_tal som en celleformel, der trækkes rundet I tabellen: i 2 22

24 Vi ser da at vi finder en samlet tesstørrelse på 9.175, men vi kan også se hvordan de enkelte bidrag er fordelt på de to køn (søjletotalerne) på de fem holdninger (rækketotalerne) og endeligt på alle kombinationerne af køn og holdning. Bemærkning: De ovenstående beregninger af den forventede tabel og tabellen over bidragene til tesstørrelsen kan selvfølgelig udføres helt automatisk af programmet. Man skal da blot vælge menupunktet statistik > statistiske tests > χ 2 uafhængighedstest og indtaste den observerede tabel (matrix) som en liste af lister (nemlig listen hørende til kvinder og listen hørende til mænd): Vi finder da følgende resultater: Her svarer ExpMatrix netop til tabellen over forventede værdier, mens CompMatrix svarer til tabelen over bidragene til teststørrelsen. Vi får også oplyst den samlede teststørrelse samt antallet af frihedsgrader 4. Det sidste skal forstås således: Hvis vi forestiller os at vi har hørt at der er foretaget en spørgeskemaundersøgelse blandt 94 kvinder og 101 mænd, som førte til at 36 var helt enige, 83 nærmest enige, 42 vidste ikke hvad de skulle mene, 20 var nærmest uenige og 14 var helt uenige, hvor mange oplysninger skal vi så betale for, hvis vi ønsker at kunne analysere spørgeskemaundersøgelsen med henblik på at påvise en eventuel afhængighed mellem holdningen og kønnet. Vi har altså fået oplyst marginalerne, men ikke de individuelle kombinationer. Det er da ret oplagt at vi skal betale for fire af kombinationerne, fx de her viste, da resten så følger af totalerne. Men siger derfor at krydstabellen har fire frihedsgrader. I almindelighed finder man frihedsgraderne for en krydstabel ved at fjerne den sidste række og den sidste søjle (der jo følger af totalerne) og så tælle antallet af celler i den reducerede tabel. 23

25 Vi vender nu tilbage til vores undersøgelse af uafhængigheden mellem holdning og køn uden at skele til den indbyggede test. Vi udregner da teststørrelsen direkte ved hjælp af en celleformel og gemmer som vist værdien i variablen chi2_obs så vi kan referere til den i diagrammer osv. For at kunne afgøre om det er en stor eller lille afvigelse må vi kende dens forventede værdi som følge af nulhypotesen. Her kan man nu benytte den følgende simple regel: Den forventede værdi for teststørrelsen χ 2 på basis af nulhypotesen er netop givet ved antallet af frihedsgrader. I vores tilfælde er der 4 frihedsgrader. Den observerede χ 2 værdi er og den forventede χ 2 værdi er dermed 4. Den observerede teststørrelser er altså noget større end den forventede. Den er dog ikke mere end stort set dobbelt så stor, hvilket ikke er så kritisk igen. Havde den været fx ti gange så stor kunne vi med det samme have afvist nulhypotesen. Havde den omvendt været mindre end de forventede 4 kunne vi også med det samme slutte, at der intet grundlag var for at forkaste nulhypotesen! For at komme videre må vi nu simulere nulhypotesen. Det kræver at vi kan rekonstruere de oprindelige rå data, så vi kan komme i gang med en omrøring. Til en simulering er krydstabellen over de overserverede hyppigheder altså ikke nok. Vi indfører derfor to lister køn og holdning der gengiver de observerede kombinationer for alle 195 deltagere i spørgeskemaundersøgelsen. Listerne starter altså med 12 kvinder der er helt enige, derefter følger 37 kvinder der er nærmest enige osv. Det simpleste er listen for køn, da den består af 94 kvinder efterfulgt af 101 mænd. Men denne liste kan frembringes direkte fra hyppighedstabellen over køn, dvs. de to rækker b1:c1 med kategorierne { Kvinde, Mand } og b7:c7 med hyppighederne {94, 101}. Derefter skal vi rekonstruere listen for holdning, hvilket vi må gøre ved at strikke to lister sammen: En for kvindernes holdninger og en for mændenes holdninger. Denne sammenstrikning sker ved hjælp af kommandoen augment. 24

26 25

27 Lige så snart listerne for de rå data er på plads kan vi omrøre listen ved at bruge den nu velkendte kommando randsamp(): Vi har også tilføjet en tabel over de simulerede værdier, som optalt fra listerne køn og sim_holdning. Det giver mulighed for også at udregne og lagre teststørrelsen for den simulerede χ 2 værdi med cellekommandoen: Vi vil nu fange denne simulerede teststørrelse med en automatisk datafangst. Chancen for at den skal gentage sig i to simuleringer i træk er nemlig så lille, at vi kan tillade os at se bort fra den. Når vi har fået sat datafangsten op og fanget χ 2 værdien for 2500 simuleringer dukker der en karakteristisk fordeling op skærmen. Vi har tilføjet middelværdien 3.94 for fordelingen. Den ligger rimeligt tæt på de forventede 4. Vi vil selvfølgelig kun få de forventede 4, hvis vi fortsatte med at foretage simuleringerne I det uendelige Hvis de to variable var uafhængige (svarende til nulhypotesen) ville vi derfor få en middelværdi på 4 når vi simulerede et meget stort antal gange. Den observerede værdi på 9.4 ligger ikke så langt fra denne værdi. Men for virkeligt at kunne afgøre om nulhypotesen bør forkastes er det nødvendigt at tælle de skæve simuleringer, hvilket sker ved hjælp af cellekommandoen i midten: Dernæst udregnes de skæve simuleringers brøkdel af samtlige simuleringer, dvs. finde et skøn over p værdien. I dette tilfælde finder vi et skøn over p værdien på 5.28%. Det er lidt mere end signifikansniveauet på 5%, så vi kan ikke forkaste nulhypotesen på det foreliggende grundlag. Vi må derfor acceptere at køn og holdning i denne sammenhæng kan opfattes som værende uafhængige variable. 26

28 Vi skifter nu til et histogram for bedre at forstå teorien bag χ 2 testen. 27

29 Dette histogram afspejler fordelingen for den teoretiske χ 2 fordeling med 4 frihedsgrader, der kaldes chi2pdf(x,4) i TI Nspire TM CAS. På trods af det eksotiske navn er det bare den velkendte /2 funktion y = 1 x e x. Når vi vil udføre en χ 2 uafhængihgedstest behøver vi altså ikke opsætte det 4 eksperimentelle maskineri. VI kan simpelthen erstatte den eksperimentelle fordeling med den indbyggede teoretiske fordeling og udregne det såkaldt kanoniske skøn over p værdien direkte som arealet under den teoretiske fordelingskurve afskåret af den observerede χ 2 værdi på Vi opnår derved det kanoniske skøn over p værdien på 0.057, dvs.. 5.7%, hvilket fører til den same konklusion! Endelig skal det understreges at χ 2 testen selvfølgelig er indbygget som en standard test i TI Nspire TM CAS. For at udføre denne test er det eneste vi behøver at kende den observerede krydstabel. Men den skal som vist indtastes som en liste af lister I dialogboksen: 28

30 Det gør det altså muligt at udføre testen meget enkelt og finde p værdien på uden at gå i detaljer med udregningen. Men læg mærke til at det ikke giver mening at udføre den automatiske test hvis man ikke på forhånd har en ret god forståelse for de begreber, der er involveret. Og der er mange erfaringer, der peger på at denne begrebsforståelse nemmest opnås ved at simulere nulhypotesen. Den eksperimentelle metode fungerer altså som en stige, der gør det muligt at kravle op til det næste trin, hvor man kan udføre de automatiske test med stor sikkerhed 4. Eksempler på eksamensopgaver Vi er nu i den heldige situation at vi rent faktisk har et par autentiske eksamensopgaver vi kan kigge på hentet fra det digitale eksamensforsøg: Først opgave 10 fra den 18. maj 2011 (A Niveau Net): Dernæst opgave 16 fra den 24. maj 2011 (A Niveau Net): Dem vil vi nu kigge lidt nærmere på. Prøv evt. først selv at løse dem 29

31 Der er mange måder at løse dem på og det følgende skal på ingen måde opfattes som kanoniske løsninger, der kan fungere som skabeloner, for hvordan man skal formulere sig! Opgave 10: Først skal vi have afgjort om det handler om et uafhængighedstest eller et goodness of fit test. Krydstabellen indikerer klart at der er tale om et uafhængighedstest: I tabellen finder vi variablen studieretning afsat lodret og variablen fravær afsat vandret. Vi skal afgøre om der er forskel på elevernes fravær på de to studieretninger. Det er det samme som at spørge om fraværet er uafhængigt af studieretningen. Først skal vi opstille en nulhypotese og i uafhængighedstesten er det jo altid at de to variable, der er involveret er uafhængige, så vi kan fx svarer således: Nulhypotesen: Fraværet er uafhængigt af studieretningen. Men vi kunne lige så godt svare: Nulhypotesen: Der er ingen signifikant forskel på elevernes fravær på de to studieretninger. Så skal vi undersøge på 5% signifikansniveau om vi kan forkaste nulhypotesen, dvs. om vi kan påvise en signifikant forskel på elevernes fravær på de to studieretninger. Vi finder p værdien: Da p værdien er 55% som er meget større end signifikansniveauet på 5% er der ikke grundlag for at forkaste nulhypotesen, dvs. ifølge undersøgelsen er forskellen i elevernes fravær på de to studieretninger ikke statistisk signifikant. Det kan selvfølgelig igen formuleres på mange forskellige måder. Det afgørende er at man får inddraget signifikansniveauet på 5% i konklusionen og at konklusionen formueres på en sådan måde at den rent faktisk svarer direkte på det stillede spørgsmål: Undersøg om der er forskel på elevernes fravær på de to studieretninger. 30

32 Opgave 16: Først skal vi have afgjort om det handler om et uafhængighedstest eller et goodness of fit test. Denne gang er der to tabeller: Dels en procenttabel, der handler om hele sæsonen og dermed repræsenterer hele populationen, dels en hyppighedstabel, der handler om en del af sæsonen og dermed repræsenterer en stikprøve. Det tyder på et goodness of fit test og da der ydermere spørges om resultatfordelingen stikprøven følger samme fordeling som resultatfordelingen for populationen kan der kun være tale om en goodness of fit test. Læg også mærke til at vi mangler oplysninger om det totale antal kampe i sæsonen 2009/10 så vi ville ikke være i stand til at konvertere procenttabellen til en hyppighedstabel. Først skal vi opstille en nulhypotese og i goodnes of fit testen er det jo altid at fordelingen i stikprøven følger den samme fordeling som fordelingen i populationen (dvs. stikprøven er repræsentativ for populationen). Vi kan derfor fx svare således: Nulhypotesen: Resultatfordelingen pr. 14/11 for sæsonen 2010/11 følger den samme fordeling som resultatfordelingen for sæsonen 2009/10. Men vi kunne lige så godt svare: Nulhypotesen: Der er ingen signifikant forskel på resultatfordelingen pr. 14/11 for sæsonen 2009/20 (stikprøven) og resultatfordelingen for sæsonen 2009/10 (populationen). Så skal vi undersøge på 5% signifikansniveau om vi kan forkaste nulhypotesen, dvs. om vi kan påvise en signifikant forskel på resultatfordelingen for de to sæsoner. Vi finder først den forventede fordeling pr. 14/11 for sæsonen 20010/11og dernæst p værdien: Da p værdien er 3.5% som er mindre end signifikansniveauet på 5% er der grundlag for at forkaste nulhypotesen, dvs. ifølge undersøgelsen er forskellen mellem resultatfordelingerne i de to sæsoner statistisk signifikant.de følger altså ikke den samme fordeling. Det kan selvfølgelig igen formuleres på mange forskellige måder. Det afgørende er at man får inddraget signifikansniveauet på 5% i konklusionen og at konklusionen formueres på en sådan måde at den rent faktisk svarer direkte på det stillede spørgsmål: Undersøg om de to sæsoner følger den samme resultatfordeling. 31

33 5. Afslutning Når man underviser I hypotesetest er nulhypotesen fuldstændigt afgørende. Og simulering af nulhypotesen er en af metoderne til at lære at forstå nulhypotesens natur. Tilsvarende er fordelingen af teststørrelsen afgørende fuldstændigt afgørende og den rolle som den teoretiske approksimation til den eksakte fordeling spiller. Igen hjælper simuleringen med til at forstå fordelingen af teststørrelsen. Imidlertid kræver den eksperimentelle tilgang via simulering en del træning, før man kan håndtere den tilfredsstillende i undervisningen både for læreren og eleverne. Så der er stadig masser at arbejde med i undervisningen, når man underviser i statistik på et eksperimentelt grundlag, Det er også vigtigt at slå fast at brugen af den eksperimentelle tilgang er valgfri. Den er et alternativ til den mere traditionelle teoretiske tilgang. Men det er vel at mærke et ligeværdigt alternativ, dvs. den eksperimentelle og den teoretiske metode er ligestillede ved eksamen. Det er min egen undervisningserfaring at mange elever vil få glæde af den eksperimentelle tilgang, og at den er umagen værd at sætte sig ind i. Man kan også spørge om hvorfor det lige netop er χ 2 testen vi skal undervise i? Hvad med andre hypotesetest som fx t testen? Er det virkeligt værdi at fokusere så meget på χ 2 testen? For det første afgrænser den et præcist område indenfor hypotesetest, som man kan teste til den skriftlige eksamen. For det andet viser erfaringen, at når man først har sat sig ind I χ 2 testen er det forholdsvis nemt at tilegne sig andre typer hypotesetest: De underliggende begreber er nemlig de samme, hvorfor man med sindsro kan benytte sig af de indbyggede automatiske tests: Det drejer sig altid om at forstå nulhypotesen og kunne finde p værdien. Det er kun den første test man skal arbejde hårdt for at forstå de efterfølgende test følger stort set gratis med Appendiks: Gensyn med Lady Tasting Tea Ved regionalmødet I Herning blev jeg spurgt om hvordan man skal forholde sig til de regler man ofte møder i litteraturen om at man kun må udføre en kanonisk χ 2 test, når alle de forventede værdier er 5. Tre ting er afgørende: a) For det første er det ikke en regel man skal bekymre sig om til den skriftlige eksamen. Den er ikke en del af kernepensum og der vil ifølge eksamenskommissionen aldrig blive stillet eksamensopgaver hvor en af de forventede værdier er mindre end 5. Ved en teknisk fejl er der sluppet nogle vejledende eksamensopgaver ud, hvor nogle af de forventede værdier er mindre end 5, men det skyldtes alene en beklagelig fejl i slutkorrekturen. b) For det andet er det afgørende at forstå at reglen faktisk ikke er særlig velbegrundet. Den skulle angiveligt sikre, at den faktiske fordeling af teststørrelsen ligner den teoretiske fordeling i tilstrækkeligt omfang som konsekvens af en asymptotisk grænseværdisætning, men den er alt for firkantet formuleret. c) For det tredje skal man gøre sig klart, at den p værdi, der kommer ud af den teoretiske beregning kun er et skøn over den eksakte p værdi, et skøn som er systematisk for lavt. Selv når alle de forventede værdier holder sig over 5, kan det kanoniske skøn sagtens ramme forkert med en faktor 2 i forhold til den eksakte værdi. 32

34 Der er altså langt større fejl på spil end dem, der måtte følge af mangler i den asymptotiske fordeling. Langt den alvorligste fejl, der begås er diskretiseringsfejlen. Vi kan illustrere denne ved at vende tilbage til fortælleingen om the Lady Tasting Tea. Men denne gang vil vi håndtere den som et χ 2 uafhængighedstest. Der er to stokastiske variable på spil: Dels den fysiske fremstillingsmetode: Mælk først eller Te først. Dels hendes bedømmelse: Mælk først eller Te først. Indskrives det i en krydstabel på sædvanlig vis fås: Det kanoniske skøn for p værdien er altså ca. 0.5%. Men vi har tidligere opstillet en eksakt beregning af sandsynlighederne for de mulige udfald: 8 rigtige, 6 rigtige, 4 rigtige, 2 rigtige, 0 rigtige. Da χ 2 testen ikke kan se forskel på rigtige og forkerte, har eksperimenterne begge χ 2 test værdien 8 selvom den ene har 8 rigtige og den anden 0 rigtige. Det sker i 2 ud af 70 tilfælde. Tilsvarende har eksperimenterne v begge χ 2 test værdien 2 selvom den ene har 6 rigtige og den anden20 rigtige. Det sker i 2 16=32 ud af 70 tilfælde. Endelig har eksperimentet χ 2 test værdien 0. Det sker i 36 ud af 70 tilfælde. Vi kender altså den eksakte sandsynlighedsfordeling! Indskrives den kan vi sammenligne den med den teoretiske sandsynlighedsfordeling: 33

35 Vi ser da for det første at den eksakte p værdi er givet ved , dvs. ca. 2.9% som er seks gange større end det kanoniske skøn. Men vi ser også problemet ved det teoretiske skøn: Der er kun tre diskrete værdier mulige, men vi udregner det som om der var tale om en kontinuert fordeling. Vi bør derfor ikke kun udregne arealet fra 8 og udefter, men inddrage ca. halvdelen af udfaldene mellem 2 og 8, dvs. udfaldene over 5 tælles med som de var 8, mens dem under 5 tælles med som de var 2. Gør vi det afskæres i stedet arealet 0.025, dvs. 2.5% som ligger rimeligt tæt på den eksakte værdi 2.9%. Konklusionen er altså at man bør justere for den diskrete fordeling, men det gør man bare ikke i de indbyggede teoretiske værktøjer det er simpelthen for svært at gøre det i praksis. Det er denne fejl som kaldes diskretiseringsfejlen og som er langt den største fejl, når man håndterer testen kanonisk i stedet for eksakt. Men det vigtigt igen at fastslå at diskretiseringsfejlen ikke er en del af kernepensum og at eleverne derfor hverken er forpligtet på den til den mundtlige eksamen eller den skriftlige eksamen! 34

36 Litteratur David Salsburg: The Lady Tasting Tea How Statistics revolutionized Science in the Twentieth century, Ronald Fisher: The design of Experiments,

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab

Læs mere

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium Man kan nemt lave χ 2 -test i GeoGebra både goodness-of-fit-test og uafhængighedstest. Den følgende vejledning bygger på GeoGebra version

Læs mere

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave]

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave] Statistik med TI-Nspire CAS version 3.2 Bjørn Felsager September 2012 [Fjerde udgave] Indholdsfortegnelse Forord Beskrivende statistik 1 Grundlæggende TI-Nspire CAS-teknikker... 4 1.2 Lister og regneark...

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

Fig. 1 Billede af de 60 terninger på mit skrivebord

Fig. 1 Billede af de 60 terninger på mit skrivebord Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008 Den eksperimentelle metode i statistik Den naturvidenskabelige metode er i fokus efter gymnasiereformen. Det starter med naturvidenskabeligt grundforløb: Aktivitetsmappe for introkurset til Naturvidenskabeligt

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM FORMÅL - BEKENDTGØRELSEN STX MATEMATIK A Kompetencer anvende simple statistiske eller sandsynlighedsteoretiske modeller

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Maple 11 - Chi-i-anden test

Maple 11 - Chi-i-anden test Maple 11 - Chi-i-anden test Erik Vestergaard 2014 Indledning I dette dokument skal vi se hvordan Maple kan bruges til at løse opgaver indenfor χ 2 tests: χ 2 - Goodness of fit test samt χ 2 -uafhængighedstest.

Læs mere

Projekt 6.1 Rygtespredning - modellering af logistisk vækst

Projekt 6.1 Rygtespredning - modellering af logistisk vækst Projekt 6.1 Rygtespredning - modellering af logistisk vækst (Projektet anvender værktøjsprogrammet TI Nspire) Alle de tilstedeværende i klassen tildeles et nummer, så med 28 elever i klassen uddeles numrene

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012 MATEMATIK A-NIVEAU Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012 Kapitel 4 Statistik & sandsynlighedsregning 2016 MATEMATIK A-NIVEAU Vejledende eksempler på eksamensopgaver

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

I. Deskriptiv analyse af kroppens proportioner

I. Deskriptiv analyse af kroppens proportioner Projektet er delt i to, og man kan vælge kun at gennemføre den ene del. Man kan vælge selv at frembringe data, fx gennem et samarbejde med idræt eller biologi, eller man kan anvende de foreliggende data,

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Spørgeskemaundersøgelser og databehandling

Spørgeskemaundersøgelser og databehandling DASG. Nye veje i statistik og sandsynlighedsregning. side 1 af 12 Spørgeskemaundersøgelser og databehandling Disse noter er udarbejdet i forbindelse med et tværfagligt samarbejde mellem matematik og samfundsfag

Læs mere

How to do in rows and columns 8

How to do in rows and columns 8 INTRODUKTION TIL REGNEARK Denne artikel handler generelt om, hvad regneark egentlig er, og hvordan det bruges på et principielt plan. Indholdet bør derfor kunne anvendes uden hensyn til, hvilken version

Læs mere

Temaopgave i statistik for

Temaopgave i statistik for Temaopgave i statistik for matematik B og A Indhold Opgave 1. Kast med 12 terninger 20 gange i praksis... 3 Opgave 2. Kast med 12 terninger teoretisk... 4 Opgave 3. Kast med 12 terninger 20 gange simulering...

Læs mere

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF Sammenligning af to måleserier En af de mest grundlæggende problemstillinger i statistik består i at undersøge om to forskellige måleserier er signifikant forskellige eller om forskellen på de to serier

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Taldata 1. Chancer gennem eksperimenter

Taldata 1. Chancer gennem eksperimenter Taldata 1. Chancer gennem eksperimenter Indhold 1. Kast med to terninger 2. Et pindediagram 3. Sumtabel 4. Median og kvartiler 5. Et trappediagram 6. Gennemsnit 7. En statistik 8. Anvendelse af edb 9.

Læs mere

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) Projekt 2.4 Menneskets proportioner (Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) I. Deskriptiv analyse

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Lineære sammenhænge, residualplot og regression

Lineære sammenhænge, residualplot og regression Lineære sammenhænge, residualplot og regression Opgave 1: Er der en bagvedliggende lineær sammenhæng? I mange sammenhænge indsamler man data som man ønsker at undersøge og afdække eventuelle sammenhænge

Læs mere

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008 Den eksperimentelle metode i statistik Den naturvidenskabelige metode er i fokus efter gymnasiereformen. Det starter med naturvidenskabeligt grundforløb: Aktivitetsmappe for introkurset til Naturvidenskabeligt

Læs mere

Rygtespredning: Et logistisk eksperiment

Rygtespredning: Et logistisk eksperiment Rygtespredning: Et logistisk eksperiment For at det nu ikke skal ende i en omgang teoretisk tørsvømning er det vist på tide vi kigger på et konkret logistisk eksperiment. Der er selvfølgelig flere muligheder,

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Mini AT-forløb om kommunalvalg: Mandatfordeling og Retfærdighed 1.x og 1.y 2009 ved Ringsted Gymnasium MANDATFORDELING

Mini AT-forløb om kommunalvalg: Mandatfordeling og Retfærdighed 1.x og 1.y 2009 ved Ringsted Gymnasium MANDATFORDELING MANDATFORDELING Dette materiale er lavet som supplement til Erik Vestergaards hjemmeside om samme emne. 1 http://www.matematiksider.dk/mandatfordelinger.html I dette materiale er en række øvelser der knytter

Læs mere

for gymnasiet og hf 2017 Karsten Juul

for gymnasiet og hf 2017 Karsten Juul for gymnasiet og hf 75 50 5 017 Karsten Juul Statistik for gymnasiet og hf 017 Karsten Juul 5/11-017 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm Hæftet må benyttes i undervisningen

Læs mere

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Baggrund: I de senere år har en del gymnasieskoler eksperimenteret med HOT-programmet i matematik og fysik, hvor HOT står for Higher

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Skriftlig eksamen i samfundsfag

Skriftlig eksamen i samfundsfag OpenSamf Skriftlig eksamen i samfundsfag Indholdsfortegnelse 1. Introduktion 2. Præcise nedslag 3. Beregninger 3.1. Hvad kan absolutte tal være? 3.2. Procentvis ændring (vækst) 3.2.1 Tolkning af egne beregninger

Læs mere

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Kapitel 8 Chi-i-anden (χ 2 ) prøven Kapitel 8 Chi-i-anden (χ 2 ) prøven Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 19 Indledning Forskelle mellem stikprøver undersøges med z-test eller t-test for data målt på

Læs mere

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF Tusind kugler Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF I en nyligt udkommen ungdomsroman om en ung svensk gymnasiepiges fortrædeligheder bruges et kuglespil ('galtonbræt') som en

Læs mere

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9.

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9. Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9. klassetrin: statistisk sandsynlighed, kombinatorisk sandsynlighed og personlig

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Regneark for begyndere

Regneark for begyndere Regneark for begyndere Regneark i Open- og LibreOffice Version: August 2012 Indholdsfortegnelse Hvad er et regneark?...4 Grundlæggende opbygning...4 Kast dig ud i det!...5 Du arbejder med: Din første

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Analyse af en lineær regression med lav R 2 -værdi

Analyse af en lineær regression med lav R 2 -værdi Analyse af en lineær regression med lav R 2 -værdi Denne gennemgang omhandler figur 13 i Regn med biologi. Man kan sagtens lave beregninger på egne data. Forsøgsmæssigt kræver det bare en tommestok tapet

Læs mere

Excel tutorial om indekstal og samfundsfag 2008

Excel tutorial om indekstal og samfundsfag 2008 Excel tutorial om indekstal og samfundsfag 2008 I denne note skal vi behandle data fra CD-rommen Samfundsstatistik 2008, som indeholder en mængde data, som er relevant i samfundsfag. Vi skal specielt analysere

Læs mere

Matematik og samfundsfag Gini-koefficienten

Matematik og samfundsfag Gini-koefficienten Erik Vestergaard www.matematikfysik.dk Matematik og samfundsfag Gini-koefficienten Den såkaldte Gini-koefficient, introduceret i 92 i en artikel af den italienske statistiker, demograf og sociolog Corrado

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Deskriptiv statistik for matc i stx og hf

Deskriptiv statistik for matc i stx og hf Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede

Læs mere

MODELSÆT 2; MATEMATIK TIL LÆREREKSAMEN

MODELSÆT 2; MATEMATIK TIL LÆREREKSAMEN MODELSÆT ; MATEMATIK TIL LÆREREKSAMEN Forberedende materiale Den individuelle skriftlige røve i matematik vil tage udgangsunkt i følgende materiale:. En diskette med to regnearks-filer og en MathCad-fil..

Læs mere

for matematik pä B-niveau i hf

for matematik pä B-niveau i hf for matematik pä B-niveau i hf 014 Karsten Juul TEST 1 StikprÅver... 1 1.1 Hvad er populationen?... 1 1. Hvad er stikpråven?... 1 1.3 Systematiske fejl ved valg af stikpråven.... 1 1.4 TilfÇldige fejl

Læs mere

Talrækker. Aktivitet Emne Klassetrin Side

Talrækker. Aktivitet Emne Klassetrin Side VisiRegn ideer 3 Talrækker Inge B. Larsen ibl@dpu.dk INFA juli 2001 Indhold: Aktivitet Emne Klassetrin Side Vejledning til Talrækker 2-4 Elevaktiviteter til Talrækker 3.1 Talrækker (1) M-Æ 5-9 3.2 Hanoi-spillet

Læs mere

c) For, er, hvorefter. Forklar.

c) For, er, hvorefter. Forklar. 1 af 13 MATEMATIK B hhx Udskriv siden FACITLISTE TIL KAPITEL 7 ØVELSER ØVELSE 1 c) ØVELSE 2 og. Forklar. c) For, er, hvorefter. Forklar. ØVELSE 3 c) ØVELSE 4 90 % konfidensinterval: 99 % konfidensinterval:

Læs mere

At lave dit eget spørgeskema

At lave dit eget spørgeskema At lave dit eget spørgeskema 1 Lectio... 2 2. Spørgeskemaer i Google Docs... 2 3. Anvendelighed af din undersøgelse - målbare variable... 4 Repræsentativitet... 4 Fejlkilder: Målefejl - Systematiske fejl-

Læs mere

Gør det selv-øvelser udi regneark for begyndere! - en manual fra Skolekonsulenterne.dk

Gør det selv-øvelser udi regneark for begyndere! - en manual fra Skolekonsulenterne.dk Gør det selv-øvelser udi regneark for begyndere! - en manual fra Skolekonsulenterne.dk Versionsdato: August 2009 Indholdsfortegnelse Generelt om manualer fra Skolekonsulenterne.dk...3 Hvad er et regneark?...4

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Hvad er meningen? Et forløb om opinionsundersøgelser

Hvad er meningen? Et forløb om opinionsundersøgelser Hvad er meningen? Et forløb om opinionsundersøgelser Jette Rygaard Poulsen, Frederikshavn Gymnasium og HF-kursus Hans Vestergaard, Frederikshavn Gymnasium og HF-kursus Søren Lundbye-Christensen, AAU 17-10-2004

Læs mere

Flemmings Maplekursus 1. Løsning af ligninger

Flemmings Maplekursus 1. Løsning af ligninger Flemmings Maplekursus 1. Løsning af ligninger a) Ligninger med variabel og kun en løsning. Ligningen løses 10 3 Hvis vi ønsker løsningen udtrykt som en decimalbrøk i stedet: 3.333333333 Løsningen 3 er

Læs mere

J E T T E V E S T E R G A A R D

J E T T E V E S T E R G A A R D BINOMIALT EST J E T T E V E S T E R G A A R D F I P B I O L O G I M A R S E L I S B O R G G Y M N A S I U M D. 1 3. M A R T S 2 0 1 9 K A L U N D B O R G G Y M N A S I U M D. 1 4. M A R T S 2 0 1 9 HVEM

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

for matematik pä B-niveau i hf

for matematik pä B-niveau i hf for matematik pä B-niveau i hf 75 50 5 016 Karsten Juul GRUPPEREDE DATA 1.1 Hvad er deskriptiv statistik?...1 1. Hvad er grupperede og ugrupperede data?...1 1.1 Eksempel pä ugrupperede data...1 1. Eksempel

Læs mere

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

ALMINDELIGT ANVENDTE FUNKTIONER

ALMINDELIGT ANVENDTE FUNKTIONER ALMINDELIGT ANVENDTE FUNKTIONER I dette kapitel gennemgås de almindelige regnefunktioner, samt en række af de mest nødvendige redigerings- og formateringsfunktioner. De øvrige redigerings- og formateringsfunktioner

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF

Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF Vi ønskede at planlægge og afprøve et undervisningsforløb, hvor anvendelse af

Læs mere

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014 Vejledning til udvalgte opgave fra Matematik B, sommer 2014 Opgave 7 Størrelsen og udbudsprisen på 100 fritidshuse på Rømø er indsamlet via boligsiden.dk. a) Grafisk præsentation, der beskriver fordelingen

Læs mere

Excel tutorial om lineær regression

Excel tutorial om lineær regression Excel tutorial om lineær regression I denne tutorial skal du lære at foretage lineær regression i Microsoft Excel 2007. Det forudsættes, at læseren har været igennem det indledende om lineære funktioner.

Læs mere

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A) Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A) Opgave 1 I nedenstående tabel ses resultaterne af samtlige hjerteklapoperationer i 007-08 ved Odense Universitetshospital (OUH) sammenlignet

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

VisiRegn: En e-bro mellem regning og algebra

VisiRegn: En e-bro mellem regning og algebra Artikel i Matematik nr. 2 marts 2001 VisiRegn: En e-bro mellem regning og algebra Inge B. Larsen Siden midten af 80 erne har vi i INFA-projektet arbejdet med at udvikle regne(arks)programmer til skolens

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet Projekt 1 Spørgeskemaanalyse af Bedst på Nettet D.29/2 2012 Udarbejdet af: Katrine Ahle Warming Nielsen Jannie Jeppesen Schmøde Sara Lorenzen A) Kritik af spørgeskema Set ud fra en kritisk vinkel af spørgeskemaet

Læs mere

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller Statistik II 1. Lektion Sandsynlighedsregning Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller

Læs mere

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger Uge 49 I Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte

Læs mere

Årsplan matematik 5. klasse. Kapitel 1: Godt i gang

Årsplan matematik 5. klasse. Kapitel 1: Godt i gang Årsplan matematik 5. klasse Kapitel : Godt i gang I bogens første kapitel får eleverne mulighed for at repetere det faglige stof, som de arbejdede med i 4. klasse. Kapitlet er udformet som en storyline

Læs mere

Hypotesetests, fejltyper og p-værdier

Hypotesetests, fejltyper og p-værdier Hypotesetests, fejltyper og p-værdier Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet October 25, 2018 Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet

Læs mere

Projekt 10.16: Matematik og demokrati Mandatfordelinger ved sidste kommunalvalg

Projekt 10.16: Matematik og demokrati Mandatfordelinger ved sidste kommunalvalg Projekt 10.16: Matematik og demokrati Mandatfordelinger ved sidste kommunalvalg Introduktion: Vi vil nu se på et konkret eksempel på hvordan man i praksis fordeler mandaterne i et repræsentativt demokrati,

Læs mere

Appendiks 6: Universet som en matematisk struktur

Appendiks 6: Universet som en matematisk struktur Appendiks 6: Universet som en matematisk struktur En matematisk struktur er et meget abstrakt dyr, der kan defineres på følgende måde: En mængde, S, af elementer {s 1, s 2,,s n }, mellem hvilke der findes

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

IT/Regneark Microsoft Excel Grundforløb

IT/Regneark Microsoft Excel Grundforløb januar 2018 Indhold Opbygning af et regneark... 3 Kolonner, rækker... 3 Celler... 3 Indtastning af tekst og tal... 4 Tekst... 4 Tal... 4 Værdier... 4 Opbygning af formler... 5 Indtastning af formler...

Læs mere

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse.

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse. Opdateret 28. maj 2014. MD Ofte brugte kommandoer i Geogebra. Generelle Punktet navngives A Geogebra navngiver punktet Funktionen navngives f Funktionen navngives af Geogebra Punktet på grafen for f med

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

En lille vejledning til lærere og elever i at bruge matematikprogrammet WordMat (begynderniveau)

En lille vejledning til lærere og elever i at bruge matematikprogrammet WordMat (begynderniveau) Matematik i WordMat En lille vejledning til lærere og elever i at bruge matematikprogrammet WordMat (begynderniveau) Indholdsfortegnelse 1. Introduktion... 3 2. Beregning... 4 3. Beregning med brøker...

Læs mere

Excel-2: Videre med formler

Excel-2: Videre med formler Excel-2: Videre med formler Tips: Du kan bruge Fortryd-knappen ligesom i Word! Du kan markere flere celler, som ikke ligger ved siden af hinanden ved at holde CONTROL-knappen nede Du kan slette indholdet

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Excel - begynderkursus

Excel - begynderkursus Excel - begynderkursus 1. Skriv dit navn som undertekst på et Excel-ark Det er vigtigt når man arbejder med PC er på skolen at man kan få skrevet sit navn på hver eneste side som undertekst.gå ind under

Læs mere

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

QR15 Vejledning i at bestemme kvartilsæt og at tegne sumkurver med Nspire, Maple og Geogebra

QR15 Vejledning i at bestemme kvartilsæt og at tegne sumkurver med Nspire, Maple og Geogebra QR15 Vejledning i at bestemme kvartilsæt og at tegne sumkurver med Nspire, Maple og Geogebra Nspire: Vi har et datasæt. Der er overordnet to metoder til at tegne sumkurver i programmet, og vi beskriver

Læs mere

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary 1 Kontingenstabeller Betinget fordeling Uafhængighed 2 Chi-kvadrat test for uafhængighed Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Læs mere

Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog

Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog Kort gennemgang af Samfundsfaglig-, Naturvidenskabeligog Humanistisk metode Vejledning på Kalundborg Gymnasium & HF Samfundsfaglig metode Indenfor det samfundsvidenskabelige område arbejdes der med mange

Læs mere

Mattip om. Statistik 2. Tilhørende kopier: Statistik 3, 4 og 5. Du skal lære om: Faglig læsning. Chance og risiko. Sandsynlighed

Mattip om. Statistik 2. Tilhørende kopier: Statistik 3, 4 og 5. Du skal lære om: Faglig læsning. Chance og risiko. Sandsynlighed Mattip om Statistik Du skal lære om: Faglig læsning Kan ikke Kan næsten Kan Chance og risiko Sandsynlighed Observationer, hyppighed og frekvens Gennemsnit Tilhørende kopier: Statistik, og mattip.dk Statistik

Læs mere

Projekt 9.5 Racefordomme i USA og Simpsons paradoks (B og A)

Projekt 9.5 Racefordomme i USA og Simpsons paradoks (B og A) Projekt 9.5 Racefordomme i USA og Simpsons paradoks (B og A) (Data er hentet fra M. Radelet, "Racial characteristics and imposition of death penalty", American Sociological Review, 46 (1981), pp 918-927

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Tip til 1. runde af Georg Mohr-Konkurrencen Kombinatorik

Tip til 1. runde af Georg Mohr-Konkurrencen Kombinatorik Tip til 1. runde af - Kombinatorik, Kirsten Rosenkilde. Tip til 1. runde af Kombinatorik Her er nogle centrale principper om og strategier for hvordan man tæller et antal kombinationer på en smart måde,

Læs mere