Introduktion til. DataMeter 2. Bjørn Felsager. Statistik med DataMeter. Forlag Malling Beck Læhegnet Albertslund

Størrelse: px
Starte visningen fra side:

Download "Introduktion til. DataMeter 2. Bjørn Felsager. Statistik med DataMeter. Forlag Malling Beck Læhegnet 71 2620 Albertslund"

Transkript

1 Introduktion til DataMeter 2 Bjørn Felsager Statistik med DataMeter Forlag Malling Beck Læhegnet Albertslund

2 Titel: Introduktion til DataMeter 2: Statistik med DataMeter Samhørende titel: DataMeter den danske udgave af "Fathom" Forfatter: Bjørn Felsager Forlagsredaktion: Frants Toft 1. udgave, 1. oplag Nærværende version af manuskriptet kan frit gøres til genstand for kopiering til undervisningsformål. Al anden mekanisk, fotografisk, elektronisk eller andre former for gengivelser af denne bog eller dele heraf er her ud over kun tilladt efter Copy-Dans regler. Nærværende introduktion er tænkt som elevmateriale. Den bør læses med programmet tændt, så man kan arbejde eksemplerne igennem og få en god førstehåndsfornemmelse for hvordan programmet virker. Den kan læses i flere omgange efterhånden som klassen når frem til de forskellige emner. Emnerne er af forskellig sværhedsgrad, så det er ikke alle eksempler, der egner sig til alle studieretninger. Hæftet kan downloades som en pdf-fil fra programmets hjemmeside:

3 Indhold Forord Beskrivende statistik Grundlæggende DataMeter-teknikker... 5 Velkommen til DataMeter... 5 Oprettelse af et datasæt: Variable i DataMeter... 7 Oprettelse af grafer: Prikdiagram og histogram... 9 Oprettelse af grafer: Kvartilsæt og boksplot...11 Middelværdien versus medianen...14 Statistiske beregninger På opdagelse i data...17 Case: Rayleigh og densiteten for kvælstof...17 På jagt efter variabelsammenhænge Fraktiler...23 Opdeling af et datasæt i lige store dele...23 Fraktilplot Grupperede observationer...29 Gruppering af data: Hyppigheder og frekvenser...29 Søjlediagram som erstatning for histogram...30 Sumkurve som erstatning for fraktilplot...31 Teknisk bemærkning: Histogrammer/søjlediagrammer...32 Boksplot for grupperede observationer...35 Middelværdi for grupperede observationer Bekræftende statistik Introduktion til bekræftende statistik...37 Tilfældig variation: Eksperimentelle metoder...37 Case: Nedstyrtningen af et brintbombefly i Thule...39 Simulering af en tilfældig variation Simulering og usikkerhedsintervaller...46 Simulering af en opinionsundersøgelse...46 Usikkerheden for en opinionsundersøgelse...48 Teknisk bemærkning: Kanonisk skøn for en andel...51 Bootstrap og usikkerhed: Tyngdeaccelerationen Omrøring og hypotesetest...54 Challenger-ulykken...54 Beskrivende statistik: Hvem er skurken?...56 Bekræftende statistik: Omrøring og uafhængighed...58 Teknisk bemærkning: Kanonisk t-test Spørgeskemaanalyser og χ²-test...66 Gråzonekriminalitet: En spørgeskemaanalyse...66 Beskrivende statistik: Søjle- og blokdiagrammer...67 Bekræftende statistik: Krydstabeller og uafhængighed...70 Teknisk bemærkning: Kanonisk χ²-test...78 Indeks

4 Forord DataMeter er et dynamisk databehandlingsprogram, der egner sig til undervisning i databehandling på mange niveauer: folkeskolens ældste klasser, gymnasiet og de videregående uddannelser. Statistik med Datameter er det andet hæfte skrevet som introduktion til DataMeter til brug for undervisningen i matematik på det indledende niveau i gymnasiet, dvs. Mat C. Det kan benyttes uafhængigt af det første hæfte, men for at få et bedre kendskab til DataMeter kan det anbefales også at gennemarbejde det introducerende kapitel i det første hæfte om variabelsammenhænge. Første del omhandler den beskrivende statistik: Hvordan trækker man information ud om et datasæt. I det indledende afsnit indføres de vigtigste graftyper og deskriptorer: prikdiagram, histogram og boksplot, kvartilsæt og middelværdi. Dernæst følger et afsnit, der kommer rundt om de vigtigste kendetegn ved en statistisk fordeling: niveauet, spredningen og formen. I det følgende afsnit gives der en introduktion til en generel opdeling af et datasæt i lige store dele ved hjælp af fraktiler. De fungerer dels som bindeled til de grupperede observationer, dels er de afgørende for kunne arbejde med metoder fra den bekræftende statistik. Da mange datasæt i praksis præsenteres som grupperede data (som også udgør et centralt emne i kernestoffet for MatC) afsluttes der med et længere afsnit om grupperede data med en gennemgang af de tilhørende graftyper og deskriptorer: søjlediagram, sumkurve og boksplot, kvartilsæt og middelværdi. Anden del omhandler den bekræftende statistik: Hvordan vurderer man en usikkerhed? Hvordan sandsynliggør man en hypotese? Der lægges vægt på eksperimentelle metoder, som i langt højere grad er tilgængelige for undervisningen på dette indledende niveau. I det første indledende afsnit indføres en række centrale begreber, som fx stikprøve og population. Det følgende afsnit omhandler de to vigtigste metoder til at skønne over usikkerhedsintervaller: simulering med tilfældighedsgeneratorer og bootstrap. Derefter følger et afsnit om hypotesetest med sammenligning af middelværdier for to numeriske variable via en omrøring af variable. Endelig giver det sidste afsnit en introduktion til spørgeskemaanalyser med vægten på krydstabeller og det eksperimentelle χ 2 -test for uafhængigheden af to kategoriserede variable. Dermed har også de elever, der kun har matematik på c-niveau mulighed for at stifte kvalificeret bekendtskab med de vigtigste typer hypotesetests, som de senere kan møde andre fag, fx samfundsfag eller biologi. De undervisningsforløb som hæftet lægger op til har været afprøvet i samarbejde med to inspirerende kolleger, Morten Birk Christensen (nu Oure Idrætsgymnasium) og Brian Olesen. Jeg er dem meget tak skyldig, men er naturligvis kun selv ansvarlig for de fejl og uhensigtsmæssigheder, der måtte have indsneget sig undervejs. Bjørn Felsager 4

5 1. Beskrivende statistik 1.1 Grundlæggende DataMeter-teknikker Velkommen til DataMeter Når du åbner for DataMeter 1 viser der sig følgende skærmbillede Det er især værktøjslinjen, der er interessant På den finder du tre rum: I det første er der simple værktøjer til at arbejde med tabeller, grafer og beregninger. I det sidste er der tilsvarende simple værktøjer til at arbejde med parametre, målinger og tekstbokse. I det midterste rum findes der ret så avancerede værktøjer til statistik. Dem vil vi kun kort omtale i dette hæfte, da den fulde brug af disse værktøjer kræver et indgående kendskab til statistisk teori. Men tilbage til de simple værktøjer: Dem kan vi hente ind i dokumentet ved at trække dem ned med markøren der forvandles til en gribende hånd, når vi klikker på et værktøj og slippe dem præcis, hvor det passer os. På næste side har vi fx trukket et datasæt ind i dokumentet. Præcis samme teknik virker med de andre værktøjer med undtagelse af måleværktøjet, hvor vi først skal vælge måleinstrument, vist på næste side med en afstandsmåler, hvorefter vi trækker en skyder ned, der virker sammen med måleinstrumentet. 1 I version 1.0 vil der dog ikke være et måleværktøj til rådighed. Måleværktøjet tillader opkobling af computeren til forskellige sonder fra det amerikanske firma Vernier, hvorefter målingerne kan importeres direkte til DataMeter. 5

6 1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker De to første værktøjer Datasæt og Tabel er uløseligt forbundne og bærer den samme titel, mens de resterende Graf, Beregning, Parameter, Måling og Tekst kan bruges for sig selv uafhængigt af et datasæt. Men lad os komme i gang med et eksempel: Kernen i DataMeter er dets unikke evne til at håndtere variable, så lad os gøre nogle observationer og knytte variable til dem. Det kunne være om klassen, hvor vi kunne se på datasættet bestående af de enkelte elever karakteriseret ved forskellige egenskaber, såsom navn, køn, alder, højde osv. Det kan I imidlertid selv lege med. 6

7 1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Oprettelse af et datasæt: Variable i DataMeter Her vil vi i stedet se på et eksempel, der også er så simpelt, at vi selv nemt kan taste data ind. FCK er en af topklubberne i dansk fodbold. I 1999 var lønningerne for spillerne på A-holdet givet ved den følgende tabel: Spiller Løn Christian Poulsen Thomas Røll Peter Hansen Heine Fernandez Thomas Thorninger Morten Bisgaard Christian Lønstrup Jacob Laursen Diego Tur Sibussio Zuma Thomas Rytter I den ovenstående tabel er der to variable: Spilleren og hans løn. Vi trækker derfor et tabelværktøj ned i dokumentet og starter med at give et navn til den første variabel spillerens navn ved at klikke på titlen <ny> og skrive løs Straks begynder der at ske noget: Dels dukker der en celle op lige under titlen på variablen, dels får tabellen selv en titel Datasæt 1 og der dukker et datasæt op i form af en tom skattekiste Derefter skriver du bare løs i de tomme celler der dukker op hver gang en celle er udfyldt og trykker ENTER. Lige så snart de første data i form af navne på spillerne dukker op i tabellen, kommer der guldkugler i skattekisten. Til sidst kan du også gå ind og dobbeltkikke på tabeltitlen og ændre navnet på datasættet til fx FCK Men spillerne er jo karakteriseret ved andet end deres navne, så vi fortsætter med at indtaste andre typiske egenskaber for spillerne, i dette tilfælde deres årsløn. 7

8 1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Den første variabel er nem nok at indtaste, da den bare består af en tekst. Sådanne tekstvariable kaldes også for kategoriserede variable, fordi de opdeler spillerne i forskellige kategorier, fx navn eller hvilken funktion de har på holdet, fx forsvarsspiller eller angrebsspiller. Tekstvariable er venstrestillede, ligesom i et almindeligt regneark. I det hele taget minder tabellen i sin struktur minder meget om et regneark med nummererede rækker, idet hver spiller har fået tildelt sit eget indeks, der angiver hans plads i tabellen. Læg mærke til at søjlerne, dvs. de enkelte variable, alle er navngivne. De er altså ikke født med bogstavnavne A, B, C osv. som i et almindeligt regneark. Og det er ikke nemt at referere til en enkelt celle. I DataMeter som er et dynamisk regneark arbejder vi med hele søjler/lister ad gangen, sådan som du måske også kender det fra din grafregner. Den anden variabel, lønnen er en talvariabel. De kaldes også for numeriske variable. Men her skal vi nu være opmærksomme på at der ikke blot kan være tale om talværdier, men også om enheder, idet de fleste størrelser er forsynet med en naturlig enhed. Lønnen udbetales fx i kroner. Da DataMeter er konstrueret til at arbejde med enheder er der ingen grund til at se bort fra dette. 8

9 1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker DataMeter kender de fleste grundlæggende enheder såsom meter, sekund, kilogram osv., men den kender fx ikke møntenheden kr. Ved at få vist enheder (højreklik i tabellen eller benyt menupunktet Vis enheder i Tabel-menuen) kan vi indskrive den ønskede enhed. Oprettelse af grafer: Prikdiagram og histogram Hvordan kan vi nu danne sig et overblik over disse tal? Det kan gøres på flere forskellige måder. Her vil vi nu først se på nogle grafiske metoder til at danne sig et overblik over numeriske variable (vi vil så senere også se nærmere på graftyperne for de kategoriserede variable). Vi trækker derfor et grafværktøj ned fra værktøjshylden Vi kan nu oprette en graf over lønningerne ved som vist at trække variablen Løn over på førsteaksen i grafrummet. Læg mærke til kommentaren (i gult), der fremkommer før vi slipper variablen. Vi kan tvinge DataMeter til at opfatte variablen som en kategoriseret/numerisk variabel ved at holde Skift/CTRL-tasten nede, mens vi slipper variablen. Men her ser vi udelukkende på numeriske variable, så vi slipper bare variablen løn FCK 1999 enhed Navn Løn kr FCK 1999 Prikdiagram Christian Poulsen kr Thomas Røll kr Peter Hansen kr Heine Fernandez kr Thomas Thorninger kr Morten Bisgaard kr Christian Lønstrup kr Jacob Laursen kr Diego Tur kr Sibussio Zuma kr Løn (kr) Thomas Rytter kr 9

10 1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Herved fremkommer der et prikdiagram, der giver en god fornemmelse for lønfordelingen, der er tydeligt højreskæv, har en central klump omkring kr. og en lang hale til højre med dels et par spillere omkring kr. og så den virkelige topscorer Sibussio Zuma med kr. i årsløn. Læg mærke til at prikdiagrammet er stakket, dvs. i stedet for at prikkerne dækker for hinanden, anbringes de oven på hinanden, så vi får en tydelig fornemmelse af fordelingens form. Selv om spillernes navne ikke optræder på grafen kan vi nemt finde ud af hvem der gemmer sig bag prikkerne. Klikker vi på et datapunkt, lyser det nemlig op i tabellen. Dobbeltklikker vi datapunktet åbnes grafinspektøren og vi får direkte adgang til spillerens generalieblad Vi kan også skifte graftype og afsætte lønningerne i et histogram FCK Histogram Histogrammet viser det samlede overordnede mønster som prikdiagrammet. Vi kan nu selv tilpasse histogrammet ved at dobbeltklikke i grafrummet og derved få adgang til grafinspektøren. Fx kan vi som vist sætte intervalbredden ned fra til og få lidt finere detaljer med. Tilsvarende kan vi regulere intervalstarten, dvs. placeringen af det første intervalendepunkt Løn (kr) 10

11 1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Læg mærke til at hvert af intervallerne starter i det venstre endepunkt 2. Hvis vi fx som vist markerer typeintervallet, kan vi på statusbjælken for neden se at det drejer sig om fire spillere med lønninger fra kr. (inklusive) op til kr. (eksklusive): Oprettelse af grafer: Kvartilsæt og boksplot Hvis vi ordner lønningerne i rækkefølge ved at højreklikke på variablen Løn og vælge kommandoen Sortér stigende, kan vi uden videre aflæse den mindste lønning, dvs. minimum, den midterste lønning, dvs. medianen, samt den største lønning, dvs. maksimum Vi finder da: Min = Med = Max = Der er tale om et tilfældigt valg. I andre undervisningstraditioner kan man derfor møde det modsatte valg, hvor det er højre endepunkt, der regnes med. 11

12 1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Medianen er den midterste observation. Hvis der er et lige antal observationer, vil der i stedet være to midterobservationer. Man har da vedtaget at medianen i dette tilfælde er gennemsnittet af de to midterste observationer 3. I dette tilfælde viser det sig, at de to midterste observationer er ens, så her er den detaljerede regel ikke så afgørende. Medianen deler nu det ordnede datasæt i to halvdele. Vi kan derfor fortsætte med at fastlægge medianerne for hver af disse. De kaldes første og tredje kvartil Q 1 og Q 3 (jfr. ordet kvart, som står for en fjerdedel, idet kvartilerne deler datasættet i fjerdedele). Hvis der er et lige antal observationer er det oplagt, hvordan datasættet splittes i to halvdele. Med et ulige antal er det lidt mere indviklet, fordi Data- Meter både kan medtage og udelukke den midterste observation i de to halvdele. I DataMeter prioriteres det nu højt, at kvartilerne så vidt som symmetrien tillader det svarer til en observation. De to kvartiler udgør medianerne for de to halvdele af det ordnede datasæt. Hvis der i alt er et ulige antal observationer regnes midterobservationen kun med til de to halvdele, når dette også fører til et ulige antal observationer i hver halvdel. Det sikrer at kvartilen også i dette tilfælde selv bliver en observation. I det ovenstående tilfælde skal medianen altså ikke regnes med, da de to halvdele ellers ville komme til at indeholde et lige antal. De to halvdele ser derfor således ud: FCK 1999 Spiller Løn FCK 1999 Spiller Løn 1 Peter Hansen Peter Hansen Christian Poulsen Christian Poulsen Q 1 3 Thomas Røll Thomas Røll Diego Tur Diego Tur Thomas Rytter Thomas Rytter Thomas Thorninger Thomas Thorninger Christian Lønstrup Christian Lønstrup Heine Fernandez Heine Fernandez Jacob Laursen Jacob Laursen Q 3 10 Morten Bisgaard Morten Bisgaard Sibussio Zuma Sibussio Zuma Første kvartil Q 1 er altså givet ved kr. i årsløn, mens tredje kvartil Q 3 er givet ved kr. i årsløn. 3 Der findes forskellige traditioner for hvad man skal lægge vægt på, når man definerer statistiske deskriptorer. I ældre dansk undervisningstradition har man i stedet prioriteret højest, at medianen altid faldt sammen med en observation. Man har derfor vedtaget (tilfældigt!) at medianen skulle være den største af de to observationer. 12

13 1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Kvartilsættet bestående af den første kvartil, medianen og den tredje kvartil (hvor medianen kan opfattes som den anden kvartil) deler datasættet i fire dele, som hver for sig rummer (ca!) en fjerdedel af observationerne. Tilføjer vi ydermere minimum og maksimum (den nulte kvartil og den fjerde kvartil) til kvartilsættet kaldes det for det udvidede kvartilsæt eller de fem nøgletal. Vi samler ofte de fem nøgletal i et såkaldt boksplot, hvor boksens to ender angiver første og tredje kvartil, mens medianen markeres med en lodret streg inde i boksen. Boksen indeholder altså (mindst!) halvdelen af observationerne. Dertil føjer vi vandrette streger, der i princippet rækker helt ud til den mindste observation og den største observation Boksplottet giver et klart indtryk af den skævhed der er i aflønningen af spillerne på A-holdet. Halvdelen af lønninger ligger i den venstre hale og den venstre halvdel af boksen, som begge er meget små i forhold til den højre halvdel og den meget lange højre hale. Boksplottet giver derimod ikke noget indtryk af hvordan de enkelte individuelle data fordeler sig. Skyldes den højre hale fx blot nogle få observationer eller er der tale om en hel stribe af observationer. Trykker vi CTRL-A for at vælge alle observationer, ser vi at boksplottet er udspændt af 7 værdier (hvoraf en stor del af de mindre værdier optræder flere gange). Her kan vi nu få glæde af begrebet en atypisk eller perifer observation. En observation kaldes en afviger eller siges at være perifer, hvis den ligger usædvanligt langt ude i forhold til den centrale boks. Det er selvfølgelig et skøn, hvornår noget ligger så langt ude at det må betragtes som ekstremt. FCK 1999 Boksplot Løn (kr) DataMeter benytter en tommelfingerregel opstillet af den amerikanske statistiker Tukey, der har vist sig i praksis at være yderst nyttig til at spotte afvigerne. Tukey tager udgangspunkt i boksens bredde, den såkaldte kvartilbredde, dvs. Q 3 Q 1 : 13

14 1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Tukeys regel: Hvis en observation ligger længere væk end halvanden kvartilbredde fra den centrale kasse, anses den for at være en afviger. Grænserne for linjestykkerne, dvs. nedre kvartil minus halvanden kvartilbredde og øvre kvartil plus halvanden kvartilbredde, kaldes Tukeys hegn. I vores tilfælde er kvartilbredden kr. (= ). Halvanden kvartilbredde er derfor kr. Trækker vi kr. fra den venstre kant, dvs. Q 1 = kr., fås en negativ løn. Dvs. vi skal ned på en negativ løn for at have en ekstrem lav løn. Det er der ingen, der har. Tilsvarende skal vi lægge kr. til den højre kant, dvs. Q 3 = kr. Vi skal altså op over en årsløn på kr. for at have en ekstremt høj løn. Det er der kun én, der har! Middelværdien versus medianen Inden vi forlader eksemplet med fodboldspillerne vil vi se på endnu en statistisk deskriptor som kan være af stor nytte til beskrivelse af data. Som et mål for den centrale eller typiske værdi har vi indtil videre benyttet medianen. Men i mange sammenhænge vil vi foretrække middelværdien eller gennemsnittet. I det ovenstående tilfælde skal vi altså finde den samlede lønsum og dividere den med antallet af spillere, dvs. 11. Grafisk tilføjer vi middelværdien ved at højreklikke i grafrummet og vælge kommandoen Plot værdi (der åbner for en formelregner, hvor vi indskriver formlen middel() for at få tegnet middelværdien og formlen median() for at få tegnet medianen) middelløn = = FCK 1999 Boksplot Løn (kr) middel ( ) = kr median ( ) = kr Gennemsnitslønnen i FCK er altså kr., hvilket ligger et godt stykke over medianen på kr. Det afspejler den uforholdsmæssige store indflydelse afvigeren har på gennemsnittet. Det er derfor det er godt også at have medianen til rådighed. Medianen ligger altid i den centrale klump. Ydermere er medianen robust dvs. påvirkes ikke af tilstedeværelsen af en enkelt eller nogle få afvigere. Medianen er derfor et bedre mål for den typiske spillerløn. 14

15 1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Trækker vi afvigeren ud af statistikken falder gennemsnittet for de resterende 10 spillere ned til middelløn = = uden Zuma 10 Grafisk opnås det samme ved at indføre et filter, der skærer Zuma ud af grafen (højreklik i grafrummet og hold CTRL-tasten nede for at forvandle lighedstegnet, =, til et ulighedstegn, ) FCK 1999 Boksplot Løn (kr) middel ( ) = kr median ( ) = kr Navn "Sibussio Zuma" FCK 1999 enhed Navn Løn kr Peter Hansen kr Christian Poulsen kr Thomas Røll kr Diego Tur kr Thomas Rytter kr Thomas Thorninger kr Christian Lønstrup kr Heine Fernandez kr Jacob Laursen kr Morten Bisgaard kr Sibussio Zuma kr Nu er der ikke længere så stor forskel på median og middeltal, om end middellønnen endnu engang er den største, hvilket afspejler lønfordelingens asymmetri med en tydelig lang hale til højre. Denne gang er det Jacob Laursen og Morten Bisgaard, der har en perifer løn. I stedet for at sætte et filter på kan vi også bare gribe fat i det perifere datapunkt og trække i det. Men kan da netop se, hvordan middellønnen hele tiden flytter sig, mens medianlønnen ligger stille indtil vi kører forbi den og selv da giver den kun et lille ryk På samme måde rykker kvartilerne selvfølgelig også, når vi passerer dem. Læg dog mærke til at vi ikke kan trække middellønnen forbi medianlønnen i det ovenstående eksempel. Fordelingen forbliver altså højreskæv. Bemærkning: En sådan dynamisk tilpasning af modellen er fin til at demonstrere, hvilken indflydelse udvalgte data har på modellen. Men vi kan også ved et uheld komme til at flytte rundt på datapunkterne. Det er derfor godt at vide, at vi kan låse datapunkterne i grafer ved hjælp af menupunktet Lås data i grafvindue i Datasæt-menuen. 15

16 1.1 Beskrivende statistik: Grundlæggende DataMeter-teknikker Statistiske beregninger Til slut vil vi se lidt på mulighederne for at udføre simple statistiske beregninger. Vi trækker altså beregningsværktøjet ned i arbejdsvinduet. Der er nu mulighed for at trække variable ind vandret og lodret i beregningsboksen, jfr. grafværktøjet FCK 1999 Løn kr R1 = middel ( ) Trækker vi nu den numeriske variabel Løn ind i den lodrette søjle får vi som udgangspunkt beregnet middelværdien. Højreklikker vi i beregningsboksen får vi nu også adgang til fempunkts-oversigten (dvs. de fem nøgletal eller det udvidede kvartilsæt): FCK 1999 Løn R1 = middel ( ) R2 = min ( ) R3 = Q1 ( ) R4 = median ( ) R5 = Q3 ( ) R6 = maks ( ) kr kr kr kr kr kr Dermed har vi adgang til alle de statistiske deskriptorer som vi har introduceret i det foregående. Men ligesom i grafværktøjet kan vi også tvinge DataMeter til at håndtere variablen Løn som en kategorisk variabel ved at holde SKIFT-tasten nede. Derved frembringes en hyppighedstabel over lønningerne, der bl.a. kan bruges til at finde typetallet, dvs. den hyppigst forekommende løn, her kr. FCK kr kr kr Løn kr kr kr kr Søjle total R1 = tæl ( )

17 1.2 På opdagelse i data Vi har nu fået en første fornemmelse for strukturen af et datasæt. Kernen i den beskrivende statistik er de grafiske fremstillinger af data. Øjet er vores bedste mønstergenkender, så når vi vil danne os et overblik over strukturen for et datasæt, dvs. fordelingen af de variable, er det langt det nemmeste, hvis vi begynder med at visualisere fordelingen før vi kigger dybt i tabeller og begynder at udføre indviklede beregninger. Det udtrykkes ofte med sloganet: 'Du skal tegne, før du kan regne'. Den mest grundlæggende graftype for en variabel hørende til et datasæt er prikdiagrammet. Men dertil kommer så de supplerende graftyper: histogram, boksplot og fraktilplot, som hver for sig er gode til at fremhæve forskellige sider af strukturen. Hvad er det så man kan hæfte sig ved, når man forsøger at danne sig et indtryk af strukturen for en variabel? Der er første og fremmest de følgende tre kendetegn: Form, niveau og spredning 1. Form: Ligger dataene jævnt fordelt ud over et interval eller er de fleste data samlet i en eller flere klumper? Ligger dataene symmetrisk eller ligger de skævt. Som hjælp til det sidste kan man også se på forskellen mellem middelværdien og medianen, der kan opfattes som et mål for skævheden. 2. Niveau: Hvad er den typiske værdi for variablen? Hvis dataene med tilnærmelse ligger symmetrisk, vil vi ofte foretrække middelværdien som den typiske værdi, men hvis dataene ligger skævt vil vi ofte foretrække medianen som den typiske værdi. 3. Spredning: Ligger dataene meget tæt på den typiske værdi eller spreder de sig ud over et stort område? For en jævn fordeling, vil vi ofte benytte variationsbredden (forskellen mellem den mindste og den største værdi) som et mål for spredningen. For en fordeling med en central pukkel og lange haler ud til siden vil vi ofte benytte kvartilbredden (tykkelsen af kvartilboksen) som et mål for spredningen. Men andre kendetegn kan også falde i øjnene: Er der fx typiske gab? Er der tydelige perifere/afvigende observationer osv. Case: Rayleigh og densiteten for nitrogen Som et typisk eksempel på en opdagelsesrejse i et datasæt vil vi se på et berømt historisk eksempel 4 : Rayleighs undersøgelse af densiteten for kvælstof N 2, som udgør den vigtigste komponent i atmosfærisk luft. Den næst vigtigste er ilt O 2. Ved at fjerne ilten fra atmosfærisk tør luft kunne han isolere kvælstoffet. Tilsvarende kunne han frembringe rent kvælstof ved at nedbryde forskellige simple kemiske forbindelser. Derved fandt han frem til følgende eksperimentelle data 4 Rayleighs egen beskrivelse findes fx på hjemmesiden 17

18 1.2 Beskrivende statistik: På opdagelse i data Rayleighs data Dato Kilde Metode Vægt enhed gram 29 nov 93 Nitrogenoxid Varmt jern gm 5 dec 93 Nitrogenoxid Varmt jern gm 6 dec 93 Nitrogenoxid Varmt jern gm 8 dec 93 Nitrogenoxid Varmt jern gm 12 dec 93 Atmosfærisk luft Varmt jern gm 14 dec 93 Atmosfærisk luft Varmt jern gm 19 dec 93 Atmosfærisk luft Varmt jern gm 22 dec 93 Atmosfærisk luft Varmt jern gm 26 dec 93 Dinitrogenoxid Varmt jern gm 28 dec 93 Dinitrogenoxid Varmt jern gm 9 jan 94 Ammoniumnitrogendioxid Varmt jern gm 13 jan 94 Ammoniumnitrogendioxid Varmt jern gm 27 jan 94 Atmosfærisk luft Jernhydrat gm 30 jan 94 Atmosfærisk luft Jernhydrat gm 1 feb 94 Atmosfærisk luft Jernhydrat gm For at danne sig et indtryk af fordelingen for de målte vægte afbildes de i et prikdiagram henholdsvis et boksplot Rayleighs data Prikdiagram Rayleighs data Boksplot Vægt middel ( ) = median ( ) = Vægt middel ( ) = Prøver vi først at se på boksplottet er boksen usædvanlig bred i forhold til de to haler. Samtidigt er fordelingen tydeligt højreskæv, idet den højre del af boksen er meget større end den venstre del; dette bekræftes yderligere af at middelværdien ligger langt inde i den højre del. Men der ud over er det svært at se på boksplottet, hvad det egentlig er der gør fordelingen så usædvanlig. Kigger vi der i mod på prikdiagrammet falder det tydeligt i øjnene at fordelingen er skilt ad i to (måske endda tre) klumper: En snæver klump omkring massen 2.310g og en bredere klump omkring 2.299g (og måske er der endda tegn på en tredje klump omkring 2.301g). Hvad kan nu være årsagen til denne opsplitning af datasættet? Indkranser vi den snævre klump omkring 2.310g i prikdiagrammet ses det tydeligt i tabellen, at den er koblet til alle målingerne, der stammer fra atmosfærisk luft, se figuren næste side. der er altså tydeligvis en skjult variabel, der giver anledning til en systematisk forskel på den kvælstof, der isoleres fra den atmosfæriske luft og den kvælstof, der isoleres fra forskellige kemiske forbindelser. I virkeligheden er der altså tale om en sammenblanding af to adskilte datasæt. Det kan vi se tydeligt, hvis vi indfører en sammensat variabel, Oprindelse, der skelner mellem de målinger, der stammer fra kemiske forbindelser og de målinger, der stammer fra atmosfærisk luft 18

19 1.2 Beskrivende statistik: På opdagelse i data Ved at indføre Oprindelse som uafhængig variabel og Vægt som afhængig får vi netop tydeligt adskilt de to grupper data Rayleighs data Boksplot Atmosfærisk luft Kemisk forbindelse Oprindelse middel ( ) = gm Rayleighs data Atmosfærisk luft Oprindelse Kemisk forbindelse Søjle total R1 = middel ( ) Vægt gm gm gm Tilbage stod så bare at identificere den sande natur af den skjulte variabel: Hvorfor adskilte den kvælstof, der blev udskilt af atmosfærisk luft sig fra den kvælstof, der blev isoleret fra en kemisk forbindelse? Rayleigh gættede på at den atmosfæriske luft måske indeholdt et ukendt stof, der forstyrrede målingerne. I så fald repræsenterer målingerne fra de kemiske forbindelser den rene kvælstof, mens målingerne fra den atmosfæriske luft er 'forurenet' af det skjulte stof. Hvis dette skjulte stof havde en højere densitet end kvælstof, ville det netop kunne trække målingerne en anelse i vejret, så de kom til at ligge på et højere niveau. Rayleigh gik på jagt efter det ukendte stof, hvorved han netop opdagede den første ædelgas, argon, hvilket udløste en nobelpris. Bemærk i øvrigt hvordan hans opdagelse kun kunne lade sig gøre, fordi han dels målte meget præcist, dels benyttede flere af hinanden uafhængige metoder til fremstillingen af kvælstof. 19

20 1.2 Beskrivende statistik: På opdagelse i data På jagt efter variabelsammenhænge Som et andet eksempel på hvordan man kan gå på opdagelse i data vil vi se på hvordan man kan analysere den information, der ligger gemt i en spørgeskemaundersøgelse. Her tager vi udgangspunkt i et udsnit af en stor tysk undersøgelse af gymnasieelevers fritidsvaner. En dansk udgave, Unges fritidsvaner, kan hentes på DataMeters hjemmeside der fx nås via hjælpemenuen. Undersøgelsen rummer 140 forskellige variable, så der er nok at tage fat på. Her vil vi se nærmere på variablen TidTV, der registrerer de unges ugentlige timeforbrug til TV-kiggeri. Trækkes variablen ind i et grafrum kan vi dels kigge på et boksplot for det store overblik, dels supplere med et prikdiagram for de finere detaljer Unges fritidsvaner Boksplot TidTV median ( ) = 10 middel ( ) = Unges fritidsvaner Prikdiagram TidTV Boksplottet afslører at niveauet for de unges tv-kiggeri ligger på 10 timer om ugen (og der er ikke stor forskel på median og middelværdi i denne forbindelse). Faktisk er 10 timer om ugen også typetallet. Spredningen kan angives via kvartilbredden på 9 timer, idet halvdelen af de unge ser tv mellem 5 og 14 timer om ugen. Ser vi til sidst på formen er der karakteristisk at der er en lang hale til højre, der ender i en række perifere observationer med unge 'tv-narkomaner', der ser tv mindst 30 timer om ugen. Man kunne så naturligt forvente at tv-kiggeriet var højreskævt, men faktisk ligger middelværdien en anelse til venstre for medianen. Den venstre halvdel af kvartilboksen er da også større end den højre halvdel, hvilket kompenserer for den lange hale. Men detaljerne kan først rigtigt ses på prikdiagrammet, hvor det fx fremgår at mange unge er tilbøjelige til at opgive deres ugentlige tv-forbrug i multipla af 5, idet der er tydelige toppe ved 5, 10, 15, 20, 25 og 30 timer. Andre går ud fra deres daglige forbrug, hvilket giver toppe ved 7, 14 og 21 timer om ugen. 20

21 1.2 Beskrivende statistik: På opdagelse i data Vi går nu videre med at overveje nogle mulige sammenhænge hvilke variable kan tænkes at have indflydelse på tv-kiggeriet? hvilke variable kan tv-kiggeriet tænkes at have indflydelse på? Kunne det fx tænkes at kønnet spillede en rolle for tv-kiggeriet? Kigger piger mere tv end drenge? Er de fx mere afhængige af 'serier'? Unges fritidsvaner 35 Boksplot Unges fritidsvaner Køn Dreng Pige 10 8 TidTV R1 = median ( ) R2 = middel ( ) R3 = kvartilbredde ( ) Række total Dreng Køn middel ( ) = Pige Det kan vi afklare, ved at trække variablen Køn ind som den uafhængige variabel på førsteaksen og variablen TidTV ind som den afhængige variabel på andenaksen. Grafen viser da at niveauet for drengenes tv-kiggeri faktisk ligger en anelse højere end pigernes, både målt på middelværdi og median, idet drengen typisk kigger 12 timers mere tv om ugen. Og sjovt ligger middelværdien over medianen for begge køns vedkommende. Ellers er der ikke den store forskel på formen i de to fordelinger: Drengenes spredning er en anelse mindre end pigernes, mens pigernes fordeling er lidt mere skæv end drengenes. En anden interessant mulig sammenhæng er spørgsmålet om det spiller en rolle, om de unge har deres eget tv-apparat eller om de er 'tvunget' til at se tv på familiens apparat Unges fritidsvaner 35 Boksplot Unges fritidsvaner Ege ttv ja nej 10 7 TidTV R1 = median ( ) R2 = middel ( ) R3 = kvartilbredde ( ) Række total ja Ege ttv middel ( ) = nej 21

22 1.2 Beskrivende statistik: På opdagelse i data Det kan vi afklare ved at trække variablen EgetTV ind som den uafhængige variabel og variabel TidTV som den afhængige variabel. Denne gang er forskellen mere markant. Niveauet for tv-kiggeriet for de unge med eget tv-apparat ligger typisk 3 timer over niveauet for de unge uden eget tv-apparat. Tilsvarende er spredningen af tvkiggeriet større for de unge med eget tv, idet fx kvartilbredden for de unge med eget tv-apparat ligger to timer over kvartilbredden for de unge uden eget tv-apparat. Begge fordelinger har i øvrigt stort set samme form. Faktisk synes den største forskel at være at den ene fordeling synes at være en forstørret udgave af den anden, dvs. de er stort set ligedannede, hvilket vi som vist kan illustrere ved at tilføje passende linjer gennem beslægtede punkter i et tegneprogram Vi kan også fremhæve den fælles form, ved fx at udregne den relative kvartilbredde (sat i forhold til medianen) Unges fritidsvaner Ege ttv Række ja nej total TidTV kvartilbredde ( R1 = ) median ( ) I begge tilfælde fås da en relativ kvartilbredde på 80-85%, så kvartilbredden for tv-kiggeriet er ca. 80% af niveauet. Læg i øvrigt mærke til at årsagssammenhængen mellem to variable sjældent er entydig: Har man eget tv-apparat kan det friste til at se mere tv. men omvendt kan et stort behov for tv-kiggeri føre til et pres på familien for at man kan se det uden at forstyrre de andre. Sammenfattende kan man altså arbejde med at undersøge data på flere forskellige niveauer: ved at trække statistiske informationer ud om de enkelte variable ved at sammenholde statistiske informationer for flere variable ved at knytte de statistiske informationer sammen med den kontekst variablen indgår 22

23 1.3 Fraktiler Opdeling af et datasæt i lige store dele I det foregående har vi set hvordan vi dels ved hjælp af medianen kan dele et datasæt i to lige store halvdele, dels ved hjælp af kvartiler kan dele et datasæt i fire lige store fjerdele. Men der er selvfølgelig intet helligt ved halvdele og fjerdedele og vi kunne lige så godt dele et datasæt i ti lige store dele (ved hjælp af deciler), i hundrede lige store dele (ved hjælp af centiler) osv. I almindelighed bruger vi fraktiler til at dele et datasæt i et bestemt antal lige store dele. Den praktiske opdeling af datasættet i lige store brøkdele ved hjælp af fraktiler afhænger af datasættets størrelse, dvs. antallet af observationer n. Det er nemmest hvis antallet af observationer n kan deles med nævneren for brøkdelen. Lad os fx se på femtedele. Hvis 5 går op i antallet af observationer, fx n = 20 hvor 5 går op netop 4 gange, ordnes disse observationer i voksende rækkefølge, hvorefter de første fire observationer udgør den første femtedel, de næste fire observationer den anden femtedel osv. Som skillepunkter, dvs. kvintiler, bruger vi da som sædvanlig gennemsnittet af de to nærmeste observationer. Se fx det nedenstående eksempel, hvor vi har fundet kvintilerne for et ordnet datasæt bestående af vægtene for 20 amerikanske bamser (målt i den amerikanske vægtenhed pund, dvs. lb): Nulte kvintil Første kvintil Anden kvintil Tredje kvintil Fjerde kvintil Femte kvintil Vilde bjørne enhed Vægt pounds 65 lb 70 lb 74 lb 80 lb 108 lb 121 lb 142 lb 166 lb 220 lb 262 lb 334 lb 344 lb 348 lb 360 lb 371 lb 386 lb 416 lb 432 lb 476 lb 478 lb Ingen data Slip en variabel her 80 lb R1 = ( + 108lb) 2 R2 = ( 166lb + 220lb) 2 R3 = ( 344lb + 348lb) 2 R4 = ( 386lb + 416lb) 2 Vilde bjørne 65 lb 94 lb 193 lb 346 lb 401 lb 478 lb R1 = fraktil ( 0; Vægt) R2 = fraktil ( 20; Vægt) R3 = fraktil ( 40; Vægt) R4 = fraktil ( 60; Vægt) R5 = fraktil ( 80; Vægt) R6 = fraktil ( 100; Vægt) 94 lb 193 lb 346 lb 401 lb Datasættet/titlen er trukket ind i beregningsboksen for at give adgang til variablen vægt. 23

24 1.3 Beskrivende statistik: Fraktiler Vilde bjørne Prikdiagram Vægt (pounds) fraktil ( 20; Vægt) = 94 lb fraktil ( 40; Vægt) = 193 lb fraktil ( 60; Vægt) = 346 lb fraktil ( 80; Vægt) = 401 lb Men hvad gør vi så, hvis 5 ikke går op i antallet af observationer? Hvordan skal vi så håndtere resterne, dvs. hvordan definerer vi fraktiler helt generelt? 5 Nu bliver det lidt mere indviklet og det er nemmest at forklare opdelingen i fraktiler i almindelighed. Vi tænker os igen at vi har et datasæt med 20 observationer. Vi deler da intervallet fra 0 til 100% i 20 lige store dele, der altså hver omfatter 5% (se opdelingen af den lodrette akse i figuren). I hvert af de 20 intervaller knytter vi da midtpunkterne til de 20 observationer, dvs. den mindste observation knyttes til 2½%, den næstmindste til 7½% osv. Vi siger derfor at 2½%-fraktilen for datasættet er den mindste observation x (1), 7½%-fraktilen er den næstmindste observation x (2) osv. 5 Der findes forskellige definitioner af fraktiler. Fx benytter Excel en anden definition end DataMeter, ligesom der findes forskellige varianter i undervisningslitteraturen. Det er noget man må være opmærksom på, når man sammenligner resultater opnået med forskellige programmer eller stammende fra forskellige kilder. 24

25 1.3 Beskrivende statistik: Fraktiler Fraktiler tildeles nu enten en observation eller gennemsnittet af to naboobservationer i det ordnede datasæt efter følgende regel: Hvis brøkdelen (omregnet til procent) ligger inde i et af de 20 delintervaller knyttes den til den observation, der hører til delintervallet. Hvis brøkdelen (omregnet til procent) netop ligger på grænsen mellem to delintervaller knyttes den til gennemsnittet af de to tilhørende observationer. Fx ligger 4% i det første delinterval og derfor er 4%-fraktilen netop knyttet til den mindste observation x (1). Tilsvarende ligger 10% på grænsen mellem det andet delinterval (fra 5% til 10%) og det tredje delinterval (fra 10% til 15%) og derfor er 10% fraktilen netop gennemsnittet mellem den anden og den tredje observation ordnet efter størrelse, dvs. ( x (2) + x (3) )/ 2. På den måde bevarer vi både symmetrien og det grundlæggende princip at en fraktil så vidt muligt skal svare til én bestemt observation (på samme måde som ved median og kvartil). De fraktiler, der kommer til at spille den største rolle for os i den videregående bekræftende statistik er 2½%-fraktilen og 97½%- fraktilen. De udregnes for datasæt der typisk består af 1000 målinger, dvs. 2½%-fraktilen skiller de første 25 målinger fra de resterende 975 målinger, ligesom 97½%-fraktilen skiller de sidste 25 målinger fra de 975 første målinger. Når først datasættet er ordnet er det altså ikke svært at aflæse 2½%-fraktilen og 97.5%-fraktilen i en tabel. Her ses et eksempel på fordelingen af 1000 simulerede målinger af forskellen mellem kondital for piger og drenge i 1g: Simuleret YO-YO test Prikdiagram middelforskel fraktil ( 2.5; middelforskel) = fraktil ( 97.5; middelforskel) =

26 1.3 Beskrivende statistik: Fraktiler 2.5%- fraktilen Simuleret YO-YO test middelforskel Simuleret YO-YO test middelforskel %- fraktilen Simuleret YO-YO test Simuleret YO-YO test R1 = middel ( middelforskel; ( ( indeks = 25) eller ( indeks = 26) ) ) R2 = middel ( middelforskel; ( ( indeks = 975) eller ( indeks = 976) ) ) R1 = fraktil ( 2.5; middelforskel) R2 = fraktil ( 97.5; middelforskel) I praksis er det selvfølgelig lidt kluntet selv at skulle beregne fraktiler, så heldigvis findes der som vist en kommando, fraktil(), der kan finde dem for os helt automatisk: fraktil(procenttal; variabel) Skal vi finde 2½%-fraktilen benytter vi derfor som vist kommandoen fraktil(2.5; variabel). Bemærkning: Da 2.5% går 40 gange op i 100% svarer 2.5% og 97.5%-fraktilen til at vi opdeler datasættet i 40 lige store dele (dvs. i det ovennævnte tilfælde med n = 1000 opdeles datasættet i klumper af 25) og de to yderste dele afgrænses da netop af 2.5%-fraktilen og 97.5%-fraktilen. De udgør i en vis forstand de yderste 'sjældne' observationer, der ligger 'langt' fra den centrale klump. 26

27 1.3 Beskrivende statistik: Fraktiler Fraktilplot Som vi har set er der til enhver observation knyttet en fraktilværdi, nemlig den procentdel, der svarer til midtpunktet for det til observationen hørende interval. Hvis der er n observationer svarer det til procentallene n 1 100, 100, 100,..., 100 2n 2n 2n 2n 2 indeks 1 der kan sammenfattes i formlen tæl( variabel) Vi kan derfor konstruere en graf, det såkaldte fraktilplot, med den ønskede variabel fra datasættet som den uafhængige variabel og fraktilværdien (procenttallet) som den afhængige variabel Vilde bjørne Vægt Fraktil enhed pounds 2 indeks 1 = tæl ( Vægt) lb lb lb lb lb lb lb lb lb lb lb lb lb lb lb lb lb lb lb lb 97.5 Læg også mærke til hvor meget fraktilplottet ligner linjeplottet for den ordnede variabel vægt, idet det denne gang blot er variablen indeks, der er afsat op af andenaksen. Til alt held er fraktilplottet indbygget som en selvstændig graftype, så vi skal heldigvis ikke selv bygge fraktilværdierne op! Vilde bjørne 100 Men nu ved vi altså hvor fraktilplottet kommer fra XY-plot Vægt (pounds) Vilde bjørne Fraktilplot Vægt (pounds) Vilde bjørne Linjeplot Vægt (pounds) 27

28 1.3 Beskrivende statistik: Fraktiler Fraktilplot giver en anden måde at fremstille data på grafisk som supplement til de tidligere plottyper: Prikdiagram, boksplot og histogram. Men informationen er selvfølgelig i en vis forstand den samme. Men ser især efter tre ting i forbindelse med et fraktilplot 1. Vi kan nemt aflæse medianer, kvartiler og andre fraktiler på fraktilplottet, idet vi går vandret ind ved den ønskede fraktilprocent og ser hvilken observation, vi rammer. Hvis vi rammer imellem to observationer vælges den nærmeste med mindre vi rammer lige midt i mellem de to observationer, for så vælger vi gennemsnittet. Her følger fx en aflæsning af median og kvartiler 2. Vi kan se hvor tætheden er størst, idet hældningen er størst, hvor afstanden mellem observationerne er mindst. I den ovenstående fordeling er fx to stejle partier: Lige i starten og lige efter medianen, hvilket i histogrammet viser sig som to toppe. Fordelingen er altså tydeligt to-puklet (bimodal). 3. Vi kan visuelt checke om en fordeling er jævn (ligefordelt), for i så fald følger fraktilplottet netop en ret linje. Det er fx tydeligvis ikke tilfældet i det ovenstående tilfælde, hvor fraktilplottet har to tydelige bugter. 28

29 1.4 Grupperede observationer Gruppering af data: Hyppigheder og frekvenser Når vi indsamler data, så er de indsamlede data, de rå data, den kilde som vi senere kan udvinde alle informationerne fra. De rå data udgør statistikkens hellige gral (på samme måde som de eksperimentelle data i naturvidenskaberne) og vi bør altid så vidt muligt arbejde direkte med de rå data, fordi de kan vendes og drejes og dermed ses fra alle synsvinkler, hvorved vi i et rigt datasæt kan blive ved med at gå på opdagelse og opdage nye sammenhænge. Men når man præsenterer sine konklusioner vil man ofte forenkle situationen og kun vise de forarbejdede data, der umiddelbart understøtter ens konklusioner. Typisk vil man gruppere data, dvs. slå dem samme i et mindre antal grupper, hvor man så ikke længere skelner mellem de individuelle data. Det kan være i form af et boksplot, hvor datasættet deles i fire lige store grupper efter størrelse, eller det kan være i form af et histogram, hvor man har valgt en passende intervalinddeling for at fremhæve nogle typiske træk ved fordelingen. Når man på denne måde grupperer sine data mister man altså information: De forarbejdede data repræsenterer halvfabrikata. Hvis vi kun har adgang til de grupperede data kan vi derfor ikke længere drage præcise konklusioner, men må nøjes med tilforladelige skøn. Vi kan sammenligne det med tilberedning af mad: Hvis vi har alle råvarerne til rådighed kan vi lave alle mulige varianter af retter, men hvis råvarerne først er hældt sammen i en stor gryde og kogt sammen til en grød er der ikke så meget mere at stille op, selvom der selvfølgelig stadigvæk kan tilføjes forskellige krydderier. Alligevel er det vigtigt at have kendskab til de vigtigste metoder til at trække informationer ud af grupperede data, da det ofte er på den form vi vil møde data i andres undersøgelser, når de fremlægges i fx avisartikler, og kun ved at kende til sådanne teknikker vil vi kunne forholde os kritisk til de påstande, der er knyttet til undersøgelsen. I det følgende afsnit ser vi derfor på i hvor høj grad det stadigvæk i forbindelse med grupperede data er muligt at skønne troværdigt over størrelsen af medianer, kvartiler, middelværdier osv., ligesom vi ser nærmere på hvilke graftyper vi kan tilnærme med grupperede data. Centralt for de grupperede data står hyppighedstabellerne, hvor observationerne er inddelt i passende intervaller, hvorefter man har talt op hvor mange observationer der falder i de enkelte observationsintervaller. Det er på basis af disse hyppighedstabeller vi skal forsøge at uddrage troværdige informationer. Da vi ikke kender de individuelle data i de enkelte intervaller gør vi nu følgende antagelse Grundantagelsen for grupperede data De individuelle data i et givet observationsinterval antages at være tilfældigt fordelt i intervallet og derfor ligge jævnt fordelt indenfor intervallets grænser. 29

30 1.4 Beskrivende statistik: Grupperede observationer Det behøver selvfølgelig ikke være tilfældet i virkeligheden, men hvis ellers data er udvalgt rimeligt tilfældigt er det ret usandsynligt, hvis de fx systematisk alle ligger i den venstre halvdel af intervallet. I praksis opgiver man typisk frekvenser 6 i stedet for hyppigheder, idet frekvensen angiver hvor stor en procentdel af observationerne der falder indenfor et bestemt observationsinterval Hyppighed Frekvens = 100%. Samlet antal Læg mærke til at når vi arbejder med frekvenstabeller kender vi ikke nødvendigvis det samlede antal observationer. Søjlediagram som erstatning for histogram Eksempel: Danskernes kondital 1995 Følgende tabel viser fordelingen af kondital hos danskerne i 1995: Kondital Frekvens 2,5% 8,2% 22,0% 8,9% 23,3% 7,6% 7,5% For at kunne arbejde med de ovenstående oplysninger indtastes de i en tabel. Læg mærke til at når vi indtaster et interval som 0-15 opfattes det som en tekst. Det regnes ikke ud som en differens. Konditallet opfattes altså umiddelbart som en kategoriseret variabel Kondital 1995 Kondital enhed Frekvens procent procent procent procent procent procent procent procent Kondital 1995 Prikdiagram Kondital Vi forsøger os nu først som vist med en graf, hvor vi afsætter Kondital som den uafhængige variabel og Frekvens som den afhængige variabel. Resultatet er et prikdiagram, der giver en vis fornemmelse for fordelingen, men da den uafhængige variabel Kondital er en kategoriseret variabel er der i virkeligheden tale om en serie af prikdiagrammer: én for hver kategori. Det kan vi se tydeligt, hvis vi forsøger at skifte til graftypen histogram. Vi kan stadigvæk godt få en fornemmelse af fordelingen, men der er tydeligvis kun tale om et interval med hyppigheden 1 svarende til hver kategori 6 På engelsk betyder ordet 'frequency' desværre 'hyppighed', mens ordet 'frekvens' oversættes med 'relative frequency'. 30

31 1.4 Beskrivende statistik: Grupperede observationer Kondital Kondital Hyppighed for Frekvens Histogram NB! På grafen til højre er histogram-strukturen trukket op ved at tilføje rektanglerne i et tegneprogram (Paint). Som alternativ må vi derfor anvende et søjlediagram, men i stedet for at afsætte frekvensen som en afhængig variabel skal vi benytte den til at regulere højden af søjlerne nederst i venstre hjørne åbner vi altså for den formel, der regulerer højden, der som standard er sat til tæl(), og ændrer den til variablen frekvens: Kondital 1995 Søjlediagram Kondital Søjlediagram Kondital tæl ( ) Kondital frekvens Søjlediagrammet er det bedste bud på et histogram, når vi arbejder med grupperede data. Sumkurve som erstatning for fraktilplot Men hvis vi ikke rigtigt kan arbejde med histogrammer for grupperede observationer, hvilken graftype egner sig så bedre til de grupperede observationer? Det viser sig at være et tilnærmet fraktilplot. Da vi ikke har kendskab til de individuelle placeringer af observationerne i delintervallerne kan vi selvfølgelig ikke konstruere et præcist fraktilplot. Men vi kan konstruere en særdeles nyttig tilnærmelse, der kaldes en sumkurve. Den bygger altid på en tabel over de kumulerede (summerede) frekvenser, så hvis udgangspunktet er en tabel over hyppigheder, må denne først omdannes til en tabel over frekvenser. Til hvert intervalendepunkt, knytter vi nu den procentdel af observationerne, der går forud for endepunktet. Det er denne procentdel, der kaldes den kumulerede frekvens (kumulere = opsamle). Ofte betegnes den dog også den summerede frekvens, fordi den fremkommer ved at lægge alle de foregående frekvenser sammen. 31

32 1.4 Beskrivende statistik: Grupperede observationer Teknisk bemærkning: Histogrammer /søjlediagrammer Selv når vi benytter et søjlediagram til at tilnærme et histogram kan der stadigvæk opstå problemer, for søjlerne afsættes automatisk med den samme bredde. I praktisk forekommende tilfælde er det dog langt fra altid, at alle intervallerne er oplyst med samme bredde. I det ovenstående eksempel med danskernes kondital har det første interval således bredden 15, det sidste interval har bredden 20, mens de øvrige intervaller kun har bredden 5. Det første interval og det sidste interval er derfor fortegnet i søjlediagrammet, idet søjlerne dels er tegnet for smalle, dels for høje. De har godt nok det rigtige areal i forhold til de andre søjler, men hvis de skulle tegnes korrekt, skulle vi først opdele disse intervaller i samme bredde som de øvrige og dernæst fordele procenterne ligeligt på de derved opståede underintervaller. Det kan gøres ved at tilføje to nye observationsintervaller knyttet til det første delinterval og tre nye observationsintervaller knyttet til sidste delinterval og så fordele procenterne passende (i tabellen nedenunder er det gjort ved afrunding til én decimal, dvs. vi har tilnærmet 2.5%/3 med 0.8% og 7.5%/4 med 1.9%) Udvidet datasæt kondital 1995 Kondital Frekvens Udvidet datasæt kondital Søjlediagram Kondital Frekvens I sammenligning med det oprindelige søjlediagram har vi altså opdelt den første søjle vandret i tre lige store søjler og placeret dem ved siden af hinanden og tilsvarende har vi opdelt den sidste søjle vandret i fire lige store søjler og placeret dem ved siden af hinanden. Nu svarer kategoriaksen faktisk til en normal koordinatakse med en ækvidistant inddeling, og højderne af søjlerne afspejler tæthedsfordelingen for observationerne. Den lodrette skala er dog ikke korrekt justeret i forhold til tæthederne, idet det samlede areal er 5 100%. Når vi arbejder med grupperede data kan vi kun få en rimelig grafisk fremstilling af datasættet i form af et histogram, hvis det tegnes som et søjlediagram baseret på en opdeling i delintervaller (båse) med samme bredde. 32

33 1.4 Beskrivende statistik: Grupperede observationer Vi starter derfor med at opbygge en tabel ud fra samtlige intervalendepunkter. Det giver et ekstra intervalendepunkt til at begynde med, der tildeles frekvensen 0%, idet der ikke ligger nogen observationer forud for det allerførste intervalendepunkt: Sumkurve for kondital 1995 Kondital frekvens Kumfrekvens enhed = procent procent forrige ( Kumfrekvens ) + frekvens procent 0 procent procent 2.5 procent procent 10.7 procent procent 32.7 procent procent 61.6 procent procent 84.9 procent procent 92.5 procent procent 100 procent Derefter lægges procenterne løbende sammen. Det kan gøres i hånden ved at lægge den nye procent til løbende. Eller det kan som vist gøres ved brug af formlen forrige(kumfrekvens) + frekvens, der netop hele tiden lægger den nye procent til den allerede opnåede kumulerede frekvens. Læg mærke til at den kumulerede frekvens altid starter med 0% og slutter med 100%. Med undtagelse af muligheden for en mindre afrundingsfejl (som højst må være %) er det afgørende, for det viser at vi har fået alle observationerne talt med. Vi kan nu tegne en XY-linje med Kondital som den uafhængige variabel og Kumfrekvens som den afhængige variabel: Sumkurve for kondital XY-linje Kondital Det er denne sumkurve, der giver en god tilnærmelse til fraktilplottet. Netop i kraft af vores grundlæggende antagelse om at observationerne ligger jævnt fordelt i hvert af delintervallerne, vil den kumulerede frekvens stige jævnt i hvert af delintervallerne, dvs. grafen for den kumulerede frekvens vil nødvendigvis være et ret linjestykke, der forbinder de kumulerede frekvenser i intervalendepunkterne. 33

34 1.4 Beskrivende statistik: Grupperede observationer Sumkurven danner udgangspunkt for en lang række statistiske beregninger. Netop fordi dataene er grupperede kan vi ikke anvende de indbyggede statistiske værktøjer til at finde medianer, kvartiler osv. Vi har jo ingen mulighed for at ordne de individuelle data efter rækkefølge, da vi ikke ved præcis hvilken størrelse de har. I stedet aflæser vi medianer, kvartiler (og andre fraktiler) fra sumkurven. Det gøres nemmest ved at tegne de vandrette linjer svarende til 25%, 50% og 75% som grafer for de tilsvarende konstante funktioner, dvs. ved at højreklikke i grafrummet og vælge menupunktet Plot funktion Føres musen langs grafen for fx Kumfrekvens = 25 procent dukker der et rødt grafpunkt op, hvis koordinater kan aflæses i statuslinjen, dvs. i dette tilfælde ses det, at 25%-fraktilen (første kvartil) med tilnærmelse er givet ved konditallet 23. Hvis vi vil aflæse det lidt mere præcist kan det betale sig at oprette en dublet af grafen (SHIFT-CTRL-D) og derefter zoome passende ind på skæringspunktet med sumkurven ved at holde CTRL-tasten nede og klikke i nærheden af skæringspunktet. Men husk at det under alle omstændigheder er et skøn over den første fraktil vi finder på denne måde, så det giver faktisk Sumkurve for kondital XY-linje Kondital Kumfrekvens = 25procent = ingen mening at forsøge at trække en alt for præcis værdi ud af aflæsningen. Da vi lander midt mellem 23.2 og 23.3 er der mest rimeligt at undlade afrunding af den første kvartil til 1 decimal og rapportere den som konditallet På samme måde kan vi nemt finde median og tredje kvartil ved at oprette dubletter og zoome ind på skæringspunktet 34

35 1.4 Beskrivende statistik: Grupperede observationer Sumkurve for kondital 1995 XY-linje Sumkurve for kondital 1995 XY-linje Kondital Kumfrekvens = 50procent = Kondital Kumfrekvens = 75procent = På den måde har vi altså aflæst kvartilsættet til (Q 1 = 23.25, Median = 28.0, Q 3 = 32.9) Da mindste og største observation må skønnes at ligge i første og sidste intervalendepunkt, har vi endda opnået et rimeligt skøn over det udvidede kvartilsæt bestående af de fem statistiske nøgletal (Minimum=0, Q 1 =23.25, Median=28.0, Q 3 =32.9, Maksimum=60) Boksplot for grupperede observationer Det åbner mulighed for at konstruere et tilnærmet boksplot. Vi kan ikke bruge selve datasættet med de forarbejdede grupperede data, men vi kan oprette en ny tabel med sit eget datasæt, hvor vi indskriver det udvidede datasæt. Trækkes variablen Kvartilværdi ind på førsteaksen som en uafhængig variabel kan vi dernæst få tegnet et boksplot, der netop bygger på disse fem nøgletal Udvidet kvartilsæt for kondital 1995 Kvartils æt Kvartilværdi Udvidet kvartilsæt for kondital 1995 Boksplot Min 0.00 Q Med Q Maks Kvartilværdi Her kan vi selvfølgelig blive lidt skuffet over at minimum og maksimum bare afsættes som punkter og ikke forbindes med kvartilboksen med linjestykker, men kvartilboksen er så tynd, at de opfattes som perifere observationer, dvs. det er ret usædvanligt at have et kondital, der så lavt eller så stort. Halvdelen af danskernes kondital ligger mellem og Hvis vi vil konstruere et mere præcist boksplot for fordelingen kan vi tilføje linjestykker til kvartilboksen, der rækker ud til 1½ gange boksbredden (Tukeys regel). Som et skøn over kvartilbredden kan vi benytte Q 3 -Q 1 = = Grænserne for de ordinære observationer (Tukeys hegn) er altså givet ved: = (rundes op) = (rundes ned) 35

36 1.4 Beskrivende statistik: Grupperede observationer Middelværdien for grupperede observationer Vi mangler nu kun at kunne skønne over middelværdien for at have alle de sædvanlige deskriptorer til rådighed. For at skønne over middelværdien skal vi nu anvende et vægtet gennemsnit. Det første skridt består i at erstatte ethvert delinterval med dets midtpunkt. Det følger af vores grundlæggende antagelse at alle observationerne i et delinterval ligger jævnt fordelt i intervallet og vi kan derfor netop udregne deres bidrag til middelværdien ved at samle dem i midtpunktet for intervallet. Derefter vægter vi dem med frekvenserne, så de netop indgår med de relative vægte, der svarer til de antal/hyppigheder, der repræsenterer. Da der er langt flere observationer i fx delintervallet fra end i delintervallet fra 15-20, skal de første selvfølgelig også vægtes højere i udregningen af middeltallet: Sumkurve for kondital 1995 Kondital frekvens Kumfrekvens Midtpunkt Middeltal enhed = procent procent forrige ( Kumfrekvens ) + frekvens ( forrige ( Kondital ; "") + Kondital) sum ( frekvens midtpunkt) 2 sum ( frekvens ) procent 0 procent procent 2.5 procent procent 10.7 procent procent 32.7 procent procent 61.6 procent procent 84.9 procent procent 92.5 procent procent 100 procent Her kan vi selvfølgelig nemt selv udregne midtpunkterne; det afgørende er blot at vi benytter formlen for et vægtet gennemsnit: sum( vægt variabel) = = sum( vægt) Vi ser så i den sidste søjle at middeltallet er givet ved konditallet 28.7, hvor vi igen afrunder passende (da der jo under alle omstændigheder er tale om et skøn). Da middeltallet ligger en anelse højere end medianen er der tale om en (svag) højreskæv fordeling. Dette er i overensstemmelse med de grafiske fremstillinger, der viser at fordelingen nok med god tilnærmelse er symmetrisk, men at den højre hale er lidt længere og mere fyldig end den venstre hale. Det er også i overensstemmelse med at fordelingen har en naturlig nedre grænse, idet det ikke giver mening at have et negativt kondital, mens der ikke på samme måde findes en naturlig øvre grænse for konditallet, jfr. indkomstfordelinger, der ofte er højreskæve. Bemærkning: Gåseøjnene "" i formlen for variablen Midtpunkt skal blot sikre at der ikke tildeles nogen værdi til den første anvendelse af funktionen forrige(). Antallet af midtpunkter svarer jo til antallet af delintervaller. Det er imidlertid ikke afgørende for udregningen at vi husker disse gåseøjne, idet frekvensen hørende til det første intervalendepunkt netop er sat til 0%, hvorfor det første intervalendepunkt aldrig bidrager til beregningen af middelværdien. 36

37 2. Bekræftende statistik 2.1 Introduktion til bekræftende statistik Den beskrivende statistik (exploratory data analysis) tager udgangspunkt i et konkret datamateriale og forsøger at afdække de strukturer, der findes i det konkrete materiale. Hvis det fx drejer sig om højderne i en klasse, udtaler den beskrivende statistik sig om forholdene i netop den klasse: Hvad er middelhøjden, den mindste højde, den største højde osv. Vi kan også inddrage flere variable, fx køn, og sammenligne højderne mellem de to køn osv. Ofte vil man nu være interesseret i at generalisere de fundne strukturer, så man kan drage konklusioner, der rækker ud over det pågældende datasæt. Fx kan man ønske at generalisere de fundne kønsforskelle i højderne til ikke bare at gælde den pågældende klasse, men alle unge i tilsvarende klasser. Man kunne også være interesseret i at skønne over middelhøjden for alle unge på basis af den fundne middelhøjde for klassen osv. Her til benyttes metoder fra den bekræftende statistik (confirmatory data analysis). Hovedformålet med bekræftende statistik er at kunne skelne mellem systematiske variationer og tilfældige variationer i et datasæt. Tilfældig variation: Eksperimentelle metoder Historisk set er mange metoder til at kunne håndtere tilfældige variationer først udviklet eksperimentelt, hvorefter der er udviklet en avanceret statistisk teori med formler til at automatisere udregningen af den tilfældige variation. Denne udvikling skyldes ikke blot ønsket om en bedre forståelse af metoderne, men også at de eksperimentelle metoder, så længe de måtte udføres med håndkraft, var besværlige og tidsrøvende. Med indførslen af computerne har det sidste aspekt imidlertid ændret sig radikalt, og i vore dage er de eksperimentelle metoder lige så tilgængelige som de teoretiske. Begge typer af tilgange understøttes af DataMeter, idet de teoretiske metoder typisk er gemt væk i de avancerede værktøjer på midterhylden: Skøn, Test og Model, mens de eksperimentelle metoder typisk ligger gemt i højrekliksmenuerne for datasættene, såsom gentagne målinger, udtagning af stikprøver og omrøring af variable, der alle har til formål at simulere en tilfældig variation. Begge typer af tilgange, den eksperimentelle og den teoretiske, har fordele og ulemper. Tilegnelsen af de teoretiske metoder kræver en indføring i vanskeligt tilgængelige teoretiske begreber, der nemt kan komme til at skygge for de mere principielle og grundlæggende træk ved den statistiske metode. Ydermere er mange grundlæggende problemstillinger principielt umulige at håndtere ved eksakte metoder, fordi der ikke altid findes færdige formler. 37

38 2.1 Bekræftende statistik: Introduktion I modsætning hertil er de eksperimentelle metoder mere fleksible. De kan ikke blot altid anvendes alene eller som supplement til de teoretiske metoder; De kan også anvendes på en langt større gruppe af problemstillinger end de enkelte teoretiske metoder. De teoretiske metoder er nemlig ofte skræddersyede til kun at kunne anvendes på en snæver gruppe af problemstillinger, der oven i købet ofte kræver specielle forudsætninger opfyldt før man fuldt ud kan stole på de opnåede resultater. Til gengæld er de eksperimentelle metoder ikke så præcise som de teoretiske, og de giver typisk kun resultater, der fortæller noget om det helt konkrete datasæt. Ændres der i datasættet må man derfor begynde helt forfra med undersøgelsen. I det følgende vil vi nu redegøre for de vigtigste eksperimentelle metoder til at simulere en tilfældig variation. Dermed bliver vi selv i stand til at løse simple opgaver indenfor den bekræftende statistik. 1. Tilfældighedsgeneratorer. Dette er den klassiske metode til at simulere tilfældighed. Ved hjælp af en tilfældighedsgenerator kan vi frembringe serier af tilfældige tal, der igen kan benyttes som udgangspunkt for tilfældige valg i et datasæt. Denne teknik har altid været til rådighed, idet man tidligere benyttede officielle tabeller over tilfældige tal til at frembringe de ønskede serier af tilfældige tal. Men i vore dage er de sådanne tabeller erstattet af simple funktioner på lommeregnere og i regneark. 2. Omrøring af variable. Dette er en ny og elegant metode til at simulere uafhængighed mellem to grupper af data, dvs. til at sikre at enhver forskel mellem de to grupper netop kun kan skyldes tilfældige variationer. Man fjerner altså ganske enkelt eventuelle systematiske variationer ved en omrøring. 3. Bootstrap. Dette er endnu en ny og elegant metode til at simulere den naturlige variation i et datasæt. I modsætning til omrøringen bevarer bootstrappet stadigvæk de systematiske variationer i datasættet. Men da man nu får overlejret de naturlige variationer, kan man direkte se hvor stor indflydelse de naturlige tilfældige variationer har på den systematiske variation. De enkelte metoder vil blive præsenteret gennem en række cases baseret på enten historiske data eller data opsamlet af en klasse. Men disse cases kan naturligvis modificeres til i stedet at omfatte de data, som man nu måtte være interesseret i at undersøge i den aktuelle undervisning. Før vi går i gang med disse cases vil det dog være godt at få indført nogle centrale begreber gennem en typisk dansk statistisk problemstilling, her præsenteret gennem et avisklip 7. Det drejer sig om den eneste større undersøgelse i Danmark af de mulige konsekvenser af at en stor gruppe danskere har været i berøring med radioaktivt materiale i forbindelse med nedstyrtningen af et amerikansk brintbombefly i Grønland tilbage i Uddrag af artikel fra Politikken 6. januar

39 2.1 Bekræftende statistik: Introduktion Nedstyrtningen af et brintbombefly i Thule Et styrt med uanet risiko for kræft Mange syge da amerikansk bombefly forulykkede i Thule Af Susanne Zehngraff Månen strålede klart på den sorte polarhimmel den eftermiddag på Thule-basen for næsten 20 år siden, da kimen til mange menneskelige omkostninger blev hvirvlet rundt i atmosfæren. Den 21. januar 1968 faldt et amerikansk B52- fly med fire brintbomber om bord ned på indlandsisen ca. 12 km vest for den amerikanske radar-base i Thule på den nordvestlige top af Grønland. En om bord omkom ved styrtet, der betød, at uanede mængder af radioaktive stoffer, som plutonium, tritium, der er radioaktivt brint, og måske også uran, blev sluppet løs i luften, i isen og, i havet. En bombe indeholdt sandsynligvis omkring fire kg plutonium, der er det farligste af alle radioaktive stoffer. Så formentlig blev i hvert fald omkring 16 kg bare af dette dødsensfarlige stof spredt. Umiddelbart efter styrtet blev der straks sendt hundeslæder og helikoptre ud fra basen, og i dagene efter ankom amerikanske specielt trænede atom-renovations-folk. Men også danskere, der arbejdede på basen, og 12 fangere fra Thule kommune deltog i slukningsarbejdet efter eksplosionen ved nedstyrtningen og i oprydningsarbejdet med at fjerne sne og vragdele.... Omkring 130 danske mænd var med i det umiddelbare oprydningsarbejde, men mange flere deltog senere i arbejdet og i alt 1202 danskere var ansat på basen i perioden fra nedstyrtningen og til oprydningen officielt sluttede i midten af september. Og mange af dem er i dag syge og flere frygter at blive det, fordi f.eks. leverkræft efter udsættelse for plutonium først viser sig tidligst efter 20 år.... Dansk Institut for Klinisk Epidemiologi, DI- KE, har undersøgt dødeligheden i den samme gruppe og kom i februar 1987 frem til, at der ikke var nogen forskel mellem Thulearbejdernes dødelighed og den danske normalbefolkning. For Thulearbejderne som helhed har en undersøgelse fra DIKE sidste efterår dog vist, at de har en overdødelighed i forhold til alle danskere især af lungekræft og selvmord. 40 pct. flere kræfttilfælde blev også fundet hos de arbejdere, der var ansat på basen i oprydningsperioden i forhold til andre ansatte på Thule-basen. Men denne forskel er 'dog ikke statistik sikker nok til, at forskerne kunne sige, at der var tale om en forskel, som man kan tillægge betydning', hedder det i en pressemeddelelse fra DIKE.... Undersøgelsen af de berørte arbejderes skæbne er siden blev fulgt op flere gange første gang i 1995 og anden gang i Den sidste officielle udredning kan hentes på hjemmesiden som en pdf-fil. 39

40 2.1 Bekræftende statistik: Introduktion Der er flere forhold af statistisk interesse i artiklen: For det første omtales flere grupper af mennesker i artiklen: 12 grønlandske fangere, der hjalp med ved slukningen ved branden og oprydningen efter uheldet. En kernegruppe på omkring 130 danske arbejdere, der også hjalp med ved selve oprydningen af uheldet. En gruppe på 1202 danskere arbejdere (inklusive kernegruppen), der arbejdede på Thulebasen, mens oprydningen foregik. Andre ansatte på Thulebasen (uden at vi får tallet oplyst) Den danske normalbefolkning. Den største af disse grupper er den danske normalbefolkning, der benyttes som sammenligningsgrundlag for at påvise en eventuel forskel i dødelighed blandt Thulearbejderne og den danske normalbefolkning. Dette er et eksempel på en stikprøve versus en population: Thulearbejderne udgør kun et mindre udsnit af den danske normalbefolkning. Et udsnit af en stor gruppe kaldes en stikprøve, mens hele den store gruppe, som stikprøven repræsenterer, kaldes populationen. Spørgsmålet er nu om stikprøven er repræsentativ, dvs. om vi med rimelighed kan forvente at stikprøven afspejler forholdene i hele populationen. Det er et kompliceret spørgsmål. I almindelighed kan vi kun være sikre på at en stikprøve er repræsentativ, når den udtages helt tilfældigt. Men Thulearbejderne udgør alt andet end et tilfældigt udsnit af den danske normalbefolkning: Den består jo netop af de danskere, der uheldigvis valgte at arbejde på Thulebasen, i den periode, hvor der blev ryddet op efter uheldet. Hvis mange af dem er blevet syge fordi de har været udsat for det ekstremt farlige stof plutonium, så er stikprøven jo netop ikke repræsentativ, idet vi i så fald må forvente en stor overdødelighed i denne gruppe sammenlignet med hvad man må forvente for dødeligheden i et tilfældigt udsnit af den danske normalbefolkning et udsnit, der vel at mærke i øvrigt ligner Thulearbejderne i sammensætning, dvs. samme alderssammensætning, samme skæve kønsfordeling osv. En sådan forskel har det dog i følge den officielle undersøgelse i 1987 ikke været muligt at påvise (og det samme resultat blev nået i de opfølgende undersøgelser i 1995 og 2005). Hvordan man kan påvise sådan noget i detaljer vender vi om lidt tilbage til. Foreløbig noterer vi os bare artiklens konklusion: Thulearbejderne ligner med hensyn til dødelighed et repræsentativt udsnit af den danske normalbefolkning. 40

41 2.1 Bekræftende statistik: Introduktion Bemærkning: Læg godt mærke til forbeholdet. Thulearbejderne skal sammenlignes med et udsnit af den danske normalbefolkning, der i øvrigt på alle andre måder ligner Thulearbejderne. Dette er et eksempel statistisk variabelkontrol. Hvis vi bare tager et tilfældigt udsnit af den danske normalbefolkning, vil det fx rumme mange børn, der af gode grunde overhovedet ikke har travlt med at dø osv. Der er mange andre variable indenfor en sådan befolkningsgruppe, der påvirker dødeligheden. Hvis udsnittet ikke ligner Thulearbejderne med hensyn til disse andre variable giver det jo på forhånd ingen mening at sammenligne disse to grupper. Den eneste variabel, der virkeligt må varieres mellem de to udsnit er derfor netop tilhørsforholdet til Thulebasen i den famøse periode. Det er klart at det er teknisk kompliceret at konstruere et udsnit af den danske befolkning, der i øvrigt ligner Thulearbejderne på alle andre områder. Artiklen peger da også på en anden mulighed for at afgøre spørgsmålet om en eventuel indvirkning af ulykken: Brugen af en kontrolgruppe, der med sikkerhed kan sammenlignes med den udsatte gruppe af de udsatte Thulearbejdere, der i denne sammenhæng kaldes studiegruppen. Udover de 1202 arbejdere var der jo mange arbejdere, der også søgte arbejde på Thulebasen før og efter oprydningsarbejdet. Det må formodes at denne restgruppe alt andet er lige er sammensat på nøjagtigt den samme måde som den gruppe Thulearbejdere, der arbejdede på basen under opholdet. En meget stor gruppe af disse arbejdere arbejdede faktisk kun på basen før uheldet indtraf og kan derfor umuligt være blevet påvirket af eventuelle stråleskader. Undersøgelsen giver dog samme resultater, hvad enten vi indskrænker kontrolgruppen til dem der blot var ansat forud for uheldet, eller vi både inddrager, dem der var ansat forud og dem, der var ansat efterfølgende. Hvis man i en bestemt gruppe individer, studiegruppen, ønsker at undersøge om en bestemt uafhængig variabel, den kritiske variabel, kan have indflydelse på udfaldet af en anden variabel, kan det gøres ved at sammenligne studiegruppen med en kontrolgruppe. Kontrolgruppen skal da være sammensat på en sådan måde at der ikke findes systematiske forskelle mellem de øvrige uafhængige variable i studiegruppen og kontrolgruppen. I mange tilfælde findes der en naturlig kontrolgruppe, men ellers må man selv sammensætte den. I medicinske afprøvninger af helbredende metoder/præparater, sker det på den måde at gruppen af patienter med den pågældende sygdom på tilfældig vis deles i to grupper. Den ene gruppe, studiegruppen, får det nye præparat, mens den anden gruppe, kontrolgruppen, fx får et placebo, dvs. et middel, der med sikkerhed ikke har nogen virkning. Det er da afgørende, at hverken patienterne, eller dem, der administrerer behandlingen, har nogen viden om hvilken af de to grupper den enkelte patient tilhører. 41

42 2.1 Bekræftende statistik: Introduktion Brugen af en sådan kontrolgruppe er igen et eksempel på statistisk variabelkontrol. Kontrolgruppen sammensættes netop, så den kun adskiller sig fra studiegruppen på ét eneste punkt, nemlig den kritiske variabel, der idet aktuelle tilfælde angiver om ansættelsesforholdet også dækkede oprydningsperioden. En eventuel systematisk forskel mellem studiegruppen og kontrolgruppen kan derfor kun tilskrives uheldet med nedstyrtningen af et brintbombefly og den efterfølgende oprydning af det radioaktive materiale. I det aktuelle tilfælde er der rent faktisk en forskel på de to grupper, idet der ifølge artiklen er 40% flere kræfttilfælde i studiegruppen i forhold til kontrolgruppen. Denne forskel er dog ikke statistisk sikker nok til, at den kunne tillægges en betydning, dvs. den kan godt tilskrives den naturlige tilfældige variation mellem de to grupper. Det kan synes overraskende at en så stor forskel udelukkende kan tilskrives tilfældigheder. Men for at vurdere dette spørgsmål er det nødvendigt at kende de faktiske detaljerede tal og disse fremgår desværre ikke af artiklen. Lad os prøve at illustrere problemstillingen ved hjælp af de faktiske tal. Ifølge den officielle redegørelse fra 2005 er det lykkedes at få kontakt med 1176 arbejdere, der arbejdede på Thulebasen i oprydningsperioden. Disse udgør altså studiegruppen. Tilsvarende er det lykkedes at få kontakt med 3025 arbejdere, der kun arbejdede på Thulebasen uden for oprydningsperioden. Disse udgør altså kontrolgruppen. Vi ser nu på de officielle statistikker 8 over kræftforekomster i perioden fra 1978 til 1989, idet de forholdsvis få kræfttilfælde, der dukkede op i de første 10 år efter ulykken erfaringsmæssigt ikke kan tilskrives den radioaktive bestråling, der jo har en meget lang latenstid, før kræften bryder ud. Tabellen viser at kræfttilfældene fordelte sig med 40 tilfælde i studiegruppen og 100 tilfælde i kontrolgruppen. Er dette nu problematisk? Vi må da inddrage lidt elementær procentregning % 3.401% 1176 = % 3.306% 3025 = De 40 kræfttilfælde i studiegruppen viser at andelen af kræfttilfælde i procent for studiegruppen er givet ved 3.401%, mens de 100 kræfttilfælde i kontrolgruppen viser at andelen af kræfttilfælde i procent for kontrolgruppen er givet ved 3.306%. Der er altså lidt større forekomst af kræfttilfælde i studiegruppen end i kontrolgruppen, men ikke noget der ligner et overskud på 40%. Faktisk er den procentiske stigning af antallet af kræfttilfælde i studiegruppen i forhold til kontrolgruppen kun 2.9% (3.401% 3.306%) 100% = 2.9% 3.306% Men denne beskedne stigning kunne i princippet stadig være kritisk, dvs. vanskelig at forklare som et resultat af tilfældige variationer. 8 Tabel 6 i den officielle rapport fra

43 2.1 Bekræftende statistik: Introduktion Simulering af en tilfældig variation For at vurdere størrelsen af en tilfældig variation i antallet af kræfttilfælde vil vi nu udføre en simpel simulation, hvor vi indledningsvis antager den såkaldte nulhypotese, dvs. at der ingen systematisk forskel er på studiegruppen og kontrolgruppen. Forskellen tilskrives altså alene den naturlige tilfældige variation i datasættet. Tilsammen består de af 4201 personer, hvoraf de 140 havde udviklet kræft. Hvis kræfttilfældene alene skyldtes tilfældigheder ville sandsynligheden for at få kræft i den samlede gruppe af Thulearbejdere derfor være givet ved brøkdelen gunstige 140 = mulige 4201 Vi åbner nu for Datameter og opretter et datasæt bestående af 1176 personer svarende til studiegruppen (ved hjælp af kommandoen Indsæt nye data). Dertil kommer en variabel Kræft, der angiver om en person har udviklet kræft eller ej. Hvis dette alene skyldes tilfældigheder må sandsynligheden for at den enkelte person udvikler kræft netop givet ved den ovenstående brøk. Vi redigerer derfor den følgende formel Simulering af studiegruppen Kræft = hvis ( tilfældig ( 140 "JA" ) ) 4201 "NEJ" NEJ NEJ NEJ NEJ NEJ NEJ NEJ NEJ Simulering af studiegruppen JA Kræft NEJ Søjle total R1 = tæl ( ) Her vil funktionen tilfældig() frembringe et tilfældigt tal mellem 0 og 1. Sandsynligheden for at dette tal ligger under 140/4201 er derfor netop givet ved brøkdelen 140/4201. Vi kan så tælle antallet af kræfttilfælde fx ved som vist at hive variablen kræft ind i en beregningsboks. Hvis vi markerer datasættet kan vi nu gentage den tilfældige udtrækning af kræfttilfælde ved fx at taste CTRL-U. Vi ser da hvordan antallet af kræfttilfælde varierer ret voldsomt alene i kraft af den tilfældige udtrækning, dvs. alene som følge af en tilfældig variation. Men vi kan gå dybere ind i den tilfældige variation ved at oprette en måling. Målinger bor i selve datasættet, så vi dobbeltklikker på datasættet og åbner for fanebladet Måling. Derved kan vi indskrive den størrelse vi ønsker at måle, i dette tilfælde antallet af simulerede kræfttilfælde i studiegruppen 43

44 2.1 Bekræftende statistik: Introduktion Når først vi har oprettet en måling kan vi nemt gentage målingen ved at højreklikke på datasættet og vælge kommandoen Udfør gentagne målinger. Der udføres nu fem målinger, mens tabeller og skemaer blafrer i takt med de gentagne simuleringer. Vi ønsker imidlertid at udføre et meget større antal målinger og dobbeltklikker derfor denne gang i datasættet for målingerne og vælger som vist 1000 gentagne målinger samtidigt med at vi husker at erstatte de tidlige målinger og slukke for animationen, da alt ellers foregår i langsom slowmotion. Selv om vi har slukket for animationen kan det stadig godt mærkes at programmet kommer på hårdt arbejde med gennemregningen af de 1000 tilfældigt frembragte studiegrupper. Men til slut er målingerne udført og vi kan trække variablen test fra datasættet for målinger ind i en graf, hvor det giver anledning til følgende prikdiagram Målinger fra Simulering af studiegruppen Prikdiagram Test Det er denne graf, der er nøglen til forståelsen af den naturlige variation af antallet af kræfttilfælde i studiegruppen. Den viser at antallet kan variere fra 19 og helt op til 64 kræfttilfælde. Men den viser også at fordelingen langtfra er jævn: Langt de fleste målinger ligger i en stor klump i midten, og jo længere væk fra midten vi kommer jo sjældnere bliver målingerne. De helt ekstreme målinger som 19 og 64 er altså meget usandsynlige og dermed meget utroværdige som eksempler på tilfældige variationer i antallet af kræfttilfælde. Vi kan også se at de observerede 40 kræfttilfælde ligger meget centralt i 44

45 2.1 Bekræftende statistik: Introduktion klumpen og derfor nemt kan forklares som et resultat af en tilfældig variation mellem studiegruppen og kontrolgruppen i overensstemmelse med konklusionen i den officielle rapport. Faktisk er der kutyme for at acceptere en variation som tilfældig, hvis den blot tilhører de 95% midterste målinger. Ved at tilføje 95% fraktilen kan vi se på grafen hvor langt ud vi skal før målingen bliver rigtigt skæv og dermed utroværdig Målinger fra Simulering af studiegruppen Prikdiagram Test fraktil ( 95; test) = 50 I vores tilfælde skal vi altså over 50 kræfttilfælde i studiegruppen, før vi for alvor har et forklaringsproblem i forhold til Thulearbejderne, da forskellen da vil begynde at være meget utroværdig at forklare som et resultat af en tilfældig naturlig variation. Afslutningsvis bemærker vi at selve spørgsmålet om der kan påvises systematiske forskelle mellem studiegruppen og kontrolgruppen altså kan afgøres ved stringente statistiske metoder, som udgør en afgørende del af den naturvidenskabelige metode. Da der netop ikke kunne påvises sikre systematiske forskelle kunne de udsatte Thulearbejdere derfor ikke gøre sig håb om at vinde en egentlig retssag om erstatning. Men sagen er også politisk, med såvel psykologiske som politiske aspekter. Alene mistanken om at være blevet udsat for en øget risiko for kræftsygdomme som følge af en eventuel strålepåvirkning kan ændre afgørende på livskvaliteten. I 1995 besluttede folketinget derfor at lukke sagen politisk ved at tilkende hver af Thulearbejderne en erstatning på kr. pr kulance (dvs. de viste sig imødekommende overfor Thulearbejdernes krav, selvom disse ikke kunne føre sikre beviser for deres klagemål). Denne erstatning kan være givet af såvel medmenneskelige årsager som af rent politiske årsager for at få lukket en betændt politisk sag ulykken burde jo slet ikke kunne være forekommet eftersom der var forbud mod atomvåben på dansk grund, og den rippede derfor også op i politiske brudmønstre i holdningen til amerikansk udenrigspolitik. En sag som Thulesagen kan derfor kun undersøges til bunds ved anvendelser af metoder fra såvel naturvidenskab som samfundsvidenskab. 45

46 2.2 Simulering og usikkerhedsintervaller Simulering af en opinionsundersøgelse Nøglepunktet i den bekræftende statistik er altså den naturlige variation, der er knyttet til enhver tilfældig proces. Hvis vi kan styre denne tilfældige variation, kan vi begynde at drage statistisk signifikante konklusioner. Vi starter med et simpelt eksempel hentet fra databogen til samfundsfag I en opinionsundersøgelse med 800 udspurgte om en afstemning for eller imod ØMU en stemmer 44% ja, 46% stemmer nej og 10% stemmer blankt. Hvilke konklusioner kan man drage? Her foreligger altså en stikprøve på 800 vælgere, hvor der er et flertal, der vil stemme mod den Økonomisk Monetære Union. Kan vi deraf slutte at hele populationen, dvs. den samlede danske vælgerbefolkning, så også er imod den økonomisk monetære union? Her må vi for det første gå ud fra at stikprøven er repræsentativ, dvs. at den ikke rummer systematiske afvigelser fra den danske vælgerskare i almindelighed. De 800 adspurgte bør altså enten være udvalgt helt tilfældigt blandt samtlige vælgere, eller i hvert fald på en sådan måde at man stadig kan være sikker på, at de afspejler holdningerne i den samlede vælgerbefolkning. Men selv om vi antager at stikprøven således ikke rummer systematiske afvigelser, der kan forstyrre den umiddelbare konklusion at der er et flertal mod ømu'en, må stikprøven nødvendigvis rumme tilfældige afvigelser. Hvis vi gentog opinionsundersøgelsen ville vi derfor næste gang få et resultat, der afviger en lille smule fra det ovenstående. Spørgsmålet er så blot om en sådan lille tilfældig afvigelse er stor nok til at rykke balancen mellem ja- og nej-sigere? Kan det med andre ord tænkes at der i virkeligheden er et flertal i befolkningen for ømu'en? For at undersøge dette vil vi simulere opinionsundersøgelsen. Det kan gøres på flere forskellige måder Brug af en tilfældighedsgenerator Brug af bootstrap Her vil vi koncentrere os om den første metode til simulering af en sådan stikprøvetagning. Vi udnytter nu, at sandsynligheden for at stemme ja (i følge stikprøven) må være 44%, sandsynligheden for at stemme nej må være 46% og endelig må sandsynligheden for at stemme blankt være 10%. Vi antager derfor at dette også gælder hele populationen og vil undersøge i hvilket omfang nye stikprøver afspejler de samme procentfordelinger. For at konstruere den nye stikprøve opretter vi en tabel med 800 observationer, idet vi højreklikker i tabellen og vælger menupunktet Tilføj nye data, hvor vi vælger 800 nye data. For at få udfyldt disse data med vælgernes stemmer opretter vi nu en variabel Stemme og benytter derefter en snedig formel med funktionen ombyt() til at frembringe stemmerne 46

47 2.2 Bekræftende statistik: Simulering og usikkerhedsintervaller For nu at kunne udfylde formlen skal vi have fat i en tabel over de kumulerede/summerede sandsynligheder Kategori Sandsynlighed Kumuleret sandsynlighed Ja 44% 44% Nej 46% 90% (= 44%+46%) Ved ikke 10% 100% (= 90%+10%) Vi deler derfor intervallet fra 0% til 100% i tre dele: Fra 0% til 44% (ja-stemmerne), fra 44% til 90% (nej-stemmerne) og endelig fra 90% til 100% (de blanke stemmer). I formlen ser det således ud, idet tilfældighedsgeneratoren tilfældig() netop frembringer et tilfældigt tal mellem 0 og 1 (dvs. mellem 0% og 100%) Bemærkning: For at indsætte flere valgmuligheder trykkes på INStasten. For at frembringe et skarpt ulighedstegn,, trykkes på CTRLtasten. 47

48 2.2 Bekræftende statistik: Simulering og usikkerhedsintervaller Formlen virker på følgende måde: Først udregnes et tilfældigt tal mellem 0 og 1, testværdien?. Derefter afprøves det om testværdien holder sig under Hvis det er tilfældet svares "Ja". Ellers går man videre ned i mulighederne og afprøver om testværdien holder sig under Hvis det er tilfældet svares "Nej". Men der er nu ikke længere nogen afprøvning som sidste mulighed svares derfor automatisk "Ved ikke". På den måde frembringes en tabel hvor der er 44% sandsynlighed for et "Ja", 46% sandsynlighed for et "nej" og endelig 10% sandsynlighed for et "Ved ikke" I den sidste beregningsboks har vi trukket variablen Stemme ind som en søjlevariabel. Ved at anvende den specielle funktion Søjleandel, får vi da også automatisk udregnet procentdelen for de forskellige kategorier. Som ventet ligner tallene den oprindelige stikprøve med % ja-stemmer, 46.25% nej-stemmer og 9.625% blanke stemmer. Usikkerheden for en opinionsundersøgelse Når først simuleringen er bragt på plads kan vi gentage den igen og igen ved at klikke i datasættet og derefter gentagne gange trykke CTRL-U. Vi vil da hurtigt opdage at det langt fra er hver gang nejstemmerne vinder. Resultatet af den oprindelige opinionsundersøgelse må derfor anses for at være ret så usikkert. Men vi vil gerne have sat tal på usikkerheden. Det kan gøres ved at oprette en måling, der udregner andelen for ja-stemmerne henholdsvis nej-stemmerne. Målingerne ligger gemt inde i datasættet, så vi dobbeltklikker på datasættet og vælger fanebladet måling, hvor vi indskriver de to målinger med deres tilhørende formler Disse målinger kan vi nu gentage ved at højreklikke i datasættet og vælge Udfør gentagne målinger. Vi ser da fem målinger blive udført, 48

49 2.2 Bekræftende statistik: Simulering og usikkerhedsintervaller mens grafer og tabeller blafrer i takt med de nye simuleringer. Men da fem målinger ikke er ret meget at basere en konklusion på sætter vi antallet op til 1000 målinger ved at dobbeltklikke i det afledede datasæt for målingerne og huske at stoppe animationen Indsamlingen af målinger tager lidt tid, men det drejer sig jo trods alt også om simulering af 1000 opinionsundersøgelser med 800 vælgere i hver undersøgelse. Men når først målingerne er samlet ind kan vi afbilde resultaterne grafisk og udføre simple beregninger på dem Målinger fra ØMU-simulering Prikdiagram andel_ja andel_nej middel ( ) = fraktil ( 2.5 ;?) = 0.41 fraktil ( 97.5 ;?) = 0.49 Målinger fra ØMU-simulering andel_ja andel_nej R1 = middel ( ) R2 = fraktil ( 2.5 ;?) R3 = fraktil ( 97.5 ;?) Vi ser et tydeligt overlap mellem de to fordelinger, så igen er resultatet ret mudret. Der ud over er begge andele behæftet med en stor usikkerhed. Men læg mærke til fordelingernes form: De er klokkeformede med en stor central klump og lange tynde haler. Selv om jasigernes andel således går fra 0.38 til 0.51 er yderværdierne så usandsynlige, at vi ikke behøver tage dem med i en troværdig usikkerhedsangivelse. Der er i stedet tradition for at man opgiver usikkerhedsintervallet som det midterinterval, der rummer 95% af målingerne. Dette midterinterval finder man som vist ved at udregne 2.5%-fraktilen og 97.5%-fraktilen. Usikkerhedsintervallerne for de to andele er derfor givet ved 40.4% < ja-sigernes andel < 47.6% 42.5% < ja-sigernes andel < 49.6% 49

50 2.2 Bekræftende statistik: Simulering og usikkerhedsintervaller Der er tradition for at opgive værdien på formen centrum ± radius, hvor centrum er middelværdien (eller gennemsnittet mellem de to fraktiler) og radius er den halve differens mellem de to middelværdier ja-sigernes andel = 44.0% ± 3.6% nej-sigernes andel = 46.0% ± 3.6% Men uanset hvad er usikkerheden på andelen væsentligt større end forskellen på de to andele, så der kan ikke drages troværdige konklusioner ud fra undersøgelsen. Den samme konklusion kan fås frem ved i stedet at kigge på boksplottene for de to andele, hvor de to bokse tydeligvis ikke er skarpt adskilte Målinger fra ØMU-simulering Boksplot andel_nej andel_ja middel ( ) = Vi kan skærpe undersøgelsen ved at se på sandsynligheden for at en stikprøve vender konklusionen, dvs. skifter fra et flertal for nej-siden til et flertal for ja-siden. Der til kan vi bruge differensen mellem de to andele, dvs. andel_nej-andel_ja. Hvis den er positiv vinder nej-siden, hvis den er negativ vinder ja-siden. Vi har allerede foretaget målingerne, så vi går bare ind i datasættet for målingerne og tilføjer en ny afhængig variabel defineret ved den ovenstående formel Målinger fra ØMU-simulering andel_ja andel_nej Differens = andel_nej andel_ja Målinger fra ØMU-simulering Prikdiagram Differens 0 = 0 Målinger fra ØMU-simulering Differens tæl ( differens > 0) R1 = tæl ( differens ) En optælling viser da at nej-siden kun vinder i 70% af de simulerede opinionsundersøgelser. Men hypotesen om nej-sidens dominans er først statistisk signifikant, hvis nej-siden vinder i mindst 95% af gentagelserne. 50

51 2.2 Bekræftende statistik: Simulering og usikkerhedsintervaller Teknisk bemærkning: Kanonisk skøn for en andel DataMeter har et skøns-værktøj, der kan bruges til at skønne over usikkerheden for en andel. For at benytte dette trækker vi først skøns-værktøjet ned i arbejdsområdet. Vi skal til at begynde med vælge hvilken type skøn vi vil foretage, dvs. her et skøn over andel Stikprøveresultater Skøn over andel Variabel (kategoriseret): Ikke tildelt Konfidensintervallet for populationsandelen af Kategori i Variabelnavn I stikprøven vil 10 ud af 20, eller 0.5, være Kategori. På basis af stikprøven, vil 95.0 % konfidensintervallet for populationsandelen af Kategori i Variabelnavn gå fra til Hvis stikprøven blev gentaget mange gange, ville de tilhørende konfidensintervaller indeholde populationsandelen 95.0 % af gangene. Vi skal da enten trække en variabel ind fra stikprøven eller selv indtaste de fornødne oplysninger i de blå felter. Da vi ikke har de rå data til rådighed fra stikprøven må vi selv indtaste oplysningerne for fx nej-sigerne, hvor 46% ud af 800 svarer til 368 nej-sigere Her indtastes navnet på variablen Her indtastes antallet af nejsigere Her indtastes stikprøvens størrelse Stikprøveresultater Skøn over andel Variabel (kategoriseret): Ikke tildelt Konfidensintervallet for populationsandelen af nej-siger i Stemme I stikprøven vil 368 ud af 800, eller 0.46, være nej-siger. På basis af stikprøven, vil 95.0 % konfidensintervallet for populationsandelen af nej-siger i Stemm e gå fra til Hvis stikprøven blev gentaget mange gange, ville de tilhørende konfidensintervaller indeholde populationsandelen 95.0 % af gangene. Her indtastes navnet på kategorien Vi får da netop oplyst konfidensintervallet, dvs. usikkerhedsintervallet, ved et signifikansniveau på 95% (som kan ændres til en anden værdi, hvis det ønskes). Konfidensintervallet viser sig at gå fra 42.6% til 49.5%, hvilket ligger meget tæt på vores eget eksperimentelle skøn over usikkerhedsintervallet. 51

52 2.2 Bekræftende statistik: Simulering og usikkerhedsintervaller Bootstrap og usikkerhed: Tyngdeaccelerationen Til sidst vil vi kort skitsere bootstrap-metoden til at skønne over en usikkerhed. Bootstrap er i mange tilfælde nemmere at anvende end en simulering med en tilfældighedsgenerator. Men den kræver at vi har kendskab til stikprøven som et datasæt. Vi viser den her med et eksempel, hvor vi konstruerer et usikkerhedsinterval for en måling af tyngdeaccelerationen g. Det er ikke så afgørende hvilken metode vi bruger til at finde tyngdeaccelerationen, når blot vi får mange uafhængige bestemmelser af tyngdeaccelerationen. Her illustrerer vi det med ti målinger af tyngdeaccelerationen fastsat ud fra proportionaliteten mellem lodmassen og tyngdekraften målt med et dynamometer. Som det ses er der en vis spredning i resultaterne med en middelværdi på 9.85 N/kg. Hvor præcist kan man nu sige klassen har målt tyngdeaccelerationen? Tyngdeaccelerationen tyngdeaccelerationen enhed N/kg N/kg N/kg N/kg N/kg N/kg N/kg N/kg N/kg N/kg N/kg Tyngdeaccelerationen Boksplot tyngdeaccelerationen (N/kg) middel ( ) = N/kg For nu at undersøge den naturlige variation hørende til de originale målinger af tyngdeaccelerationen, simulerer vi nu en gentagelse af forsøgsrækken baseret på præcis den samme fordeling som de originale data. Men det kan vi jo netop gøre ved at udtage en stikprøve fra det originale datasæt, med dels nøjagtigt det samme antal observationer, dels udført med tilbagelægning. Hver gang vi har trukket en ny observation, lægger vi den altså tilbage igen til det originale datasæt, som derfor ikke ændres under udtrækningen. Derved får alle de oprindelige observationer hele tiden samme sandsynlighed for at blive udtrukket. Læg også mærke til, at denne udtrækning giver mulighed for at nogle observationer kommer med flere gange i udtrækningen, mens andre helt udgår, og dermed skabes netop den naturlige variation. Vi højrekikker derfor på opinionsundersøgelsen og vælger Udtag stikprøve. Som udgangspunkt får vi da netop udtaget en stikprøve med 10 elementer med tilbagetrækning. Og da vi tilfældigvis har 10 observationer i det oprindelige forsøg behøver vi ikke ændre på antallet, men husker selvfølgelig at slå animationen fra. Dermed er vi klar til at udtage en ny stikprøve som en gentagelse af den oprindelige forsøgsrække 52

53 2.2 Bekræftende statistik: Simulering og usikkerhedsintervaller Så snart vi har bootstrappet os til den nye forsøgsrække, kan vi nu indføre statiske målinger på stikprøven, udføre gentagne målinger 1000 gange og dermed nå frem at den 'virkelige' tyngdeacceleration som altså må formodes at ligge mellem 9.81N/kg og 9.90N/kg. Målinger fra Stikprøve fra Tyngdeaccelerationen Prikdiagram test (N/kg) fraktil ( 2.5; test) = N/kg fraktil ( 97.5; test) = 9.9 N/kg middel ( test) = N/kg Bemærkning: Ordet bootstrap (dvs. støvlestrop) stammer fra Baron von Münchausens eventyr, hvor den løgnagtige baron fortæller, hvordan han reddede sig op af en sump ved at trække i støvlestropperne. I den klassiske illustration af Doré trækker han sig i stedet op af sumpen ved at hive sig i håret. I statistik benyttes det som kælenavn for en metode, hvor man genskaber den oprindelige population ud fra tilfældige udtrækninger i en repræsentativ stikprøve. Når stikprøven afspejler de væsentligste træk fra hele populationen kan man ved at trække fra stikprøven opnå tilnærmelsesvis de samme resultater som hvis man trak fra hele populationen. 53

54 2.3 Bekræftende statistik: Omrøring og hypotesestest 2.3 Omrøring og hypotesetest Challenger-ulykken Challenger ulykken 9 er en af den nyere tids mest spektakulære teknologiske ulykker: Den 28. januar 1986 forulykkede rumfærgen Challenger kort efter starten på opsendelsen. Spørgsmålet er nu: Kunne ulykken være undgået? Havde NASA rent faktisk tilstrækkelig med forhåndsviden til at de burde have udsat flyvningen? I den konkrete flyvning samlede interessen sig hurtigt om de såkaldte O-ringe. Optagelser fra opsendelsen viste tydelige lække af brændende gasser, og de kunne klart være hovedårsagen til den kraftige eksplosion af hovedtanken. Lækken skulle være sket ved at gas strømmede forbi to O-ringe, fordi disse af en eller anden grund ikke havde sluttet helt tæt. Disse ringe var af gummi og skulle udvide sig hurtigt under opsendelsen: På grund af den kraftige varmeudvikling og de kraftige rystelser udvidede mellemrummet omkring O- ringene sig nemlig under opsendelsen. Tidligere flyvninger og test af sammenslutningerne havde vist at dette kunne føre til erosion af O- ringene. Men jo koldere ringene er jo mere stive er ringene, og dette kunne føre til en problematisk forsinkelse af deres udvidelse. Netop på ulykkesdagen den 28. januar var det betydeligt koldere (lige under frysepunktet) end ved nogen tidligere opsendelse. NASA havde siden 1977 været klar over at O-ringene var et ekstremt svagt led, og de havde derfor skærpet testrutinerne omkring deres samling gennem årene, men ingen havde for alvor testet temperaturafhængigheden. Man samlede derfor nu alle tilgængelige oplysninger om opsendelsestemperaturer og problemer omkring O- ringene fra tidligere flyvninger med rumfærger. I en berømt telefonsamtale mellem ingeniører fra firmaet Thiokol, der var ansvarlige for O-ringene, og Nasas ledelse aftenen før den fatale flyvning forsøgte ingeniørerne rent faktisk at stoppe flyvningen netop på grund af den mulige sammenhæng mellem den lave opsendelsestemperatur og så problemerne med O-ringene stabilitet. Men det lykkedes ikke for ingeniørerne at påvise en klar sammenhæng og Nasa afviste derfor at udsætte flyvningen. Episoden er senere blevet kendt som 'The Greatest Missed Opportunity in Statistiscs' 10. Det er denne historiske diskussion af problemerne med O-ringene vi vil prøve at belyse i det følgende. Vi åbner derfor for en fil med de originale data. Filen findes ved at benytte menupunktet Åbn eksempel... i Filer-menuen og dernæst følge stien: 9 Den amerikanske rumfartsorganistation NASA selv har offentliggjort en stor mængde informativt materiale om ulykken på deres hjemmeside inklusive videoklip fra opsendelsen og selve ulykken, se fx 10 Se den også i andre henseender interessante hjemmeside Gallery of Data Visualization: 54

55 2.3 Bekræftende statistik: Omrøring og hypotesestest Statistik Inferens Hypotesetest Challengerulykken.ftm Opsendelser Flyvning Temperatur Fejl Dato Rumfærge O_ringe 1 STS-1 66 NEJ Columbia 0 2 STS-2 70 JA Columbia 1 3 STS-3 69 NEJ Columbia 0 4 STS-4 80 NEJ Columbia 0 5 STS-5 68 NEJ Columbia 0 6 STS-6 67 NEJ Challenger 0 7 STS-7 72 NEJ Challenger 0 8 STS-8 73 NEJ Challenger 0 9 STS-9 70 NEJ Columbia 0 10 STS 41-B 57 JA Challenger 1 11 STS 41-C 63 JA Challenger 1 12 STS 41-D 70 JA Discovery 1 13 STS 41-G 78 NEJ Challenger 0 14 STS 51-A 67 NEJ Discovery 0 15 STS 51-C 53 JA Discovery 3 16 STS 51-D 67 NEJ Discovery 0 17 STS 51-B 75 NEJ Challenger 0 18 STS 51-G 70 NEJ Discovery 0 19 STS 51-F 81 NEJ Challenger 0 20 STS 51-I 76 NEJ Discovery 0 21 STS 51-J 79 NEJ Atlantis 0 22 STS 61-A 75 JA Challenger 2 23 STS 61-B 76 NEJ Atlantis 0 24 STS 61-C 58 JA Columbia 1 Tabellen rummer data fra de foregående 24 flyvninger med rumfærgerne ordnet kronologisk. Datasættet rummer 6 variable: Flyvning Temperatur Fejl Dato Rumfærge O_ringe Den tekniske betegnelse for den pågældende mission. Luftens gennemsnitstemperatur omkring rumfærgen under opsendelsen (målt i Fahrenheit!). Om der efterfølgende var konstateret alvorlige fejl på en eller flere af O_ringene. Datoen for opsendelsen i formatet: år-måned-dag. Hvilken af de fire rumfærger der var tale om. Antallet af O-ringe, hvor der efterfølgende blev konstateret alvorlige fejl. Med disse data til rådighed er vi nu klar til at frembringe diverse grafer for at belyse sammenhængene mellem de forskellige variable. 55

56 2.3 Bekræftende statistik: Omrøring og hypotesetest Beskrivende statistik: Hvem er skurken? Et linjeplot over antallet af O-ringe eller et prikdiagram for antal O- ringe versus datoen viser ikke nogen klar sammenhæng mellem antallet af uheld og hvornår de er sendt op. Det ser ikke ud som om der bliver flere og flere ulykker i takt med at rumfærgerne nedslides: Opsendelser Opsendelser Linjeplot Indeks Prikplot Opsendelser Opsendelser Dato Prikdiagram Blokdiagram Atlantis Challenger Columbia Rumfærge Discovery 20% 40% 60% 80% 100% Atlantis Challenger Columbia Discovery Rumfærge Fejl JA NEJ Tilsvarende er der heller ikke nogen tydelig sammenhæng mellem antallet af uheld og hvilken rumfærge der er involveret. Når Atlantis ikke har haft nogen uheld kunne det jo sagtens forklares med at den kun var blevet sendt op to gange. For de andre rumfærgers vedkommende ser det ud til at der sker uheld med O-ringene ca. hver tredje gang, jfr. blokdiagrammet, hvor vi har afsat variablen fejl som en signatur inde i grafrummet. Vi kigger derfor nu på temperaturens indflydelse Opsendelser XY-plot Temperatur Opsendelser XY-plot Temperatur O_ringe > 0 56

57 2.3 Bekræftende statistik: Omrøring og hypotesetest Den første graf viser sammenhængen mellem antal O-ringe og temperaturen. Det værste uheld med tre ødelagte O-ringe ligger ved den laveste temperatur 53 F, men det næstværste uheld med to ødelagte O-ringe ligger ved den forholdsvise høje temperatur 75 F; Det var noget som NASA-administrationen ikke var sene til at påpege ved diskussionerne forud for opsendelsen. Ydermere begik man den afgørende fejl i diskussionen at man ignorerede de fejlfrie flyvninger, jfr. den anden graf, hvor vi har filtreret de fejlfrie flyvninger ud af grafen. Det gør det endnu sværere at se en klar sammenhæng og var stærkt medvirkende til at det ikke lykkedes ingeniørerne at overbevise administrationen om at udsende opsendelsen på grund af den ekstremt lave temperatur ved opsendelsestidspunktet. Det gør det helle ikke meget mere overbevisende at tilføje en tendenslinje. Selv om den har negativ hældning, og derfor påpeger en mulig sammenhæng mellem mange uheld og lave temperaturer er forklaringsgraden helt ned på 32% (eller endnu værre helt nede på 7%, når vi udelukker de fejlfrie flyvninger), så det er bestemt tvivlsomt hvor stærk en sådan sammenhæng kan regnes for at være Opsendelser XY-plot Temperatur O_ringe = Temperatur ; r 2 = 0.32 Opsendelser XY-plot Temperatur O_ringe = Temperatur ; r 2 = O_ringe > 0 Vi skifter derfor strategi og kigger i stedet på boksplottene for de to grupper af opsendelser, dem med fejl og dem uden fejl. Samtidigt med tilføjer vi middeltemperaturerne Opsendelser Boksplot JA NEJ Temperatur middel ( ) = 70 Opsendelser Temperatur JA Fejl NEJ Søjle total 70 R1 = middel ( ) Her synes der at være en langt tydeligere sammenhæng med temperaturen: Der er klart flest fejl, når temperaturen er lav. Men igen er der er vist overlap, så hvor stærk er sammenhængen egentlig? Kan den motivere en udsættelse? 57

58 2.3 Bekræftende statistik: Omrøring og hypotesetest Bekræftende statistik: Omrøring og uafhængighed Vi har nu ved hjælp af metoder fra den beskrivende statistik afdækket et muligt problem: Der synes at være en sammenhæng mellem fejl og temperatur, der viser sig som en tendens til at fejlene optræder hyppigere ved de lave temperaturer end ved de høje temperaturer. Men hvor troværdigt er det nu, at denne forskel ikke lige så godt kunne forklares som et udslag af tilfældige variationer? Vi skal med andre ord forsøge at vurdere hvor troværdig påstanden om en systematisk variation er, dvs. forskellen er så stor at den må anses for at være statistisk signifikant. Vi kommer da ikke udenom at foretage et hypotesetest for at vurdere styrken i den observerede forskel mellem fejlenes opførsel ved lave henholdsvis høje temperaturer. I den såkaldte retsagsmetafor for hypotesetest skal vi nu fælde dom i en sag om to påstande: 1. NASA's administration hævder at de observerede variationer i antallet af uheld ligeså godt kan tilskrives tilfældigheder, og at der derfor ikke er nogen grund til at udskyde opsættelsen (den såkaldte nulhypotese H 0, idet der ikke kan påvises nogen systematisk variation, dvs. der er ingen systematisk mellem antallet af fejl og temperaturen). 2. Ingeniørerne fra firmaet Thiokol hævder modsat at der er en systematisk sammenhæng mellem fejl og temperatur, og at man derfor skal være yderst varsom med at opsende rumfærgen ved kolde temperaturer på grund af den forøgede risiko for fejl (den såkaldt alternative hypotese H a ). Der er ikke noget fældende bevis i sagen (vi mangler 'den rygende pistol'), så afgørelsen skal alene træffes på grundlag af indicier, dvs. vi skal foretage en vurdering af hvor overbevisende vores opdagelse af forskellen mellem antallet af fejl ved lave temperaturer og antallet af fejl ved høje temperaturer egentlig er. Begge parter kan altså i princippet have ret, og det eneste vi kan gøre er at forsøge at sandsynliggøre den ene hypotese frem for den anden. Vi skal da på forhånd blive enige om to forhold: 1. Hvilket signifikansniveau vil vi lægge til grund for domfældelsen (dvs. hvor stærke skal indicierne være)? 2. Hvilken teststørrelse vil vi benytte til at afgøre sagen, dvs. hvordan vil vi kvantificere, dvs. sætte tal på den observerede mulige systematiske forskel? Signifikansniveauet: Typisk vil man benytte et signifikansniveau på 5%. Hvis sandsynligheden for, at den observerede variation kan forklares med rene tilfældigheder, kommer under 5%, fremstår NASA's påstand om ren tilfældighed meget svagt, fordi det er svært at tro på at den observerede forskel er opstået rent tilfældigt, når sandsynligheden for dette er så lille. Omvendt virker ingeniørernes påstand om systematisk variation meget troværdig, og vi vil derfor følge ingeniø- 58

59 2.3 Bekræftende statistik: Omrøring og hypotesetest rerne og dømme systematisk variation på grundlag af de fremlagte indicier. Hvis sandsynligheden for at forklare den observerede variation derimod kommer over 5% vil vi i stedet følge administrationens påstand og dømme tilfældig variation fordi indicierne ikke er stærke nok. Læg mærke til, at vi kun kan sandsynliggøre ingeniørernes påstand. Selv med en meget lille sandsynlighed vil der stadigvæk være en mulighed for at det hele alligevel kunne bero på tilfældigheder. I så fald har vi altså dømt en uskyldig og dermed begået et justitsmord (en såkaldt fejl af først art). Men med et signifikansniveau på 5% vil dette altså højest kunne forekomme i 5% af retssagerne, hvilket i mange tilfælde altså anses for at være acceptabelt. I særligt følsomme sager, fx om virkning af medicin overfor livstruende sygdomme, kan man dog ændre på signifikansniveauet og fx sætte signifikansniveauet ned til 1% og derved skærpe bevisbyrden, for at minimere risikoen for at man godkender en i virkeligheden virkningsløs medicin. Teststørrelsen: Her er der også et vist spillerum for hvordan vi kan sætte tal på den observerede forskel. Men igen skal vi altså blive enige på forhånd. Fx kunne vi kigge på middeltemperaturen i de to grupper af opsendelser med og uden fejl eller på medianen for temperaturen i de to grupper og så udregne deres forskel. Her vælger vi middeltemperaturen, for det vil give os mulighed for at sammenligne den eksperimentelle metode med den traditionelle teoretiske metode. Som teststørrelse vælger vi altså forskellen på middeltemperaturerne i de to grupper og vi starter derfor med at udregne denne ved at trække datasættet (dvs. egentlig titlen) ind i en beregningsboks Opsendelser R1 = middel ( temperatur; Fejl = "JA") middel ( Temperatur; Fejl = "NEJ" ) Middeltemperaturen for de fejlbefængte flyvninger ligger altså 8.9 F lavere end middeltemperaturen for de fejlfri flyvninger og vi skal nu finde sandsynligheden for at denne forskel kan tilskrives rene tilfældigheder (nulhypotesen). Dette kan i princippet gøres ved hjælp af teoretiske udregninger, men de kræver både meget viden og megen erfaring, så i stedet vil vi finde sandsynligheden eksperimentelt ved at simulere nulhypotesen. Vi skal da først finde ud af hvordan man kan simulere uafhængigheden af de to variable Fejl og Temperatur. Vi kan nu bryde en eventuel sammenhæng mellem to variable, ved at foretage en tilfældig ombytning (permutation) af værdierne i den ene variabel. Man siger at man rører rundt i den ene variabel, hvorved værdierne bliver ombyttet så meget at de oprindelige sammenhænge, der måtte være mellem de to variable, fuldstændigt udviskes. Derved sikres det netop at de to variable bliver stokastisk uafhængige af hinanden. 59

60 2.3 Bekræftende statistik: Omrøring og hypotesetest I princippet kan man foretage omrøringen i hånden ved at skrive de 24 temperaturer ned på 24 kort. Derefter blandes kortene godt og grundigt og de 7 første kort lægges fra til de fejlfyldte flyvninger, mens de 17 sidste kort lægges fra til de fejlfrie flyvninger. Der er nu ikke længere nogen sammenhæng mellem temperaturerne og fejlene og vi kan derfor for hver gruppe udregne middeltemperaturen og endelig deres forskel. I praksis er det dog nemmere at udføre omrøringen ved hjælp af DataMeter. Vi højreklikker da på datasættet og vælger kommandoen Rør rundt i en variabel. Straks dukker der et afledet datasæt op med de omrørte variable: I første omgang omrøres den første variabel i datasættet, dvs. variablen Flyvning. Men det kan vi rette ved at dobbeltklikke på det omrørte datasæt og vælge fanebladet Omrøring, hvor vi udskifter variablen Flyvning med variablen Fejl. Derefter gentager vi omrøringen 60

61 2.3 Bekræftende statistik: Omrøring og hypotesetest Bemærkning: Ligesom ved en almindelig variabelkontrol, hvor man kun ændrer én uafhængig variabel ad gangen for at se hvilken indflydelse den har på den afhængige variabel, er det karakteristisk for omrøringen at man kun løsner én variabel ad gangen, dvs. gør den statistisk uafhængig af de øvrige variable, for at se hvilke sammenhænge med de øvrige variable, der derved brydes. Omrøringen fungerer altså som en form for statistisk variabelkontrol. Til illustration fremskaffer vi også et boksplot over variablen Temperatur opdelt på de to værdier af variablen Fejl inklusive middelværdierne, der afsættes med Plot Værdi: Opsendelser Boksplot Omrøring af Opsendelser Boksplot NEJ NEJ JA JA Temperatur middel ( ) = Temperatur middel ( ) = 70 Ikke overraskende ligner de to grupper nu hinanden meget mere og begge middeltemperaturerne ligger tæt ved den fælles middeltemperatur på 70 F. Og oven i købet kan det denne gang som vist sagtens tænkes at det er middeltemperaturen for de fejlbefængte flyvninger, der ligger højest. Det vil nemlig indtræffe i halvdelen af omrøringerne, hvilket man kan forvisse sig om ved at gentage omrøringen (fx ved at klikke på det omrørte datasæt og dernæst taste CTRL-U). Kopierer vi nu formlen for teststørrelsen over til en beregningsboks tilknyttet det omrørte datasæt kan vi nu ydermere få en klar fornemmelse for den naturlige variation af teststørrelsen under nulhypotesen, hvor Temperatur og Fejl er uafhængige af hinanden og forskellen derfor alene kan tilskrives tilfældige variationer Omrøring af Opsendelser R1 = middel ( Temperatur; Fejl = "JA") middel ( Temperatur; Fejl = "NEJ" ) Prøver man nu igen at gentage omrøringen kan man hurtigt få en fornemmelse for hvor nemt/svært det er at frembringe en forskel, der er mindst lige så lille som de observerede -8.9 F. Det viser sig at være rigtigt svært! Altså står nulhypotesen meget svagt med et signifikansniveau på 5% skulle vi få et mindst lige så skævt udfald indenfor noget, der ligner 20 forsøg, hvis nulhypotesen holder og dermed står den alternative hypotese om den uheldsvangre kobling mellem temperaturen og fejlene tilsvarende stærkt. 61

62 2.3 Bekræftende statistik: Omrøring og hypotesetest Men vi mangler stadigvæk en mere præcis vurdering af sandsynligheden for at tilfældige variationer kan frembringe et resultat, der er mindst lige så skævt som det observerede. Her til skal vi udføre gentagne målinger på det omrørte datasæt. Målinger i DataMeter er nu lidt trickede, fordi de ligger gemt i datasættet, og man kan derfor kun oprette/se målinger ved at gå ind og vække datainspektøren ved at dobbeltklikke i det omrørte datasæt. Derefter vælges fanebladet Målinger inde i datainspektøren I dette tilfælde, hvor vi har åbnet et allerede konstrueret eksempel, er målingen oprettet på forhånd. Men ellers kan vi selv oprette den ved at give målingen et navn og så kopiere formlen for teststørrelsen. Vi højreklikker derfor på datasættet for de omrørte opsendelser og vælger menupunktet Udfør gentagne målinger. Under de fem obligatoriske målinger blafrer boksplottene nu frem og tilbage, idet somme tider den ene og somme tider den anden lægger sig i spidsen. Ved at dobbeltklikke på det afledte datasæt over målingerne kan vi nu få frembragt 1000 gentagne målinger, idet vi husker at få slukket for animationen, så der ikke spildes tid med hele tiden at få opdateret resultaterne fra den nye måling: Det tager ikke særlig lang tid at få udført de 1000 omrøringer med tilhørende målinger og dermed få udregnet de 1000 forskelle i middeltemperaturer for de to grupper under antagelsen af at de i virkeligheden er uafhængige (den såkaldte nulhypotese). 62

63 2.3 Bekræftende statistik: Omrøring og hypotesetest Derefter kan vi få tegnet et prikdiagram over målingerne sammen med dels 5%-fraktilen på F, der afsnører det kritiske område til venstre i fordelingen, dels den rent faktisk observerede forskel i middeltemperaturer på F Målinger fra Omrøring af Opsendelser Prikdiagram Middelforskel = fraktil ( 5; middelforskel) = Målinger fra Omrøring af Opsendelser 5 R1 = tæl ( Middelforskel ) Prikdiagrammet viser klart, hvor svært det er at frembringe en så stor forskel alene ud fra tilfældigheder. Den observerede forskel ligger et godt stykke inde i den kritiske røde zone afgrænset ved 5%- fraktilen, der slutter ved F. Vi kan også som vist få udregnet den tilnærmede (eksperimentelle) sandsynlighed for at få en forskel, der er mindst lige så skæv som den observerede. I DataMeter kan det fx gøres ved at trække datasættet for de gentagne målinger ind i en beregningsboks og derefter tælle, hvor mange målinger der er mindst lige så skæve ved hjælp af den viste formel. Det viser sig da at der kun er 5 ud af 1000 målinger, der ligger lige så langt eller længere ude, så sandsynligheden for at den observerede forskel skyldes rene tilfældigheder er altså kun ca. ½%. Dermed har ingeniørerne altså vundet retssagen idet nulhypotesen er særdeles usandsynlig og den alternative hypotese dermed særdeles troværdig baseret som den er på en statistisk signifikant forskel men i den virkelige verden valgte NASA's administration altså at sidde deres advarsler overhørige, med katastrofale konsekvenser til følge, såvel menneskelige som økonomisk/administrative, idet rumfærge projektet blev sat adskillige år tilbage af ulykken, der senere skulle vise sig ikke at være den eneste, men det er en anden historie. 63

64 2.3 Bekræftende statistik: Omrøring og hypotesetest Teknisk bemærkning: Kanonisk t-test I praksis benytter man sig ofte af en såkaldt kanonisk test. Vi viser til sidst hvordan det gøres i DataMeter, så man kan sammenligne med den ovenstående undersøgelse. Vi trækker derfor et testværktøj ned i arbejdsområdet og vælger en test af to middelværdier, idet vi ønsker at sammenligne middeltemperaturen for de fejlbefængte flyvninger med middeltemperaturen for de fejlfrie flyvninger, for at kunne vurdere om den observerede forskel er statistisk signifikant Stikprøveresultater Test af to middelværdier Første variabel (numerisk): Ikke tildelt Anden variabel (numerisk eller kategoriseret): Ikke tildelt Stikprøvens størrelse for Første variabel : 20 Stikprøvens størrelse for Anden variabel : 20 Stikprøvens middelværdi for Første variabel : 100 Stikprøvens middelværdi for Anden variabel : 110 Standardafvigelsen for Første variabel : 10 Standardafvigelsen for Anden variabel : 15 Standardfejlen for middelværdien af Første variabel : Standardfejlen for middelværdien af Anden variabel : Alternativ hypotese: Populationsmiddelværdien af Første variabel er forskellig fra den fra Anden variabel Teststørrelsen, Student's t, på grundlag af ukombinerede varianser, er Der er frihedsgrader. Hvis det var sandt at populationsmiddelværdien af Første variabel var den samme som den fra Anden variabel (nulhypotesen), og vi gentog stikprøven mange gange, ville sandsynligheden for at få en værdi for Student's t der var med en numerisk værdi, der er mindst lige så stor være Testværktøjerne i DataMeter kan nu anvendes på to forskellige måder: Hvis vi har et datasæt med de rå data til rådighed kan vi blot trække de relevante variable ind i værktøjet, hvorefter DataMeter selv foretager de relevante udregninger. Ellers kan vi nøjes med at indsætte forskellige nøgletal for de to variable, hvis disse fx foreligger i en artikel eller en eksamensopgave, hvorefter DataMeter foretager de resterende udregninger. 64

65 2.3 Bekræftende statistik: Omrøring og hypotesetest I vores tilfælde har vi netop de rå data til rådighed og trækker derfor Temperatur ind som den første numeriske variabel (der giver anledning til middelværdierne) og Fejl ind som den anden kategoriserede variabel, der giver anledning til opsplitningen i de to middelværdier. Samtidigt går vi ind i den alternative hypotese og ændrer ' forskellig fra' til 'er mindre end' Test fra Opsendelser Test af to middelværdier Første variabel (numerisk): Temperatur Anden variabel (numerisk eller kategoriseret): Fejl Stikprøveantal fra Fejl = JA: 7 Stikprøveantal fra Fejl = NEJ: 17 Stikprøvemiddelværdi fra Temperatur når Fejl = JA: Stikprøvemiddelværdi fra Temperatur når Fejl = NEJ: Standardafvigelse af Temperatur når Fejl = JA: Standardafvigelse af Temperatur når Fejl = NEJ: Standardfejl af Temperatur når Fejl = JA: Standardfejl af Temperatur når Fejl = NEJ: Alternativ hypotese: Populationsmiddelværdien for Temperatur når Fejl = JA er mindre end den som opfylder Fejl = NEJ Teststørrelsen, Student's t, på grundlag af ukombinerede varianser, er Der er frihedsgrader. Hvis det var sandt at populationsmiddelværdien af Temperatur når Fejl = JA var den samme som den fra Temperatur når Fejl = NEJ (nulhypotesen), og vi gentog stikprøven mange gange, ville sandsynligheden for at få en værdi for Student's t mindst lige så lille være Vi får da en vrimmel af oplysninger, men langt den vigtigste er den sidste, der netop fortæller at sandsynligheden for at få en forskel i de to stikprøvemiddelværdier, der er mindst lige så skæv som forskellen mellem de faktisk observerede middelværdier under forudsætning af at populationsmiddelværdierne i virkeligheden er ens (nulhypotesen, dvs. den observerede forskel skyldes alene tilfældige variationer) er helt nede på 0.014, dvs. 1.4%. Da det ligger langt under signifikansniveauet på 5% er den observerede forskel altså statistisk signifikant, i overensstemmelse med konklusionen i vores egen undersøgelse. Vi kan også få vist en graf med det kritiske område som støtte for fortolkningen. Det sværtede område ude til venstre har da netop arealet 1.4%. Men for at forstå testværktøjet fuldt ud skal man altså dels have et indgående kendskab til de mange begreber, der optræder i skemaet, såsom frihedsgrader, student's t og ukombinerede varianser, dels skal man være opmærksom på at der skal være en Test fra Opsendelser Funktionsgraf Student's t y = ttæthed ( x ; frihedsgrader ) række forudsætninger opfyldt før man kan drage troværdige konklusioner af testen, forudsætninger som vi slet ikke har mulighed for at gøre rede for inden for rammerne af denne fremstilling. 65

66 2.4 Spørgeskemaanalyser og χ 2 -test Gråzonekriminalitet: En spørgeskemaanalyse Som et eksempel på anvendelse af kategoriserede data vil vi nu se nærmere på analysen af en spørgeskemaundersøgelse. Vi skal da have valgt et tema og en målgruppe. Her vil vi anvende et spørgeskema om gråzonekriminalitet udarbejdet til brug for et tværfagligt samarbejde mellem samfundsfag og matematik 11 Spørgsmål til gråzonekriminalitet: Køn Alder Har du uden tilladelse inden for det sidste år: Taget en cykel som ikke tilhørte dig selv Taget penge eller spiritus fra en jævnaldrende Taget penge eller spiritus fra forældre Taget noget i en forretning Har du indenfor det sidste år arbejdet sort Har du indenfor det sidste år ødelagt noget for sjov Har du inden for det sidste år ulovligt lavet graffiti Dette spørgeskema kan nu sendes rundt til fx alle eleverne i 1g på skolen. Jo flere elever man kan inddrage i spørgeskemaundersøgelsen jo bedre. På den med får man en stikprøve af den danske gymnasieungdom. Man bør så overveje i hvilket omfang den er repræsentativ. Den er jo i hvert fald ikke fremkommet ved at foretage et tilfældigt udvalg af danske gymnasieelever! Så hvis undersøgelsen stammer fra et provinsgymnasium er det et spørgsmål om den også dækker gymnasielever fra storbyerne. Stammer den fra et alment gymnasium er det et spørgsmål om den også dækker elever fra handelsgymnasier (hhx) og tekniske gymnasier (stx) osv. Her vil blot notere os at undersøgelsen må formodes at være repræsentativ for en langt større population end de faktisk adspurgte. For at kunne diskutere teknikker til at analysere spørgeskemaerne vil vi nu bruge resultaterne fra en autentisk undersøgelse i en 2gklasse. Det er en ret lille undersøgelse, der kun involverer 24 elever og derfor kun kan betragtes som en forsmag på en rigtig undersøgelse. Men den vil kunne bruges til at illustrere metoderne, som I så kan anvende på den rigtige undersøgelse foretaget på jeres egen skole! De anførte svar på den anonyme undersøgelse indtastes i DataMeter. Ved større undersøgelser gøres dette af flere omgange Det er da afgørende at man først opretter en fælles skabelon, så alle variablene får nøjagtigt de samme navne i de enkelte delundersøgelser. 11 Eksemplet er udarbejdet af Marianne Kesselhahn i forbindelse med det paradigmatiske eksempel 209: Kriminaliteten i tal et forløb i statistik. 66

67 2.4 Bekræftende statistik: Spørgeskemaanalyser og χ 2 -test Derefter kan man nemlig samle de enkelte delundersøgelser oprettet i hver sin DataMeter-fil til én samlet undersøgelse ved at kopiere resultaterne og indsætte dem i ét samlet datasæt. Når man kopierer de enkelte datasæt skal man huske først at vælge alle data i datasættet (CTRL-A), dernæst kopiere data (CTRL-C) og til sidst indsætte data (CTRL-V). Man kan nemmest følge med i processen ved at vise data i en tabel Gråzonekriminalitet 2xy_2005 Køn Alder sort_arbejde tyveri_af_cykel tyveri_fra_jævnaldrene tyveri_fra_forældre tyveri_fra_forretning hærværk graffiti 1 d 17 nej nej nej ja ja ja nej 2 p 17 nej nej nej nej nej nej nej 3 p 17 ja nej nej nej nej nej nej 4 p 17 ja nej nej nej nej nej nej 5 p 17 nej nej nej nej nej nej nej 6 p 17 nej nej ja nej nej nej nej 7 p 17 nej nej nej nej nej nej nej 8 p 17 nej nej nej nej nej nej nej 9 p 17 ja nej ja ja nej nej nej 10 d 18 ja nej nej nej nej nej nej 11 d 18 ja nej nej ja ja ja nej 12 d 18 nej nej ja nej nej ja nej 13 d 18 ja nej nej nej nej nej nej 14 p 18 ja nej nej ja nej nej nej 15 p 18 ja nej nej nej nej nej nej 16 p 18 ja nej nej nej nej nej nej 17 p 18 nej nej ja nej nej nej nej 18 p 18 ja nej nej nej nej nej nej 19 p 18 ja nej nej nej nej nej nej 20 p 18 nej nej nej nej nej nej nej 21 p 18 ja nej nej nej nej ja nej 22 d 19 nej nej ja ja nej nej nej 23 d 19 ja nej nej nej nej nej nej 24 d 19 ja nej nej nej nej nej nej Beskrivende statistik: Søjle- og blokdiagrammer Ovenfor ses nu resultatet af undersøgelsen. De to første variable, Køn og Alder, vil vi opfatte som uafhængige forklarende variable. De syv sidste variable, sort_arbejde... grafitti, vil vi opfatte som afhængige responsvariable. Udover at kunne dokumentere omfanget af de forskellige former for gråzonekriminalitet er vi også interesserede i at undersøge om der kan konstateres en sammenhæng mellem køn og alder på den ene side og de forskellige typer gråzonekriminalitet på den anden side. Vi starter med de velkendte grafiske metoder fra den beskrivende statistik ('Vi skal tegne før vi kan regne'). Der er ingen, der har stjålet cykler eller tegnet graffiti Datasæt 1 25 Søjlediagram Datasæt 1 25 Søjlediagram tæl ( ) ja tyveri_af_cykel nej tæl ( ) graffiti ja nej 67

68 2.4 Bekræftende statistik: Spørgeskemaanalyser og χ 2 -test Der er et mindre, men stigende antal, der har stjålet fra forretninger, begået hærværk eller stjålet fra forældre henholdsvis jævnaldrende Datasæt 1 25 Søjlediagram Datasæt 1 25 Søjlediagram ja nej tyveri_fra_forretning ja hærværk nej tæl ( ) tæl ( ) Datasæt 1 25 Søjlediagram Datasæt 1 25 Søjlediagram tæl ( ) ja nej tyveri_fra_forældre tæl ( ) ja nej tyveri_fra_jævnaldrene Endelig er der rigtigt mange, der har haft sort arbejde Datasæt 1 25 Søjlediagram ja sort_arbejde nej tæl ( ) Bemærkning: Læg mærke til at vi har brugt samme interval på hyppighedsaksen for alle syv grafer, så man umiddelbart kan sammenligne højderne. Vi kunne så umiddelbart tro at det er de samme fem elever, der både har stjålet fra jævnaldrende og fra forældrene, men hvis vi fx klikker i søjlen for dem, der har begået tyveri fra jævnaldrene, kan man umiddelbart se i alle de andre grafer, at det er ret tilfældigt om de også har begået andre typer af tyveri eller hærværk. Dermed er vi så småt begyndt at se på mulige sammenhænge mellem de forskellige variable, herunder om nogen af de forskellige former for gråzonekriminalitet afhænger af køn eller alder. Kigger vi fx på sammenhængen mellem sort arbejde og alder ses en tydelig tendens til at det sorte arbejde stiger med alderen 68

69 2.4 Bekræftende statistik: Spørgeskemaanalyser og χ 2 -test Datasæt 1 25 Søjlediagram Datasæt 1 25 Søjlediagram tæl ( ) ja sort_arbejde nej tæl ( ) Alder Sådanne sammenhænge ses endnu tydelige i et blokdiagram. Vi trækker den forklarende uafhængige variabel ind på førsteaksen og derefter den afhængige responsvariabel ind i grafrummet som en signatur, hvorved den splitter søjle- henholdsvis blokdiagrammet. Vi viser det først for sammenhængen mellem den uafhængige forklarende variabel Køn og den afhængige responsvariabel sort_arbejde Datasæt Søjlediagram Datasæt 1 Blokdiagram tæl ( ) sort_arbejde ja d Køn nej p 20% 40% 60% 80% 100% d p Køn sort_arbejde ja nej Vi ser da at der ikke er nogen klar sammenhæng mellem variablene Køn og sort_arbejde: Det er stort set den samme andel (ca. 60%), der laver sort arbejde uanset af om der er tale om piger eller drenge. Kigger vi på sammenhængen mellem alder og sort_arbejde, tegner der sig der i mod en tydelig sammenhæng Datasæt 1 14 Søjlediagram Datasæt 1 Blokdiagram Alder tæl ( ) sort_arbejde ja nej 20% 40% 60% 80% 100% Alder sort_arbejde ja nej Jo ældre eleverne bliver jo flere laver sort arbejde: For de 17-årige er det kun ca. en tredjedel, der laver sort arbejde, mens det for de 18- og 19-årige er ca. to tredjedele. 69

70 2.4 Bekræftende statistik: Spørgeskemaanalyser og χ 2 -test Bekræftende statistik: Krydstabeller og uafhængighed Vi har nu ved hjælp af metoder fra den beskrivende statistik afdækket en mulig sammenhæng mellem alder og sort arbejde, der viser sig som en tendens til at ældre eleverne laver mere sort arbejde end yngre. Men hvor troværdigt er det, at denne forskel ikke lige så godt kunne forklares som et udslag af tilfældige variationer? Vi skal med andre ord forsøge at vurdere hvor troværdig påstanden om en systematisk variation er, dvs. om forskellen er så stor at den må anses for at være statistisk signifikant. Vi har trods alt kun kigget på en mindre stikprøve. Hvis vi undersøgte hele populationen af danske gymnasieelever kunne det jo være at forskellen forsvandt og at andelen der laver sort arbejde i virkeligheden er uafhængig af alderen. Hvis vi vil bakke vores hypotese op, kommer vi ikke udenom at foretage en hypotesetest for at kunne vurdere styrken i den observerede forskel mellem andelen, der laver sort arbejde for de yngste aldersgrupper og de ældste aldersgrupper. Vi starter da med at regne lidt på sammenhængen mellem alder og sort arbejde. Det sker i form af en såkaldt krydstabel. Vi trækker derfor en beregningsboks ned i arbejdsområdet og trækker derefter de to variable Alder og sort_arbejde ind på de lodrette og vandrette felter fuldstændigt som i et grafrum inklusive at vi husker at holde SKIFT-tasten nede når vi slipper variablen Alder, så den opfattes som en kategoriseret variabel Datasæt 1 Alder ja sort_arbejde nej Søjle total R1 = tæl ( ) Række total Vi får da dels optalt hyppighederne for de enkelte krydskategorier, fx at der er 3 elever, der er 17 år gamle og har sort arbejde, dels de såkaldte marginaler i form af søjletotaler, der angiver aldersfordelingen og rækketotaler, der angiver fordelingen for sort arbejde, og endelig den samlede total, dvs. at der er 24 observationer i alt. I en vis forstand giver krydstabellen altså de samme oplysninger, som blokdiagrammet. Ud fra krydstabellen skal vi derfor kunne aflæse om der synes at være en afhængighed mellem de to variable, dvs. om fordelingen af den ene variabel ændres afgørende, hvis vi indskrænker os til en bestemt værdi af den anden variabel. Fx ser vi at blandt de 17-årige er der dobbelt så mange, der ikke har sort arbejde, mens samlet er flest, der har sort arbejde. Vi starter da med to fundamentale bemærkninger: De to variable er karakteriseret ved deres fordelinger, der står i marginalerne, dvs. den yderste række og søjle. Disse marginalfordelinger må vi ikke røre ved. Men selve fordelingen inde i krydstabellen kan varieres på mangfoldige måder, idet der er stor frihed i hvordan vi udfylder de enkelte celler inde i krydstabellen. Her er det imidlertid vigtigt at være op

71 2.4 Bekræftende statistik: Spørgeskemaanalyser og χ 2 -test mærksom på at det kun er nogle af cellerne, der giver stor frihed. Når vi fx har udfyldt den første celle i øverste venstre hjørne, så følger cellen lige nedenunder automatisk med, da summen af søjlen jo skal give 9. Udfylder vi derefter den næste celle følger resten automatisk Hvis vi fx udfylder den første celle med 2 og den anden med 10 (idet summen af de to første celler skal ligge mellem 11 og 14) fås den følgende krydstabel Vi siger derfor at den ovenstående krydstabel har 2 frihedsgrader, fordi to af cellerne kan udfyldes frit, mens værdien af resten af cellerne derefter følger automatisk, idet summerne og vandret og lodret er givet ved række og søjletotalerne. I almindelighed gælder der at en krydstabel med r rækker og s søjler har (r 1) (s 1) frihedsgrader. Den næste bemærkning er at vi forholdsvis nemt kan udfylde en ideel krydstabel under forudsætning af at de to variable er uafhængige (nulhypotesen!). Hvis antallet af elever der har sort arbejde er uafhængigt af alderen må det nemlig i hvert tilfælde udgøre 14/24 af det samlede antal. Tilsvarende må antallet af elever der aldrig har udført sort arbejde i hvert enkelt tilfælde udgøre 10/24 af det samlede antal. Da der fx er 9 elever med alderen 17 år må de derfor forventes at fordele sig med 14/24 9 der har haft sort arbejde og 10/24 9, der aldrig har haft sort arbejde. Det giver anledning til de følgende forventede antal i krydstabellen Det forventede antal under forudsætning af at de to variable i en krydstabel er uafhængige er givet ved formlen Rækketotal Søjletotal Samlet total 71

72 2.4 Bekræftende statistik: Spørgeskemaanalyser og χ 2 -test Beregningen af det forventede antal i en krydstabel er indbygget i DataMeter som en speciel funktion, der netop hedder Forventet Datasæt 1 sort_arbejde R1 = tæl ( ) R2 = Forventet ja nej Søjle total Alder Række total Dermed er vi klar til at forklare hypotesetesten, hvor vi altså skal fælde dom i en sag om to påstande: 1. Nulhypotesen H 0 hævder at de observerede variationer i antallet af sort arbejde ligeså godt kan tilskrives tilfældigheder, og at der derfor ikke er nogen grund til at tro på en sammenhæng mellem alder og sort arbejde. 2. Den alternative hypotese H a hævder modsat at der er en systematisk sammenhæng mellem sort arbejde og alder (der i dette tilfælde viser sig ved at jo ældre eleverne er, jo mere sort arbejde udfører de). Der er ikke noget fældende bevis i sagen (vi mangler 'den rygende pistol'), så afgørelsen skal alene træffes på grundlag af indicier, dvs. vi skal foretage en vurdering af hvor overbevisende forskellene mellem de observerede antal og de forventede antal egentlig er. Begge parter kan altså i princippet have ret, og det eneste vi kan gøre er at forsøge at sandsynliggøre den ene hypotese frem for den anden. Vi skal da på forhånd blive enige om to forhold: 3. Hvilket signifikansniveau vil vi lægge til grund for domfældelsen (dvs. hvor stærke skal indicierne være)? 4. Hvilken teststørrelse vil vi benytte til at afgøre sagen, dvs. hvordan vil vi kvantificere, dvs. sætte tal på den observerede mulige systematiske forskel? Signifikansniveauet: Her anvender vi det typiske niveau på 5%. Teststørrelsen: Her skal vi altså sætte tal på forskellen mellem de observerede antal og de forventede antal. Hvis nulhypotesen holder burde de observerede antal ligne de forventede antal, men i praksis, hvor vi jo kun arbejder med en beskeden stikprøve, må vi forvente nogle naturlige udsving. I dette tilfælde er de største udsving

73 2.4 Bekræftende statistik: Spørgeskemaanalyser og χ 2 -test (for 17-årige) og 2.00 (for 18-årige), mens udsvingene for de 19- årige er meget små. Er det så acceptabelt eller uacceptabelt? For at vurdere det indfører vi en teststørrelse, det såkaldte chi-kvadrat, χ 2, som udregnes ved hjælp af formlen ( ) 2 observeret antal forventet antal 2 χ = sum( ) forventet antal Desværre kan vi ikke direkte regne på tallene i en beregningsboks. Vi bruger derfor det følgende trick: Først højreklikker vi i beregningsboksen og vælger menupunktet Overfør celler til nyt datasæt. Dernæst udregner vi χ 2 -teststørrelsen ud fra det nye afledede datasæt Celler fra oversigtstabel for Datasæt 1 sort_arbejde Alder R1 R2 bidrag chi_kvadrat = ( R1 R2) sum ( bidrag) R2 1 ja ja ja nej nej nej χ 2 -testørrelsen er altså 3.77 for vores krydstabel. Er det så foruroligende stort? Her kan vi støtte os til den følgende almene regel Under forudsætning af at de to variable i en krydstabel er uafhængige er den forventede værdi for χ 2 -teststørrelsen netop givet ved antallet af frihedsgrader. I vores tilfælde er den forventede testværdi altså 2, mens den faktisk observerede testværdi er 3.77, hvilket jo er noget højere. Så den observerede krydstabel afviger mere end forventet. Men for virkeligt at kunne vurdere nulhypotesens troværdighed er vi nødt til at få en præcis vurdering af sandsynligheden for at testværdien er mindst 3.77 under forudsætning af at variablene er uafhængige. Dette kan i princippet gøres ved hjælp af komplicerede teoretiske udregninger, men vi vil i stedet finde sandsynligheden eksperimentelt ved at simulere nulhypotesen, dvs. ved at simulere uafhængigheden af de to variable Alder og sort_arbejde. Vi bryder derfor en eventuel sammenhæng mellem de to variable, ved at foretage en tilfældig ombytning (permutation), dvs. omrøring, af værdierne i den ene variabel. Der er nu ikke længere nogen sammenhæng mellem elevernes alder og deres erfaring med sort arbejde og vi kan derfor udregne χ 2 -værdien for den tilsvarende krydstabel. Vi højreklikker derfor på datasættet og vælger kommandoen Rør rundt i en variabel. Straks dukker der et afledet datasæt op med de omrørte variable 73

74 2.4 Bekræftende statistik: Spørgeskemaanalyser og χ 2 -test I første omgang omrøres den første variabel i datasættet, dvs. her variablen Køn. Men det kan vi rette ved at dobbeltklikke på det omrørte datasæt og vælge fanebladet Omrøring, hvor vi udskifter variablen Køn med variablen Alder. Derefter gentager vi omrøringen Omrøring af Datasæt 1 Køn Alder tyveri_af_cykel tyveri_fra_jævnaldrene tyveri_fra_forældre tyveri_fra_forretning sort_arbejde hærværk graffiti 1 d 18 nej nej ja ja nej ja nej 2 p 18 nej nej nej nej nej nej nej 3 p 17 nej nej nej nej ja nej nej 4 p 17 nej nej nej nej ja nej nej 5 p 18 nej nej nej nej nej nej nej 6 p 19 nej ja nej nej nej nej nej 7 p 18 nej nej nej nej nej nej nej 8 p 17 nej nej nej nej nej nej nej 9 p 18 nej ja ja nej ja nej nej 10 d 17 nej nej nej nej ja nej nej 11 d 17 nej nej ja ja ja ja nej 12 d 18 nej ja nej nej nej ja nej 13 d 18 nej nej nej nej ja nej nej 14 p 18 nej nej ja nej ja nej nej 15 p 18 nej nej nej nej ja nej nej 16 p 19 nej nej nej nej ja nej nej 17 p 18 nej ja nej nej nej nej nej 18 p 18 nej nej nej nej ja nej nej 19 p 18 nej nej nej nej ja nej nej 20 p 17 nej nej nej nej nej nej nej 21 p 17 nej nej nej nej ja ja nej 22 d 17 nej ja ja nej nej nej nej 23 d 19 nej nej nej nej ja nej nej 24 d 17 nej nej nej nej ja nej nej Til illustration danner vi også en krydstabel for Alder og sort_arbejde Omrøring af Datasæt 1 sort_arbejde R1 = tæl ( ) R2 = forventet ja nej Søjle total Alder Række total Ikke overraskende ligner de observerede antal nu de forventede antal. Denne gang ved vi jo med sikkerhed at eventuelle afvigelser udelukkende skyldes de tilfældige variationer i krydstabellen. 74

75 2.4 Bekræftende statistik: Spørgeskemaanalyser og χ 2 -test Overfører vi nu cellerne til et nyt datasæt kan vi som før udregne den tilhørende χ 2 -testværdi Celler fra oversigtstabel for Omrøring af Datasæt 1 sort_ar... Alder R1 R2 Bidrag Chi_kvadrat = ( R1 R2) sum ( Bidrag ) R2 1 ja ja ja nej nej nej Prøver man derefter at gentage omrøringen (klik i det omrørte datasæt efterfulgt af gentagne tast med CTRL-U) kan man hurtigt få en fornemmelse for hvor nemt/svært det er at frembringe en χ 2 -testværdi, der er mindst lige så stor som den observerede Det er hverken helt svært eller helt nemt. Jeg brugte for eksempel 20 forsøg på bare at finde en krydstabel, der er præcis lige så slem Celler fra oversigtstabel for Omrøring af Datasæt 1 sort_ar... Alder R1 R2 Bidrag Chi_kvadrat = ( R1 R2) sum ( Bidrag ) R2 1 ja ja ja nej nej nej Det bliver altså nødvendigt med en mere præcis vurdering af sandsynligheden for at finde en testværdi, der er mindst lige så slem for at få truffet en afgørelse. Her til skal vi udføre gentagne målinger på det omrørte datasæt. Men da det ikke er helt nemt at beregne teststørrelsen ud fra det omrørte datasæt bruger vi i stedet det afledede datasæt (med værdierne fra cellerne i krydstabellen). Vi går derfor ind og vækker datainspektøren ved at dobbeltklikke i det afledede datasæt. Derefter vælges fanebladet Målinger inde i datainspektøren for det afledede datasæt (der altså i dette meget specielle tyvende forsøg giver den samme testværdi som den observerede) Vi højreklikker derefter på det afledede datasæt og vælger menupunktet Udfør gentagne målinger. Under de fem obligatoriske målinger blafrer krydstabellen nu frem og tilbage. 75

76 2.4 Bekræftende statistik: Spørgeskemaanalyser og χ 2 -test Ved at dobbeltklikke på det afledte datasæt over målingerne kan vi nu få frembragt 1000 gentagne målinger Det tager lidt tid at få udført de 1000 omrøringer med tilhørende målinger og dermed få udregnet de 1000 χ 2 -testværdier for de tilhørende krydstabeller under antagelsen af at de to variable fra krydstabellen i virkeligheden er uafhængige (nulhypotesen). Derefter kan vi få tegnet et prikdiagram over målingerne sammen med dels 95%-fraktilen på 6.4, der afsnører det kritiske område til højre i fordelingen, dels den rent faktisk observerede testværdi på 132/35= Målinger fra Celler fra oversigtstabel for Omrøring af Datasæt 1 Prikdiagram Testværdi fraktil ( 95; testværdi) = = middel ( ) = Målinger fra Celler fra oversigtstabel for Omrøring af Datasæt R1 = tæl ( testværdi > 3.77)

77 2.4 Bekræftende statistik: Spørgeskemaanalyser og χ 2 -test Prikdiagrammet viser klart, hvor nemt det faktisk er at frembringe en testværdi, der er mindst lige så stor som den observerede værdi på Vi skal faktisk op på en testværdi, der er mindst 6.4, for at resultatet er statistisk signifikant og den alternative hypotese dermed troværdig. Vi kan også som vist få udregnet den tilnærmede (eksperimentelle) sandsynlighed for at få en forskel, der er mindst lige så skæv som den observerede. I DataMeter kan det fx gøres ved at trække datasættet for de gentagne målinger ind i en beregningsboks og derefter tælle, hvor mange målinger der er mindst lige så skæve ved hjælp af den viste formel. Det viser sig da at der er 195 ud af 1000 målinger, der ligger lige så langt eller længere ude, så sandsynligheden for at den observerede forskel kan tilskrives rene tilfældigheder er altså helt oppe på 19.5%. Når jeg måtte bruge 20 forsøg var det altså rent og skært uheld! Dermed tabte vi retssagen. Selv om vi har observeret en tydelig tendens i stikprøven til at det sorte arbejde er mest udbredt blandt de elever, der allerede er fyldt 18 år, kan vi altså ikke generalisere vores hypotese, dvs. udvide den til hele populationen af danske gymnasieelever. Den observerede forskel er ganske enkelt ikke statistisk signifikant, dvs. den er ikke stor nok. Det betyder selvfølgelig ikke at påstanden er helt forkert, men vores undersøgelse kan bare ikke bruges som dokumentation for påstanden, hvor rimelig den end måtte synes fra et samfundsfagligt synspunkt (der gælder fx helt forskellige lønningsregler for unge under 18 år og unge over 18 år, hvorfor mange unge gymnasieelever mister deres fritidsjob når de fylder 18...). Hvad kunne der nu være forkert ved undersøgelsen? Det alvorligste problem er nok stikprøvens størrelse. Den er ikke særligt stor og det gør det svært at finde en signifikant forskel. Hvis vi bare kunne rykke én elev blandt de 17-årige fra gruppen med sort arbejde til gruppen uden sort arbejde (og tilsvarende omplacere én elev blandt de 19- årige for at bevare marginalfordelingerne) havde resultatet være signifikant. Hvad kunne vi så have gjort bedre? Først og fremmest bør vi skaffe os selv en større stikprøve ved at inddrage flere klasser. Hvis vi fx forestillede os at vi havde spurgt dobbelt så mange elever, dvs. 48, og at forholdene mellem dem der har sort arbejde, og dem der er uden sort arbejde i øvrigt var uændrede (dvs. vi fordobler alle hyppighederne), ville vi have frembragt en krydstabel med den dobbelte testværdi, dvs. χ 2 = 7.543, men antallet af frihedsgrader ville stadig kun være 2. Resultatet ville derfor denne gang være klart signifikant. Hvis man ønsker at dokumentere en hypotese ved en spørgeskemaundersøgelse skal man altså sørge for at dimensionere den passende! Vi slutter med en generel bemærkning om den χ 2 -test vi her har udført. Udover den observerede testværdi og 95%-fraktilen har vi også afsat den eksperimentelle middelværdi som viser sig at være 2.2. Den ligger netop rimeligt tæt på antallet af frihedsgrader. 77

78 2.4 Bekræftende statistik: Spørgeskemaanalyser og χ 2 -test Teknisk bemærkning: Kanonisk χ 2 -test I praksis benytter man sig ofte af en såkaldt kanonisk χ 2 -test. Vi viser nu hvordan det gøres i DataMeter, så man kan sammenligne med den ovenstående undersøgelse. Vi trækker derfor et testværktøj ned i arbejdsområdet og vælger en Test af uafhængighed Stikprøveresultater Test af uafhængighed Første variabel (kategoriseret): Ikke tildelt Anden variabel (kategoriseret): Ikke tildelt Første variabel Anden variabel Første variabel: Første variabel Antal kategorier: 0 Anden variabel: Anden variabel Antal kategorier: 0 Alternativ hypotese: Der er en sammenhæng mellem Første variabel og Anden variabel Teststørrelsen, chi-i-anden, er #Fejl i beregningen#. Der er 0 frihedsgrader (antallet af rækker minus én ganget med antallet af søjler minus én). Hvis det var sandt at Første variabel var uafhængig af Anden variabel (nulhypotesen), og stikprøven blev gentaget mange gange, så ville sandsynligheden for at få en værdi for chi-i-anden, der var mindst lige så stor være #Fejl i beregningen#. Tallene i parentes i tabellen er de forventede antal. Testværktøjerne i DataMeter kan nu anvendes på to forskellige måder: Hvis vi har et datasæt med de rå data til rådighed kan vi blot trække de relevante variable ind i værktøjet, hvorefter DataMeter selv foretager de relevante udregninger. Ellers kan vi nøjes med at indsætte forskellige nøgletal for de to variable, hvis disse fx foreligger i en artikel eller en eksamensopgave, hvorefter DataMeter foretager de resterende udregninger. I vores tilfælde har vi netop de rå data til rådighed og trækker derfor Alder ind som den første kategoriserede variabel og sort_arbejde ind som den anden kategoriserede variabel. DataMeter udregner da selv den relevante krydstabel og sammenholder den med de forventede antal, ligesom χ 2 -testværdien udregnes 78

79 2.4 Bekræftende statistik: Spørgeskemaanalyser og χ 2 -test Test fra Datasæt 1 Første variabel (kategoriseret): Alder Anden variabel (kategoriseret): sort_arbejde Alder ja 3 (5.2) 9 (7.0) 2 (1.8) sort_arbejde nej 6 (3.8) 3 (5.0) 1 (1.2) Søjle total Første variabel: Alder Antal kategorier: 3 Anden variabel: sort_arbejde Antal kategorier: 2 Række total Test af uafhængighed Advarsel: 3 ud af 6 celler har forventede værdier som er mindre end 5. Alternativ hypotese: Der er en sammenhæng mellem Alder og sort_arbejde Teststørrelsen, chi-i-anden, er Der er 2 frihedsgrader (antallet af rækker minus én ganget med antallet af søjler minus én). Hvis det var sandt at Alder var uafhængig af sort_arbejde (nulhypotesen), og stikprøven blev gentaget mange gange, så ville sandsynligheden for at få en værdi for chi-i-anden, der var mindst lige så stor være Tallene i parentes i tabellen er de forventede antal. Vi får da en vrimmel af oplysninger, men langt den vigtigste er den sidste, der netop fortæller at sandsynligheden for at få en testværdi, der er mindst lige så stor som den faktisk observerede under forudsætning af at de to variable i virkeligheden er uafhængige (nulhypotesen, dvs. den observerede forskel skyldes alene tilfældige variationer) er helt oppe på 0.15, dvs. 15%. Da det ligger langt over signifikansniveauet på 5% er den observerede forskel altså ikke statistisk signifikant, i overensstemmelse med konklusionen i vores egen undersøgelse. Læg dog mærke til advarslen: 3 ud af 6 celler har forventede værdier som er mindre end 5. Testværktøjet benytter sig af en tilnærmet udregning af sandsynligheden, der er mest troværdig hvis alle de forventede værdier er mindst 5! Vi kan også få vist en graf med det kritiske område som støtte for fortolkningen. Det sværtede område ude til højre har da netop arealet 15%. Men for at forstå testværktøjet fuldt ud skal man altså dels have et indgående kendskab til den teoretiske fordeling af teststørrelsen, der kun afhænger af antallet af frihedsgrader, dels være opmærksom på at der skal være en række forudsætninger Test fra Datasæt Funktionsgraf chi-i-anden y = chitæthed ( x ; frihedsgrader ) opfyldt før man kan drage troværdige konklusioner af testen, forudsætninger som vi slet ikke har mulighed for at gøre rede for inden for rammerne af denne fremstilling. 79

80 Indeks χ² (chi-kvadrat) 73 afviger 13 alternativ hypotese Ha 58, 72 atypisk observation 13 bimodal 28 blokdiagram 67, 69 boksplot 11, 13 bootstrap 38, 46, Challengerulykken chi-kvadrat (χ²) 73 confirmatory data analysis 37 CTRL < (ulighedstegn ) 47 CTRL = (forskellig fra ) 15 CTRL-U (gentag simulering) 43, 48, 61, 75 de fem nøgletal 13 dublet (SKIFT-CTRL-D) 34 enheder 8-9 exploratory data analysis 37 FCK fejl af første art 58 fempunkts-oversigten 16 filter 15 form (fordeling) 17, 20, 22 forrige() 37 forskellig fra (CTRL =) 15 forventet antal (krydstabel) Forventet 72 fraktildefinition 25 fraktil fraktil() 26 fraktilplot frekvens 30 frihedsgrader (krydstabel) 71 første kvartil Q1 12 gentagne målinger 37, 62, 75 grundantagelsen for grupperede data 29 grupperede observationer gråzonekriminalitet H0 nulhypotese 58, 72 Ha alternativ hypotese 58, 72 hegn for boksplot 14 histogram 9, 10-11, 30, 32 hypotesetest 58, 70 hyppighed 29 højreskæv 10 indeks 8, 27 intervalbredde 10, 32 intervalstart for histogram 10 kanonisk χ²-test kanonisk skøn for en andel 51 kanonisk t-test kategoriserede variable 8, 9, 30 kontrolgruppe 41, 42 krydstabel 70 kumuleret frekvens kvartil 12, 13, 28 kvartilbredde 13, 17, 35 kvartildefinition 12 kvartiler (aflæst fra sumkurve) kvartilsæt kvartilsæt (grupperede observationer) 35 linjeplot 56 Lås data i grafvindue 15 maksimum 11, 35 median 11, 23, 28 median (aflæst fra sumkurve) 35 median() 14 mediandefinition 12 middel() 14 middelværdi (grupperede observationer) 37 middelværdi 14 minimum 11, 35 måling 43, 48 niveau (fordeling) 17, 20, 22 nulhypotese H0 43, 58, 62, 72 numeriske variable 8,9 observeret antal 72 ombyt() 46 omrøring af variable 37, 38, 58, 59, 60 opinionsundersøgelse 46 ordinære observationer 35 perifer observation 13 placebo 41 Plot funktion 34 Plot værdi 14, 61 population (definition) 40 prikdiagram 9-10 Q1 første kvartil 12 Q3 tredje kvartil 12 Rayleigh og densiteten for kvælstof relativ kvartilbredde 22 repræsentativ stikprøve 40, 66 retssagsmetafor 58 robust (median) 14 rækketotal 70 Rør rundt i en variabel 60, 73 samlet total 70 signifikans 58, 70 signifikansniveau 51, 58, 59, 72 simulere nulhypotese 59, 73 simulere tilfældighed 38, 43 simulering af opinionsundersøgelse SKIFT-CTRL-D (dublet) 34 skjult variabel 18 sort arbejde Sortér variabel 11 spredning 17, 20, 22 spørgeskemaanalyse 20-22, stakket prikdiagram 10 statistisk signifikans 77 statistisk variabelkontrol 41, 42, 61 stikprøve (definition) 40 stikprøve 66 stokastisk uafhængig 59 studiegruppe 41, 42 sum() 37 sumkurve (grupperede data) summeret frekvens 31 systematisk variation 37 søjlediagram (grupperede data) 30-31, 32 søjlediagram (kategoriseret variabel) 67 søjletotal 70 talvariabel 8 tekstvariable 8 test af to middelværdier 54 test af uafhængighed 78 teststørrelse (hypotesetest) 58, 59, 72 testværdi (ombytfunktion) 48 Thulesagen tilbagelægning (stikprøve) 52 tilfældig variation 37 tilfældig() 43, 47 tilfældighedsgenerator 38, 46 Tilføj nye data 46 topuklet (fordeling) 28 tredje kvartil Q3 12 troværdig 58, 70 Tukey 13 Tukeys regel 14, 35 Tuleys hegn 14 tyngdeacceleration typeinterval 11 typetal 16 tæl() 31 tæthed 28 uafhængighed 58 Udfør gentagne målinger 48, 62, 75 Udtag stikprøve 52 udvidet kvartilsæt (grupperede observationer) 35 udvidet kvartilsæt 13 ulighedstegn (CTRL <) 47 unges fritidsvaner usikkerhedsinterval 49 variabelkontrol 41, 42, 61 variationsbredde 17 Vis enheder 9 vægtet gennemsnit (s. 37) ØMU (Økonomisk Monetær Union) 4

Statistik med TI-Nspire CAS (Til version 1.6)

Statistik med TI-Nspire CAS (Til version 1.6) Statistik med TI-Nspire CAS (Til version 1.6) Af Bjørn Felsager 2008 Indhold Forord... 4 1 Beskrivende statistik... 5 1.1 Grundlæggende TI-Nspire-teknikker... 5 Velkommen til TI-Nspire... 5 Oprettelse

Læs mere

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave]

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave] Statistik med TI-Nspire CAS version 3.2 Bjørn Felsager September 2012 [Fjerde udgave] Indholdsfortegnelse Forord Beskrivende statistik 1 Grundlæggende TI-Nspire CAS-teknikker... 4 1.2 Lister og regneark...

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

Deskriptiv statistik for matc i stx og hf

Deskriptiv statistik for matc i stx og hf Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

for gymnasiet og hf 2017 Karsten Juul

for gymnasiet og hf 2017 Karsten Juul for gymnasiet og hf 75 50 5 017 Karsten Juul Statistik for gymnasiet og hf 017 Karsten Juul 5/11-017 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm Hæftet må benyttes i undervisningen

Læs mere

Taldata 1. Chancer gennem eksperimenter

Taldata 1. Chancer gennem eksperimenter Taldata 1. Chancer gennem eksperimenter Indhold 1. Kast med to terninger 2. Et pindediagram 3. Sumtabel 4. Median og kvartiler 5. Et trappediagram 6. Gennemsnit 7. En statistik 8. Anvendelse af edb 9.

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

I. Deskriptiv analyse af kroppens proportioner

I. Deskriptiv analyse af kroppens proportioner Projektet er delt i to, og man kan vælge kun at gennemføre den ene del. Man kan vælge selv at frembringe data, fx gennem et samarbejde med idræt eller biologi, eller man kan anvende de foreliggende data,

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

Statistik. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer.

Statistik. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer. Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) Projekt 2.4 Menneskets proportioner (Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) I. Deskriptiv analyse

Læs mere

brikkerne til regning & matematik statistik preben bernitt

brikkerne til regning & matematik statistik preben bernitt brikkerne til regning & matematik statistik 2+ preben bernitt brikkerne til regning & matematik statistik 2+ 1. udgave som E-bog ISBN: 978-87-92488-33-6 2009 by bernitt-matematik.dk Kopiering af denne

Læs mere

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS INDHOLD 2 Formål 2 LOPAKS 3 Begreber 6 Eksempler 6. december 2010 LOPAKS er nu udvidet med en ny tabel, der giver mulighed for at opgøre lønspredning på

Læs mere

Statistik (deskriptiv)

Statistik (deskriptiv) Statistik (deskriptiv) Ikke-grupperede data For at behandle ikke-grupperede data i TI, skal data tastes ind i en liste. Dette kan gøres ved brug af List, hvis ikon er nr. 5 fra venstre på værktøjsbjælken

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Deskriptiv statistik. for C-niveau i hf. 2015 Karsten Juul

Deskriptiv statistik. for C-niveau i hf. 2015 Karsten Juul Deskriptiv statistik for C-niveau i hf 75 50 25 2015 Karsten Juul DESKRIPTIV STATISTIK 1.1 Hvad er deskriptiv statistik?...1 1.2 Hvad er grupperede og ugrupperede data?...1 1.21 Eksempel pä ugrupperede

Læs mere

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau)

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau) Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter En sumkurve fremkommer ifølge definitionen, ved at vi forbinder en række punkter afsat i et koordinatsystem med rette

Læs mere

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal.

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal. Statistik Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal. Derved får man et samlet overblik over talmaterialet, og man kan konkludere

Læs mere

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF Tusind kugler Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF I en nyligt udkommen ungdomsroman om en ung svensk gymnasiepiges fortrædeligheder bruges et kuglespil ('galtonbræt') som en

Læs mere

Statistik med TI-Nspire CAS version 2.1

Statistik med TI-Nspire CAS version 2.1 Statistik med TI-Nspire CAS version 2.1 Bjørn Felsager August 2010 Indhold Forord... 4 Beskrivende statistik 1 Grundlæggende TI-Nspire CAS-teknikker... 5 1.1 Velkommen til TI-Nspire CAS... 5 1.2 Lister

Læs mere

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF Sammenligning af to måleserier En af de mest grundlæggende problemstillinger i statistik består i at undersøge om to forskellige måleserier er signifikant forskellige eller om forskellen på de to serier

Læs mere

Grupperede observationssæt Deskriptiv statistik: Middelværdi, frekvensfordeling, sumkurve, kvartilsæt, boxplot

Grupperede observationssæt Deskriptiv statistik: Middelværdi, frekvensfordeling, sumkurve, kvartilsæt, boxplot Grupperede datasæt: Middelværdi, intervalfrekvens og kumuleret frekvens. Bilbestandens alder i 2005 fremgår af følgende tabel. Alder i år ]0;4] ]4;8] ]8;12] ]12;16] ]16;20] ]20;24] Antal i tusinde 401

Læs mere

QR15 Vejledning i at bestemme kvartilsæt og at tegne sumkurver med Nspire, Maple og Geogebra

QR15 Vejledning i at bestemme kvartilsæt og at tegne sumkurver med Nspire, Maple og Geogebra QR15 Vejledning i at bestemme kvartilsæt og at tegne sumkurver med Nspire, Maple og Geogebra Nspire: Vi har et datasæt. Der er overordnet to metoder til at tegne sumkurver i programmet, og vi beskriver

Læs mere

Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå.

Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå. Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå. Hvis man fx samler de karakterer, der er givet til en eksamen i én stor bunke (se herunder), kan det være svært

Læs mere

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Baggrund: I de senere år har en del gymnasieskoler eksperimenteret med HOT-programmet i matematik og fysik, hvor HOT står for Higher

Læs mere

Nogle emner fra. Deskriptiv Statistik. 2011 Karsten Juul

Nogle emner fra. Deskriptiv Statistik. 2011 Karsten Juul Nogle emner fra Deskriptiv Statistik 75 50 25 2011 Karsten Juul Indhold Hvad er deskriptiv statistik?... 1 UGRUPPEREDE OBSERVATIONER Hyppigheder... 1 Det samlede antal observationer... 1 Middeltallet...

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Noter til Statistik. Lisbeth Tavs Gregersen. 1. udgave

Noter til Statistik. Lisbeth Tavs Gregersen. 1. udgave Noter til Statistik Lisbeth Tavs Gregersen 1. udgave 1 Indhold 1 Intro 3 1.1 HF Bekendtgørelsen........................ 3 1.2 Deskriptiv statistik......................... 3 2 Ikke-grupperet Talmateriale

Læs mere

Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k

Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k Statistik 5 Statistik er en meget omfattende matematisk disciplin, og den anvendes i meget stor udstrækning i vores moderne samfund. Den handler om at analysere et (ofte meget stort) talmateriale. Det

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.

Læs mere

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet Projekt 1 Spørgeskemaanalyse af Bedst på Nettet D.29/2 2012 Udarbejdet af: Katrine Ahle Warming Nielsen Jannie Jeppesen Schmøde Sara Lorenzen A) Kritik af spørgeskema Set ud fra en kritisk vinkel af spørgeskemaet

Læs mere

Deskriptiv statistik (grupperede observationer)

Deskriptiv statistik (grupperede observationer) Deskriptiv statistik (grupperede observationer) Tallene er hentet fra Arbejdsbog B1 (2.udg.) eller Arbejdsbog B2, øvelse 408: Der åbnes et Lister og Regneark værksted og observationerne indtastes og navngives:

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime 5. Statistik Hayati Balo,AAMS Følgende fremstilling er baseret på 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime 1. Ugrupperede Observationer Hvis der foreligger et antal målinger eller observationer

Læs mere

Seriediagrammer - Guide til konstruktion i LibreOffice Calc

Seriediagrammer - Guide til konstruktion i LibreOffice Calc Seriediagrammer - Guide til konstruktion i LibreOffice Calc På forbedringsvejlederuddannelsen anvender vi seriediagrammer til at skelne mellem tilfældig og ikketilfældig variation. Med et seriediagram

Læs mere

statistik og sandsynlighed

statistik og sandsynlighed brikkerne til regning & matematik statistik og sandsynlighed trin 2 preben bernitt brikkerne statistik og sandsynlighed 2 1. udgave som E-bog ISBN: 978-87-92488-20-6 2004 by bernitt-matematik.dk Kopiering

Læs mere

for matematik pä B-niveau i hf

for matematik pä B-niveau i hf for matematik pä B-niveau i hf 75 50 5 016 Karsten Juul GRUPPEREDE DATA 1.1 Hvad er deskriptiv statistik?...1 1. Hvad er grupperede og ugrupperede data?...1 1.1 Eksempel pä ugrupperede data...1 1. Eksempel

Læs mere

Analyse af en lineær regression med lav R 2 -værdi

Analyse af en lineær regression med lav R 2 -værdi Analyse af en lineær regression med lav R 2 -værdi Denne gennemgang omhandler figur 13 i Regn med biologi. Man kan sagtens lave beregninger på egne data. Forsøgsmæssigt kræver det bare en tommestok tapet

Læs mere

Statistik med Boxplot

Statistik med Boxplot 11 Statistik med Boxplot Til dette afsnit skal du benytte Stats-List Editoren (SL-editoren). Har du ikke denne applikation installeret, så hent den på TI's hjemmeside. Nøgletal Boxplot bygger på en undersøgelse

Læs mere

Statistik - supplerende eksempler

Statistik - supplerende eksempler - supplerende eksempler Grupperede observationer: Middelværdi og summeret frekv... 82b Indekstal... 82c Median, kvartil, boksplot... 82e Sumkurver... 82h Side 82a Grupperede observationer: Middelværdi

Læs mere

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres) Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres) Til Gribskovløbet 006 gennemførte 118 kvinder 1,4 km distancen. Fordelingen af kvindernes løbstider

Læs mere

Hvad siger statistikken?

Hvad siger statistikken? Eleverne har tidligere (fx i Kolorit 7, matematik grundbog) arbejdet med især beskrivende statistik (deskriptiv statistik). I dette kapitel fokuseres i højere grad på, hvordan datamateriale kan tolkes

Læs mere

Løsninger til kapitel 1

Løsninger til kapitel 1 Opgave. a) observation hyppighed frekvens kum. frekvens 2,25,25 3,875,325 2 3,875,5 3 3,875,6875 4,625,75 5,625,825 6,,825 7 2,25,9375 8,,9375 9,625, Frekvenser illustreres i et pindediagram,2,8,6,4,2,,8,6,4,2

Læs mere

Ved et folketingsvalg eller en folkeafstemning spørger man alle stemmeberettigede, og kun en del af dem stemmer.

Ved et folketingsvalg eller en folkeafstemning spørger man alle stemmeberettigede, og kun en del af dem stemmer. Matematik C (må anvendes på Ørestad Gymnasium) Statistik Statistik er bearbejdning af talmaterialer, der ofte indeholderstore mængder af tal. De indsamles og registreres i mange forskellige sammenhænge

Læs mere

Matematik og samfundsfag Gini-koefficienten

Matematik og samfundsfag Gini-koefficienten Erik Vestergaard www.matematikfysik.dk Matematik og samfundsfag Gini-koefficienten Den såkaldte Gini-koefficient, introduceret i 92 i en artikel af den italienske statistiker, demograf og sociolog Corrado

Læs mere

Grupperet materiale kan f.eks. være befolkningsdata eller indkomstfordelinger.

Grupperet materiale kan f.eks. være befolkningsdata eller indkomstfordelinger. Thomas Jensen & Morten Overgård Nielsen At bestemme kvartilsæt Indhold - At finde kvartilsæt i ikke-grupperet datamateriale (link til dokumentet her) - At bestemme kvartilsæt ved hjælp af Excel (link til

Læs mere

Huskeliste Printark. U4 Tastetider U5 Hvor hurtigt regner du? E4 Begreber og fagord - Statistik. Materialer. Mobiltelefon Stopur

Huskeliste Printark. U4 Tastetider U5 Hvor hurtigt regner du? E4 Begreber og fagord - Statistik. Materialer. Mobiltelefon Stopur Statistik - Lærervejledning Om kapitlet I dette kapitel om statistik skal eleverne arbejde med statistik og lære at indsamle, beskrive, bearbejde og præsentere store mængder af tal og data. I kapitlet

Læs mere

Grupperede observationer

Grupperede observationer Grupperede observationer Tallene i den følgende tabel viser antallet af personer på Læsø 1.januar 2012, opdelt i 10-års intervaller. alder antal 0 131 10 181 20 66 30 139 40 251 50 318 60 421 70 246 80

Læs mere

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab

Læs mere

Lektion 9s Statistik - supplerende eksempler

Lektion 9s Statistik - supplerende eksempler Lektion 9s Statistik - supplerende eksempler Middelværdi for grupperede observationer... Summeret frekvens og sumkurver... Indekstal... Lektion 9s Side 1 Grupperede observationer Hvis man stiller et spørgsmål,

Læs mere

Vejledning i brug af Gym-pakken til Maple

Vejledning i brug af Gym-pakken til Maple Vejledning i brug af Gym-pakken til Maple Gym-pakken vil automatisk være installeret på din pc eller mac, hvis du benytter cd'en Maple 16 - Til danske Gymnasier eller en af de tilsvarende installere. Det

Læs mere

Graph brugermanual til matematik C

Graph brugermanual til matematik C Graph brugermanual til matematik C Forord Efterfølgende er en guide til programmet GRAPH. Programmet kan downloades gratis fra nettet og gemmes på computeren/et usb-stik. Det betyder, det også kan anvendes

Læs mere

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012 MATEMATIK A-NIVEAU Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012 Kapitel 4 Statistik & sandsynlighedsregning 2016 MATEMATIK A-NIVEAU Vejledende eksempler på eksamensopgaver

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014 Vejledning til udvalgte opgave fra Matematik B, sommer 2014 Opgave 7 Størrelsen og udbudsprisen på 100 fritidshuse på Rømø er indsamlet via boligsiden.dk. a) Grafisk præsentation, der beskriver fordelingen

Læs mere

Mini AT-forløb om kommunalvalg: Mandatfordeling og Retfærdighed 1.x og 1.y 2009 ved Ringsted Gymnasium MANDATFORDELING

Mini AT-forløb om kommunalvalg: Mandatfordeling og Retfærdighed 1.x og 1.y 2009 ved Ringsted Gymnasium MANDATFORDELING MANDATFORDELING Dette materiale er lavet som supplement til Erik Vestergaards hjemmeside om samme emne. 1 http://www.matematiksider.dk/mandatfordelinger.html I dette materiale er en række øvelser der knytter

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe

Læs mere

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0 BAndengradspolynomier Et polynomium er en funktion på formen f ( ) = an + an + a+ a, hvor ai R kaldes polynomiets koefficienter. Graden af et polynomium er lig med den højeste potens af, for hvilket den

Læs mere

Matematik i Word. En manual til elever og andet godtfolk. Indhold med hurtig-links. Kom godt i gang med Word Matematik. At regne i Word Matematik

Matematik i Word. En manual til elever og andet godtfolk. Indhold med hurtig-links. Kom godt i gang med Word Matematik. At regne i Word Matematik Matematik i Word En manual til elever og andet godtfolk. Indhold med hurtig-links Kom godt i gang med Word Matematik At regne i Word Matematik Kom godt i gang med WordMat Opsætning, redigering og kommunikationsværdi

Læs mere

Dig og din puls Lærervejleding

Dig og din puls Lærervejleding Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet

Læs mere

Median, kvartiler, boksplot og sumkurver

Median, kvartiler, boksplot og sumkurver Median, kvartiler, boksplot og sumkurver Median, kvartil, boksplot og sumkurver... 2 Opgaver... 7 Side 1 Median, kvartil, boksplot og sumkurver Medianen er det midterste af en række tal, der er skrevet

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Residualer i grundforløbet

Residualer i grundforløbet Erik Vestergaard www.matematikfysik.dk 1 Residualer i grundforløbet I dette lille tillæg til grundforløbet, skal vi kigge på begreberne residualer, residualplot samt residualspredning. Vi vil se, hvad

Læs mere

bernitt-matematik.dk Fjordvej Holbæk

bernitt-matematik.dk Fjordvej Holbæk statistik basis+g 1 brikkerne statistik G 1. udgave som E-bog ISBN: 978-87-92488-19-0 2004 by bernitt-matematik.dk Kopiering af denne bog er kun tilladt efter aftale med bernitt-matematik.dk Læs nærmere

Læs mere

Kapitel 3 Lineære sammenhænge

Kapitel 3 Lineære sammenhænge Matematik C (må anvendes på Ørestad Gymnasium) Lineære sammenhænge Det sker tit, at man har flere variable, der beskriver en situation, og at der en sammenhæng mellem de variable. Enhver formel er faktisk

Læs mere

Vejledning i at tegne boksplot i Excel 2007

Vejledning i at tegne boksplot i Excel 2007 Vejledning i at tegne boksplot i Excel 2007 Indhold Tegning af boksplot. Man kan ikke tegne flere boksplot på samme figur i Excel 2007, men man kan sammenligne to boksplot ved at tegne dem hver for sig

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Potensfunktioner samt proportional og omvent proportional. for hf Karsten Juul

Potensfunktioner samt proportional og omvent proportional. for hf Karsten Juul Potensfunktioner samt proportional og omvent proportional for hf 2018 Karsten Juul Potensfunktion 1. Oplæg til forskrift for potensfunktion...1 2. Forskrift for potensfunktion...2 3. Udregn x eller y i

Læs mere

Lineære sammenhænge. Udgave 2. 2009 Karsten Juul

Lineære sammenhænge. Udgave 2. 2009 Karsten Juul Lineære sammenhænge Udgave 2 y = 0,5x 2,5 2009 Karsten Juul Dette hæfte er en fortsættelse af hæftet "Variabelsammenhænge, 2. udgave 2009". Indhold 1. Lineære sammenhænge, ligning og graf... 1 2. Lineær

Læs mere

Introduktion til SPSS

Introduktion til SPSS Introduktion til SPSS Øvelserne på dette statistikkursus skal gennemføres ved hjælp af det såkaldte SPSS program. Det er erfaringsmæssigt sådan, at man i forbindelse af øvelserne på statistikkurser bruger

Læs mere

9 Statistik og sandsynlighed

9 Statistik og sandsynlighed 9 Statistik og sandsynlighed Faglige mål Kapitlet Statistik og sandsynlighed tager udgangspunkt i følgende faglige mål: Enkeltobservationer: kunne skabe overblik over statistisk materiale og anvende udvalgte

Læs mere

How to do in rows and columns 8

How to do in rows and columns 8 INTRODUKTION TIL REGNEARK Denne artikel handler generelt om, hvad regneark egentlig er, og hvordan det bruges på et principielt plan. Indholdet bør derfor kunne anvendes uden hensyn til, hvilken version

Læs mere

SPAM-mails. ERFA & Søren Noah s A4-Ark 2010. Køber varer via spam-mails. Læser spam-mails. Modtager over 40 spam-mails pr. dag. Modtager spam hver dag

SPAM-mails. ERFA & Søren Noah s A4-Ark 2010. Køber varer via spam-mails. Læser spam-mails. Modtager over 40 spam-mails pr. dag. Modtager spam hver dag SPAM-mails Køber varer via spam-mails Læser spam-mails Modtager over 40 spam-mails pr. dag Modtager spam hver dag 0 10 20 30 40 50 60 70 80 90 ERFA & Søren Noah s A4-Ark 2010 Datapræsentation: lav flotte

Læs mere

Talrækker. Aktivitet Emne Klassetrin Side

Talrækker. Aktivitet Emne Klassetrin Side VisiRegn ideer 3 Talrækker Inge B. Larsen [email protected] INFA juli 2001 Indhold: Aktivitet Emne Klassetrin Side Vejledning til Talrækker 2-4 Elevaktiviteter til Talrækker 3.1 Talrækker (1) M-Æ 5-9 3.2 Hanoi-spillet

Læs mere

Lineære sammenhænge, residualplot og regression

Lineære sammenhænge, residualplot og regression Lineære sammenhænge, residualplot og regression Opgave 1: Er der en bagvedliggende lineær sammenhæng? I mange sammenhænge indsamler man data som man ønsker at undersøge og afdække eventuelle sammenhænge

Læs mere

Projektopgave Observationer af stjerneskælv

Projektopgave Observationer af stjerneskælv Projektopgave Observationer af stjerneskælv Af: Mathias Brønd Christensen (20073504), Kristian Jerslev (20072494), Kristian Mads Egeris Nielsen (20072868) Indhold Formål...3 Teori...3 Hvorfor opstår der

Læs mere

Deskriptiv statistik ud fra berømte måleserier

Deskriptiv statistik ud fra berømte måleserier Deskriptiv statistik ud fra berømte måleserier Newcombes måling af lysets hastighed 1 Newcombe arbejdede sammen med Michelson i slutningen af forrige århundrede og indførte nye teknikker til målingen af

Læs mere

En lille introduktion til WordMat og statistik.

En lille introduktion til WordMat og statistik. En lille introduktion til WordMat og statistik. WordMat er et gratis program som kan arbejde sammen med word 2007 og 2010. Man kan downloade programmet fra nettet. Se hvordan på linket: http://www.youtube.com/watch?v=rqsn8aakb-a

Læs mere

Excel regneark. I dette kapitel skal I arbejde med noget af det, Excel regneark kan bruges til. INTRO EXCEL REGNEARK

Excel regneark. I dette kapitel skal I arbejde med noget af det, Excel regneark kan bruges til. INTRO EXCEL REGNEARK Excel regneark Et regneark er et computerprogram, der bl.a. kan regne, tegne grafer og lave diagrammer. Regnearket kan bruges i mange forskellige sammenhænge, når I arbejder med matematik. Det kan gøre

Læs mere

Deskriptiv statistik

Deskriptiv statistik Deskriptiv statistik Billedet Collage (IM) med hjælp fra Danmarks Statistik, Volsted Plantage Jagtkonsortium og Kriminalforsorgen Version 1.7 incl. Sandsynlighed 16-3-2009 Editeret 18-1-2012 og 6-2-2012

Læs mere

Årsplan matematik 5. klasse. Kapitel 1: Godt i gang

Årsplan matematik 5. klasse. Kapitel 1: Godt i gang Årsplan matematik 5. klasse Kapitel : Godt i gang I bogens første kapitel får eleverne mulighed for at repetere det faglige stof, som de arbejdede med i 4. klasse. Kapitlet er udformet som en storyline

Læs mere

Et CAS program til Word.

Et CAS program til Word. Et CAS program til Word. 1 WordMat WordMat er et CAS-program (computer algebra system) som man kan downloade gratis fra hjemmesiden www.eduap.com/wordmat/. Programmet fungerer kun i Word 2007 og 2010.

Læs mere

Supplerende opgaver til TRIP s matematiske GRUNDBOG. Forlaget TRIP. Opgaverne må frit benyttes i undervisningen.

Supplerende opgaver til TRIP s matematiske GRUNDBOG. Forlaget TRIP. Opgaverne må frit benyttes i undervisningen. 48-50. Side 1 af 7 Statistik og sandsynlighedsregning ( 48-50) Opgaverne med svar starter på side 5, og deres numre har et s efter nummeret. Deres nummerering starter forfra. Svarene står fra side 6 med

Læs mere

T A L K U N N E N. Datasæt i samspil. Krydstabeller Grafer Mærketal. INFA Matematik - 1999. Allan C

T A L K U N N E N. Datasæt i samspil. Krydstabeller Grafer Mærketal. INFA Matematik - 1999. Allan C T A L K U N N E N 3 Allan C Allan C.. Malmberg Datasæt i samspil Krydstabeller Grafer Mærketal INFA-Matematik: Informatik i matematikundervisningen Et delprojekt under INFA: Informatik i skolens fag Et

Læs mere

Gør det selv-øvelser udi regneark for begyndere! - en manual fra Skolekonsulenterne.dk

Gør det selv-øvelser udi regneark for begyndere! - en manual fra Skolekonsulenterne.dk Gør det selv-øvelser udi regneark for begyndere! - en manual fra Skolekonsulenterne.dk Versionsdato: August 2009 Indholdsfortegnelse Generelt om manualer fra Skolekonsulenterne.dk...3 Hvad er et regneark?...4

Læs mere

Projekt 1.4 Tagrendeproblemet en instruktiv øvelse i modellering med IT.

Projekt 1.4 Tagrendeproblemet en instruktiv øvelse i modellering med IT. Projekt 1.4 Tagrendeproblemet en instruktiv øvelse i modellering med IT. Projektet kan bl.a. anvendes til et forløb, hvor en af målsætningerne er at lære om samspillet mellem værktøjsprogrammernes geometriske

Læs mere

Excel tutorial om lineær regression

Excel tutorial om lineær regression Excel tutorial om lineær regression I denne tutorial skal du lære at foretage lineær regression i Microsoft Excel 2007. Det forudsættes, at læseren har været igennem det indledende om lineære funktioner.

Læs mere

Bjørn Felsager Seks guidede ture med DataMeter

Bjørn Felsager Seks guidede ture med DataMeter Bjørn Felsager Seks guidede ture med DataMeter DataMeter 1_0 September 2005 Seks guidede ture med DataMeter Indholdsfortegnelse Forord Eksempel 1: Kasseproblemet side 1 1. Problembeskrivelsen side 1 2.

Læs mere

Excel tutorial om indekstal og samfundsfag 2008

Excel tutorial om indekstal og samfundsfag 2008 Excel tutorial om indekstal og samfundsfag 2008 I denne note skal vi behandle data fra CD-rommen Samfundsstatistik 2008, som indeholder en mængde data, som er relevant i samfundsfag. Vi skal specielt analysere

Læs mere

Funktioner. 1. del Karsten Juul

Funktioner. 1. del Karsten Juul Funktioner 1. del 0,6 5, 9 2018 Karsten Juul 1. Koordinater 1.1 Koordinatsystem... 1 1.2 Kvadranter... 1 1.3 Koordinater... 2 1.4 Aflæs x-koordinat... 2 1.5 Aflæs y-koordinat... 2 1.6 Koordinatsæt... 2

Læs mere