Statistik med TI-Nspire CAS (Til version 1.6)

Størrelse: px
Starte visningen fra side:

Download "Statistik med TI-Nspire CAS (Til version 1.6)"

Transkript

1 Statistik med TI-Nspire CAS (Til version 1.6) Af Bjørn Felsager 2008

2

3 Indhold Forord Beskrivende statistik Grundlæggende TI-Nspire-teknikker... 5 Velkommen til TI-Nspire... 5 Oprettelse af et datasæt: Variable i TI-Nspire... 7 Oprettelse af grafer: Prikplot og histogram... 8 Oprettelse af grafer: Kvartilsæt og boksplot...11 Middelværdien versus medianen...15 Statistiske beregninger På opdagelse i data...19 Case: Rayleigh og densiteten for kvælstof...19 På jagt efter variabelsammenhænge Fraktiler...27 Opdeling af et datasæt i lige store dele...27 Fraktilplot Grupperede observationer...32 Gruppering af data: Hyppigheder og frekvenser...32 Søjlediagram som erstatning for histogram...33 Sumkurve som erstatning for fraktilplot...35 Teknisk bemærkning: Histogrammer/søjlediagrammer...36 Boksplot for grupperede observationer...39 Middelværdi for grupperede observationer Bekræftende statistik Introduktion til bekræftende statistik...41 Tilfældig variation: Eksperimentelle metoder...41 Case: Nedstyrtningen af et brintbombefly i Thule...43 Simulering af en tilfældig variation Simulering og usikkerhedsintervaller...52 Simulering af en opinionsundersøgelse...52 Usikkerheden for en opinionsundersøgelse...54 Teknisk bemærkning: Kanonisk skøn for en andel...60 Bootstrap og usikkerhed: Tyngdeaccelerationen...61 Teknisk bemærkning: Kanonisk skøn for en middelværdi Omrøring og hypotesetest...66 Challenger-ulykken...66 Beskrivende statistik: Hvem er skurken?...68 Bekræftende statistik: Omrøring og uafhængighed...71 Teknisk bemærkning: Kanonisk t-test Spørgeskemaanalyser og χ²-test...81 Gråzonekriminalitet: En spørgeskemaanalyse...81 Beskrivende statistik: Søjle- og blokdiagrammer...82 Bekræftende statistik: Krydstabeller og uafhængighed...85 Teknisk bemærkning: Kanonisk χ²-test...94 Indeks

4 Forord TI-Nspire er et dynamisk databehandlingsprogram, der egner sig til undervisning i databehandling på mange niveauer: folkeskolens ældste klasser, gymnasiet og de videregående uddannelser. Statistik med TI-Nspire er skrevet som introduktion til TI- Nspire til brug for undervisningen i matematik på det indledende niveau i gymnasiet, dvs. Mat C. Det kan benyttes uafhængigt af andre introduktionshæfter, men for at få et bedre kendskab til TI- Nspire kan det anbefales også at gennemarbejde et introducerende hæfte om variabelsammenhænge. Første del omhandler den beskrivende statistik: Hvordan trækker man information ud om et datasæt. I det indledende afsnit indføres de vigtigste graftyper og deskriptorer: prikplot, histogram og boksplot, kvartilsæt og middelværdi. Dernæst følger et afsnit, der kommer rundt om de vigtigste kendetegn ved en statistisk fordeling: niveauet, spredningen og formen. I det følgende afsnit gives der en introduktion til en generel opdeling af et datasæt i lige store dele ved hjælp af fraktiler. De fungerer dels som bindeled til de grupperede observationer, dels er de afgørende for kunne arbejde med metoder fra den bekræftende statistik. Da mange datasæt i praksis præsenteres som grupperede data (som også udgør et centralt emne i kernestoffet for MatC) afsluttes der med et længere afsnit om grupperede data med en gennemgang af de tilhørende graftyper og deskriptorer: søjlediagram, sumkurve og boksplot, kvartilsæt og middelværdi. Anden del omhandler den bekræftende statistik: Hvordan vurderer man en usikkerhed? Hvordan sandsynliggør man en hypotese? Der lægges vægt på eksperimentelle metoder, som i langt højere grad er tilgængelige for undervisningen på dette indledende niveau. I det første indledende afsnit indføres en række centrale begreber, som fx stikprøve og population. Det følgende afsnit omhandler de to vigtigste metoder til at skønne over usikkerhedsintervaller: simulering med tilfældighedsgeneratorer og bootstrap. Derefter følger et afsnit om hypotesetest med sammenligning af middelværdier for to numeriske variable via en omrøring af variable. Endelig giver det sidste afsnit en introduktion til spørgeskemaanalyser med vægten på krydstabeller og det eksperimentelle χ 2 -test for uafhængigheden af to kategoriserede variable. Dermed har også de elever, der kun har matematik på c-niveau mulighed for at stifte kvalificeret bekendtskab med de vigtigste typer hypotesetests, som de senere kan møde andre fag, fx samfundsfag eller biologi. De undervisningsforløb som hæftet lægger op til har været afprøvet i samarbejde med to inspirerende kolleger, Morten Birk Christensen (nu Oure Idrætsgymnasium) og Brian Olesen. Jeg er dem meget tak skyldig, men er naturligvis kun selv ansvarlig for de fejl og uhensigtsmæssigheder, der måtte have indsneget sig undervejs. Bjørn Felsager 4

5 1.1 Beskrivende statistik: Grundlæggende TI-Nspire-teknikker 1. Beskrivende statistik 1.1 Grundlæggende TI-Nspire-teknikker Velkommen til TI-Nspire Når du åbner for TI-Nspire viser der et skærmbillede opdelt i en menubjælke, et dokumentvindue og et arbejdsområde. Arbejdsområdet kan opdeles i fire forskellige værksteder. I statistikken vil vi især benytte værkstederne Lister og Regneark og Data og Statistik: Værkstederne er tilknyttet deres egne menubjælker, der viser hvad man kan arbejde med i værkstedet: 5

6 1.1 Beskrivende statistik: Grundlæggende TI-Nspire-teknikker I Lister og Regneark-værkstedet kan man arbejde med datatabeller, simuleringer og forskellige numeriske statistiske beregninger og målinger. I Data og Statistik-værkstedet kan man arbejde med grafiske fremstillinger af data og foretage forskellige simple grafiske analyser af data, herunder kan man arbejde med skydere (parametre), ligesom man kan indsætte tekstbokse. I Lister og Regneark-værkstedet finder man specielt i statistikmenuen rimeligt avancerede statistiske værktøjer til fx at udregne konfidensintervaller og efterprøve kanoniske statistiske hypoteser. Dem vil vi kun kort omtale i dette hæfte, da den fulde brug af disse teoretiske værktøjer kræver et indgående kendskab til statistisk teori. Begge værksteder kan kobles til et dataopsamlingskonsol, hvorfra man kan hente fysiske målinger ind i TI-Nspire-programmet ved at tilslutte sonder til PC'en via et USB-stik. Her er det illustreret med en opstilling til en temperaturmåling: Heller ikke dette vil vi imidlertid komme nærmere ind på her! De to værktøjer Lister og Regneark og Data og Statistik er uløseligt dynamisk forbundne: De fremviser blot to forskellige repræsentationer af de samme grundlæggende data. Ændrer man i data i regnearket følger graferne automatisk med, og hvis man omvendt trækker i datapunkterne i Data og Statistik-værkstedet følger cellerne i Lister og Regneark-værkstedet automatisk med. Men lad os komme i gang med et eksempel: Kernen i TI-Nspire er dets unikke evne til at håndtere variable, så lad os gøre nogle observationer og knytte variable til dem. Det kunne være om klassen, hvor vi kunne se på datasættet bestående af de enkelte elever karakteriseret ved forskellige egenskaber, såsom navn, køn, alder, højde osv. Det kan I imidlertid selv lege med. 6

7 1.1 Beskrivende statistik: Grundlæggende TI-Nspire-teknikker Oprettelse af et datasæt: Variable i TI-Nspire Her vil vi i stedet se på et eksempel, der også er så simpelt, at vi selv nemt kan taste data ind. FCK er en af topklubberne i dansk fodbold. I 1999 var lønningerne for spillerne på A-holdet givet ved den følgende tabel: Spiller Løn Christian Poulsen Thomas Røll Peter Hansen Heine Fernandez Thomas Thorninger Morten Bisgaard Christian Lønstrup Jacob Laursen Diego Tur Sibusiso Zuma Thomas Rytter I den ovenstående tabel er der to variable: Spilleren og hans løn. Vi åbner derfor for et Lister og Regneark-værksted og starter med at give et navn til den første variabel spillerens navn ved at klikke på titelfeltet A og skrive løs. Herefter skriver vi navne ind i de følgende celler, idet vi husker at der skal gåseøjne omkring navne (for at adskille dem fra variable): Alternativt kan man simpelthen kopiere data fra tabellen ind i TI- Nspire, hvis man fx har en elektronisk Wordudgave til rådighed. Den første variabel er nem nok at indtaste, da den bare består af en tekst. Sådanne tekstvariable kaldes også for kategoriserede variable, fordi de opdeler spillerne i forskellige kategorier, fx navn 7

8 1.1 Beskrivende statistik: Grundlæggende TI-Nspire-teknikker eller hvilken funktion de har på holdet, fx forsvarsspiller eller angrebsspiller. Tekstvariable er venstrestillede, ligesom i et almindeligt regneark og er karakteriseret ved at de er omsluttet af gåseøjne. I det hele taget minder tabellen i sin struktur minder meget om et regneark med nummererede rækker, idet hver spiller har fået tildelt sit eget indeks, der angiver hans plads i tabellen. Læg også mærke til at søjlerne, dvs. de enkelte variable, alle er født med bogstavnavne A, B, C osv. som i et almindeligt regneark. Det gør det nemt også at referere til en enkelt celle. I TI-Nspire som er et dynamisk regneark kan vi selv vælge om vi vil arbejde med hele søjler/lister ad gangen, sådan som du måske også kender det fra din grafregner, eller om vi vil arbejde med enkeltceller, sådan som du kender det fra fx Excel. Den anden variabel, lønnen er en talvariabel. De kaldes også for numeriske variable. Talvariable er højrestillede, ligesom i et almindeligt regneark. Oprettelse af grafer: Prikplot og histogram Hvordan kan vi nu danne sig et overblik over disse tal? Det kan gøres på flere forskellige måder. Her vil vi nu først se på nogle grafiske metoder til at danne sig et overblik over numeriske variable (vi vil senere også se nærmere på graftyperne for de kategoriserede variable). Vi kan nu oprette en graf over lønningerne ved at markere søjlen for løn (klik på søjlenavnet B i titelfeltet) og vælge menupunktet Hurtiggraf i vis-menuen. Der oprettes da automatisk et Data og Statistikværksted med den ønskede graf: 8

9 1.1 Beskrivende statistik: Grundlæggende TI-Nspire-teknikker Man kan også selv oprette et data og statistik-værksted. Der åbnes da for en ustruktureret afbildning af datasættet med en tilfældig fordeling af datapunkterne svarende til den første kategoriserede variabel (hvis der er en og ellers den første numeriske variabel). Derefter kan man som vist klikke i variablen Løn på førsteaksen i grafrummet. Datapunkterne struktureres da i en glidende bevægelse efter værdien af variablen løn og slutresultatet er det samme som den ovenstående hurtig-graf. Herved fremkommer altså et prikplot, der giver en god fornemmelse for lønfordelingen, som er tydeligt højreskæv og har en central klump omkring kr. og en lang hale til højre med dels et par spillere omkring kr. og så den virkelige topscorer Sibusiso Zuma med kr. i årsløn. Læg mærke til at prikplottet er stakket, dvs. at prikkerne anbringes de oven på hinanden, så vi får en tydelig fornemmelse af fordelingens form. 9

10 1.1 Beskrivende statistik: Grundlæggende TI-Nspire-teknikker Selv om spillernes navne ikke optræder på prikplottet kan vi nemt finde ud af hvem der gemmer sig bag prikkerne. Hertil oprettes fx en ustruktureret graf. Klikker vi på et datapunkt, lyser det nemlig op i alle andre grafer. Klikker vi i den ustrukturerede graf fås endda en oplysningsseddel om værdierne for alle de variable, der er knyttet til datapunktet: Vi kan også skifte graftype ved at højreklikke og afsætte lønningerne i et histogram 1 : Histogrammet viser det samlede overordnede mønster som prikplottet. Vi kan nu selv tilpasse histogrammet ved at trække i histogramboksenes kanter eller ved at højreklikke i grafrummet og derved få adgang til menupunktet Søjleindstillinger. 1 Betegnelsen Tæl på den lodrette akse er en oversættelsesfejl af det engelske ord Count. Der burde stå Antal (eller hyppighed). 10

11 1.1 Beskrivende statistik: Grundlæggende TI-Nspire-teknikker Fx kan vi som vist sætte intervalbredden ned fra til og få lidt finere detaljer med. Tilsvarende kan vi regulere intervalstarten 2, dvs. placeringen af det første intervalendepunkt. Læg mærke til at hvert af intervallerne starter i det venstre endepunkt 3. Hvis vi fx som vist markerer typeintervallet, kan vi på statusbjælken for neden se at det drejer sig om fire spillere med lønninger fra kr. (inklusive) op til kr. (eksklusive). Læg også mærke til at intervallet angives med en lidt anden konvention end den danske, idet der både benyttes kantede og runde parenteser: kantet når parentesen er lukket og rund når parentesen er åben. Oprettelse af grafer: Kvartilsæt og boksplot Vi kan ordne lønningerne i rækkefølge ved at markere begge variablene Navn og Løn og højreklikke for at vælge kommandoen Sorter (herved sikres at de begge ordnes samtidigt). Herefter vælger vi dels at sortere efter kolonne b[] (dvs. i vores tilfælde variablen løn) og dels at sortere stigende. Samtidigt vil spillernes navne følge med, når vi rokerer rundt på lønningerne, fordi vi har markeret begge variable. 2 Betegnelsen Papirretning er en fejl. Dette menupunkt hører til i udskriftmenuen. 3 Der er tale om et tilfældigt valg. I andre undervisningstraditioner kan man derfor møde det modsatte valg, hvor det er højre endepunkt, der regnes med. 11

12 1.1 Beskrivende statistik: Grundlæggende TI-Nspire-teknikker Vi finder da: Vi kan nu aflæse den mindste lønning (Peter Hansen), dvs. minimum, den midterste lønning (Thomas Thorninger), dvs. medianen, samt den største lønning (Sibusiso Suma), dvs. maksimum Min = Med = Max = Medianen er den midterste observation. Hvis der er et lige antal observationer, vil der i stedet være to midterobservationer. Man har da vedtaget at medianen i dette tilfælde er gennemsnittet af de to midterste observationer 4. 4 Der findes forskellige traditioner for hvad man skal lægge vægt på, når man definerer statistiske deskriptorer. I ældre dansk undervisningstradition har man i stedet prioriteret højest, at medianen altid faldt sammen med en observation. Man har derfor vedtaget (tilfældigt!) at medianen skulle være den største af de to observationer. 12

13 1.1 Beskrivende statistik: Grundlæggende TI-Nspire-teknikker Medianen deler nu det ordnede datasæt i to halvdele. Vi kan derfor fortsætte med at fastlægge medianerne for hver af disse. De kaldes første og tredje kvartil Q 1 og Q 3 (jfr. ordet kvart, som står for en fjerdedel, idet kvartilerne deler datasættet i fjerdedele). Hvis der er et lige antal observationer er det oplagt, hvordan datasættet splittes i to halvdele. Med et ulige antal er det lidt mere indviklet, fordi man i princippet både kan medtage og udelukke den midterste observation i de to halvdele. I TI-Nspire har man nu vedtaget at man aldrig medtager medianen, dvs. de to halvdele består af de datapunkter, der går forud for medianen og de datapunkter der følger efter medianen: De to kvartiler udgør medianerne for de to halvdele af det ordnede datasæt. Hvis der i alt er et ulige antal observationer regnes midterobservationen ikke med til de to halvdele. De to halvdele ser derfor således ud: Q 1 Q 3 Første kvartil Q 1 er altså givet ved kr. i årsløn, mens tredje kvartil Q 3 er givet ved kr. i årsløn. Kvartilsættet bestående af den første kvartil, medianen og den tredje kvartil (hvor medianen kan opfattes som den anden kvartil) deler datasættet i fire dele, som hver for sig rummer (ca!) en fjerdedel af observationerne. Tilføjer vi ydermere minimum og maksimum (den nulte kvartil og den fjerde kvartil) til kvartilsættet kaldes det for det udvidede kvartilsæt eller de fem nøgletal. Vi samler ofte de fem nøgletal i et såkaldt boksplot, hvor boksens to ender angiver første og tredje kvartil, mens medianen markeres med en lodret streg inde i boksen. Boksen indeholder altså (mindst!) halvdelen af observationerne. Dertil føjer vi vandrette streger, der i princippet rækker helt ud til den mindste observation og den største observation. Men som udgangspunkt vil TI-Nspire i stedet vælge at skille de yderste observationer ud, hvis de ligger markant langt væk fra de øvrige. 13

14 1.1 Beskrivende statistik: Grundlæggende TI-Nspire-teknikker Flytter vi markøren hen over boksplottet kan vi aflæse alle de fem nøgletal 5 Boksplottet giver et klart indtryk af den skævhed der er i aflønningen af spillerne på A-holdet. Halvdelen af lønninger ligger i den venstre hale og den venstre halvdel af boksen, som begge er meget små i forhold til den højre halvdel og den meget lange højre hale. Boksplottet giver derimod ikke noget indtryk af hvordan de enkelte individuelle data fordeler sig. Skyldes den højre hale fx blot nogle få observationer eller er der tale om en hel stribe af observationer. Vælger vi menupunktet Vælg alle punkter fra Vis-menuen, ser vi at boksplottet er udspændt af 7 værdier (hvoraf en stor del af de mindre værdier optræder flere gange). 5 Betegnelsen Sp1 for den første kvartil (og tilsvarende Sp3 for den tredje kvartil) er fejloversættelser af Q1 og Q3, der i denne sammenhæng jo ikke står for Question, dvs. spørgsmål). 14

15 1.1 Beskrivende statistik: Grundlæggende TI-Nspire-teknikker Her kan vi nu få glæde af begrebet en atypisk eller perifer observation. En observation kaldes en afviger eller siges at være perifer, hvis den ligger usædvanligt langt ude i forhold til den centrale boks. Det er selvfølgelig et skøn, hvornår noget ligger så langt ude at det må betragtes som ekstremt. TI-Nspire benytter en tommelfingerregel opstillet af den amerikanske statistiker Tukey, der har vist sig i praksis at være yderst nyttig til at spotte afvigerne. Tukey tager udgangspunkt i boksens bredde, den såkaldte kvartilbredde, dvs. tallet Q 3 Q 1 : Tukeys regel: Hvis en observation ligger længere væk end halvanden kvartilbredde fra den centrale kasse, anses den for at være en afviger. Grænserne for linjestykkerne, dvs. nedre kvartil minus halvanden kvartilbredde og øvre kvartil plus halvanden kvartilbredde, kaldes Tukeys hegn. I vores tilfælde er kvartilbredden kr. (= ). Halvanden kvartilbredde er derfor kr. Trækker vi kr. fra den venstre kant, dvs. Q 1 = kr., fås en negativ løn. Dvs. vi skal ned på en negativ løn for at have en ekstrem lav løn. Det er der ingen, der har. Tilsvarende skal vi lægge kr. til den højre kant, dvs. Q 3 = kr. Vi skal altså op over en årsløn på kr. for at have en ekstremt høj løn. Det er der kun én, der har! Middelværdien versus medianen Inden vi forlader eksemplet med fodboldspillerne vil vi se på endnu en statistisk deskriptor som kan være af stor nytte til beskrivelse af data. Som et mål for den centrale eller typiske værdi har vi indtil videre benyttet medianen. Men i mange sammenhænge vil vi foretrække middelværdien eller gennemsnittet. I det ovenstående tilfælde skal vi altså finde den samlede lønsum og dividere den med antallet af spillere, dvs

16 1.1 Beskrivende statistik: Grundlæggende TI-Nspire-teknikker Grafisk tilføjer vi middelværdien ved at vælge menupunktet Plot værdi fra Analyser-menuen. Herefter indskriver vi formlen mean(løn) for at få tegnet middelværdien og formlen median(løn) for at få tegnet medianen) middelløn = = Gennemsnitslønnen i FCK er altså kr., hvilket ligger et godt stykke over medianen på kr. Det afspejler den uforholdsmæssige store indflydelse afvigeren har på gennemsnittet. Det er derfor det er godt også at have medianen til rådighed. Medianen ligger altid i den centrale klump. Ydermere er medianen robust dvs. påvirkes ikke af tilstedeværelsen af en enkelt eller nogle få afvigere. Medianen er derfor et bedre mål for den typiske spillerløn. For at undersøge den indflydelse den ekstreme spillerlønning har på middelværdien kan vi bare gribe fat i det perifere datapunkt og trække i det. Men kan da netop se, hvordan middellønnen hele tiden flytter sig, mens medianlønnen ligger stille indtil vi kører forbi den og selv da giver den kun et lille ryk: På samme måde rykker kvartilerne selvfølgelig også, når vi passerer dem. Læg dog mærke til, at vi ikke kan trække middellønnen forbi medianlønnen i det ovenstående eksempel. Fordelingen forbliver altså højreskæv. 16

17 1.1 Beskrivende statistik: Grundlæggende TI-Nspire-teknikker Bemærkning: En sådan dynamisk tilpasning af modellen er fin til at demonstrere, hvilken indflydelse udvalgte data har på modellen. Men vi kan også ved et uheld komme til at flytte rundt på datapunkterne. Sker uheldet alligevel må man fortryde et passende antal gange indtil den oprindelige værdi er genoprettet! Statistiske beregninger Til slut vil vi se lidt på mulighederne for at udføre simple statistiske beregninger. Vi kan da dels udnytte muligheden for at skrive formler i cellerne fra regnearket. Formler er karakteriseret ved at de starter med et lighedstegn =. Så for at udregne middelløn og medianløn benyter vi som vist formlerne C1: =mean(løn) og C2: =median(løn): Men det afgørende er da at vi holder os fri af de søjler vi har brugt til de variable. Dels kan vi som vist vælge menupunktet Stat beregning... > Statistik med én variabel fra Statistik-menuen. Dermed har vi adgang til alle de statistiske deskriptorer som vi har introduceret i det foregående. 17

18 1.1 Beskrivende statistik: Grundlæggende TI-Nspire-teknikker Her skal vi først og fremmest være opmærksomme på at vi både skal angive den liste, som vi vil udregne statistikken for, og den søjle som vi vil have resultaterne skrevet i (og hvor det er vores eget ansvar at den ikke overskriver andre resultater). De øvrige muligheder, frekvenslisten og kategorilisten giver mulighed for mere detaljerede statistiske beregninger. Hvis vi fx har indtastet en hyppighedstabel, så er det listen over hyppighederne, der skal noteres i frekvenslisten. Hvis vi ønsker at splitte resultaterne på kategorier, fx forsvarspillere og angrebsspillere, så kan det også lade sig gøre. Men her udregner vi bare statistikken for én samlet liste uden at tage hensyn til diverse filtre: Her har vi markeret de fem statistiske nøgletal (der ligger til grund for boksplottet). Vi ser også middelværdien (der noteres som ), samt de to spredningsmål, stikprøvespredningen sx og populationsspredningen σx. Endelig oplyses antallet af data, i dette tilfælde n =

19 1.2 På opdagelse i data Vi har nu fået en første fornemmelse for strukturen af et datasæt. Kernen i den beskrivende statistik er de grafiske fremstillinger af data. Øjet er vores bedste mønstergenkender, så når vi vil danne os et overblik over strukturen for et datasæt, dvs. fordelingen af de variable, er det langt det nemmeste, hvis vi begynder med at visualisere fordelingen før vi kigger dybt i tabeller og begynder at udføre indviklede beregninger. Det udtrykkes ofte med sloganet: 'Du skal tegne, før du kan regne'. Den mest grundlæggende graftype for en variabel hørende til et datasæt er prikplottet. Men dertil kommer så de supplerende graftyper: histogram, boksplot og normalfordelingsplot, som hver for sig er gode til at fremhæve forskellige sider af strukturen. Hvad er det så man kan hæfte sig ved, når man forsøger at danne sig et indtryk af strukturen for en variabel? Der er første og fremmest de følgende tre kendetegn: Form, niveau og spredning 1. Form: Ligger dataene jævnt fordelt ud over et interval eller er de fleste data samlet i en eller flere klumper? Ligger dataene symmetrisk eller ligger de skævt. Som hjælp til det sidste kan man også se på forskellen mellem middelværdien og medianen, der kan opfattes som et mål for skævheden. 2. Niveau: Hvad er den typiske værdi for variablen? Hvis dataene med tilnærmelse ligger symmetrisk, vil vi ofte foretrække middelværdien som den typiske værdi, men hvis dataene ligger skævt vil vi ofte foretrække medianen som den typiske værdi. 3. Spredning: Ligger dataene meget tæt på den typiske værdi eller spreder de sig ud over et stort område? For en jævn fordeling, vil vi ofte benytte variationsbredden (forskellen mellem den mindste og den største værdi) som et mål for spredningen. For en fordeling med en central pukkel og lange haler ud til siden vil vi ofte benytte kvartilbredden (tykkelsen af kvartilboksen) som et mål for spredningen. Men andre kendetegn kan også falde i øjnene: Er der fx typiske gab? Er der tydelige perifere/afvigende observationer osv. Case: Rayleigh og densiteten for nitrogen Som et typisk eksempel på en opdagelsesrejse i et datasæt vil vi se på et berømt historisk eksempel 6 : Rayleighs undersøgelse af densiteten for kvælstof N 2, som udgør den vigtigste komponent i atmosfærisk luft. Den næst vigtigste er ilt O 2. Ved at fjerne ilten fra atmosfærisk tør luft kunne han isolere kvælstoffet. Tilsvarende kunne han frembringe rent kvælstof ved at nedbryde forskellige simple kemiske forbindelser. Derved fandt han frem til følgende eksperimentelle data 6 Rayleighs egen beskrivelse findes fx på hjemmesiden 19

20 1.2 Beskrivende statistik: På opdagelse i data For at danne sig et indtryk af fordelingen for de målte vægte afbildes de i et prikdiagram henholdsvis et boksplot. Prøver vi først at se på boksplottet er boksen usædvanlig bred i forhold til de to haler. Samtidigt er fordelingen tydeligt højreskæv, idet den højre del af boksen er meget større end den venstre del; dette bekræftes yderligere af at middelværdien ligger langt inde i den højre del. Men der ud over er det svært at se på boksplottet, hvad det egentlig er, der gør fordelingen så usædvanlig. Kigger vi der i mod på prikplottet falder det tydeligt i øjnene at fordelingen er skilt ad i to (måske endda tre) klumper: En snæver klump omkring massen 2.310g og en bredere klump omkring 2.299g (og måske er der endda tegn på en tredje klump omkring 2.301g). 20

21 1.2 Beskrivende statistik: På opdagelse i data Hvad kan nu være årsagen til denne opsplitning af datasættet? Indkranser vi den snævre klump omkring 2.310g i prikplottet ses det tydeligt i tabellen, at den er koblet til alle målingerne, der stammer fra atmosfærisk luft. Der er altså tydeligvis en skjult variabel, der giver anledning til en systematisk forskel på den kvælstof, der isoleres fra den atmosfæriske luft og den kvælstof, der isoleres fra forskellige kemiske forbindelser. Det samme kan ses tydeligt på grafen, hvis vi benytter variablen kilde til at splitte prikplottet: 21

22 1.2 Beskrivende statistik: På opdagelse i data I virkeligheden er der altså tale om en sammenblanding af to adskilte datasæt. Det kan vi se endnu tydeligere, hvis vi indfører en sammensat variabel, Oprindelse, der skelner mellem de målinger, der stammer fra kemiske forbindelser og de målinger, der stammer fra atmosfærisk luft: Ved at indføre Oprindelse som uafhængig variabel og Vægt som afhængig får vi netop tydeligt adskilt de to grupper data: 22

23 1.2 Beskrivende statistik: På opdagelse i data Tilbage stod så bare at identificere den sande natur af den skjulte variabel: Hvorfor adskilte den kvælstof, der blev udskilt af atmosfærisk luft sig fra den kvælstof, der blev isoleret fra en kemisk forbindelse? Rayleigh gættede på at den atmosfæriske luft måske indeholdt et ukendt stof, der forstyrrede målingerne. I så fald repræsenterer målingerne fra de kemiske forbindelser den rene kvælstof, mens målingerne fra den atmosfæriske luft er 'forurenet' af det skjulte stof. Hvis dette skjulte stof havde en højere densitet end kvælstof, ville det netop kunne trække målingerne en anelse i vejret, så de kom til at ligge på et højere niveau. Rayleigh gik på jagt efter det ukendte stof, hvorved han netop opdagede den første ædelgas, argon, hvilket udløste en nobelpris. Bemærk i øvrigt hvordan hans opdagelse kun kunne lade sig gøre, fordi han dels målte meget præcist, dels benyttede flere af hinanden uafhængige metoder til fremstillingen af kvælstof. På jagt efter variabelsammenhænge Som et andet eksempel på hvordan man kan gå på opdagelse i data vil vi se på hvordan man kan analysere den information, der ligger gemt i en spørgeskemaundersøgelse. Her tager vi udgangspunkt i et udsnit af en stor tysk undersøgelse af gymnasieelevers fritidsvaner. Undersøgelsen rummer 140 forskellige variable, så der er nok at tage fat på. Her vil vi tage udgangspunkt i en forenklet version på dansk, Unges fritidsvaner. Her vil vi se nærmere på variablen Tid_TV, der registrerer de unges ugentlige timeforbrug til TV-kiggeri. Trækkes variablen ind i et grafrum kan vi dels kigge på et boksplot for det store overblik, dels supplere med et prikdiagram for de finere detaljer: 23

24 1.2 Beskrivende statistik: På opdagelse i data Boksplottet afslører at niveauet for de unges tv-kiggeri ligger på 10 timer om ugen (og der er ikke stor forskel på median og middelværdi i denne forbindelse). Faktisk viser 10 timer om ugen sig også at være typetallet. Spredningen kan angives via kvartilbredden på 9 timer, idet halvdelen af de unge ser tv mellem 5 og 14 timer om ugen. Ser vi til sidst på formen er der karakteristisk at der er en lang hale til højre, der ender i en række perifere observationer med unge 'tvnarkomaner', der ser tv mindst 30 timer om ugen. Man kunne så naturligt forvente at tv-kiggeriet var højreskævt, men faktisk ligger middelværdien en anelse til venstre for medianen. Den venstre halvdel af kvartilboksen er da også større end den højre halvdel, hvilket kompenserer for den lange hale. 24

25 1.2 Beskrivende statistik: På opdagelse i data Men detaljerne kan først rigtigt ses på prikdiagrammet, hvor det fx fremgår at mange unge er tilbøjelige til at opgive deres ugentlige tvforbrug i multipla af 5, idet der er tydelige toppe ved 5, 10, 15, 20, 25 og 30 timer. Andre går ud fra deres daglige forbrug, hvilket giver toppe ved 7, 14 og 21 timer om ugen. Vi går nu videre med at overveje nogle mulige sammenhænge hvilke variable kan tænkes at have indflydelse på tv-kiggeriet? hvilke variable kan tv-kiggeriet tænkes at have indflydelse på? Kunne det fx tænkes at kønnet spillede en rolle for tv-kiggeriet? Kigger piger mere tv end drenge? Er de fx mere afhængige af 'serier'? Det kan vi afklare, ved at trække variablen Køn ind som den uafhængige variabel på førsteaksen og variablen TidTV ind som den afhængige variabel på andenaksen. 25

26 1.2 Beskrivende statistik: På opdagelse i data Grafen viser da at niveauet for drengenes tv-kiggeri faktisk ligger en anelse højere end pigernes, både målt på middelværdi og median, idet drengen typisk kigger 12 timers mere tv om ugen. Og sjovt nok ligger middelværdien over medianen for begge køns vedkommende. Ellers er der ikke den store forskel på formen i de to fordelinger: Drengenes spredning er en anelse mindre end pigernes, mens pigernes fordeling er lidt mere skæv end drengenes. En anden interessant mulig sammenhæng er spørgsmålet om det spiller en rolle, om de unge har deres eget tv-apparat eller om de er 'tvunget' til at se tv på familiens apparat: Det kan vi afklare ved at trække variablen Eget_TV ind som den uafhængige variabel og variabel Tid_TV som den afhængige variabel. Denne gang er forskellen mere markant. Niveauet for tv-kiggeriet for de unge med eget tv-apparat ligger typisk 3 timer over niveauet for de unge uden eget tv-apparat. Tilsvarende er spredningen af tvkiggeriet større for de unge med eget tv, idet fx kvartilbredden for de unge med eget tv-apparat ligger to timer over kvartilbredden for de unge uden eget tv-apparat. Begge fordelinger har i øvrigt stort set samme form. Læg i øvrigt mærke til at årsagssammenhængen mellem to variable sjældent er entydig: Har man eget tv-apparat kan det friste til at se mere tv. men omvendt kan et stort behov for tv-kiggeri føre til et pres på familien for at man kan se det uden at forstyrre de andre. Sammenfattende kan man altså arbejde med at undersøge data på flere forskellige niveauer: ved at trække statistiske informationer ud om de enkelte variable ved at sammenholde statistiske informationer for flere variable ved at knytte de statistiske informationer sammen med den kontekst variablen indgår 26

27 1.3 Fraktiler Opdeling af et datasæt i lige store dele I det foregående har vi set hvordan vi dels ved hjælp af medianen kan dele et datasæt i to lige store halvdele, dels ved hjælp af kvartiler kan dele et datasæt i fire lige store fjerdele. Men der er selvfølgelig intet helligt ved halvdele og fjerdedele og vi kunne lige så godt dele et datasæt i ti lige store dele (ved hjælp af deciler), i hundrede lige store dele (ved hjælp af centiler) osv. I almindelighed bruger vi fraktiler til at dele et datasæt i et bestemt antal lige store dele. Den praktiske opdeling af datasættet i lige store brøkdele ved hjælp af fraktiler afhænger af datasættets størrelse, dvs. antallet af observationer n. Det er nemmest hvis antallet af observationer n kan deles med nævneren for brøkdelen. Lad os fx se på femtedele. Hvis 5 går op i antallet af observationer, fx n = 20, ordnes disse observationer i voksende rækkefølge, hvorefter de første fire observationer udgør den første femtedel, de næste fire observationer den anden osv. Som skillepunkter, dvs. kvintiler, bruger vi da gennemsnittet af de to nærmeste observationer. Se fx nedenstående eksempel, hvor vi har fundet kvintilerne for et datasæt bestående af vægtene for 20 amerikanske bjørne (målt i pund, dvs. lb): Nulte kvintil Første kvintil Anden kvintil Tredje kvintil Fjerde kvintil Femte kvintil 27

28 1.3 Beskrivende statistik: Fraktiler Men hvad gør vi så, hvis 5 ikke går op i antallet af observationer? Hvordan skal vi så håndtere resterne, dvs. hvordan definerer vi fraktiler helt generelt? 7 I så fald kan vi ikke fastlægge fraktilerne præcist, men ved hjælp af et såkaldt fraktilplot kan vi give et fornuftigt skøn over fraktilværdierne. Fraktilplot Det er nemmest at forklare opdelingen i fraktiler i almindelighed. Vi tænker os igen at vi har et datasæt med 20 observationer. Vi deler da intervallet fra 0 til 100% i 20 lige store dele, der altså hver omfatter 5% (se opdelingen af den lodrette akse i figuren): 7 Der findes forskellige definitioner af fraktiler. Fx benytter Excel en anden definition end den vi her skal gennemgå, ligesom der findes forskellige varianter i undervisningslitteraturen. Det er noget man må være opmærksom på, når man sammenligner resultater opnået med forskellige programmer eller stammende fra forskellige kilder. 28

29 1.3 Beskrivende statistik: Fraktiler Dette fraktilplot er oprettet som et punktplot ved at vi har tilføjet midtpunkterne for de 20 dele-intervaller som en liste kaldet fraktil. Den indføres som vist nemmest som en formel, der indskrives ved at vælge menupunktet Generer sekvens fra Data-menuen: Herefter oprettes et XY-Linjeplot for den uafhængige variabel vægt koblet til den afhængige variabel fraktil: Man kan nu aflæse tilnærmede værdier for de enkelte fraktiler ved at gå ind fra procent-aksenog se hvor man skærer fraktilplottet. I den bekræftende statistik er der typisk brug for 2½%-fraktilen og 97½%-fraktilen. De udregnes for datasæt der typisk består af 1000 målinger, dvs. 2½%-fraktilen skiller de første 25 målinger fra de resterende 975 målinger, ligesom 97½%-fraktilen skiller de sidste 25 målinger fra de 975 første målinger. Når først datasættet er ordnet er det altså ikke svært at aflæse 2½%-fraktilen og 97.5%-fraktilen i en tabel. Her ses et eksempel på fordelingen af 1000 simulerede målinger af forskellen mellem kondital for piger og drenge i 1g: 29

30 1.3 Beskrivende statistik: Fraktiler 30

31 1.3 Beskrivende statistik: Fraktiler Fraktilplot giver en anden måde at fremstille data på grafisk som supplement til de tidligere plottyper: Prikplot, boksplot og histogram. Men informationen er selvfølgelig i en vis forstand den samme. Men ser især efter tre ting i forbindelse med et fraktilplot 1. Vi kan nemt aflæse medianer, kvartiler og andre fraktiler på fraktilplottet, idet vi går vandret ind ved den ønskede fraktilprocent. Her følger fx en tilnærmet aflæsning af median og kvartiler: 2. Vi kan se hvor tætheden er størst, idet hældningen er størst, hvor afstanden mellem observationerne er mindst. I den ovenstående fordeling er fx to stejle partier: Lige i starten og lige efter medianen, hvilket i histogrammet viser sig som to toppe. Fordelingen er altså tydeligt to-puklet (bimodal). 3. Vi kan visuelt checke om en fordeling er jævn (ligefordelt), for i så fald følger fraktilplottet netop en ret linje. Det er fx tydeligvis ikke tilfældet i det ovenstående tilfælde, hvor fraktilplottet har to tydelige bugter. 31

32 1.4 Grupperede observationer Gruppering af data: Hyppigheder og frekvenser Når vi indsamler data, så er de indsamlede data, de rå data, den kilde som vi senere kan udvinde alle informationerne fra. De rå data udgør statistikkens hellige gral (på samme måde som de eksperimentelle data i naturvidenskaberne) og vi bør altid så vidt muligt arbejde direkte med de rå data, fordi de kan vendes og drejes og dermed ses fra alle synsvinkler, hvorved vi i et rigt datasæt kan blive ved med at gå på opdagelse og opdage nye sammenhænge. Men når man præsenterer sine konklusioner vil man ofte forenkle situationen og kun vise de forarbejdede data, der umiddelbart understøtter ens konklusioner. Typisk vil man gruppere data, dvs. slå dem samme i et mindre antal grupper, hvor man så ikke længere skelner mellem de individuelle data. Det kan være i form af et boksplot, hvor datasættet deles i fire lige store grupper efter størrelse, eller det kan være i form af et histogram, hvor man har valgt en passende intervalinddeling for at fremhæve nogle typiske træk ved fordelingen. Når man på denne måde grupperer sine data mister man altså information: De forarbejdede data repræsenterer halvfabrikata. Hvis vi kun har adgang til de grupperede data kan vi derfor ikke længere drage præcise konklusioner, men må nøjes med tilforladelige skøn. Vi kan sammenligne det med tilberedning af mad: Hvis vi har alle råvarerne til rådighed kan vi lave alle mulige varianter af retter, men hvis råvarerne først er hældt sammen i en stor gryde og kogt sammen til en grød er der ikke så meget mere at stille op, selvom der selvfølgelig stadigvæk kan tilføjes forskellige krydderier. Alligevel er det vigtigt at have kendskab til de vigtigste metoder til at trække informationer ud af grupperede data, da det ofte er på den form vi vil møde data i andres undersøgelser, når de fremlægges i fx avisartikler, og kun ved at kende til sådanne teknikker vil vi kunne forholde os kritisk til de påstande, der er knyttet til undersøgelsen. I det følgende afsnit ser vi derfor på i hvor høj grad det stadigvæk i forbindelse med grupperede data er muligt at skønne troværdigt over størrelsen af medianer, kvartiler, middelværdier osv., ligesom vi ser nærmere på hvilke graftyper vi kan tilnærme med grupperede data. Centralt for de grupperede data står hyppighedstabellerne, hvor observationerne er inddelt i passende intervaller, hvorefter man har talt op hvor mange observationer der falder i de enkelte observationsintervaller. Det er på basis af disse hyppighedstabeller vi skal forsøge at uddrage troværdige informationer. Da vi ikke kender de individuelle data i de enkelte intervaller gør vi nu følgende antagelse: 32 Grundantagelsen for grupperede data De individuelle data i et givet observationsinterval antages at være tilfældigt fordelt i intervallet og antages derfor at ligge jævnt fordelt indenfor intervallets grænser.

33 Det behøver selvfølgelig ikke være tilfældet i virkeligheden, men hvis ellers data er udvalgt rimeligt tilfældigt er det ret usandsynligt, hvis de fx systematisk alle ligger i den venstre halvdel af intervallet. I praksis opgiver man typisk frekvenser 8 i stedet for hyppigheder, idet frekvensen angiver hvor stor en procentdel af observationerne der falder indenfor et bestemt observationsinterval Hyppighed Frekvens = 100%. Samlet antal Læg mærke til at når vi arbejder med frekvenstabeller kender vi ikke nødvendigvis det samlede antal observationer. Søjlediagram som erstatning for histogram Eksempel: Danskernes kondital 1995 Følgende tabel viser fordelingen af kondital hos danskerne i 1995: Kondital Frekvens 2,5% 8,2% 22,0% 8,9% 23,3% 7,6% 7,5% For at kunne arbejde med de ovenstående oplysninger indtastes de i et regneark. Læg mærke til, at når vi indtaster et interval som 0-15 opfattes det som et regnestykke. Det regnes altså ud som en differens og opfattes som en numerisk variabel. Da vi ønsker, det skal opfattes som en kategoriseret variabel skal vi selv huske gåseøjne! Vi forsøger os nu først som vist med en graf, hvor vi afsætter Kondital som den uafhængige variabel og Frekvens som den afhængige variabel. Resultatet er et prikplot, der giver en vis fornemmelse for fordelingen, men da den uafhængige variabel Kondital er en kategoriseret variabel er der i virkeligheden tale om en serie af prikplots: én for 8 På engelsk betyder ordet 'frequency' desværre 'hyppighed', mens ordet 'frekvens' oversættes med 'relative frequency'. 33

34 hver kategori. Det kan vi se tydeligt, hvis vi forsøger at skifte til graftypen histogram. Vi kan stadigvæk godt få en fornemmelse af fordelingen, men der er tydeligvis kun tale om et interval med hyppigheden 1 svarende til hver kategori Som alternativ må vi derfor anvende et søjlediagram, men det kræver at vi har adgang til de rå data og ikke kun hyppighedstabellen. Vi benytter derfor en kommando FreqTable List(kategoriliste, hyppighedsliste), der omformer hyppighedstabellen til den oprindelige liste bestående af de rå data. Da hyppighedslisten kun må indeholde hele tal, ganger vi først frekvenserne med 10 (i stedet for procenter repræsenterer de nu altså promiller): 34 Søjlediagrammet er det bedste bud på et histogram, når vi arbejder med grupperede data.

35 Sumkurve som erstatning for fraktilplot Men hvis vi ikke rigtigt kan arbejde med histogrammer for grupperede observationer, hvilken graftype egner sig så bedre til de grupperede observationer? Det viser sig at være et tilnærmet fraktilplot. Da vi ikke har kendskab til de individuelle placeringer af observationerne i delintervallerne kan vi selvfølgelig ikke konstruere et præcist fraktilplot. Men vi kan konstruere en særdeles nyttig tilnærmelse, der kaldes en sumkurve. Den bygger altid på en tabel over de kumulerede (summerede) frekvenser, så hvis udgangspunktet er en tabel over hyppigheder, må denne først omdannes til en tabel over frekvenser. Til hvert intervalendepunkt, knytter vi nu den procentdel af observationerne, der går forud for endepunktet. Det er denne procentdel, der kaldes den kumulerede frekvens (kumulere = opsamle). Ofte betegnes den dog også den summerede frekvens, fordi den fremkommer ved at lægge alle de foregående frekvenser sammen. Vi starter derfor med at opbygge en tabel ud fra samtlige intervalendepunkter. Det giver et ekstra intervalendepunkt til at begynde med, der tildeles frekvensen 0%, idet der ikke ligger nogen observationer forud for det allerførste intervalendepunkt: Derefter lægges procenterne løbende sammen. Det kan gøres i hånden ved at lægge den nye procent til løbende. Eller det kan som vist gøres ved brug af formlen forrige(kumfrekvens) + frekvens, der netop hele tiden lægger den nye procent til den allerede opnåede kumulerede frekvens. Læg mærke til at den kumulerede frekvens altid starter med 0% og slutter med 100%. Med undtagelse af muligheden for en mindre afrundingsfejl (som højst må være %) er det afgørende, for det viser at vi har fået alle observationerne talt med. Vi kan nu tegne et XY-plot med Kondital som den uafhængige variabel og Kumfrekvens som den afhængige variabel (se næste side igen!): 35

36 Teknisk bemærkning: Histogrammer /søjlediagrammer Selv når vi benytter et søjlediagram til at tilnærme et histogram kan der stadigvæk opstå problemer, for søjlerne afsættes automatisk med den samme bredde. I praktisk forekommende tilfælde er det dog langt fra altid, at alle intervallerne er oplyst med samme bredde. I det ovenstående eksempel med danskernes kondital har det første interval således bredden 15, det sidste interval har bredden 20, mens de øvrige intervaller kun har bredden 5. Det første interval og det sidste interval er derfor fortegnet i søjlediagrammet, idet søjlerne dels er tegnet for smalle, dels for høje. De har godt nok det rigtige areal i forhold til de andre søjler, men hvis de skulle tegnes korrekt, skulle vi først opdele disse intervaller i samme bredde som de øvrige og dernæst fordele procenterne ligeligt på de derved opståede underintervaller. Det kan gøres ved at tilføje to nye observationsintervaller knyttet til det første delinterval og tre nye observationsintervaller knyttet til sidste delinterval og så fordele procenterne passende (i tabellen nedenunder er det gjort ved afrunding til én decimal, dvs. vi har tilnærmet 2.5%/3 med 0.8% og 7.5%/4 med 1.9%) Udvidet datasæt kondital 1995 Kondital Frekvens Udvidet datasæt kondital Søjlediagram Kondital Frekvens I sammenligning med det oprindelige søjlediagram har vi altså opdelt den første søjle vandret i tre lige store søjler og placeret dem ved siden af hinanden og tilsvarende har vi opdelt den sidste søjle vandret i fire lige store søjler og placeret dem ved siden af hinanden. Nu svarer kategoriaksen faktisk til en normal koordinatakse med en ækvidistant inddeling, og højderne af søjlerne afspejler tæthedsfordelingen for observationerne. Den lodrette skala er dog ikke korrekt justeret i forhold til tæthederne, idet det samlede areal er 5 100%. Når vi arbejder med grupperede data kan vi kun få en rimelig grafisk fremstilling af datasættet i form af et histogram, hvis det tegnes som et søjlediagram baseret på en opdeling i delintervaller (båse) med samme bredde. 36

37 Det er denne sumkurve, der giver en god tilnærmelse til fraktilplottet. Netop i kraft af vores grundlæggende antagelse om at observationerne ligger jævnt fordelt i hvert af delintervallerne, vil den kumulerede frekvens stige jævnt i hvert af delintervallerne, dvs. grafen for den kumulerede frekvens vil nødvendigvis være et ret linjestykke, der forbinder de kumulerede frekvenser i intervalendepunkterne. Sumkurven danner udgangspunkt for en lang række statistiske beregninger. Netop fordi dataene er grupperede kan vi ikke anvende de indbyggede statistiske værktøjer til at finde medianer, kvartiler osv. I stedet aflæser vi medianer, kvartiler (og andre fraktiler) fra sumkurven. Det gøres nemmest ved at tegne vandrette linjer svarende til 25%, 50% og 75% som grafer for de tilsvarende konstante funktioner, dvs. ved at højreklikke i grafrummet og vælge menupunktet Plot funktion: 37

38 Udfører vi en grafsporing langs grafen for fx f1(x) = 25 procent dukker der et grafpunkt op med koordinater, hvoraf det ses, at 25%-fraktilen (første kvartil) med tilnærmelse er givet ved konditallet Hvis vi vil aflæse det lidt mere præcist kan det betale sig at oprette en dublet af grafen og derefter spore skæringspunktet. Men husk at det under alle omstændigheder er et skøn over den første fraktil vi finder på denne måde, så det giver ingen mening at forsøge at trække en alt for præcis værdi ud af aflæsningen. På samme måde kan vi nemt finde median og tredje kvartil: På den måde har vi altså aflæst kvartilsættet til (Q 1 = 23.25, Median = 28.0, Q 3 = 32.9) Da mindste og største observation må skønnes at ligge i første og sidste intervalendepunkt, har vi endda opnået et rimeligt skøn over det udvidede kvartilsæt bestående af de fem statistiske nøgletal (Minimum=0, Q 1 =23.25, Median=28.0, Q 3 =32.9, Maksimum=60) 38

39 Boksplot for grupperede observationer Det åbner mulighed for at konstruere et tilnærmet boksplot. Vi kan ikke bruge selve datasættet med de forarbejdede grupperede data, men vi kan oprette en ny tabel med sit eget datasæt, hvor vi indskriver det udvidede datasæt. Vi er da nødt til at gentage medianen, da vi ellers ikke får splittet det komprimerede datasæt korrekt, så det gengiver de korrekte kvartilværdier! Trækkes variablen Kvartilværdi ind på førsteaksen som en uafhængig variabel kan vi dernæst få tegnet et boksplot, der netop bygger på disse fem nøgletal: Her kan vi selvfølgelig blive lidt skuffet over at minimum og maksimum bare afsættes som punkter og ikke forbindes med kvartilboksen med linjestykker, men kvartilboksen er så tynd, at de opfattes som perifere observationer, dvs. det er ret usædvanligt at have et kondital, der så lavt eller så stort. Halvdelen af danskernes kondital ligger mellem og Hvis vi vil konstruere et pænere boksplot for fordelingen kan vi bare højreklikke og tilføje linjestykker til kvartilboksen: 39

40 Middelværdien for grupperede observationer Vi mangler nu kun at kunne skønne over middelværdien for at have alle de sædvanlige deskriptorer til rådighed. For at skønne over middelværdien skal vi nu anvende et vægtet gennemsnit. Det første skridt består i at erstatte ethvert delinterval med dets midtpunkt. Det følger af vores grundlæggende antagelse at alle observationerne i et delinterval ligger jævnt fordelt i intervallet og vi kan derfor netop udregne deres bidrag til middelværdien ved at samle dem i midtpunktet for intervallet. Derefter vægter vi dem med frekvenserne, så de netop indgår med de relative vægte, der svarer til de antal/hyppigheder, der repræsenterer. Da der er langt flere observationer i fx delintervallet fra end i delintervallet fra 15-20, skal de første selvfølgelig også vægtes højere i udregningen af middeltallet: Her kan vi selvfølgelig nemt selv udregne midtpunkterne; det afgørende er blot at vi benytter formlen for et vægtet gennemsnit: sum( vægt variabel) = = sum( vægt) Det er derfor vi har to argumenter i kommandoen for middelværdien, først dataværdierne (midtpunkterne) og dernæst frekvenserne. Vi ser så i den sidste søjle at middeltallet er givet ved konditallet 28.7, hvor vi igen afrunder passende (da der jo under alle omstændigheder er tale om et skøn). Da middeltallet ligger en anelse højere end medianen er der tale om en (svag) højreskæv fordeling. Dette er i overensstemmelse med de grafiske fremstillinger, der viser at fordelingen nok med god tilnærmelse er symmetrisk, men at den højre hale er lidt længere og mere fyldig end den venstre hale. Det er også i overensstemmelse med at fordelingen har en naturlig nedre grænse, idet det ikke giver mening at have et negativt kondital, mens der ikke på samme måde findes en naturlig øvre grænse for konditallet, jfr. indkomstfordelinger, der ofte er højreskæve. 40

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave]

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave] Statistik med TI-Nspire CAS version 3.2 Bjørn Felsager September 2012 [Fjerde udgave] Indholdsfortegnelse Forord Beskrivende statistik 1 Grundlæggende TI-Nspire CAS-teknikker... 4 1.2 Lister og regneark...

Læs mere

Introduktion til. DataMeter 2. Bjørn Felsager. Statistik med DataMeter. Forlag Malling Beck Læhegnet 71 2620 Albertslund

Introduktion til. DataMeter 2. Bjørn Felsager. Statistik med DataMeter. Forlag Malling Beck Læhegnet 71 2620 Albertslund Introduktion til DataMeter 2 Bjørn Felsager Statistik med DataMeter Forlag Malling Beck Læhegnet 71 2620 Albertslund Titel: Introduktion til DataMeter 2: Statistik med DataMeter Samhørende titel: DataMeter

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

Deskriptiv statistik for matc i stx og hf

Deskriptiv statistik for matc i stx og hf Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Statistik med TI-Nspire CAS version 2.1

Statistik med TI-Nspire CAS version 2.1 Statistik med TI-Nspire CAS version 2.1 Bjørn Felsager August 2010 Indhold Forord... 4 Beskrivende statistik 1 Grundlæggende TI-Nspire CAS-teknikker... 5 1.1 Velkommen til TI-Nspire CAS... 5 1.2 Lister

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

I. Deskriptiv analyse af kroppens proportioner

I. Deskriptiv analyse af kroppens proportioner Projektet er delt i to, og man kan vælge kun at gennemføre den ene del. Man kan vælge selv at frembringe data, fx gennem et samarbejde med idræt eller biologi, eller man kan anvende de foreliggende data,

Læs mere

for gymnasiet og hf 2017 Karsten Juul

for gymnasiet og hf 2017 Karsten Juul for gymnasiet og hf 75 50 5 017 Karsten Juul Statistik for gymnasiet og hf 017 Karsten Juul 5/11-017 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm Hæftet må benyttes i undervisningen

Læs mere

Statistik. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer.

Statistik. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer. Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

QR15 Vejledning i at bestemme kvartilsæt og at tegne sumkurver med Nspire, Maple og Geogebra

QR15 Vejledning i at bestemme kvartilsæt og at tegne sumkurver med Nspire, Maple og Geogebra QR15 Vejledning i at bestemme kvartilsæt og at tegne sumkurver med Nspire, Maple og Geogebra Nspire: Vi har et datasæt. Der er overordnet to metoder til at tegne sumkurver i programmet, og vi beskriver

Læs mere

Deskriptiv statistik (grupperede observationer)

Deskriptiv statistik (grupperede observationer) Deskriptiv statistik (grupperede observationer) Tallene er hentet fra Arbejdsbog B1 (2.udg.) eller Arbejdsbog B2, øvelse 408: Der åbnes et Lister og Regneark værksted og observationerne indtastes og navngives:

Læs mere

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal.

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal. Statistik Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal. Derved får man et samlet overblik over talmaterialet, og man kan konkludere

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

Grupperede observationssæt Deskriptiv statistik: Middelværdi, frekvensfordeling, sumkurve, kvartilsæt, boxplot

Grupperede observationssæt Deskriptiv statistik: Middelværdi, frekvensfordeling, sumkurve, kvartilsæt, boxplot Grupperede datasæt: Middelværdi, intervalfrekvens og kumuleret frekvens. Bilbestandens alder i 2005 fremgår af følgende tabel. Alder i år ]0;4] ]4;8] ]8;12] ]12;16] ]16;20] ]20;24] Antal i tusinde 401

Læs mere

Taldata 1. Chancer gennem eksperimenter

Taldata 1. Chancer gennem eksperimenter Taldata 1. Chancer gennem eksperimenter Indhold 1. Kast med to terninger 2. Et pindediagram 3. Sumtabel 4. Median og kvartiler 5. Et trappediagram 6. Gennemsnit 7. En statistik 8. Anvendelse af edb 9.

Læs mere

Statistik (deskriptiv)

Statistik (deskriptiv) Statistik (deskriptiv) Ikke-grupperede data For at behandle ikke-grupperede data i TI, skal data tastes ind i en liste. Dette kan gøres ved brug af List, hvis ikon er nr. 5 fra venstre på værktøjsbjælken

Læs mere

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) Projekt 2.4 Menneskets proportioner (Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) I. Deskriptiv analyse

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå.

Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå. Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå. Hvis man fx samler de karakterer, der er givet til en eksamen i én stor bunke (se herunder), kan det være svært

Læs mere

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS INDHOLD 2 Formål 2 LOPAKS 3 Begreber 6 Eksempler 6. december 2010 LOPAKS er nu udvidet med en ny tabel, der giver mulighed for at opgøre lønspredning på

Læs mere

brikkerne til regning & matematik statistik preben bernitt

brikkerne til regning & matematik statistik preben bernitt brikkerne til regning & matematik statistik 2+ preben bernitt brikkerne til regning & matematik statistik 2+ 1. udgave som E-bog ISBN: 978-87-92488-33-6 2009 by bernitt-matematik.dk Kopiering af denne

Læs mere

Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k

Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k Statistik 5 Statistik er en meget omfattende matematisk disciplin, og den anvendes i meget stor udstrækning i vores moderne samfund. Den handler om at analysere et (ofte meget stort) talmateriale. Det

Læs mere

Deskriptiv statistik. for C-niveau i hf. 2015 Karsten Juul

Deskriptiv statistik. for C-niveau i hf. 2015 Karsten Juul Deskriptiv statistik for C-niveau i hf 75 50 25 2015 Karsten Juul DESKRIPTIV STATISTIK 1.1 Hvad er deskriptiv statistik?...1 1.2 Hvad er grupperede og ugrupperede data?...1 1.21 Eksempel pä ugrupperede

Læs mere

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau)

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau) Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter En sumkurve fremkommer ifølge definitionen, ved at vi forbinder en række punkter afsat i et koordinatsystem med rette

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.

Læs mere

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime 5. Statistik Hayati Balo,AAMS Følgende fremstilling er baseret på 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime 1. Ugrupperede Observationer Hvis der foreligger et antal målinger eller observationer

Læs mere

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF Sammenligning af to måleserier En af de mest grundlæggende problemstillinger i statistik består i at undersøge om to forskellige måleserier er signifikant forskellige eller om forskellen på de to serier

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Analyse af en lineær regression med lav R 2 -værdi

Analyse af en lineær regression med lav R 2 -værdi Analyse af en lineær regression med lav R 2 -værdi Denne gennemgang omhandler figur 13 i Regn med biologi. Man kan sagtens lave beregninger på egne data. Forsøgsmæssigt kræver det bare en tommestok tapet

Læs mere

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab

Læs mere

Graph brugermanual til matematik C

Graph brugermanual til matematik C Graph brugermanual til matematik C Forord Efterfølgende er en guide til programmet GRAPH. Programmet kan downloades gratis fra nettet og gemmes på computeren/et usb-stik. Det betyder, det også kan anvendes

Læs mere

Nogle emner fra. Deskriptiv Statistik. 2011 Karsten Juul

Nogle emner fra. Deskriptiv Statistik. 2011 Karsten Juul Nogle emner fra Deskriptiv Statistik 75 50 25 2011 Karsten Juul Indhold Hvad er deskriptiv statistik?... 1 UGRUPPEREDE OBSERVATIONER Hyppigheder... 1 Det samlede antal observationer... 1 Middeltallet...

Læs mere

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet Projekt 1 Spørgeskemaanalyse af Bedst på Nettet D.29/2 2012 Udarbejdet af: Katrine Ahle Warming Nielsen Jannie Jeppesen Schmøde Sara Lorenzen A) Kritik af spørgeskema Set ud fra en kritisk vinkel af spørgeskemaet

Læs mere

Mini AT-forløb om kommunalvalg: Mandatfordeling og Retfærdighed 1.x og 1.y 2009 ved Ringsted Gymnasium MANDATFORDELING

Mini AT-forløb om kommunalvalg: Mandatfordeling og Retfærdighed 1.x og 1.y 2009 ved Ringsted Gymnasium MANDATFORDELING MANDATFORDELING Dette materiale er lavet som supplement til Erik Vestergaards hjemmeside om samme emne. 1 http://www.matematiksider.dk/mandatfordelinger.html I dette materiale er en række øvelser der knytter

Læs mere

Matematik og samfundsfag Gini-koefficienten

Matematik og samfundsfag Gini-koefficienten Erik Vestergaard www.matematikfysik.dk Matematik og samfundsfag Gini-koefficienten Den såkaldte Gini-koefficient, introduceret i 92 i en artikel af den italienske statistiker, demograf og sociolog Corrado

Læs mere

Ved et folketingsvalg eller en folkeafstemning spørger man alle stemmeberettigede, og kun en del af dem stemmer.

Ved et folketingsvalg eller en folkeafstemning spørger man alle stemmeberettigede, og kun en del af dem stemmer. Matematik C (må anvendes på Ørestad Gymnasium) Statistik Statistik er bearbejdning af talmaterialer, der ofte indeholderstore mængder af tal. De indsamles og registreres i mange forskellige sammenhænge

Læs mere

c. Radius for hver sekter er målt i cm og angivet i følgende tabel. Desuden er arealet af hvert område beregnet.

c. Radius for hver sekter er målt i cm og angivet i følgende tabel. Desuden er arealet af hvert område beregnet. Kapitel 2 Øvelse 2.2 Cirklen er inddelt i 12 sektorer, én for hver måned. Antallet af dødsfald vokser kraftigt i juli og august og er højt flere måneder, men stiger yderligere hen over vintermånederne.

Læs mere

Løsninger til kapitel 1

Løsninger til kapitel 1 Opgave. a) observation hyppighed frekvens kum. frekvens 2,25,25 3,875,325 2 3,875,5 3 3,875,6875 4,625,75 5,625,825 6,,825 7 2,25,9375 8,,9375 9,625, Frekvenser illustreres i et pindediagram,2,8,6,4,2,,8,6,4,2

Læs mere

Statistik med Boxplot

Statistik med Boxplot 11 Statistik med Boxplot Til dette afsnit skal du benytte Stats-List Editoren (SL-editoren). Har du ikke denne applikation installeret, så hent den på TI's hjemmeside. Nøgletal Boxplot bygger på en undersøgelse

Læs mere

Noter til Statistik. Lisbeth Tavs Gregersen. 1. udgave

Noter til Statistik. Lisbeth Tavs Gregersen. 1. udgave Noter til Statistik Lisbeth Tavs Gregersen 1. udgave 1 Indhold 1 Intro 3 1.1 HF Bekendtgørelsen........................ 3 1.2 Deskriptiv statistik......................... 3 2 Ikke-grupperet Talmateriale

Læs mere

Lineære sammenhænge, residualplot og regression

Lineære sammenhænge, residualplot og regression Lineære sammenhænge, residualplot og regression Opgave 1: Er der en bagvedliggende lineær sammenhæng? I mange sammenhænge indsamler man data som man ønsker at undersøge og afdække eventuelle sammenhænge

Læs mere

Grupperet materiale kan f.eks. være befolkningsdata eller indkomstfordelinger.

Grupperet materiale kan f.eks. være befolkningsdata eller indkomstfordelinger. Thomas Jensen & Morten Overgård Nielsen At bestemme kvartilsæt Indhold - At finde kvartilsæt i ikke-grupperet datamateriale (link til dokumentet her) - At bestemme kvartilsæt ved hjælp af Excel (link til

Læs mere

Projekt 6.1 Rygtespredning - modellering af logistisk vækst

Projekt 6.1 Rygtespredning - modellering af logistisk vækst Projekt 6.1 Rygtespredning - modellering af logistisk vækst (Projektet anvender værktøjsprogrammet TI Nspire) Alle de tilstedeværende i klassen tildeles et nummer, så med 28 elever i klassen uddeles numrene

Læs mere

Huskeliste Printark. U4 Tastetider U5 Hvor hurtigt regner du? E4 Begreber og fagord - Statistik. Materialer. Mobiltelefon Stopur

Huskeliste Printark. U4 Tastetider U5 Hvor hurtigt regner du? E4 Begreber og fagord - Statistik. Materialer. Mobiltelefon Stopur Statistik - Lærervejledning Om kapitlet I dette kapitel om statistik skal eleverne arbejde med statistik og lære at indsamle, beskrive, bearbejde og præsentere store mængder af tal og data. I kapitlet

Læs mere

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres) Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres) Til Gribskovløbet 006 gennemførte 118 kvinder 1,4 km distancen. Fordelingen af kvindernes løbstider

Læs mere

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014 Vejledning til udvalgte opgave fra Matematik B, sommer 2014 Opgave 7 Størrelsen og udbudsprisen på 100 fritidshuse på Rømø er indsamlet via boligsiden.dk. a) Grafisk præsentation, der beskriver fordelingen

Læs mere

Grupperede observationer

Grupperede observationer Grupperede observationer Tallene i den følgende tabel viser antallet af personer på Læsø 1.januar 2012, opdelt i 10-års intervaller. alder antal 0 131 10 181 20 66 30 139 40 251 50 318 60 421 70 246 80

Læs mere

Hvad siger statistikken?

Hvad siger statistikken? Eleverne har tidligere (fx i Kolorit 7, matematik grundbog) arbejdet med især beskrivende statistik (deskriptiv statistik). I dette kapitel fokuseres i højere grad på, hvordan datamateriale kan tolkes

Læs mere

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4 BH Test for normalfordeling i WordMat Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4 Grupperede observationer Vi tager udgangspunkt i

Læs mere

Funktioner. 1. del Karsten Juul

Funktioner. 1. del Karsten Juul Funktioner 1. del 0,6 5, 9 2018 Karsten Juul 1. Koordinater 1.1 Koordinatsystem... 1 1.2 Kvadranter... 1 1.3 Koordinater... 2 1.4 Aflæs x-koordinat... 2 1.5 Aflæs y-koordinat... 2 1.6 Koordinatsæt... 2

Læs mere

Statistik - supplerende eksempler

Statistik - supplerende eksempler - supplerende eksempler Grupperede observationer: Middelværdi og summeret frekv... 82b Indekstal... 82c Median, kvartil, boksplot... 82e Sumkurver... 82h Side 82a Grupperede observationer: Middelværdi

Læs mere

How to do in rows and columns 8

How to do in rows and columns 8 INTRODUKTION TIL REGNEARK Denne artikel handler generelt om, hvad regneark egentlig er, og hvordan det bruges på et principielt plan. Indholdet bør derfor kunne anvendes uden hensyn til, hvilken version

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF

Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF Tusind kugler Et matematikeksperiment: Bjørn Felsager, Haslev Gymnasium & HF I en nyligt udkommen ungdomsroman om en ung svensk gymnasiepiges fortrædeligheder bruges et kuglespil ('galtonbræt') som en

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Matematik i Word. En manual til elever og andet godtfolk. Indhold med hurtig-links. Kom godt i gang med Word Matematik. At regne i Word Matematik

Matematik i Word. En manual til elever og andet godtfolk. Indhold med hurtig-links. Kom godt i gang med Word Matematik. At regne i Word Matematik Matematik i Word En manual til elever og andet godtfolk. Indhold med hurtig-links Kom godt i gang med Word Matematik At regne i Word Matematik Kom godt i gang med WordMat Opsætning, redigering og kommunikationsværdi

Læs mere

Dig og din puls Lærervejleding

Dig og din puls Lærervejleding Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet

Læs mere

Projektopgave Observationer af stjerneskælv

Projektopgave Observationer af stjerneskælv Projektopgave Observationer af stjerneskælv Af: Mathias Brønd Christensen (20073504), Kristian Jerslev (20072494), Kristian Mads Egeris Nielsen (20072868) Indhold Formål...3 Teori...3 Hvorfor opstår der

Læs mere

Differentialligninger med TI Nspire CAS version 3.1

Differentialligninger med TI Nspire CAS version 3.1 Differentialligninger med TI Nspire CAS version 3.1 Der er tilføjet en ny graftype til Graf værkstedet kaldet Diff lign. Denne nye graftype er en implementering af differentialligningerne som vi kender

Læs mere

Seriediagrammer - Guide til konstruktion i LibreOffice Calc

Seriediagrammer - Guide til konstruktion i LibreOffice Calc Seriediagrammer - Guide til konstruktion i LibreOffice Calc På forbedringsvejlederuddannelsen anvender vi seriediagrammer til at skelne mellem tilfældig og ikketilfældig variation. Med et seriediagram

Læs mere

Potensfunktioner samt proportional og omvent proportional. for hf Karsten Juul

Potensfunktioner samt proportional og omvent proportional. for hf Karsten Juul Potensfunktioner samt proportional og omvent proportional for hf 2018 Karsten Juul Potensfunktion 1. Oplæg til forskrift for potensfunktion...1 2. Forskrift for potensfunktion...2 3. Udregn x eller y i

Læs mere

Projekt 1.4 Tagrendeproblemet en instruktiv øvelse i modellering med IT.

Projekt 1.4 Tagrendeproblemet en instruktiv øvelse i modellering med IT. Projekt 1.4 Tagrendeproblemet en instruktiv øvelse i modellering med IT. Projektet kan bl.a. anvendes til et forløb, hvor en af målsætningerne er at lære om samspillet mellem værktøjsprogrammernes geometriske

Læs mere

Residualer i grundforløbet

Residualer i grundforløbet Erik Vestergaard www.matematikfysik.dk 1 Residualer i grundforløbet I dette lille tillæg til grundforløbet, skal vi kigge på begreberne residualer, residualplot samt residualspredning. Vi vil se, hvad

Læs mere

Fig. 1 Billede af de 60 terninger på mit skrivebord

Fig. 1 Billede af de 60 terninger på mit skrivebord Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge

Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Tilfældige rektangler: Et matematikeksperiment Variable og sammenhænge Baggrund: I de senere år har en del gymnasieskoler eksperimenteret med HOT-programmet i matematik og fysik, hvor HOT står for Higher

Læs mere

Et CAS program til Word.

Et CAS program til Word. Et CAS program til Word. 1 WordMat WordMat er et CAS-program (computer algebra system) som man kan downloade gratis fra hjemmesiden www.eduap.com/wordmat/. Programmet fungerer kun i Word 2007 og 2010.

Læs mere

Lektion 9s Statistik - supplerende eksempler

Lektion 9s Statistik - supplerende eksempler Lektion 9s Statistik - supplerende eksempler Middelværdi for grupperede observationer... Summeret frekvens og sumkurver... Indekstal... Lektion 9s Side 1 Grupperede observationer Hvis man stiller et spørgsmål,

Læs mere

9 Statistik og sandsynlighed

9 Statistik og sandsynlighed 9 Statistik og sandsynlighed Faglige mål Kapitlet Statistik og sandsynlighed tager udgangspunkt i følgende faglige mål: Enkeltobservationer: kunne skabe overblik over statistisk materiale og anvende udvalgte

Læs mere

Differentialregning. Et oplæg Karsten Juul L P

Differentialregning. Et oplæg Karsten Juul L P Differentialregning Et oplæg L P A 2009 Karsten Juul Til eleven Dette hæfte kan I bruge inden I starter på differentialregningen i lærebogen Det meste af hæftet er små spørgsmål med korte svar Spørgsmålene

Læs mere

Vejledning i at tegne boksplot i Excel 2007

Vejledning i at tegne boksplot i Excel 2007 Vejledning i at tegne boksplot i Excel 2007 Indhold Tegning af boksplot. Man kan ikke tegne flere boksplot på samme figur i Excel 2007, men man kan sammenligne to boksplot ved at tegne dem hver for sig

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Vejledning i brug af Gym-pakken til Maple

Vejledning i brug af Gym-pakken til Maple Vejledning i brug af Gym-pakken til Maple Gym-pakken vil automatisk være installeret på din pc eller mac, hvis du benytter cd'en Maple 16 - Til danske Gymnasier eller en af de tilsvarende installere. Det

Læs mere

for matematik pä B-niveau i hf

for matematik pä B-niveau i hf for matematik pä B-niveau i hf 75 50 5 016 Karsten Juul GRUPPEREDE DATA 1.1 Hvad er deskriptiv statistik?...1 1. Hvad er grupperede og ugrupperede data?...1 1.1 Eksempel pä ugrupperede data...1 1. Eksempel

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Projekt 9.5 Racefordomme i USA og Simpsons paradoks (B og A)

Projekt 9.5 Racefordomme i USA og Simpsons paradoks (B og A) Projekt 9.5 Racefordomme i USA og Simpsons paradoks (B og A) (Data er hentet fra M. Radelet, "Racial characteristics and imposition of death penalty", American Sociological Review, 46 (1981), pp 918-927

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Maj 2013 Maj-juni, 13. Denne plan dækker efteråret 2012 og foråret 2013. Institution Uddannelse Fag og niveau

Læs mere

Median, kvartiler, boksplot og sumkurver

Median, kvartiler, boksplot og sumkurver Median, kvartiler, boksplot og sumkurver Median, kvartil, boksplot og sumkurver... 2 Opgaver... 7 Side 1 Median, kvartil, boksplot og sumkurver Medianen er det midterste af en række tal, der er skrevet

Læs mere

Vektorer og lineær regression

Vektorer og lineær regression Vektorer og lineær regression Peter Harremoës Niels Brock April 03 Planproduktet Vi har set, at man kan gange en vektor med et tal Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden

Læs mere

Mathcad Survival Guide

Mathcad Survival Guide Mathcad Survival Guide Mathcad er en blanding mellem et tekstbehandlingsprogram (Word), et regneark (Ecel) og en grafisk CAS-lommeregner. Programmet er velegnet til matematikopgaver, fysikrapporter og

Læs mere

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER Undervisningseffekten udregnes som forskellen mellem den forventede og den faktiske karakter i 9. klasses afgangsprøve. Undervisningseffekten udregnes

Læs mere

Vektorer og lineær regression. Peter Harremoës Niels Brock

Vektorer og lineær regression. Peter Harremoës Niels Brock Vektorer og lineær regression Peter Harremoës Niels Brock April 2013 1 Planproduktet Vi har set, at man kan gange en vektor med et tal. Et oplagt spørgsmål er, om man også kan gange to vektorer med hinanden.

Læs mere

Hvad er meningen? Et forløb om opinionsundersøgelser

Hvad er meningen? Et forløb om opinionsundersøgelser Hvad er meningen? Et forløb om opinionsundersøgelser Jette Rygaard Poulsen, Frederikshavn Gymnasium og HF-kursus Hans Vestergaard, Frederikshavn Gymnasium og HF-kursus Søren Lundbye-Christensen, AAU 17-10-2004

Læs mere

Oprids over grundforløbet i matematik

Oprids over grundforløbet i matematik Oprids over grundforløbet i matematik Dette oprids er tænkt som en meget kort gennemgang af de vigtigste hovedpointer vi har gennemgået i grundforløbet i matematik. Det er en kombination af at repetere

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Institution Uddannelse Fag og niveau Lærer(e) Hold Termin hvori undervisningen afsluttes: Maj-juni, 11. Denne

Læs mere

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse.

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse. Opdateret 28. maj 2014. MD Ofte brugte kommandoer i Geogebra. Generelle Punktet navngives A Geogebra navngiver punktet Funktionen navngives f Funktionen navngives af Geogebra Punktet på grafen for f med

Læs mere

Specialkort med Valgdata

Specialkort med Valgdata Specialkort med Valgdata Søren Risbjerg Thomsen d. 25. april 2017 Introduktion I det følgende beskrives, hvordan man anvender Valgdata til at skabe specialkort, dvs. kort hvor man selv bestemmer indholdet

Læs mere

Årsplan matematik 5. klasse. Kapitel 1: Godt i gang

Årsplan matematik 5. klasse. Kapitel 1: Godt i gang Årsplan matematik 5. klasse Kapitel : Godt i gang I bogens første kapitel får eleverne mulighed for at repetere det faglige stof, som de arbejdede med i 4. klasse. Kapitlet er udformet som en storyline

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Deskriptiv statistik

Deskriptiv statistik Deskriptiv statistik Billedet Collage (IM) med hjælp fra Danmarks Statistik, Volsted Plantage Jagtkonsortium og Kriminalforsorgen Version 1.7 incl. Sandsynlighed 16-3-2009 Editeret 18-1-2012 og 6-2-2012

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe

Læs mere

statistik og sandsynlighed

statistik og sandsynlighed brikkerne til regning & matematik statistik og sandsynlighed trin 2 preben bernitt brikkerne statistik og sandsynlighed 2 1. udgave som E-bog ISBN: 978-87-92488-20-6 2004 by bernitt-matematik.dk Kopiering

Læs mere

Læring af test. Rapport for. Aarhus Analyse Skoleåret

Læring af test. Rapport for. Aarhus Analyse  Skoleåret Læring af test Rapport for Skoleåret 2016 2017 Aarhus Analyse www.aarhus-analyse.dk Introduktion Skoleledere har adgang til masser af data på deres elever. Udfordringen er derfor ikke at skaffe adgang

Læs mere

Brugervejledning til Graph

Brugervejledning til Graph Graph (brugervejledning) side 1/17 Steen Toft Jørgensen Brugervejledning til Graph Graph er et gratis program, som ikke fylder meget. Downloades på: www.padowan.dk/graph/. Programmet er lavet af Ivan Johansen,

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Maj 2014 Institution Roskilde Handelsskole Uddannelse Fag og niveau Lærer(e) Hold Hhx Matematik C Mads Jørgensen

Læs mere