Introduktion til Excel 2007 Grete Ridder Ebbesen Virum Gymnasium 14. september 2009
INDHOLD 1 Indhold 1 Generelt om Excel 2 1.1 Opstart.............................. 2 1.2 Indtastning i Excel........................ 3 1.3 Formatering og lidt redigering.................. 4 1.4 Formler.............................. 6 2 "Diagrammer"i Excel 11 2.1 Søjlediagrammer......................... 11 2.2 xy-plot............................... 15 2.2.1 Den gode graf....................... 19 3 Regression 20 3.1 xy-sammenhænge og regression................. 20 3.1.1 Lineær regression..................... 20 3.1.2 Eksponentiel regression................. 22 3.1.3 Potensregression..................... 26 4 Statistik 27 4.1 Diskrete observationer...................... 27 4.1.1 Observationssættets størrelse.............. 28 4.1.2 Middeltal, mindsteværdi og størsteværdi........ 29 4.1.3 Typetal, kvartiler og spredning............. 29 4.1.4 Hyppigheder, frekvenser og stolpediagrammer..... 30 4.1.5 Boxplots.......................... 34 4.2 Grupperede observationer.................... 37
1 GENERELT OM EXCEL 2 1 Generelt om Excel 1.1 Opstart Excel er et regnearksprogram, hvor man kan lave talbehandling, grafer og meget andet. En Excel-fil har efternavnet.xlsx og kaldes en projektmappe, som består af et antal regneark. Når Excel startes, vises et tomt regneark i projektmappen - se figur 1. Som sædvanligt for Windows-programmer, er Figur 1 Et regneark der foroven en menulinie med forskellige værktøjer, se figur 2 Figur 2 Menulinje Allernederst er der en statuslinie og lige over den, kan man se nogle arkfaner. Excel projektmappe kan indeholde lige så mange ark, det skal være, og man kan kalde dem noget mere sigende end Ark1 osv. Det gør man ved at dobbeltklikke på navnet, skrive et nyt og klikke et sted i arket. På den måde kan man adskille forskellige dele af en opgave ved f.eks. at samle alle indtastede data i et ark, beregninger i et andet og grafer i et tredje.
1 GENERELT OM EXCEL 3 Figur 3 Arkfaner, som kan omdøbes Hvert regneark består af en masse celler, som navngives efter hvilken kolonne og hvilken række, de står i. Kolonnerne angives ved et stort bogstav, startende med A, B, C..., mens rækkerne har hvert sit nummer, startende med 1,2,3... En celles navn f.eks. B4 kaldes også dens adresse. Man markerer (aktiverer) en celle med et venstreklik med musen. Hvis man vil have markeret cellerne i et helt område, peger man med musen på den første celle i området og holder venstre museknap nede, mens man markerer området. Når museknappen slippes, er det valgte område markeret. Den markerede celle eller det markerede område vises i regnearket med en fed ramme - på figur 1 er det A1. Man bevæger den aktive celle rundt i regnearket enten ved brug af tastaturets piletaster eller ved at klikke rundt med musen. 1.2 Indtastning i Excel Det er såre simpelt at indtaste data. Klik f.eks. i cellen B4 og tast 1 og tryk ENTER. Celle B4 er skiftet fra at være tom til at indeholde tallet 1 og nu er cellen nedenunder (B5) den aktive celle. Prøv f.eks. at indtaste tallene fra 2 til 10 ind i området B4:B13, som vist på figur 4. Hvis man har tastet galt, kan man altid redigere en celle ved at dobbeltklikke på den. Figur 4 Indtastede tal Indholdet i den aktive celle kan altid ses i formellinjen øverst på siden,
1 GENERELT OM EXCEL 4 hvor man også kan redigere i cellens indhold. Figur 5 Forskellige datatyper i Excel Celleindholdet kan være et tal, en tekst eller en formel, se figur 5. Tal er data, som kun består af cifre evt. med et fortegn eller decimaltegn. Data, der indeholder et bogstav, opfattes som tekst pånær i celleadresser. En indtastning, der starter med = er en formel. 1.3 Formatering og lidt redigering Som i Word kan du ændre udseendet på de data, der står i cellerne. Tekst vil automatisk blive venstrestillet i en celle, mens tal justeres højrestillet i cellerne. Hvis man ønsker, at data skal placeres anderledes, markerer man først de pågældende celler ved pege på den første celle og holde venstre musetast nede, mens der trækkes hen over de celler, der skal formateres, og slippe musetasten. I menulinjen peges på en af de små pile under Skrifttype, Justering eller Tal, og man får et undervindue frem, se figur 6, hvor man så kan vælge efter lyst. Normalt vil der også være mulighed for at benytte knapper på værktøjslinjen til de mest almindelige formateringer som placering (venstre, centrer og højre) og skrifttyperne (fed, kursiv og understreget). To rigtigt gode værktøjsknapper er Forøg decimal og Formindsk decimal, som ændrer antallet af viste decimaler i tal. Hvis man ønsker at formatere en hel kolonne eller række, klikker man på kolonnens bogstav eller rækkens nummer. Herved markeres alle cellerne i kolonnen eller rækken og kan formateres efter ønske. Når man sidder og skriver i en celle, sker det gang på gang, at der ikke er plads til teksten eller tallet i cellen. Hvis det er tekst, der skrives, og cellerne til højre er tomme, skrives teksten bare ind over disse. For tal kan der ske lidt af hvert, afhængig af den formatering man har valgt, se figur 7. Det er ikke noget problem, for man kan ændre kolonnebredderne efter behov. Når man peger på den lodrette streg mellem to kolonneoverskrifter,
1 GENERELT OM EXCEL 5 Figur 6 Formateringsmuligheder i Excel Figur 7 For lange indtastninger Figur 8 Kolonne A tilpasset ændres musen til en dobbeltpil med en lodret streg igennem, som viser, at nu kan man flytte skillelinjen mellem de to kolonner til venstre eller højre efter behov. På samme måde kan man også ændre en rækkes højde ved at rykke på den vandrette linje mellem to rækkenumre. I regnearket kan man indsætte og fjerne rækker eller kolonner. Hvis man har markeret en række og vælger Indsæt + række under Celler indsættes en Figur 9 ny tom række over den markerede række (altså før det markerede). Hvis man har markeret end kolonne og vælger Indsæt + kolonne, indsættes en ny tom
1 GENERELT OM EXCEL 6 kolonne til venstre (altså før det markerede igen). 1 1.4 Formler Excel er et regneark dvs. et regneprogram, der kan bruges til at udføre beregninger, der både kan være tidskrævende og vanskelige at udføre manuelt. Man indtaster selv nogle tal, og på grundlag af disse og nogle indtastede formler, kan man i regnearket få foretaget beregninger, opstillet tabeller og få tegnet grafer og diagrammer. Når man skal lave en udregning som f.eks. 15+13 17, skal man først lave en formel. En formel indledes altid med et lighedstegn =, og når udtrykket skal indtastes, er reglerne for indtastningen stort set de samme som på en lommeregner. Gangetegn indtastes som * og må ikke udelades. Formlen står i formellinjen. De almindelige regneoperationer indtastes som +,, * og /. Tegnet ("hat") svarer til at opløfte i en potens dvs. at 3 2 indtastes som 3 2. Hatten er en dødtast, der først vises, når det følgende tegn er indtastet. Hvis man vil tage kvadratroden af et tal, skal man bruge en af de mange standardfunktioner, som er indbygget i Excel. Hvis man f.eks. vil tage kvadratroden af 2809, indtaster man =kvrod(2809), og hvis man ikke lige kan huske, hvad man skal skrive og syntaksen, er der hjælp at hente på værktøjslinjen. Vælg fanebladet Formler og Indsæt funktion f x, se figur 10. Herved vises der et undervindue med forskellige muligheder, og så kan man enten søge efter kvadratroden eller scrolle ned til man møder kvrod og trykke OK. Så indtaster man tallet 2809 og trykker OK, se figur 11. Resultatet vises nu i cellen og formlen i formellinjen, se figur 12. 1 Hvis man "kvajer sig", virker superkommandoen Ctrl+z ("Ups, glem det jeg lige gjorde"), som i Word. Kommandoerne Ctrl+c (kopier), Ctrl+v (sæt ind) og Ctrl+x (klip ud) virker også.
1 GENERELT OM EXCEL 7 Figur 10 Indsæt funktion Figur 11 Figur 12 Den endelige kvadratrod Øvelse 1. Udregn følgende regnestykker ved at indtaste dem i hver sin celle i et regneark
1 GENERELT OM EXCEL 8 a. 17 + 5 8 b. 5 8 + 5 c. 7 : 2 2 d. 17+19 e. 5 3 f. 6 102 5+32 17 g. 67 Til få, simple regninger vil det selvfølgelig være langt hurtigere at bruge en lommeregner end et regneark. Det er ved de mere besværlige eller mange regninger, at regnearket kommer til sin ret, og det er også et glimrende hjælpemiddel, hvis man hurtigt vil skaffe sig et overblik over, hvilken betydning en ændring af en bestemt størrelse får for resultatet af en beregning. Regnearket kan nemlig "læres"ved brug af formler at udføre en regneoperation i en bestemt celle, som så kan overføres til en hel søjle eller række ved en simpel kopiering. Lad os se på nogle muligheder i Excel. Vi starter med et regneark, hvor vi i B4 skriver 10 og markerer cellen B5 (tryk pil ned). I cellen B5 skriver vi nu formelen = B4+10 og ENTER. Nu står der 20 i B5. Går vi op til B5 igen, kan man se formlen i formellinjen. Med musen fanger man nu det nederste højre hjørne (det lille kvadrat) på Figur 13 den aktive celle (der fremkommer et lille sort kryds i hjørnet), og nu holder man den venstre museknap nede, mens man fører musen lodret ned gennem kolonne B, se figur 14. Når man slipper musen, sættes der tal ind i området. Regnearket har kopieret proceduren "læg 10 til tallet i cellen ovenover"ned gennem kolonnen, se figur 15. Nu har vi en liste, der starter med 20 og med 10 imellem tallene, og den kan nemt gøres lige så lang man ønsker; man trækker bare den nederste celle dvs. formlen længere ned. Hvis vi nu går ind og ændrer startværdien i B4 til 7,5, opdaterer regnearket automatisk resten af kolonnen, se figur 16. Når man laver formlerne, behøver man ikke selv skrive celleadressen. Man kan bruge musen til at markere den relevante celle med et venstreklik, og så indsættes celleadressen automatisk. Når man kopierer formlerne, ændrer regnearket cellernes adresser i formlerne, så cellernes relative placering bibe-
1 GENERELT OM EXCEL 9 Figur 14 Figur 15 Figur 16 holdes. Hvis man skal henvise til en fast celle dvs. adressen ikke må ændres ved kopiering, indsættes et $ før bogstavet og et $ før tallet i adressen f.eks $A$2. Øvelse 2. Indtast følgende bilpriser på brugte biler i Excel og udfyld kolonnerne med Moms og Pris med moms.
1 GENERELT OM EXCEL 10 Lav en tilsvarende tabel med en moms på 20%. Øvelse 3. Indtast følgende i et regneark startende med Indkøbspris i A1 og 1200 i B1. Indkøbspris 1200 Salgspris 1800 Fortjeneste I procent Indtast en formel i B3, så regnearket beregne fortjenesten og en formel i B4, så fortjenesten beregnes i forhold til indkøbsprisen. I den sidste formel behøver man ikke gange med 100. Det er langt bedre, at markere cellen og formatere tallet til procent. Gør det. Hvad kommer der til at stå i celle B3 og B4? Passer det? Nu skal du ændrer salgsprisen til 2095 og indkøbsprisen til 1785 i regnearket. Hvad bliver fortjenesten i procent? Øvelse 4. På figur 17 ses nogen data for et mobil abonnement. Indtast Figur 17 disse i et regneark og indtast 27 sms og 5 samtaleminutter i arket. Indtast en formel i B7, der beregner pris per dag udfra tallene i kolonne B. Brug regnearket til at bestemme prisen for dage med følgende kombination af sms og taletid a. 20 sms og 4 min b. 23 sms og 3 min c. 5 sms og 19 min d. 31 sms og 16 min e. 17 sms og 8 min
2 "DIAGRAMMER"I EXCEL 11 2 "Diagrammer"i Excel Udfra indtastede data kan man få Excel til at tegne forskellige typer af diagrammer, hvis lay-out man kan tilpasse, så de bliver meget flotte og nemt kan sættes ind i andre filer. Men Excel er primært et regneprogram og ikke et statistisk program, så ofte vil de diagrammer, man kan få frem, ikke være helt korrekte. På den anden side er det et brugervenligt program, som de fleste har til rådighed, og man støder på Exceldiagrammer overalt. 2.1 Søjlediagrammer Først skal vi selvfølgelig have nogle data at gå udfra. Vi vil se på resultaterne af afstemninger om EU, som vi har indtastet i et regneark, se figur 18. Figur 18 Resultaterne af folkeafstemninger om EU Først skal vi markere de celler, som diagrammet skal laves ud fra. Vi markerer A3:B9 og peger fanebladet Indsæt og vælger Søjle, se figur 19.
2 "DIAGRAMMER"I EXCEL 12 Figur 19 Vi vælger bare den første mulighed (alm 2D søjler)ved klik med musen, og dermed tegnes diagrammet vist på figur 20. Samtidigt aktiveres designværktøjerne: Design, Layout og Formater på værktøjsbjælken. Figur 20 Diagrammet kan nu placeres og redigeres efter ønske. Venstreklik på diagrammet, så det er aktivt(lysegrå "fed"ramme) Peger man på de forskellige dele af diagrammet, popper der en hjælpetekst op, som forklarer, hvad musen peger på i diagrammet. Når musen peger på Diagramområde, har man fat på hele diagrammet og kan flytte det rundt ved at holde venstre museknap nede. Når man slipper museknappen, er diagrammet placeret det nye sted. For at gøre diagrammet større, markerer man diagramområdet og trækker i et hjørne (skrå dobbeltpil). Diagrammet kan kopieres ind i Word-filer, PowerPoints mm. ved hjælp af udklipsholderen og gemmes som grafik ved hjælp af tegneprogrammer.
2 "DIAGRAMMER"I EXCEL 13 Hvis man højreklikker på en af de forskellige dele af diagrammet, kan man vælge Formater og så dukker der et undervindue op med mulighederne. Ved højreklik på den vandrette akse, dukker et vindue op, som ses på figur 21. Figur 21 Ved at lege lidt med formateringen kan man få søjlediagrammet til at se ud som på figur 22. Figur 22
2 "DIAGRAMMER"I EXCEL 14 I det taleksempel vi har set på, har vi set på én serie af tal, nemlig japrocenten. Man kan også lave søjlediagrammer med flere serier af tal. Indtast f.eks. følgende lille tabel over 3 måneders udgifter, markér området, brug ind- Figur 23 sæt diagram. Søjlediagrammet kan ses på figur 24. I diagrammet svarer de Figur 24 afbildede serier til rækkerne i tabellen. Hvis man peger på afbildningsområdet, højreklikker og vælger: Vælg data, kan man skifte mellem rækker og kolonner og få søjlediagrammet vist på 25. Diagrammerne kan formateres efter temperament. Figur 25
2 "DIAGRAMMER"I EXCEL 15 Når man tegner diagrammer i Excel, bruges der en masse betegnelser, som kan være svære at overskue. Det celleområde, man markerer, kaldes kildedata. Kildedata skal indeholde både tekst og tal. Teksten kan indgå dels i kolonneetiketterne og dels rækkeetiketterne, mens de dataværdier, som vises i søjlerne, skal være tal. Hvis man vil lave et cirkeldiagram, markerer man først kildedata, og vælger cirkel under Diagrammer. Kildedata må kun indeholde en dataserie. 2.2 xy-plot Sammenhængen mellem to talstørrelser kan også illustreres ved at tegne en graf i et Excel. Som eksempel tager vi et datasæt, der viser befolkningstallet i Kenya fra 1950 2000. Datasættet indtastes i Excel og kan enten indtastes i en vandret tabel (i rækker, lige som i et sildeben) eller i en lodret tabel, se figur 26. Figur 26 Vi markerer cellerne, vælger indsæt punktdiagram som vist på figur 27(punktdiagram med datapunkter). Figur 27 Herved får man kurven vist i figur 28 som gøres pænere ved at tilføje
2 "DIAGRAMMER"I EXCEL 16 Figur 28 aksetitler vba. diagramværktøjet Layout. Man fjerner den overflødige forklaringsnøglen Antal længst ude til højre ved at markere den og trykke Delete. Efter lidt formatering af aksetitler, gitterlinjer og dataserie kan man få grafen i figur 29. Figur 29 En lidt pænere graf Man kan også plotte flere grafer i samme diagram. Vi supplerer tabellen fra figur 26 med en kolonne, som indeholder befolkningstallet i Danmark, se figur 30.
2 "DIAGRAMMER"I EXCEL 17 Figur 30 I regnearket markeres hele dataområdet, og man vælger indsæt punktdiagram. Efter lidt redigering fås diagrammet i figur 31. Figur 31 Man skal være lidt smartere, hvis tabellerne ikke indeholder de samme værdier på x-aksen. Lad os se på følgende to xy-tabeller (sildeben) indtastet i et ark, figur 32. Vi markerer området, der svarer til det første sildeben, og Figur 32
2 "DIAGRAMMER"I EXCEL 18 indsætter et punktdiagram som før. Figur 33 Højreklik på afbildningsområdet og klik på Vælg data...i det nye vindue vælges Tilføj i feltet Serienavn skrives f.eks. Graf 2,og som x-serieværdier markeres talværdierne for x fra det andet sildeben. Tilsvarende vælges y- serieværdierne som talværdierne for y fra det andet sildeben. Ved tryk på OK indtegnes Graf 2 i diagrammet. Figur 34 Lidt formatering af diagrammet giver figur 35 Figur 35
2 "DIAGRAMMER"I EXCEL 19 2.2.1 Den gode graf I de naturvidenskabelige fag kræver vi, at graferne ser ud på en bestemt måde, så de er overskuelige og nemme at aflæse. Nedenfor er en checkliste med de krav man stiller til en god graf overholde Grafen skal tegnes på ternet papir - helst millimeterpapir Der skal være titler på både første- og andenaksen med eventuelle enheder Akseindelingsenheden skal fremgå klart, dvs. hvor mange tern der er f.eks. 1 enhed Inddelingen af akserne skal vælges, så papiret udnyttes bedst muligt Brudte akser skal markeres med zigzag-linie Der skal være underordnede gitterlinjer, som ikke ligge må for tæt eller for spredt Når man tegner en graf i Excel, skal disse krav selvfølgelig også opfyldes, og det kræver en del formatering. Men man bør ikke lade sig nøje med en graf tegnet i Excel, der er dårligere end den graf, man kunne have tegnet i hånden på mm-papir. Fancy farver, sjove skrifttyper, mønstre i baggrunden osv. hører hjemme i reklamebrochurer og ugeblade.
3 REGRESSION 20 3 Regression I kapitel 2 har vi set på, hvordan man kan bruge Excel til forskellige grafiske beskrivelser af et talmateriale, og specielt har vi set på xy-plot, hvor vi lavede grafer, der viste sammenhængen mellem en værdi af x og den tilsvarende værdi af y. I nogle tilfælde bliver den tegnede graf så pæn, at man må forvente, at det er muligt at opskrive en ligning, der beskriver sammenhængen mellem x og y eller næsten gør det. Den ligning man finder, er så en model, som f.eks. kan bruges til at forudsige/fremskrive en udvikling eller opførsel. Hvis vi f.eks. i forbindelse med eksemplet med Kenyas befolkningstal side 16 kunne opstille en ligning for sammenhængen mellem årstallet og befolkningstallet, kunne vi lave et bud på befolkningstallet i år 2010 og regne tilbage til et befolkningstal år 1930. Meget eksperimentelt arbejde går ud på at finde sammenhængen mellem to talstørrelser ud fra måleresultaterne. 3.1 xy-sammenhænge og regression Når man skal finde en ligning, der beskriver sammenhængen, skal man selv afgøre hvilken type ligning, der er bedst. Når man har gjort det, kan Excel (og lidt større lommeregnere) overtage regnearbejdet. Den metode Excel bruger kaldes "mindste kvadraters metode" og man siger, at ligningen er fundet ved regression. Man må ikke forvente at finde en ligning der passer perfekt, men Excel kan finde den bedste indenfor den valgte type. De tre grundlæggende typer af sammenhænge er (a) lineære sammenhænge (b) eksponentielle sammenhænge (c) potens sammenhænge For at finde ud af hvilken type, man skal vælge, plotter man data i et xy-plot for at se, hvordan de ligger. 3.1.1 Lineær regression Den lineære regression giver en ligning på formen y = ax + b som svarer til en ret linje. Den bruges, når punkterne med god tilnærmelse ligger på en ret linje, eller man på forhånd ved, at de burde gøre det. Lad os se på et eksempel, som viser sammenhængen mellem trykket i forskellige dybder under havoverfladen.
3 REGRESSION 21 Dybde(m) 10 13 35 40 100 Tryk(atm) 1, 96 2, 25 4, 36 4, 84 10, 60 Først indtaster vi de to talsæt i Excel og markerer området Figur 36 Vi bruger først Indsæt: Punktdiagram kun med datamærker, fjerner forklaringsnøglen og tilføjer gitterlinjer (overordnede og underordnede), se figur 37. Figur 37 Punkterne ligger, så de næsten kan forbindes med en ret linje. Den bedste rette linje gennem punkterne finder vi nu på følgende måde. Vi højreklikker på et af datapunkterne og vælger Tilføj tendenslinje. I vinduet Formater tendenslinje, se figur 39, er den lineære regression allerede valgt til lineær, så vi supplerer med flueben ved Vis ligning i diagram, Vis R-kvadreret og lukker. Diagrammet indeholder nu den bedste rette linje gennem punkterne og dens ligning. På figur 39 ses, at den lineære sammenhæng mellem dybden x og trykket y er y = 0,096x + 1,008 Størrelsen R 2 kaldes forklaringsgraden. Almindeligvis regnes en model for acceptabel, hvis R 2 er over 0,95, og glimrende, hvis R 2 er over 0,99. Den lineære model passer altså glimrende på tallene.
3 REGRESSION 22 Figur 38 Figur 39 Hvis man gerne vil have regressionslinjen forlænget ud over punkterne, kan man højreklikke på den og under Prognose vælge, hvor mange enheder før og efter punkterne, man vil supplere med - vi vælger 10 begge steder og OK. Efter lidt yderligere formatering kan man få et plot som vist på figur 40. Grafen kan kopieres over i en opgave eller rapport. 3.1.2 Eksponentiel regression Den eksponentielle sammenhæng beskrives med ligning på formen y = ba x og svarer til en sammenhæng, hvor y ændres med den samme procent, hver gang x gøres 1 større. Eksponentielle sammenhænge bruges f.eks. til at beskrive befolkningsvækst, når man forventer at befolkningen vokser med en fast procent om år.
3 REGRESSION 23 Figur 40 Ligningen ovenfor kan også skrives y = be kx og det er denne notation som Excel benytter. Vi vil undersøge udviklingen i antallet af tankstationer i Danmark efter 1975 udfra tabellen År efter 75 0 5 10 15 20 Antal 5205 4397 3622 3031 2647 Først indtaster vi de to talsæt i Excel og følger fremgangsmåden som ved den lineære regression og tegner først et punktdiagram med datamærker, se 41. Vi højreklikker på et datapunkterne og vælger Tilføj tendenslinje. Under regressionstype sætter vi flueben ved eksponentiel og sætter igen flueben ved Vis ligning og Vis R-værdi... og vælger Luk. Efter lidt formatering fås plottet i figur 42 Den eksponentielle regression giver os sammenhængen y = 5180,3 e 0,0345x og modellen er igen rigtig god med en forklaringsgrad på 0,9968. Ved brug af en lommeregner kan man udregne e 0,0345 0,9661
3 REGRESSION 24 Figur 41 Punktdiagrammet let formateret Figur 42 og sammenhængen kan derfor også skrives y = 5180,3 0,9661 x Skrevet på denne form kan man faktisk se, at antallet af tankstationer aftager med ca. 3,4% om året (1 0,9661 0,034 = 3,4%). Excel gør, hvad man beder det om. Hvis vi højreklikker på tendenslinjen, kan vi ændre regressionstypen til lineær og får figur 43 Da forklaringsgraden er 0,9815, er den lineære model også god, men der vil meget stor forskel på de to modeller, hvis vi bruger dem til fremskrivning af udviklingen. Eksemplet viser, at datamaterialer ofte kan modelleres rimeligt godt på flere måder og det er ofte valget af model, der skal overvejes grundigt og kan føre til diskussioner (og politisk manipulation).
3 REGRESSION 25 Figur 43 Vender vi tilbage til Kenyas befolkningstal side 16, giver en eksponentiel regression figur 44. Figur 44 Regressionen giver y = 6000000 e 0,0338x = 6000000 1,0344 x med R 2 = 0,9963, et udmærket "fit"svarende til en befolkningstilvækst på 3,44%. På den anden side ser det nu ud til på grafen at væksten aftager mindre sidst i perioden. Modellen må kunne forbedres.
3 REGRESSION 26 3.1.3 Potensregression Den sidste simple type sammenhæng er potenssammenhængen, som svarer til en ligning på formen y = bx a Eksemplet denne gang er sammenhængen mellem tryktabet i en gasledning og gasstrømmen (som måles i m 3 pr. time) gennem ledningen. Tryktabet måles i mbar. Gasstrøm 0,5 1,0 2,0 3,0 4,0 5,0 6,0 8,0 10,0 Tryktab 0, 002 0, 008 0, 033 0, 075 0, 140 0, 203 0, 294 0, 522 0, 816 Når vi i et xy-punkt plot tilføjer tendenslinje af type "Strøm"fås diagrammet på figur 45 Figur 45
4 STATISTIK 27 4 Statistik Hvis man har en stor talmængde f.eks. fra en opionsundersøgelse, en biologisk undersøgelse eller datafangst i fysik og kemi, er det en rigtig god ide at bruge Excel. Med sine data tastet ind i et regneark, kan man spare mange tidskrævende operationer og undgå regnefejl og forglemmelser. 4.1 Diskrete observationer Hvis man har et diskret observationssæt, som vi skal beskrive ved de simple deskriptorer mindsteværdi, størsteværdi, middeltal, typetal, frekvensfordeling, spredning og kvartilsæt, er det nemt at udføre beregningerne i et regneark ved brug af formler. De næste sider sætter fokus på de muligheder, der er indbygget i Excel. Vi vil tage et eksempel med relativt få tal. På figur 46 ses antal rigtige, som deltagerne ved en multiplechoice-prøve med 21 spørgsmål opnåede. Figur 46 Tallene indtastes i et regneark, så det er nemt at markere celleområdet f.eks. i området A1:H13. Vi laver en oversigtstabel, som skal indeholde de statiske deskriptorer, se figur 47. Figur 47
4 STATISTIK 28 4.1.1 Observationssættets størrelse Nu placerer vi den aktive celle i tabellen ud for Antal prøver (figur 47). Vi peger nu på knappen Σ på værktøjslinjen (figur 48) og vælger Antal tal. Figur 48 Det stiplede område på figur 49 er det område, hvori Excel tæller antallet af tal. Figur 49 Vi markerer i stedet vores dataområde (eller skriver A1:H13), som vist på figur 50 og trykker ENTER. Antallet bliver 104, som er observationssættets størrelse. Optællingen kan vi også foretager ved brug af kommandoen =TÆL(A1:H13). =TÆL(celleområde) - giver antallet af tal
4 STATISTIK 29 Figur 50 4.1.2 Middeltal, mindsteværdi og størsteværdi På samme måde bruger vi valgmulighederne under knappen Σ på værktøjslinjen til finde middelværdi (=middeltal), størsteværdi og mindsteværdi. Resultaterne ses i figur 51. Antallet af decimaler på middeltallet har vi sat ned til 1. Figur 51 De benyttede formler er =MIDDEL(celleområde) - giver gennemsnittet =MAKS(celleområde) - giver det største tal =MIN(celleområde) - giver det mindste tal 4.1.3 Typetal, kvartiler og spredning I princippet findes de sidste 4 tal til tabellen og spredningen også på denne måde, men man skal lige have fat på de rigtige funktioner ved at vælge Flere funktioner og lede i kategorien statistik. Det er langt nemmere at indtaste
4 STATISTIK 30 formlerne =HYPPIGST(celleområde) - giver typetallet =KVARTIL(celleområde; x) x = 1 nedre kvartil, x = 2 median, x = 3 øvre kvartil (x = 0 mindsteværdien og x = 4 størsteværdien) =STDAFVP(celleområde) - giver spredningen (population) Figur 52 Den udfyldte tabel 4.1.4 Hyppigheder, frekvenser og stolpediagrammer Vi starter med at finde hyppighederne af observationerne i eksemplet. Først laver vi en tabel med observationerne i regnearket. Det celleområder, som skal indeholde hyppighederne markerer vi, se figur 53. Figur 53 Figur 54 I formellinjen taster vi =FREKVENS(, og under formlen kan vi se syntaksen, se figur 54. "Datavektor"er dataområdet A1:H13 og "intervalvektor"er celleområdet med observationerne. Vi indtaster A1:H13 (eller markerer med musen) efterfulgt med et semikolon ; og celleområdet A29:A36. Indtastningen skal nu afsluttes med Ctrl+SHIFT+ENTER.
4 STATISTIK 31 Hyppighederne bliver nu sat ind i det markerede område, se figur 55. Figur 55 Når vi vil lave en tabel med frekvensfordelingen, kan vi bruge formler, figur 56. Figur 56 Vi kopierer formlen ned gennem kolonnen. Herefter kan vi formatere til procent med 1 decimal og få tabellen i figur 57. Figur 57
4 STATISTIK 32 For at få tegnet et stolpediagram over frekvenserne, markerer vi først frekvenserne i tabellen, vælger "Indsæt"og indsætter "2D-søjlediagram", se figur 58. Herved fremkommer søjlediagrammet på 59. Figur 58 Figur 59 Vi skal have tilføjet observationerne på den vandrette akse. Vi markerer diagramområdet ved at klikke på dette og vælger "Vælg data"(figur 60). Figur 60 Figur 61 I vinduet "Vælg datakilde"(figur 61) vælger vi "Rediger"under "Vandret(Kategori) akseetiketter"og markerer kolonnen med observationer (figur 62).
4 STATISTIK 33 Figur 62 Vi afslutter med et tryk på OK og kommer tilbage til Vælg datakilde, hvor vi vælger OK. Herved får vi histogrammet på figur 63. Figur 63 I dette kan vi maximere afstanden mellem søjlerne (under Indstillinger i Formater dataserie sættes mellemrumsbredde til 500), fjerne serieetiketten mm. og få følgende diagram Figur 64
4 STATISTIK 34 4.1.5 Boxplots Boxplots tegnes bedst og hurtigst i hånden eller GeoGebra. Der findes ingen færdige boxplots-faciliteter i Excel, men man kan dog godt tegne boxplots. Boksplot tager udgangspunkts i de fem tal minimum, 1.kvartil, median, 3.kvartil og maximum. Vi vil tegne boksplottet for resultaterne i multiplechoice resultatet, så vi tager udgangspunkt i tallene min 1.kvartil median 3.kvartil max 13 15 17 18 21 Vi laver nu en tabel i Excel Figur 65 Vi markerer hele tabellen og indsætter et 2-D liggende søjlediagram af typen: stablet (figur 66). Vi bytter herefter om på rækker og kolonner ved klik på "Skift række/kolonne"under Diagramværktøjer. Herved fremkommer diagrammet på figur 67. Figur 66 Figur 67 Vi formaterer først den første blok med etiketten 1.kvartil. Højreklik på denne og vælg Ingen udfyldning. Under kantfyld vælges Streg og sort farve. Formaterer de to andre blokke på samme måde. Slet den lodrette akse og de lodrette gitterlinjer. Herved har vi diagrammet på figur 68. Figur 68
4 STATISTIK 35 Nu mangler vi kun at tilføje antennerne og fjerne en kant om den første boks. Marker den første blok, vælg fanebladet Layout under Diagramværktøjer. Vælg Flere indstillinger under Fejllinjer, se figur 69 Figur 69 Her vælger vi fejllinjen Minus med Fejlmargen: Fast værdi til 2, som er afstanden fra 1.kvartil til min og luk. Figur 70
4 STATISTIK 36 Vi markerer den tredje blok, tilføjer en vandret fejllinje Plus med Fejlmargen: Fast værdi 3 og luk. Vi er nu næsten færdige, se figur 71. Figur 71 Endelig fjerner vi kanten om den første boks (vælg ingen streg som kantfarve), sletter forklaringerne ude i siden og formaterer den vandrette akse, så den begynder i 10. Herved har vi fået tegnet boksplottet i figur 72 Figur 72 Nu kan vi formatere videre efter behov.
4 STATISTIK 37 4.2 Grupperede observationer Vi tager udgangspunkt i tallene i figur 73, som er indsat i et regneark, og som viser nogle biologers opmåling af fiskeyngels længde i mm. Figur 73 Længder af fiskeyngel Først skal materialet grupperes. Man kan altid sortere tallene efter størrelse i hver af kolonnerne for at få et overblik over deres størrelser og fordeling. Tallene ligger mellem 100 til 260, og vi vælger en inddeling i intervaller af længde 20. Vi skal først finde intervalhyppighederne. Det gør vi ved at få Excel til at optælle, hvor mange observationer, der er i hvert interval. I Excel indtaster vi først de tal, som er de største tal i vores intervaller, se figur 74. Figur 74 Vi vælger "Data/Dataanalyse/Histogram"på menulinjen. Figur 75 viser den
4 STATISTIK 38 dialogboks, der kommer frem. Figur 75 I Inputområdet skrives nu adresserne på vores tal og i intervalområdet adresserne på intervalendepunkterne (marker området og ENTER). I Output skriver vi adressen på en celle, hvor vi vil have placeret hyppighedstabellen. Sæt yderligere flueben ved Kumulativ frekvens og Diagramoutput, og tryk OK. Herved får vi tabellen og diagrammet på figur 76. Figur 76 Her kan vi aflæse intervalhyppighederne samt de kumulerede frekvenser, som bruges til tegning af sumkurven. Hvis vi vil lave en tabel med intervallerne og deres frekvens, kan vi gøre dette ved at redigere i en kopi af tabellen. Vi kopierer tabellen og sletter indholdet i tredje kolonne. Som ny overskrift skriver vi Frekvens og for at udregne frekvenserne, skal vi lige have beregnet antallet af observationer.
4 STATISTIK 39 Det er selvfølgelig summen af hyppighederne, så vi aktivere en tom celle et sted i arket og udregner summen ved brug af Autosum Σ til 132. For at få intervalfrekvenserne skal vi nu dividere intervalhyppighederne med 132, og det gør vi let ved kopiering af celleindhold ned igennem kolonnen. Tabellen forbedres ved at slette den nederste række, skrive intervallerne korrekt, reducere antallet af decimaler på frekvenserne (brug værktøjslinjen) og centrere alle celler, se figur 77. Figur 77 Udfra tabellen kan man få tegnet et søjlediagram, der minder om et histogram. Excel bruger frekvensen som højde på søjlerne og ikke arealet og overser evt. længdeforskelle på intervallerne. I vores tilfælde gør det ikke noget. Efter diverse formateringer kan vi få tegnet histogrammet på figur 78. Figur 78 Sumkurven, som kan bruges til aflæsning af kvartilsættet og andre fraktiler, har Excel næsten tegnet i forbindelse med beregningen af hyppigheder. Vi får den frem ved at redigere i diagrammet på figur 76. Først fjerner vi forklaringen ved klik og delete. Vi sletter Mere i cellen i tabellen og kolonnen med hyppigheder, og så forsvinder teksten og søjlerne også i diagrammet. Så
4 STATISTIK 40 tilføjer man gitterlinjer og formaterer løs på akserne og akseetiketterne og få en sumpolygon som vist på 79. Figur 79 Det er hurtigere at tegne sumkurven på alm. ternet papir udfra tabellen i figur 76, som også kan bruges til at lave en tabel over de kumulerede intervalfrekvenser.