1 Handout: Kursus for 3F i datajournalistik Program: 9-10.15 Datajournalistik i dagligdagen (niveau begynder) Fra case til perspektiv og omvendt De grundlæggende formler i Excel Datajournalistik som en del af researchen 10.15-10.30 Pause 10.30-12 Analyse af større dataset De tungere talhistorier planlægning og analyse Autofilter og betinget filter Samle to dataset i praksis (evt. hurtig gennemgang) 12-12.30 Frokost 12.30-13 Faste og løbende priser Omregne til faste priser (evt. hurtig gennemgang) 13-13.10 Pause 13.10-14 Pivot tabel få let overblikket over rådata Avanceret internetresearch 14-16 Opbyg din egen søgemaskine mm.
2 Datajournalistik i dagligdagen De grundlæggende formler i Excel Hver celle i Excel har et navn, som er en kombination af bogstaver, der beskriver den vandrette akse og numre, som beskriver den lodrette. Plus og minus Når man regner, stil dig i en celle og begynd alle regnestykker med = Skal tal i to celler lægges sammen, så skriv altid cellernes navne =A3+B2 betyder, at vi lægger tallet i A3 sammen med B2 Procent Som journalister vil vi ofte gerne beregne en udvikling i procent. Hvis du gerne vil regne udviklingen fra i dag i forhold til for tre år siden, gør du følgende: Indtast først =(tryk på cellen som indeholder tallet for i dag cellen med tallet for tre år siden)/tallet for tre år siden. Altså i dette eks.: =(C4-A4)/A4
3 Vis tal, tekst, procent og dato Marker et område og tryk Control 1 (æble 1), hvis du vil styre, hvordan Excel opfatter de enkelte celler. I vores eksempel med procenter fra før, viser Excel, at vores resultat af regnestykket er 0,37, men vi vil gerne vise tallet som procent. Tryk derfor på procentknappen. Excel ganger nu automatisk med 100 og skriver procent bagefter. Decimaltallet 0,37 vises som 37 procent. Kommandoen er også god at kende, når det gælder om at få vist datoer korrekt. De to vigtigste formler, når det gælder udvikling Udviklingen i faktiske tal =c3-a3 Udviklingen i procent =(c3-a3)/a3 (C3 rummer i det her eksempel tallet for 2012 og A3 tallet for 2011. Vi regner ud, hvad udviklingen har været fra det ene år til det andet) Andre nyttige formler er blandt andet: Gennemsnit: =middel(a1:a10) Median: =median(b1:b30) Sum: =sum(a1:a30) a1: a10 angiver, hvor gennemsnittet skal laves i regnearket. b1: b30 angiver, hvor gennemsnittet skal laves i regnearket. a1: a10 angiver, hvor gennemsnittet skal laves i regnearket. Øvelse 1: Klik på dette link og hent tallene (tryk dernæst file og download) Begynd med fanebladet alle køn Hvis du ikke kan se alt, hvad du har behov for, så tryk med musen mellem kolonnerne og træk frem og tilbage. De mange tal virker uoverskuelige. Marker hele kolonne C, tryk dernæst på knappen Vis i menulinjen og vælg frys ruder Tal med din sidemand: Hvilke beregninger ville være mest interessante at lave for at vise udviklingen? Og udfør dem så
4 Kopier beregninger Du behøver ikke taste beregninger ind igen og igen. Excel lader dig let kopiere dine beregninger fra en celle til en anden. Når du har lavet en beregning tryk på musen i nederste højre hjørne af cellen. Du kan nu hive beregningen ned, så den gælder alle rækker under. Fif: Dobbeltklik på højre hjørne og beregningerne kopieres videre til et helt område. Fif2: Hele områder med beregninger kan kopieres fra et ark eller faneblad til et andet. Øvelse 1: Kopier beregninger til arket mænd og kvinder 1) Beregninger fra fanebladet alle køn, kan nu kopieres i en hel blok videre til fanebladet mænd og kvinder. Tjek at beregningerne er ok ellers forplanter fejlene sig. 2) I fanebladet alder vil vi gerne beregne, hvor mange som er på offentlig forsørgelse under 30 år og evt. over 55 år. Begynd at lave beregningerne i celle C315 og kopier så beregninger til de øvrige celler. Tjek at alt er ok. Indsæt speciel gør formler til tal For bedre at kunne overskue de nye tal med unge under 30 år på forsørgelse, vil vi gerne kopiere dem over i et nyt regneark. Marker det område, som du gerne vil kopiere. Tryk control C eller højreklik og kopier. I det nye regneark tryk på musen, hvor du gerne vil sætte ind. Højreklik og vælg nu: Indsæt speciel. Vælg at det, som skal indsættes, skal være tal. Området med unge under 30 år bygger nu ikke længere på formler, men er gjort til tal.
5 Sådan tackler du online databaser Hvis du skal bruge datajournalistik i dagligdagen er det vigtigt at vide, hvad der findes af gratis statistik. Forvent at der er tal på næsten alt. Ministerier, styrelser, kommuner mm. har ofte detaljeret statistik. Gode databaser inden for arbejdsmarked er blandt andet: www.statistikbanken.dk (Danmarks Statistik, også mulighed for særkørsler) www.noegletal.dk (De kommunale Nøgletal, Indenrigsministeriet) http://www.ast.dk/tal_fra_ankestyrelsen/ (Ankestyrelsen) www.jobindsats.dk (Arbejdsmarkedsstyrelsen, mulighed for særopgørelser) http://fldnet.dk/statistik/lpx7/ (De kommunale Nøgletal, Lopaks) http://dst.dk/da/statistik/international-statistik/efter-emne.aspx (International statistik efter emne) Undersøg en ting ad gangen I de online databaser er der ofte muligt at vælge flere ting ved at klikke i bokse eller gennem menuer. Gør det enkelt for dig selv og vælg at undersøge en ting ad gangen, så drukner du ikke i uoverskuelige tal. I denne tabel er det muligt at undersøge følgende: Område, ydelse, alder, køn og selvfølgeligt år 1) Først kigger jeg på hele landet, alle ydelser og år. 2) Dernæst kigger jeg på køn, alle ydelser, hele landet og år 3) Til sidste undersøger jeg alder, evt. alle ydelser eller en enkelt og år. Hvis en ting viser sig at være særligt interessant, kan jeg også trække den ene ting ud og kigge på alle kommuner.
6 Øvelse: Træk tal ud fra Danmarks Statistik, tal med sidemanden om, hvad strategien kan være, når tallene skal downloades og gør det så. Kig også på andre databaser og træk tal ud. Pas på databrud Opgørelsesmetoder kan ændre sig gennem årene, og det påvirker statistikken. Måske indsamler man tallene på en anden måde eller kategorierne ændrer sig. Sørg for at sikre, at tallene kan sammenlignes over tid. Ring til den statistik-ansvarlige og se varedeklarationen, hvis den findes. Sortering: Find det vigtigste i regnearket Som journalist vil vi gerne sortere i store regneark, så vi hurtigt finder ud af, hvor er udviklingen steget eller faldet mest? Ting der stikker ud i positiv eller negativ retning er interessante. Med en sortering rydder vi op i regnearket. Bagefter er de interessante ting at finde i toppen og bunden af arket. Sådan virker en sortering Tag en sikkerhedskopi af arket først, hvis noget går galt! Marker hele området med tallene. (Det duer ikke, hvis du kommer til kun at sortere på en kolonne, så tal fra Esbjerg pludseligt hører til Frederikshavn.) Tryk data og sorter. Vælg den kolonne, som skal sorteres efter. Her har du ofte lavet dine beregninger og tryk ok. Her vil du ofte sortere fra mindste til største. Vælg hvilken kolonne, som du vil sortere efter. Klik evt. i boksen, dataene har overskrifter, så vises navnene på kolonnerne her Når det drejer sig om kommunenavne, vil man ofte sortere fra A-Å. På den måde kan man få kommuner fra to forskellige regneark til at stå i ens alfabetisk rækkefølge. Efterfølgende er arket klar til
7 Analyse af større dataset Større dataset giver mulighed for at undersøge data på mange forskellige måder. De mange oplysninger fordeles efterfølgende i bidder, som kan blive til en helt stribe historier. Skyd ikke alt krudtet af på en gang. Det trætter læseren at blive druknet i tal, men hold fokus på et emne ved at gemme oplysninger. Spørgsmål til større dataset Brainstorm på muligheder i materialet: Hvad kunne tallene rumme af interessante historier? Hvad er de forskellige vinkler, og hvad ville være mest interessant at finde frem til? Skal tallene sættes i forhold til noget andet? F.eks. kommunernes indbyggertal? Eksempel på spørgsmål til Arbejdstilsynet ved større smiley-analyse Øvelse 2: Analyse af daginstitutionsregistret Hent tallene på dette link (tryk file og download) Tal først sammen med din sidemand. Hvad er værd at undersøge? Hvad kunne være interessante historier?
8 Betinget formatering: Farv de interessante tal Det giver overblik, når de mest interessante tal bliver farvet i et regneark. Måden at gøre det på er ved at bruge Betinget formatering. Funktionen findes i startfanebladet i Excel under Typografier. Marker den kolonne eller det område, som du ønsker at behandle Vælg at tal som er større eller mindre end osv. skal farvelægges Det er også muligt at farve Dupletter i regnearket. Dupletter skal nogle gange sies fra for at rense rådata.
9 Autofilter: Udvælg hvad du har brug for Større dataset kan være overskuelige at gå til. Med autofilter udvælger du de informationer, som du ønsker at arbejde videre med, mens resten skjules i arket. Kopier det udsnit af tallene, du gerne vil arbejde videre til et nyt ark. Sådan slår du autofilteret til Marker alle tal i regnearket, hvor du ønsker at bruge filteret Tryk på data og filter og slå autofilteret til Vælg hvilken kolonne, hvor du vil benytte filteret og udvælg information Auotilteret giver mulighed for at filtrere tallene på mange forskellige måder. For eksempel viser talfilteret alle tal, som er større-, mindre end eller ligger inden for et givent interval. Det brugerdefinerede filter kan bruges til at udvælge bestemte ord, som kolonnen skal indeholde Det er også muligt at filtrere efter farve. På den måde kan du først farve tekst med betinget formatering og derefter filtrere det med autofilter. Man kan filtrere flere kolonner af gangen. Kopier den del, som du har valgt og sæt ind i et nyt faneblad eller regneark. Husk at skrive ned, hvilken præcis filtrering du har lavet, så du har fakta på plads op til offentliggørelsen.
10 Øvelse 2: Brug autofilter til optælling Brug tallene fra daginstitutionsområdet fra før: Hent tallene på dette link (tryk file og download) Hvor mange aldersintegrerede institutioner har flere end 150 børn? Hvor mange vuggestuer har over 80 børn? Begynd at lave et faktaark med størrelse på daginstitutioner i forskellige intervaller. Sådan gør du: Brug autofilteret til at udvælge, hvad du vil kigge på. Kopier det udvalgte videre til et nyt regneark og se, hvor mange rækker der er fra top til bund. Skriv tallet ind i faktaboksen. I dette eksempel er der 1614 rækker med information- Øvelse 3: Brug autofilter til at sortere i teksten Autofilteret kan også bruge ti at udvælge de interessante dele af en tekst. Se for eksempel dette regneark, som er en webscrabing af udbud.dk for Ugebrevet A4. Regnearket viser offentlige udbud uden sociale klausuler. Man kan bruge autofilteret til at søge efter ministerier, styrelser osv. Download tallene med udbud på dette link (tryk file og download)
11 CSV filer til Excel Nogle gange kommer data som en CSV fil. (Download dette eksempel fra noegletal.dk) En CSV fil er kendetegnet ved, at der ofte er semmikolon, komma eller tabulator mellem alle tallene. Når man åbner en CSV fil klumper tallene sammen i en kolonne i venstre side. For at få tallene til at stå pænt, vælg først Data i fanebladet og dernæst Tekst til kolonner. I det her tilfælde vælg afgrænset og dernæst at tabulator fungerer som en skiller. Tryk på udfør. Nu står tallene pænt.
12 Omregne til faste priser For at kunne sammenligne priser over tid, er det nødvendigt at rense for inflation. Ellers får man kun historier om, at tingene stiger og stiger i pris, men det giver ikke den store mening at konstatere, at en is kostede 5 kroner i 1980, men 12 kroner i dag. Lønningerne er fulgt med op, så prisstigningen er ikke nødvendigvis et problem. Når man taler priser i statistik, snakker man om to ting: Løbende priser er de priser, som man faktisk betaler. Altså er ens kassebon, benzinregninger, huslejer osv. alt hvad man betaler i løbende priser. Faste priser betyder, at vi har renset tallene for inflation, så de kan sammenlignes over tid. Forbrugerprisindekset Danmarks Statistik laver løbende et forbrugerprisindeks, som viser, hvad varer koster gennem tid. Forestil dig, at Danmarks Statistik år efter år køber de samme varegrupper, men så noterer ned, hvad prisen er år for år. Hvis indekset fx i 1980 var 43,2 betyder det, at en given mængde varer kostede 43,2 kroner. I 2011 er indekset 125,8. Det er så prisen på de samme varer i 2011. Se forbrugerprisindekset her Omregning til faste priser Ofte har du som journalist en lang række priser, som knytter sig til forskellige år. Sådan omregner du dem til faste priser, så de kan sammenlignes over tid: =(det seneste forbrugerprisindekset / forbrugerprisindekset tilbage i tiden)*prisen Et eksempel: Prisen på en is kostede 5 kroner i 1990. I 2012 koster den 18 kroner. Indekset for 1990 er 80,9 og indekset for august 2012 er 129,2. (Se forbrugerprisindekset) Omregnet til faste priser kostede isen altså: =(129,2/80,9)*5 = 8 kroner
13 Pivottabel: Multiværktøjet til rådata og større dataset Pivottabellen er et af det mest effektive værktøjer i Excel, når det gælder større dataset. Den avancerede tabel laver optælling af regnearket. Har du for eksempel en lang kolonne med virksomheder og kommuner nævnt, kan Pivot tælle op, hvor mange virksomheder, er er i hver enkelt kommune. Tabellen kan også regne sammen, hvor mange ansatte virksomhederne i de enkelte kommuner har, hvis tallet findes i data. Sådan virker det 1) Marker hele det område i regnearket, som du gerne vil bruge pivottabellen på. (det er vigtigt, at celler ikke er lagt sammen, men har samme størrelse i markeringen ellers virker tabellen ikke) 2) Vælg fanebladet "Indsæt" og "Pivottabel" Denne boks spørger dig, hvor pivottabellen skal gemmes. Ofte vil du bare gerne have den i et nyt regneark, hvor du samler de nye informationer. Det er også muligt selv at pege på præcist, hvor tabellen skal sættes ind ved at vælge "eksisterende regneark" 3) I tabellen trækker du nu ting ind, som du gerne vil tælle sammen. Feltliste: Fra denne boks kan du trække kategorier ned i raportfilter, kolonne-, rækkenavne og værdier Rækkenavne: Her trækker du det ned, som du gerne vil tælle. Værdier: Her definerer du, hvad der skal tælles Ofte vil du trække det samme ned både i rækkenavne og værdier Kolonnenavne: Her har du mulighed for at undersøge endnu et parameter
14 Eksempel på brugen af pivottabel Stamdataregistret for Vindmøller rummer oplysninger om samtlige møller i Danmark. Jeg vil gerne finde ud af, hvor mange møller, som er i hver kommune og hvem der har bygget dem. Først markerer jeg data, (fra linje 6 og ned i regnearket) trykker på "indsæt" og "pivottabel". (Hent selv tallene på dette link, tryk file og download) I feltlisten kan jeg styre, hvad jeg gerne vil undersøge. Her vælger jeg, at jeg vil undersøge, hvem der har bygget møllerne ("fabrikant") i hver enkelt "kommune". Det der skal tælles kommer i rækkenavne Her vil jeg gerne vide, hvor mange møller, som er i hver enkelt kommune. "Kommune" trækkes til rækkenavne Værdier viser, hvad der skal tælles Samtidig trækker jeg også "kommune" ned i kassen værdier, fordi det er antal møller i kommunerne, som skal tælles. Kollonnenavne viser ekstra elementer jeg er interesseret i Jeg vil gerne vide, hvor mange vindmøller Vestas, Bonus osv., som findes i hver kommune. Derfor hiver jeg "Fabrikant" ned i kolonnenavne. Var jeg interesseret i størrelsen på vindmøllerne, rotordiameter eller noget andet kunne jeg også hurtigt droppe det ned i dette felt. Tæl vindmøller per år i kommunerne Ved at trække de forskellige år ind i boksen værdier, tæller pivottabellen, hvor mange gange kommunen er nævnt per år. Altså hvor mange møller er i hver kommune for hvert år 2006-11.
15 Lav udregninger med pivottabbellen Pivottabbelen kan lave en række udregninger lynende hurtigt. Tryk på pilen under værdier og vælg værdifeltindstillinger. % af række Med et tryk på Vis værdier som, kan man styre visningen. Måske vil du vise værdier, som % af hovedtal. Gør du det med vindmølletallene, får du at vide, hvor stor andel møller, som er placeret i hver kommune. Antal, sum eller gennemsnit Værdifeltindstillingerne gør det muligt at lave en række beregninger hurtigt. Vælger du Antal tæller Excel op, hvor mange gange noget er nævnt. Med Sum lægger Excel tallene, som nævnes sammen. Bruger man sum på vindmølletallene, vil den regne den samlede sum ud for strøm produceret i hver enkelt kommune. Øvelse 4: Brug pivottabllen OPG1 Hent vindmølletal på dette link, tryk file og download. Hvor mange vindmøller er der i hver kommune? Hvad med udviklingen over tid? Hvilken kommune har den største andel af møllerne? OPG2 Hent smileydata på dette link, tryk file og download. Find historier vha. pivottabellen.